Onderzoek Humanities and Digital Sciences

De onderzoekers van de Tilburg School of Humanities and Digital Sciences duiden de veranderingsprocessen in de hedendaagse samenleving op het gebied van communicatie en cultuur en analyseren de onderliggende morele en ethische vraagstukken.

Geografische locaties voorspellen op basis van vermeldingen in tekst

Is het mogelijk de geografische ligging van steden te voorspellen alleen op basis van de manier waarop ze in teksten genoemd worden? Met het simpele gegeven dat steden die dicht bij elkaar liggen ook dicht bij elkaar vermeld worden, hebben data scientist Max Louwerse van de Tilburg School of Humanities en zijn collega’s aangetoond dat dat inderdaad mogelijk is.

De techniek die zij gebruikten, kan worden toegepast om op basis van social media data te voorspellen waar zich veiligheidsrisico’s voordoen en kan helpen archeologische vindplaatsen te voorspellen.

Louwerse en zijn collega’s berekenden een frequentiematrix van de vermeldingen van de grootste steden in de Verenigde Staten in The New York Times, The Wall Street Journal enThe Los Angeles Post. Die werd omgezet naar een tweedimensionaal diagram, waarbij de x- en de y-as de lengte- en breedtegraad weergeven.

In meer technische zin pasten de onderzoekers Latente Semantische Analyse (LSA) toe, een techniek uit de computerlinguïstiek waarbij de semantische associatie tussen de woorden gemeten wordt door cosinuswaarden tussen de woordvectoren te berekenen. De resulterende matrix werd daarna geanalyseerd met Multidimensional Scaling, waarbij de resultaten van de plaatsnamen gecorreleerd werden met de lengte- en breedtegraad waarop ze liggen.

Interessant genoeg werden er in de door de computer berekende schattingen ook denkfouten gevonden die mensen maken bij het inschatten van geografische locaties.

Dit onderzoek, dat eerst met Engelse teksten als input werd verricht, is ook gedaan in andere talen, zoals in het Chinees om geografische locaties in China te voorspellen en in het Arabisch om plaatsen in het Midden-Oosten te traceren. Zelfs Middenaarde kon in kaart worden gebracht uitsluitend op basis van het boek In de ban van de ring.

Maatschappelijke betekenis

Hoewel dit project wellicht een ivorentorenstudie lijkt, levert dit soort onderzoek belangrijke voordelen op voor de samenleving. Het werk is gefinancierd door inlichtingendiensten om potentiële veiligheidsrisico’s te voorspellen op basis van berichten op de sociale media. Daarnaast hebben de onderzoekers onlangs kansrijke locaties voor archeologische opgravingen voorspeld met behulp van het Indus Schrift.

Door middel van technieken uit de computerlinguïstiek kan dus betekenis uit taal worden afgeleid die ons inzicht geeft in zowel de fysieke wereld om ons heen als in menselijk gedrag.


Bibliografie

  • Louwerse, M. M. & Benesh, N. (2012). Representing spatial structure through maps and language: Lord of the Rings encodes the spatial structure of Middle Earth. Cognitive Science, 36, 1556-69.
  • Louwerse, M.M., Cai, Z., Hu, X., Ventura, M., & Jeuniaux, P. (2006). Cognitively inspired natural-language based knowledge representations: Further explorations of Latent Semantic Analysis. International Journal of Artificial Intelligence Tools, 15,1021-1039

  • Louwerse, M.M.  & Zwaan, R.A. (2009). Language encodes geographical information. Cognitive Science, 33, 51-73.

  • Recchia, G. & Louwerse, M.M. (in press). Archaeology through computational linguistics: Inscription statistics predict excavation sites of Indus Valley artifacts. Cognitive Science.