News and events Tilburg University

Goede robotjournalisten hebben meer ontwikkeling nodig

Published: 11 november 2022 Laatst bijgewerkt: 14 november 2022

1 stemmen.


In onze samenleving zijn gigantische hoeveelheden data beschikbaar: denk bijvoorbeeld aan weerinformatie, financiële gegevens, sportstatistieken, die nog niet zijn weergegeven in taal. Al dit soort data zou onze levens kunnen verbeteren, door ons begrip van de wereld te vergroten en ons te helpen acties te ondernemen. Maar in heel veel gevallen is beschikbare ruwe data te veel en te onduidelijk om te begrijpen. Hoe die data inzichtelijker te maken onderzocht Chris van der Lee in zijn proefschrift waar hij op 25 november op gaat promoveren.

Data-to-text systemen zijn bij uitstek bruikbaar als tool voor het verwerken van ruwe data. Dit zijn computerprogramma’s die data (bijvoorbeeld de dagtemperaturen, hoeveelheid neerslag, windkracht, etc. voor een bepaalde locatie) automatisch omzetten naar begrijpelijke, natuurlijke tekst (een weerbericht). Het voordeel van dit soort systemen is dat we aan de hand van tekst ook uitleg kunnen geven over bijvoorbeeld de achtergrond, context, en voorwaarden van de cijfers en statistieken die eraan ten grondslag liggen. 

Wat alleen opvallend is, is dat de meeste data-to-text systemen die gebruikt worden—voornamelijk door media, waar ze robotjournalisten genoemd worden—technologisch nog niet zo erg geavanceerd zijn. Ze maken gebruik van sjabloonteksten in combinatie met simpele, handgeschreven, regeltjes voor de toepassing van die sjablonen. 

Met nieuwe zelflerende machine learning modellen is het in theorie mogelijk om de stap van het handmatig regels schrijven over te slaan en dit aan de computer over te laten. Als de computer het regels leren ook competent doet, dan kan deze de onderliggende logica van een tekst zelfs beter gaan begrijpen dan een programmeur dat kan met handgeschreven regels. Dit zou op zijn beurt resulteren in natuurlijkere teksten. 

Toepassingen in de industrie

Toch worden die machine learning data-to-text systemen in de industrie nog niet gebruikt. Dit heeft onder andere te maken met de manier waarop deze modellen leren. Data-to-text systemen hebben namelijk heel veel voorbeelden van data, gepaard met de tekstuele vertaling, nodig. Zoiets komt bijna niet in een natuurlijke setting voor, wat betekent dat het veel investering qua tijd en geld kost om genoeg voorbeelden te creëren.

Chris van der Lee probeert deze problemen van machine learning modellen aan te pakken om ervoor te zorgen dat ze gemakkelijker bruikbaar worden in de industrie. Hij heeft bijvoorbeeld nieuwe machine learning data-to-text systemen ontwikkeld die meer inzicht bieden in hoe de modellen leren, en een nieuwe methode voor het efficiënt verzamelen van geschikte voorbeelden waar machine learning modellen mee kunnen leren. 

Contact
Chris van de Lee promoveert op 25 november om 13.30 in de aula van de universiteit met livestream. Zijn proefschrift is getiteld: 'Next Steps in Data-to-Text Generation: Towards Better Data, Models, and Evaluation'.  Voor meer informatie kunt u contact opnemen met wetenschapsredacteur Tineke Bennema, persvoorlichters@tilburguniversity.edu of tel. 013 4668998.