Blad met gegevens, foto Vladislav Bulatov

Zorgvuldig omgaan met persoonsgegevens in onderzoeksdata

Dataset op basis van webscraping

Naast openbare datasets wordt regelmatig gebruik gemaakt van webscraping uit (semi) openbare bronnen. Als een onderzoeker fora, social media of andere (semi) openbare websites wil scrapen, kan er sprake zijn van auteursrecht en gebruiksvoorwaarden van de openbare bron.

Wat is webscraping?

een computertechniek waarbij software wordt gebruikt om informatie van webpagina's te extraheren en al dan niet te analyseren. Meestal probeert de software een deel van het world wide web te onderzoeken via gebruik van het op codes gebaseerde Hypertext Transfer Protocol (HTTP), of door het surfgedrag met een webbrowser te simuleren?

Het gebruik van webscraping

Voor wetenschappelijk onderzoek mag een onderzoeker door middel van webscraping onder woorwaarden persoonsgegevens verwerken indien deze openbaar zijn en zijn verzameld met een vergelijkbaar doel. Dit geldt ook voor bijzondere persoonsgegevens die door betrokkene zelf duidelijk openbaar zijn gemaakt.

Let op: Er kan sprake zijn van auteursrecht en gebruiksvoorwaarden van de openbare bron. 

Daarnaast dient de onderzoeker ook rekening te houden met de context waarin de openbare informatie geplaatst is. De openbare informatie mag gebruikt worden voor wetenschappelijk onderzoek als deze met het doel is geschreven. Dit geldt ook nadrukkelijk voor bijzondere persoonsgegevens die door de respondent zelf duidelijk openbaar zijn gemaakt.

Een aantal voorbeelden ter verduidelijking:

 • Indien een onderzoeker blogs van AirBnB gebruikt (waarin reizigers hun ervaringen weergeven) die openbaar zijn om na te gaan of toeristen etnocentrisch zijn.
  Bij het schrijven van de blogs hadden auteurs niet kunnen vermoeden hoe hun teksten gebruikt zouden gaan worden en zouden zij mogelijk geen toestemming hebben gegeven als daarom gevraagd zou zijn. Deze informatie mag dan niet gebruikt worden en de onderzoeker dient dan expliciete toestemming te vragen aan de auteurs van de blogs.
 • Indien een onderzoeker gebruik maakt van een openbare blog op Facebook waarin iemand schrijft over persoonlijke ervaringen bij kanker, met als doel lotgenoten en naasten te informeren.
  In dit geval mag de onderzoeker deze informatie wel gebruiken indien hij deze informatie gebruikt om ervaringen van patiënten te vergelijken.
 • Indien een onderzoeker gebruik maakt van een blog op besloten forum die niet openbaar is (maar waar onderzoeker met het doel van het onderzoek toegang tot krijgt) mag het niet gebruikt worden voor wetenschappelijke doelen.

Het vaststellen van rechtmatigheid en doelbinding

Indien in een wetenschappelijk onderzoek persoonsgegevens verwerkt worden dan dient eerst de zogenaamde rechtmatigheid en doelbinding te worden vastgesteld. Hierna dienen de zogenaamde materiele vereisten in acht te worden genomen om te zorgen dat zorgvuldig met persoonsgegevens wordt omgegaan.

Rechtmatigheid

 • Hebben we een wettelijke grondslag grondslag voor verwerking?

Doelbinding

 • Wat willen we gaan doen?

Materiele vereisten

 • Gaan we zorgvuldig met de Persoonsgegevens om?

Verwerkingsgrondslag 

Verwerkingsgrondslag bij wetenschappelijk is onderzoek waarbij een nieuwe dataset wordt opgezet waarbij onderzoeksdata worden verzameld zonder deze direct van respondenten te verkrijgen is: Gerechtvaardigd belang. De onderzoeksdata worden in dit geval verzameld aan de hand van door de respondent zelf openbaar gemaakte informatie.

Voorbeeld:

 • Opzetten nieuwe dataset aan de hand van webscraping.

Bijzondere persoonsgegevens

Bijzondere persoonsgegevens mogen volgens de AVG alleen op strikte voorwaarden verwerkt worden. Voor wetenschappelijk onderzoek geldt onder voorwaarden een opheffing van het verbod op het verwerken van bijzondere persoonsgegevens.

Toestemming verkrijgen is bij webscraping onmogelijk of kost onevenredig veel inspanning derhalve:

 • Openbaar informeren door middel van privacy statement

Doelbinding

Het tweede vereiste is dat er sprake moet zijn van doelbinding: er moet sprake zijn van een welbepaald, duidelijk omschreven doel.