Students Tilburg University

SPSS: Betrouwbaarheid en validiteit

Belangrijke begrippen bij het doen van onderzoek zijn betrouwbaarheid en validiteit. Er zijn verschillende vormen met verschillende namen en de benamingen worden ook nogal eens door elkaar gebruikt. Daarom is het belangrijk om de begrippen goed te onderscheiden. Hieronder volgt een zeer beknopt overzicht van validiteit en betrouwbaarheid. Voor uitgebreide informatie verwijzen we je naar De Heus (1999; §11.1 en verder). Uitgebreidere theoretische achtergrond vind je in Stouthard (1998), De Zeeuw (1995) en Drenth & Sijtsma (1990).

Betrouwbaarheid

Testbetrouwbaarheid is een schatting van de mate waarin een test vrij is van willekeurige meetfouten (random error). Het gaat erom dat je meetinstrument betrouwbare resultaten geeft, d.w.z. dat je meetinstrument steeds dezelfde resultaten geeft onder dezelfde condities. Dit wordt bekeken aan de hand van (verschillende vormen van) herhaalbaarheid van metingen. Hiervoor kun je een test meerdere keren afnemen (test-hertest betrouwbaarheid), bekijk je de relatie tussen de metingen van twee beoordelaars (interbeoordelaarsbetrouwbaarheid), of bekijk je de relatie tussen meerdere items die tot een schaal horen (interne consistentie, Cronbach's alpha).

Statistisch gezien druk je betrouwbaarheid uit met behulp van een maat voor de sterkte van de samenhang, ofwel een associatiemaat. Welke maat je kiest is afhankelijk van de variabelen die hierbij betrokken zijn. Beschrijving van een aantal associatiematen.

Validiteit

De validiteit verwijst naar de juistheid of accuraatheid van metingen: het meetinstrument meet hetgeen het moet meten. Zelfs als je meting betrouwbaar is (je meet steeds hetzelfde), dan hoeft die nog niet valide te zijn. Je kunt met een slechte meetlat steeds dezelfde lengte meten, maar dit kan wel steeds een foutieve lengte zijn. Met validiteit hangen vormen van systematische fouten (bias) samen. Grofweg kunnen we twee vormen van validiteit onderscheiden: criteriumvaliditeit en begripsvaliditeit.

Begripsvaliditeit 

Begripsvaliditeit heeft te maken met de mate waarin een test een bepaald theoretisch begrip meet. Dit kun je bekijken aan de hand van verbanden tussen jouw test en andere, bekende metingen van (deel)aspecten van het theoretisch begrip. Deze vorm van validiteit kun je echter meestal niet direct meten, maar moet worden benaderd vanuit een theoretische achtergrond. Zijn de vragen goed gesteld of worden ze verkeerd geïnterpreteerd? Wordt er sociaal wenselijk geantwoord of heeft men de neiging steeds een extreem antwoord te geven? Zijn alle aspecten van het begrip dat je tracht te meten gerepresenteerd?

Een bekend voorbeeld van een in dit opzicht weinig valide test is de originele IQ test. Allochtonen scoorden hierop structureel slechter dan autotochtonen, wat in eerste instantie resulteerde in de conclusie dat autochtonen intelligenter zijn. De validiteit van deze test voor allochtonen werd echter in twijfel getrokken omdat veel vragen specifiek over de Westerse cultuur gaan. Dit werd indirect gemeten, door een nieuwe testbatterij te ontwikkelen waarbij de cultuurspecifieke vragen werden vervangen. Met deze nieuwe test werden hogere IQ scores gevonden onder allochtonen. De originele test meette waarschijnlijk eerder kennis van de Westerse wereld dan het daadwerkelijke IQ van allochtonen.

Criteriumvaliditeit

Criteriumvaliditeit heeft te maken met de samenhang tussen twee testresultaten; het verwijst naar de overeenkomst tussen jouw meting en een andere meting (oftewel criterium). Dit criterium kan bijvoorbeeld een gevalideerde test zijn, een beoordeling van een ervaren diagnost, of het al dan niet optreden van een recidive. Hoe meer waarde er aan het criterium kan worden gehecht, hoe meer waarde de samenhang tussen de metingen heeft en hoe sterker de associatie is, hoe meer valide de meting beschouwd mag worden. Het analyseren van de overeenkomst van een test met een criterium wordt ook wel "validering" genoemd. Je gebruikt hiervoor meestal dezelfde associatiematen als voor betrouwbaarheid.

Een andere term voor criteriumvaliditeit is predictieve validiteit, omdat je met jouw meting als het ware het criterium kunt voorspellen. De validiteit wordt op deze manier nogal eens in de medische wetenschap en epidemiologie gebruikt, teneinde het hebben of krijgen van een ziekte of aandoening te voorspellen. Veelgebruikte maten hierbij zijn sensitiviteit, specificiteit en positief predictieve waarde, die je kunt vinden op de pagina over samenhang en associatiematen.

N.B.: Begrippen als "power" en "representativiteit" worden wel met validiteit geassocieerd. Het gaat echter te ver dit in de e-desk te behandelen en we verwijzen je dan ook naar de literatuur.