Students Tilburg University

SPSS: Het opschonen van ruwe data

Je hebt nu een bestand met ingevoerde gegevens. Vaak zitten daar fouten in. Het komt nogal eens voor dat per ongeluk tweemaal een toets wordt ingedrukt bij het invoeren. Je krijgt dan bijvoorbeeld een 33 in plaats van een 3. Ook schiet men wel eens een plaats te ver door en wordt het getal dat hoort bij de ene variabele, ingevuld bij de volgende. Alle getallen hierna schuiven dan a.h.w. een plaats op. Om deze fouten op te sporen, kun je frequentie-tabellen uitdraaien en ''vreemde'' waarden nazoeken (bijv. een 3 waar alleen maar een 0 (=nee) of een 1 (=ja) kan staan, of veel missing values). Ook kun je meteen controleren of de ingevulde waarden correct zijn gedefiniëerd.

Handige hulpmiddelen

Handige hulpmiddelen bij het opschonen zijn de zoekfuncties (zie paragraaf 8.4 van Huizingh) en het vastzetten van de eerste kolom(men) in SPSS versie 10 (Klik met rechtermuisknop op de kolomkop, <Pin selected columns>). Dat is gemakkelijk wanneer je de eerste variabele(n) hebt gebruikt voor het identificeren van je onderzoekseenheden. Als je met variabelen werkt die verder naar rechts staan in je datamatrix, blijf je toch de eerste variabelen zien en kun je meteen nazoeken bij welke onderzoekseenheid je een fout moet verbeteren.

Kopie bewaren op 2 plaatsen

Als je je bestand hebt opgeschoond, bewaar dan een kopie op minimaal twee plaatsen. Dit is het belangrijkste bestand van je onderzoek. Het bestand waarmee je hierna gaat werken, je werkfile, kun je beter een nieuwe naam geven. Als er iets met je werkfile gebeurt, dan kun je altijd nog teruggrijpen op je originele gegevens. Ook als je zelf bewerkingen uitvoert is het soms lastig om te onthouden welke bewerkingen je nou al wel, en welke je nog niet hebt gedaan. Je kunt dan altijd in de originele file terugzoeken hoe de oorspronkelijke gegevens er uit zagen en of je die data al bewerkt hebt of niet.