Students Tilburg University

SPSS: Missing Values

Heel belangrijk in je data zijn de ontbrekende waarden ofwel Missing Values (MV). Het komt zelden voor in sociaal-wetenschappelijk onderzoek dat alle variabelen gescoord worden. Respondenten slaan wel eens een vraag over, kunnen of willen die niet beantwoorden, of de vraag is niet van toepassing. Je kunt dan geen waarde invoeren bij de betreffende variabele. Sommige antwoorden kunnen niet verwerkt worden en krijgen dan ook een MV.

Belangrijk hierbij is na te gaan wat de betekenis is van MVs. Zijn er veel respondenten die een bepaalde vraag niet invullen, dan kan dat iets zeggen over de vraag (te moeilijk, te persoonlijk, niet van toepassing, etc.). Het niet invullen van een vraag door een respondent kan ook iets zeggen over de respondent (bijv. reageert sociaal wenselijk, is oneerlijk, begrijpt niet wat er staat). Om te kunnen bepalen hoe je met MVs omgaat, moet je enig idee hebben wat de betekenis kan zijn.

In SPSS wordt onderscheid gemaakt tussen System Missing Values en User Missing Values.

  • System Missing Values komen voor in cellen die geen waarde bevatten. Bij een nummerieke variabele zie je dan een punt of komma staan (afankelijk van hoe SPSS en Windows staan ingesteld), bij een alfanumerieke variabele blijft de cel geheel leeg.
  • Een User Missing Value is een door de onderzoeker toegekende waarde, die gedefinieerd is als MV (zie Het maken van een databestand). Het is te doen gebruikelijk om daar steeds dezelfde waarden voor te gebruiken. Meestal gebruik je voor ontbrekende antwoorden een 9 bij variabelen met 1 positie, een 99 bij variabelen met 2 posities, 999 bij drie posities etc. Je kunt echter elke waarde als MV definieren en voor elke waarde een value label definieren. Dit wordt wel gebruikt wanneer er meerdere waarden tegelijk niet mogen worden meegenomen in een analyse. Bijvoorbeeld 77=weet niet, 88= niet van toepassing en 99=geen antwoord.

Wat te doen met Missing Values (MVs)?

Daar MVs op zich ook betekenis hebben is het meestal niet raadzaam ze in je databestand te vervangen door valide waarden. In SPSS worden MVs (zowel Sytem als User Missing Values) in principe niet meegenomen bij datamanipulaties of in de analyses. Dat is gemakkelijk als het maar om één variabele gaat. Bij gebruik van meerdere variabelen zijn er verschillende methoden om met missing values om te gaan. Wanneer je hier niet over nadenkt en SPSS laat kiezen kan dat het beeld van je data ernstig verstoren!

Let op:

Bij datamanipulaties van variabelen, zoals het berekenen van somscores, laat SPSS versie 9 alle cases die op een van de gekozen variabelen een MV hebben weg. Deze krijgen op de nieuw te berekenen variabele automatische een MV (System MV). Dit kan leiden tot onnodig dataverlies. SPSS versie 10 neemt alle cases mee, ongeacht of ze op een van de variabele een missing value hebben of niet. Dit resulteert in het behoud van cases, maar kan grote afwijkingen veroorzaken in de betekenis van de berekende (totaal)scores! Om hiermee rekening te houden, kun je zelf een aantal voorwaarden aangeven bij de betreffende databewerkingen.

Bij sommige analysetechnieken kun je kiezen welke methode gebruikt wordt om met MVs om te gaan:

  •  Listwise deletion of missing values: Wanneer een onderzoekseenheid op een van de variabelen een MV heeft, wordt die onderzoekseenheid in zijn geheel van de analyse uitgesloten. Deze optie is meestal standaard ingesteld. Je gebruikt deze optie wanneer alle variabelen beantwoord moeten zijn om een representatief beeld te krijgen.
  • Pairwise deletion of missing values: Wanneer een onderzoekseenheid op een van de variabelen een MV heeft, wordt deze variabele niet meegenomen bij de berekening van het onderdeel waar die variabele in voorkomt. De scores van de onderzoekseenheid op de andere variabelen worden (in andere onderdelen van de berekening) wel meegenomen. Dit kun je gebruiken als je veel onderzoekseenheden zou kwijtraken wanneer je de eerste optie zou gebruiken, doordat bij veel onderzoekseenheden een of meerdere variabelen niet zijn ingevuld. Het gevaar hierbij kan ontstaan wanneer veel mensen een specifieke variabele missen (let op: waarom missen veel mensen juist deze variabele? Wat is de betekenis hiervan?). De (sub)berekening wordt nu slechts gebaseerd op een paar onderzoekseenheden. Juist die enkeling die dan wel een score heeft is vaak niet representatief voor je onderzoeksgroep.
  • Replace with mean: De MVs op een (van de) variabele(n) worden vervangen door het gemiddelde van de andere variabelen. Dit heeft zin wanneer de gemiddelde waarde van de andere variabelen representatief is voor de gemiste variabele en je met 'pairwise deletion of missing values' geen goede resulaten krijgt.
Klik op de knop Back in het venster van Netscape om terug te gaan naar de vorige pagina, of ga terug naar de inleiding.