Diese Website verwendet Cookies, damit wir dir die bestmögliche Benutzererfahrung bieten können. Cookie-Informationen werden in deinem Browser gespeichert und führen Funktionen aus, wie das Wiedererkennen von dir, wenn du auf unsere Website zurückkehrst, und hilft unserem Team zu verstehen, welche Abschnitte der Website für dich am interessantesten und nützlichsten sind.
Chi-Quadrat-Unabhängigkeitstest
- 18. November 2016
- Posted by: Mika
Hast Du eine Stichprobe mit den Merkmalwerten zweier beliebig skalierter Zufallsvariablen erhoben, so kannst Du mit dem Chi-Quadrat-Unabhängigkeitstest testen, ob diese Zufallsvariablen stochastisch unabhängig sind. Du kannst also prüfen, ob das Auftreten einer Merkmalsausprägung der ersten Variablen nicht davon beeinflusst wird, welche Ausprägung die andere Variable annimmt und umgekehrt.
Stochastische Unabhängigkeit als Voraussetzung für viele statistische Modelle
Stell Dir vor, Du hast beispielsweise eine Untersuchung des Ausgabeverhaltens von Studenten in Deutschland mit dem Umfang n=200 durchgeführt und dabei unter anderem die Zufallsvariablen X: „Geschlecht“ und Y: „durchschnittliche monatliche Ausgaben für Nahrungsmittel“ erhoben. Als nächstes möchtest Du testen, ob diese Variablen unabhängig voneinander sind, ob also Männer und Frauen das gleiche Ausgabeverhalten für Nahrungsmittel aufweisen, oder ob es systematische Unterschiede gibt.
Deine Hypothesen lauten:
: die Zufallsvariablen „Geschlecht“ und „durchschnittliche monatliche Ausgaben für Nahrungsmittel“ sind stochastisch unabhängig voneinander.
: die Zufallsvariablen „Geschlecht“ und „durchschnittliche monatliche Ausgaben für Nahrungsmittel“ weisen Abhängigkeiten auf.
Aus Deiner Stichprobe erstellst Du folgende Tabelle, bei der Du zeilenweise die Probanden in die Merkmalsausprägungen : Frauen und : Männer unterteilst und in den Spalten das quantitativ-stetige Merkmal „Ausgaben für Nahrungsmittel“ in Klassen bis einteilst. Dabei spielt es keine Rolle, ob die Klassenbreiten unterschiedlich ist, wichtig ist nur, dass später alle erwarteten Klassenhäufigkeiten größer als 5 sind:
Y: „Durchschnittliche Ausgaben für Nahrungsmittel“ | |||||||
---|---|---|---|---|---|---|---|
X: „Geschlecht“ | 150-250 | 250-300 | 300-350 | über 350 | Summe | Rel. Häufigkeit | |
Frauen | 17 | 33 | 35 | 10 | 95 | 0,475 | |
Männer | 9 | 32 | 47 | 17 | 105 | 0,525 | |
Summe | 26 | 65 | 82 | 27 | 200 | 1 | |
Rel. Häufigkeit | 0,13 | 0,325 | 0,41 | 0,135 | 1 |
Häufigkeiten und Randhäufigkeiten
Im Inneren der Tabelle hast Du die Häufigkeiten eingetragen, als Häufigkeiten, mit denen die Kombination aus Merkmal und in Deiner Stichprobe auftritt, sowie die Randhäufigkeiten für die Gesamthäufigkeit der Merkmalsausprägung und für die Gesamthäufigkeit der Merkmalsausprägung .
An den Rändern der Tabelle berechnest Du dann die relativen Häufigkeiten und , die angeben, welcher Anteil der Stichprobe auf die verschiedenen Merkmalsausprägungen der jeweiligen Variablen entfällt.
Falls die Nullhypothese gilt, sind die beiden Zufallsvariablen X und Y stochastisch unabhängig voneinander. Dann sind die Wahrscheinlichkeiten für das Auftreten der nicht davon abhängig, welches eintritt, und umgekehrt. Die bedingten Wahrscheinlichkeiten sind dann gleich den Einzelwahrscheinlichkeiten:
Dann lassen sich die Wahrscheinlichkeit für das Auftreten der Kombination der Merkmalsausprägungen und als Produkt der Einzelwahrscheinlichkeiten zerlegen:
Geschätzte Wahrscheinlichkeiten
Als Schätzwerte für werden die Produkte der relativen Randhäufigkeiten ∙ und verwendet. Damit wird zum Beispiel die unter der Nullhypothese erwartete Häufigkeit, dass ein zufällig ausgewählter Student weiblich ist und 250 bis 300 Euro pro Monat für Nahrungsmittel ausgibt, wie folgt berechnet:
Beim Chi-Quadrat-Unabhängigkeitstest vergleichst Du nun die Häufigkeiten Deiner Stichprobe mit den unter der Nullhypothese erwarteten Häufigkeiten .
Teststatistik beim Chi-Quadrat-Unabhängigkeitstest
Für die Teststatistik quadrierst Du diese Differenzen, normierst sie mit den erwarteten Häufigkeiten und addierst über alle Merkmalsausprägungen von X und alle von Y:
Die Teststatistik wird auch Chi-Quadrat-Koeffizient genannt und folgt einer Verteilung mit Freiheitsgraden. Daher vergleichst Du ihren Wert mit dem der Verteilung zum Niveau bei (2-1)∙(4-1)=3 Freiheitsgraden:
Mit
kannst Du die Nullhypothese für Dein Beispiel mit einer Irrtumswahrscheinlichkeit von nicht verwerfen. Die Daten deuten also auf keinen systematischen Zusammenhang zwischen dem Geschlecht und dem Ausgabeverhalten bei Nahrungsmitteln hin.
Den Chi-Quadrat-Test darfst Du nur anwenden, wenn alle erwarteten Häufigkeiten größer als 5 sind. Bei einem quantitativ-stetigen Merkmal kannst Du diese Voraussetzung oft dadurch erfüllen, dass Du die Klassen verbreiterst.