Diese Website verwendet Cookies, damit wir dir die bestmögliche Benutzererfahrung bieten können. Cookie-Informationen werden in deinem Browser gespeichert und führen Funktionen aus, wie das Wiedererkennen von dir, wenn du auf unsere Website zurückkehrst, und hilft unserem Team zu verstehen, welche Abschnitte der Website für dich am interessantesten und nützlichsten sind.
Korrelationsanalyse
- 26. Januar 2017
- Posted by: Mika
Bei einer Korrelationsanalyse verwendest Du den Korrelationskoeffizienten nach Bravais Pearson als Maß für den linearen Zusammenhang zweier metrisch skalierter Variablen. Sein Quadrat, das Bestimmtheitsmaß, gibt an, welcher Anteil der Varianz durch ihren Zusammenhang erklärt werden kann. Dabei wird keine Aussage über den funktionalen Zusammenhang gegeben.
Möchtest Du anhand Deiner Stichprobe zweier Zufallsvariablen eine Schätzung für deren Korrelationskoeffizienten in den Grundgesamtheiten treffen, so kannst Du ihn aus der Stichprobe schätzen. Du kannst dann Hypothesen über Vermutungen zum Koeffizienten aufstellen und diese zu einem beliebigen Signifikanzniveau testen.
Voraussetzungen für dieses Vorgehen sind metrisch skaliertes Datenmaterial sowie Normalverteilung beider Zufallsvariablen in den Grundgesamtheiten. Mit dieser Methode kannst Du also lineare Zusammenhänge prüfen.
Wie sieht der Korrelationskoeffizient aus?
Der Korrelationskoeffizient der Grundgesamtheit ist definiert als Quotient aus Kovarianz zwischen X und Y und dem Produkt der Standardabweichungen beider Variablen.
Er ist zudem dimensionslos und kann Werte zwischen -1 und +1 annehmen: Während -1 einen vollständigen negativen bzw. +1 einen vollständigen positiven linearen Zusammenhang bedeutet, teilt Dir ein Koeffizient von Null mit, dass die beiden Variablen unkorreliert miteinander sind und somit nicht zusammenhängen.
Stell Dir beispielsweise vor, Du bist im Marketing eines Elektronikunternehmens unter anderem für die Ausgestaltung der Preise zuständig. Ein neues Notebookmodell verkauft sich sehr schlecht und Du erwägst, eine Sonderverkaufsaktion mit reduziertem Preis zu initiieren. Das würde aber nur dann Sinn machen, wenn die Nachfrage in der Grundgesamtheit stark mit dem Preis zusammenhängt.
Da Preis und abgesetzte Stückzahlen metrisch skalierte Zufallsvariable sind, beschließt Du, eine Korrelationsanalyse durchzuführen, den Bravais-Pearson´schen Korrelationskoeffizienten aus der Stichprobe zu berechnen und anschließend zu testen, ob Preis und nachgefragte Menge tatsächlich korreliert sind.
Aufstellen von Hypothesen
Aus Deinen zehn größten belieferten Elektronikmärkten, die ihrerseits mit unterschiedlichen Preisen arbeiten, erhebst Du zuerst folgenden Verkaufszahlen des letzten Monats:
Markt | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | Durchschnitt |
X: VK | 459 | 399 | 425 | 499 | 465 | 489 | 419 | 444 | 497 | 449 | 454,5 |
Y: Stückzahl | 11 | 17 | 16 | 5 | 13 | 4 | 14 | 12 | 4 | 12 | 10,8 |
Die Kombinationen von Preisen und nachgefragter Menge zeichnest Du dann in der Grafik als Punktwolke ein:
In der Grafik kannst Du deutlich einen negativen linearen Zusammenhang erkennen.
Als Schätzwert r für den Bravais-Pearson´schen Korrelationskoeffizienten der Grundgesamtheit setzt Du anschließend erwartungstreue Schätzer für die Kovarianz und die Standardabweichungen ein:
Für Dein Beispiel heißt das:
In der Stichprobe besteht also wie vermutet ein hoher negativer Zusammenhang zwischen der verkauften Stückzahl und dem Preis.
Rückschluss auf die Grundgesamtheit
Danach möchtest Du testen, ob dieser negative Zusammenhang auch für die Grundgesamtheit angenommen werden kann, also ob für Dein Beispiel etwa ein negativer Zusammenhang von mehr als angenommen werden kann.
Ein Korrelationskoeffizient zweier normalverteilter Zufallsvariablen ist nicht normalverteilt, lässt sich aber mittels der Fisher-Transformation in eine annähernd normalverteilte Zufallsvariable transformieren:
Setzt Du schließlich für den aus Deiner Stichprobe ermittelten Schätzwert r = 0,9375 und für den in Deinen Hypothesen zugrunde gelegten Wert von -0,75 ein, so ergibt sich durch Standardisierung von f Deine Testgröße:
Diese kannst Du dann mit dem kritischen Wert der Standardnormalverteilung, etwa vergleichen und damit die Nullhypothese verwerfen: Mit einer Irrtumswahrscheinlichkeit von ist der Korrelationskoeffizient kleiner als -0,75.
Die Testentscheidung
Statistikprogrammsysteme geben in der Regel einen p-Wert aus. Dann kannst Du, anstatt die Teststatistik mit dem kritischen Wert zu vergleichen, alternativ den p-Wert dem von Dir vorgegebenen gegenüberstellen:
Du verwirfst die Nullhypothese, falls , anderenfalls gibt es keinen statistischen Grund, der gegen sie spricht.
Möchtest Du keine konkrete Hypothese über die Höhe der Korrelation sondern nur generell auf Signifikanz des Zusammenhangs testen,
so lässt sich Deine Prüfgröße vereinfachen zu
Für große Stichproben (vorsichtig: n > 100) ist die Prüfgröße normalverteilt, für kleine Stichproben folgt sie einer t-Verteilung mit Freiheitsgraden.
Um für Dein Beispiel zu testen, ob der ermittelte Korrelationskoeffizient signifikant von Null verschieden ist, setzt Du Deine Stichprobenwerte in die vereinfachte Prüfgröße ein und vergleichst sie mit dem kritischen t-Wert zum Niveau bei Freiheitsgraden:
Mit
verwirfst Du die Nullhypothese und schließt auf einen signifikanten linearen Zusammenhang mit einer Irrtumswahrscheinlichkeit von .
Der Korrelationskoeffizient ist einfach auszurechnen und eine verbreitete Kenngröße, benötigt aber die beiden engen Voraussetzungen eines linearen Zusammenhangs und der Normalverteilung in der Grundgesamtheit.
Falls diese Voraussetzungen nicht gegeben sind, sind der Spearman´sche Rangkorrelationskoeffizient oder Kendalls W (Kendalls Konkordanzkoeffizient) eine brauchbare Alternative.