Multinomiale logistische Regression

31. Mai 2017
Posted by: Mika

Die multinomiale logistische Regression untersucht den Einfluss einer unabhängigen Variable (UV) auf eine multinomiale abhängige Variable. Es gibt also mehr als zwei Antwortkategorien. Bei diesem Verfahren modellierst Du Deinen Datensatz nicht nur mit einer Gleichung, sondern mit mehreren. Mathematisch gesehen funktionieren die multinomiale und die binäre logistische Regression sehr ähnlich, da bei beiden Methoden ein Vergleich zwischen den Antwortkategorien stattfindet.

Zusammenhang zur einfachen logistischen Regression

Da die binäre logistische Regression aber ein dichotomes Skalenniveau der AV voraussetzt, d. h. nur zwei Antwortkategorien zulässt, kann man logischerweise auch nur einen Vergleich durchführen. Pro Vergleich resultiert eine mathematische Funktion, daher ist die binäre logistische Regression anhand einer einzelnen Gleichung darstellbar. Bei multinomialen Variablen kann mehr als ein Vergleich durchgeführt werden. Welche Antwortkategorien miteinander verglichen werden, hängt davon ab, wie Du die Analyse spezifizierst.

Bspw. kannst Du alle Antwortkategorien mit der ersten Kategorie vergleichen. Bei drei Kategorien ergeben sich so zwei Gleichungen, da Du Kategorie 1 und Kategorie 2 vergleichst, genauso wie Kategorie 1 und Kategorie 3. Du kannst aber auch die letzte Kategorie oder eine andere beliebige Kategorie als Referenz auswählen. Wie Du hierbei vorgehst, hängt von Deinen inhaltlichen Überlegungen ab sowie von der Frage, die Du beantworten möchtest.

Beispiel für eine multinomiale logistische Regression

Zur Veranschaulichung kannst Du Dir folgendes Beispiel vorstellen. Nehmen wir an, Du willst herausfinden, inwiefern die Anzahl der geleisteten Arbeitsstunden zur Wahl eines bestimmten Heißgetränks führt. Zur Auswahl stehen Tee, Kaffee und Kakao, welche Deine multinomiale AV mit drei Kategorien bilden. Dafür könntest Du in der Cafeteria eines Unternehmens die Mitarbeiter befragen, wie viele Stunden sie heute bereits gearbeitet haben und beobachten, welches Getränk sie bevorzugen.

Du könntest auch weitere Prädiktoren wie Geschlecht oder Schlafpensum des vergangenen Tages miteinbeziehen und Interaktionen berechnen (= multiple logistische Regression). Allerdings würde dies unser Modell im Rahmen dieses Beispiels nur unnötig verkomplizieren. Der Datensatz könnte folgendermaßen aussehen:

	Person 1	Person 2	Person 3	Person 4	Person 5	Person 6
Arbeitsstunden (x)	1	2	1	2	5	4
Heißgetränk (y)	Kaffee	Tee	Kaffee	Kaffee	Kakao	Tee
	Person 7	Person 8	Person 9	Person 10	Person 11	Person 12
Arbeitsstunden (x)	4	2	1	1	2	3
Heißgetränk (y)	Tee	Kaffee	Kakao	Kaffee	Kaffee	Tee

Als Referenzkategorie für Deine Analysen könntest Du bspw. Kaffee wählen. In diesem Beispiel ist die Wahl der Kategorie inhaltlich nicht so wichtig wie bei anderen Fragestellungen.

Diskussion der Ergebnisse

Die Berechnung einer multinomialen logistischen Regression ergibt, dass das Gesamtmodell signifikant ist $\left(\chi^{2}\left(2\right)=6.026, \mathbold{p}=.049\right)$ .

Betrachtet man die einzelnen Kategorien, zeigt sich aber, dass anhand der geleisteten Arbeitsstunden nicht signifikant vorhergesagt werden kann, ob eher Kaffee oder Tee getrunken wird $\left(b=1.64, Wald \chi^{2}\left(1\right)=2.783, \mathbold{p}=.095\right)$ . Dasselbe Resultat zeigt sich für das Verhältnis von Kaffee und Kakao $\left(b=1.48, Wald \chi^{2}\left(1\right)=2.057, \mathbold{p}=.152\right)$ .

Ein signifikantes Ergebnis bezüglich des Vergleichs von Kaffee und Tee mit einem positiven Regressionskoeffizienten b würde bspw. bedeuten, dass die Probanden zu Beginn des Arbeitstages mehr Kaffee konsumiert haben. Ein Grund dafür könnte sein, dass die Müdigkeit morgens am größten ist. Im Laufe des Tages würde die Menge an getrunkenem Tee, im Verhältnis zu Kaffee, mit steigender Zahl an Arbeitsstunden aber steigen.

Der Datensatz ist sehr klein (50-100 Fälle wären empfehlenswert), daher ist es nicht verwunderlich, dass die Verhältnisse der Kategorien nicht signifikant vorhergesagt werden können. Allerdings ist es bei multinomialen logistischen Regressionmodellen generell besonders wichtig, dass Du Dir genau darüber im Klaren bist, welche Fragen Du beantworten möchtest, wie Du Deine Hypothesen konkret formulierst und ob Du diese Formulierungen im statistischen Modell auch wirklich korrekt umgesetzt hast, damit Du keine Effekte übersiehst oder fälschlicherweise findest.

KOSTENLOSES ANGEBOT

KOSTENLOSES ANGEBOT

KOSTENLOSES ANGEBOT

KOSTENLOSES ANGEBOT

Multinomiale logistische Regression

Zusammenhang zur einfachen logistischen Regression

Beispiel für eine multinomiale logistische Regression

Diskussion der Ergebnisse

Regressionsanalysen