Die logistische Regression ist eine Methode bei der, wie bei der linearen Regression, versucht wird eine Funktionskurve zu finden, die möglichst gut zu den Datenpunkten passt. Der Unterschied ist, dass die Funktionskurve keine Gerade sondern eine logistische Funktion ist.
Eine logistische Funktion sieht zum Beispiel so aus:
Um an einem möglichst praktischen Beispiel zu zeigen, wie man jetzt selbst eine logistische Regression in Excel durchführen kann, werde ich Daten von meinem Welpenmädchen Mila nehmen.
Meine Freundin und ich schreiben (meistens) auf, in welcher Woche (seit wir sie haben) sie, wie viele Kilos wiegt:
Wenn wir die Punkte in ein Diagramm übertragen kommt folgende Grafik raus:
Wenn man sich den aktuellen Graphen anschaut, könnte man vermuten, dass es sich, um einen linearen Zusammenhang zwischen Alter und Gewicht handelt. Jetzt haben wir aber zusätzlich noch die (gesunden) Min und Max Werte für das Gewicht abhängig vom Alter darüber gelegt:
Hier wird deutlich, dass es sich eher um einen logarithmischen Zusammenhang handelt. Die Gewichtszunahme nimmt Woche für Woche leicht ab, bis der Hund ausgewachsen ist.
Mit Hilfe der logarithmischen Regression entwickeln wir ein Vorhersagemodell in Excel, um eine Aussage darüber zu treffen, wie viel Mila voraussichtlich nach 48 Wochen wiegen wird.
Wir wollen eine Formel in folgender Form: y = a + b*ln(x)
y: Gewicht
x: Alter in Wochen
a,b -> wollen wir jetzt berechnen, damit wir die Formel für unsere Vorhersagen nutzen können
1) im ersten Schritt berechnen wir den natürlichen Logarithmus des Alters (Prädiktorvariable)
2) Als Nächstes werden wir das logarithmische Regressionsmodell anpassen. Klicken Sie dazu auf die Registerkarte Daten in der oberen Multifunktionsleiste und dann auf Datenanalyse in der Gruppe Analyse. Den kompletten Ablauf, hier im Video:
Der Output von Excel sieht folgendermaßen aus:
Das Bestimmtheitsmaß ist der Indikator für die Anpassungsgüte, der angibt, wie viel Varianz durch die beste Anpassungslinie erklärt wird. Der Wert reicht von 0 bis 1. In unserem Fall liegt das Bestimmtheitsmaß bei 0,99, was bedeutet, dass unsere Linie 99 % der Varianz erklären kann – das ist schonmal mega 🙂
Es gibt jedoch ein Problem: Wenn wir immer mehr Variablen hinzufügen, steigt unser Bestimmtheitsmaß immer weiter an, auch wenn die Variable möglicherweise keine Auswirkungen hat. Das adjustierte Bestimmtheitsmaß löst dieses Problem und ist eine viel zuverlässigere Metrik. Wir liegen hier ebenfalls bei 99 %, also super (und das obwohl wir hier einen Datensatz aus dem echten Leben haben ;)).
Für unser Vorhersagemodell interessiert uns ansonsten nur die Koeffizienten des Schnittpunktes und des ln(x) (gelb markiert).
Unsere Formel heißt demnach:
y = -19,52 + 12,11*ln(x)
Wenn wir jetzt also wissen wollen, wie schwer Mila (voraussichtlich) nach der 48. Woche ungefähr ist, rechnen wir: -19,52 + 12,11*ln(48) = 27,4 kg