Die lineare Regression ist in der Statistik eine Methode zur Modellierung der Beziehung zwischen ein oder mehreren Variablen. Eine dieser Variablen kann als Antwortvariable (auch abhängige oder unabhängige Variable genannt) agieren.
Wenn es nur eine erklärende Variable gibt, nennt man es einfache lineare Regression. Wenn es zwei oder mehr Variablen gibt, heißt es multivariate lineare Regression.
Die lineare Regression ist eine Methode, um zu analysieren, wie eine Sache mit einer anderen Sache in Verbindung steht. Sie verwendet dabei lineare Funktionen, um die unbekannten Modellparameter vorherzusagen. Lineare Regression wird auch als lineare Modellierung bezeichnet. Wir nutzen in der Regel den bedingten Mittelwert der Antwort unter Berücksichtigung bestimmter Werte der erklärenden Variablen (oder Prädiktoren).
Lineare Regression ist eine Möglichkeit, die bedingte Wahrscheinlichkeit einer Antwortvariable abhängig von einigen anderen Variablen zu bestimmen. Sie unterscheidet sich von der multivariaten Analyse, bei der es darum geht, die gemeinsame Wahrscheinlichkeitsverteilung aller Variablen zu ermitteln.
Die lineare Regression ist die erste Methode zur Regressionanalyse, die umfassend untersucht und praktisch angewandt wurde. Sie wird verwendet, weil Modelle, die von ihren unbekannten Parametern linear abhängig sind, einfacher anzupassen sind als Modelle, die nicht linear von ihren Parametern abhängen. Und die statistischen Eigenschaften der Schätzwerte lassen sich leicht bestimmen.
Die lineare Regression wird in vielen praktischen Anwendungsfällen genutzt. Die meisten Anwendungen fallen in eine der beiden folgenden Kategorien.
- Die lineare Regression wird verwendet, um die Zukunft vorherzusagen. Das Modell kann aus einem beobachteten Datensatz von Antwort- und erklärenden Variablen erstellt werden. Wenn Sie die Antwortvariable nicht haben, kann das angepasste Modell trotzdem verwendet werden, um sie vorherzusagen.
- Wenn Sie sehen möchten, ob sich eine Antwort aufgrund von etwas ändert, wie z. B. das Alter einer Person, verwenden Sie die Regression. Es kann sehen, wie groß die Änderung ist und ob es eine Beziehung zwischen 2 Dingen gibt.
Lineare Regressionsmodelle werden oft mit dem Ansatz der kleinsten Quadrate angepasst, aber sie können auch auf andere Weise angepasst werden, z. B. durch Minimierung des “Mangels an Anpassung” in einer anderen Norm (wie bei der Regression der kleinsten absoluten Abweichungen) oder durch Minimierung einer bestraften Version der Kostenfunktion der kleinsten Quadrate wie bei der Ridge-Regression (L2-Norm-Strafe) und dem Lasso (L1-Norm-Strafe).
Umgekehrt kann der Ansatz der kleinsten Quadrate auch zur Anpassung von Modellen verwendet werden, die keine linearen Modelle sind. Obwohl die Begriffe “kleinste Quadrate” und “lineares Modell” eng miteinander verbunden sind, sind sie also nicht synonym.
Annahmen
In einem standardmäßigen linearen Regressionsmodell sind die Prädiktorvariablen und die Antwortvariablen miteinander verbunden. Es gibt viele Erweiterungen, die es ermöglichen, diese Beziehung entweder zu reduzieren oder zu entfernen. Diese Erweiterungen machen das Schätzverfahren komplexer und zeitaufwändiger.
Im Folgenden werden die wichtigsten Annahmen von linearen Standardregressionsmodellen mit Standardschätzverfahren (z. B. gewöhnliche kleinste Quadrate) aufgeführt:
- Schwache Exogenität. Das bedeutet im Wesentlichen, dass die Prädiktorvariablen x als feste Werte und nicht als Zufallsvariablen behandelt werden können. Das bedeutet z. B., dass angenommen wird, dass die Prädiktorvariablen fehlerfrei sind. Obwohl diese Annahme in vielen Situationen nicht realistisch ist, führt das Weglassen dieser Annahme zu viel schwierigeren Fehler-in-Variablen-Modellen.
- Linearität. Dies bedeutet, dass der Mittelwert der Antwortvariablen eine lineare Kombination der Parameter (Regressionskoeffizienten) und der Prädiktorvariablen ist. Beachten Sie, dass diese Annahme viel weniger restriktiv ist, als es auf den ersten Blick erscheinen mag. Da die Prädiktorvariablen als feste Werte behandelt werden, ist die Linearität eigentlich nur eine Einschränkung für die Parameter. Die Prädiktorvariablen selbst können beliebig transformiert werden, und es können sogar mehrere Kopien derselben zugrunde liegenden Prädiktorvariable hinzugefügt werden, die jeweils unterschiedlich transformiert werden.
- Konstante Varianz (auch bekannt als Homoskedastizität). Dies bedeutet, dass die Varianz der Fehler nicht von den Werten der Prädiktorvariablen abhängt. Somit ist die Variabilität der Antworten für gegebene feste Werte der Prädiktoren gleich, unabhängig davon, wie groß oder klein die Antworten sind. Dies ist oft nicht der Fall, da eine Variable, deren Mittelwert groß ist, typischerweise eine größere Varianz hat als eine, deren Mittelwert klein ist.
- Unabhängigkeit der Fehler. Dies setzt voraus, dass die Fehler der Antwortvariablen untereinander unkorreliert sind. (Tatsächliche statistische Unabhängigkeit ist eine stärkere Bedingung als das bloße Fehlen von Korrelation und wird oft nicht benötigt, obwohl sie ausgenutzt werden kann, wenn bekannt ist, dass sie gilt).
Über diese Annahmen hinaus beeinflussen mehrere andere statistische Eigenschaften der Daten stark die Leistung der verschiedenen Schätzverfahren:
- Die statistische Beziehung zwischen den Fehlertermen und den Regressoren spielt eine wichtige Rolle bei der Entscheidung, ob ein Schätzverfahren wünschenswerte Stichprobeneigenschaften hat, wie z. B. unverzerrt und konsistent zu sein.
- Die Anordnung, bzw. Wahrscheinlichkeitsverteilung der Prädiktorvariablen x hat einen großen Einfluss auf die Genauigkeit der Schätzungen von β. Stichprobenziehung und Versuchsplanung sind hochentwickelte Teilgebiete der Statistik, die Anleitungen geben, wie man Daten so erhebt, dass eine präzise Schätzung von β erreicht wird.
Verwendungszwecke / Beispiele aus der Praxis
Ein Beispiel für die Verwendung von linearer Regression ist die Vorhersage von Immobilienpreisen. Hierbei kann man verschiedene Faktoren wie Größe, Lage, Alter des Gebäudes und andere Eigenschaften der Immobilie als Input-Variablen verwenden und den Preis als Output-Variable. Durch Anwendung der linearen Regression kann man dann eine Gleichung erhalten, die den Zusammenhang zwischen den Input-Variablen und dem Preis beschreibt. Mit Hilfe dieser Gleichung kann man dann Vorhersagen treffen, zum Beispiel den zu erwartenden Preis für eine bestimmte Immobilie anhand ihrer Eigenschaften.
Ein weiteres Beispiel ist die Vorhersage von Absatzmengen in der Fertigungsindustrie. Hierbei können wiederum verschiedene Faktoren wie die Werbekosten, das Angebot von Konkurrenzprodukten, Wetterbedingungen und andere Einflussgrößen als Input-Variablen verwendet werden und die Absatzmenge als Output-Variable. Durch Anwendung der linearen Regression kann man dann ermitteln, welcher Einfluss die einzelnen Input-Variablen auf die Absatzmenge haben und so die Absatzmenge besser vorherzusagen.
Diese Beispiele zeigen, dass lineare Regression in vielen Branchen eingesetzt wird, um Zusammenhänge zwischen verschiedenen Variablen zu analysieren und Vorhersagen zu treffen. Es ist ein mächtiges Werkzeug, das in vielen Bereichen der Wirtschaft, Wissenschaft und Technologie Anwendung findet.
Bestimmung der Regressionsgeraden
Die Bestimmung der Regressionsgerade bei der linearen Regression erfolgt durch die Anwendung des sogenannten “Method of Least Squares” (kleinste Quadrate Methode). Diese Methode geht davon aus, dass die Abweichungen der tatsächlichen Datenpunkte von der geschätzten Regressionsgeraden möglichst klein sind.
Die Regressionsgerade wird durch die Gleichung y = a + bx beschrieben, wobei a die y-Achsenabschnitt und b der Steigung der Geraden ist. Die Aufgabe besteht darin, die besten Schätzwerte für a und b zu finden, die die Summe der quadratischen Abweichungen (SSE) zwischen den tatsächlichen Datenpunkten und den vorhergesagten Werten der Regressionsgerade minimieren.
Die Schätzwerte für a und b können durch die Lösung der Normalgleichungen des linearen Regressionsmodells berechnet werden. Diese Gleichungen können sowohl analytisch als auch numerisch gelöst werden.
In der analytischen Lösung werden die Schätzwerte für a und b durch die Lösung der Gleichungen:
b = (nΣ(xy) – Σ(x)Σ(y)) / (nΣ(x^2) – (Σ(x))^2) a = (Σ(y) – bΣ(x)) / n
berechnet, wobei x und y die unabhängige und abhängige Variable sind, n die Anzahl der Datenpunkte und Σ(x) die Summe der x-Werte.
In der numerischen Lösung werden die Schätzwerte für a und b durch die Verwendung von Optimierungsverfahren wie Gradientenabstieg oder Nelder-Mead-Verfahren berechnet.
Berechnung der Koeffizienten
Die Berechnung der Koeffizienten bei der linearen Regression erfolgt durch die Anwendung des sogenannten “Method of Least Squares” (kleinste Quadrate Methode). Diese Methode geht davon aus, dass die Abweichungen der tatsächlichen Datenpunkte von der geschätzten Regressionsgeraden möglichst klein sind.
Die Schätzwerte für die Koeffizienten (a und b in der linearen Regression) können durch die Lösung der Normalgleichungen des linearen Regressionsmodells berechnet werden. Diese Gleichungen können sowohl analytisch als auch numerisch gelöst werden.
In der analytischen Lösung werden die Schätzwerte für a und b durch die Lösung der Gleichungen:
b = (nΣ(xy) – Σ(x)Σ(y)) / (nΣ(x^2) – (Σ(x))^2) a = (Σ(y) – bΣ(x)) / n
berechnet, wobei x und y die unabhängige und abhängige Variable sind, n die Anzahl der Datenpunkte und Σ(x) die Summe der x-Werte.
In der numerischen Lösung werden die Schätzwerte für a und b durch die Verwendung von Optimierungsverfahren wie Gradientenabstieg oder Nelder-Mead-Verfahren berechnet.
Es gibt auch statistische Test wie t-test, p-value, R-Square, und adjusted R-Square, die verwendet werden können, um die Signifikanz der Schätzwerte zu überprüfen.
Es ist zu beachten, dass die Schätzwerte für die Koeffizienten nur gültig sind, wenn die Annahmen des linearen Regressionsmodells erfüllt sind, insbesondere die Annahme einer linearen Beziehung zwischen den Variablen und die Annahme von normalverteilten Fehlern.
Interpretation
Ein angepasstes lineares Regressionsmodell kann verwendet werden, um die Beziehung zwischen einer einzelnen Prädiktorvariablen xj und der Antwortvariablen y zu identifizieren, wenn alle anderen Prädiktorvariablen im Modell “fest gehalten” werden. Genauer gesagt ist die Interpretation von βj die erwartete Änderung von y für eine Änderung von xj um eine Einheit, wenn die anderen Kovariablen konstant gehalten werden – d. h. der Erwartungswert der partiellen Ableitung von y nach xj. Im Gegensatz dazu kann der marginale Effekt von xj auf y unter Verwendung eines Korrelationskoeffizienten oder eines einfachen linearen Regressionsmodells, das nur xj mit y in Beziehung setzt, abgeschätzt werden; dieser Effekt ist die Gesamtableitung von y nach xj.
Bei der Interpretation von Regressionsergebnissen ist Vorsicht geboten, da einige der Regressoren möglicherweise keine marginalen Änderungen zulassen, während andere nicht fixiert werden können.
Erweiterungen der linearen Regression
Mehrfachregression: Die Mehrfachregression ermöglicht es, die Abhängigkeit von mehreren unabhängigen Variablen auf eine abhängige Variable zu untersuchen. Im Gegensatz zur einfachen linearen Regression, die nur eine unabhängige Variable verwendet, wird in der Mehrfachregression ein Modell erstellt, das mehrere unabhängige Variablen enthält. Dies kann dazu beitragen, die Vorhersagegenauigkeit zu verbessern und ein besseres Verständnis der Beziehungen zwischen den Variablen zu erlangen.
Regression mit polynomialen Funktionen: Eine weitere Erweiterung der linearen Regression ist die Verwendung von polynomialen Funktionen, um die Beziehung zwischen den Variablen zu beschreiben. Dies kann helfen, nicht-lineare Zusammenhänge zu modellieren und die Vorhersagegenauigkeit zu verbessern. In diesem Fall werden die unabhängigen Variablen in höhere Potenzen eingesetzt, um die Regressionsgerade an die Form der Daten anzupassen.
Regularisierung: Regularisierung ist eine Technik, die verwendet wird, um das Overfitting zu vermeiden. Overfitting tritt auf, wenn das Modell zu stark an die Trainingsdaten angepasst wird und daher auf unbekannten Daten schlecht abschneidet. Regularisierung fügt dem Modell eine zusätzliche “Strafe” für komplexe Modelle hinzu, was dazu führt, dass es einfachere Modelle bevorzugt. Eine häufig verwendete Regularisierungstechnik ist die Ridge-Regression, die die Summe der quadratischen Koeffizienten zur Fehlerfunktion hinzufügt.
Insgesamt können diese Erweiterungen der linearen Regression verwendet werden, um eine bessere Anpassung der Regressionsgeraden an die Form der Daten und eine höhere Vorhersagegenauigkeit zu erreichen. Es ist jedoch wichtig zu beachten, dass die Wahl des richtigen Modells immer von den spezifischen Anforderungen und Eigenschaften der Daten abhängt und sorgfältige Überlegungen erfordert.