Was ist lineare Regression?

In der Statistik ist die lineare Regression eine Möglichkeit, die Beziehung zwischen einer oder mehreren Variablen zu modellieren. Eine dieser Variablen kann eine Antwortvariable sein (auch abhängige und unabhängige Variable genannt).

Wenn es nur eine erklärende Variable gibt, spricht man von einfacher linearer Regression. Wenn es zwei oder mehr Variablen gibt, wird sie als multivariate lineare Regression bezeichnet.

Die lineare Regression ist eine Methode, um herauszufinden, wie sich Dinge auf andere Dinge auswirken. Sie tut dies, indem sie lineare Funktionen verwendet, um die unbekannten Modellparameter vorherzusagen. Die lineare Regression wird auch als lineare Modellierung bezeichnet. Meistens verwenden wir den bedingten Mittelwert der Antwort bei gegebenen Werten für die erklärenden Variablen (oder Prädiktoren).

Die lineare Regression ist eine Möglichkeit, die bedingte Wahrscheinlichkeit einer Antwortvariablen in Abhängigkeit von den Werten einiger anderer Variablen zu ermitteln. Sie unterscheidet sich von der multivariaten Analyse, bei der es darum geht, die gemeinsame Wahrscheinlichkeitsverteilung aller Variablen zu finden.

Die lineare Regression war die erste Art der Regressionsanalyse, die rigoros untersucht und in der Praxis ausgiebig verwendet wurde, Die lineare Regression ist die erste Art der Regression, die untersucht und in der Praxis verwendet wurde. Sie wird verwendet, weil Modelle, die linear von ihren unbekannten Parametern abhängen, einfacher anzupassen sind als Modelle, die nicht linear von ihren Parametern abhängen. Und die statistischen Eigenschaften der resultierenden Schätzer sind einfach zu bestimmen.

Die lineare Regression hat viele praktische Anwendungen. Die meisten Anwendungen fallen in eine der beiden folgenden großen Kategorien:

  • Die lineare Regression wird verwendet, um die Zukunft vorherzusagen. Das Modell kann aus einem beobachteten Datensatz von Antwort- und erklärenden Variablen erstellt werden. Wenn Sie die Antwortvariable nicht haben, kann das angepasste Modell trotzdem verwendet werden, um sie vorherzusagen.
  • Wenn Sie sehen möchten, ob sich eine Antwort aufgrund von etwas ändert, wie z. B. das Alter einer Person, verwenden Sie die Regression. Es kann sehen, wie groß die Änderung ist und ob es eine Beziehung zwischen 2 Dingen gibt.

Lineare Regressionsmodelle werden oft mit dem Ansatz der kleinsten Quadrate angepasst, aber sie können auch auf andere Weise angepasst werden, z. B. durch Minimierung des “Mangels an Anpassung” in einer anderen Norm (wie bei der Regression der kleinsten absoluten Abweichungen) oder durch Minimierung einer bestraften Version der Kostenfunktion der kleinsten Quadrate wie bei der Ridge-Regression (L2-Norm-Strafe) und dem Lasso (L1-Norm-Strafe).

Umgekehrt kann der Ansatz der kleinsten Quadrate auch zur Anpassung von Modellen verwendet werden, die keine linearen Modelle sind. Obwohl die Begriffe “kleinste Quadrate” und “lineares Modell” eng miteinander verbunden sind, sind sie also nicht synonym.

Annahmen

In einem standardmäßigen linearen Regressionsmodell sind die Prädiktorvariablen und die Antwortvariablen miteinander verbunden. Es gibt viele Erweiterungen, die es ermöglichen, diese Beziehung entweder zu reduzieren oder zu entfernen. Diese Erweiterungen machen das Schätzverfahren komplexer und zeitaufwändiger.

Im Folgenden werden die wichtigsten Annahmen von linearen Standardregressionsmodellen mit Standardschätzverfahren (z. B. gewöhnliche kleinste Quadrate) aufgeführt:

  • Schwache Exogenität. Das bedeutet im Wesentlichen, dass die Prädiktorvariablen x als feste Werte und nicht als Zufallsvariablen behandelt werden können. Das bedeutet z. B., dass angenommen wird, dass die Prädiktorvariablen fehlerfrei sind. Obwohl diese Annahme in vielen Situationen nicht realistisch ist, führt das Weglassen dieser Annahme zu viel schwierigeren Fehler-in-Variablen-Modellen.
  • Linearität. Dies bedeutet, dass der Mittelwert der Antwortvariablen eine lineare Kombination der Parameter (Regressionskoeffizienten) und der Prädiktorvariablen ist. Beachten Sie, dass diese Annahme viel weniger restriktiv ist, als es auf den ersten Blick erscheinen mag. Da die Prädiktorvariablen als feste Werte behandelt werden, ist die Linearität eigentlich nur eine Einschränkung für die Parameter. Die Prädiktorvariablen selbst können beliebig transformiert werden, und es können sogar mehrere Kopien derselben zugrunde liegenden Prädiktorvariable hinzugefügt werden, die jeweils unterschiedlich transformiert werden.
  • Konstante Varianz (auch bekannt als Homoskedastizität). Dies bedeutet, dass die Varianz der Fehler nicht von den Werten der Prädiktorvariablen abhängt. Somit ist die Variabilität der Antworten für gegebene feste Werte der Prädiktoren gleich, unabhängig davon, wie groß oder klein die Antworten sind. Dies ist oft nicht der Fall, da eine Variable, deren Mittelwert groß ist, typischerweise eine größere Varianz hat als eine, deren Mittelwert klein ist.
  • Unabhängigkeit der Fehler. Dies setzt voraus, dass die Fehler der Antwortvariablen untereinander unkorreliert sind. (Tatsächliche statistische Unabhängigkeit ist eine stärkere Bedingung als das bloße Fehlen von Korrelation und wird oft nicht benötigt, obwohl sie ausgenutzt werden kann, wenn bekannt ist, dass sie gilt).

Über diese Annahmen hinaus beeinflussen mehrere andere statistische Eigenschaften der Daten stark die Leistung der verschiedenen Schätzverfahren:

  • Die statistische Beziehung zwischen den Fehlertermen und den Regressoren spielt eine wichtige Rolle bei der Entscheidung, ob ein Schätzverfahren wünschenswerte Stichprobeneigenschaften hat, wie z. B. unverzerrt und konsistent zu sein.
  • Die Anordnung, bzw. Wahrscheinlichkeitsverteilung der Prädiktorvariablen x hat einen großen Einfluss auf die Genauigkeit der Schätzungen von β. Stichprobenziehung und Versuchsplanung sind hochentwickelte Teilgebiete der Statistik, die Anleitungen geben, wie man Daten so erhebt, dass eine präzise Schätzung von β erreicht wird.

Interpretation

Ein angepasstes lineares Regressionsmodell kann verwendet werden, um die Beziehung zwischen einer einzelnen Prädiktorvariablen xj und der Antwortvariablen y zu identifizieren, wenn alle anderen Prädiktorvariablen im Modell “fest gehalten” werden. Genauer gesagt ist die Interpretation von βj die erwartete Änderung von y für eine Änderung von xj um eine Einheit, wenn die anderen Kovariablen konstant gehalten werden – d. h. der Erwartungswert der partiellen Ableitung von y nach xj. Im Gegensatz dazu kann der marginale Effekt von xj auf y unter Verwendung eines Korrelationskoeffizienten oder eines einfachen linearen Regressionsmodells, das nur xj mit y in Beziehung setzt, abgeschätzt werden; dieser Effekt ist die Gesamtableitung von y nach xj.

Bei der Interpretation von Regressionsergebnissen ist Vorsicht geboten, da einige der Regressoren möglicherweise keine marginalen Änderungen zulassen, während andere nicht fixiert werden können.