Wenn wir eine Regressionsgerade an eine Reihe von Punkten anpassen, gehen wir davon aus, dass es eine unbekannte lineare Beziehung zwischen Y und X gibt und dass für jede Erhöhung von X um eine Einheit Y im Durchschnitt um einen bestimmten Betrag zunimmt. Unsere angepasste Regressionslinie ermöglicht es uns, die Reaktion Y für einen bestimmten Wert von X vorherzusagen.
Y = mX + b
Aber für jede spezifische Beobachtung kann der tatsächliche Wert von Y vom vorhergesagten Wert abweichen. Die Abweichungen zwischen dem tatsächlichen und dem vorhergesagten Wert werden als Fehler oder Residuen bezeichnet.

Je besser die Linie zu den Daten passt, desto kleiner sind die Residuen (im Durchschnitt). Wie finden wir die Linie, die am besten zu den Daten passt? Mit anderen Worten, wie bestimmen wir die Werte für den Achsenabschnitt und die Steigung unserer Regressionslinie? Intuitiv würden wir bei der manuellen Anpassung einer Linie an unsere Daten versuchen, eine Linie zu finden, die die Modellfehler insgesamt minimiert. Wenn wir jedoch eine Linie an die Daten anpassen, werden einige der Fehler positiv und einige negativ sein. Mit anderen Worten, einige der tatsächlichen Werte werden größer sein als der vorhergesagte Wert (sie werden oberhalb der Linie liegen), und einige der tatsächlichen Werte werden kleiner sein als die vorhergesagten Werte (sie werden unterhalb der Linie liegen).
Wenn wir alle Fehler zusammenzählen, ist die Summe gleich Null. Wie messen wir also den Gesamtfehler? Wir wenden einen kleinen Trick an: Wir quadrieren die Fehler und finden eine Linie, die diese Summe der quadrierten Fehler minimiert.
Mit dieser Methode, der Methode der kleinsten Quadrate, werden Werte für den Achsenabschnitt und den Steigungskoeffizienten gefunden, die die Summe der quadratischen Fehler minimieren.
Visualisierung der Methode der kleinsten Quadrate
Betrachten wir die Methode der kleinsten Quadrate einmal aus einer anderen Perspektive. Stellen Sie sich vor, dass Sie einige Daten mit Hilfe eines Streudiagramms aufgezeichnet haben und dass Sie eine Linie für den Mittelwert von Y durch die Daten gelegt haben. Wir fixieren diese Linie und bringen Federn zwischen den Datenpunkten und der Linie an.
Einige der Datenpunkte sind weiter von der Mittellinie entfernt, so dass diese Federn stärker gedehnt werden als andere. Die Federn, die am weitesten gedehnt sind, üben die größte Kraft auf die Linie aus.
Was passiert, wenn wir diese Mittellinie lösen und sie frei um den Mittelwert von Y rotieren lassen? Die Kräfte auf die Federn gleichen sich aus und drehen die Linie. Die Linie dreht sich so lange, bis die Gesamtkraft auf die Linie minimiert ist.
Es sind einige interessante physikalische Zusammenhänge im Spiel, die das Verhältnis zwischen Kraft und Energie betreffen, die benötigt wird, um eine Feder über eine bestimmte Strecke zu ziehen. Es stellt sich heraus, dass die Minimierung der Gesamtenergie in den Federn gleichbedeutend ist mit der Anpassung einer Regressionslinie nach der Methode der kleinsten Quadrate.