Partielle Kleinste Quadrate - Martin Grellmann

Die Partielle Kleinste Quadrate Methode ist eine schnelle, effiziente Regressionsmethode auf der Grundlage der Kovarianz. Sie wird in Regressionsfällen empfohlen, in denen die Anzahl der erklärenden Variablen hoch ist und in denen es wahrscheinlich ist, dass die erklärenden Variablen korreliert sind.

Inhaltsverzeichnis

Partielle Kleinste Quadrate und Multikollinearität
Partielle kleinste Quadrate für multivariate Ergebnisse
Partielle kleinste Quadrate im Vergleich zu anderen Modellen
Partielle Kleinste Quadrate Regression vs. Multivariate multiple Regression
Partielle kleinste Quadrate vs. Hauptkomponenten-Regression
Partielle kleinste Quadrate vs. Kanonische Korrelationsanalyse
Partielle kleinste Quadrate Modelle (PLS-Modelle)

*Das Ergebnis der Anpassung einer Reihe von Datenpunkten mit einer quadratischen Funktion*

Partielle Kleinste Quadrate und Multikollinearität

Das Ziel der linearen Regression ist die Modellierung der Abhängigkeitsbeziehung zwischen einer abhängigen (Ziel-)Variable und mehreren unabhängigen (erklärenden) Variablen. Die Methode der kleinsten Quadrate eignet sich hierfür hervorragend, solange die Annahmen der linearen Regression erfüllt werden.

*Das Diagramm zeigt, dass die Prädiktorvariablen, Variable 1 und Variable 2, in einem engen Zusammenhang stehen.*

In einigen Bereichen kann es vorkommen, dass Sie viele unabhängige Variablen in Ihrem Modell haben, von denen viele mit anderen unabhängigen Variablen korreliert sind. In diesem Fall können Sie bei der Verwendung der kleinsten Quadrate Methode Probleme bekommen: Sie haben dann Multikollinearität und verletzen damit die Annahmen der linearen Regression.

Exkurs: Multikollinearität liegt immer dann vor, wenn eine unabhängige Variable sta1rk mit einer oder mehreren anderen unabhängigen Variablen in einer multiplen Regressionsgleichung korreliert ist. Multikollinearität ist ein Problem, weil sie die statistische Signifikanz einer unabhängigen Variable untergräbt.

Die Partielle Kleinste Quadrate Regression ist eine Lösung für dieses Problem: Sie ermöglicht es, die Dimensionalität der korrelierten Variablen zu reduzieren und die zugrunde liegende, gemeinsame Information dieser Variablen zu modellieren (sowohl in den abhängigen als auch in den unabhängigen Variablen).

Partielle kleinste Quadrate für multivariate Ergebnisse

Ein zweiter großer Vorteil der Partielle Kleinste Quadrate Regression ist, dass es sich um eine Methode handelt, die mehrere Ergebnisvariablen modellieren kann. Viele Statistik- und Machine Learning-Modelle können nicht direkt mit mehreren Ergebnisvariablen umgehen.

Für diese Modelle können oft Lösungen gefunden werden. Zum Beispiel die Erstellung eines Modells pro Variable. Doch insbesondere für analytische Anwendungsfälle kann es wichtig sein, alles in einem Modell zu behalten, da die Interpretation eines multivariaten Modells sich von der Interpretation vieler univariater Modelle unterscheidet.

Partielle kleinste Quadrate im Vergleich zu anderen Modellen

Sie haben gerade gesehen, dass es zwei Hauptgründe für die Verwendung Partielle Kleinste Quadrate Regression gibt: mehrere abhängige Variablen und viele korrelierte (unabhängige) Variablen.

Es gibt andere Methoden, die Lösungen für diese Probleme vorschlagen.

Partielle Kleinste Quadrate Regression vs. Multivariate multiple Regression

Die multivariate multiple Regression ist das multivariate Gegenstück zur multiplen Regression: Sie modelliert mehrere unabhängige Variablen, um mehrere abhängige Variablen zu erklären.

Obwohl die multivariate multiple Regression in vielen Fällen gut funktioniert, kann sie nicht mit Multikollinearität umgehen. Wenn Ihr Datensatz viele korrelierte Prädiktorvariablen enthält, müssen Sie zur Partielle Kleinste Quadrate Regression übergehen.

Exkurs: Prädiktorvariablen sind Variablen, die verwendet werden, um eine andere Variable oder ein Ergebnis vorherzusagen. Im Gegensatz zu unabhängigen Variablen werden Prädiktorvariablen im Allgemeinen nicht vom Untersucher manipuliert, zeigen nicht an, dass eine Variable eine andere verursacht, und werden in nicht-experimentellen Designs verwendet.

Partielle kleinste Quadrate vs. Hauptkomponenten-Regression

Die Hauptkomponenten-Regression ist eine Methode, die eine alternative Lösung für viele korrelierte unabhängige Variablen bietet. Sie wendet eine Hauptkomponentenanalyse auf die unabhängigen Variablen an, bevor sie in ein Modell mit gewöhnlichen kleinsten Quadraten eingegeben werden.

Sie kann in zwei Schritten durchgeführt werden, indem man eine Hauptkomponenten-Analyse und anschließend eine lineare Regression durchführt, aber es gibt auch Implementierungen, die beide Schritte auf einmal durchführen.

Der Unterschied zwischen der Partielle kleinste Quadrate und der Hauptkomponenten Regression besteht darin, dass sich die Hauptkomponenten-Regression auf die Varianz konzentriert und gleichzeitig die Dimensionalität reduziert. Die Partielle kleinste Quadrate Regression hingegen konzentriert sich auf die Kovarianz bei gleichzeitiger Reduzierung der Dimensionalität.

Bei Partielle kleinste Quadrate Regression werden die identifizierten Komponenten der unabhängigen Variablen so definiert, dass sie mit den identifizierten Komponenten der abhängigen Variablen in Beziehung stehen. Bei der Hauptkomponenten-Regression werden die Komponenten ohne Berücksichtigung der abhängigen Variablen erstellt.

Wenn das Ziel darin besteht, eine Abhängigkeitsbeziehung zwischen abhängigen und unabhängigen Variablen zu finden, ist Partielle kleinste Quadrate Methode im Vorteil.

Partielle kleinste Quadrate vs. Kanonische Korrelationsanalyse

Die kanonische Korrelationsanalyse ist eine statistische Methode, die sich auf die Untersuchung der Korrelation zwischen zwei Datensätzen konzentriert. Dies wird durch eine Verringerung der Dimensionalität der beiden Datensätze erreicht, und es werden die Komponentenpaare gefunden, die die höchste Korrelation aufweisen.

Die Idee der Partielle kleinste Quadrate Methode und der Kanonischen Korrelationsanalyse ist durchaus vergleichbar. Der Hauptunterschied zwischen den Methoden besteht darin, dass sich erstere auf die Kovarianz konzentriert, während die Kanonische Korrelationsanalyse auf die Korrelation abzielt.

Partielle kleinste Quadrate Modelle (PLS-Modelle)

Nachdem wir nun die allgemeinen Gründe für die Verwendung kennengelernt haben, wollen wir nun ein wenig mehr ins Detail gehen.

Innerhalb der Methode gibt es verschiedene Unterkategorien, und die Literatur ist voll von verwirrenden Begriffen und Kategorien. Wir werden nun auf einige Begriffe eingehen, die Ihnen beim Lernen über begegnen werden, und eine Liste der verschiedenen Modelle aufstellen.

Partielle kleinste Quadrate Regression

Das absolut gebräuchlichste Modell der Partiell kleinsten Quadrate Methode ist die Partiell kleinste Quadrate Regression (auch PLS-Regression: Partial Least Squares). Sie ist die Grundlage für die anderen Modelle in der Familie der PLS-Modelle. Da es sich um ein Regressionsmodell handelt, ist es anwendbar, wenn Ihre abhängigen Variablen numerisch sind.

Partielle Kleinste-Quadrate-Diskriminanzanalyse

Die Partielle Kleinste-Quadrate-Diskriminanzanalyse (PLS-DA) ist die Alternative, wenn die abhängigen Variablen kategorial sind. Die Diskriminanzanalyse ist ein Klassifizierungsalgorithmus, und PLS-DA ergänzt ihn um den Teil der Dimensionsreduktion.

PLS1 gegenüber PLS2

In der Literatur und in einigen Softwareimplementierungen wird zwischen PLS1 und PLS2 unterschieden. PLS1 bezieht sich in diesem Fall auf ein PLS-Modell mit nur einer abhängigen Variable, während PLS2 ein Modell mit mehreren abhängigen Variablen bezeichnet.

SIMPLS vs. NIPALS

SIMPLS und NIPALS sind zwei Methoden zur Durchführung von PLS. SIMPLS wurde als schnellere und “einfachere” Alternative zu der früheren Version NIPALS entwickelt. Bei der Durchführung einer PLS ist dies wahrscheinlich nicht so wichtig, da die Ergebnisse beider Methoden recht nahe beieinander liegen werden. Wenn Sie jedoch die Wahl haben, ist es wahrscheinlich am besten, das modernere SIMPLS zu verwenden.

Kernel PLS

Die Partielle Kleinste-Quadrate Methode ist, wie bereits erwähnt, eine Variante der Kleinste-Quadrate-Methode (lineare Regression). Aus diesem Grund kann PLS nicht auf nichtlineare Probleme angewendet werden. Kernel PLS löst dieses Problem und macht Partielle Kleinste-Quadrate für nichtlineare Probleme verfügbar. Kernel PLS passt eine Beziehung zwischen Eingabe- und Ausgabevariablen in einem hochdimensionalen Raum an, so dass der Eingabedatensatz als linear angesehen werden kann.

OPLS

OPLS, kurz für Orthogonale Projekte zu latenten Strukturen (Orthogonal Projects to Latent Structures), wurde als eine Verbesserung der PLS-Methode entwickelt. OPLS verspricht, einfacher zu interpretieren zu sein. Während PLS die Variabilität nur in systemische und Rauschen aufteilt, geht OPLS einen Schritt weiter und teilt die systemische Variabilität in prädiktive und orthogonale Variabilität auf.

Es gibt auch einige Kritiker der OPLS, da beide Methoden bekanntermaßen die gleiche Vorhersageleistung erbringen (man könnte sagen, dass es sich nicht um eine “echte” Verbesserung handelt, wenn sie keine bessere Leistung erbringt) und zweitens die traditionelle PLS schneller ist.

SPLS

SPLS, kurz für Spährliche Partielle Kleinste Quadrate (Sparse Partial Least Squares), ist eine Variante des PLS-Modells. Wie bereits erwähnt, zielt PLS auf eine Dimensionsreduzierung ab: eine große Anzahl korrelierter Variablen wird in eine geringere Anzahl von Komponenten reduziert.

Das Ziel von SPLS ist es, mehr als nur eine Dimensionsreduktion durchzuführen. Darüber hinaus wendet es auch eine Variablenauswahl an. SPLS verwendet die berühmte LASSO-Penalisierung, um die Variablenauswahl sowohl in den X- als auch in den Y-Datensätzen durchzuführen, mit dem Ziel, Komponenten zu erhalten, die leichter zu interpretieren sind.

L-PLS

L-PLS ist eine Variante von PLS, die für einige spezifische Anwendungsfälle eingesetzt werden kann.

Es wird ein neuer Ansatz beschrieben, um Strukturen in einer Datenmatrix Y zu extrahieren und zu visualisieren, und zwar im Lichte zusätzlicher Informationen beide über die Zeilen in Y, die in der Matrix X gegeben sind, und über die Spalten in Y, die in der Matrix Z gegeben sind. Die drei Matrizen Z-Y-X kann man sich als “L-Form” vorstellen; X(I × K) und Z(J × L) haben keine gemeinsame Dimension der Matrixgröße, sind aber über Y(I × J ) verbunden.

Die Idee hinter L-PLS besteht darin, drei Datensätze für ein und dasselbe Regressionsproblem zu verwenden, so dass Sie zusätzliche Daten in den Zeilen und in den Spalten haben. Sie beschreiben diese Situation als Daten in Form eines L, und dies wird durch das L in L-PLS dargestellt.

Diese Methode ist sehr innovativ und es gibt sicherlich Anwendungsfälle dafür. Leider wird sie aufgrund der fehlenden Implementierung in den gängigen Statistikbibliotheken und ihrer sehr spezifischen Anwendung meines Wissens in der Praxis noch nicht viel genutzt.