Statistische Methoden, die jeder Data Scientist kennen sollte

Unabhängig davon, wie man zur Frage der Sexyness von Data Science steht, ist es einfach unmöglich, die anhaltende Bedeutung von Daten und unserer Fähigkeit, sie zu analysieren, zu organisieren und in einen Kontext zu setzen, zu ignorieren.

Die Rolle wird bleiben, aber zweifellos werden sich die spezifischen Aufgaben eines Data Scientist weiterentwickeln.

Mit Technologien wie Machine Learning, die sich immer mehr durchsetzen, und aufstrebenden Feldern wie Deep Learning, die bei Forschern und Ingenieuren – und den Unternehmen, die sie einstellen – immer mehr Zuspruch finden, reiten Data Scientists weiterhin auf einer unglaublichen Welle der Innovation und des technologischen Fortschritts.

Obwohl es wichtig ist, über gute Programmierkenntnisse zu verfügen, geht es bei Data Science nicht nur um Software-Engineering.

Data Scientists leben an der Schnittstelle von Programmierung, Statistik und kritischem Denken. Wie Josh Wills es ausdrückt: “Data Scientist ist eine Person, die besser in Statistik ist als jeder Programmierer und besser im Programmieren als jeder Statistiker.”

Es ist wichtig, die Ideen hinter den verschiedenen Methoden zu verstehen, um zu wissen, wie und wann man sie einsetzt. Man muss zuerst die einfacheren Methoden verstehen, um dann die anspruchsvolleren zu begreifen. Es ist wichtig, die Leistung einer Methode genau zu beurteilen, um zu wissen, wie gut oder wie schlecht sie funktioniert. Außerdem ist dies ein spannendes Forschungsgebiet, das wichtige Anwendungen in Wissenschaft, Industrie und Finanzwesen hat. Letztendlich ist statistisches Lernen ein grundlegender Bestandteil in der Ausbildung eines modernen Data Scientists. Beispiele für Probleme mit statistischem Lernen sind:

  • Identifizieren Sie die Risikofaktoren für Prostatakrebs.
  • Klassifizieren Sie ein aufgenommenes Phonem auf der Grundlage eines Log-Periodogramms.
  • Voraussagen, ob jemand einen Herzinfarkt erleiden wird, auf der Basis von demografischen, diätetischen und klinischen Messungen.
  • Ein E-Mail-Spam-Erkennungssystem anpassen.
  • Identifizieren Sie die Zahlen in einer handgeschriebenen Postleitzahl.
  • Klassifizieren Sie eine Gewebeprobe in eine von mehreren Krebsklassen.
  • Stellen Sie die Beziehung zwischen Gehalt und demografischen Variablen in Bevölkerungsumfragedaten her.

Bevor ich mit auf die 10 wichtigsten Methoden für Data Scientists weitermache, möchte ich zwischen statistischem Lernen und maschinellem Lernen unterscheiden:

  • Maschinelles Lernen ist als Teilgebiet der Künstlichen Intelligenz entstanden.
  • Statistisches Lernen entstand als Teilgebiet der Statistik.
  • Beim maschinellen Lernen liegt der Schwerpunkt stärker auf groß angelegten Anwendungen und der Vorhersagegenauigkeit.
  • Beim statistischen Lernen liegt der Schwerpunkt auf Modellen und deren Interpretierbarkeit sowie auf Präzision und Unsicherheit.
  • Aber die Unterscheidung ist immer unschärfer geworden, und es gibt eine Menge “gegenseitige Befruchtung”.
  • Maschinelles Lernen hat die Oberhand im Marketing!

Inhalt

1 – Lineare Regression:

In der Statistik ist die lineare Regression eine Methode zur Vorhersage einer Zielvariablen durch Anpassung der besten linearen Beziehung zwischen der abhängigen und der unabhängigen Variable. Die beste Anpassung erfolgt, indem sichergestellt wird, dass die Summe aller Abstände zwischen der Form und den tatsächlichen Beobachtungen an jedem Punkt so klein wie möglich ist. Die Passung der Form ist “am besten” in dem Sinne, dass keine andere Position bei der Wahl der Form weniger Fehler produzieren würde. 2 Haupttypen der linearen Regression sind die einfache lineare Regression und die multiple lineare Regression. Bei der einfachen linearen Regression wird eine einzelne unabhängige Variable verwendet, um eine abhängige Variable vorherzusagen, indem eine bestmögliche lineare Beziehung angepasst wird. Die multiple lineare Regression verwendet mehr als eine unabhängige Variable, um eine abhängige Variable vorherzusagen, indem sie eine beste lineare Beziehung anpasst.

Wählen Sie 2 beliebige Dinge, die Sie in Ihrem täglichen Leben verwenden und die miteinander in Beziehung stehen. Zum Beispiel: Ich habe Daten über meine monatlichen Ausgaben, mein monatliches Einkommen und die Anzahl der Reisen pro Monat für die letzten 3 Jahre. Jetzt muss ich die folgenden Fragen beantworten:

  • Wie hoch werden meine monatlichen Ausgaben für das nächste Jahr sein?
  • Welcher Faktor (monatliches Einkommen oder Anzahl der Reisen pro Monat) ist wichtiger bei der Entscheidung über meine monatlichen Ausgaben?
  • Wie korrelieren Monatseinkommen und Reisen pro Monat mit den monatlichen Ausgaben?

2 – Klassifizierung:

Die Klassifizierung ist eine Data-Mining-Technik, die einer Datensammlung Kategorien zuordnet, um genauere Vorhersagen und Analysen zu ermöglichen. Manchmal auch als Entscheidungsbaum bezeichnet, ist die Klassifizierung eine von mehreren Methoden, die dazu dienen, die Analyse sehr großer Datensätze effektiv zu gestalten. 2 wichtige Klassifizierungstechniken stechen hervor: Logistische Regression und Diskriminanzanalyse.

Die logistische Regression ist die geeignete Regressionsanalyse zur Durchführung, wenn die abhängige Variable dichotom (binär) ist. Wie alle Regressionsanalysen ist auch die logistische Regression eine prädiktive Analyse. Die logistische Regression wird verwendet, um Daten zu beschreiben und die Beziehung zwischen einer abhängigen binären Variablen und einer oder mehreren nominalen, ordinalen, intervall- oder verhältnismäßigen unabhängigen Variablen zu erklären. Arten von Fragen, die eine logistische Regression untersuchen kann:

  • Wie ändert sich die Wahrscheinlichkeit, an Lungenkrebs zu erkranken (Ja vs. Nein), für jedes zusätzliche Pfund Übergewicht und für jede täglich gerauchte Schachtel Zigaretten?
  • Haben das Körpergewicht, die Kalorienzufuhr, die Fettaufnahme und das Alter der Teilnehmer einen Einfluss auf den Herzinfarkt (Ja vs. Nein)?

Bei der Diskriminanzanalyse sind 2 oder mehr Gruppen oder Cluster oder Populationen a priori bekannt und 1 oder mehrere neue Beobachtungen werden anhand der gemessenen Merkmale in eine der bekannten Populationen eingeordnet. Die Diskriminanzanalyse modelliert die Verteilung der Prädiktoren X separat in jeder der Antwortklassen und verwendet dann das Bayes-Theorem, um diese in Schätzungen für die Wahrscheinlichkeit der Antwortkategorie angesichts des Wertes von X umzuwandeln.

Bei der linearen Diskriminanzanalyse werden “Diskriminanz-Scores” für jede Beobachtung berechnet, um zu klassifizieren, in welcher Antwortvariablenklasse sie sich befindet. Diese Scores werden durch das Finden von Linearkombinationen der unabhängigen Variablen erhalten. Es wird angenommen, dass die Beobachtungen innerhalb jeder Klasse aus einer multivariaten Gauß-Verteilung gezogen werden und die Kovarianz der Prädiktorvariablen über alle k Stufen der Antwortvariablen Y gleich ist.

Die quadratische Diskriminanzanalyse bietet einen alternativen Ansatz. Wie LDA nimmt QDA an, dass die Beobachtungen aus jeder Klasse von Y aus einer Gauß-Verteilung gezogen werden. Im Gegensatz zu LDA wird bei QDA jedoch angenommen, dass jede Klasse ihre eigene Kovarianzmatrix hat. Mit anderen Worten, es wird nicht angenommen, dass die Prädiktorvariablen eine gemeinsame Varianz über alle k Stufen in Y haben.

3 – Resampling-Methoden:

Resampling ist die Methode, die darin besteht, wiederholte Stichproben aus den ursprünglichen Datenstichproben zu ziehen. Es ist eine nicht-parametrische Methode der statistischen Inferenz. Mit anderen Worten, die Methode des Resamplings beinhaltet nicht die Verwendung der generischen Verteilungstabellen, um ungefähre p-Wahrscheinlichkeitswerte zu berechnen.

Das Resampling erzeugt eine eindeutige Stichprobenverteilung auf der Basis der tatsächlichen Daten. Es verwendet experimentelle Methoden anstelle von analytischen Methoden, um die eindeutige Stichprobenverteilung zu erzeugen. Es liefert unverzerrte Schätzungen, da es auf den unverzerrten Stichproben aller möglichen Ergebnisse der vom Forscher untersuchten Daten basiert. Um das Konzept des Resamplings zu verstehen, sollten Sie die Begriffe Bootstrapping und Cross-Validation kennen:

  • Bootstrapping ist eine Technik, die in vielen Situationen hilfreich ist, z. B. bei der Validierung der Leistung eines prädiktiven Modells, bei Ensemble-Methoden und bei der Schätzung von Bias und Varianz des Modells. Es funktioniert durch Stichproben mit Ersetzung aus den Originaldaten und nimmt die “nicht ausgewählten” Datenpunkte als Testfälle. Wir können dies mehrere Male machen und den Durchschnittswert als Schätzung unserer Modellleistung berechnen.
  • Auf der anderen Seite ist die Kreuzvalidierung eine Technik zur Validierung der Modellleistung und wird durch Aufteilung der Trainingsdaten in k Teile durchgeführt. Wir nehmen die k – 1 Teile als unseren Trainingssatz und verwenden den “ausgehaltenen” Teil als unseren Testsatz. Wir wiederholen das k-mal anders. Schließlich nehmen wir den Durchschnitt der k Ergebnisse als unsere Leistungsschätzung.

Normalerweise ist für lineare Modelle die gewöhnlichen kleinsten Quadrate das Hauptkriterium, um sie an die Daten anzupassen. Die nächsten 3 Methoden sind die alternativen Ansätze, die eine bessere Vorhersagegenauigkeit und Modellinterpretierbarkeit für die Anpassung linearer Modelle bieten können.

4 – Teilmengenauswahl:

Bei diesem Ansatz wird eine Teilmenge der p-Prädiktoren identifiziert, von denen wir glauben, dass sie mit der Antwort in Beziehung stehen. Dann wird ein Modell unter Verwendung der kleinsten Quadrate der Untergruppenmerkmale angepasst.

  • Best-Subset-Auswahl: Hier passen wir eine separate OLS-Regression für jede mögliche Kombination der p Prädiktoren an und betrachten dann die resultierenden Modellanpassungen. Der Algorithmus ist in 2 Stufen unterteilt: (1) Anpassung aller Modelle, die k Prädiktoren enthalten, wobei k die maximale Länge der Modelle ist, (2) Auswahl eines einzelnen Modells mithilfe des kreuzvalidierten Vorhersagefehlers. Es ist wichtig, den Test- oder Validierungsfehler und nicht den Trainingsfehler zu verwenden, um die Modellanpassung zu beurteilen, da RSS und R² mit mehr Variablen monoton ansteigen. Der beste Ansatz ist die Kreuzvalidierung und die Auswahl des Modells mit dem höchsten R² und dem niedrigsten RSS bei Testfehlerschätzungen.
  • Die schrittweise Vorwärtsauswahl berücksichtigt eine viel kleinere Teilmenge von p Prädiktoren. Sie beginnt mit einem Modell, das keine Prädiktoren enthält, und fügt dem Modell dann Prädiktoren hinzu, und zwar einen nach dem anderen, bis alle Prädiktoren im Modell enthalten sind. Die Reihenfolge der hinzugefügten Variablen ist diejenige, die die größte Verbesserung der Anpassung ergibt, bis keine weiteren Variablen die Modellanpassung unter Verwendung des kreuzvalidierten Vorhersagefehlers verbessern.
  • Die schrittweise Rückwärtsauswahl beginnt mit allen p Prädiktoren im Modell und entfernt dann iterativ den am wenigsten nützlichen Prädiktor, einen nach dem anderen.
  • Die hybride Methode folgt dem schrittweisen Vorwärtsansatz, entfernt jedoch nach dem Hinzufügen jeder neuen Variable möglicherweise auch Variablen, die nicht zur Modellanpassung beitragen.

5 – Schrumpfung:

Bei diesem Ansatz wird ein Modell mit allen p Prädiktoren angepasst, jedoch werden die geschätzten Koeffizienten relativ zu den Schätzungen der kleinsten Quadrate gegen Null geschrumpft. Diese Schrumpfung, auch Regularisierung genannt, hat den Effekt, dass die Varianz reduziert wird. Je nachdem, welche Art von Schrumpfung durchgeführt wird, können einige der Koeffizienten so geschätzt werden, dass sie genau Null sind. Somit führt diese Methode auch eine Variablenselektion durch. Die beiden bekanntesten Techniken zum Schrumpfen der Koeffizientenschätzungen gegen Null sind die Ridge-Regression und das Lasso.

  • Die Ridge-Regression ähnelt der Methode der kleinsten Quadrate, mit dem Unterschied, dass die Koeffizienten durch Minimierung einer etwas anderen Größe geschätzt werden. Die Ridge-Regression sucht, wie OLS, nach Koeffizientenschätzungen, die RSS reduzieren, hat aber auch eine Schrumpfungsstrafe, wenn die Koeffizienten näher an Null kommen. Diese Strafe hat den Effekt, dass die Koeffizientenschätzungen gegen Null schrumpfen. Ohne auf die Mathematik einzugehen, ist es nützlich zu wissen, dass die Ridge-Regression die Features mit der kleinsten Spaltenraumvarianz schrumpft. Wie bei der Hauptkomponentenanalyse projiziert die Ridge-Regression die Daten in den d-gerichteten Raum und schrumpft dann die Koeffizienten der Komponenten mit geringer Varianz stärker als die Komponenten mit hoher Varianz, die der größten und kleinsten Hauptkomponente entsprechen.
  • Die Ridge-Regression hat mindestens einen Nachteil: Sie schließt alle p Prädiktoren in das endgültige Modell ein. Der Strafterm wird viele von ihnen nahe an Null setzen, aber nie genau auf Null. Dies ist im Allgemeinen kein Problem für die Vorhersagegenauigkeit, aber es kann die Interpretation der Ergebnisse des Modells erschweren. Lasso überwindet diesen Nachteil und ist in der Lage, einige der Koeffizienten auf Null zu zwingen, vorausgesetzt, dass s klein genug ist. Da s = 1 zu einer regulären OLS-Regression führt, schrumpfen die Koeffizienten gegen Null, wenn s gegen 0 geht. Die Lasso-Regression führt also auch eine Variablenselektion durch.

6 – Dimensionsreduktion:

Die Dimensionsreduktion reduziert das Problem der Schätzung von p + 1 Koeffizienten auf das einfache Problem von M + 1 Koeffizienten, wobei M < p. Dies wird erreicht, indem M verschiedene Linearkombinationen oder Projektionen der Variablen berechnet werden. Dann werden diese M Projektionen als Prädiktoren verwendet, um ein lineares Regressionsmodell durch kleinste Quadrate anzupassen. 2 Ansätze für diese Aufgabe sind die Hauptkomponentenregression und die partielle kleinste Quadrate.

  • Man kann die Hauptkomponentenregression als einen Ansatz zur Ableitung eines niedrigdimensionalen Satzes von Merkmalen aus einem großen Satz von Variablen beschreiben. Die erste Hauptkomponentenrichtung der Daten ist die, entlang der die Beobachtungen am meisten variieren. Mit anderen Worten, die erste PC ist eine Linie, die so gut wie möglich zu den Daten passt. Man kann p verschiedene Hauptkomponenten anpassen. Die zweite PC ist eine Linearkombination der Variablen, die mit der ersten PC unkorreliert ist und unter dieser Bedingung die größte Varianz hat. Die Idee ist, dass die Hauptkomponenten die größte Varianz in den Daten erfassen, indem sie Linearkombinationen der Daten in anschließend orthogonalen Richtungen verwenden. Auf diese Weise können wir auch die Effekte von korrelierten Variablen kombinieren, um mehr Informationen aus den verfügbaren Daten herauszuholen, während wir bei regulären kleinsten Quadraten eine der korrelierten Variablen verwerfen müssten.
  • Die PCR-Methode, die wir oben beschrieben haben, beinhaltet die Identifizierung von linearen Kombinationen von X, die die Prädiktoren am besten repräsentieren. Diese Kombinationen (Richtungen) werden auf eine nicht überwachte Weise identifiziert, da die Antwort Y nicht zur Bestimmung der Hauptkomponentenrichtungen verwendet wird. Das heißt, die Antwort Y überwacht nicht die Identifizierung der Hauptkomponenten, sodass es keine Garantie dafür gibt, dass die Richtungen, die die Prädiktoren am besten erklären, auch die besten für die Vorhersage der Antwort sind (auch wenn dies oft angenommen wird). Partielle kleinste Quadrate (PLS) sind eine überwachte Alternative zur PCR. Wie PCR ist PLS eine Dimensionsreduktionsmethode, die zuerst einen neuen kleineren Satz von Features identifiziert, die lineare Kombinationen der ursprünglichen Features sind, und dann ein lineares Modell über kleinste Quadrate an die neuen M-Features anpasst. Im Gegensatz zur PCR verwendet PLS jedoch die Antwortvariable, um die neuen Merkmale zu identifizieren.

7 – Nichtlineare Modelle:

In der Statistik ist die nichtlineare Regression eine Form der Regressionsanalyse, bei der Beobachtungsdaten durch eine Funktion modelliert werden, die eine nichtlineare Kombination der Modellparameter ist und von einer oder mehreren unabhängigen Variablen abhängt. Die Daten werden durch eine Methode der sukzessiven Approximation angepasst. Im Folgenden werden einige wichtige Techniken zum Umgang mit nichtlinearen Modellen vorgestellt:

  • Eine Funktion auf den reellen Zahlen wird als Stufenfunktion bezeichnet, wenn sie als endliche Linearkombination von Indikatorfunktionen von Intervallen geschrieben werden kann. Informell ausgedrückt, ist eine Stufenfunktion eine stückweise konstante Funktion, die nur endlich viele Stücke hat.
  • Eine stückweise Funktion ist eine Funktion, die durch mehrere Unterfunktionen definiert ist, wobei jede Unterfunktion auf ein bestimmtes Intervall des Bereichs der Hauptfunktion angewendet wird. Stückweise ist eigentlich eine Art, die Funktion auszudrücken, und nicht eine Eigenschaft der Funktion selbst, aber mit zusätzlicher Qualifikation kann es die Natur der Funktion beschreiben. Eine stückweise Polynomfunktion ist z. B. eine Funktion, die in jedem ihrer Teilbereiche ein Polynom ist, aber möglicherweise in jedem Teilbereich ein anderes.
  • Ein Spline ist eine spezielle Funktion, die stückweise durch Polynome definiert ist. In der Computergrafik bezieht sich Spline auf eine stückweise polynomiale parametrische Kurve. Splines sind beliebte Kurven wegen der Einfachheit ihrer Konstruktion, ihrer leichten und genauen Auswertung und ihrer Fähigkeit, komplexe Formen durch Kurvenanpassung und interaktives Kurvendesign zu approximieren.
  • Ein verallgemeinertes additives Modell ist ein verallgemeinertes lineares Modell, bei dem der lineare Prädiktor linear von unbekannten glatten Funktionen einiger Prädiktorvariablen abhängt, und das Interesse konzentriert sich auf Inferenz über diese glatten Funktionen.

8 – Baumbasierte Methoden:

Baumbasierte Methoden können sowohl für Regressions- als auch für Klassifikationsprobleme verwendet werden. Sie beinhalten eine Schichtung oder Segmentierung des Prädiktorraums in eine Anzahl einfacher Regionen. Da der Satz von Aufteilungsregeln, der zur Segmentierung des Prädiktorraums verwendet wird, in einem Baum zusammengefasst werden kann, werden diese Arten von Ansätzen als Entscheidungsbaummethoden bezeichnet. Die folgenden Methoden erzeugen mehrere Bäume, die dann kombiniert werden, um eine einzige Konsensvorhersage zu erhalten.

  • Bagging ist eine Methode, mit der die Varianz Ihrer Vorhersage verringert wird, indem zusätzliche Daten für das Training aus dem ursprünglichen Datensatz generiert werden, wobei Kombinationen mit Wiederholungen verwendet werden, um mehrere Bäume mit der gleichen Karnalität/Größe wie die ursprünglichen Daten zu erzeugen. Durch die Vergrößerung Ihres Trainingsdatensatzes können Sie die Vorhersagekraft des Modells nicht verbessern, sondern nur die Varianz verringern, indem Sie die Vorhersage eng auf das erwartete Ergebnis abstimmen.
  • Boosting ist ein Ansatz, bei dem die Ausgabe mit mehreren verschiedenen Modellen berechnet wird und das Ergebnis dann mit einem gewichteten Mittelwertansatz gemittelt wird. Wenn Sie die Vorteile und Fallstricke dieser Ansätze kombinieren, indem Sie die Gewichtungsformel variieren, können Sie eine gute Vorhersagekraft für einen größeren Bereich von Eingabedaten erzielen, indem Sie verschiedene eng abgestimmte Modelle verwenden.
  • Der Random-Forest-Algorithmus ist dem Bagging eigentlich sehr ähnlich. Auch hier ziehen Sie zufällige Bootstrap-Stichproben aus Ihrem Trainingsset. Zusätzlich zu den Bootstrap-Stichproben ziehen Sie jedoch auch eine zufällige Teilmenge von Features für das Training der einzelnen Bäume; beim Bagging geben Sie jedem Baum die volle Menge an Features. Durch die zufällige Feature-Auswahl machen Sie die Bäume im Vergleich zum regulären Bagging unabhängiger voneinander, was oft zu einer besseren Vorhersageleistung führt (aufgrund besserer Varianz-Bias-Abwägungen) und es ist auch schneller, da jeder Baum nur aus einer Teilmenge von Features lernt.

9 – Support-Vektor-Maschinen:

SVM ist eine Klassifizierungstechnik, die unter den überwachten Lernmodellen im Maschinellen Lernen aufgeführt ist. Laienhaft ausgedrückt, geht es darum, die Hyperebene (Linie in 2D, Ebene in 3D und Hyperebene in höheren Dimensionen) zu finden. Formal gesehen ist eine Hyperebene ein n-1 dimensionaler Unterraum eines n-dimensionalen Raums), die zwei Klassen von Punkten am besten mit dem maximalen Abstand trennt. Im Wesentlichen handelt es sich um ein eingeschränktes Optimierungsproblem, bei dem der Spielraum unter der Einschränkung maximiert wird, dass er die Daten perfekt klassifiziert (harter Spielraum).

Die Datenpunkte, die diese Hyperebene auf beiden Seiten “unterstützen”, werden als “Support-Vektoren” bezeichnet. Im obigen Bild sind der gefüllte blaue Kreis und die beiden gefüllten Quadrate die Support-Vektoren. In Fällen, in denen die beiden Klassen der Daten nicht linear trennbar sind, werden die Punkte in einen aufgelösten (höherdimensionalen) Raum projiziert, in dem eine lineare Trennung möglich sein kann. Ein Problem mit mehreren Klassen kann in mehrere binäre Eins-gegen-Eins- oder Eins-gegen-Rest-Klassifikationsprobleme zerlegt werden.

10 – Unüberwachtes Lernen:

Bisher haben wir nur überwachte Lerntechniken diskutiert, bei denen die Gruppen bekannt sind und die dem Algorithmus zur Verfügung gestellte Erfahrung die Beziehung zwischen den tatsächlichen Entitäten und der Gruppe ist, zu der sie gehören. Eine andere Gruppe von Techniken kann verwendet werden, wenn die Gruppen (Kategorien) der Daten nicht bekannt sind. Sie werden als unüberwacht bezeichnet, da es dem Lernalgorithmus überlassen ist, Muster in den bereitgestellten Daten zu erkennen. Clustering ist ein Beispiel für unüberwachtes Lernen, bei dem verschiedene Datensätze in Gruppen von eng verwandten Elementen geclustert werden. Im Folgenden finden Sie eine Liste der am häufigsten verwendeten Algorithmen für unüberwachtes Lernen:

Die Hauptkomponentenanalyse hilft bei der Erstellung einer niedrigdimensionalen Darstellung des Datensatzes, indem sie einen Satz linearer Kombinationen von Merkmalen identifiziert, die eine maximale Varianz aufweisen und untereinander unkorreliert sind. Diese lineare Dimensionalitätstechnik kann hilfreich sein, um latente Interaktionen zwischen den Variablen in einer nicht überwachten Umgebung zu verstehen.

k-Means-Clustering: teilt die Daten in k verschiedene Cluster ein, basierend auf dem Abstand zum Zentroid eines Clusters.

Hierarchisches Clustering: baut eine mehrstufige Hierarchie von Clustern auf, indem ein Clusterbaum erstellt wird.

Dies war ein grundlegender Überblick über einige grundlegende statistische Techniken, die einem Data-Science-Programmmanager oder einer Führungskraft helfen können, besser zu verstehen, was unter der Haube ihrer Data-Science-Teams abläuft. Um ehrlich zu sein, lassen einige Data-Science-Teams ihre Algorithmen lediglich über Python und R-Bibliotheken laufen. Die meisten von ihnen müssen nicht einmal über die Mathematik nachdenken, die dahinter steckt. Wenn Sie jedoch die Grundlagen der statistischen Analyse verstehen, haben Ihre Teams einen besseren Ansatz. Einen Einblick in die kleinsten Teile zu haben, ermöglicht eine einfachere Manipulation und Abstraktion. Ich hoffe, dass dieser grundlegende Leitfaden zur statistischen Datenwissenschaft Ihnen ein anständiges Verständnis vermittelt!