Statistische Methoden, die jeder Data Scientist kennen sollte

Unabhängig davon, wie man zur Frage der Sexyness von Data Science steht, kann die anhaltende Bedeutung von Daten und unserer Fähigkeit, sie zu analysieren, zu organisieren und zu kontextualisieren, nicht ignoriert werden.

Die Rolle des Data Scientist wird bleiben, aber seine spezifischen Aufgaben werden sich zweifellos weiterentwickeln.

Inhaltsverzeichnis

1 – Lineare Regression:
2 – Klassifizierung:
3 – Resampling-Methoden:
4 – Teilmengenauswahl:
5 – Schrumpfung:
6 – Dimensionsreduktion:
7 – Nichtlineare Modelle:
8 – Baumbasierte Methoden:
9 – Support-Vektor-Maschinen:
10 – Unüberwachtes Lernen:
11 – Clustering
Zusammenfassung

Mit Technologien wie Machine Learning, die sich immer mehr durchsetzen, und aufstrebenden Feldern wie Deep Learning, die bei Forschern und Ingenieuren – und den Unternehmen, die sie einstellen – immer mehr Zuspruch finden, reiten Data Scientists weiterhin auf einer unglaublichen Welle der Innovation und des technologischen Fortschritts.

Auch wenn gute Programmierkenntnisse wichtig sind, geht es bei Data Science nicht nur um Software-Engineering.

Data Scientists leben an der Schnittstelle von Programmierung, Statistik und kritischem Denken. In den Worten von Josh Wills: “Ein Data Scientist ist jemand, der besser in Statistik ist als jeder Programmierer und besser im Programmieren als jeder Statistiker.

Es ist wichtig, die Ideen hinter den verschiedenen Methoden zu verstehen, um zu wissen, wie und wann man sie einsetzt. Man muss zuerst die einfacheren Methoden verstehen, bevor man die komplizierteren verstehen kann. Es ist wichtig, die Leistung einer Methode genau zu beurteilen, um zu wissen, wie gut oder schlecht sie funktioniert. Außerdem ist es ein spannendes Forschungsgebiet mit wichtigen Anwendungen in Wissenschaft, Industrie und Finanzwesen. Schließlich ist statistisches Lernen ein grundlegender Bestandteil der Ausbildung eines modernen Datenwissenschaftlers. Beispiele für Probleme des statistischen Lernens sind:

Identifizieren Sie die Risikofaktoren für Prostatakrebs.
Klassifizieren Sie ein aufgenommenes Phonem auf der Grundlage eines Log-Periodogramms.
Voraussagen, ob jemand einen Herzinfarkt erleiden wird, auf der Basis von demografischen, diätetischen und klinischen Messungen.
Ein E-Mail-Spam-Erkennungssystem anpassen.
Identifizieren Sie die Zahlen in einer handgeschriebenen Postleitzahl.
Klassifizieren Sie eine Gewebeprobe in eine von mehreren Krebsklassen.
Stellen Sie die Beziehung zwischen Gehalt und demografischen Variablen in Bevölkerungsumfragedaten her.

Bevor ich mit auf die 10 wichtigsten Methoden für Data Scientists weitermache, möchte ich zwischen statistischem Lernen und maschinellem Lernen unterscheiden:

Maschinelles Lernen ist als Teilgebiet der Künstlichen Intelligenz entstanden.
Statistisches Lernen entstand als Teilgebiet der Statistik.
Beim maschinellen Lernen liegt der Schwerpunkt stärker auf groß angelegten Anwendungen und der Vorhersagegenauigkeit.
Beim statistischen Lernen liegt der Schwerpunkt auf Modellen und deren Interpretierbarkeit sowie auf Präzision und Unsicherheit.
Aber die Unterscheidung ist immer unschärfer geworden, und es gibt eine Menge “gegenseitige Befruchtung”.
Maschinelles Lernen hat die Oberhand im Marketing!

1 – Lineare Regression:

In der Statistik ist die lineare Regression eine Methode zur Vorhersage einer Zielvariablen durch Anpassung der besten linearen Beziehung zwischen der abhängigen und der unabhängigen Variablen. Die beste Anpassung wird erreicht, indem sichergestellt wird, dass die Summe aller Abweichungen zwischen der Form und den tatsächlichen Beobachtungen an jedem Punkt so gering wie möglich ist. Die Formanpassung ist “am besten” in dem Sinne, dass keine andere Position bei der Wahl der Form weniger Fehler produzieren würde. 2 Die wichtigsten Arten der linearen Regression sind die einfache lineare Regression und die multiple lineare Regression. Bei der einfachen linearen Regression wird eine einzelne unabhängige Variable verwendet, um eine abhängige Variable vorherzusagen, indem eine bestmögliche lineare Beziehung angepasst wird. Die multiple lineare Regression verwendet mehr als eine unabhängige Variable, um eine abhängige Variable durch Anpassung der besten linearen Beziehung vorherzusagen.

Wählen Sie 2 beliebige Dinge, die Sie in Ihrem täglichen Leben verwenden und die miteinander in Beziehung stehen. Zum Beispiel: Ich habe Daten über meine monatlichen Ausgaben, mein monatliches Einkommen und die Anzahl der Reisen pro Monat für die letzten 3 Jahre. Beantworten Sie nun die folgenden Fragen:

Wie hoch werden meine monatlichen Ausgaben für das nächste Jahr sein?
Welcher Faktor (monatliches Einkommen oder Anzahl der Reisen pro Monat) ist wichtiger bei der Entscheidung über meine monatlichen Ausgaben?
Wie korrelieren Monatseinkommen und Reisen pro Monat mit den monatlichen Ausgaben?

2 – Klassifizierung:

Klassifikation ist eine Data-Mining-Technik, die eine Datensammlung in Kategorien einteilt, um genauere Vorhersagen und Analysen zu ermöglichen. Manchmal auch als Entscheidungsbaum bezeichnet, ist die Klassifikation eine von mehreren Methoden, um die Analyse sehr großer Datensätze effizient zu gestalten. Es gibt 2 wichtige Klassifizierungstechniken: die logistische Regression und die Diskriminanzanalyse.

Die logistische Regression ist die geeignete Regressionsanalyse, wenn die abhängige Variable dichotom (binär) ist. Wie alle Regressionsanalysen ist auch die logistische Regression eine prädiktive Analyse. Die logistische Regression wird verwendet, um Daten zu beschreiben und die Beziehung zwischen einer binären abhängigen Variablen und einer oder mehreren nominalen, ordinalen, Intervall- oder Verhältnisvariablen zu erklären. Arten von Fragestellungen, die mit Hilfe der logistischen Regression untersucht werden können:

Wie ändert sich die Wahrscheinlichkeit, an Lungenkrebs zu erkranken (Ja vs. Nein), für jedes zusätzliche Pfund Übergewicht und für jede täglich gerauchte Schachtel Zigaretten?
Haben das Körpergewicht, die Kalorienzufuhr, die Fettaufnahme und das Alter der Teilnehmer einen Einfluss auf den Herzinfarkt (Ja vs. Nein)?

Bei der Diskriminanzanalyse sind zwei oder mehr Gruppen oder Cluster oder Populationen a priori bekannt, und eine oder mehrere neue Beobachtungen werden auf der Grundlage der gemessenen Merkmale einer der bekannten Populationen zugeordnet. Die Diskriminanzanalyse modelliert die Verteilung der Prädiktoren X getrennt für jede Antwortkategorie und verwendet dann das Bayes’sche Theorem, um sie in Schätzwerte für die Wahrscheinlichkeit der Antwortkategorie in Abhängigkeit vom Wert von X umzuwandeln.

Bei der linearen Diskriminanzanalyse werden für jede Beobachtung “Diskriminanz-Scores” berechnet, um zu klassifizieren, in welche Klasse der Antwortvariablen sie fällt. Diese Werte werden durch die Suche nach Linearkombinationen der unabhängigen Variablen ermittelt. Es wird angenommen, dass die Beobachtungen innerhalb jeder Klasse aus einer multivariaten Gauß-Verteilung stammen und dass die Kovarianz der Prädiktorvariablen für alle k Stufen der Reaktionsvariablen Y gleich ist.

Ein alternativer Ansatz ist die quadratische Diskriminanzanalyse. Wie die LDA geht auch die QDA davon aus, dass die Beobachtungen in jeder Klasse von Y aus einer Gaußverteilung stammen. Im Gegensatz zur LDA nimmt die QDA jedoch an, dass jede Klasse ihre eigene Kovarianzmatrix hat. Mit anderen Worten, es wird nicht angenommen, dass die Prädiktorvariablen eine gemeinsame Varianz über alle k Stufen von Y haben.

3 – Resampling-Methoden:

Resampling ist eine Methode, bei der wiederholte Stichproben aus der ursprünglichen Datenstichprobe gezogen werden. Es handelt sich um eine nichtparametrische statistische Inferenzmethode. Mit anderen Worten, bei der Resampling-Methode werden keine allgemeinen Verteilungstabellen verwendet, um ungefähre p-Wahrscheinlichkeitswerte zu berechnen.

Resampling erzeugt eine eindeutige Stichprobenverteilung auf der Grundlage der tatsächlichen Daten. Sie verwendet experimentelle statt analytischer Methoden, um die eindeutige Stichprobenverteilung zu erzeugen. Es liefert unverzerrte Schätzungen, da es auf unverzerrten Stichproben aller möglichen Ergebnisse der vom Forscher untersuchten Daten basiert. Um das Konzept des Resamplings zu verstehen, muss man mit den Begriffen Bootstrapping und Kreuzvalidierung vertraut sein:

Bootstrapping ist eine Technik, die in vielen Situationen hilfreich ist, z. B. bei der Validierung der Leistung eines prädiktiven Modells, bei Ensemble-Methoden und bei der Schätzung von Bias und Varianz des Modells. Es funktioniert durch Stichproben mit Ersetzung aus den Originaldaten und nimmt die “nicht ausgewählten” Datenpunkte als Testfälle. Wir können dies mehrere Male machen und den Durchschnittswert als Schätzung unserer Modellleistung berechnen.
Auf der anderen Seite ist die Kreuzvalidierung eine Technik zur Validierung der Modellleistung und wird durch Aufteilung der Trainingsdaten in k Teile durchgeführt. Wir nehmen die k – 1 Teile als unseren Trainingssatz und verwenden den “ausgehaltenen” Teil als unseren Testsatz. Wir wiederholen das k-mal anders. Schließlich nehmen wir den Durchschnitt der k Ergebnisse als unsere Leistungsschätzung.

Normalerweise ist die Methode der kleinsten Quadrate das Hauptkriterium für die Anpassung linearer Modelle an die Daten. Die folgenden drei Methoden sind alternative Ansätze, die eine bessere Vorhersagegenauigkeit und Modellinterpretierbarkeit für die Anpassung linearer Modelle bieten können.

4 – Teilmengenauswahl:

Bei diesem Ansatz wird eine Untergruppe von p-Prädiktoren identifiziert, von denen angenommen wird, dass sie mit der Antwort zusammenhängen. Anschließend wird ein Modell mit Hilfe der Methode der kleinsten Quadrate an die Merkmale der Untergruppe angepasst.

Best-Subset-Auswahl: Hier passen wir eine separate OLS-Regression für jede mögliche Kombination der p Prädiktoren an und betrachten dann die resultierenden Modellanpassungen. Der Algorithmus ist in 2 Stufen unterteilt: (1) Anpassung aller Modelle, die k Prädiktoren enthalten, wobei k die maximale Länge der Modelle ist, (2) Auswahl eines einzelnen Modells mithilfe des kreuzvalidierten Vorhersagefehlers. Es ist wichtig, den Test- oder Validierungsfehler und nicht den Trainingsfehler zu verwenden, um die Modellanpassung zu beurteilen, da RSS und R² mit mehr Variablen monoton ansteigen. Der beste Ansatz ist die Kreuzvalidierung und die Auswahl des Modells mit dem höchsten R² und dem niedrigsten RSS bei Testfehlerschätzungen.
Die schrittweise Vorwärtsauswahl berücksichtigt eine viel kleinere Teilmenge von p Prädiktoren. Sie beginnt mit einem Modell, das keine Prädiktoren enthält, und fügt dem Modell dann Prädiktoren hinzu, und zwar einen nach dem anderen, bis alle Prädiktoren im Modell enthalten sind. Die Reihenfolge der hinzugefügten Variablen ist diejenige, die die größte Verbesserung der Anpassung ergibt, bis keine weiteren Variablen die Modellanpassung unter Verwendung des kreuzvalidierten Vorhersagefehlers verbessern.
Die schrittweise Rückwärtsauswahl beginnt mit allen p Prädiktoren im Modell und entfernt dann iterativ den am wenigsten nützlichen Prädiktor, einen nach dem anderen.
Die hybride Methode folgt dem schrittweisen Vorwärtsansatz, entfernt jedoch nach dem Hinzufügen jeder neuen Variable möglicherweise auch Variablen, die nicht zur Modellanpassung beitragen.

5 – Schrumpfung:

Bei diesem Ansatz wird ein Modell mit allen p Prädiktoren angepasst, aber die geschätzten Koeffizienten werden im Vergleich zu den Schätzungen der kleinsten Quadrate gegen Null geschrumpft. Diese Schrumpfung, die auch als Regularisierung bezeichnet wird, führt zu einer Verringerung der Varianz. Je nach Art der Schrumpfung können einige Koeffizienten so geschätzt werden, dass sie genau Null sind. Diese Methode führt somit auch eine Variablenselektion durch. Die beiden bekanntesten Techniken zur Schrumpfung der Koeffizientenschätzungen auf Null sind die Ridge-Regression und das Lasso.

Die Ridge-Regression ähnelt der Methode der kleinsten Quadrate, mit dem Unterschied, dass die Koeffizienten durch Minimierung einer etwas anderen Größe geschätzt werden. Die Ridge-Regression sucht, wie OLS, nach Koeffizientenschätzungen, die RSS reduzieren, hat aber auch eine Schrumpfungsstrafe, wenn die Koeffizienten näher an Null kommen. Diese Strafe hat den Effekt, dass die Koeffizientenschätzungen gegen Null schrumpfen. Ohne auf die Mathematik einzugehen, ist es nützlich zu wissen, dass die Ridge-Regression die Features mit der kleinsten Spaltenraumvarianz schrumpft. Wie bei der Hauptkomponentenanalyse projiziert die Ridge-Regression die Daten in den d-gerichteten Raum und schrumpft dann die Koeffizienten der Komponenten mit geringer Varianz stärker als die Komponenten mit hoher Varianz, die der größten und kleinsten Hauptkomponente entsprechen.
Die Ridge-Regression hat mindestens einen Nachteil: Sie schließt alle p Prädiktoren in das endgültige Modell ein. Der Strafterm wird viele von ihnen nahe an Null setzen, aber nie genau auf Null. Dies ist im Allgemeinen kein Problem für die Vorhersagegenauigkeit, aber es kann die Interpretation der Ergebnisse des Modells erschweren. Lasso überwindet diesen Nachteil und ist in der Lage, einige der Koeffizienten auf Null zu zwingen, vorausgesetzt, dass s klein genug ist. Da s = 1 zu einer regulären OLS-Regression führt, schrumpfen die Koeffizienten gegen Null, wenn s gegen 0 geht. Die Lasso-Regression führt also auch eine Variablenselektion durch.

6 – Dimensionsreduktion:

Die Dimensionsreduktion reduziert das Problem der Schätzung von p + 1 Koeffizienten auf das einfache Problem von M + 1 Koeffizienten, wobei M < p. Dies wird erreicht, indem M verschiedene Linearkombinationen oder Projektionen der Variablen berechnet werden. Diese M Projektionen werden dann als Prädiktoren verwendet, um ein lineares Regressionsmodell nach der Methode der kleinsten Quadrate anzupassen. 2 Ansätze für diese Aufgabe sind die Hauptkomponentenregression und die partielle Methode der kleinsten Quadrate.

Man kann die Hauptkomponentenregression als einen Ansatz zur Ableitung eines niedrigdimensionalen Satzes von Merkmalen aus einem großen Satz von Variablen beschreiben. Die erste Hauptkomponentenrichtung der Daten ist die, entlang der die Beobachtungen am meisten variieren. Mit anderen Worten, die erste PC ist eine Linie, die so gut wie möglich zu den Daten passt. Man kann p verschiedene Hauptkomponenten anpassen. Die zweite PC ist eine Linearkombination der Variablen, die mit der ersten PC unkorreliert ist und unter dieser Bedingung die größte Varianz hat. Die Idee ist, dass die Hauptkomponenten die größte Varianz in den Daten erfassen, indem sie Linearkombinationen der Daten in anschließend orthogonalen Richtungen verwenden. Auf diese Weise können wir auch die Effekte von korrelierten Variablen kombinieren, um mehr Informationen aus den verfügbaren Daten herauszuholen, während wir bei regulären kleinsten Quadraten eine der korrelierten Variablen verwerfen müssten.
Die PCR-Methode, die wir oben beschrieben haben, beinhaltet die Identifizierung von linearen Kombinationen von X, die die Prädiktoren am besten repräsentieren. Diese Kombinationen (Richtungen) werden auf eine nicht überwachte Weise identifiziert, da die Antwort Y nicht zur Bestimmung der Hauptkomponentenrichtungen verwendet wird. Das heißt, die Antwort Y überwacht nicht die Identifizierung der Hauptkomponenten, sodass es keine Garantie dafür gibt, dass die Richtungen, die die Prädiktoren am besten erklären, auch die besten für die Vorhersage der Antwort sind (auch wenn dies oft angenommen wird). Partielle kleinste Quadrate (PLS) sind eine überwachte Alternative zur PCR. Wie PCR ist PLS eine Dimensionsreduktionsmethode, die zuerst einen neuen kleineren Satz von Features identifiziert, die lineare Kombinationen der ursprünglichen Features sind, und dann ein lineares Modell über kleinste Quadrate an die neuen M-Features anpasst. Im Gegensatz zur PCR verwendet PLS jedoch die Antwortvariable, um die neuen Merkmale zu identifizieren.

7 – Nichtlineare Modelle:

In der Statistik ist die nichtlineare Regression eine Form der Regressionsanalyse, bei der die Beobachtungsdaten durch eine Funktion modelliert werden, die eine nichtlineare Kombination der Modellparameter ist und von einer oder mehreren unabhängigen Variablen abhängt. Die Daten werden durch eine Methode der sukzessiven Approximation angepasst. Im Folgenden werden einige wichtige Techniken zur Behandlung nichtlinearer Modelle vorgestellt:

Eine Funktion auf den reellen Zahlen wird als Stufenfunktion bezeichnet, wenn sie als endliche Linearkombination von Indikatorfunktionen von Intervallen geschrieben werden kann. Informell ausgedrückt, ist eine Stufenfunktion eine stückweise konstante Funktion, die nur endlich viele Stücke hat.
Eine stückweise Funktion ist eine Funktion, die durch mehrere Unterfunktionen definiert ist, wobei jede Unterfunktion auf ein bestimmtes Intervall des Bereichs der Hauptfunktion angewendet wird. Stückweise ist eigentlich eine Art, die Funktion auszudrücken, und nicht eine Eigenschaft der Funktion selbst, aber mit zusätzlicher Qualifikation kann es die Natur der Funktion beschreiben. Eine stückweise Polynomfunktion ist z. B. eine Funktion, die in jedem ihrer Teilbereiche ein Polynom ist, aber möglicherweise in jedem Teilbereich ein anderes.

Ein Spline ist eine spezielle Funktion, die stückweise durch Polynome definiert ist. In der Computergrafik bezieht sich Spline auf eine stückweise polynomiale parametrische Kurve. Splines sind beliebte Kurven wegen der Einfachheit ihrer Konstruktion, ihrer leichten und genauen Auswertung und ihrer Fähigkeit, komplexe Formen durch Kurvenanpassung und interaktives Kurvendesign zu approximieren.
Ein verallgemeinertes additives Modell ist ein verallgemeinertes lineares Modell, bei dem der lineare Prädiktor linear von unbekannten glatten Funktionen einiger Prädiktorvariablen abhängt, und das Interesse konzentriert sich auf Inferenz über diese glatten Funktionen.

8 – Baumbasierte Methoden:

Baumbasierte Verfahren können sowohl für Regressions- als auch für Klassifikationsprobleme verwendet werden. Sie beinhalten eine Schichtung oder Segmentierung des Prädiktorraums in eine Anzahl einfacher Regionen. Da die zur Segmentierung des Prädiktorraums verwendeten Teilungsregeln in einem Baum zusammengefasst werden können, werden diese Arten von Ansätzen als Entscheidungsbaummethoden bezeichnet. Die folgenden Methoden erzeugen mehrere Bäume, die dann zu einer einzigen Konsensvorhersage kombiniert werden.

Bagging ist eine Methode, mit der die Varianz Ihrer Vorhersage verringert wird, indem zusätzliche Daten für das Training aus dem ursprünglichen Datensatz generiert werden, wobei Kombinationen mit Wiederholungen verwendet werden, um mehrere Bäume mit der gleichen Karnalität/Größe wie die ursprünglichen Daten zu erzeugen. Durch die Vergrößerung Ihres Trainingsdatensatzes können Sie die Vorhersagekraft des Modells nicht verbessern, sondern nur die Varianz verringern, indem Sie die Vorhersage eng auf das erwartete Ergebnis abstimmen.
Boosting ist ein Ansatz, bei dem die Ausgabe mit mehreren verschiedenen Modellen berechnet wird und das Ergebnis dann mit einem gewichteten Mittelwertansatz gemittelt wird. Wenn Sie die Vorteile und Fallstricke dieser Ansätze kombinieren, indem Sie die Gewichtungsformel variieren, können Sie eine gute Vorhersagekraft für einen größeren Bereich von Eingabedaten erzielen, indem Sie verschiedene eng abgestimmte Modelle verwenden.

Der Random-Forest-Algorithmus ist dem Bagging eigentlich sehr ähnlich. Auch hier ziehen Sie zufällige Bootstrap-Stichproben aus Ihrem Trainingsset. Zusätzlich zu den Bootstrap-Stichproben ziehen Sie jedoch auch eine zufällige Teilmenge von Features für das Training der einzelnen Bäume; beim Bagging geben Sie jedem Baum die volle Menge an Features. Durch die zufällige Feature-Auswahl machen Sie die Bäume im Vergleich zum regulären Bagging unabhängiger voneinander, was oft zu einer besseren Vorhersageleistung führt (aufgrund besserer Varianz-Bias-Abwägungen) und es ist auch schneller, da jeder Baum nur aus einer Teilmenge von Features lernt.

9 – Support-Vektor-Maschinen:

SVM ist eine Klassifizierungstechnik, die zu den überwachten Lernmodellen des maschinellen Lernens gehört. Vereinfacht ausgedrückt geht es darum, die Hyperebene (Linie in 2D, Ebene in 3D und Hyperebene in höheren Dimensionen) zu finden. Formal gesehen ist eine Hyperebene ein n-1-dimensionaler Unterraum eines n-dimensionalen Raums), die zwei Klassen von Punkten am besten mit dem maximalen Abstand trennt. Im Wesentlichen handelt es sich um ein eingeschränktes Optimierungsproblem, bei dem der Spielraum unter der Bedingung maximiert wird, dass die Daten perfekt klassifiziert werden (harter Spielraum).

Die Datenpunkte, die diese Hyperebene auf beiden Seiten “stützen”, werden als “Stützvektoren” bezeichnet. In der obigen Abbildung sind der ausgefüllte blaue Kreis und die beiden ausgefüllten Quadrate die Stützvektoren. In Fällen, in denen die beiden Klassen der Daten nicht linear trennbar sind, werden die Punkte in einen aufgelösten (höherdimensionalen) Raum projiziert, in dem eine lineare Trennung möglich ist. Ein Mehrklassenproblem kann in mehrere binäre Eins-zu-Eins- oder Eins-zu-Residuen-Klassifikationsprobleme zerlegt werden.

10 – Unüberwachtes Lernen:

Bisher wurden nur Techniken des überwachten Lernens diskutiert, bei denen die Gruppen bekannt sind und die Erfahrung, die dem Algorithmus zur Verfügung gestellt wird, die Beziehung zwischen den tatsächlichen Entitäten und der Gruppe ist, zu der sie gehören. Eine andere Gruppe von Techniken kann verwendet werden, wenn die Gruppen (Kategorien) der Daten nicht bekannt sind. Sie werden als unüberwacht bezeichnet, da es dem Lernalgorithmus überlassen bleibt, Muster in den bereitgestellten Daten zu erkennen. Ein Beispiel für unüberwachtes Lernen ist das Clustering, bei dem verschiedene Datensätze zu Gruppen eng verwandter Elemente zusammengefasst werden. Es folgt eine Liste der am häufigsten verwendeten Algorithmen für unüberwachtes Lernen:

Die Hauptkomponentenanalyse hilft bei der Erstellung einer niedrigdimensionalen Darstellung des Datensatzes, indem sie einen Satz linearer Kombinationen von Merkmalen identifiziert, die eine maximale Varianz aufweisen und untereinander unkorreliert sind. Diese lineare Dimensionalitätstechnik kann hilfreich sein, um latente Interaktionen zwischen den Variablen in einer nicht überwachten Umgebung zu verstehen.
k-Means-Clustering: teilt die Daten in k verschiedene Cluster ein, basierend auf dem Abstand zum Zentroid eines Clusters.
Hierarchisches Clustering: baut eine mehrstufige Hierarchie von Clustern auf, indem ein Clusterbaum erstellt wird.

11 – Clustering

Clustering ist eine wichtige Methode der Datenanalyse, die dazu dient, Datenpunkte in Gruppen oder Cluster mit ähnlichen Eigenschaften oder Merkmalen einzuteilen. Diese Technik wird häufig in der explorativen Datenanalyse eingesetzt, um Muster in den Daten zu entdecken und Verbindungen zwischen verschiedenen Variablen herzustellen.

Es gibt verschiedene Arten von Clustering-Techniken, die je nach den spezifischen Anforderungen des Analytikers und den Eigenschaften der Daten ausgewählt werden können. Einige der gebräuchlichsten Clusterverfahren sind:

K-Means Clustering: Dies ist ein iteratives Verfahren, bei dem die Datenpunkte anhand ihrer Ähnlichkeiten in k vorbestimmte Cluster unterteilt werden. Der Analytiker wählt die Anzahl der Cluster, die erstellt werden sollen, und das Verfahren findet die optimale Unterteilung der Datenpunkte in diese Cluster.
Hierarchisches Clustering: Dies ist ein Verfahren, bei dem die Datenpunkte zunächst einzeln in separate Cluster eingeteilt werden und dann sukzessive zu größeren Cluster zusammengefasst werden, bis alle Datenpunkte in einem einzigen Cluster zusammengefasst sind. Dieses Verfahren erstellt eine Art “Baumstruktur” der Cluster, die visualisiert werden kann.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise): Dies ist ein Verfahren, bei dem Cluster anhand der Dichte von Datenpunkten in einem gegebenen Bereich gebildet werden. Datenpunkte, die nahe beieinander liegen und eine hohe Dichte aufweisen, werden in ein Cluster aufgenommen, während Datenpunkte, die weiter voneinander entfernt sind oder eine niedrigere Dichte aufweisen, nicht Teil des Clusters sind.

Eines der wichtigsten Dinge, die Datenwissenschaftler bei der Verwendung von Clustering-Techniken beachten müssen, ist die Auswahl der richtigen Anzahl von Clustern. Zu wenige Cluster können dazu führen, dass wichtige Muster übersehen werden, während zu viele Cluster zu viel Rauschen enthalten und die Interpretation der Ergebnisse erschweren können.

Ein weiterer wichtiger Faktor bei der Anwendung von Clustering-Techniken ist die Wahl des richtigen Distanzmaßes, mit dem die Ähnlichkeit zwischen den Datenpunkten gemessen wird. Häufig verwendete Distanzmaße sind die Euklidische Distanz, die Manhattan-Distanz und die Minkowski-Distanz.

Sobald Cluster gebildet wurden, können Datenwissenschaftler diese Cluster analysieren, um wichtige Muster und Trends in den Daten zu entdecken und zu verstehen. Sie können die Ergebnisse des Clustering auch mit anderen Analysemethoden kombinieren, um tiefere Einblicke zu gewinnen und Vorhersagen zu treffen.

Insgesamt ist das Clustering eine wichtige Methode der Datenanalyse, die von Datenwissenschaftlern eingesetzt werden kann, um Muster und Trends in den Daten zu entdecken und zu verstehen. Es gibt verschiedene Clustering-Methoden, die je nach den spezifischen Anforderungen und Eigenschaften der Daten ausgewählt werden können, und es ist wichtig, die richtige Anzahl von Clustern und das richtige Distanzmaß zu wählen, um zuverlässige Ergebnisse zu erzielen.

Zusammenfassung

Dies war ein grundlegender Überblick über einige grundlegende statistische Techniken. Diese können einem Data Science Programm-Manager oder einer Führungskraft helfen, besser zu verstehen, was unter der Haube ihrer Data Science Teams vor sich geht. Einige Data Science Teams führen ihre Algorithmen nur mit Python und R-Bibliotheken aus. Die meisten von ihnen müssen nicht einmal über die Mathematik nachdenken, die dahinter steckt. Wenn Sie die Grundlagen der statistischen Analyse verstehen, werden Ihre Teams einen besseren Ansatz haben. Sie können die kleinsten Teile leichter manipulieren und abstrahieren, wenn Sie sie verstehen. Dieser grundlegende Leitfaden zur statistischen Datenwissenschaft soll Ihnen das nötige Verständnis vermitteln!