Die explorative Datenanalyse (EDA) ist ein Ansatz zur Analyse von Datensätzen, um deren Hauptmerkmale zu identifizieren. Sie ist ein wichtiger Schritt in der Datenanalyse, da sie dazu beiträgt, Muster, Anomalien, Schlüsselstatistiken und wichtige Erkenntnisse aus den Daten zu gewinnen, bevor weiterführende Analysen oder Modellierungen durchgeführt werden.
Die Ziele der explorativen Datenanalyse sind:
- Maximale Einsicht in den Datensatz gewinnen: EDA hilft dabei, was in einem Datensatz vor sich geht und bietet eine Grundlage für die Entwicklung von Hypothesen.
- Struktur der Daten erkennen: Zum Beispiel, ob es Beziehungen zwischen Variablen gibt oder ob bestimmte Gruppen oder Cluster in den Daten erkennbar sind.
- Anomalien oder Ausreißer identifizieren: Diese können Datenfehler oder interessante Muster sein, die eine genauere Untersuchung erfordern.
- Einen Überblick über die Verteilung der Daten erhalten: Dies kann durch Histogramme, Boxplots oder andere grafische Darstellungen erfolgen.
- Daten für weitere Analysen vorbereiten: Nachdem Sie ein grundlegendes Verständnis für Ihre Daten haben, können Sie diese entsprechend filtern, bereinigen oder transformieren, um sie für komplexere Analysen vorzubereiten.
Zu den gängigen Techniken und Werkzeugen der explorativen Datenanalyse gehören:
- Visualisierung: Diagramme wie Histogramme, Boxplots, Scatterplots und viele mehr.
- Statistische Maßnahmen: Durchschnitt, Median, Standardabweichung, Korrelation, etc.
- Datenreinigung: Das Entfernen oder Korrigieren von fehlenden oder fehlerhaften Daten.
- Transformation: Die Daten in eine Form bringen, die für weitergehende Analysen geeignet ist.
EDA ist ein iterativer Prozess, bei dem Datenanalysten oft zurückkehren und ihre Analysen anpassen, basierend auf dem, was sie in vorherigen Schritten gelernt haben. Es geht darum, einen intuitiven Sinn für den Datensatz zu entwickeln und dabei nicht nur von festen Hypothesen oder Annahmen geleitet zu werden.
Techniken und Methoden
Es gibt eine Reihe von Techniken und Methoden, die für die explorative Analyse nützlich sind.
Typische grafische Techniken, die in der Explorativen Analyse verwendet werden, sind:
Dimensionsreduktion:
- Multidimensionale Skalierung
- Hauptkomponentenanalyse (PCA)
- Multilineare PCA
- Nichtlineare Dimensionalitätsreduktion (NLDR)
- Ikonographie der Korrelationen
Typische quantitative Techniken sind:
- Medianschliff
- Trimean
- Ordination
Explorative Analyse mit Hilfe von Excel
Im Folgenden werden wir mit Hilfe eines Beispieldatensatzes (Hier zum Datensatz) eine explorative Analyse durchführen.
In dem Datensatz repräsentiert jede Zeile einen Kauf eines Nutzers (Nutzer-ID). Dementsprechend sind viele Nutzer-IDs mehrfach in dem Datensatz (Customer Lifetime Value).
Neben dem Kaufdatum finden wir in dem Beispieldatensatzauch den Umsatz, ob ein Gutschein genutzt wurde, das Geschlecht, den Wohnort, das Land und den Geburtstag des Kunden.
Wir gehen davon aus, dass der Datensatz vorher bereits bereinigt wurde (zum Beispiel Ausschluss von Widerrufen).
Die meisten Unternehmen, die Analysen dieser Art durchführen arbeiten mit so viel Daten, dass es einfacher ist sie mit Hilfe eines Data Warehouses zu verwalten. Mein persönlicher Favorit ist BigQuery. Hierzu habe ich ebenfalls schon einige Artikel in meinem Blog verfasst.
Meiner Meinung nach ist Excel troztdem eine gute Möglichkeit sich in das Thema der Datenanalyse einzuarbeiten.
Bevor wir den mit dem Datensatz eine explorative Analyse durchführen werden, müssen wir ihn noch transformieren. Konkret wollen wir daraus eine Kundenliste mit folgenden Informationen erstellen:
- NutzerID
- Erster Kauf
- Letzter Kauf
- Anzahl Käufe
- Gesamtumsatz
- Durchschnittlicher Umsatz je Kauf
- Geschlecht
- Ort
- Land
- Geburtstag
Die Erstellung der Liste haben wir in einem Video aufgezeichnet:
Link zum transformierten Datensatz
Den nun transformierten Datensatz werden wir mit Hilfe der uns zur Verfügung stehend Techniken und Methoden explorativ analysieren. Wir werden das mit Excel tun.
Boxplot
Ein Boxplot ist eine standardisierte Methode zur Darstellung der Verteilung von Daten auf der Grundlage einer Zusammenfassung von fünf Zahlen (Minimum, erstes Quartil (Q1), Median, drittes Quartil (Q3) und Maximum). Es kann Ihnen Aufschluss über Ihre Ausreißer und deren Werte geben.
Die Umsetzung erfolgt wieder mit Hilfe eines Videos:
Der Boxplot zeigt uns, dass wir einige starke Ausreißer haben. Der Median liegt bei 150 und das Maximum bei 100.000.
Die meisten Boxplots haben eine Form, wie diese:
Boxplot-Rechner/Visualisierer
Geben Sie bis zu 10.000 Werte ein (getrennt durch Kommas, Leerzeichen oder Zeilenumbrüche):
Aber auch wenn wir keine klassische Form haben, können wir jetzt durch unsere erste explorative Analyse schon sagen, dass das Maximum des Umsatzes pro Kunde bei 100.000 Euro liegt und das bei einem Median von 150.
Hier lohnt sich also wahrscheinlich mal eine ABC-Analyse durchzuführen: mit dem Ziel die Kundengruppen herauszusuchen, die den größten Anteil am Umsatz machen und daraus dann wieder weitere Fragen abzuleiten, wie zum Beispiel:
- Wie komme ich an mehr Kategorie A Kunden?
- Wie kann ich das größte Potential aus meinen Kategorie A Kunden ziehen
- etc.
Wir wollen uns aber jetzt weiter der nächsten Explorativen Technik unseres Datensatzes widmen.
Histogramm
Ein Histogramm ist eine ungefähre Darstellung der Verteilung von numerischen Daten. Um ein Histogramm zu erstellen, wird zunächst der Wertebereich in Bins (oder Buckets) eingeteilt, d. h. der gesamte Wertebereich wird in eine Reihe von Intervallen unterteilt, und dann wird gezählt, wie viele Werte in jedes Intervall fallen. Die Bins werden in der Regel als aufeinanderfolgende, sich nicht überschneidende Intervalle einer Variablen angegeben. Die Bins (Intervalle) müssen nebeneinander liegen und sind häufig (aber nicht zwingend) gleich groß.
In unserem Fall wollen wir ein Gefühl dafür bekommen, wie alt unsere Käufer sind. Dafür werden wir im ersten Schritt aus dem Geburtsdatum das Alter ausrechnen um darauf aufbauend das Histogramm zu erstellen:
Wir haben eine rechtschiefe Verteilung des Alters und ein ziemlich gutes Gefühl über die Altersverteilung der Kunden.
Die X-Achse gibt jeweils eine Aussage über die Klassen (36-38) und die y-Achse über die Anzahl der Kunden.
Uns soll das an der Stelle für unsere Auswertung reichen. Wenn man hier noch etwas detailierter vorgehen möchte, bietet es sich ggf. noch an, die Ausgangsdaten vorher so zu transformieren, dass man weiß, wie alt die Kunden beim Erstkauf waren.
Neben einem Histogram der Altersstruktur des Erstkaufs kann es auch sinnvoll sein ein Histokramm der Altersstruktur der aktiven Kunden zu machen. In der vorliegenden Analyse haben wir einfach die Altersstruktur aller Kunden genommen, die jemals etwas gekfauft haben. Das kann natürlich in die Irre führen, wenn sich die Altersstruktur über die Jahre ändert.
Pareto-Diagramm
Ein Pareto-Diagramm ist ein Histogramm bei dem die Balken nach der Häufigkeit sortiert sind.
Die Länge der Balken stellt die Häufigkeit oder die Kosten (Zeit oder Geld) dar und ist so angeordnet, dass die längsten Balken links und die kürzesten rechts liegen.
Wir wollen uns in unserer explorativen die Anzahl der Käufe anschauen. Allerdings werden wir vorab Klassen für die Anzahl der Käufe anlegen.
Ich habe mich für folgende Aufteilung entschieden:
- 1 Kauf
- 2 Käufe
- 3 Käufe
- 4 Käufe
- 5 Käufe
- 6 Käufe
- 7 Käufe
- 8 Käufe
- 9 Käufe
- Mehr als 9 Käufe
Nach der Berechnung der Anzahl an Käufern, die jeweils den Klassen zugeordnet werden, erstellen wir das zugehörige Pareto-Diagramm in Excel:
Wenn man sich das Diagramm anschaut kann man sehen, das über die Hälfte aller Kunden lediglich einmal kaufen. Grob 80 % nicht mehr als 3.
Das zeigt, dass hier noch viele ungenutzte Potentiale liegen um die Customer Lifetime Value seiner Kunden weiter zu steigern.
Streudiagramm
In einem auch Streudiagramm werden die Werte für zwei verschiedene numerische Variablen durch Punkte dargestellt. Die Position der einzelnen Punkte auf der horizontalen und vertikalen Achse gibt die Werte für einen einzelnen Datenpunkt an. Streudiagramme werden verwendet, um Beziehungen zwischen Variablen zu finden.
Streudiagramme dienen in erster Linie dazu, Beziehungen zwischen zwei numerischen Variablen zu beobachten und darzustellen. Die Punkte in einer Punktwolke zeigen nicht nur die Werte einzelner Datenpunkte, sondern auch Muster, wenn die Daten als Ganzes betrachtet werden.
Mit Streudiagrammen werden häufig Korrelationsbeziehungen identifiziert. In diesen Fällen wollen wir wissen, was eine gute Vorhersage für den vertikalen Wert wäre, wenn wir einen bestimmten horizontalen Wert bekämen. Häufig wird die Variable auf der horizontalen Achse als unabhängige Variable und die Variable auf der vertikalen Achse als abhängige Variable bezeichnet. Beziehungen zwischen Variablen können auf viele Arten beschrieben werden: positiv oder negativ, stark oder schwach, linear oder nichtlinear.
Im vorliegenden Datensatz könnte man schauen ob es einen Zusammenhang zwischen dem Alter und dem Umsatz geben könnte:
Offensichtlich ist, dass es keinen linearen Zusammenhang zwischen dem Alter und dem Umsatz pro Kunde zu geben scheint.
Es scheint aber einen Sweetspot in dem Alterscluster zwischen 40 und 70 zu geben. Auch wenn wir aus unserem Datensatz hier keine hilfreichen Erkenntnisse ziehen können, sind solche Streudiagramme grundsätzlich ein extrem wichtiges Werkzeug um Abhängigkeiten zwischen einzelnen Werten aufzudecken.