Explorative Analyse

Die explorative Datenanalyse ist ein Verfahren zur Analyse von Daten, Techniken zur Interpretation der Ergebnisse solcher Verfahren, Methoden zur Planung der Datenerfassung, um die Analyse zu erleichtern, präziser oder genauer zu machen, und alle Verfahren und Ergebnisse der (mathematischen) Statistik, die sich auf die Analyse von Daten beziehen.

Die explorative Analyse ist kein formaler Prozess mit einem strengen Regelwerk. In der Anfangsphase der der Analyse sollten Sie jeder Idee nachgehen, die Ihnen in den Sinn kommt. Einige dieser Ideen werden sich als richtig erweisen, andere werden sich als Sackgassen erweisen. Mit fortschreitender Erkundung werden Sie sich auf einige besonders produktive Bereiche konzentrieren, die Sie schließlich niederschreiben und anderen mitteilen werden.

Sie müssen immer die Qualität Ihrer Daten untersuchen. Den Vorgang hierzu nennt man Datenbereinigung.

Techniken und Methoden

Es gibt eine Reihe von Techniken und Methoden, die für die explorative Analyse nützlich sind.

Typische grafische Techniken, die in der Explorativen Analyse verwendet werden, sind:

Dimensionsreduktion:

  • Multidimensionale Skalierung
  • Hauptkomponentenanalyse (PCA)
  • Multilineare PCA
  • Nichtlineare Dimensionalitätsreduktion (NLDR)
  • Ikonographie der Korrelationen

Typische quantitative Techniken sind:

  • Medianschliff
  • Trimean
  • Ordination

Explorative Analyse mit Hilfe von Excel

Im Folgenden werden wir mit Hilfe eines Beispieldatensatzes (Hier zum Datensatz) eine explorative Analyse durchführen.

Ausschnitt des Beispieldatensatzen

In dem Datensatz repräsentiert jede Zeile einen Kauf eines Nutzers (Nutzer-ID). Dementsprechend sind viele Nutzer-IDs mehrfach in dem Datensatz (Customer Lifetime Value).

Neben dem Kaufdatum finden wir in dem Beispieldatensatzauch den Umsatz, ob ein Gutschein genutzt wurde, das Geschlecht, den Wohnort, das Land und den Geburtstag des Kunden.

Wir gehen davon aus, dass der Datensatz vorher bereits bereinigt wurde (zum Beispiel Ausschluss von Widerrufen).

Die meisten Unternehmen, die Analysen dieser Art durchführen arbeiten mit so viel Daten, dass es einfacher ist sie mit Hilfe eines Data Warehouses zu verwalten. Mein persönlicher Favorit ist BigQuery. Hierzu habe ich ebenfalls schon einige Artikel in meinem Blog verfasst.

Meiner Meinung nach ist Excel troztdem eine gute Möglichkeit sich in das Thema der Datenanalyse einzuarbeiten.

Bevor wir den mit dem Datensatz eine explorative Analyse durchführen werden, müssen wir ihn noch transformieren. Konkret wollen wir daraus eine Kundenliste mit folgenden Informationen erstellen:

  • NutzerID
  • Erster Kauf
  • Letzter Kauf
  • Anzahl Käufe
  • Gesamtumsatz
  • Durchschnittlicher Umsatz je Kauf
  • Geschlecht
  • Ort
  • Land
  • Geburtstag

Die Erstellung der Liste haben wir in einem Video aufgezeichnet:

Link zum transformierten Datensatz

Den nun transformierten Datensatz werden wir mit Hilfe der uns zur Verfügung stehend Techniken und Methoden explorativ analysieren. Wir werden das mit Excel tun.

Boxplot

Ein Boxplot ist eine standardisierte Methode zur Darstellung der Verteilung von Daten auf der Grundlage einer Zusammenfassung von fünf Zahlen (Minimum, erstes Quartil (Q1), Median, drittes Quartil (Q3) und Maximum). Es kann Ihnen Aufschluss über Ihre Ausreißer und deren Werte geben.

Die Umsetzung erfolgt wieder mit Hilfe eines Videos:

Der Boxplot zeigt uns, dass wir einige starke Ausreißer haben. Der Median liegt bei 150 und das Maximum bei 100.000.

Die meisten Boxplots haben eine Form, wie diese:

Aber auch wenn wir keine klassische Form haben, können wir jetzt durch unsere erste explorative Analyse schon sagen, dass das Maximum des Umsatzes pro Kunde bei 100.000 Euro liegt und das bei einem Median von 150.

Hier lohnt sich also wahrscheinlich mal eine ABC-Analyse durchzuführen: mit dem Ziel die Kundengruppen herauszusuchen, die den größten Anteil am Umsatz machen und daraus dann wieder weitere Fragen abzuleiten, wie zum Beispiel:

  • Wie komme ich an mehr Kategorie A Kunden?
  • Wie kann ich das größte Potential aus meinen Kategorie A Kunden ziehen
  • etc.

Wir wollen uns aber jetzt weiter der nächsten Explorativen Technik unseres Datensatzes widmen.

Histogramm

Ein Histogramm ist eine ungefähre Darstellung der Verteilung von numerischen Daten. Um ein Histogramm zu erstellen, wird zunächst der Wertebereich in Bins (oder Buckets) eingeteilt, d. h. der gesamte Wertebereich wird in eine Reihe von Intervallen unterteilt, und dann wird gezählt, wie viele Werte in jedes Intervall fallen. Die Bins werden in der Regel als aufeinanderfolgende, sich nicht überschneidende Intervalle einer Variablen angegeben. Die Bins (Intervalle) müssen nebeneinander liegen und sind häufig (aber nicht zwingend) gleich groß.

In unserem Fall wollen wir ein Gefühl dafür bekommen, wie alt unsere Käufer sind. Dafür werden wir im ersten Schritt aus dem Geburtsdatum das Alter ausrechnen um darauf aufbauend das Histogramm zu erstellen:

Wir haben eine rechtschiefe Verteilung des Alters und ein ziemlich gutes Gefühl über die Altersverteilung der Kunden.

Die X-Achse gibt jeweils eine Aussage über die Klassen (36-38) und die y-Achse über die Anzahl der Kunden.

Uns soll das an der Stelle für unsere Auswertung reichen. Wenn man hier noch etwas detailierter vorgehen möchte, bietet es sich ggf. noch an, die Ausgangsdaten vorher so zu transformieren, dass man weiß, wie alt die Kunden beim Erstkauf waren.

Neben einem Histogram der Altersstruktur des Erstkaufs kann es auch sinnvoll sein ein Histokramm der Altersstruktur der aktiven Kunden zu machen. In der vorliegenden Analyse haben wir einfach die Altersstruktur aller Kunden genommen, die jemals etwas gekfauft haben. Das kann natürlich in die Irre führen, wenn sich die Altersstruktur über die Jahre ändert.

Pareto-Diagramm

Ein Pareto-Diagramm ist ein Histogramm bei dem die Balken nach der Häufigkeit sortiert sind.

Die Länge der Balken stellt die Häufigkeit oder die Kosten (Zeit oder Geld) dar und ist so angeordnet, dass die längsten Balken links und die kürzesten rechts liegen.

Wir wollen uns in unserer explorativen die Anzahl der Käufe anschauen. Allerdings werden wir vorab Klassen für die Anzahl der Käufe anlegen.

Ich habe mich für folgende Aufteilung entschieden:

  • 1 Kauf
  • 2 Käufe
  • 3 Käufe
  • 4 Käufe
  • 5 Käufe
  • 6 Käufe
  • 7 Käufe
  • 8 Käufe
  • 9 Käufe
  • Mehr als 9 Käufe

Nach der Berechnung der Anzahl an Käufern, die jeweils den Klassen zugeordnet werden, erstellen wir das zugehörige Pareto-Diagramm in Excel:

Wenn man sich das Diagramm anschaut kann man sehen, das über die Hälfte aller Kunden lediglich einmal kaufen. Grob 80 % nicht mehr als 3.

Das zeigt, dass hier noch viele ungenutzte Potentiale liegen um die Customer Lifetime Value seiner Kunden weiter zu steigern.

Streudiagramm

In einem auch Streudiagramm werden die Werte für zwei verschiedene numerische Variablen durch Punkte dargestellt. Die Position der einzelnen Punkte auf der horizontalen und vertikalen Achse gibt die Werte für einen einzelnen Datenpunkt an. Streudiagramme werden verwendet, um Beziehungen zwischen Variablen zu finden.

Streudiagramme dienen in erster Linie dazu, Beziehungen zwischen zwei numerischen Variablen zu beobachten und darzustellen. Die Punkte in einer Punktwolke zeigen nicht nur die Werte einzelner Datenpunkte, sondern auch Muster, wenn die Daten als Ganzes betrachtet werden.

Mit Streudiagrammen werden häufig Korrelationsbeziehungen identifiziert. In diesen Fällen wollen wir wissen, was eine gute Vorhersage für den vertikalen Wert wäre, wenn wir einen bestimmten horizontalen Wert bekämen. Häufig wird die Variable auf der horizontalen Achse als unabhängige Variable und die Variable auf der vertikalen Achse als abhängige Variable bezeichnet. Beziehungen zwischen Variablen können auf viele Arten beschrieben werden: positiv oder negativ, stark oder schwach, linear oder nichtlinear.

Im vorliegenden Datensatz könnte man schauen ob es einen Zusammenhang zwischen dem Alter und dem Umsatz geben könnte:

Offensichtlich ist, dass es keinen linearen Zusammenhang zwischen dem Alter und dem Umsatz pro Kunde zu geben scheint.

Es scheint aber einen Sweetspot in dem Alterscluster zwischen 40 und 70 zu geben. Auch wenn wir aus unserem Datensatz hier keine hilfreichen Erkenntnisse ziehen können, sind solche Streudiagramme grundsätzlich ein extrem wichtiges Werkzeug um Abhängigkeiten zwischen einzelnen Werten aufzudecken.