Wie man die Vorhersagegenauigkeit seines Machine Learning-Modells verbessert

Es gehört zu den frustrierenden Dingen des Jobs, wenn man viele Stunden damit verbracht hat Daten zusammenzuführen, zu transformieren, zu bereinigen und zu labeln etc. und nach mehreren Trainingsstunden des ML Modells haben wir eine geringe Genauigkeit oder einen großen Fehlerbereich.

Je nach Kontext kann es passieren, dass wir ein Modell bei zu geringer Genauigkeit einfach nicht verwenden können.

Beispiel aus BQ: Abweichung: der durchschnittliche Abstand zwischen jedem Punkt und dem arithmetischen Mittel. Fehler: beinhaltet sowohl die Varianz (die Streuung der vorhergesagten Werte zueinander) als auch die Verzerrung (der Abstand des vorhergesagten Wertes von seinem wahren Wert). R-Quadrat: ist ein statistisches Maß dafür, wie dicht die Daten an der angepassten Regressionslinie liegen (1 wäre perfekt).

Wie können wir die Genauigkeit unseres maschinellen Lernmodells verbessern? Es gibt verschiedene Möglichkeiten, wie die Genauigkeit eines Modells verbessert werden kann:

Mehr Daten als Lern-Grundlage

Daten sind nur dann aussagekräftig, wenn man genügend davon hat. Jede Datenprobe liefert einen gewissen Input und eine Perspektive für die Gesamtgeschichte, die Ihre Daten erzählen wollen. Eine Methode, die Leistung Ihres Modells zu verbessern und seine Genauigkeit zu erhöhen, besteht darin, mehr Beispieldaten zu dem Trainingsdatensatz hinzuzufügen.

Die ML-Modelle von BigQuery verlangen grundsätzlich mindestens eine Stichprobe von 1.000.

Auf diese Weise erhalten Sie mehr Details zu Ihren Daten und können Ihr Modell einfacher fintunen, was zu einer besseren Genauigkeit führen kann. Denken Sie daran: Je mehr Informationen Sie Ihrem Modell zur Verfügung stellen, desto mehr wird es lernen und desto mehr Fälle wird es korrekt identifizieren können.

Man muss hier aber ehrlicherweise sagen, dass eine Vergrößerung der Beispieldaten auch zu einer Verschlechterung der Aussagekraft des Modells führen kann. Das heißt dann aber nicht, dass ich weniger Daten nehmen sollte, sondern, dass meine ursprüngliche Datenbasis erst recht zu kleine war! Eben weil das ja in dem Fall (leider) nochmal unterstreicht, dass das Modell noch Anpassungen bedarf.

Betrachten Sie das Problem mit anderen Augen

Vielleicht stellen Sie einfach die falschen Fragen oder versuchen, die falsche Geschichte zu verstehen. Die Betrachtung des Problems aus einer neuen Perspektive kann Ihrem Modell wertvolle Informationen hinzufügen und Ihnen helfen, verborgene Beziehungen zwischen den Variablen der Geschichte aufzudecken. Wenn Sie andere Fragen stellen, kann dies zu besseren Ergebnissen und schließlich zu einer höheren Genauigkeit führen.

Dieser Hinweis klingt sehr allgemein ist aber eine sehr häufige Lösung des Problems.

Fügen Sie Ihren Daten etwas Kontext hinzu.

Kontext ist in jeder Situation wichtig, und das gilt auch für das Training eines Modells für maschinelles Lernen. Manchmal kann ein Punkt der Daten keine Geschichte erzählen, so dass Sie mehr Kontext hinzufügen müssen, damit ein Algorithmus, den wir auf diese Daten anwenden wollen, eine gute Leistung erbringt.

Mehr Kontext kann immer zu einem besseren Verständnis des Problems und schließlich zu einer besseren Leistung des Modells führen. Stellen Sie sich vor, ich erzähle Ihnen, dass ich ein Auto verkaufe, einen Audi. Das allein gibt Ihnen nicht viel Aufschluss über das Auto. Wenn ich aber die Farbe, das Modell und die gefahrene Strecke hinzufüge, können Sie sich ein besseres Bild von dem Auto und seinem möglichen Wert machen.

In einem Datensatz können das zum Beispiel weitere Variablen sein, die Sie dem Lernprozess hinzufügen. Nehmen wir mein Beispiel und Sie wollen anhand von vergangen Autoverkäufen errechnen, wie wertvoll ein Auto ist. Dann können neben der Marke mit Sicherheit noch, die gefahrenen Kilometer oder eben das Zulassungsjahr spannend sein.

Trainieren Sie Ihr Modell mit Kreuzvalidierung

Beim maschinellen Lernen ist die Kreuzvalidierung eine Technik, die zur Verbesserung des Modelltrainings verwendet wird, indem die gesamte Trainingsmenge in kleinere Teile aufgeteilt wird und dann jeder Teil zum Trainieren des Modells verwendet wird.

Diagramm der k-fachen Kreuzvalidierung.

Mit diesem Ansatz können wir den Trainingsprozess des Algorithmus verbessern, indem wir ihn mit den verschiedenen Chunks trainieren und den Durchschnitt über das Ergebnis bilden. Die Kreuzvalidierung wird verwendet, um die Leistung des Modells zu optimieren. Dieser Ansatz ist sehr beliebt, weil er so einfach und leicht zu implementieren ist.

Experimentieren Sie mit unterschiedlichen Algorithmen

Was ist, wenn Sie alle bisher besprochenen Ansätze ausprobiert haben und Ihr Modell immer noch zu einer niedrigen oder nur durchschnittlichen Genauigkeit führt?

Manchmal wählen wir einen Algorithmus für die Implementierung, der nicht wirklich auf unsere Daten anwendbar ist, so dass wir nicht die erwarteten Ergebnisse erhalten. Ändern Sie den Algorithmus, den Sie zur Implementierung Ihrer Lösung verwenden. Das Ausprobieren verschiedener Algorithmen führt dazu, dass Sie mehr Details über Ihre Daten und die Geschichte, die sie zu erzählen versuchen, herausfinden.

Sinnvoller Umgang mit fehlenden Werten und Ausreißern

Das unerwünschte Vorhandensein von fehlenden Werten und Ausreißern in den Trainingsdaten verringert oft die Genauigkeit eines Modells oder führt zu einem verzerrten Modell. Dies führt zu ungenauen Vorhersagen. Der Grund dafür ist, dass wir das Verhalten und die Beziehung zu anderen Variablen nicht richtig analysieren. Es ist also wichtig, sich mit fehlenden Werten und Ausreißern auseinanderzusetzen.

Fehlende Werte: Bei kontinuierlichen Variablen können Sie die fehlenden Werte durch Mittelwert, Median und Modus ersetzen. Bei kategorialen Variablen können Sie die Variablen als eine separate Klasse behandeln. Sie können auch ein Modell erstellen, um die fehlenden Werte vorherzusagen

Ausreißer: Sie können die Beobachtungen löschen, eine Transformation durchführen oder auch Ausreißerwerte separat behandeln. 

Schlusswort

Die Verbesserung der Genauigkeit eines Modells für maschinelles Lernen ist eine Fähigkeit, die nur durch Übung verbessert werden kann. Je mehr Projekte Sie erstellen, desto besser wird Ihr Gespür dafür, welchen Ansatz Sie beim nächsten Mal verwenden sollten, um die Genauigkeit Ihres Modells zu verbessern.

Einführung in maschinelles Lernen in BigQuery: lineare Regression

Die lineare Regression ist eine Methode bei der versucht wird eine lineare Funktionskurve zu finden, die möglichst gut zu vorgegebenen den Datenpunkten passt.

Die ermittelte Funktion ist die Grundlage für das darauf aufbauende Vorhersagemodell.

Mit überschaubaren Datasets ist es oft am einfachsten die lineare Regression einfach in Excel durchzuführen. Zur Anschauen wollen wir das heute in BigQuery tun.

Der Beispieldatensatz: HIER (Dieser kann zum Beispiel über den Umweg in Google Sheets zu BQ importiert werden).

Erklärung des Beispieldatensatzes

Wir haben neben der Spalte Monat noch die Spalten Werbeausgaben, die die Werbeausgaben in dem Monat in Geldeinheiten darstellt und die Spalte Umsätze (die perspektivisch vorhergesagt werden soll) sowie die Spalte Sale. In der Spalte Sale, steht Sale, wenn es Rabatte gab und kein Sale, wenn es keine gab.

Für BigQuery haben wir dafür folgendes Schema gebaut:

Erstellung des Models

Wir können die Create Model Funktion nutzen, um unser Model zu erstellen. Wir müssen nur das Modell anpassen (linear_regression) und die Zielvariable (Umsatz).

Bei der Spalte Sale handelt es sich um eine Kategorie, nicht um eine Zahl; sie muss ein String sein, damit BigQuery es als Kategorie kodiert.

Hier ist der Code für das Model:


CREATE OR REPLACE MODEL `beispieldatensatz-341222.lineare_regression_mit_BQ_ML.linear_model`

OPTIONS
  (model_type='linear_reg',
    input_label_cols=['Ums__tze']) AS

SELECT
  Werbeausgaben
  ,Sale
  ,Ums__tze
  
FROM `beispieldatensatz-341222.lineare_regression_mit_BQ_ML.lineare_regression_mit_BQ_ML_drive`
WHERE Ums__tze IS NOT NULL 

Das Model wird dann direkt in unserem Dataset gespeichert:

Mit der Funktion ML.EVALUATE können wir sehen, wie gut unser Modell funktioniert. Die Funktion benötigt einen Modellnamen und eine Tabelle. Die Tabelle sollte das gleiche Schema haben wie die Tabelle, mit der das Modell erstellt wurde.

Hier ist der Code:

SELECT * FROM
ML.EVALUATE(
  MODEL `beispieldatensatz-341222.lineare_regression_mit_BQ_ML.linear_model`, 
  (
  SELECT
    Werbeausgaben
    ,Sale
    ,Ums__tze
  FROM
    `beispieldatensatz-341222.lineare_regression_mit_BQ_ML.lineare_regression_mit_BQ_ML_drive`
  WHERE
     Ums__tze IS NOT NULL 
  )
)

mean_absolute_error: Der durchschnittliche Abstand zwischen dem vorhergesagten Wert und dem tatsächlichen Wert. Kleiner ist besser.
mean_squared_error: Wird zur Bewertung der statistischen Signifikanz verwendet. Kleiner ist besser.
mean_squared_log_error: Wird als numerisch stabile Kostenfunktion beim Gradientenabstieg für das Training des Modells verwendet. Kleiner ist besser.
median_absolute_error: Ein Maß, das robuster gegenüber Ausreißern ist. Kleiner ist besser.
r2_score: Bestimmtheitskoeffizient. Höher ist besser.
explained_variance: Der Anteil der erklärten Varianz. Höher ist besser.

BigQuery standardisiert die numerischen Eingaben in ein Regressionsmodell, bevor es das Modell anpasst. Das bedeutet, dass wir bei der Interpretation der Gewichte des Modells sehr vorsichtig sein müssen. Wir können die Funktion ML.WEIGHTS zusammen mit der Funktion ML.FEATURE_INFO verwenden, um eine Interpretation zusammenzustellen.

Ohne Berücksichtigung der Vorverarbeitung ist die Interpretation der Gewichte sinnlos.

Der folgende Code gibt uns die benötigten Informationen:

SELECT * FROM 
# Info for destandardizing
ML.FEATURE_INFO(MODEL `beispieldatensatz-341222.lineare_regression_mit_BQ_ML.linear_model`)
LEFT JOIN
# Model coefficients
ML.WEIGHTS(MODEL `beispieldatensatz-341222.lineare_regression_mit_BQ_ML.linear_model`)
ON 
input = processed_input

Vorhersage mit dem Model

Jetzt nutzen wir unser Vorhersagemodel um für eine Tabelle von Sale/Werbeausgabe-Paaren uns jeweils die Umsätze prognostizieren zu lassen. Die Tabelle erstellen wir einfach schnell in Excel und importieren sie über Google Sheets zu BigQuery:

Darauf aufbauend können wir die Prognose abrufen mit folgender Abfrage:

SELECT * FROM
ML.PREDICT(MODEL `beispieldatensatz-341222.lineare_regression_mit_BQ_ML.linear_model`,
  (
  SELECT
    Werbeausgaben
    ,Sale

  FROM
    `beispieldatensatz-341222.lineare_regression_mit_BQ_ML.Input_Vorhersage`
 
 )
  )

Ergebnis sieht folgendermaßen aus:

Wenn wir das noch anfüttern mit weiteren Informationen (Bsp. Kosten-Struktur ), haben wir mit wenigen Zeilen Code in kurzer Zeit ein Prognosemodell für die Marketingabteilung gebaut.

Logistische Regression in Excel durchführen

Die logistische Regression ist eine Methode bei der, wie bei der linearen Regression, versucht wird eine Funktionskurve zu finden, die möglichst gut zu den Datenpunkten passt. Der Unterschied ist, dass die Funktionskurve keine Gerade sondern eine logistische Funktion ist.  

Eine logistische Funktion sieht zum Beispiel so aus:

Um an einem möglichst praktischen Beispiel zu zeigen, wie man jetzt selbst eine logistische Regression in Excel durchführen kann, werde ich Daten von meinem Welpenmädchen Mila nehmen.

Meine Freundin und ich schreiben (meistens) auf, in welcher Woche (seit wir sie haben) sie, wie viele Kilos wiegt:

Alter in Wochen und Gewicht in Kilogramm

Wenn wir die Punkte in ein Diagramm übertragen kommt folgende Grafik raus:

Wenn man sich den aktuellen Graphen anschaut, könnte man vermuten, dass es sich, um einen linearen Zusammenhang zwischen Alter und Gewicht handelt. Jetzt haben wir aber zusätzlich noch die (gesunden) Min und Max Werte für das Gewicht abhängig vom Alter darüber gelegt:

Hier wirt deutlich, dass es sich eher um einen logarithmischen Zusammenhang handelt. Es ist tatsächlich auch intuitiver, dass die Gewichtszunahme Woche für Woche leicht abnimmt, bis der Hund irgendwann ausgewachsen ist.

Jetzt wollen wir mit Hilfe der logarithmischen Regression ein Vorhersagemodell in Excel entwickeln, um eine Aussage darüber treffen zu können, wie viel Mila voraussichtlich nach 48 Wochen wiegt.

Wir wollen eine Formel in folgender Form: y = a + b*ln(x)

y: Gewicht
x: Alter in Wochen
a,b -> wollen wir jetzt berechnen, damit wir die Formel für unsere Vorhersagen nutzen können

1) im ersten Schritt berechnen wir den natürlichen Logarithmus des Alters (Prädiktorvariable)

2) Als Nächstes werden wir das logarithmische Regressionsmodell anpassen. Klicken Sie dazu auf die Registerkarte Daten in der oberen Multifunktionsleiste und dann auf Datenanalyse in der Gruppe Analyse. Den kompletten Ablauf, hier im Video:

Der Output von Excel sieht folgendermaßen aus:

Das Bestimmtheitsmaß ist der Indikator für die Anpassungsgüte, der angibt, wie viel Varianz durch die beste Anpassungslinie erklärt wird. Der Wert reicht von 0 bis 1. In unserem Fall liegt das Bestimmtheitsmaß bei 0,99, was bedeutet, dass unsere Linie 99 % der Varianz erklären kann – das ist schonmal mega 🙂

Es gibt jedoch ein Problem: Wenn wir immer mehr Variablen hinzufügen, steigt unser Bestimmtheitsmaß immer weiter an, auch wenn die Variable möglicherweise keine Auswirkungen hat. Das adjustierte Bestimmtheitsmaß löst dieses Problem und ist eine viel zuverlässigere Metrik. Wir liegen hier ebenfalls bei 99 %, also super (und das obwohl wir hier einen Datensatz aus dem echten Leben haben ;)).

Für unser Vorhersagemodell interessiert uns ansonsten nur die Koeffizienten des Schnittpunktes und des ln(x) (gelb markiert).

Unsere Formel heißt demnach:

y = -19,52 + 12,11*ln(x)

Wenn wir jetzt also wissen wollen, wie schwer Mila (voraussichtlich) nach der 48. Woche ungefähr ist, rechnen wir: -19,52 + 12,11*ln(48) = 27,4 kg

Marketing Mix Modellierung mit Excel

Marketing Mix Modellierung (MMM) hilft bei der Quantifizierung verschiedener Marketing-Inputs auf den Umsatz. Mit Marketing-Inputs sind im engeren Sinne, die 4P des Marketing Mix gemeint (Product (Produkt), Price (Preis), Place (Distribution), Promotion (Kommunikation)). Das Modell ist aber beliebig erweiterbar.

Ziel kann neben einer möglichst guten Verteilung von Marketingbudgets, zum Beispiel eine optimale Kombination aus Produkteigenschaften sein.

Die Marketing-Mix-Modellierung beinhaltet statistische Methoden bei der die Marketing-Inputs daraufhin untersucht werden, welchen Einfluss sie auf den Umsatz hatten.

Vorteile

  • ROI Optimierung
  • Verbesserung Budgetverteilung
  • Vorhersagen von benötigten Budgets und Verkäufen möglich

Einschränkungen

  • Keine Echtzeitanalyse (wie bei digitalen Tools)
  • Keine Berücksichtigung von Attribution (Kunden haben oft eine Customer Journey)
  • Keine Analyse von konkreten Kundenerfahrungen

Beispieldatensatz

Für eine sinnvolle Einführung in die Marketing Mix Modellierung werden wir anhand eines einfach strukturierten Beispieldatensatzes einige konkrete Analysen in Excel durchführen.

Der Beispieldatensatz kann hier abgerufen werden: Beispieldatensatz-Download

Wochen seit Start -> zeitlicher Bezug; TV, Plakat, Onlinemarketing sind die Marketing-Inputs und der Umsatz ist unsere Ziel-KPI -> jeweils in Geldeinheiten (z.B. in Tausend Euro)

Korrelationskoeffizient zwischen den Kanälen und dem Umsatz

Im ersten Schritt berechnen wir einfach die Korrelationskoeffizienten zwischen den Marketing-Kanälen und dem Umsatz. Der Korrelationskoeffizient gibt eine Aussage über den linearen Zusammenhang zwischen 2 Variablen.

In Excel kommen wir am schnellsten, wenn wir einfach eine Korrelationsmatrix erstellen und die Zeilen/Spalten löschen, die uns nicht interessieren:

Hier sind die errechneten Korrelationskoeffizienten:

TVPlakatOnlinemarketing
Umsatz0,782551097154310,5757261621322760,228254003788576

Was können wir ablesen?

Umso höher der Korrelationskoeffizient umso größer ist die Abhängigkeit. Laut den Daten unseres Beispieldatensatzen ist die Abhängigkeit der TV-Werbeausgaben stärker an den Umsatz gekoppelt als das Onlinemarketing und die Plakatkampagne.

Ab wann man von einem starken oder schwachen Zusammenhang spricht, ist umstritten bzw. hängt vom Autor ab. Bei einem Koeffizient von über 0,7 wird die Mehrheit der Experten von einem mittleren bis starken positiven Zusammenhang sprechen.

Streudiagramm für Zusammenhang zwischen TV Ausgaben und Umsatz

In Streudiagrammen werden jeweils zwei Variablen als ein Punkt dargestellt. Wenn wir in unserem Beispiel Ausgaben für TV-Werbung auf der einen Seite und dem Umsatz für unser Produkt auf der anderen Seite haben, ergibt das einen eindeutigen Punkt in einem Diagramm. Wenn wir jetzt viele solcher Punkte haben, kann ich mögliche Abhängigkeiten grafisch oft schon erahnen.

In Excel gehen wir folgendermaßen vor:

Ergebnis:

Was können wir ablesen?

Das Streudiagramm lässt auf jeden Fall einen Zusammenhang zwischen den TV-Ausgaben auf der X-Achse und den Umsätzen auf der Y-Achse vermuten. Wie schon der Korrelationskoeffizient gezeigt hat, ist dieser Zusammenhang zwar nicht perfekt aber dennoch stark.

Wenn wir gedanklich eine Linie durch die Punktwolke ziehen, die möglichst “mittig” durchgeht (Methoder der kleinsten Quadrate) sehen wir auch, dass der Abstand zu der Linie größer wird, umso weiter wir uns auf der X-Achse nach rechts bewegen. Also umso weiter wir die TV-Ausgaben steigern, umso größer scheint die mögliche Varianz der Ergebnisse zu sein.

Prädiktive Modellierung mit Hilfe von linearer Regression

Auf der Grundlage der bisherigen Erkenntnisse wollen wir jetzt ein (einfaches) Vorhersagemodel in Excel entwickeln. Wir haben in der Analyse der Korrelationskoeffizienten und unter Zuhilfenahme des Streudiagramms festgestellt, dass wir einen linearen Zusammenhang zwischen den TV-Ausgaben und den Umsätzen haben.

Wir können jetzt versuchen eine lineare Funktion über die Punktwolke zu legen und damit Umsätze schätzen indem wir TV-Ausgaben voraussetzen. Hierfür nutzen wir die Methode der linearen Regression.

Aus Sicht der Datenwissenschaft sind die TV-Ausgaben die unabhängige Variable und der Umsatz die abhängige.

In Excel machen wir jetzt folgendes:

Ergebnis in Excel:

In der Zusammenfassung haben wir 3 Arten von Ausgaben (die uns interessieren), die wir nacheinander behandeln werden:

  • Tabelle mit Regressionsstatistiken
  • ANOVA-Tabelle
  • Tabelle der Regressionskoeffizienten

Tabelle mit Regressionsstatistiken

Die Tabelle der Regressionsstatistik gibt Aufschluss darüber, wie gut die Anpassungslinie die lineare Beziehung zwischen den unabhängigen und abhängigen Variablen definiert. Zwei der wichtigsten Messwerte sind das Bestimmtheitsmaß (r²) und das adjustierte (bereinigte) Bestimmtheitsmaß (adjustiertes r²).

Das Bestimmtheitsmaß ist der Indikator für die Anpassungsgüte, der angibt, wie viel Varianz durch die beste Anpassungslinie erklärt wird. Der Wert reicht von 0 bis 1. In unserem Fall liegt das Bestimmtheitsmaß bei 0,612, was bedeutet, dass unsere Linie 61 % der Varianz erklären kann – das soll uns reichen.

Es gibt jedoch ein Problem: Wenn wir immer mehr Variablen hinzufügen, steigt unser Bestimmtheitsmaß immer weiter an, auch wenn die Variable möglicherweise keine Auswirkungen hat. Das bereinigte Bestimmtheitsmaß löst dieses Problem und ist eine viel zuverlässigere Metrik. Wir liegen hier ebenfalls bei 61 %, der bereinigte Wert kann aber auch wesentlich schlechter sein (was dann aber kein gutes Zeichen wäre).

ANOVA-Tabelle

ANOVA steht für Analysis of Variance (Analyse der Varianz). In dieser Tabelle wird die Summe der Quadrate in ihre Komponenten zerlegt, um Details zur Variabilität innerhalb des Modells zu erhalten.

Sie enthält eine sehr wichtige Kennzahl, die Signifikanz F (Excel nennt das F krit ), die uns sagt, ob das Modell statistisch signifikant ist oder nicht. Kurz gesagt bedeutet dies, dass unsere Ergebnisse wahrscheinlich nicht auf einen Zufall, sondern auf eine zugrunde liegende Ursache zurückzuführen sind. Der am häufigsten verwendete Schwellenwert für die Signifikanz ist 0,05. Wenn der Wert unter diesem Wert liegt, sind wir auf der sicheren Seite.

Wir sind mit unserem Wert sehr weit drunter, was auf jeden Fall gut ist.

Tabelle der Regressionskoeffizienten

Die Koeffiziententabelle schlüsselt die Komponenten der Regressionsgeraden in Form von Koeffizienten auf.

In unserem Fall können wir ablesen, dass für jede Einheit, die wir mehr in TV-Werbung stecken 0,95 Einheiten mehr Umsatz gemacht werden. Zusätzlich sehen wir, dass der Schnittpunkt bei 1032,5 liegt, was heißt, wenn wir TV-Werbung nutzen, starten wir mit diesem Umsatzwert (in der Realität sollten solche Schnittpunkte mit Vorsicht betrachtet werden).

Funktion für die Umsatzvorhersage

Jetzt nehmen wir eine lineare Funktion der Form f(x) = m*x +n und fügen für m den Koeffizienten für TV ein und für n den Schnittpunkt. Dann haben wir die Vorhersagefunktion: y(Umsatz) = 0,95*(TV-Werbeausgaben + 1032,5

Wenn wir beispielsweise wissen wollen, wie viel Umsatz wir bei TV Augaben in Höhe von 5000 Euro machen würden, rechnen wir: 5.000*0,95 + 1032,5 = 5782,5


Die Methode der kleinsten Quadrate für die lineare Regression

Wenn wir eine Regressionsgerade an eine Reihe von Punkten anpassen, gehen wir davon aus, dass es eine unbekannte lineare Beziehung zwischen Y und X gibt und dass für jede Erhöhung von X um eine Einheit Y im Durchschnitt um einen bestimmten Betrag zunimmt. Unsere angepasste Regressionslinie ermöglicht es uns, die Reaktion Y für einen bestimmten Wert von X vorherzusagen.

Y = mX + b

Aber für jede spezifische Beobachtung kann der tatsächliche Wert von Y vom vorhergesagten Wert abweichen. Die Abweichungen zwischen dem tatsächlichen und dem vorhergesagten Wert werden als Fehler oder Residuen bezeichnet.

Je besser die Linie zu den Daten passt, desto kleiner sind die Residuen (im Durchschnitt). Wie finden wir die Linie, die am besten zu den Daten passt? Mit anderen Worten, wie bestimmen wir die Werte für den Achsenabschnitt und die Steigung unserer Regressionslinie? Intuitiv würden wir bei der manuellen Anpassung einer Linie an unsere Daten versuchen, eine Linie zu finden, die die Modellfehler insgesamt minimiert. Wenn wir jedoch eine Linie an die Daten anpassen, werden einige der Fehler positiv und einige negativ sein. Mit anderen Worten, einige der tatsächlichen Werte werden größer sein als der vorhergesagte Wert (sie werden oberhalb der Linie liegen), und einige der tatsächlichen Werte werden kleiner sein als die vorhergesagten Werte (sie werden unterhalb der Linie liegen).

Wenn wir alle Fehler zusammenzählen, ist die Summe gleich Null. Wie messen wir also den Gesamtfehler? Wir wenden einen kleinen Trick an: Wir quadrieren die Fehler und finden eine Linie, die diese Summe der quadrierten Fehler minimiert.

Mit dieser Methode, der Methode der kleinsten Quadrate, werden Werte für den Achsenabschnitt und den Steigungskoeffizienten gefunden, die die Summe der quadratischen Fehler minimieren.

Visualisierung der Methode der kleinsten Quadrate

Betrachten wir die Methode der kleinsten Quadrate einmal aus einer anderen Perspektive. Stellen Sie sich vor, dass Sie einige Daten mit Hilfe eines Streudiagramms aufgezeichnet haben und dass Sie eine Linie für den Mittelwert von Y durch die Daten gelegt haben. Wir fixieren diese Linie und bringen Federn zwischen den Datenpunkten und der Linie an.

Einige der Datenpunkte sind weiter von der Mittellinie entfernt, so dass diese Federn stärker gedehnt werden als andere. Die Federn, die am weitesten gedehnt sind, üben die größte Kraft auf die Linie aus.

Was passiert, wenn wir diese Mittellinie lösen und sie frei um den Mittelwert von Y rotieren lassen? Die Kräfte auf die Federn gleichen sich aus und drehen die Linie. Die Linie dreht sich so lange, bis die Gesamtkraft auf die Linie minimiert ist.

Es sind einige interessante physikalische Zusammenhänge im Spiel, die das Verhältnis zwischen Kraft und Energie betreffen, die benötigt wird, um eine Feder über eine bestimmte Strecke zu ziehen. Es stellt sich heraus, dass die Minimierung der Gesamtenergie in den Federn gleichbedeutend ist mit der Anpassung einer Regressionslinie nach der Methode der kleinsten Quadrate.

Partielle Kleinste Quadrate

Die Partielle Kleinste Quadrate Methode ist eine schnelle, effiziente Regressionsmethode auf der Grundlage der Kovarianz. Sie wird in Regressionsfällen empfohlen, in denen die Anzahl der erklärenden Variablen hoch ist und in denen es wahrscheinlich ist, dass die erklärenden Variablen korreliert sind.

Sie gehört zu den Modellen der Kleinsten Quadrate.

Das Ergebnis der Anpassung einer Reihe von Datenpunkten mit einer quadratischen Funktion

Partielle Kleinste Quadrate und Multikollinearität

Das Ziel der linearen Regression ist die Modellierung der Abhängigkeitsbeziehung zwischen einer abhängigen (Ziel-)Variable und mehreren unabhängigen (erklärenden) Variablen. Die Methode der kleinsten Quadrate eignet sich hierfür hervorragend, solange die Annahmen der linearen Regression erfüllt werden.

Das Diagramm zeigt, dass die Prädiktorvariablen, Variable 1 und Variable 2, in einem engen Zusammenhang stehen.

In einigen Bereichen kann es vorkommen, dass Sie viele unabhängige Variablen in Ihrem Modell haben, von denen viele mit anderen unabhängigen Variablen korreliert sind. In diesem Fall können Sie bei der Verwendung der kleinsten Quadrate Methode Probleme bekommen: Sie haben dann Multikollinearität und verletzen damit die Annahmen der linearen Regression.

Exkurs: Multikollinearität liegt immer dann vor, wenn eine unabhängige Variable sta1rk mit einer oder mehreren anderen unabhängigen Variablen in einer multiplen Regressionsgleichung korreliert ist. Multikollinearität ist ein Problem, weil sie die statistische Signifikanz einer unabhängigen Variable untergräbt.

Die Partielle Kleinste Quadrate Regression ist eine Lösung für dieses Problem: Sie ermöglicht es, die Dimensionalität der korrelierten Variablen zu reduzieren und die zugrunde liegende, gemeinsame Information dieser Variablen zu modellieren (sowohl in den abhängigen als auch in den unabhängigen Variablen).

Partielle kleinste Quadrate für multivariate Ergebnisse

Ein zweiter großer Vorteil der Partielle Kleinste Quadrate Regression ist, dass es sich um eine Methode handelt, die mehrere Ergebnisvariablen modellieren kann. Viele Statistik- und Machine Learning-Modelle können nicht direkt mit mehreren Ergebnisvariablen umgehen.

Für diese Modelle können oft Lösungen gefunden werden. Zum Beispiel die Erstellung eines Modells pro Variable. Doch insbesondere für analytische Anwendungsfälle kann es wichtig sein, alles in einem Modell zu behalten, da die Interpretation eines multivariaten Modells sich von der Interpretation vieler univariater Modelle unterscheidet.

Partielle kleinste Quadrate im Vergleich zu anderen Modellen

Sie haben gerade gesehen, dass es zwei Hauptgründe für die Verwendung Partielle Kleinste Quadrate Regression gibt: mehrere abhängige Variablen und viele korrelierte (unabhängige) Variablen.

Es gibt andere Methoden, die Lösungen für diese Probleme vorschlagen.

Partielle Kleinste Quadrate Regression vs. Multivariate multiple Regression

Die multivariate multiple Regression ist das multivariate Gegenstück zur multiplen Regression: Sie modelliert mehrere unabhängige Variablen, um mehrere abhängige Variablen zu erklären.

Obwohl die multivariate multiple Regression in vielen Fällen gut funktioniert, kann sie nicht mit Multikollinearität umgehen. Wenn Ihr Datensatz viele korrelierte Prädiktorvariablen enthält, müssen Sie zur Partielle Kleinste Quadrate Regression übergehen.

Exkurs: Prädiktorvariablen sind Variablen, die verwendet werden, um eine andere Variable oder ein Ergebnis vorherzusagen. Im Gegensatz zu unabhängigen Variablen werden Prädiktorvariablen im Allgemeinen nicht vom Untersucher manipuliert, zeigen nicht an, dass eine Variable eine andere verursacht, und werden in nicht-experimentellen Designs verwendet.

Partielle kleinste Quadrate vs. Hauptkomponenten-Regression

Die Hauptkomponenten-Regression ist eine Methode, die eine alternative Lösung für viele korrelierte unabhängige Variablen bietet. Sie wendet eine Hauptkomponentenanalyse auf die unabhängigen Variablen an, bevor sie in ein Modell mit gewöhnlichen kleinsten Quadraten eingegeben werden.

Sie kann in zwei Schritten durchgeführt werden, indem man eine Hauptkomponenten-Analyse und anschließend eine lineare Regression durchführt, aber es gibt auch Implementierungen, die beide Schritte auf einmal durchführen.

Der Unterschied zwischen der Partielle kleinste Quadrate und der Hauptkomponenten Regression besteht darin, dass sich die Hauptkomponenten-Regression auf die Varianz konzentriert und gleichzeitig die Dimensionalität reduziert. Die Partielle kleinste Quadrate Regression hingegen konzentriert sich auf die Kovarianz bei gleichzeitiger Reduzierung der Dimensionalität.

Bei Partielle kleinste Quadrate Regression werden die identifizierten Komponenten der unabhängigen Variablen so definiert, dass sie mit den identifizierten Komponenten der abhängigen Variablen in Beziehung stehen. Bei der Hauptkomponenten-Regression werden die Komponenten ohne Berücksichtigung der abhängigen Variablen erstellt.

Wenn das Ziel darin besteht, eine Abhängigkeitsbeziehung zwischen abhängigen und unabhängigen Variablen zu finden, ist Partielle kleinste Quadrate Methode im Vorteil.

Partielle kleinste Quadrate vs. Kanonische Korrelationsanalyse

Die kanonische Korrelationsanalyse ist eine statistische Methode, die sich auf die Untersuchung der Korrelation zwischen zwei Datensätzen konzentriert. Dies wird durch eine Verringerung der Dimensionalität der beiden Datensätze erreicht, und es werden die Komponentenpaare gefunden, die die höchste Korrelation aufweisen.

Die Idee der Partielle kleinste Quadrate Methode und der Kanonischen Korrelationsanalyse ist durchaus vergleichbar. Der Hauptunterschied zwischen den Methoden besteht darin, dass sich erstere auf die Kovarianz konzentriert, während die Kanonische Korrelationsanalyse auf die Korrelation abzielt.

Partielle kleinste Quadrate Modelle (PLS-Modelle)

Nachdem wir nun die allgemeinen Gründe für die Verwendung kennengelernt haben, wollen wir nun ein wenig mehr ins Detail gehen.

Innerhalb der Methode gibt es verschiedene Unterkategorien, und die Literatur ist voll von verwirrenden Begriffen und Kategorien. Wir werden nun auf einige Begriffe eingehen, die Ihnen beim Lernen über begegnen werden, und eine Liste der verschiedenen Modelle aufstellen.

Partielle kleinste Quadrate Regression

Das absolut gebräuchlichste Modell der Partiell kleinsten Quadrate Methode ist die Partiell kleinste Quadrate Regression (auch PLS-Regression: Partial Least Squares). Sie ist die Grundlage für die anderen Modelle in der Familie der PLS-Modelle. Da es sich um ein Regressionsmodell handelt, ist es anwendbar, wenn Ihre abhängigen Variablen numerisch sind.

Partielle Kleinste-Quadrate-Diskriminanzanalyse

Die Partielle Kleinste-Quadrate-Diskriminanzanalyse (PLS-DA) ist die Alternative, wenn die abhängigen Variablen kategorial sind. Die Diskriminanzanalyse ist ein Klassifizierungsalgorithmus, und PLS-DA ergänzt ihn um den Teil der Dimensionsreduktion.

PLS1 gegenüber PLS2

In der Literatur und in einigen Softwareimplementierungen wird zwischen PLS1 und PLS2 unterschieden. PLS1 bezieht sich in diesem Fall auf ein PLS-Modell mit nur einer abhängigen Variable, während PLS2 ein Modell mit mehreren abhängigen Variablen bezeichnet.

SIMPLS vs. NIPALS

SIMPLS und NIPALS sind zwei Methoden zur Durchführung von PLS. SIMPLS wurde als schnellere und “einfachere” Alternative zu der früheren Version NIPALS entwickelt. Bei der Durchführung einer PLS ist dies wahrscheinlich nicht so wichtig, da die Ergebnisse beider Methoden recht nahe beieinander liegen werden. Wenn Sie jedoch die Wahl haben, ist es wahrscheinlich am besten, das modernere SIMPLS zu verwenden.

Kernel PLS

Die Partielle Kleinste-Quadrate Methode ist, wie bereits erwähnt, eine Variante der Kleinste-Quadrate-Methode (lineare Regression). Aus diesem Grund kann PLS nicht auf nichtlineare Probleme angewendet werden. Kernel PLS löst dieses Problem und macht Partielle Kleinste-Quadrate für nichtlineare Probleme verfügbar. Kernel PLS passt eine Beziehung zwischen Eingabe- und Ausgabevariablen in einem hochdimensionalen Raum an, so dass der Eingabedatensatz als linear angesehen werden kann.

OPLS

OPLS, kurz für Orthogonale Projekte zu latenten Strukturen (Orthogonal Projects to Latent Structures), wurde als eine Verbesserung der PLS-Methode entwickelt. OPLS verspricht, einfacher zu interpretieren zu sein. Während PLS die Variabilität nur in systemische und Rauschen aufteilt, geht OPLS einen Schritt weiter und teilt die systemische Variabilität in prädiktive und orthogonale Variabilität auf.

Es gibt auch einige Kritiker der OPLS, da beide Methoden bekanntermaßen die gleiche Vorhersageleistung erbringen (man könnte sagen, dass es sich nicht um eine “echte” Verbesserung handelt, wenn sie keine bessere Leistung erbringt) und zweitens die traditionelle PLS schneller ist.

SPLS

SPLS, kurz für Spährliche Partielle Kleinste Quadrate (Sparse Partial Least Squares), ist eine Variante des PLS-Modells. Wie bereits erwähnt, zielt PLS auf eine Dimensionsreduzierung ab: eine große Anzahl korrelierter Variablen wird in eine geringere Anzahl von Komponenten reduziert.

Das Ziel von SPLS ist es, mehr als nur eine Dimensionsreduktion durchzuführen. Darüber hinaus wendet es auch eine Variablenauswahl an. SPLS verwendet die berühmte LASSO-Penalisierung, um die Variablenauswahl sowohl in den X- als auch in den Y-Datensätzen durchzuführen, mit dem Ziel, Komponenten zu erhalten, die leichter zu interpretieren sind.

L-PLS

L-PLS ist eine Variante von PLS, die für einige spezifische Anwendungsfälle eingesetzt werden kann.

Es wird ein neuer Ansatz beschrieben, um Strukturen in einer Datenmatrix Y zu extrahieren und zu visualisieren, und zwar im Lichte zusätzlicher Informationen beide über die Zeilen in Y, die in der Matrix X gegeben sind, und über die Spalten in Y, die in der Matrix Z gegeben sind. Die drei Matrizen Z-Y-X kann man sich als “L-Form” vorstellen; X(I × K) und Z(J × L) haben keine gemeinsame Dimension der Matrixgröße, sind aber über Y(I × J ) verbunden.

Die Idee hinter L-PLS besteht darin, drei Datensätze für ein und dasselbe Regressionsproblem zu verwenden, so dass Sie zusätzliche Daten in den Zeilen und in den Spalten haben. Sie beschreiben diese Situation als Daten in Form eines L, und dies wird durch das L in L-PLS dargestellt.

Diese Methode ist sehr innovativ und es gibt sicherlich Anwendungsfälle dafür. Leider wird sie aufgrund der fehlenden Implementierung in den gängigen Statistikbibliotheken und ihrer sehr spezifischen Anwendung meines Wissens in der Praxis noch nicht viel genutzt.

Was ist eine prädiktive Analyse, und wie können Sie sie nutzen?

Prädiktive Analysen sind eine Möglichkeit, die Vergangenheit zu nutzen, um zukünftige Ereignisse zu prognostizieren. Dabei handelt es sich nicht um Zukunftsforschung, sondern um eine genaue Berechnung der Wahrscheinlichkeiten in einem beliebigen Szenario, die auf der Verarbeitung großer Datenmengen beruht.

Diese fortschrittliche Technik nutzt Data Mining, maschinelles Lernen und künstliche Intelligenz, um die Aussagekraft zu verbessern. Anstatt Rückschlüsse auf das Gestern zu ziehen, können Sie Trends vorwegnehmen und das Verhalten von morgen vorhersagen – und das alles auf der Grundlage von Vergangenheitsdaten.

Inhalt

Was ist prädiktive Analytik?

Die prädiktive Analyse ist eine fortschrittliche Analysetechnik, die Daten, Algorithmen und maschinelles Lernen nutzt, um Trends vorherzusehen und Geschäftsprognosen zu erstellen. Dank immer mehr Rechenleistung ist es möglich, große Datenmengen zu analysieren, um Muster zu finden und zukünftige Möglichkeiten aus der Vergangenheit zu bewerten.

Das Konzept hat seinen Ursprung in den 1940er Jahren, als Regierungen die ersten Computer einsetzten.

Heute hat die prädiktive Analytik dank leistungsstarker Prozessoren und neuer Technologien jedoch weitaus mehr an Bedeutung gewonnen.

Ein weiterer entscheidender Faktor für den Aufstieg dieser Technik ist Big Data: das Phänomen der beschleunigten Vermehrung von Informationen mit 2,5 Quintillionen Bytes an Daten, die täglich von Menschen produziert werden. Und falls Sie sich fragen, eine Quintillion besteht aus 18 Nullen.

Die Aufgabe der Analytik besteht also darin, uns in dieser unermesslichen Datenmenge zurechtzufinden, die möglichen Richtungen aufzuzeigen und inmitten des Informationswirbels nach Mustern zu suchen.

Zu diesem Zweck nutzt die prädiktive Analyse Data Mining, maschinelles Lernen, künstliche Intelligenz und Statistik, um die Daten zu sammeln, zu verarbeiten, zu interpretieren und zu übersetzen.

Es ist jedoch wichtig klarzustellen, dass diese Technologie nicht “die Zukunft vorhersagen” kann, sondern nur die Wahrscheinlichkeiten auf der Grundlage dessen, was bereits geschehen ist, abbildet.

Die entscheidende Frage lautet nicht “Was wird passieren?”, sondern “Was wird wahrscheinlich passieren?”.

Eines der einfachsten Beispiele für die Anwendung dieser Art von Analyse ist das Cross-Selling – die Strategie, den Kunden zu ermutigen, zum Zeitpunkt des Kaufs ergänzende Produkte und Dienstleistungen zu erwerben.

Kennen Sie die berühmte E-Commerce-Empfehlung: “Leute, die dieses Produkt gekauft haben, haben auch…”?

In Unternehmen ist es möglich, prädiktive Analysesysteme einzusetzen, um mögliche Verhaltensweisen von Kunden auf der Grundlage ihrer Kaufhistorie, ihrer Interaktionen und ihres Profils vorherzusagen.

Auf diese Weise werden die Produktempfehlungen dank der zuverlässigen Vorhersage, die durch die Auswertung von Millionen von Daten erstellt wird, viel genauer.

Ebenso können im E-Commerce prädiktive Analysen eingesetzt werden, um die Akzeptanz eines neuen Produkts auf dem Markt vorherzusagen, um zu verstehen, welche Marketingstrategien am erfolgversprechendsten sind, und um betriebliche Misserfolge vorherzusehen.

Wie funktionieren prädiktive Analysen?

Es gibt mehrere mögliche Ansätze, aber in der Regel basiert das Konzept auf der Erstellung eines Vorhersagemodells. Diese mathematische Funktion wird ein Problem vorhersagen, wenn sie auf die Daten angewendet wird.

Ein pharmazeutisches Labor kann beispielsweise ein Vorhersagemodell auf Ihre Bestellhistorie anwenden, um zu entscheiden, ob die Produktion eines bestimmten Medikaments im nächsten Winter erhöht werden soll, wenn die Wettervorhersagen für diesen Zeitraum berücksichtigt werden (eine strengere, trockenere und regenreichere Jahreszeit).

In ähnlicher Weise können Unternehmen mit Hilfe von Vorhersagemodellen feststellen, ob ein bestimmtes Produkt gute Erfolgschancen hat, ob ein Wechsel des Lieferanten den Produktionszyklus rationalisieren kann, ob die Verbraucher eine veränderte Verpackung gut annehmen werden usw.

Es ist erwähnenswert, dass maschinelles Lernen eine entscheidende Rolle bei der prädiktiven Analyse spielen kann. Wie? Beim maschinellen Lernen handelt es sich um ein System, das sein Verhalten auf der Grundlage von in Datensätzen gefundenen Mustern selbstständig ändert. Aus diesem Grund werden Algorithmen dieser Art häufig entwickelt oder angepasst, um speziell in der prädiktiven Analyse eingesetzt zu werden.

Bedeutung der prädiktiven Analyse für Unternehmen

Angesichts des zunehmenden Wettbewerbs und der tiefgreifenden Veränderungen im digitalen Zeitalter müssen Unternehmen mehr denn je der Konkurrenz einen Schritt voraus sein.

Deshalb setzen Unternehmen prädiktive Modelle ein, um:

  • Vorhersage der nächsten Schritte in einem Segment
  • Chancen im Voraus zu erkennen
  • Sicherheitsverstöße zu verhindern
  • Marketingstrategien zu optimieren
  • das Verhalten und die Gewohnheiten von Verbrauchern und Mitarbeitern zu erfassen
  • Verbesserung der Abläufe und Steigerung der Effizienz
  • Reduzierung von Risiken.

Sie können prädiktive Analysen nutzen, um das wahrscheinliche Verhalten eines Verbrauchers zu verstehen, interne Prozesse zu optimieren, die IT-Infrastruktur zu überwachen und zu automatisieren sowie die Wartung von Maschinen zu optimieren.

Über prädiktive Analysen, Big Data und Business Intelligence

Genauso wichtig wie die Beschaffung von Daten ist das Wissen, wie man sie nutzen kann.

Big Data ist die wichtigste Forschungsquelle für die Erstellung von Prognosemodellen. Bei der Auswahl der Daten oder beim Data Mining geht es darum, herauszufinden, welche Datensätze und Statistiken die besten strategischen Informationen liefern können.

Auf der anderen Seite kann Business Intelligence ein Bereich innerhalb des Organigramms oder sogar der Strategie sein. Ihre Funktion besteht darin, die Daten umzuwandeln oder zu verfeinern, um sie in Informationen umzuwandeln, was in gewisser Weise die Verwendung des Namens in einer solchen allgemeinen Weise ermöglicht.

Prädiktive Analyse-Anwendungen müssen mit einer Vielzahl von Daten gefüttert werden, um sie in nützliche Informationen umzuwandeln und kontinuierliche Verbesserungsprozesse zu schaffen. Daten und Analysen stehen in einem wechselseitigen Austausch; das eine kann nicht ohne das andere leben.

Datenanalysten können Vorhersagemodelle erstellen, wenn sie über genügend Daten verfügen, um Vorhersageergebnisse zu erhalten. Alle Bereiche sind also eng miteinander verbunden.

Was sind prädiktive Modelle?

Wir wissen bereits, dass die prädiktive Analyse Daten aus der Vergangenheit und der Gegenwart nutzt, um mithilfe statistischer Funktionen zukünftiges Verhalten vorherzusagen. Sie sind auch in der Lage, Muster in dem analysierten Datensatz zu erkennen.

Ein Vorhersagemodell ist das, was ein Experte für Vorhersagemodellierung unter Verwendung relevanter Daten und statistischer Methoden erstellt. Diese Modelle können zur Beantwortung bestimmter Fragen und zur Vorhersage unbekannter Werte verwendet werden.

Vorhersagemodelle werden im Allgemeinen in zwei Bereiche unterteilt: parametrische und nichtparametrische Modelle. Der Hauptunterschied besteht darin, dass parametrische Modelle immer spezifischere Annahmen und Voraussetzungen treffen.

Einige der Arten von Vorhersagemodellen sind:

  • Ordinäre kleinste Quadrate;
  • Verallgemeinerte lineare Modelle;
  • Logistische Regression;
  • Zufällige Wälder;
  • Entscheidungsbäume;
  • Neuronale Netze;
  • Multivariate adaptive Regressionssplines.

Jedes dieser Modelle wird für einen bestimmten Zweck verwendet, d. h. es beantwortet eine bestimmte Frage oder einen bestimmten Datensatz.

Kurz gesagt, alle Modelle haben methodische und mathematische Unterschiede und ähneln sich in ihrem gemeinsamen Ziel, nämlich der Vorhersage zukünftiger oder unbekannter Ergebnisse.

Wie man Prädiktive Analysen in 7 Schritten durchführt

Um zu verstehen, wie prädiktive Analysen in der Praxis funktionieren, sollten wir die wichtigsten Schritte des Prozesses nachvollziehen.

  1. Definition der Ziele
  2. Definition von Analysezielen
  3. Datenerhebung
  4. Vorbereitung der Daten
  5. Die Datenanalyse
  6. Modellierung
  7. Monitoring

Definition der Ziele

Um ein prädiktives Modell zu erstellen, müssen Sie von einem Projekt mit klar definierten Geschäftszielen ausgehen.

Zu Beginn sollten Sie sich fragen, was der Zweck der Analyse ist:

  • Verstehen Sie das Verbraucherverhalten?
  • Verkaufstrends vorhersagen?
  • Die profitabelsten Produkte identifizieren?
  • Verringerung der Abwanderungsrate oder des Umsatzes?
  • Produktions- und Betriebskosten zu senken?
  • Ein neues Zielpublikum ansprechen?

Definition von Analysezielen

Der nächste Schritt besteht darin, Ihre Unternehmensziele in Analyseziele zu übersetzen.

Wenn Sie beispielsweise das Verbraucherverhalten besser verstehen wollen, müssen Sie ein prädiktives Profilanalysemodell erstellen.

Andere mögliche Modelle sind Risikoanalyse, Segmentierung, Aktivierung, Customer Lifetime Value (CLV), usw.

Datenerhebung

Nachdem Sie Ihre Ziele definiert haben, müssen Sie sich auf die Suche nach den Daten machen, die Sie zur Beantwortung Ihrer Fragen benötigen.

Dieser Schritt erfordert die meiste Sorgfalt. Die Qualität der Daten ist ausschlaggebend für die Zuverlässigkeit Ihrer Analyse.

Daher müssen Sie die besten Quellen für die Datenerhebung auswählen (interne Datenbanken, soziale Netzwerke, Forschungsarbeiten, Datenbanken von Regierungen oder Verbänden) und genau festlegen, welche Informationen benötigt werden.

Es ist von entscheidender Bedeutung, ein geeignetes Erhebungsinstrument zu verwenden und die Genauigkeit, die Kosten und die Stabilität der Daten zu bestimmen.

Vorbereitung der Daten

Bevor Sie mit der Analyse beginnen, müssen Sie die Daten so vorbereiten, dass sie das richtige Format haben und von Ihrem Tool gelesen werden können.

Bereinigen Sie zunächst unnötige Informationen, definieren Sie Variablen, sortieren Sie Ihre Daten und strukturieren Sie sie dann in bestimmte Sätze.

Dies können Sie beispielsweise mit Software wie Excel und Power BI tun oder sie bereinigen die Daten in ihrem Data Warehouse (zum Beispiel BigQuery)

Die Datenanalyse

Wenn die Daten richtig strukturiert sind, können Sie nun mit der Analyse beginnen.

An dieser Stelle ist es wichtig, dass Sie über statistische Kenntnisse verfügen, um die resultierenden Diagramme auswerten und Ihre Trendlinie verstehen zu können.

Nehmen wir zum Beispiel an, Sie analysieren Daten zu Kundentransaktionen. In diesem Fall erhalten Sie einen klaren Überblick über die heißesten Perioden, die meistverkauften Produkte und mögliche Einflussfaktoren auf die Umsatzschwankungen.

Hier haben Sie drei grundlegende Analysemöglichkeiten:

  • Univariate Analyse: Jede Variable wird isoliert behandelt, bevor sie mit den anderen gekreuzt wird
  • Bivariate Analyse: stellt eine Beziehung zwischen zwei Variablen her (Beispiel: Verkaufszeit und Durchschnittspreis)
  • Multivariate Analyse: stellt Beziehungen zwischen zwei oder mehr Variablen her (Beispiel: Alter des Kunden, CLV und durchschnittlicher Warenkorb).

Modellierung

Nachdem Sie Ihre Analyse durchgeführt und die erforderlichen Tests vorgenommen haben, können Sie mit diesen Daten ein Vorhersagemodell erstellen.

Bei diesem Modell handelt es sich um einen Standard mathematischer und statistischer Techniken, der die aus den von Ihnen erstellten Beziehungen gesammelten Daten verarbeitet und schnelle und übersichtliche Antworten liefert.

Auf diese Weise wird Ihre prädiktive Analyse wertvolle Erkenntnisse über zukünftige Wahrscheinlichkeiten liefern.

Monitoring

Nachdem Sie Ihr Vorhersagemodell erstellt haben, sollten Sie dessen Effizienz genau überwachen, um sicherzustellen, dass die Ergebnisse zuverlässig bleiben.

Idealerweise sollte die Leistung des Modells monatlich, vierteljährlich und halbjährlich überprüft werden, um sicherzustellen, dass eine mögliche Änderung der Daten die Analyse nicht beeinträchtigt.

Zusammenfassung

Haben Sie verstanden, wie wichtig prädiktive Analysen sind, um die Zukunft Ihres Unternehmens zu sehen?

Natürlich haben die Daten keine hellseherischen Fähigkeiten. Dennoch ist es möglich, die Möglichkeiten zu kartografieren, um bessere Entscheidungen zu treffen und Ihre Konkurrenten zu übertreffen.

Mit der beeindruckend schnellen Entwicklung von KI und maschinellem Lernen besteht die Tendenz, dass Algorithmen immer intelligenter werden und noch genauere Vorhersagen treffen können.

Wie wir gesehen haben, ist die menschliche Intelligenz in diesem Prozess unverzichtbar, da man die Systeme mit hochwertigen Daten füttern muss, um gute Ergebnisse zu erzielen.

Statistische Momente in der Data Science

Momente sind eine Reihe von statistischen Parametern, die zur Beschreibung einer Verteilung verwendet werden. Die Berechnungen sind einfach und werden daher oft als erster quantitativer Einblick in die Daten verwendet. Ein gutes Verständnis der Daten sollte immer der erste Schritt vor dem Training eines fortgeschrittenen ML-Modells sein. So lässt sich der Zeitaufwand für die Auswahl der Methodik und die Interpretation der Ergebnisse minimieren.

In der Physik beziehen sich Momente auf Masse und informieren uns darüber, wie die physikalische Größe angeordnet ist. In der Mathematik beziehen sich die Momente auf etwas Ähnliches – die Wahrscheinlichkeitsverteilung – eine Funktion, die erklärt, wie wahrscheinlich die verschiedenen möglichen Ergebnisse eines Experiments sind. Um verschiedene Datensätze vergleichen zu können, können wir sie mit den ersten vier statistischen Momenten beschreiben:

  1. Der Erwartungswert
  2. Die Varianz
  3. Schiefe
  4. Kurtosis

Was ist der Data Science Prozess

Data Science ist ein mit Big Data verbundener Bereich, der darauf abzielt, große Mengen komplexer Rohdaten zu analysieren und dem Unternehmen aussagekräftige Informationen auf der Grundlage dieser Daten zu liefern.

Es handelt sich um eine Kombination aus vielen Bereichen wie Statistik, Mathematik und Berechnung, um Daten zu interpretieren und zu präsentieren, damit Unternehmensleiter wirksame Entscheidungen treffen können.

Data Science hilft Unternehmen, ihre Leistung, Effizienz und Kundenzufriedenheit zu verbessern und finanzielle Ziele leichter zu erreichen. Damit Datenwissenschaftler Data Science jedoch effektiv einsetzen und nützliche, produktive Ergebnisse liefern können, ist ein tiefes Verständnis des Data-Science-Prozesses erforderlich. Die verschiedenen Phasen des Data-Science-Prozesses helfen bei der Umwandlung von Daten in praktische Ergebnisse. Sie helfen dabei, Daten zu analysieren, zu extrahieren, zu visualisieren, zu speichern und effektiver zu verwalten.

Was ist der Data Science-Prozess? Ein kurzer Abriss

Bei Data Science geht es um einen systematischen Prozess, der von Data Scientists zur Analyse, Visualisierung und Modellierung großer Datenmengen verwendet wird. Ein Data-Science-Prozess hilft Data Scientists dabei, mit Hilfe von Tools ungesehene Muster zu finden, Daten zu extrahieren und Informationen in verwertbare Erkenntnisse umzuwandeln, die für das Unternehmen von Bedeutung sein können. Dies hilft Unternehmen und Betrieben, Entscheidungen zu treffen, die zur Kundenbindung und zum Gewinn beitragen können. Darüber hinaus hilft ein Data-Science-Prozess bei der Entdeckung verborgener Muster in strukturierten und unstrukturierten Rohdaten. Der Prozess hilft dabei, ein Problem in eine Lösung zu verwandeln, indem das Geschäftsproblem als Projekt behandelt wird. Lassen Sie uns also lernen, was ein Data-Science-Prozess im Detail ist und welche Schritte in einem Data-Science-Prozess enthalten sind.

Die sechs Schritte des Data-Science-Prozesses sind wie folgt:

  1. Formulierung des Problems
  2. Sammeln Sie die für Ihr Problem benötigten Rohdaten
  3. Aufbereitung der Daten für die Analyse
  4. Erforschen der Daten
  5. Tiefgreifende Analyse durchführen
  6. Kommunizieren Sie die Ergebnisse der Analyse

Da die Prozessschritte der Datenwissenschaft dazu beitragen, Rohdaten in monetäre Gewinne und Gesamtgewinne umzuwandeln, sollte jeder Datenwissenschaftler den Prozess und seine Bedeutung gut kennen. Lassen Sie uns nun diese Schritte im Detail besprechen.

Schritt 1: Das Problem formulieren

Bevor man ein Problem löst, muss man ganz pragmatisch wissen, was genau das Problem ist. Datenfragen müssen zunächst in umsetzbare Geschäftsfragen umgewandelt werden. Die Menschen werden oft mehrdeutige Angaben zu ihren Problemen machen. Und in diesem ersten Schritt müssen Sie lernen, diese Eingaben in umsetzbare Ergebnisse zu verwandeln.

Ein guter Weg, diesen Schritt zu gehen, ist, Fragen zu stellen wie:

  • Wer sind die Kunden?
  • Wie kann man sie identifizieren?
  • Wie läuft der Verkaufsprozess im Moment ab?
  • Warum sind sie an Ihren Produkten interessiert?
  • An welchen Produkten sind sie interessiert?

Sie brauchen viel mehr Kontext als Zahlen, um daraus Erkenntnisse zu gewinnen. Am Ende dieses Schritts müssen Sie so viele Informationen wie möglich zur Hand haben.

Schritt 2: Sammeln der Rohdaten für das Problem

Nachdem Sie das Problem definiert haben, müssen Sie die erforderlichen Daten sammeln, um Erkenntnisse zu gewinnen und das Geschäftsproblem in eine wahrscheinliche Lösung zu verwandeln. Dazu müssen Sie sich Gedanken über Ihre Daten machen und Wege finden, um die benötigten Daten zu sammeln und zu erhalten. Dazu kann die Durchsicht Ihrer internen Datenbanken oder der Kauf von Datenbanken aus externen Quellen gehören.

Viele Unternehmen speichern ihre Verkaufsdaten in CRM-Systemen (Customer Relationship Management). Die CRM-Daten lassen sich leicht analysieren, indem sie mithilfe von Datenpipelines in fortschrittlichere Tools exportiert werden.

Schritt 3: Verarbeitung der zu analysierenden Daten

Wenn Sie nach dem ersten und zweiten Schritt über alle benötigten Daten verfügen, müssen Sie diese verarbeiten, bevor Sie sie weiter analysieren können. Daten können unübersichtlich sein, wenn sie nicht ordnungsgemäß gepflegt wurden, was zu Fehlern führt, die die Analyse leicht verfälschen. Das können z. B. Werte sein, die auf Null gesetzt wurden, obwohl sie eigentlich Null sein sollten, oder das genaue Gegenteil, fehlende Werte, doppelte Werte und vieles mehr. Um genauere Einblicke zu erhalten, müssen Sie die Daten durchgehen und auf Probleme überprüfen.

Die häufigsten Fehler, auf die Sie stoßen können und auf die Sie achten sollten, sind:

  1. Fehlende Werte
  2. Beschädigte Werte wie ungültige Einträge
  3. Unterschiede in der Zeitzone
  4. Fehler im Datumsbereich, z. B. ein aufgezeichneter Verkauf, bevor der Verkauf überhaupt begonnen hat

Sie müssen sich auch die Summe aller Zeilen und Spalten in der Datei ansehen und prüfen, ob die Werte, die Sie erhalten, sinnvoll sind. Ist dies nicht der Fall, müssen Sie die unsinnigen Daten entfernen oder ersetzen. Sobald Sie den Datenbereinigungsprozess abgeschlossen haben, sind Ihre Daten bereit für eine explorative Datenanalyse (EDA).

Schritt 4: Erkundung der Daten

In diesem Schritt müssen Sie Ideen entwickeln, die dazu beitragen können, verborgene Muster und Erkenntnisse zu erkennen. Sie müssen interessantere Muster in den Daten finden, z. B. warum der Absatz eines bestimmten Produkts oder einer bestimmten Dienstleistung gestiegen oder gesunken ist. Sie müssen diese Art von Daten gründlicher analysieren oder wahrnehmen. Dies ist einer der wichtigsten Schritte in einem Data-Science-Prozess.

Schritt 5: Ausführliche Analyse

In diesem Schritt werden Ihre mathematischen, statistischen und technologischen Kenntnisse auf die Probe gestellt. Sie müssen alle Data-Science-Tools einsetzen, um die Daten erfolgreich zu analysieren und alle möglichen Erkenntnisse zu gewinnen. Möglicherweise müssen Sie ein Vorhersagemodell erstellen, mit dem Sie Ihren durchschnittlichen Kunden mit denjenigen vergleichen können, die unterdurchschnittliche Leistungen erbringen. Möglicherweise finden Sie in Ihrer Analyse verschiedene Gründe wie das Alter oder die Aktivität in den sozialen Medien als entscheidende Faktoren für die Vorhersage der Kunden einer Dienstleistung oder eines Produkts.

Möglicherweise finden Sie verschiedene Aspekte, die den Kunden beeinflussen, wie z. B. dass manche Menschen lieber per Telefon als über die sozialen Medien erreichbar sind. Diese Erkenntnisse können sich als hilfreich erweisen, da der größte Teil des Marketings heutzutage über soziale Medien erfolgt und sich ausschließlich an die Jugend richtet. Die Art und Weise, wie das Produkt vermarktet wird, wirkt sich stark auf den Umsatz aus, und Sie müssen demografische Zielgruppen ansprechen, die noch nicht zum alten Eisen gehören. Sobald Sie diesen Schritt abgeschlossen haben, können Sie die quantitativen und qualitativen Daten, die Sie haben, kombinieren und in die Tat umsetzen.

Schritt 6: Kommunikation der Ergebnisse dieser Analyse

Nach all diesen Schritten ist es von entscheidender Bedeutung, dass Sie Ihre Erkenntnisse und Ergebnisse an den Vertriebsleiter weitergeben und ihm deren Bedeutung verständlich machen. Es ist hilfreich, wenn Sie das Problem, das Ihnen gestellt wurde, in geeigneter Weise kommunizieren, um es zu lösen. Richtige Kommunikation führt zu Handlungen. Im Gegensatz dazu kann ein unsachgemäßer Kontakt zu Untätigkeit führen.

Sie müssen die Daten, die Sie gesammelt haben, und Ihre Erkenntnisse mit dem Wissen des Vertriebsleiters verknüpfen, damit dieser sie besser verstehen kann. Sie können damit beginnen, zu erklären, warum ein Produkt zu wenig erfolgreich war und warum bestimmte Bevölkerungsgruppen nicht an dem Verkaufsgespräch interessiert waren. Nachdem Sie das Problem dargelegt haben, können Sie mit der Lösung des Problems fortfahren. Sie müssen eine starke Erzählung mit Klarheit und starken Zielen erstellen.

Bedeutung des Data-Science-Prozesses

Die Anwendung eines Data-Science-Prozesses hat für jedes Unternehmen verschiedene Vorteile. Außerdem ist er für den Erfolg eines jeden Unternehmens äußerst wichtig geworden. Hier sind die Gründe, die Ihnen einen Anstoß geben sollten, einen Data-Science-Prozess in Ihre Datenerfassungsroutine aufzunehmen:

1. Bessere Ergebnisse und höhere Produktivität

Jedes Unternehmen oder jeder Betrieb, der über Daten oder Zugang zu Daten verfügt, ist zweifellos im Vorteil gegenüber anderen Unternehmen. Daten können in verschiedenen Formen verarbeitet werden, um die vom Unternehmen benötigten Informationen zu erhalten und ihm zu helfen, gute Entscheidungen zu treffen. Der Einsatz eines Data-Science-Prozesses ermöglicht es, Entscheidungen zu treffen, und gibt den Unternehmensleitern Vertrauen in diese Entscheidungen, da sie durch Statistiken und Details gestützt werden. Dies verschafft dem Unternehmen einen Wettbewerbsvorteil und erhöht die Produktivität.

2. Die Berichterstellung wird vereinfacht

In fast allen Fällen werden Daten verwendet, um Werte zu sammeln und Berichte auf der Grundlage dieser Werte zu erstellen. Sind die Daten erst einmal entsprechend aufbereitet und in das System eingepflegt, kann mit einem Klick problemlos auf sie zugegriffen werden, so dass die Erstellung von Berichten nur noch eine Frage von Minuten ist.

3. Schneller, genauer und zuverlässiger

Es ist äußerst wichtig, dass die Sammlung von Daten, Fakten und Zahlen zügig und ohne Fehler erfolgt. Ein Data-Science-Prozess, der auf Daten angewendet wird, bietet eine geringe bis vernachlässigbare Chance auf Fehler oder Irrtümer. Dies stellt sicher, dass der nachfolgende Prozess mit größerer Genauigkeit durchgeführt werden kann. Und der Prozess liefert bessere Ergebnisse. Es ist nicht ungewöhnlich, dass mehrere Wettbewerber über die gleichen Daten verfügen. In diesem Fall ist das Unternehmen im Vorteil, das über die genauesten und zuverlässigsten Daten verfügt.

4. Einfache Speicherung und Verteilung

Wenn Unmengen von Daten gespeichert werden, muss auch der dafür benötigte Platz riesig sein. Dies birgt die Gefahr, dass Informationen oder Daten fehlen oder verwechselt werden. Ein Data-Science-Prozess bietet Ihnen zusätzlichen Platz, um Papiere und komplexe Dateien zu speichern und die kompletten Daten durch eine computerisierte Einrichtung zu kennzeichnen. Dies verringert die Verwirrung und macht die Daten leicht zugänglich und nutzbar. Ein weiterer Vorteil des Data-Science-Prozesses besteht darin, dass die Daten in digitaler Form gespeichert werden.

5. Kostenreduzierung

Durch das Sammeln und Speichern von Daten mithilfe eines Data-Science-Prozesses entfällt die Notwendigkeit, Daten immer wieder neu zu sammeln und zu analysieren. Außerdem ist es bequem, Kopien der gespeicherten Daten in digitaler Form zu erstellen. Das Versenden oder Übertragen von Daten zu Forschungszwecken wird einfach. Dadurch werden die Gesamtkosten für das Unternehmen gesenkt. Es fördert auch die Kostensenkung durch den Schutz der Daten, die sonst in den Unterlagen verloren gehen könnten. Verluste, die auf das Fehlen bestimmter Daten zurückzuführen sind, werden durch die Anwendung eines Data-Science-Prozesses ebenfalls verringert. Daten helfen dabei, durchdachte und sichere Entscheidungen zu treffen, was wiederum zu einer Kostenreduzierung führt.

6. Sicher und geschützt

Durch die digitale Speicherung von Daten im Rahmen eines Data-Science-Prozesses sind die Informationen wesentlich sicherer. Der Wert von Daten nimmt mit der Zeit zu, so dass Datendiebstahl häufiger vorkommt als früher. Sobald die Verarbeitung der Daten abgeschlossen ist, werden die Daten durch verschiedene Software gesichert, die jeden unbefugten Zugriff verhindert und Ihre Daten gleichzeitig verschlüsselt.

Fazit

Ein Data-Science-Prozess ist nicht linear und variiert je nach der Phase, in der Sie sich gerade befinden. Dies führt dazu, dass Ihr Tagesablauf sehr unterschiedlich ist und Sie oft Aufgaben erledigen müssen, die nicht in Ihren Bereich fallen. Sie werden die einzelnen Schritte immer wieder durchlaufen müssen, bevor Sie schließlich das Ende des Prozesses erreichen. Es ist wichtig, einen datenwissenschaftlichen Prozess und die damit verbundenen Schritte richtig zu verstehen, um systematisch zu denken. Ihre Karriere in der Datenwissenschaft wird sich exponentiell entwickeln, wenn Sie den Prozess der Datenwissenschaft besser verstehen.

10 Deep Learning Algorithmen, die Sie kennen sollten

Deep Learning hat in der wissenschaftlichen Datenverarbeitung große Popularität erlangt, und seine Algorithmen werden von vielen Branchen zur Lösung komplexer Probleme eingesetzt. Alle Deep-Learning-Algorithmen verwenden verschiedene Arten von neuronalen Netzen, um bestimmte Aufgaben zu erfüllen.

In diesem Artikel werden die wichtigsten künstlichen neuronalen Netze und die Funktionsweise von Deep-Learning-Algorithmen zur Nachahmung des menschlichen Gehirns untersucht.

Was ist Deep Learning?

Beim Deep Learning werden künstliche neuronale Netze verwendet, um anspruchsvolle Berechnungen mit großen Datenmengen durchzuführen. Es handelt sich um eine Art des maschinellen Lernens, das auf der Grundlage der Struktur und Funktion des menschlichen Gehirns funktioniert.

Deep-Learning-Algorithmen trainieren Maschinen, indem sie aus Beispielen lernen. In Branchen wie dem Gesundheitswesen, dem elektronischen Handel, der Unterhaltung und der Werbung wird Deep Learning häufig eingesetzt.

Neuronale Netze

Ein neuronales Netzwerk ist wie das menschliche Gehirn aufgebaut und besteht aus künstlichen Neuronen, die auch als Knoten bezeichnet werden. Diese Knoten sind in drei Schichten nebeneinander gestapelt:

  • The input layer (Eingabeschicht)
  • The hidden layer(s) (versteckte(n) Schicht(en))
  • The output layer (Ausgabeschicht)

Die Daten versorgen jeden Knoten mit Informationen in Form von Eingaben. Der Knoten multipliziert die Eingaben mit zufälligen Gewichten, berechnet sie und fügt eine Vorspannung hinzu. Schließlich werden nichtlineare Funktionen, die auch als Aktivierungsfunktionen bekannt sind, angewendet, um zu bestimmen, welches Neuron feuern soll.

Wie funktionieren Deep-Learning-Algorithmen?

Deep-Learning-Algorithmen verfügen über selbstlernende Darstellungen und sind von ANNs (‎Artificial Neural Network) abhängig, die die Art und Weise widerspiegeln, wie das Gehirn Informationen berechnet. Während des Trainingsprozesses verwenden die Algorithmen unbekannte Elemente in der Eingabeverteilung, um Merkmale zu extrahieren, Objekte zu gruppieren und nützliche Datenmuster zu entdecken. Ähnlich wie beim Training von Maschinen für das Selbstlernen geschieht dies auf mehreren Ebenen, wobei die Algorithmen zur Erstellung der Modelle verwendet werden.

Bei Deep-Learning-Modellen kommen mehrere Algorithmen zum Einsatz. Es gibt zwar kein perfektes Netzwerk, aber einige Algorithmen eignen sich besser für die Ausführung bestimmter Aufgaben. Um die richtigen auszuwählen, ist es gut, ein solides Verständnis aller primären Algorithmen zu erlangen.

Arten von Algorithmen, die beim Deep Learning verwendet werden

Hier ist die Liste der 10 beliebtesten Deep-Learning-Algorithmen:

  1. Convolutional Neural Networks (CNNs) (Faltungsneuronale Netze )
  2. Long Short Term Memory Networks (LSTMs) (Netze mit langem Kurzzeitgedächtnis)
  3. Recurrent Neural Networks (RNNs)
  4. Generative Adversarial Networks (GANs)
  5. Radial Basis Function Networks (RBFNs)
  6. Multilayer Perceptrons (MLPs)
  7. Self Organizing Maps (SOMs) (Selbstorganisierende Karten)
  8. Deep Belief Networks (DBNs)
  9. Restricted Boltzmann Machines( RBMs)
  10. Autoencoders

Deep-Learning-Algorithmen arbeiten mit fast allen Arten von Daten und benötigen große Mengen an Rechenleistung und Informationen, um komplizierte Probleme zu lösen. Lassen Sie uns nun tief in die Top 10 der Deep-Learning-Algorithmen eintauchen.

1. Convolutional Neural Networks (CNNs)

CNNs, auch ConvNets genannt, bestehen aus mehreren Schichten und werden hauptsächlich für die Bildverarbeitung und Objekterkennung verwendet. Yann LeCun entwickelte das erste CNN im Jahr 1988 unter dem Namen LeNet. Es wurde für die Erkennung von Zeichen wie Postleitzahlen und Ziffern verwendet.

CNNs werden häufig zur Identifizierung von Satellitenbildern, zur Verarbeitung medizinischer Bilder, zur Vorhersage von Zeitreihen und zur Erkennung von Anomalien eingesetzt.

Struktur eines typischen CNNs zur Bildklassifikation. Subsampling entspricht Pooling. Dieses Netz besitzt pro Convolutional Layer mehrere Filterkernel, sodass Schichten an Feature Maps entstehen, die jeweils die gleiche Eingabe bekommen, jedoch aufgrund unterschiedlicher Gewichtsmatrizen unterschiedliche Features extrahieren. (Quelle: Wikipedia)

Wie funktionieren CNNs?

CNNs haben mehrere Schichten, die Daten verarbeiten und Merkmale aus ihnen extrahieren:

Convolution Layer

CNN verfügt über eine Faltungsschicht mit mehreren Filtern, die die Faltungsoperation durchführen.

Rectified Linear Unit (ReLU)

CNNs haben eine ReLU-Schicht, um Operationen an Elementen durchzuführen. Die Ausgabe ist eine entzerrte Merkmalskarte.

Pooling Layer

Die entzerrte Merkmalskarte wird anschließend in eine Pooling-Ebene eingespeist. Pooling ist ein Down-Sampling-Vorgang, der die Dimensionen der Merkmalskarte reduziert.

Die Pooling-Ebene konvertiert dann die resultierenden zweidimensionalen Arrays aus der gepoolten Feature-Map in einen einzigen, langen, kontinuierlichen, linearen Vektor, indem sie ihn abflacht.

Fully Connected Layer

Eine voll verknüpfte Schicht entsteht, wenn die abgeflachte Matrix aus der Pooling-Schicht als Eingabe eingegeben wird, die die Bilder klassifiziert und identifiziert.

2. Long Short Term Memory Networks (LSTMs) (Netzwerke mit langem Kurzzeitgedächtnis)

LSTMs sind eine Art rekurrentes neuronales Netz (RNN), das langfristige Abhängigkeiten lernen und speichern kann. Das Abrufen vergangener Informationen über lange Zeiträume ist das Standardverhalten.

LSTMs behalten Informationen über einen längeren Zeitraum. Sie sind nützlich für die Vorhersage von Zeitreihen, da sie sich an frühere Eingaben erinnern. LSTMs haben eine kettenartige Struktur, bei der vier interagierende Schichten auf einzigartige Weise kommunizieren. Neben Zeitreihenvorhersagen werden LSTMs typischerweise für Spracherkennung, Musikkomposition und pharmazeutische Entwicklung eingesetzt.

Zur Abbildung: Im ersten Schritt wird vorwärts ein Signal erzeugt (roter Pfeil). Dann wird (grün) als Fehlerjustierung rückwärts die Gewichtung korrigiert. (Quelle: Wikipedia)

Wie funktionieren LSTMs?

  • Zunächst vergessen sie irrelevante Teile des vorherigen Zustands.
  • Als Nächstes aktualisieren sie selektiv die Werte des Zellzustands
  • Schließlich wird die Ausgabe von bestimmten Teilen des Zellzustands

3. Recurrent Neural Networks (RNNs)

RNNs haben Verbindungen, die gerichtete Zyklen bilden, die es ermöglichen, dass die Ausgaben des LSTM als Eingaben in die aktuelle Phase eingespeist werden.

Die Ausgabe des LSTM wird zu einer Eingabe für die aktuelle Phase und kann sich aufgrund seines internen Speichers an frühere Eingaben erinnern. RNNs werden häufig für Bildbeschriftungen, Zeitreihenanalysen, die Verarbeitung natürlicher Sprache, Handschrifterkennung und maschinelle Übersetzung verwendet.

Verschiedene Arten von Rückkopplungen: Die blaue Kante W(d) ist eine direkte, die grüne W(i) eine indirekte und die rote W(I) eine seitliche Rückkopplung. (Quelle: Wikipedia)

Wie funktionieren RNNs?

Die Ausgabe zum Zeitpunkt t-1 fließt in die Eingabe zum Zeitpunkt t ein.

  • In ähnlicher Weise fließt die Ausgabe zum Zeitpunkt t in die Eingabe zum Zeitpunkt t+1 ein.
  • RNNs können Eingaben von beliebiger Länge verarbeiten.
  • Bei der Berechnung werden historische Informationen berücksichtigt, und die Größe des Modells nimmt nicht mit der Größe der Eingabe zu.

4. Generative Adversarial Networks (GANs)

GANs sind generative Deep-Learning-Algorithmen, die neue Dateninstanzen erzeugen, die den Trainingsdaten ähneln. GANs haben zwei Komponenten: einen Generator, der lernt, gefälschte Daten zu erzeugen, und einen Diskriminator, der aus diesen falschen Informationen lernt.

Die Verwendung von GANs hat im Laufe der Zeit zugenommen. Sie können verwendet werden, um astronomische Bilder zu verbessern und Gravitationslinsen für die Erforschung dunkler Materie zu simulieren. Videospielentwickler verwenden GANs, um niedrig aufgelöste 2D-Texturen in alten Videospielen zu verbessern, indem sie sie durch Bildtraining in 4K oder höheren Auflösungen nachbilden.

GANs helfen dabei, realistische Bilder und Zeichentrickfiguren zu erzeugen, Fotos von menschlichen Gesichtern zu erstellen und 3D-Objekte zu rendern.

Wie funktionieren GANs?

  • Der Diskriminator lernt, zwischen den gefälschten Daten des Generators und den echten Beispieldaten zu unterscheiden.
  • Während des anfänglichen Trainings produziert der Generator gefälschte Daten, und der Diskriminator lernt schnell zu erkennen, dass es sich um falsche Daten handelt.
  • Das GAN sendet die Ergebnisse an den Generator und den Diskriminator, um das Modell zu aktualisieren.
Vergleich des Originalbildes (links) mit dem hochskalierten GAN-Bild (rechts)(Quelle: Wikipedia) / (Urheber: Von PantheraLeo1359531 – Eigenes Werk, CC-BY 4.0, https://commons.wikimedia.org/w/index.php?curid=108770715)

5. Radial Basis Function Networks (RBFNs)

RBFNs sind spezielle Typen von neuronalen Feedforward-Netzwerken, die radiale Basisfunktionen als Aktivierungsfunktionen verwenden. Sie haben eine Eingabeschicht, eine verborgene Schicht und eine Ausgabeschicht und werden hauptsächlich für Klassifizierung, Regression und Zeitreihenvorhersage verwendet.

Wie funktionieren RBFNs?

  • RBFNs führen eine Klassifizierung durch, indem sie die Ähnlichkeit der Eingabe mit Beispielen aus dem Trainingssatz messen.
  • RBFNs haben einen Eingabevektor, der in die Eingabeschicht eingespeist wird. Sie haben eine Schicht von RBF-Neuronen.
  • Die Funktion findet die gewichtete Summe der Eingaben, und die Ausgabeschicht hat einen Knoten pro Kategorie oder Klasse von Daten.
  • Die Neuronen in der verborgenen Schicht enthalten die Gaußschen Übertragungsfunktionen, deren Ausgänge umgekehrt proportional zum Abstand vom Zentrum des Neurons sind.
  • Die Ausgabe des Netzes ist eine lineare Kombination aus den Radialbasisfunktionen der Eingabe und den Parametern des Neurons.

6. Multilayer Perceptrons (MLPs)

MLPs sind ein hervorragender Ausgangspunkt für das Erlernen der Deep Learning-Technologie.

MLPs gehören zur Klasse der neuronalen Feedforward-Netzwerke mit mehreren Schichten von Perceptrons, die über Aktivierungsfunktionen verfügen. MLPs bestehen aus einer Eingabeschicht und einer Ausgabeschicht, die vollständig verbunden sind. Sie haben die gleiche Anzahl von Eingabe- und Ausgabeschichten, können aber mehrere verborgene Schichten haben und können zum Aufbau von Spracherkennungs-, Bilderkennungs- und Maschinenübersetzungssoftware verwendet werden.

Wie funktionieren MLPs?

  • MLPs speisen die Daten in die Eingabeschicht des Netzwerks ein. Die Neuronenschichten sind in einem Graphen miteinander verbunden, so dass das Signal nur in eine Richtung fließt.
  • MLPs berechnen die Eingabe mit den Gewichten, die zwischen der Eingabeschicht und den versteckten Schichten liegen.
  • MLPs verwenden Aktivierungsfunktionen, um zu bestimmen, welche Knoten zu aktivieren sind. Zu den Aktivierungsfunktionen gehören ReLUs, Sigmoid-Funktionen und tanh.
  • MLPs trainieren das Modell, um die Korrelation zu verstehen und die Abhängigkeiten zwischen den unabhängigen und den Zielvariablen aus einem Trainingsdatensatz zu lernen.

7. Self Organizing Maps (SOMs)

Ein Adaptionsschritt: Der Reiz 𝑣 zieht an dem Gewichtsvektor 𝑤 des am besten angepassten Neurons. Dieser Zug wird mit zunehmendem Abstand, gemessen im Competitive Layer vom besten Neuron, zunehmend schwächer. Einfach ausgedrückt, beult sich die Karte in Richtung des Reizes 𝑣 aus. (Quelle: Wikipedia)

Professor Teuvo Kohonen hat die SOMs erfunden, die es der Datenvisualisierung ermöglichen, die Dimensionen von Daten durch selbstorganisierende künstliche neuronale Netze zu reduzieren.

Mit der Datenvisualisierung wird versucht, das Problem zu lösen, dass Menschen hochdimensionale Daten nicht einfach visualisieren können. SOMs wurden entwickelt, um den Benutzern zu helfen, diese hochdimensionalen Informationen zu verstehen.

Wie funktionieren SOMs?

  • SOMs initialisieren die Gewichte für jeden Knoten und wählen einen Zufallsvektor aus den Trainingsdaten.
  • SOMs untersuchen jeden Knoten, um herauszufinden, welche Gewichte den wahrscheinlichsten Eingabevektor darstellen. Der siegreiche Knoten wird als Best Matching Unit (BMU) bezeichnet.
  • SOMs entdecken die Nachbarschaft der BMU, und die Anzahl der Nachbarn nimmt mit der Zeit ab.
  • SOMs weisen dem Beispielvektor ein Gewinnergewicht zu. Je näher ein Knoten an einer BMU liegt, desto mehr ändert sich sein Gewicht.
  • Je weiter der Nachbar von der BMU entfernt ist, desto weniger lernt er. SOMs wiederholen Schritt zwei für N Iterationen.

8. Deep Belief Networks (DBNs)

Schematischer Überblick über ein tiefes Glaubensnetz. Die Pfeile stellen gerichtete Verbindungen in dem grafischen Modell dar, das das Netz repräsentiert. (Quelle: Wikipedia)
Eine beschränkte Boltzmann-Maschine (RBM) mit vollständig verbundenen sichtbaren und verborgenen Einheiten. Es gibt keine Verbindungen zwischen versteckten und sichtbaren Einheiten oder zwischen sichtbaren und sichtbaren Einheiten. (Quelle: Wikipedia)

DBNs sind generative Modelle, die aus mehreren Schichten stochastischer, latenter Variablen bestehen. Die latenten Variablen haben binäre Werte und werden oft als versteckte Einheiten bezeichnet.

DBNs sind ein Stapel von Boltzmann-Maschinen mit Verbindungen zwischen den Schichten, und jede RBM-Schicht kommuniziert sowohl mit der vorherigen als auch mit der nachfolgenden Schicht. Deep Belief Networks (DBNs) werden für die Bilderkennung, die Videoerkennung und die Erfassung von Bewegungsdaten verwendet.

Wie funktionieren DBNs?

  • Greedy-Lernalgorithmen trainieren DBNs. Der Greedy-Lernalgorithmus verwendet einen schichtweisen Ansatz zum Lernen der generativen Gewichte von oben nach unten.
  • DBNs führen die Schritte des Gibbs-Samplings auf den oberen beiden verborgenen Schichten durch. In dieser Phase wird eine Stichprobe aus dem RBM gezogen, das von den oberen beiden verborgenen Schichten gebildet wird.
  • DBNs ziehen eine Stichprobe aus den sichtbaren Einheiten, indem sie einen einzigen Durchgang des Ahnensamplings durch den Rest des Modells durchführen.
  • DBNs lernen, dass die Werte der latenten Variablen in jeder Schicht durch einen einzigen Durchgang von unten nach oben abgeleitet werden können.

9. Restricted Boltzmann Machines (RBMs)

RBMs wurden von Geoffrey Hinton entwickelt und sind stochastische neuronale Netze, die aus einer Wahrscheinlichkeitsverteilung über eine Reihe von Eingaben lernen können.

Dieser Deep-Learning-Algorithmus wird für Dimensionalitätsreduktion, Klassifizierung, Regression, kollaboratives Filtern, Merkmalslernen und Themenmodellierung verwendet. RBMs sind die Bausteine von DBNs.

RBMs bestehen aus zwei Schichten:

  • Sichtbare Einheiten
  • Versteckte Einheiten

Jede sichtbare Einheit ist mit allen verborgenen Einheiten verbunden. RBMs haben eine Bias-Einheit, die mit allen sichtbaren Einheiten und den versteckten Einheiten verbunden ist, und sie haben keine Ausgabeknoten.

Wie funktionieren RBMs?

  • RBMs haben zwei Phasen: Vorwärtspass und Rückwärtspass.

10. Autoencoders

Autoencoder sind ein spezieller Typ eines neuronalen Feedforward-Netzwerks, bei dem Eingabe und Ausgabe identisch sind. Geoffrey Hinton entwickelte Autoencoder in den 1980er Jahren, um Probleme des unüberwachten Lernens zu lösen. Es handelt sich um trainierte neuronale Netze, die die Daten von der Eingabeschicht zur Ausgabeschicht replizieren. Autoencoder werden u. a. bei der Entdeckung von Arzneimitteln, der Vorhersage von Beliebtheit und der Bildverarbeitung eingesetzt.

Wie funktionieren Autoencoder?

  • Ein Autoencoder besteht aus drei Hauptkomponenten: dem Encoder, dem Code und dem Decoder.
  • Autoencoder sind so aufgebaut, dass sie eine Eingabe erhalten und diese in eine andere Darstellung umwandeln. Anschließend versuchen sie, die ursprüngliche Eingabe so genau wie möglich zu rekonstruieren.
  • Wenn das Bild einer Ziffer nicht klar erkennbar ist, wird es in ein neuronales Netz des Autoencoders eingespeist.
  • Autoencoder kodieren zunächst das Bild und reduzieren dann die Größe der Eingabe in eine kleinere Darstellung.
  • Schließlich dekodiert der Autoencoder das Bild, um das rekonstruierte Bild zu erzeugen.
  • RBMs akzeptieren die Eingaben und übersetzen sie in eine Reihe von Zahlen, die die Eingaben im Vorwärtsdurchlauf kodieren.
  • RBMs kombinieren jede Eingabe mit einer individuellen Gewichtung und einer Gesamtverzerrung. Der Algorithmus leitet die Ausgabe an die versteckte Schicht weiter.
  • Im Rückwärtsdurchlauf nehmen RBMs diesen Satz von Zahlen und übersetzen sie, um die rekonstruierten Eingaben zu bilden.
  • RBMs kombinieren jede Aktivierung mit einer individuellen Gewichtung und einer Gesamtvorspannung und geben die Ausgabe zur Rekonstruktion an die sichtbare Schicht weiter.
  • In der sichtbaren Schicht vergleicht das RBM die Rekonstruktion mit der ursprünglichen Eingabe, um die Qualität des Ergebnisses zu analysieren.

Zusammenfassung

Deep Learning hat sich in den letzten fünf Jahren weiterentwickelt, und Deep-Learning-Algorithmen sind in vielen Branchen sehr beliebt geworden. Wenn Sie eine aufregende Karriere in der Datenwissenschaft anstreben und lernen möchten, wie man mit Deep-Learning-Algorithmen arbeitet, sollten Sie sich noch heute unsere KI- und ML-Kurse ansehen.

Erforschen Sie die häufig gestellten Deep-Learning-Interview-Fragen und machen Sie Ihre Karriere als Datenwissenschaftler möglich!

Wenn Sie nach der Lektüre dieses Artikels noch Fragen zu Deep Learning Algorithmen haben, hinterlassen Sie diese bitte in den Kommentaren, und das Expertenteam von Simplilearn wird Ihnen in Kürze Antworten geben.