Logistische Regression in Excel durchführen

Die logistische Regression ist eine Methode bei der, wie bei der linearen Regression, versucht wird eine Funktionskurve zu finden, die möglichst gut zu den Datenpunkten passt. Der Unterschied ist, dass die Funktionskurve keine Gerade sondern eine logistische Funktion ist.  

Eine logistische Funktion sieht zum Beispiel so aus:

Um an einem möglichst praktischen Beispiel zu zeigen, wie man jetzt selbst eine logistische Regression in Excel durchführen kann, werde ich Daten von meinem Welpenmädchen Mila nehmen.

Meine Freundin und ich schreiben (meistens) auf, in welcher Woche (seit wir sie haben) sie, wie viele Kilos wiegt:

Alter in Wochen und Gewicht in Kilogramm

Wenn wir die Punkte in ein Diagramm übertragen kommt folgende Grafik raus:

Wenn man sich den aktuellen Graphen anschaut, könnte man vermuten, dass es sich, um einen linearen Zusammenhang zwischen Alter und Gewicht handelt. Jetzt haben wir aber zusätzlich noch die (gesunden) Min und Max Werte für das Gewicht abhängig vom Alter darüber gelegt:

Hier wirt deutlich, dass es sich eher um einen logarithmischen Zusammenhang handelt. Es ist tatsächlich auch intuitiver, dass die Gewichtszunahme Woche für Woche leicht abnimmt, bis der Hund irgendwann ausgewachsen ist.

Jetzt wollen wir mit Hilfe der logarithmischen Regression ein Vorhersagemodell in Excel entwickeln, um eine Aussage darüber treffen zu können, wie viel Mila voraussichtlich nach 48 Wochen wiegt.

Wir wollen eine Formel in folgender Form: y = a + b*ln(x)

y: Gewicht
x: Alter in Wochen
a,b -> wollen wir jetzt berechnen, damit wir die Formel für unsere Vorhersagen nutzen können

1) im ersten Schritt berechnen wir den natürlichen Logarithmus des Alters (Prädiktorvariable)

2) Als Nächstes werden wir das logarithmische Regressionsmodell anpassen. Klicken Sie dazu auf die Registerkarte Daten in der oberen Multifunktionsleiste und dann auf Datenanalyse in der Gruppe Analyse. Den kompletten Ablauf, hier im Video:

Der Output von Excel sieht folgendermaßen aus:

Das Bestimmtheitsmaß ist der Indikator für die Anpassungsgüte, der angibt, wie viel Varianz durch die beste Anpassungslinie erklärt wird. Der Wert reicht von 0 bis 1. In unserem Fall liegt das Bestimmtheitsmaß bei 0,99, was bedeutet, dass unsere Linie 99 % der Varianz erklären kann – das ist schonmal mega 🙂

Es gibt jedoch ein Problem: Wenn wir immer mehr Variablen hinzufügen, steigt unser Bestimmtheitsmaß immer weiter an, auch wenn die Variable möglicherweise keine Auswirkungen hat. Das adjustierte Bestimmtheitsmaß löst dieses Problem und ist eine viel zuverlässigere Metrik. Wir liegen hier ebenfalls bei 99 %, also super (und das obwohl wir hier einen Datensatz aus dem echten Leben haben ;)).

Für unser Vorhersagemodell interessiert uns ansonsten nur die Koeffizienten des Schnittpunktes und des ln(x) (gelb markiert).

Unsere Formel heißt demnach:

y = -19,52 + 12,11*ln(x)

Wenn wir jetzt also wissen wollen, wie schwer Mila (voraussichtlich) nach der 48. Woche ungefähr ist, rechnen wir: -19,52 + 12,11*ln(48) = 27,4 kg

Explorative Analyse

Die explorative Datenanalyse ist ein Verfahren zur Analyse von Daten, Techniken zur Interpretation der Ergebnisse solcher Verfahren, Methoden zur Planung der Datenerfassung, um die Analyse zu erleichtern, präziser oder genauer zu machen, und alle Verfahren und Ergebnisse der (mathematischen) Statistik, die sich auf die Analyse von Daten beziehen.

Die explorative Analyse ist kein formaler Prozess mit einem strengen Regelwerk. In der Anfangsphase der der Analyse sollten Sie jeder Idee nachgehen, die Ihnen in den Sinn kommt. Einige dieser Ideen werden sich als richtig erweisen, andere werden sich als Sackgassen erweisen. Mit fortschreitender Erkundung werden Sie sich auf einige besonders produktive Bereiche konzentrieren, die Sie schließlich niederschreiben und anderen mitteilen werden.

Sie müssen immer die Qualität Ihrer Daten untersuchen. Den Vorgang hierzu nennt man Datenbereinigung.

Techniken und Methoden

Es gibt eine Reihe von Techniken und Methoden, die für die explorative Analyse nützlich sind.

Typische grafische Techniken, die in der Explorativen Analyse verwendet werden, sind:

Dimensionsreduktion:

  • Multidimensionale Skalierung
  • Hauptkomponentenanalyse (PCA)
  • Multilineare PCA
  • Nichtlineare Dimensionalitätsreduktion (NLDR)
  • Ikonographie der Korrelationen

Typische quantitative Techniken sind:

  • Medianschliff
  • Trimean
  • Ordination

Explorative Analyse mit Hilfe von Excel

Im Folgenden werden wir mit Hilfe eines Beispieldatensatzes (Hier zum Datensatz) eine explorative Analyse durchführen.

Ausschnitt des Beispieldatensatzen

In dem Datensatz repräsentiert jede Zeile einen Kauf eines Nutzers (Nutzer-ID). Dementsprechend sind viele Nutzer-IDs mehrfach in dem Datensatz (Customer Lifetime Value).

Neben dem Kaufdatum finden wir in dem Beispieldatensatzauch den Umsatz, ob ein Gutschein genutzt wurde, das Geschlecht, den Wohnort, das Land und den Geburtstag des Kunden.

Wir gehen davon aus, dass der Datensatz vorher bereits bereinigt wurde (zum Beispiel Ausschluss von Widerrufen).

Die meisten Unternehmen, die Analysen dieser Art durchführen arbeiten mit so viel Daten, dass es einfacher ist sie mit Hilfe eines Data Warehouses zu verwalten. Mein persönlicher Favorit ist BigQuery. Hierzu habe ich ebenfalls schon einige Artikel in meinem Blog verfasst.

Meiner Meinung nach ist Excel troztdem eine gute Möglichkeit sich in das Thema der Datenanalyse einzuarbeiten.

Bevor wir den mit dem Datensatz eine explorative Analyse durchführen werden, müssen wir ihn noch transformieren. Konkret wollen wir daraus eine Kundenliste mit folgenden Informationen erstellen:

  • NutzerID
  • Erster Kauf
  • Letzter Kauf
  • Anzahl Käufe
  • Gesamtumsatz
  • Durchschnittlicher Umsatz je Kauf
  • Geschlecht
  • Ort
  • Land
  • Geburtstag

Die Erstellung der Liste haben wir in einem Video aufgezeichnet:

Link zum transformierten Datensatz

Den nun transformierten Datensatz werden wir mit Hilfe der uns zur Verfügung stehend Techniken und Methoden explorativ analysieren. Wir werden das mit Excel tun.

Boxplot

Ein Boxplot ist eine standardisierte Methode zur Darstellung der Verteilung von Daten auf der Grundlage einer Zusammenfassung von fünf Zahlen (Minimum, erstes Quartil (Q1), Median, drittes Quartil (Q3) und Maximum). Es kann Ihnen Aufschluss über Ihre Ausreißer und deren Werte geben.

Die Umsetzung erfolgt wieder mit Hilfe eines Videos:

Der Boxplot zeigt uns, dass wir einige starke Ausreißer haben. Der Median liegt bei 150 und das Maximum bei 100.000.

Die meisten Boxplots haben eine Form, wie diese:

Aber auch wenn wir keine klassische Form haben, können wir jetzt durch unsere erste explorative Analyse schon sagen, dass das Maximum des Umsatzes pro Kunde bei 100.000 Euro liegt und das bei einem Median von 150.

Hier lohnt sich also wahrscheinlich mal eine ABC-Analyse durchzuführen: mit dem Ziel die Kundengruppen herauszusuchen, die den größten Anteil am Umsatz machen und daraus dann wieder weitere Fragen abzuleiten, wie zum Beispiel:

  • Wie komme ich an mehr Kategorie A Kunden?
  • Wie kann ich das größte Potential aus meinen Kategorie A Kunden ziehen
  • etc.

Wir wollen uns aber jetzt weiter der nächsten Explorativen Technik unseres Datensatzes widmen.

Histogramm

Ein Histogramm ist eine ungefähre Darstellung der Verteilung von numerischen Daten. Um ein Histogramm zu erstellen, wird zunächst der Wertebereich in Bins (oder Buckets) eingeteilt, d. h. der gesamte Wertebereich wird in eine Reihe von Intervallen unterteilt, und dann wird gezählt, wie viele Werte in jedes Intervall fallen. Die Bins werden in der Regel als aufeinanderfolgende, sich nicht überschneidende Intervalle einer Variablen angegeben. Die Bins (Intervalle) müssen nebeneinander liegen und sind häufig (aber nicht zwingend) gleich groß.

In unserem Fall wollen wir ein Gefühl dafür bekommen, wie alt unsere Käufer sind. Dafür werden wir im ersten Schritt aus dem Geburtsdatum das Alter ausrechnen um darauf aufbauend das Histogramm zu erstellen:

Wir haben eine rechtschiefe Verteilung des Alters und ein ziemlich gutes Gefühl über die Altersverteilung der Kunden.

Die X-Achse gibt jeweils eine Aussage über die Klassen (36-38) und die y-Achse über die Anzahl der Kunden.

Uns soll das an der Stelle für unsere Auswertung reichen. Wenn man hier noch etwas detailierter vorgehen möchte, bietet es sich ggf. noch an, die Ausgangsdaten vorher so zu transformieren, dass man weiß, wie alt die Kunden beim Erstkauf waren.

Neben einem Histogram der Altersstruktur des Erstkaufs kann es auch sinnvoll sein ein Histokramm der Altersstruktur der aktiven Kunden zu machen. In der vorliegenden Analyse haben wir einfach die Altersstruktur aller Kunden genommen, die jemals etwas gekfauft haben. Das kann natürlich in die Irre führen, wenn sich die Altersstruktur über die Jahre ändert.

Pareto-Diagramm

Ein Pareto-Diagramm ist ein Histogramm bei dem die Balken nach der Häufigkeit sortiert sind.

Die Länge der Balken stellt die Häufigkeit oder die Kosten (Zeit oder Geld) dar und ist so angeordnet, dass die längsten Balken links und die kürzesten rechts liegen.

Wir wollen uns in unserer explorativen die Anzahl der Käufe anschauen. Allerdings werden wir vorab Klassen für die Anzahl der Käufe anlegen.

Ich habe mich für folgende Aufteilung entschieden:

  • 1 Kauf
  • 2 Käufe
  • 3 Käufe
  • 4 Käufe
  • 5 Käufe
  • 6 Käufe
  • 7 Käufe
  • 8 Käufe
  • 9 Käufe
  • Mehr als 9 Käufe

Nach der Berechnung der Anzahl an Käufern, die jeweils den Klassen zugeordnet werden, erstellen wir das zugehörige Pareto-Diagramm in Excel:

Wenn man sich das Diagramm anschaut kann man sehen, das über die Hälfte aller Kunden lediglich einmal kaufen. Grob 80 % nicht mehr als 3.

Das zeigt, dass hier noch viele ungenutzte Potentiale liegen um die Customer Lifetime Value seiner Kunden weiter zu steigern.

Streudiagramm

In einem auch Streudiagramm werden die Werte für zwei verschiedene numerische Variablen durch Punkte dargestellt. Die Position der einzelnen Punkte auf der horizontalen und vertikalen Achse gibt die Werte für einen einzelnen Datenpunkt an. Streudiagramme werden verwendet, um Beziehungen zwischen Variablen zu finden.

Streudiagramme dienen in erster Linie dazu, Beziehungen zwischen zwei numerischen Variablen zu beobachten und darzustellen. Die Punkte in einer Punktwolke zeigen nicht nur die Werte einzelner Datenpunkte, sondern auch Muster, wenn die Daten als Ganzes betrachtet werden.

Mit Streudiagrammen werden häufig Korrelationsbeziehungen identifiziert. In diesen Fällen wollen wir wissen, was eine gute Vorhersage für den vertikalen Wert wäre, wenn wir einen bestimmten horizontalen Wert bekämen. Häufig wird die Variable auf der horizontalen Achse als unabhängige Variable und die Variable auf der vertikalen Achse als abhängige Variable bezeichnet. Beziehungen zwischen Variablen können auf viele Arten beschrieben werden: positiv oder negativ, stark oder schwach, linear oder nichtlinear.

Im vorliegenden Datensatz könnte man schauen ob es einen Zusammenhang zwischen dem Alter und dem Umsatz geben könnte:

Offensichtlich ist, dass es keinen linearen Zusammenhang zwischen dem Alter und dem Umsatz pro Kunde zu geben scheint.

Es scheint aber einen Sweetspot in dem Alterscluster zwischen 40 und 70 zu geben. Auch wenn wir aus unserem Datensatz hier keine hilfreichen Erkenntnisse ziehen können, sind solche Streudiagramme grundsätzlich ein extrem wichtiges Werkzeug um Abhängigkeiten zwischen einzelnen Werten aufzudecken.

Die sechs Arten der Datenanalyse

Datenanalyse ist der Prozess der Überprüfung, Bereinigung, Umwandlung und Modellierung von Daten mit dem Ziel, nützliche Informationen zu entdecken, Schlussfolgerungen zu ziehen und die Entscheidungsfindung zu unterstützen.

Mit ihren zahlreichen Facetten und Methoden sowie unterschiedlichen Techniken wird die Datenanalyse in vielen Bereichen eingesetzt – in der Wirtschaft, der Wissenschaft, der Sozialwissenschaft usw. In einer Welt, in der die Wirtschaft unter dem Einfluss zahlreicher technologischer Fortschritte floriert, spielt die Datenanalyse eine große Rolle bei der Entscheidungsfindung, da sie diese besser und schneller macht, ein effizientes System, das Risiken minimiert und menschliche Voreingenommenheit reduziert.

Allerdings gibt es verschiedene Arten von Analysen, die unterschiedliche Ziele verfolgen. Im Folgenden finden Sie einen kurzen Überblick über die 6 Arten der Datenanalyse.

6 Arten der Datenanalyse

Die Datenanalyse kann in 6 Arten unterteilt und organisiert werden, die nach ihrem Schwierigkeitsgrad geordnet sind.

Hier ist eine kurze Zusammenfassung aller Methoden:

  • Die deskriptive Analyse fasst die vorliegenden Daten zusammen und präsentiert sie in ansprechender Form.
  • Die explorative Datenanalyse hilft Ihnen, Korrelationen und Beziehungen zwischen den Variablen in Ihren Daten zu entdecken.
  • Die inferentielle Analyse dient der Verallgemeinerung einer größeren Population mit einer kleineren Stichprobengröße von Daten.
  • Die prädiktive Analyse hilft Ihnen, anhand von Daten Vorhersagen über die Zukunft zu treffen.
  • Die Kausalanalyse konzentriert sich auf die Suche nach der Ursache für eine Korrelation zwischen Variablen.
  • Bei der mechanistischen Analyse geht es darum, die genauen Veränderungen in den Variablen zu messen, die zu anderen Veränderungen in anderen Variablen führen.

1. Deskriptive Analyse

Ziel: Beschreiben oder Zusammenfassen einer Reihe von Daten

Beschreibung:

  • Die allererste durchgeführte Analyse (wenn man sich neue Daten anschaut)
  • Erzeugt einfache Zusammenfassungen über Stichproben und Messungen
  • allgemeine deskriptive Statistiken (Maße der zentralen Tendenz, Variabilität, Häufigkeit, Position usw.)

Beispiele für deskriptive Analysen sind Kennzahlen wie das prozentuale Umsatzwachstum im Vergleich zum Vorjahr, der Umsatz pro Kunde und die durchschnittliche Zeit, die Kunden für die Bezahlung von Rechnungen benötigen. Die Produkte der deskriptiven Analytik erscheinen in Jahresabschlüssen, anderen Berichten, Dashboards und Präsentationen.

Die deskriptive Analyse ist der erste Schritt in der Analyse, bei dem Sie die Daten, die Sie haben, mit Hilfe der deskriptiven Statistik zusammenfassen und beschreiben.

2. Explorative Analyse

Ziel: Daten untersuchen oder erforschen und Beziehungen zwischen Variablen finden, die zuvor unbekannt waren.

Beschreibung:

  • Die Explorative Analyse hilft Ihnen, Beziehungen zwischen Messgrößen in Ihren Daten zu entdecken, die kein Beweis für die Existenz der Korrelation sind (Korrelation impliziert keine Kausalität).
  • Nützlich für die Entdeckung neuer Zusammenhänge
  • Bildet Hypothesen und treibt die Designplanung und Datenerhebung voran

Beispiel:

Der Klimawandel ist ein zunehmend wichtiges Thema, da die globale Temperatur im Laufe der Jahre allmählich ansteigt. Ein Beispiel für eine Explorative Analyse im Zusammenhang mit dem Klimawandel ist die Betrachtung des Temperaturanstiegs im Laufe der Jahre, z. B. von 1950 bis 2020, und der Zunahme menschlicher Aktivitäten und der Industrialisierung, und die Bildung von Beziehungen aus den Daten, z. B. die zunehmende Zahl von Fabriken, Autos auf den Straßen und Flugzeugen.

Zusammenfassung:

Explorative Analyse analysiert Daten, um Beziehungen zwischen Kennzahlen zu finden. Sie sagt uns aber nicht die Ursache. Sie können verwendet werden, um Hypothesen zu formulieren.

3. Inferentielle Analyse

Ziel: Verwendung einer kleinen Datenstichprobe, um Rückschlüsse auf eine größere Grundgesamtheit zu ziehen.

Bei der statistischen Modellierung selbst geht es darum, aus einer kleinen Datenmenge Informationen zu extrapolieren und auf eine größere Gruppe zu verallgemeinern.

Beschreibung:

  • Verwendung geschätzter Daten, die einen Wert in der Grundgesamtheit haben, und Angabe eines Maßes für die Unsicherheit (Standardabweichung) in Ihrer Schätzung
  • Die Genauigkeit der Schlussfolgerung hängt stark vom Stichprobenplan ab; wenn die Stichprobe nicht repräsentativ für die Grundgesamtheit ist, wird die Verallgemeinerung ungenau sein

Beispiel:

Die Idee, mit einer kleineren Stichprobe auf die Grundgesamtheit zu schließen, ist recht intuitiv. Viele Statistiken, die Sie in den Medien und im Internet sehen, sind inferentiell, also eine Vorhersage eines Ereignisses auf der Grundlage einer kleinen Stichprobe. Ein Beispiel ist eine Psychologiestudie über die Länge des Schlafs: Insgesamt 500 Personen, die an der Studie teilnahmen, berichteten bei einer Nachuntersuchung, dass sie mit 7 bis 9 Stunden Schlaf eine bessere allgemeine Aufmerksamkeit und ein besseres Wohlbefinden hatten, während diejenigen, die weniger oder mehr schliefen, unter einer geringeren Aufmerksamkeit und Energie litten. Bei diesem Bericht von 500 Personen handelte es sich nur um einen winzigen Teil von 7 Milliarden Menschen auf der Welt, trotzdem kann das Ergebnis unter bestimmten Umständen verallgemeinert werden.

Zusammenfassung:

Extrapoliert und verallgemeinert die Informationen der größeren Gruppe mit einer kleineren Stichprobe, um Analysen und Vorhersagen zu erstellen.

4. Prädiktive Analyse

Ziel: Verwendung historischer oder aktueller Daten, um Muster zu finden und Vorhersagen über die Zukunft zu treffen:

Beschreibung:

  • Die Genauigkeit der Vorhersagen hängt von den Eingangsvariablen ab.
  • Die Genauigkeit hängt auch von der Art des Modells ab, ein lineares Modell kann in manchen Fällen gut funktionieren, aber oft nicht.
  • Die Verwendung einer Variable zur Vorhersage einer anderen bedeutet nicht, dass eine kausale Beziehung besteht.

Beispiel:

Jedes Unternehmen muss regelmäßig Reportings über ihre Finanzen vorlegen, und prädiktive Analysen können eine wichtige Rolle bei der Vorhersage der zukünftigen Entwicklung eines Unternehmens spielen. Anhand historischer Daten aus früheren Jahresabschlüssen sowie Daten aus der gesamten Branche können Sie Verkäufe, Einnahmen und Ausgaben prognostizieren, um sich ein Bild von der Zukunft zu machen und Entscheidungen zu treffen.

Zusammenfassung:

Die Prädiktive Analyse verwendet Daten aus der Vergangenheit und der Gegenwart, um Vorhersagen für die Zukunft zu treffen.

5. Kausalanalyse

Ziel: Untersucht die Ursache und Wirkung von Beziehungen zwischen Variablen, wobei der Schwerpunkt auf der Suche nach der Ursache einer Korrelation liegt.

Beschreibung:

  • Um die Ursache zu finden, muss man hinterfragen, ob die beobachteten Korrelationen, die zu den Schlussfolgerungen führen, gültig sind, da die bloße Betrachtung der Daten (Oberfläche) nicht hilft, die verborgenen Mechanismen zu entdecken, die den Korrelationen zugrunde liegen.
  • Angewandt in randomisierten Studien, die sich auf die Identifizierung von Kausalität konzentrieren
  • der Goldstandard in der Datenanalyse, wissenschaftliche Studien, bei denen die Ursache eines Phänomens extrahiert und herausgefiltert werden soll, so wie man die Spreu vom Weizen trennt

Zusammenfassung:

Bei der Kausalanayse geht es darum, die kausale Beziehung zwischen Variablen herauszufinden, d. h. eine Variable zu ändern und zu beobachten, was mit einer anderen passiert.

6. Mechanistische Analyse

Ziel: Genaues Verständnis der Veränderungen in den Variablen, die zu anderen Veränderungen in anderen Variablen führen

Beschreibung:

  • Angewandt in den Natur- und Ingenieurwissenschaften, in Situationen, die hohe Präzision und wenig Raum für Fehler erfordern (das einzige Rauschen in den Daten ist der Messfehler)
  • Entwickelt, um einen biologischen oder Verhaltensprozess, die Pathophysiologie einer Krankheit oder den Wirkmechanismus einer Intervention zu verstehen.

Beispiel:

Viele Forschungsarbeiten auf Hochschulniveau und komplexe Themen eignen sich als Beispiel, aber um es einfach auszudrücken: Nehmen wir an, es wird ein Experiment durchgeführt, um eine sichere und wirksame Kernfusion zu simulieren, um die Welt mit Energie zu versorgen, dann würde eine mechanistische Analyse der Studie ein präzises Gleichgewicht zwischen der Kontrolle und der Beeinflussung von Variablen mit sehr genauen Messungen beider Variablen und der gewünschten Ergebnisse erfordern. Es ist dieser komplizierte und akribische Modus Operandi (Strategie) für diese großen Themen, der wissenschaftliche Durchbrüche und den Fortschritt der Gesellschaft ermöglicht.

Zusammenfassung:

Mechanistische Analysen sind in gewisser Weise eine prädiktive Analyse, die jedoch modifiziert wurde, um Studien in Angriff zu nehmen, die hohe Präzision und akribische Methoden für die Physik oder die Ingenieurwissenschaften erfordern.

Die Methode der kleinsten Quadrate für die lineare Regression

Wenn wir eine Regressionsgerade an eine Reihe von Punkten anpassen, gehen wir davon aus, dass es eine unbekannte lineare Beziehung zwischen Y und X gibt und dass für jede Erhöhung von X um eine Einheit Y im Durchschnitt um einen bestimmten Betrag zunimmt. Unsere angepasste Regressionslinie ermöglicht es uns, die Reaktion Y für einen bestimmten Wert von X vorherzusagen.

Y = mX + b

Aber für jede spezifische Beobachtung kann der tatsächliche Wert von Y vom vorhergesagten Wert abweichen. Die Abweichungen zwischen dem tatsächlichen und dem vorhergesagten Wert werden als Fehler oder Residuen bezeichnet.

Je besser die Linie zu den Daten passt, desto kleiner sind die Residuen (im Durchschnitt). Wie finden wir die Linie, die am besten zu den Daten passt? Mit anderen Worten, wie bestimmen wir die Werte für den Achsenabschnitt und die Steigung unserer Regressionslinie? Intuitiv würden wir bei der manuellen Anpassung einer Linie an unsere Daten versuchen, eine Linie zu finden, die die Modellfehler insgesamt minimiert. Wenn wir jedoch eine Linie an die Daten anpassen, werden einige der Fehler positiv und einige negativ sein. Mit anderen Worten, einige der tatsächlichen Werte werden größer sein als der vorhergesagte Wert (sie werden oberhalb der Linie liegen), und einige der tatsächlichen Werte werden kleiner sein als die vorhergesagten Werte (sie werden unterhalb der Linie liegen).

Wenn wir alle Fehler zusammenzählen, ist die Summe gleich Null. Wie messen wir also den Gesamtfehler? Wir wenden einen kleinen Trick an: Wir quadrieren die Fehler und finden eine Linie, die diese Summe der quadrierten Fehler minimiert.

Mit dieser Methode, der Methode der kleinsten Quadrate, werden Werte für den Achsenabschnitt und den Steigungskoeffizienten gefunden, die die Summe der quadratischen Fehler minimieren.

Visualisierung der Methode der kleinsten Quadrate

Betrachten wir die Methode der kleinsten Quadrate einmal aus einer anderen Perspektive. Stellen Sie sich vor, dass Sie einige Daten mit Hilfe eines Streudiagramms aufgezeichnet haben und dass Sie eine Linie für den Mittelwert von Y durch die Daten gelegt haben. Wir fixieren diese Linie und bringen Federn zwischen den Datenpunkten und der Linie an.

Einige der Datenpunkte sind weiter von der Mittellinie entfernt, so dass diese Federn stärker gedehnt werden als andere. Die Federn, die am weitesten gedehnt sind, üben die größte Kraft auf die Linie aus.

Was passiert, wenn wir diese Mittellinie lösen und sie frei um den Mittelwert von Y rotieren lassen? Die Kräfte auf die Federn gleichen sich aus und drehen die Linie. Die Linie dreht sich so lange, bis die Gesamtkraft auf die Linie minimiert ist.

Es sind einige interessante physikalische Zusammenhänge im Spiel, die das Verhältnis zwischen Kraft und Energie betreffen, die benötigt wird, um eine Feder über eine bestimmte Strecke zu ziehen. Es stellt sich heraus, dass die Minimierung der Gesamtenergie in den Federn gleichbedeutend ist mit der Anpassung einer Regressionslinie nach der Methode der kleinsten Quadrate.

Partielle Kleinste Quadrate

Die Partielle Kleinste Quadrate Methode ist eine schnelle, effiziente Regressionsmethode auf der Grundlage der Kovarianz. Sie wird in Regressionsfällen empfohlen, in denen die Anzahl der erklärenden Variablen hoch ist und in denen es wahrscheinlich ist, dass die erklärenden Variablen korreliert sind.

Sie gehört zu den Modellen der Kleinsten Quadrate.

Das Ergebnis der Anpassung einer Reihe von Datenpunkten mit einer quadratischen Funktion

Partielle Kleinste Quadrate und Multikollinearität

Das Ziel der linearen Regression ist die Modellierung der Abhängigkeitsbeziehung zwischen einer abhängigen (Ziel-)Variable und mehreren unabhängigen (erklärenden) Variablen. Die Methode der kleinsten Quadrate eignet sich hierfür hervorragend, solange die Annahmen der linearen Regression erfüllt werden.

Das Diagramm zeigt, dass die Prädiktorvariablen, Variable 1 und Variable 2, in einem engen Zusammenhang stehen.

In einigen Bereichen kann es vorkommen, dass Sie viele unabhängige Variablen in Ihrem Modell haben, von denen viele mit anderen unabhängigen Variablen korreliert sind. In diesem Fall können Sie bei der Verwendung der kleinsten Quadrate Methode Probleme bekommen: Sie haben dann Multikollinearität und verletzen damit die Annahmen der linearen Regression.

Exkurs: Multikollinearität liegt immer dann vor, wenn eine unabhängige Variable sta1rk mit einer oder mehreren anderen unabhängigen Variablen in einer multiplen Regressionsgleichung korreliert ist. Multikollinearität ist ein Problem, weil sie die statistische Signifikanz einer unabhängigen Variable untergräbt.

Die Partielle Kleinste Quadrate Regression ist eine Lösung für dieses Problem: Sie ermöglicht es, die Dimensionalität der korrelierten Variablen zu reduzieren und die zugrunde liegende, gemeinsame Information dieser Variablen zu modellieren (sowohl in den abhängigen als auch in den unabhängigen Variablen).

Partielle kleinste Quadrate für multivariate Ergebnisse

Ein zweiter großer Vorteil der Partielle Kleinste Quadrate Regression ist, dass es sich um eine Methode handelt, die mehrere Ergebnisvariablen modellieren kann. Viele Statistik- und Machine Learning-Modelle können nicht direkt mit mehreren Ergebnisvariablen umgehen.

Für diese Modelle können oft Lösungen gefunden werden. Zum Beispiel die Erstellung eines Modells pro Variable. Doch insbesondere für analytische Anwendungsfälle kann es wichtig sein, alles in einem Modell zu behalten, da die Interpretation eines multivariaten Modells sich von der Interpretation vieler univariater Modelle unterscheidet.

Partielle kleinste Quadrate im Vergleich zu anderen Modellen

Sie haben gerade gesehen, dass es zwei Hauptgründe für die Verwendung Partielle Kleinste Quadrate Regression gibt: mehrere abhängige Variablen und viele korrelierte (unabhängige) Variablen.

Es gibt andere Methoden, die Lösungen für diese Probleme vorschlagen.

Partielle Kleinste Quadrate Regression vs. Multivariate multiple Regression

Die multivariate multiple Regression ist das multivariate Gegenstück zur multiplen Regression: Sie modelliert mehrere unabhängige Variablen, um mehrere abhängige Variablen zu erklären.

Obwohl die multivariate multiple Regression in vielen Fällen gut funktioniert, kann sie nicht mit Multikollinearität umgehen. Wenn Ihr Datensatz viele korrelierte Prädiktorvariablen enthält, müssen Sie zur Partielle Kleinste Quadrate Regression übergehen.

Exkurs: Prädiktorvariablen sind Variablen, die verwendet werden, um eine andere Variable oder ein Ergebnis vorherzusagen. Im Gegensatz zu unabhängigen Variablen werden Prädiktorvariablen im Allgemeinen nicht vom Untersucher manipuliert, zeigen nicht an, dass eine Variable eine andere verursacht, und werden in nicht-experimentellen Designs verwendet.

Partielle kleinste Quadrate vs. Hauptkomponenten-Regression

Die Hauptkomponenten-Regression ist eine Methode, die eine alternative Lösung für viele korrelierte unabhängige Variablen bietet. Sie wendet eine Hauptkomponentenanalyse auf die unabhängigen Variablen an, bevor sie in ein Modell mit gewöhnlichen kleinsten Quadraten eingegeben werden.

Sie kann in zwei Schritten durchgeführt werden, indem man eine Hauptkomponenten-Analyse und anschließend eine lineare Regression durchführt, aber es gibt auch Implementierungen, die beide Schritte auf einmal durchführen.

Der Unterschied zwischen der Partielle kleinste Quadrate und der Hauptkomponenten Regression besteht darin, dass sich die Hauptkomponenten-Regression auf die Varianz konzentriert und gleichzeitig die Dimensionalität reduziert. Die Partielle kleinste Quadrate Regression hingegen konzentriert sich auf die Kovarianz bei gleichzeitiger Reduzierung der Dimensionalität.

Bei Partielle kleinste Quadrate Regression werden die identifizierten Komponenten der unabhängigen Variablen so definiert, dass sie mit den identifizierten Komponenten der abhängigen Variablen in Beziehung stehen. Bei der Hauptkomponenten-Regression werden die Komponenten ohne Berücksichtigung der abhängigen Variablen erstellt.

Wenn das Ziel darin besteht, eine Abhängigkeitsbeziehung zwischen abhängigen und unabhängigen Variablen zu finden, ist Partielle kleinste Quadrate Methode im Vorteil.

Partielle kleinste Quadrate vs. Kanonische Korrelationsanalyse

Die kanonische Korrelationsanalyse ist eine statistische Methode, die sich auf die Untersuchung der Korrelation zwischen zwei Datensätzen konzentriert. Dies wird durch eine Verringerung der Dimensionalität der beiden Datensätze erreicht, und es werden die Komponentenpaare gefunden, die die höchste Korrelation aufweisen.

Die Idee der Partielle kleinste Quadrate Methode und der Kanonischen Korrelationsanalyse ist durchaus vergleichbar. Der Hauptunterschied zwischen den Methoden besteht darin, dass sich erstere auf die Kovarianz konzentriert, während die Kanonische Korrelationsanalyse auf die Korrelation abzielt.

Partielle kleinste Quadrate Modelle (PLS-Modelle)

Nachdem wir nun die allgemeinen Gründe für die Verwendung kennengelernt haben, wollen wir nun ein wenig mehr ins Detail gehen.

Innerhalb der Methode gibt es verschiedene Unterkategorien, und die Literatur ist voll von verwirrenden Begriffen und Kategorien. Wir werden nun auf einige Begriffe eingehen, die Ihnen beim Lernen über begegnen werden, und eine Liste der verschiedenen Modelle aufstellen.

Partielle kleinste Quadrate Regression

Das absolut gebräuchlichste Modell der Partiell kleinsten Quadrate Methode ist die Partiell kleinste Quadrate Regression (auch PLS-Regression: Partial Least Squares). Sie ist die Grundlage für die anderen Modelle in der Familie der PLS-Modelle. Da es sich um ein Regressionsmodell handelt, ist es anwendbar, wenn Ihre abhängigen Variablen numerisch sind.

Partielle Kleinste-Quadrate-Diskriminanzanalyse

Die Partielle Kleinste-Quadrate-Diskriminanzanalyse (PLS-DA) ist die Alternative, wenn die abhängigen Variablen kategorial sind. Die Diskriminanzanalyse ist ein Klassifizierungsalgorithmus, und PLS-DA ergänzt ihn um den Teil der Dimensionsreduktion.

PLS1 gegenüber PLS2

In der Literatur und in einigen Softwareimplementierungen wird zwischen PLS1 und PLS2 unterschieden. PLS1 bezieht sich in diesem Fall auf ein PLS-Modell mit nur einer abhängigen Variable, während PLS2 ein Modell mit mehreren abhängigen Variablen bezeichnet.

SIMPLS vs. NIPALS

SIMPLS und NIPALS sind zwei Methoden zur Durchführung von PLS. SIMPLS wurde als schnellere und “einfachere” Alternative zu der früheren Version NIPALS entwickelt. Bei der Durchführung einer PLS ist dies wahrscheinlich nicht so wichtig, da die Ergebnisse beider Methoden recht nahe beieinander liegen werden. Wenn Sie jedoch die Wahl haben, ist es wahrscheinlich am besten, das modernere SIMPLS zu verwenden.

Kernel PLS

Die Partielle Kleinste-Quadrate Methode ist, wie bereits erwähnt, eine Variante der Kleinste-Quadrate-Methode (lineare Regression). Aus diesem Grund kann PLS nicht auf nichtlineare Probleme angewendet werden. Kernel PLS löst dieses Problem und macht Partielle Kleinste-Quadrate für nichtlineare Probleme verfügbar. Kernel PLS passt eine Beziehung zwischen Eingabe- und Ausgabevariablen in einem hochdimensionalen Raum an, so dass der Eingabedatensatz als linear angesehen werden kann.

OPLS

OPLS, kurz für Orthogonale Projekte zu latenten Strukturen (Orthogonal Projects to Latent Structures), wurde als eine Verbesserung der PLS-Methode entwickelt. OPLS verspricht, einfacher zu interpretieren zu sein. Während PLS die Variabilität nur in systemische und Rauschen aufteilt, geht OPLS einen Schritt weiter und teilt die systemische Variabilität in prädiktive und orthogonale Variabilität auf.

Es gibt auch einige Kritiker der OPLS, da beide Methoden bekanntermaßen die gleiche Vorhersageleistung erbringen (man könnte sagen, dass es sich nicht um eine “echte” Verbesserung handelt, wenn sie keine bessere Leistung erbringt) und zweitens die traditionelle PLS schneller ist.

SPLS

SPLS, kurz für Spährliche Partielle Kleinste Quadrate (Sparse Partial Least Squares), ist eine Variante des PLS-Modells. Wie bereits erwähnt, zielt PLS auf eine Dimensionsreduzierung ab: eine große Anzahl korrelierter Variablen wird in eine geringere Anzahl von Komponenten reduziert.

Das Ziel von SPLS ist es, mehr als nur eine Dimensionsreduktion durchzuführen. Darüber hinaus wendet es auch eine Variablenauswahl an. SPLS verwendet die berühmte LASSO-Penalisierung, um die Variablenauswahl sowohl in den X- als auch in den Y-Datensätzen durchzuführen, mit dem Ziel, Komponenten zu erhalten, die leichter zu interpretieren sind.

L-PLS

L-PLS ist eine Variante von PLS, die für einige spezifische Anwendungsfälle eingesetzt werden kann.

Es wird ein neuer Ansatz beschrieben, um Strukturen in einer Datenmatrix Y zu extrahieren und zu visualisieren, und zwar im Lichte zusätzlicher Informationen beide über die Zeilen in Y, die in der Matrix X gegeben sind, und über die Spalten in Y, die in der Matrix Z gegeben sind. Die drei Matrizen Z-Y-X kann man sich als “L-Form” vorstellen; X(I × K) und Z(J × L) haben keine gemeinsame Dimension der Matrixgröße, sind aber über Y(I × J ) verbunden.

Die Idee hinter L-PLS besteht darin, drei Datensätze für ein und dasselbe Regressionsproblem zu verwenden, so dass Sie zusätzliche Daten in den Zeilen und in den Spalten haben. Sie beschreiben diese Situation als Daten in Form eines L, und dies wird durch das L in L-PLS dargestellt.

Diese Methode ist sehr innovativ und es gibt sicherlich Anwendungsfälle dafür. Leider wird sie aufgrund der fehlenden Implementierung in den gängigen Statistikbibliotheken und ihrer sehr spezifischen Anwendung meines Wissens in der Praxis noch nicht viel genutzt.

Ein Leitfaden für Boxplots

Was ist ein Boxplot?

Ein Boxplot (auch Whiskerplot oder Kastengrafik) verwendet Boxen und Linien, um die Verteilungen einer oder mehrerer Gruppen numerischer Daten darzustellen. Die Box-Grenzen geben den Bereich der zentralen 50 % der Daten an, wobei eine zentrale Linie den Medianwert markiert. Die Linien erstrecken sich von jeder Box, um den Bereich der übrigen Daten zu erfassen, wobei Punkte hinter den Linienrändern Ausreißer anzeigen.

Wann Sie ein Box-Diagramm verwenden sollten

Boxplots werden zur Darstellung von Verteilungen mindestens ordinalskalierten Datenwerte verwendet, insbesondere wenn Sie diese zwischen mehreren Gruppen vergleichen möchten. Sie sind so aufgebaut, dass sie auf einen Blick wichtige Informationen über Symmetrie, Schiefe, Varianz und Ausreißer einer Gruppe von Daten liefern. Es ist leicht zu erkennen, wo sich der Hauptteil der Daten befindet, und den Vergleich zwischen verschiedenen Gruppen anzustellen.

Auf der anderen Seite schränkt die Einfachheit eines Boxdiagramms auch die Dichte der Daten ein, die es zeigen kann. Bei einem Box-Diagramm fehlt die Möglichkeit, die detaillierte Form der Verteilung zu beobachten, z. B. ob es Unregelmäßigkeiten in der Modalität der Verteilung (Anzahl der “Buckel” oder Spitzen) und der Schiefe gibt.

Interpretation einer Box und der Whiskers

Die Konstruktion eines Box-Plots basiert auf den Quartilen eines Datensatzes, d. h. den Werten, die den Datensatz in gleiche Viertel unterteilen. Das erste Quartil (Q1) ist größer als 25 % der Daten und kleiner als die anderen 75 %. Das zweite Quartil (Q2) befindet sich in der Mitte und teilt die Daten in zwei Hälften. Q2 wird auch als Median bezeichnet. Das dritte Quartil (Q3) ist größer als 75 % der Daten und kleiner als die restlichen 25 %. In einem Box-and-Whiskers-Diagramm markieren die Enden der Box und ihre Mittellinie die Positionen dieser drei Quartile.

Der Abstand zwischen Q3 und Q1 wird als Interquartilsbereich (IQR) bezeichnet und spielt eine wichtige Rolle bei der Länge der Whiskers, die sich von der Box aus erstrecken. Jeder Whisker erstreckt sich bis zu dem am weitesten entfernten Datenpunkt in jedem Flügel, der innerhalb des 1,5-fachen des IQR liegt. Jeder Datenpunkt, der weiter als dieser Abstand liegt, wird als Ausreißer betrachtet und mit einem Punkt markiert.

Wenn eine Datenverteilung symmetrisch ist, kann man davon ausgehen, dass der Median genau in der Mitte der Box liegt: Der Abstand zwischen Q1 und Q2 sollte genauso groß sein wie der zwischen Q2 und Q3. Ausreißer sollten gleichmäßig auf beiden Seiten der Box vorhanden sein. Bei einer schiefen Verteilung liegt der Median nicht in der Mitte der Box, sondern an der Seite. Sie können auch ein Ungleichgewicht in den Whisker-Längen feststellen, bei dem eine Seite kurz ist und keine Ausreißer enthält, während die andere Seite einen langen Schwanz mit viel mehr Ausreißern aufweist.

Bewährte Verfahren für die Verwendung eines Boxdiagramms

Mehrere Gruppen vergleichen

Boxdiagramme sind am besten geeignet, wenn ein Verteilungsvergleich zwischen Gruppen durchgeführt werden soll. Sie fassen die Daten kompakt zusammen, und es ist einfach, Gruppen anhand der Positionen der Box- und Whisker-Markierungen zu vergleichen.

Es ist weniger einfach, ein Boxplot zu rechtfertigen, wenn nur die Verteilung einer Gruppe dargestellt werden soll. Boxdiagramme bieten nur eine übersichtliche Zusammenfassung der Daten und sind nicht in der Lage, die Details der Form einer Datenverteilung darzustellen. Bei nur einer Gruppe haben wir die Freiheit, einen detaillierteren Diagrammtyp wie ein Histogramm oder eine Dichtekurve zu wählen.

Beachten Sie die Reihenfolge der Gruppen

Wenn die in einem Boxplot dargestellten Gruppen keine inhärente Reihenfolge haben, sollten Sie sie in einer Reihenfolge anordnen, die Muster und Erkenntnisse hervorhebt. Eine gängige Anordnung für Gruppen ist die Sortierung nach dem Medianwert.

Übliche Boxplot-Optionen

Vertikales vs. horizontales Boxplot

Wie in diesem Artikel beschrieben, ist es möglich, ein Boxplot so auszurichten, dass die Boxen vertikal (mit Gruppen auf der horizontalen Achse) oder horizontal (mit vertikal ausgerichteten Gruppen) angeordnet sind. Die horizontale Ausrichtung kann ein nützliches Format sein, wenn viele Gruppen gezeichnet werden sollen oder wenn die Gruppennamen lang sind. Sie ermöglicht auch die Darstellung langer Kategorienamen ohne Drehung oder Abschneiden. Andererseits kann eine vertikale Ausrichtung ein natürlicheres Format sein, wenn die gruppierende Variable auf Zeiteinheiten basiert.

Variable Boxbreite und Kerben

Bestimmte Visualisierungstools enthalten Optionen zur Kodierung zusätzlicher statistischer Informationen in Boxplots. Dies ist nützlich, wenn die gesammelten Daten Stichprobenbeobachtungen aus einer größeren Population darstellen.

Kerben werden verwendet, um die wahrscheinlichsten Werte anzuzeigen, die für den Median erwartet werden, wenn die Daten eine Stichprobe darstellen. Bei einem Vergleich zwischen Gruppen können Sie feststellen, ob die Unterschiede zwischen den Medianen statistisch signifikant sind, wenn sich ihre Bereiche überschneiden. Wenn sich die Bereiche der Kerben überschneiden, kann man nicht sagen, dass sich die Mediane statistisch unterscheiden; wenn sie sich nicht überschneiden, kann man davon ausgehen, dass sich die wahren Mediane unterscheiden.

Die Boxbreite kann als Indikator dafür verwendet werden, wie viele Datenpunkte in jede Gruppe fallen. Die Boxbreite wird häufig mit der Quadratwurzel aus der Anzahl der Datenpunkte skaliert, da die Quadratwurzel proportional zur Unsicherheit (d. h. zum Standardfehler) ist, die wir in Bezug auf die wahren Werte haben. Da die Interpretation der Box-Breite nicht immer intuitiv ist, besteht eine Möglichkeit darin, zu jedem Gruppennamen eine Anmerkung hinzuzufügen, um zu vermerken, wie viele Punkte sich in jeder Gruppe befinden.

Die Boxbreite kann als Indikator dafür verwendet werden, wie viele Datenpunkte für jede Datengruppe aufgezeichnet wurden.

Whisker-Bereich und Ausreißer

Es gibt mehrere Möglichkeiten, die maximale Länge der Whisker zu definieren, die sich von den Enden der Boxen in einem Boxplot erstrecken. Wie bereits erwähnt, werden die Whisker traditionell auf den am weitesten entfernten Datenpunkt innerhalb des 1,5-fachen IQR von jedem Boxende ausgedehnt. Alternativ können Sie die Whisker-Markierungen auch an anderen Perzentilen der Daten platzieren, so wie die Box-Komponenten am 25., 50. und 75.

Zu den üblichen alternativen Whisker-Positionen gehören das 9. und 91. Perzentil oder das 2. und 98. Perzentil. Diese beruhen auf den Eigenschaften der Normalverteilung in Bezug auf die drei zentralen Quartile. Bei der Normalverteilung sollte der Abstand zwischen dem 9. und dem 25. Perzentil (bzw. dem 91. und dem 75. Perzentil) etwa gleich groß sein wie der Abstand zwischen dem 25. und dem 50. Perzentil (bzw. dem 50. und dem 75. Perzentil), während der Abstand zwischen dem 2. und dem 25. Perzentil (bzw. dem 98. und dem 75. Perzentil) etwa gleich groß sein sollte wie der Abstand zwischen dem 25. und dem 75. Perzentil. Perzentil sein sollte. Dies kann helfen, auf einen Blick zu erkennen, ob die Daten symmetrisch oder verzerrt sind.

Whiskerlängen können durch verschiedene Methoden wie Datenperzentile oder ein Vielfaches der Boxlänge definiert werden.

Wenn eine dieser alternativen Whisker-Spezifikationen verwendet wird, ist es ratsam, dies auf oder neben dem Diagramm zu vermerken, um Verwechslungen mit der traditionellen Whisker-Längenformel zu vermeiden.

Zufall und Wahrscheinlichkeit in der Statistik

Zufall ist das Auftreten von Ereignissen ohne offensichtlichen Grund oder Ursache. Es ist einfach die Möglichkeit, dass etwas passiert. Wenn der Zufall in der Mathematik definiert wird, nennt man ihn Wahrscheinlichkeit.

Die Wahrscheinlichkeit ist das Ausmaß, in dem ein Ereignis wahrscheinlich eintritt, gemessen durch das Verhältnis der günstigen Fälle zur Gesamtzahl der möglichen Fälle.

Mathematisch gesehen ist die Wahrscheinlichkeit, dass ein Ereignis eintritt, gleich dem Verhältnis zwischen der Anzahl der für ein bestimmtes Ereignis günstigen Fälle und der Anzahl aller möglichen Fälle.

P(E ) = (Anzahl der Ergebnisse, die für E günstig sind) / (Anzahl aller möglichen Ergebnisse des Experiments)

Die theoretische Wahrscheinlichkeit eines Ereignisses wird als P(E) bezeichnet.

Angenommen, wir nehmen eine Münze und werfen sie. Die Wahrscheinlichkeit, dass sie Kopf anzeigt, ist gleich groß wie die, dass sie Zahl zeigt. In ähnlicher Weise besteht bei jedem dieser Ereignisse die gleiche Wahrscheinlichkeit, dass einer der verschiedenen Fälle eintritt. Beim Würfeln zum Beispiel ist die Wahrscheinlichkeit, alle sechs Zahlen zu erhalten, gleich groß. Wir gehen auch davon aus, dass der Würfel oder die Münze, die wir verwenden, unvoreingenommen und fair sind, d. h. dass sie nicht mit der Absicht manipuliert wurden, ein bestimmtes Ergebnis zu begünstigen.

Alle möglichen Ergebnisse eines Zufallsexperiments zusammengenommen werden als Stichprobenraum bezeichnet.

Die einzelnen möglichen Ergebnisse eines Ereignisses werden als Ergebnis bezeichnet. Wenn ein Ereignis nur ein Ergebnis hat, nennt man es ein Elementarereignis.

Die Summe aller Wahrscheinlichkeiten für jedes Elementarereignis ist 1. Zum Beispiel sind beim Werfen einer Münze die beiden möglichen Ergebnisse Kopf oder Zahl.

P (Kopf) = 0,5

P (Zahl) = 0,5

Die Summe aller möglichen Ergebnisse umfasst nun die Wahrscheinlichkeit für Kopf und die Wahrscheinlichkeit für Zahl.

P (Werfen einer Münze) = P (Kopf) + P (Zahl) = 0,5 + 0,5 = 1

Wenn wir nun die Wahrscheinlichkeit ermitteln müssen, dass ein Ereignis nicht eintritt. Sie wird mit einem Balken über dem E dargestellt. P(E¯) ist die Wahrscheinlichkeit, dass das Ereignis E nicht eintritt, und wird als Komplement des Ereignisses E bezeichnet. Daher können wir sagen, dass E und komplementär sind.

P (E) + P(E¯) = 1

(Hinweis: Aus Formatierungsgründen ist hier ein Minus neben dem E -> in der mathematisch korrekten Schreibweise muss aber der Strich direkt über den Buchstaben.)

Dies bedeutet auch, dass P(E¯) = 1 – P(E)

Die Wahrscheinlichkeit eines unmöglichen Ereignisses ist 0. Man nennt dies ein unmögliches Ereignis.

Die Wahrscheinlichkeit für ein sicheres Ereignis ist 1. Man spricht von einem sicheren Ereignis.

Alle Wahrscheinlichkeiten, die sich auf dasselbe Ereignis beziehen, liegen zwischen 0 und 1.

0 ≤ P(E) ≤ 1

Beispiele für Problemfälle

1. Würfel-Probleme

Finde die Wahrscheinlichkeit, eine rote, blaue und grüne Kugel zu wählen, wenn ein Beutel 5 blaue, 8 rote und 10 grüne Kugeln enthält.

a. Wahrscheinlichkeit der Wahl einer roten Kugel

Mögliche Ergebnisse = 23

Die Wahrscheinlichkeit, dass eine rote Kugel gewählt wird, ist also 8/23.

b. Ebenso ist die Wahrscheinlichkeit, eine grüne Kugel zu wählen, 10/23

c. und die Wahrscheinlichkeit, dass die blaue Kugel gewählt wird, ist 5/23

2. Probleme mit Kartenstapeln

Wenn eine Karte aus einem Kartenspiel gezogen wird, wie groß ist dann die Wahrscheinlichkeit, dass die Karte,

a. Eine Zwei

b. Keine Zwei gezogen wird

I. Es gibt vier 2en in einem Kartenspiel

Somit ist die Gesamtzahl der günstigen Ergebnisse = E = 4

Gesamtzahl der möglichen Ergebnisse = 52

Die Wahrscheinlichkeit, dass eine 2 aus einem Kartenspiel mit 52 Karten gezogen wird, ist also:

P(E) = 4/52 = 1/13

II. T sei das Ereignis “gezogene Karte ist keine 2”.

Somit ist die Wahrscheinlichkeit, eine Karte zu ziehen, die keine 2 ist, = T

T = 52 – 4 = 48

Daraus folgt,

P(T) = 48/52 = 12/13

Eine andere Möglichkeit, die gleiche Lösung zu finden, ist,

P(T) = P(E) – 1 = 1 – 1/13 = 12/13

SQL Überblick

Was ist SQL?

  • SQL steht für Structured Query Language (strukturierte Abfragesprache).
  • Mit SQL können Sie auf Datenbanken zugreifen und diese bearbeiten.
  • SQL wurde 1986 ein Standard des American National Standards Institute (ANSI) und 1987 der International Organization for Standardization (ISO).

Was kann SQL?

  • SQL kann Abfragen an eine Datenbank stellen
  • SQL kann Daten aus einer Datenbank abrufen
  • SQL kann Datensätze in eine Datenbank einfügen
  • SQL kann Datensätze in einer Datenbank aktualisieren
  • SQL kann Datensätze aus einer Datenbank löschen
  • SQL kann neue Datenbanken erstellen
  • SQL kann neue Tabellen in einer Datenbank erstellen
  • SQL kann gespeicherte Prozeduren in einer Datenbank erstellen
  • SQL kann Ansichten in einer Datenbank erstellen
  • SQL kann Berechtigungen für Tabellen, Prozeduren und Ansichten festlegen

SQL ist ein Standard mit vielen Versionen

Obwohl SQL ein ANSI/ISO-Standard ist, gibt es verschiedene Versionen der SQL-Sprache.

Um jedoch dem ANSI-Standard zu entsprechen, unterstützen sie alle zumindest die wichtigsten Befehle (wie SELECT, UPDATE, DELETE, INSERT, WHERE) auf ähnliche Weise.

Hinweis: Die meisten SQL-Datenbankprogramme haben neben dem SQL-Standard auch ihre eigenen proprietären Erweiterungen!

Überblick von ausgewählten SQL-Anweisungen, Schlüsselwörter, Funktionen,Klauseln, Operatoren für BigQuery

 SQL select distinct Statement
 SQL where Klausel
 SQL Operatoren and or und not
 SQL order by schluesselwort
die  SQL insert into Anweisung
die  SQL update Anweisung
 SQL delete Anweisung
die  SQL select limit Klausel
die  SQL Funktionen min und max
die  SQL Funktionen count avg und sum
der  SQL like Operator
der  SQL Operator in
der  SQL between Operator
 SQL group by Anweisung
die  SQL having Klausel
der  SQL exists Operator
die  SQL Anweisung case

Was ist ein Z-Wert?

Der Z-Wert ist eine Teststatistik für Z-Tests, die die Differenz zwischen einer beobachteten Statistik und ihrem hypothetischen Populationsparameter in Einheiten der Standardabweichung misst. Ein Beispiel: Eine Auswahl von Fabrikformen hat eine mittlere Tiefe von 10 cm und eine Standardabweichung von 1 cm. Eine Form mit einer Tiefe von 12 cm hat einen Z-Wert von 2, da ihre Tiefe um zwei Standardabweichungen größer ist als der Mittelwert. Die vertikale Linie stellt diese Beobachtung und ihre Lage in Bezug auf die gesamte Population dar:

Der z-Score für Schüler A betrug 1, was bedeutet, dass Schüler A eine Standardabweichung über dem Mittelwert lag. Somit lag Schüler A im 84,13-Perzentil des SAT-Tests.
Der z-Score für Schüler B betrug 0,6, was bedeutet, dass Schüler B 0,6 Standardabweichungen über dem Mittelwert lag. Somit lag Schüler B im 72,57-Perzentil des SAT-Tests.

Die Umwandlung einer Beobachtung in einen Z-Wert wird als Standardisierung bezeichnet. Zur Standardisierung einer Beobachtung in einer Grundgesamtheit wird der Mittelwert der Grundgesamtheit von der betreffenden Beobachtung abgezogen und das Ergebnis durch die Standardabweichung der Grundgesamtheit dividiert. Das Ergebnis dieser Berechnungen ist der Z-Wert für die betreffende Beobachtung.

Anhand des Z-Werts können Sie feststellen, ob die Nullhypothese abzulehnen ist. Um festzustellen, ob die Nullhypothese abzulehnen ist, vergleichen Sie den Z-Wert mit Ihrem kritischen Wert, der in den meisten Statistikbüchern in einer Standardnormaltabelle zu finden ist. Der kritische Wert ist Z1-α/2 für einen zweiseitigen Test und Z1-α für einen einseitigen Test. Wenn der absolute Wert des Z-Werts größer ist als der kritische Wert, wird die Nullhypothese verworfen. Ist dies nicht der Fall, wird die Nullhypothese nicht zurückgewiesen.

Sie möchten zum Beispiel wissen, ob eine zweite Gruppe von Formen ebenfalls eine mittlere Tiefe von 10 cm aufweist. Sie messen die Tiefe der einzelnen Formen in der zweiten Gruppe und berechnen die mittlere Tiefe der Gruppe. Ein 1-Stichproben-Z-Test berechnet einen Z-Wert von -1,03. Sie wählen ein α von 0,05, was zu einem kritischen Wert von 1,96 führt. Da der absolute Wert des Z-Werts kleiner als 1,96 ist, können Sie die Nullhypothese nicht zurückweisen und nicht zu dem Schluss kommen, dass sich die mittlere Tiefe der Form von 10 cm unterscheidet.

Was ist eine Normalverteilung?

Die Normalverteilung, auch bekannt als Gauß-Verteilung, ist eine Wahrscheinlichkeitsverteilung, die symmetrisch um den Mittelwert ist und zeigt, dass Daten in der Nähe des Mittelwerts häufiger vorkommen als Daten, die weit vom Mittelwert entfernt sind. In grafischer Form wird die Normalverteilung als Glockenkurve dargestellt.


Gut zu wissen

  • Eine Normalverteilung ist die richtige Bezeichnung für eine Wahrscheinlichkeitsglockenkurve.
  • Bei einer Normalverteilung ist der Mittelwert gleich Null und die Standardabweichung gleich 1. Sie hat eine Schiefe von Null und eine Kurtosis von 3.
  • Normalverteilungen sind symmetrisch, aber nicht alle symmetrischen Verteilungen sind normal.
  • In der Realität sind die meisten Verteilungen nicht vollkommen normal.

Verständnis der Normalverteilung

Die Normalverteilung ist der häufigste Verteilungstyp, der in statistischen Analysen angenommen wird. Die Standard-Normalverteilung hat zwei Parameter: den Mittelwert und die Standardabweichung. Bei einer Normalverteilung liegen 68 % der Beobachtungen innerhalb von +/- einer Standardabweichung des Mittelwerts, 95 % liegen innerhalb von +/- zwei Standardabweichungen und 99,7 % innerhalb von +- drei Standardabweichungen.

Das Modell der Normalverteilung wird durch den zentralen Grenzwertsatz begründet. Diese Theorie besagt, dass Durchschnittswerte, die aus unabhängigen, identisch verteilten Zufallsvariablen berechnet werden, annähernd normalverteilt sind, unabhängig von der Art der Verteilung, aus der die Variablen entnommen werden (vorausgesetzt, sie hat eine endliche Varianz). Die Normalverteilung wird manchmal mit der symmetrischen Verteilung verwechselt. Eine symmetrische Verteilung ist eine Verteilung, bei der eine Trennlinie zwei Spiegelbilder erzeugt, aber die tatsächlichen Daten könnten neben der Glockenkurve, die eine Normalverteilung anzeigt, auch zwei Buckel oder eine Reihe von Hügeln aufweisen.

Bei der Normalverteilung machen die Werte, die weniger als eine Standardabweichung vom Mittelwert abweichen, 68,27 % der Menge aus, während zwei Standardabweichungen vom Mittelwert 95,45 % und drei Standardabweichungen 99,73 % ausmachen.