Verstehen und Berechnen der Varianz

Zuletzt aktualisiert: Januar 29, 2024

Die Varianz ist ein Konzept aus der Statistik, das uns hilft zu verstehen, wie unterschiedlich die Daten in unserem Datensatz sind.

Stellen Sie sich vor, Sie haben eine Gruppe von Zahlen – die Varianz zeigt Ihnen, wie stark diese Zahlen voneinander abweichen.

Diese Abweichung wird berechnet, indem man die quadrierten Abweichungen jeder einzelnen Zahl vom Durchschnittswert aller Zahlen bildet und daraus wiederum den Durchschnitt berechnet.

Ein höherer Varianzwert bedeutet, dass die Zahlen in Ihrem Datensatz stark variieren, während ein niedrigerer Wert darauf hindeutet, dass die Zahlen ähnlicher sind.

Varianzrechner

Geben Sie bis zu 10.000 Werte ein (getrennt durch Kommas, Leerzeichen oder Zeilenumbrüche):


Varianz vs. Standardabweichung

Die Standardabweichung ist von der Varianz abgeleitet und gibt an, wie weit jeder Wert im Durchschnitt vom Mittelwert entfernt ist. Sie ist die Quadratwurzel der Varianz.

Beide Maße spiegeln die Variabilität in einer Verteilung wider, aber ihre Einheiten unterscheiden sich:

  • Die Standardabweichung wird in denselben Einheiten wie die ursprünglichen Werte ausgedrückt (z. B. in Metern).
  • Die Varianz wird in viel größeren Einheiten ausgedrückt (z. B. Meter zum Quadrat).

Da die Einheiten der Varianz viel größer sind als die eines typischen Wertes eines Datensatzes, ist es schwieriger, die Varianzzahl intuitiv zu interpretieren. Aus diesem Grund wird die Standardabweichung oft als Hauptmaß für die Variabilität bevorzugt.

Die Varianz ist jedoch informativer über die Variabilität als die Standardabweichung und wird für statistische Schlussfolgerungen verwendet.

Beispiel für Stichproben aus zwei Populationen mit gleichem Mittelwert, aber unterschiedlichen Varianzen. Die rote Population hat einen Mittelwert von 100 und eine Varianz von 100 (SD=10), während die blaue Population einen Mittelwert von 100 und eine Varianz von 2500 (SD=50) hat.

Schritte zur Berechnung der Varianz

Die Varianz wird normalerweise automatisch von der Software berechnet, die Sie für Ihre statistische Analyse verwenden. Sie können sie aber auch von Hand berechnen, um besser zu verstehen, wie die Formel funktioniert.

Es gibt fünf Hauptschritte, um die Varianz von Hand zu ermitteln. Wir verwenden einen kleinen Datensatz von 6 Werten, um die Schritte zu erläutern.

Data set
466932605241

Schritt 1: Ermitteln des Mittelwerts
Um den Mittelwert zu ermitteln, addieren Sie alle Punkte und teilen Sie sie durch die Anzahl der Punkte.

Mittelwert (x̅)
x̅ = (46 + 69 + 32 + 60 + 52 + 41) ÷ 6 = 50

Schritt 2: Ermitteln Sie die Abweichung der einzelnen Werte vom Mittelwert
Ziehen Sie den Mittelwert von jeder Punktzahl ab, um die Abweichungen vom Mittelwert zu ermitteln.

Da x̅ = 50 ist, ziehst du von jeder Punktzahl 50 ab.

ScoreAbweichung vom Mittelwert
4646 – 50 = -4
6969 – 50 = 19
3232 – 50 = -18
6060 – 50 = 10
5252 – 50 = 2
4141 – 50 = -9

Schritt 3: Quadrieren Sie jede Abweichung vom Mittelwert
Multiplizieren Sie jede Abweichung vom Mittelwert mit sich selbst. Das Ergebnis sind positive Zahlen.

Quadratische Abweichung vom Mittelwert
(-4)2 = 4 × 4 = 16
192 = 19 × 19 = 361
(-18)2 = -18 × -18 = 324
102 = 10 × 10 = 100
22 = 2 × 2 = 4
(-9)2 = -9 × -9 = 81

Schritt 4: Ermitteln der Summe der Quadrate
Addieren Sie alle quadrierten Abweichungen. Dies wird die Summe der Quadrate genannt.

Summe der Quadrate
16 + 361 + 324 + 100 + 4 + 81 = 886

Schritt 5: Teilen Sie die Summe der Quadrate durch n – 1 oder N
Teilen Sie die Summe der Quadrate durch n – 1 (bei einer Stichprobe) oder N (bei einer Grundgesamtheit).

Da wir mit einer Stichprobe arbeiten, verwenden wir n – 1, wobei n = 6 ist.

Varianz
 886 ÷ (6 – 1) = 886 ÷ 5 = 177.2

Warum ist die Varianz wichtig?

Die Varianz ist vor allem aus zwei Gründen wichtig:

  • Parametrische statistische Tests sind empfindlich gegenüber Varianz.
  • Der Vergleich der Varianz von Stichproben hilft bei der Beurteilung von Gruppenunterschieden.

Homogenität der Varianz bei statistischen Tests

Die Varianz ist wichtig, bevor parametrische Tests durchgeführt werden. Diese Tests erfordern gleiche oder ähnliche Varianzen, auch Homogenität der Varianz oder Homoskedastizität genannt, wenn verschiedene Stichproben verglichen werden.

Ungleiche Varianzen zwischen Stichproben führen zu verzerrten und schiefen Testergebnissen. Bei ungleichen Varianzen zwischen Stichproben sind nicht-parametrische Tests besser geeignet.

Verwendung der Varianz zur Bewertung von Gruppenunterschieden

Statistische Tests wie Varianztests oder die Varianzanalyse (ANOVA) verwenden die Stichprobenvarianz, um Gruppenunterschiede zu bewerten. Sie verwenden die Varianzen der Stichproben, um zu beurteilen, ob sich die Populationen, aus denen sie stammen, voneinander unterscheiden.

Beispiel aus der Forschung

Als Bildungsforscher möchten Sie die Hypothese testen, dass unterschiedliche Häufigkeiten von Quizfragen zu unterschiedlichen Endnoten von Studenten führen. Sie erheben die Endnoten von drei Gruppen mit jeweils 20 Studenten, die während eines Semesters häufig, selten oder gar nicht an Tests teilgenommen haben.

  • Probe A: Einmal pro Woche
  • Stichprobe B: Einmal alle 3 Wochen
  • Stichprobe C: Einmal alle 6 Wochen

Um die Gruppenunterschiede zu bewerten, führen Sie eine ANOVA durch.

Der Grundgedanke einer ANOVA besteht darin, die Varianzen zwischen den Gruppen und die Varianzen innerhalb der Gruppen zu vergleichen, um festzustellen, ob die Ergebnisse am besten durch die Gruppenunterschiede oder durch individuelle Unterschiede erklärt werden können.

Wenn die Varianz zwischen den Gruppen höher ist als die Varianz innerhalb der Gruppen, ist es wahrscheinlich, dass sich die Gruppen aufgrund der Behandlung unterscheiden. Ist dies nicht der Fall, können die Ergebnisse stattdessen auf individuelle Unterschiede zwischen den Stichprobenmitgliedern zurückzuführen sein.

Umgang mit Ausreißern in der statistischen Analyse

Ausreißer – extrem hohe oder niedrige Werte im Datensatz – können die Varianz und somit die Interpretation der Daten erheblich beeinflussen. Ihre Identifikation und adäquate Behandlung ist daher ein wichtiger Schritt in der Datenanalyse.

Identifikation von Ausreißern

  • Visuelle Methoden: Boxplots bieten eine effektive visuelle Methode, um Ausreißer zu erkennen. Werte, die weit außerhalb der “Box” liegen, werden oft als Ausreißer betrachtet.
  • Statistische Tests: Z-Score und der Interquartilsabstand (IQR) sind häufig verwendete Methoden, um Ausreißer zu identifizieren. Ein Z-Score von über 3 oder unter -3 gilt oft als Indikator für einen Ausreißer.

Behandlung von Ausreißern

  • Entfernung: Das Entfernen von Ausreißern sollte mit Vorsicht erfolgen, besonders wenn die Größe des Datensatzes klein ist oder wenn die Ausreißer relevante Informationen enthalten könnten.
  • Anpassung: In einigen Fällen können Ausreißer angepasst werden, falls bekannt ist, dass sie auf Messfehler oder andere korrigierbare Faktoren zurückzuführen sind.
  • Transformation: Daten können transformiert werden, um den Einfluss von Ausreißern zu verringern. Logarithmische oder Wurzeltransformationen sind gängige Methoden.

Robuste Statistiken

  • Verwendung robuster Statistiken: Anstatt der klassischen Varianz kann auf robustere Streuungsmaße zurückgegriffen werden, die weniger empfindlich auf Ausreißer reagieren, wie z.B. die mittlere absolute Abweichung (MAD).

Dokumentation und Analyse

  • Dokumentation: Jeder Schritt im Umgang mit Ausreißern sollte sorgfältig dokumentiert werden, um die Nachvollziehbarkeit und Transparenz der Analyse zu gewährleisten.
  • Sensitivitätsanalyse: Es empfiehlt sich, Sensitivitätsanalysen durchzuführen, um zu verstehen, wie unterschiedliche Methoden der Ausreißerbehandlung die Ergebnisse beeinflussen.

Der sorgfältige Umgang mit Ausreißern ist entscheidend für eine präzise Datenanalyse. Durch die Kombination verschiedener Methoden zur Identifikation und Behandlung von Ausreißern kann die Qualität der statistischen Ergebnisse erheblich verbessert werden.

Häufig gestellte Fragen zur Varianz

Welches sind die 4 wichtigsten Maße der Variabilität?

Die Variabilität wird am häufigsten mit den folgenden deskriptiven Statistiken gemessen:

  • Spannweite: die Differenz zwischen dem höchsten und dem niedrigsten Wert
  • Interquartilsbereich: der Bereich der mittleren Hälfte einer Verteilung
  • Standardabweichung: durchschnittlicher Abstand vom Mittelwert
  • Varianz: Durchschnitt der quadrierten Abstände vom Mittelwert

Was ist der Unterschied zwischen Standardabweichung und Varianz?

Die Varianz ist die durchschnittliche quadrierte Abweichung vom Mittelwert, während die Standardabweichung die Quadratwurzel aus dieser Zahl ist. Beide Maße spiegeln die Variabilität in einer Verteilung wider, aber ihre Einheiten sind unterschiedlich:

  • Die Standardabweichung wird in denselben Einheiten wie die ursprünglichen Werte ausgedrückt (z. B. in Minuten oder Metern).
  • Die Varianz wird in viel größeren Einheiten ausgedrückt (z. B. Meter zum Quadrat).

Obwohl die Einheiten der Varianz intuitiv schwieriger zu verstehen sind, ist die Varianz bei statistischen Tests wichtig.

Wofür wird die Varianz in der Statistik verwendet?

Statistische Tests wie Varianztests oder die Varianzanalyse (ANOVA) verwenden die Stichprobenvarianz, um Gruppenunterschiede in Populationen zu bewerten. Sie verwenden die Varianzen der Stichproben, um zu beurteilen, ob sich die Populationen, aus denen sie stammen, signifikant voneinander unterscheiden.

Was ist Homoskedastizität?

Homoskedastizität oder Homogenität der Varianzen ist die Annahme gleicher oder ähnlicher Varianzen in verschiedenen zu vergleichenden Gruppen.

Dies ist eine wichtige Voraussetzung für parametrische statistische Tests, da sie auf Ungleichheiten empfindlich reagieren. Ungleiche Varianzen in Stichproben führen zu verzerrten und schiefen Testergebnissen.

Was ist die Varianzaufklärung?

Die Varianzaufklärung ist ein statistisches Konzept, das in der Regressionsanalyse verwendet wird, um zu erklären, wie viel der Variabilität in einer abhängigen Variablen durch die Untersuchung von Faktoren erklärt werden kann, die als unabhängige Variablen bezeichnet werden.

Die Varianzaufklärung wird häufig in der Psychologie und anderen Sozialwissenschaften verwendet, um zu untersuchen, wie sehr bestimmte Faktoren die Veränderungen in einer abhängigen Variablen erklären können. Zum Beispiel könnte ein Psychologe die Varianzaufklärung verwenden, um zu untersuchen, wie sehr Alter, Geschlecht und Bildungsstand die Scores auf einem Intelligenztest erklären können.

Die Varianzaufklärung wird in der Regel durch die Berechnung der Varianz erklärt, die durch die unabhängigen Variablen erklärt wird, im Vergleich zur Varianz insgesamt. Dies wird als Varianzaufklärungsmaß (englisch: coefficient of determination) bezeichnet und wird häufig als R-Quadrat bezeichnet. Je höher das R-Quadrat ist, desto mehr der Variabilität in der abhängigen Variablen kann durch die unabhängigen Variablen erklärt werden.

Es ist wichtig zu beachten, dass die Varianzaufklärung nur ein Maß dafür ist, wie gut die unabhängigen Variablen die Variabilität in der abhängigen Variablen erklären können. Sie gibt keine Aussage darüber ab, ob die unabhängigen Variablen tatsächlich einen Einfluss auf die abhängige Variablen haben oder ob es sich um einen Zufall handelt.

Insgesamt ist die Varianzaufklärung ein wichtiges Konzept in der Statistik, da es hilft, die Streuung von Werten in einer abhängigen Variablen zu verstehen und zu erklären, wie sehr diese Streuung durch unabhängige Variablen beeinflusst wird. Es ist ein nützliches Werkzeug für die Erforschung von Zusammenhängen zwischen Variablen und hilft, bessere Vorhersagen über zukünftige Ergebnisse zu treffen.

Es ist wichtig zu beachten, dass die Varianzaufklärung nur ein Maß der Erklärungskraft ist und keine definitive Aussage darüber trifft, ob ein Zusammenhang zwischen den Variablen tatsächlich existiert. Um dies zu bestimmen, müssen weitere Analysen durchgeführt werden, wie zum Beispiel hypothesis Tests.

Insgesamt ist die Varianzaufklärung ein wichtiges Werkzeug in der Statistik, das verwendet wird, um die Streuung von Werten in einer abhängigen Variablen zu verstehen und zu erklären, wie sehr diese Streuung durch unabhängige Variablen beeinflusst wird. Es hilft bei der Erforschung von Zusammenhängen zwischen Variablen und trägt zu besseren Vorhersagen über zukünftige Ergebnisse bei.