Verstehen und Berechnen der Varianz

Die Varianz ist ein Maß für die Variabilität. Sie wird berechnet, indem man den Durchschnitt der quadrierten Abweichungen vom Mittelwert nimmt.

Die Varianz gibt Aufschluss über den Grad der Streuung in Ihrem Datensatz. Je stärker die Daten gestreut sind, desto größer ist die Varianz im Verhältnis zum Mittelwert.

Varianz vs. Standardabweichung

Die Standardabweichung ist von der Varianz abgeleitet und gibt an, wie weit jeder Wert im Durchschnitt vom Mittelwert entfernt ist. Sie ist die Quadratwurzel der Varianz.

Beide Maße spiegeln die Variabilität in einer Verteilung wider, aber ihre Einheiten unterscheiden sich:

  • Die Standardabweichung wird in denselben Einheiten wie die ursprünglichen Werte ausgedrückt (z. B. in Metern).
  • Die Varianz wird in viel größeren Einheiten ausgedrückt (z. B. Meter zum Quadrat).

Da die Einheiten der Varianz viel größer sind als die eines typischen Wertes eines Datensatzes, ist es schwieriger, die Varianzzahl intuitiv zu interpretieren. Aus diesem Grund wird die Standardabweichung oft als Hauptmaß für die Variabilität bevorzugt.

Die Varianz ist jedoch informativer über die Variabilität als die Standardabweichung und wird für statistische Schlussfolgerungen verwendet.

Beispiel für Stichproben aus zwei Populationen mit gleichem Mittelwert, aber unterschiedlichen Varianzen. Die rote Population hat einen Mittelwert von 100 und eine Varianz von 100 (SD=10), während die blaue Population einen Mittelwert von 100 und eine Varianz von 2500 (SD=50) hat.

Schritte zur Berechnung der Varianz

Die Varianz wird normalerweise automatisch von der Software berechnet, die Sie für Ihre statistische Analyse verwenden. Sie können sie aber auch von Hand berechnen, um besser zu verstehen, wie die Formel funktioniert.

Es gibt fünf Hauptschritte, um die Varianz von Hand zu ermitteln. Wir verwenden einen kleinen Datensatz von 6 Werten, um die Schritte zu erläutern.

Data set
466932605241

Schritt 1: Ermitteln des Mittelwerts
Um den Mittelwert zu ermitteln, addieren Sie alle Punkte und teilen Sie sie durch die Anzahl der Punkte.

Mittelwert (x̅)
x̅ = (46 + 69 + 32 + 60 + 52 + 41) ÷ 6 = 50

Schritt 2: Ermitteln Sie die Abweichung der einzelnen Werte vom Mittelwert
Ziehen Sie den Mittelwert von jeder Punktzahl ab, um die Abweichungen vom Mittelwert zu ermitteln.

Da x̅ = 50 ist, ziehst du von jeder Punktzahl 50 ab.

ScoreAbweichung vom Mittelwert
4646 – 50 = -4
6969 – 50 = 19
3232 – 50 = -18
6060 – 50 = 10
5252 – 50 = 2
4141 – 50 = -9

Schritt 3: Quadrieren Sie jede Abweichung vom Mittelwert
Multiplizieren Sie jede Abweichung vom Mittelwert mit sich selbst. Das Ergebnis sind positive Zahlen.

Quadratische Abweichung vom Mittelwert
(-4)2 = 4 × 4 = 16
192 = 19 × 19 = 361
(-18)2 = -18 × -18 = 324
102 = 10 × 10 = 100
22 = 2 × 2 = 4
(-9)2 = -9 × -9 = 81

Schritt 4: Ermitteln der Summe der Quadrate
Addieren Sie alle quadrierten Abweichungen. Dies wird die Summe der Quadrate genannt.

Summe der Quadrate
16 + 361 + 324 + 100 + 4 + 81 = 886

Schritt 5: Teilen Sie die Summe der Quadrate durch n – 1 oder N
Teilen Sie die Summe der Quadrate durch n – 1 (bei einer Stichprobe) oder N (bei einer Grundgesamtheit).

Da wir mit einer Stichprobe arbeiten, verwenden wir n – 1, wobei n = 6 ist.

Varianz
 886 ÷ (6 – 1) = 886 ÷ 5 = 177.2

Warum ist die Varianz wichtig?

Die Varianz ist vor allem aus zwei Gründen wichtig:

  • Parametrische statistische Tests sind empfindlich gegenüber Varianz.
  • Der Vergleich der Varianz von Stichproben hilft bei der Beurteilung von Gruppenunterschieden.

Homogenität der Varianz bei statistischen Tests

Die Varianz ist wichtig, bevor parametrische Tests durchgeführt werden. Diese Tests erfordern gleiche oder ähnliche Varianzen, auch Homogenität der Varianz oder Homoskedastizität genannt, wenn verschiedene Stichproben verglichen werden.

Ungleiche Varianzen zwischen Stichproben führen zu verzerrten und schiefen Testergebnissen. Bei ungleichen Varianzen zwischen Stichproben sind nicht-parametrische Tests besser geeignet.

Verwendung der Varianz zur Bewertung von Gruppenunterschieden

Statistische Tests wie Varianztests oder die Varianzanalyse (ANOVA) verwenden die Stichprobenvarianz, um Gruppenunterschiede zu bewerten. Sie verwenden die Varianzen der Stichproben, um zu beurteilen, ob sich die Populationen, aus denen sie stammen, voneinander unterscheiden.

Beispiel aus der Forschung

Als Bildungsforscher möchten Sie die Hypothese testen, dass unterschiedliche Häufigkeiten von Quizfragen zu unterschiedlichen Endnoten von Studenten führen. Sie erheben die Endnoten von drei Gruppen mit jeweils 20 Studenten, die während eines Semesters häufig, selten oder gar nicht an Tests teilgenommen haben.

  • Probe A: Einmal pro Woche
  • Stichprobe B: Einmal alle 3 Wochen
  • Stichprobe C: Einmal alle 6 Wochen

Um die Gruppenunterschiede zu bewerten, führen Sie eine ANOVA durch.

Der Grundgedanke einer ANOVA besteht darin, die Varianzen zwischen den Gruppen und die Varianzen innerhalb der Gruppen zu vergleichen, um festzustellen, ob die Ergebnisse am besten durch die Gruppenunterschiede oder durch individuelle Unterschiede erklärt werden können.

Wenn die Varianz zwischen den Gruppen höher ist als die Varianz innerhalb der Gruppen, ist es wahrscheinlich, dass sich die Gruppen aufgrund der Behandlung unterscheiden. Ist dies nicht der Fall, können die Ergebnisse stattdessen auf individuelle Unterschiede zwischen den Stichprobenmitgliedern zurückzuführen sein.

Beispiel aus der Forschung

In Ihrer ANOVA wird untersucht, ob die Unterschiede in den mittleren Endnoten zwischen den Gruppen auf die Unterschiede in der Häufigkeit der Tests oder auf die individuellen Unterschiede der Schüler in jeder Gruppe zurückzuführen sind.

Zu diesem Zweck erhalten Sie ein Verhältnis zwischen der Varianz der Endnoten zwischen den Gruppen und der Varianz der Endnoten innerhalb der Gruppen – dies ist die F-Statistik. Bei einer großen F-Statistik ermitteln Sie den entsprechenden p-Wert und schließen daraus, dass sich die Gruppen signifikant voneinander unterscheiden.

Häufig gestellte Fragen zur Varianz

Welches sind die 4 wichtigsten Maße der Variabilität?

Die Variabilität wird am häufigsten mit den folgenden deskriptiven Statistiken gemessen:

  • Spannweite: die Differenz zwischen dem höchsten und dem niedrigsten Wert
  • Interquartilsbereich: der Bereich der mittleren Hälfte einer Verteilung
  • Standardabweichung: durchschnittlicher Abstand vom Mittelwert
  • Varianz: Durchschnitt der quadrierten Abstände vom Mittelwert

Was ist der Unterschied zwischen Standardabweichung und Varianz?

Die Varianz ist die durchschnittliche quadrierte Abweichung vom Mittelwert, während die Standardabweichung die Quadratwurzel aus dieser Zahl ist. Beide Maße spiegeln die Variabilität in einer Verteilung wider, aber ihre Einheiten sind unterschiedlich:

  • Die Standardabweichung wird in denselben Einheiten wie die ursprünglichen Werte ausgedrückt (z. B. in Minuten oder Metern).
  • Die Varianz wird in viel größeren Einheiten ausgedrückt (z. B. Meter zum Quadrat).

Obwohl die Einheiten der Varianz intuitiv schwieriger zu verstehen sind, ist die Varianz bei statistischen Tests wichtig.

Wofür wird die Varianz in der Statistik verwendet?

Statistische Tests wie Varianztests oder die Varianzanalyse (ANOVA) verwenden die Stichprobenvarianz, um Gruppenunterschiede in Populationen zu bewerten. Sie verwenden die Varianzen der Stichproben, um zu beurteilen, ob sich die Populationen, aus denen sie stammen, signifikant voneinander unterscheiden.

Was ist Homoskedastizität?

Homoskedastizität oder Homogenität der Varianzen ist die Annahme gleicher oder ähnlicher Varianzen in verschiedenen zu vergleichenden Gruppen.

Dies ist eine wichtige Voraussetzung für parametrische statistische Tests, da sie auf Ungleichheiten empfindlich reagieren. Ungleiche Varianzen in Stichproben führen zu verzerrten und schiefen Testergebnissen.