Statistische Signifikanz und Stichprobengröße

Ein Vergleich der statistischen Signifikanz, des Stichprobenumfangs und der erwarteten Auswirkungen ist wichtig, bevor ein Experiment durchgeführt wird.

Eine Power-Analyse wird verwendet, um die Mindeststichprobengröße zu ermitteln, die im Vergleich zum Signifikanzniveau und den erwarteten Auswirkungen erforderlich ist.

Viele Wirkungen wurden aufgrund einer unzureichenden Planung einer Studie und eines zu geringen Stichprobenumfangs verpasst. Auch gegen eine zu große Stichprobe ist nichts einzuwenden, aber oft sind viel Geld und Aufwand erforderlich, um die Stichprobe zu vergrößern, was sich als unnötig erweisen könnte.

Verallgemeinerung


Wenn Sie die Ergebnisse Ihrer Forschung an einer kleinen Stichprobe auf eine ganze Population verallgemeinern wollen, sollte Ihre Stichprobe mindestens so groß sein, dass das Signifikanzniveau angesichts der erwarteten Auswirkungen erreicht werden kann. Die erwarteten Auswirkungen werden häufig anhand von Pilotstudien, dem gesunden Menschenverstand oder durch den Vergleich ähnlicher Experimente ermittelt. Die erwarteten Wirkungen sind möglicherweise nicht ganz korrekt.

Der Vergleich der statistischen Signifikanz und des Stichprobenumfangs wird durchgeführt, um die für die gegebene Stichprobe erzielten Ergebnisse auf die gesamte Population übertragen zu können.

Es ist sinnvoll, dies vor der Durchführung des Experiments zu tun – manchmal stellt man fest, dass man einen viel größeren Stichprobenumfang benötigt, um ein signifikantes Ergebnis zu erhalten, als es machbar ist (was dazu führt, dass man das ganze Verfahren überdenkt).

Verschiedene Experimente haben immer unterschiedliche Stichprobengrößen und Signifikanzniveaus. Die Konzepte sind sehr nützlich bei biologischen, wirtschaftlichen und sozialen Experimenten und bei allen Arten von Verallgemeinerungen, die auf Informationen über eine kleinere Teilmenge basieren.

Power (Teil 1)

Die Ergebnisse Ihres Experiments werden validiert und können nur akzeptiert werden, wenn die Ergebnisse für das jeweilige Experiment einen Signifikanztest bestehen. Der Stichprobenumfang wird anhand der statistischen Aussagekraft angepasst.

Wenn beispielsweise ein Experimentator eine Umfrage unter einer Gruppe von 100 Personen durchführt und auf der Grundlage dieser Daten über die Bundestagswahlen entscheidet, sind die Ergebnisse höchstwahrscheinlich fehlerhaft, da die Grundgesamtheit im Vergleich zur Stichprobengröße sehr groß ist.

Konfidenzniveau

Der Stichprobenumfang hängt von dem Konfidenzintervall und dem Konfidenzniveau ab. Je geringer das erforderliche Konfidenzintervall ist, desto größer muss der Stichprobenumfang sein.

Wenn Sie z. B. 1000 Personen in einer Stadt zu ihrer Wahl des Bürgermeisters befragen, können Ihre Ergebnisse mit einer Genauigkeit von +/- 4 % ausfallen. Wenn Sie das Konfidenzintervall auf +/- 1 % verringern möchten, müssen Sie natürlich mehr Personen befragen, was eine Vergrößerung der Stichprobe bedeutet.

Wenn Sie möchten, dass die Ergebnisse Ihrer Bürgermeisterbefragung ein Konfidenzniveau von 99 % anstelle von 95 % erreichen, müssen Sie eine viel größere Stichprobe von Personen befragen. Das bedeutet, dass die Umfrage eine höhere Aussagekraft benötigt, um eine Hypothese zu bestätigen.

Vergrößerung der Stichprobengröße

Einige Forscher entscheiden sich dafür, ihren Stichprobenumfang zu erhöhen, wenn sie einen Effekt haben, der fast innerhalb des Signifikanzniveaus liegt. Dies geschieht, weil der Forscher vermutet, dass es ihm an Stichproben mangelt, und nicht, dass es keinen Effekt gibt. Diese Methode ist mit Vorsicht zu genießen, da sie die Wahrscheinlichkeit eines falsch positiven Ergebnisses erhöht.

Bei einem höheren Stichprobenumfang sinkt die Wahrscheinlichkeit, dass Fehler vom Typ I und II auftreten, zumindest wenn andere Teile der Studie sorgfältig aufgebaut und Probleme vermieden werden. Ein höherer Stichprobenumfang ermöglicht es dem Forscher, das Signifikanzniveau der Ergebnisse zu erhöhen, da die Sicherheit des Ergebnisses mit einem höheren Stichprobenumfang wahrscheinlich zunimmt. Dies ist zu erwarten, denn je größer die Stichprobe ist, desto genauer dürfte sie das Verhalten der gesamten Gruppe widerspiegeln.

Wenn Sie also Ihre Nullhypothese ablehnen wollen, sollten Sie sicherstellen, dass Ihre Stichprobengröße mindestens der Stichprobengröße entspricht, die für die gewählte statistische Signifikanz und die erwarteten Auswirkungen erforderlich ist.

Signifikanz (p = 0,05)

Lassen Sie uns als nächstes die statistische Signifikanz erörtern, da sie den Eckpfeiler der Inferenzstatistik bildet. Wir werden die Signifikanz im Zusammenhang mit echten Experimenten erörtern, da sie am relevantesten und am leichtesten zu verstehen ist. Ein echtes Experiment wird verwendet, um eine oder mehrere spezifische Hypothesen über die kausale Beziehung zwischen einer oder mehreren Variablen zu testen. Konkret stellen wir die Hypothese auf, dass eine oder mehrere Variablen (d. h. unabhängige Variablen) eine Veränderung in einer anderen Variablen (d. h. abhängigen Variablen) bewirken. Diese Veränderung ist die von uns abgeleitete Kausalität.


Ein Beispiel: Wir wollen die Hypothese testen, dass ein autoritärer Unterrichtsstil bei den Schülern zu höheren Testergebnissen führt. Um diese Hypothese genau zu testen, wählen wir nach dem Zufallsprinzip 2 Gruppen von Schülern aus, die nach dem Zufallsprinzip in eines von zwei Klassenzimmern eingeteilt werden. Ein Klassenzimmer wird von einem autoritären Lehrer und eines von einem autoritären Lehrer unterrichtet. Während des gesamten Halbjahres sammeln wir die Testergebnisse aller Klassenräume. Am Ende des Jahres werden alle Ergebnisse gemittelt, um einen Gesamtdurchschnitt für jede Klasse zu ermitteln.

Nehmen wir an, der Durchschnitt der Testergebnisse in der autoritären Klasse liegt bei 80 %, in der autoritativen Klasse bei 88 %. Es sieht so aus, als ob Ihre Hypothese richtig wäre: Die Schüler, die von der autoritären Lehrkraft unterrichtet wurden, haben im Durchschnitt 8 % mehr Punkte in ihren Tests erzielt als die Schüler, die von der autoritären Lehrkraft unterrichtet wurden. Was aber, wenn wir dieses Experiment 100 Mal durchführen würden, jedes Mal mit anderen Schülergruppen? Wie hoch ist die Wahrscheinlichkeit, dass dieser Effekt des Unterrichtsstils auf die Testergebnisse der Schüler durch Zufall oder eine andere latente (d. h. nicht gemessene) Variable zustande kommt? Und nicht zuletzt: Sind 8 % “hoch genug”, um sich so sehr von 80 % zu unterscheiden?


Nullhypothese: Angenommene Hypothese, die besagt, dass es keine signifikanten Unterschiede zwischen den Gruppen gibt. In unserem Beispiel zum Unterrichtsstil würde die Nullhypothese keine Unterschiede zwischen den Testergebnissen der Schüler je nach Unterrichtsstil vorhersagen.


Alternativ- oder Forschungshypothese: Unsere ursprüngliche Hypothese, die besagt, dass der autoritative Unterrichtsstil die höchsten durchschnittlichen Testergebnisse der Schüler hervorbringt.
Nachdem wir nun die Voraussetzungen geschaffen haben, wollen wir definieren, was ein p-Wert ist und was es bedeutet, dass Ihre Ergebnisse signifikant sind.


Der p-Wert (auch als Alpha bekannt) ist die Wahrscheinlichkeit, dass unsere Nullhypothese wahr ist. Ein signifikantes Ergebnis bedeutet einfach, dass der p-Wert Ihres statistischen Tests gleich oder kleiner als Ihr Alpha-Wert ist, der in den meisten Fällen 0,05 beträgt.


Ein p-Wert von 0,05 ist ein gängiger Standard, der in vielen Forschungsbereichen verwendet wird.
Ein signifikanter p-Wert (d. h. weniger als 0,05) würde bedeuten, dass die Wahrscheinlichkeit, dass Ihre Nullhypothese richtig ist, weniger als 5 % beträgt. Wenn dies der Fall ist, verwerfen wir die Nullhypothese, akzeptieren unsere Alternativhypothese und stellen fest, dass sich die Testergebnisse der Schüler signifikant voneinander unterscheiden.

Beachten Sie, dass wir nicht gesagt haben, dass die unterschiedlichen Unterrichtsstile die signifikanten Unterschiede in den Testergebnissen der Schüler verursacht haben. Der p-Wert sagt uns nur, ob sich die Gruppen voneinander unterscheiden oder nicht. Wir müssen den Schluss ziehen, dass die Lehrmethoden die Unterschiede zwischen den Gruppen beeinflusst haben.


Eine andere Möglichkeit, einen signifikanten p-Wert zu betrachten, besteht darin, die Wahrscheinlichkeit zu berücksichtigen, dass bei einer 100-maligen Durchführung dieses Experiments mindestens fünf Mal die Testergebnisse der Schüler sehr ähnlich ausfallen würden.


Wenn wir unser Alpha auf 0,01 setzen, müsste unser resultierender p-Wert gleich oder kleiner als 0,01 (d. h. 1 %) sein, um unsere Ergebnisse als signifikant zu betrachten. Dies würde natürlich ein strengeres Kriterium darstellen, und wenn wir die Ergebnisse als signifikant einstufen, würden wir zu dem Schluss kommen, dass die Wahrscheinlichkeit, dass die Nullhypothese richtig ist, weniger als 1 % beträgt.

Statistische Power (Teil 2)

Die Stichprobengröße bzw. die Anzahl der Teilnehmer an Ihrer Studie hat einen enormen Einfluss darauf, ob Ihre Ergebnisse signifikant sind oder nicht. Je größer der tatsächliche Unterschied zwischen den Gruppen ist (z. B. die Testergebnisse der Schüler), desto kleiner ist die Stichprobe, die wir benötigen, um einen signifikanten Unterschied zu finden (d. h. p ≤ 0,05). Theoretisch kann man bei den meisten Experimenten einen signifikanten Unterschied feststellen, wenn die Stichprobe groß genug ist. Extrem große Stichproben erfordern jedoch teure Studien und sind äußerst schwierig zu beschaffen.

Fehler vom Typ I (α) oder falsch-positive Ergebnisse, d. h. die Wahrscheinlichkeit, dass ein signifikanter Unterschied zwischen den Gruppen festgestellt wird, obwohl dies in Wirklichkeit nicht der Fall ist. Die Wahrscheinlichkeit, dass wir die Nullhypothese fälschlicherweise ablehnen, liegt bei 5 %.

Fehler vom Typ II (β) oder falsche Negative sind die Wahrscheinlichkeit, dass wir zu dem Schluss kommen, dass sich die Gruppen nicht signifikant unterscheiden, obwohl sie es in Wirklichkeit tun. Wir können die Wahrscheinlichkeit eines Fehlers vom Typ II verringern, indem wir dafür sorgen, dass unser statistischer Test eine angemessene Potenz hat.

Die Aussagekraft ist definiert als 1 – Wahrscheinlichkeit eines Fehlers vom Typ II (β). Mit anderen Worten, sie ist die Wahrscheinlichkeit, einen Unterschied zwischen den Gruppen festzustellen, wenn der Unterschied tatsächlich besteht (d. h. die Wahrscheinlichkeit, die Nullhypothese korrekt zurückzuweisen). Je höher die Aussagekraft eines statistischen Tests ist, desto größer ist seine Fähigkeit, einen signifikanten (d. h. p ≤ 0,05) Unterschied zwischen den Gruppen festzustellen.

Es ist allgemein anerkannt, dass wir eine Aussagekraft von 0,8 oder mehr anstreben sollten.

Dann besteht eine 80 %ige Chance, einen statistisch signifikanten Unterschied zu finden. Allerdings besteht immer noch eine 20-prozentige Chance, keinen tatsächlich signifikanten Unterschied zwischen den Gruppen festzustellen.

Effektgröße

Wenn Sie sich an unser Beispiel für den Unterrichtsstil erinnern, haben wir signifikante Unterschiede zwischen den beiden Gruppen von Lehrern festgestellt. Im autoritären Klassenzimmer lag die durchschnittliche Testpunktzahl bei 80 %, im autoritativen Klassenzimmer bei 88 %. Die Effektgröße versucht, die Frage zu beantworten: “Sind diese Unterschiede groß genug, um trotz ihrer statistischen Signifikanz aussagekräftig zu sein?”.


Die Effektgröße bezieht sich auf das Konzept des “minimal wichtigen Unterschieds”, das besagt, dass ein signifikanter Unterschied (d. h. p≤ 0,05) ab einem bestimmten Punkt so gering ist, dass er in der realen Welt keinen Nutzen mehr bringt. Mit der Effektgröße wird daher versucht festzustellen, ob der 8 %ige Anstieg der Testergebnisse der Schüler zwischen autoritären und autoritären Lehrern groß genug ist, um als signifikant zu gelten oder nicht. Denken Sie daran, dass wir mit klein nicht einen kleinen p-Wert meinen.


Eine andere Art, die Effektgröße zu betrachten, ist das quantitative Maß dafür, wie sehr die IV die DV beeinflusst hat. Eine hohe Effektgröße würde auf ein sehr wichtiges Ergebnis hinweisen, da die Manipulation des IV eine große Wirkung auf den DV hat.


Die Effektgröße wird in der Regel als Cohen’s d ausgedrückt. Cohen beschreibt einen kleinen Effekt = 0,2, eine mittlere Effektgröße = 0,5 und eine große Effektgröße = 0,8.

Effektgröße = ([Mittelwert der Testgruppe] – [Mittelwert der Kontrollgruppe})/Standardabweichung

Kleinere p-Werte (0,05 und darunter) deuten nicht auf große oder wichtige Effekte hin, ebenso wenig wie hohe p-Werte (0,05+) auf eine unbedeutende Bedeutung und/oder kleine Effekte hindeuten. Bei einem ausreichend großen Stichprobenumfang können selbst sehr kleine Effekte signifikante p-Werte (0,05 und darunter) ergeben. Mit anderen Worten: Die statistische Signifikanz untersucht die Wahrscheinlichkeit, dass unsere Ergebnisse auf Zufall beruhen, und die Effektgröße erklärt die Bedeutung unserer Ergebnisse.