Schiefe in der Statistik

In der Wahrscheinlichkeitstheorie und Statistik ist die Schiefe ein Maß für die Asymmetrie der Wahrscheinlichkeitsverteilung einer reellen Zufallsvariablen um ihren Mittelwert. Der Wert der Schiefe kann positiv, null, negativ oder undefiniert sein.

Bei einer unimodalen Verteilung zeigt eine negative Schiefe im Allgemeinen an, dass sich der Schwanz auf der linken Seite der Verteilung befindet, und eine positive Schiefe zeigt an, dass sich der Schwanz auf der rechten Seite befindet. In Fällen, in denen ein Schwanz lang, der andere aber dick ist, folgt die Schiefe keiner einfachen Regel. Ein Wert von Null bedeutet beispielsweise, dass sich die Ausläufer auf beiden Seiten des Mittelwerts insgesamt ausgleichen; dies ist bei einer symmetrischen Verteilung der Fall, kann aber auch bei einer asymmetrischen Verteilung zutreffen, bei der ein Ausläufer lang und dünn und der andere kurz, aber dick ist.

Betrachten Sie die beiden Verteilungen in der Abbildung. In jedem Diagramm fallen die Werte auf der rechten Seite der Verteilung anders als die Werte auf der linken Seite. Diese fallenden Seiten werden als Schwänze bezeichnet und bieten ein visuelles Mittel, um zu bestimmen, welche der beiden Arten von Schiefe eine Verteilung aufweist:

  • Negative Schiefe: Der linke Schwanz ist länger; die Masse der Verteilung ist auf der rechten Seite der Abbildung konzentriert. Man spricht von einer linksschiefen Verteilung, obwohl die Kurve selbst schief oder nach rechts geneigt zu sein scheint; links bezieht sich stattdessen darauf, dass der linke Schwanz herausgezogen ist und der Mittelwert oft links von einer typischen Mitte der Daten schief ist. Eine linksschiefe Verteilung erscheint in der Regel als eine nach rechts geneigte Kurve.
  • positive Schiefe: Der rechte Schwanz ist länger; die Masse der Verteilung ist auf der linken Seite der Abbildung konzentriert. Die Verteilung wird als rechtsschief, rechtsspitz oder rechtsschief bezeichnet, obwohl die Kurve selbst schief oder nach links geneigt zu sein scheint; rechts bezieht sich stattdessen darauf, dass der rechte Schwanz herausgezogen ist und der Mittelwert oft rechts von einer typischen Mitte der Daten schief ist. Eine rechtsschiefe Verteilung erscheint normalerweise als eine nach links geneigte Kurve.

Die Schiefe einer Datenreihe lässt sich manchmal nicht nur grafisch, sondern auch durch einfache Betrachtung der Werte feststellen. Nehmen wir zum Beispiel die Zahlenfolge (49, 50, 51), deren Werte gleichmäßig um einen zentralen Wert von 50 verteilt sind. Wir können diese Folge in eine negativ verzerrte Verteilung umwandeln, indem wir einen Wert weit unter dem Mittelwert hinzufügen, der wahrscheinlich ein negativer Ausreißer ist, z. B. (40, 49, 50, 51). Der Mittelwert der Folge ist dann 47,5 und der Median 49,5. Nach der Formel der nichtparametrischen Schiefe, definiert als as (\mu -\nu )/\sigma , , ist die Schiefe negativ. In ähnlicher Weise kann man die Folge positiv schief machen, indem man einen Wert weit über dem Mittelwert hinzufügt, der wahrscheinlich ein positiver Ausreißer ist, z. B. (49, 50, 51, 60), wo der Mittelwert 52,5 und der Median 50,5 beträgt.

Wie bereits erwähnt, bedeutet eine unimodale Verteilung mit einem Wert von Null für die Schiefe nicht, dass diese Verteilung unbedingt symmetrisch ist. Allerdings hat eine symmetrische unimodale oder multimodale Verteilung immer eine Schiefe von Null.

Anwendungen

Die Schiefe ist eine deskriptive Statistik, die in Verbindung mit dem Histogramm und der Normalquantil-Darstellung zur Charakterisierung der Daten oder der Verteilung verwendet werden kann.

Die Schiefe gibt die Richtung und das relative Ausmaß der Abweichung einer Verteilung von der Normalverteilung an.

Bei ausgeprägter Schiefe sind statistische Standardschlussfolgerungen, wie z. B. ein Konfidenzintervall für einen Mittelwert, nicht nur in dem Sinne falsch, dass der tatsächliche Abdeckungsgrad vom nominalen Niveau (z. B. 95 %) abweicht, sondern sie führen auch zu ungleichen Fehlerwahrscheinlichkeiten auf beiden Seiten.

Die Schiefe kann verwendet werden, um über die Cornish-Fisher-Erweiterung Näherungswahrscheinlichkeiten und Quantile von Verteilungen zu erhalten.

Viele Modelle gehen von einer Normalverteilung aus, d. h. die Daten sind symmetrisch um den Mittelwert. Die Normalverteilung hat eine Schiefe von Null. In der Realität sind die Datenpunkte jedoch möglicherweise nicht vollkommen symmetrisch. Die Kenntnis der Schiefe des Datensatzes gibt also Aufschluss darüber, ob die Abweichungen vom Mittelwert positiv oder negativ sein werden.

Der K-Quadrat-Test von D’Agostino ist ein Normalitätstest, der auf der Schiefe der Stichprobe und der Wölbung der Stichprobe basiert.