Interquartilsabstand

In der deskriptiven Statistik ist der Interquartilsbereich (IQR) ein Maß für die statistische Streuung, d. h. für die Streuung der Daten. Der IQR kann auch als mittlere Streuung, mittlere 50 % oder H-Streuung bezeichnet werden. Sie ist definiert als die Differenz zwischen dem 75. und dem 25. Perzentil der Daten. Zur Berechnung der IQR wird der Datensatz durch lineare Interpolation in Quartile, d. h. in vier nach Rangfolge geordnete gerade Teile, unterteilt. Diese Quartile werden mit Q1 (auch unteres Quartil genannt), Q2 (Median) und Q3 (auch oberes Quartil genannt) bezeichnet. Das untere Quartil entspricht dem 25. Perzentil und das obere Quartil dem 75. Perzentil, also IQR = Q3 – Q1.

Der IQR ist ein Beispiel für einen getrimmten Schätzer, definiert als der getrimmte Bereich von 25 %, der die Genauigkeit von Datensatzstatistiken verbessert, indem er abweichende Punkte mit geringerem Beitrag ausschließt. Er wird auch als robustes Maß für die Skala verwendet. Er kann durch die Box in einem Box-Plot deutlich visualisiert werden.

Boxplot (mit Interquartilsbereich) und eine Wahrscheinlichkeitsdichtefunktion (pdf) einer normalen N(0,σ2) Population

Verwendung

Der IQR wird in erster Linie verwendet, um die Differenz zwischen dem oberen und dem unteren Quartil eines Datensatzes darzustellen. Dies kann als Indikator für die Variabilität des Datensatzes verwendet werden.

Sie wird auch zur Erstellung von Boxplots verwendet, die eine grafische Darstellung der Wahrscheinlichkeitsverteilung sind. Im Boxplot ist der IQR die Höhe der Box selbst, und die Whisker haben eine Länge von 1,5*IQR. Jeder Datenpunkt, der außerhalb der Whisker liegt, wird als Ausreißer bezeichnet.

Der IQR wird häufig als bevorzugtes Maß für die Variabilität gegenüber der Gesamtspanne oder der absoluten Medianabweichung verwendet, da er einen niedrigeren Durchbruchspunkt hat: 25 % im Vergleich zu 50 % bei der MAD.

Der IQR wurde in einer Reihe neuerer Studien praktisch verwendet. Einige dieser Verwendungen sind:

  • Stichproben für die Erkundung des Designraums
  • Vorhersage von Aktienrenditen
  • Bildentrauschung

Diskrete Variablen

Der IQR einer Reihe von Werten wird als Differenz zwischen dem oberen und dem unteren Quartil, Q3 und Q1, berechnet. Jedes Quartil ist ein Median, der wie folgt berechnet wird.

Gegeben eine gerade 2n oder ungerade 2n+1 Anzahl von Werten:

  • erstes Quartil Q1 = Median der n kleinsten Werte;
  • drittes Quartil Q3 = Median der n größten Werte.

Das zweite Quartil Q2 ist dasselbe wie der gewöhnliche Median.[10]

Kontinuierliche Variablen

Der Interquartilsbereich einer kontinuierlichen Verteilung kann durch Integration der Wahrscheinlichkeitsdichtefunktion über bestimmte Intervalle berechnet werden. Das untere Quartil, Q1, ist eine Zahl, bei der das Integral der PDF von -∞ bis Q1 gleich 0,25 ist, während das obere Quartil, Q3, eine solche Zahl ist, dass das Integral von -∞ bis Q3 gleich 0,75 ist.

In Bezug auf die CDF können die Quartile wie folgt definiert werden: wobei CDF-1 die Quantilfunktion ist.

Datensatz in einer Tabelle

Die folgende Tabelle hat 13 Zeilen und entspricht den Regeln für eine ungerade Anzahl von Einträgen.

Für die Daten in dieser Tabelle ist der Interquartilsbereich IQR = Q3 – Q1 = 119 – 31 = 88.

Datensatz in einem Boxplot

                    
                             +−−−−−+−+     
               * |−−−−−−−−−−−|     | |−−−−−−−−−−−|
                             +−−−−−+−+    
                    
 +−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+   number line
 0   1   2   3   4   5   6   7   8   9   10  11  12

Für den Datensatz in diesem Boxplot:

  • unteres (erstes) Quartil Q1 = 7
  • Median (zweites Quartil) Q2 = 8,5
  • oberes (drittes) Quartil Q3 = 9
  • Interquartilsabstand (IQR) = Q3 – Q1 = 2
  • unterer 1,5*IQR-Whisker = Q1 – 1,5 * IQR = 7 – 3 = 4. (Wenn es keinen Datenpunkt bei 4 gibt, dann ist der niedrigste Punkt größer als 4).
  • oberer 1,5*IQR-Whisker = Q3 + 1,5 * IQR = 9 + 3 = 12. (Wenn es keinen Datenpunkt bei 12 gibt, dann ist der höchste Punkt kleiner als 12.)

Das bedeutet, dass die 1,5*IQR-Whisker ungleich lang sein können. Der Median, das Minimum, das Maximum sowie das erste und dritte Quartil bilden die Fünf-Zahlen-Zusammenfassung.