Interquartilsabstand

Der Interquartilsabstand (IQR) in der Statistik zeigt, wie weit die Daten gestreut sind. Er sagt aus, wie groß der Bereich ist, in dem sich die mittleren 50 % der Daten befinden.

Manchmal wird der IQR auch als H-Streuung oder als mittlere Streuung bezeichnet. Wie groß der IQR ist, lässt sich durch die Differenz zwischen dem 25. und dem 75. Perzentil genau bestimmen. Um den IQR zu ermitteln, muss der Datensatz in vier quartalsmäßige Teile unterteilt werden. Dabei wird eine lineare Interpolation verwendet und die Quartile werden nach ihrer Rangfolge sortiert. Diese Viertel werden mit Q1 (auch “unteres Viertel” genannt), Q2 (Median) und Q3 (auch “oberes Viertel” genannt) bezeichnet. Das untere Viertel entspricht dem 25. Perzentil und das obere Viertel dem 75. Perzentil. Der Interquartilsabstand (IQR) berechnet sich als Differenz zwischen Q3 und Q1.

Der IQR ist ein Beispiel für eine reduzierte Schätzungsmethode, die auf einem ausgeschlossenen Bereich von 25 % basiert. Dadurch können Abweichungen mit geringerem Beitrag bei der statistischen Analyse von Datensätzen korrigiert werden. Er kann auch als einfaches Maß für die Skala genutzt werden. Mithilfe der Box in einem Box-Plot wird er anschaulich dargestellt.

Boxplot (mit Interquartilsbereich) und eine Wahrscheinlichkeitsdichtefunktion (pdf) einer normalen N(0,σ2) Population

Inhalt

Berechnung

Um den IQR zu berechnen, führen Sie die folgenden Schritte aus:

  1. Sortieren Sie die Daten: Ordnen Sie die Werte in Ihrem Datensatz in aufsteigender Reihenfolge an.
  2. Finden Sie das erste Quartil (Q1): Um Q1 zu berechnen, identifizieren Sie den Wert, der genau 25% der Daten unter sich hat. Wenn die Anzahl der Datenpunkte in Ihrem Datensatz (n) ungerade ist, können Sie Q1 als den Wert an der Position (n + 1) / 4 ermitteln. Ist die Anzahl der Datenpunkte gerade, berechnen Sie Q1 als den Durchschnitt der beiden Werte an den Positionen n / 4 und n / 4 + 1.
  3. Finden Sie das dritte Quartil (Q3): Q3 ist der Wert, der genau 75% der Daten unter sich hat. Analog zu Q1 ermitteln Sie Q3 als den Wert an der Position (3 * n + 1) / 4, wenn die Anzahl der Datenpunkte ungerade ist, und als den Durchschnitt der beiden Werte an den Positionen 3 * n / 4 und 3 * n / 4 + 1, wenn die Anzahl der Datenpunkte gerade ist.
  4. Berechnen Sie den Interquartilsabstand (IQR): Um den IQR zu berechnen, ziehen Sie einfach Q1 von Q3 ab: IQR = Q3 – Q1.

Interquartilsabstand-Rechner

Geben Sie bis zu 10000 Werte ein, getrennt durch Komma, Leerzeichen oder Zeilenumbrüche:

Erstes Quartil: Q1 =

Drittes Quartil: Q3 =

Interquartilbereich: IQR = Q3 – Q1 =

Verwendung

Der IQR wird in erster Linie verwendet, um die Differenz zwischen dem oberen und dem unteren Quartil eines Datensatzes darzustellen. Dies kann als Indikator für die Variabilität des Datensatzes verwendet werden.

Sie wird auch zur Erstellung von Boxplots verwendet, die eine grafische Darstellung der Wahrscheinlichkeitsverteilung sind. Im Boxplot ist der IQR die Höhe der Box selbst, und die Whisker haben eine Länge von 1,5*IQR. Jeder Datenpunkt, der außerhalb der Whisker liegt, wird als Ausreißer bezeichnet.

Der IQR wird häufig als bevorzugtes Maß für die Variabilität gegenüber der Gesamtspanne oder der absoluten Medianabweichung verwendet, da er einen niedrigeren Durchbruchspunkt hat: 25 % im Vergleich zu 50 % bei der MAD.

Der IQR wurde in einer Reihe neuerer Studien praktisch verwendet. Einige dieser Verwendungen sind:

  • Stichproben für die Erkundung des Designraums
  • Vorhersage von Aktienrenditen
  • Bildentrauschung

Diskrete Variablen

Der IQR einer Reihe von Werten wird als Differenz zwischen dem oberen und dem unteren Quartil, Q3 und Q1, berechnet. Jedes Quartil ist ein Median, der wie folgt berechnet wird.

Gegeben eine gerade 2n oder ungerade 2n+1 Anzahl von Werten:

  • erstes Quartil Q1 = Median der n kleinsten Werte;
  • drittes Quartil Q3 = Median der n größten Werte.

Das zweite Quartil Q2 ist dasselbe wie der gewöhnliche Median.[10]

Kontinuierliche Variablen

Der Interquartilsbereich einer kontinuierlichen Verteilung kann durch Integration der Wahrscheinlichkeitsdichtefunktion über bestimmte Intervalle berechnet werden. Das untere Quartil, Q1, ist eine Zahl, bei der das Integral der PDF von -∞ bis Q1 gleich 0,25 ist, während das obere Quartil, Q3, eine solche Zahl ist, dass das Integral von -∞ bis Q3 gleich 0,75 ist.

In Bezug auf die CDF können die Quartile wie folgt definiert werden: wobei CDF-1 die Quantilfunktion ist.

Datensatz in einer Tabelle

Die folgende Tabelle hat 13 Zeilen und entspricht den Regeln für eine ungerade Anzahl von Einträgen.

Für die Daten in dieser Tabelle ist der Interquartilsbereich IQR = Q3 – Q1 = 119 – 31 = 88.

Datensatz in einem Boxplot

                    
                             +−−−−−+−+     
               * |−−−−−−−−−−−|     | |−−−−−−−−−−−|
                             +−−−−−+−+    
                    
 +−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+   number line
 0   1   2   3   4   5   6   7   8   9   10  11  12

Für den Datensatz in diesem Boxplot:

  • unteres (erstes) Quartil Q1 = 7
  • Median (zweites Quartil) Q2 = 8,5
  • oberes (drittes) Quartil Q3 = 9
  • Interquartilsabstand (IQR) = Q3 – Q1 = 2
  • unterer 1,5*IQR-Whisker = Q1 – 1,5 * IQR = 7 – 3 = 4. (Wenn es keinen Datenpunkt bei 4 gibt, dann ist der niedrigste Punkt größer als 4).
  • oberer 1,5*IQR-Whisker = Q3 + 1,5 * IQR = 9 + 3 = 12. (Wenn es keinen Datenpunkt bei 12 gibt, dann ist der höchste Punkt kleiner als 12.)

Das bedeutet, dass die 1,5*IQR-Whisker ungleich lang sein können. Der Median, das Minimum, das Maximum sowie das erste und dritte Quartil bilden die Fünf-Zahlen-Zusammenfassung.

Warum ist der Interquartilsabstand robuster als die Standardabweichung?

Der Interquartilsabstand ist im Vergleich zur Standardabweichung robuster, da er weniger von Ausreißern beeinflusst wird. Ausreißer sind extrem hohe oder niedrige Werte, die die Verteilung der Daten verzerren können. Da der Interquartilsabstand nur die Streuung der mittleren 50 % der Datenpunkte misst, werden Ausreißer nicht berücksichtigt und der Interquartilsabstand bleibt unbeeinflusst. Die Standardabweichung hingegen berücksichtigt alle Datenpunkte, einschließlich der Ausreißer, wodurch sie anfälliger für Verzerrungen durch extrem hohe oder niedrige Werte ist.

Insgesamt liefert der Interquartilsabstand weniger detaillierte Informationen über die Verteilung der Daten als die Standardabweichung, da er nur die Streuung der mittleren 50 % der Datenpunkte misst. Allerdings ist er einfacher zu berechnen und weniger anfällig für Verzerrungen durch Ausreißer, weshalb er in vielen Fällen als robuster betrachtet wird.