Ein Leitfaden für Boxplots - Martin Grellmann

Ein Boxplot (auch Whiskerplot oder Kastengrafik) verwendet Boxen und Linien, um die Verteilungen einer oder mehrerer Gruppen numerischer Daten darzustellen. Die Box-Grenzen geben den Bereich der zentralen 50 % der Daten an, wobei eine zentrale Linie den Medianwert markiert. Die Linien erstrecken sich von jeder Box, um den Bereich der übrigen Daten zu erfassen, wobei Punkte hinter den Linienrändern Ausreißer anzeigen.

Inhaltsverzeichnis

Wann Sie ein Box-Diagramm verwenden sollten
Interpretation einer Box und der Whiskers
Bewährte Verfahren für die Verwendung eines Boxdiagramms
- Mehrere Gruppen vergleichen
- Beachten Sie die Reihenfolge der Gruppen
Übliche Boxplot-Optionen
- Vertikales vs. horizontales Boxplot
Variable Boxbreite und Kerben
Whisker-Bereich und Ausreißer
Vergleich von Boxplots mit anderen Visualisierungstechniken

Boxplot-Rechner/Visualisierer

Geben Sie bis zu 10.000 Werte ein (getrennt durch Kommas, Leerzeichen oder Zeilenumbrüche):

Wann Sie ein Box-Diagramm verwenden sollten

Boxplots werden zur Darstellung von Verteilungen mindestens ordinalskalierten Datenwerte verwendet, insbesondere wenn Sie diese zwischen mehreren Gruppen vergleichen möchten. Sie sind so aufgebaut, dass sie auf einen Blick wichtige Informationen über Symmetrie, Schiefe, Varianz und Ausreißer einer Gruppe von Daten liefern. Es ist leicht zu erkennen, wo sich der Hauptteil der Daten befindet, und den Vergleich zwischen verschiedenen Gruppen anzustellen.

Auf der anderen Seite schränkt die Einfachheit eines Boxdiagramms auch die Dichte der Daten ein, die es zeigen kann. Bei einem Box-Diagramm fehlt die Möglichkeit, die detaillierte Form der Verteilung zu beobachten, z. B. ob es Unregelmäßigkeiten in der Modalität der Verteilung (Anzahl der “Buckel” oder Spitzen) und der Schiefe gibt.

Interpretation einer Box und der Whiskers

Die Konstruktion eines Box-Plots basiert auf den Quartilen eines Datensatzes, d. h. den Werten, die den Datensatz in gleiche Viertel unterteilen. Das erste Quartil (Q1) ist größer als 25 % der Daten und kleiner als die anderen 75 %. Das zweite Quartil (Q2) befindet sich in der Mitte und teilt die Daten in zwei Hälften. Q2 wird auch als Median bezeichnet. Das dritte Quartil (Q3) ist größer als 75 % der Daten und kleiner als die restlichen 25 %. In einem Box-and-Whiskers-Diagramm markieren die Enden der Box und ihre Mittellinie die Positionen dieser drei Quartile.

Der Abstand zwischen Q3 und Q1 wird als Interquartilsbereich (IQR) bezeichnet und spielt eine wichtige Rolle bei der Länge der Whiskers, die sich von der Box aus erstrecken. Jeder Whisker erstreckt sich bis zu dem am weitesten entfernten Datenpunkt in jedem Flügel, der innerhalb des 1,5-fachen des IQR liegt. Jeder Datenpunkt, der weiter als dieser Abstand liegt, wird als Ausreißer betrachtet und mit einem Punkt markiert.

Wenn eine Datenverteilung symmetrisch ist, kann man davon ausgehen, dass der Median genau in der Mitte der Box liegt: Der Abstand zwischen Q1 und Q2 sollte genauso groß sein wie der zwischen Q2 und Q3. Ausreißer sollten gleichmäßig auf beiden Seiten der Box vorhanden sein. Bei einer schiefen Verteilung liegt der Median nicht in der Mitte der Box, sondern an der Seite. Sie können auch ein Ungleichgewicht in den Whisker-Längen feststellen, bei dem eine Seite kurz ist und keine Ausreißer enthält, während die andere Seite einen langen Schwanz mit viel mehr Ausreißern aufweist.

Bewährte Verfahren für die Verwendung eines Boxdiagramms

Mehrere Gruppen vergleichen

Boxdiagramme sind am besten geeignet, wenn ein Verteilungsvergleich zwischen Gruppen durchgeführt werden soll. Sie fassen die Daten kompakt zusammen, und es ist einfach, Gruppen anhand der Positionen der Box- und Whisker-Markierungen zu vergleichen.

Es ist weniger einfach, ein Boxplot zu rechtfertigen, wenn nur die Verteilung einer Gruppe dargestellt werden soll. Boxdiagramme bieten nur eine übersichtliche Zusammenfassung der Daten und sind nicht in der Lage, die Details der Form einer Datenverteilung darzustellen. Bei nur einer Gruppe haben wir die Freiheit, einen detaillierteren Diagrammtyp wie ein Histogramm oder eine Dichtekurve zu wählen.

Beachten Sie die Reihenfolge der Gruppen

Wenn die in einem Boxplot dargestellten Gruppen keine inhärente Reihenfolge haben, sollten Sie sie in einer Reihenfolge anordnen, die Muster und Erkenntnisse hervorhebt. Eine gängige Anordnung für Gruppen ist die Sortierung nach dem Medianwert.

Übliche Boxplot-Optionen

Vertikales vs. horizontales Boxplot

Wie in diesem Artikel beschrieben, ist es möglich, ein Boxplot so auszurichten, dass die Boxen vertikal (mit Gruppen auf der horizontalen Achse) oder horizontal (mit vertikal ausgerichteten Gruppen) angeordnet sind. Die horizontale Ausrichtung kann ein nützliches Format sein, wenn viele Gruppen gezeichnet werden sollen oder wenn die Gruppennamen lang sind. Sie ermöglicht auch die Darstellung langer Kategorienamen ohne Drehung oder Abschneiden. Andererseits kann eine vertikale Ausrichtung ein natürlicheres Format sein, wenn die gruppierende Variable auf Zeiteinheiten basiert.

Variable Boxbreite und Kerben

Bestimmte Visualisierungstools enthalten Optionen zur Kodierung zusätzlicher statistischer Informationen in Boxplots. Dies ist nützlich, wenn die gesammelten Daten Stichprobenbeobachtungen aus einer größeren Population darstellen.

Kerben werden verwendet, um die wahrscheinlichsten Werte anzuzeigen, die für den Median erwartet werden, wenn die Daten eine Stichprobe darstellen. Bei einem Vergleich zwischen Gruppen können Sie feststellen, ob die Unterschiede zwischen den Medianen statistisch signifikant sind, wenn sich ihre Bereiche überschneiden. Wenn sich die Bereiche der Kerben überschneiden, kann man nicht sagen, dass sich die Mediane statistisch unterscheiden; wenn sie sich nicht überschneiden, kann man davon ausgehen, dass sich die wahren Mediane unterscheiden.

Die Boxbreite kann als Indikator dafür verwendet werden, wie viele Datenpunkte in jede Gruppe fallen. Die Boxbreite wird häufig mit der Quadratwurzel aus der Anzahl der Datenpunkte skaliert, da die Quadratwurzel proportional zur Unsicherheit (d. h. zum Standardfehler) ist, die wir in Bezug auf die wahren Werte haben. Da die Interpretation der Box-Breite nicht immer intuitiv ist, besteht eine Möglichkeit darin, zu jedem Gruppennamen eine Anmerkung hinzuzufügen, um zu vermerken, wie viele Punkte sich in jeder Gruppe befinden.

Die Boxbreite kann als Indikator dafür verwendet werden, wie viele Datenpunkte für jede Datengruppe aufgezeichnet wurden.

Whisker-Bereich und Ausreißer

Es gibt mehrere Möglichkeiten, die maximale Länge der Whisker zu definieren, die sich von den Enden der Boxen in einem Boxplot erstrecken. Wie bereits erwähnt, werden die Whisker traditionell auf den am weitesten entfernten Datenpunkt innerhalb des 1,5-fachen IQR von jedem Boxende ausgedehnt. Alternativ können Sie die Whisker-Markierungen auch an anderen Perzentilen der Daten platzieren, so wie die Box-Komponenten am 25., 50. und 75.

Zu den üblichen alternativen Whisker-Positionen gehören das 9. und 91. Perzentil oder das 2. und 98. Perzentil. Diese beruhen auf den Eigenschaften der Normalverteilung in Bezug auf die drei zentralen Quartile. Bei der Normalverteilung sollte der Abstand zwischen dem 9. und dem 25. Perzentil (bzw. dem 91. und dem 75. Perzentil) etwa gleich groß sein wie der Abstand zwischen dem 25. und dem 50. Perzentil (bzw. dem 50. und dem 75. Perzentil), während der Abstand zwischen dem 2. und dem 25. Perzentil (bzw. dem 98. und dem 75. Perzentil) etwa gleich groß sein sollte wie der Abstand zwischen dem 25. und dem 75. Perzentil. Perzentil sein sollte. Dies kann helfen, auf einen Blick zu erkennen, ob die Daten symmetrisch oder verzerrt sind.

Whiskerlängen können durch verschiedene Methoden wie Datenperzentile oder ein Vielfaches der Boxlänge definiert werden.

Wenn eine dieser alternativen Whisker-Spezifikationen verwendet wird, ist es ratsam, dies auf oder neben dem Diagramm zu vermerken, um Verwechslungen mit der traditionellen Whisker-Längenformel zu vermeiden.

Vergleich von Boxplots mit anderen Visualisierungstechniken

Während Boxplots eine effektive Methode zur Darstellung der Verteilung von Daten bieten, gibt es auch andere Visualisierungstechniken, die in bestimmten Szenarien nützlich sein können. Es ist wichtig, den Kontext und den Zweck der Datenanalyse zu verstehen, um die geeignetste Methode auszuwählen.

Histogramme:

Anwendung: Ideal, wenn man die Form der Verteilung, insbesondere die Modus (den häufigsten Wert) und die Asymmetrie, verstehen möchte.
Vorteile: Zeigt die Häufigkeitsverteilung innerhalb jedes Intervalls und bietet somit eine detailliertere Ansicht der Datenverteilung.
Nachteile: Benötigt mehr Platz und kann bei vielen Datenpunkten oder Gruppen unübersichtlich werden.

Dichtediagramme (Density Plots):

Anwendung: Geeignet für eine kontinuierliche Darstellung der Datenverteilung.
Vorteile: Glatte Kurven, die eine kontinuierliche Verteilung der Daten zeigen; hilfreich, um die Verteilungsform klarer zu erkennen.
Nachteile: Kann bei komplexen Datensätzen oder mehreren überlappenden Verteilungen schwer zu interpretieren sein.

Violin-Diagramme (Violin Plots):

Anwendung: Kombiniert die Vorteile von Boxplots und Dichtediagrammen, ideal für den Vergleich der Verteilung mehrerer Gruppen.
Vorteile: Zeigt sowohl die Verteilung als auch die Wahrscheinlichkeitsdichte der Daten; nützlich für den Vergleich der Verteilungsform zwischen Gruppen.
Nachteile: Kann bei einer großen Anzahl von Gruppen oder komplexen Datensätzen visuell überladen wirken.

Boxplots sind besonders nützlich, wenn es darum geht, den Median, das 25. und 75. Perzentil sowie Ausreißer auf einfache und kompakte Weise zu präsentieren. Sie sind ideal für den Vergleich mehrerer Gruppen oder Datensätze. Allerdings, wenn detaillierte Informationen über die Form der Verteilung benötigt werden, könnten Histogramme oder Dichtediagramme vorteilhafter sein. Violin-Diagramme bieten eine gute Balance zwischen der detaillierten Verteilungsdarstellung und der kompakten Form von Boxplots.