Was ist der Modus (Lagemaß)

Der Modus ist der Wert, der in einer Reihe von Datenwerten am häufigsten vorkommt. Wenn X eine diskrete Zufallsvariable ist, ist der Modus der Wert x (d. h. X = x), bei dem die Wahrscheinlichkeitsmassenfunktion ihren Höchstwert annimmt. Mit anderen Worten, es ist der Wert, bei dem die Wahrscheinlichkeit am größten ist, dass eine Stichprobe gezogen wird.

Wie der statistische Mittelwert und der Median ist der Modus eine Möglichkeit, wichtige Informationen über eine Zufallsvariable oder eine Grundgesamtheit in einer (normalerweise) einzigen Zahl auszudrücken. Der numerische Wert des Modus ist derselbe wie der des Mittelwerts und des Medians in einer Normalverteilung, und er kann in stark schiefen Verteilungen sehr unterschiedlich sein.

Der Modus ist nicht unbedingt einzigartig für eine bestimmte diskrete Verteilung, da die Wahrscheinlichkeitsmassenfunktion an mehreren Punkten x1, x2 usw. denselben Maximalwert annehmen kann. Der extremste Fall tritt bei Gleichverteilungen auf, bei denen alle Werte gleich häufig vorkommen.

Wenn die Wahrscheinlichkeitsdichtefunktion einer kontinuierlichen Verteilung mehrere lokale Maxima aufweist, ist es üblich, alle lokalen Maxima als Modi der Verteilung zu bezeichnen. Eine solche kontinuierliche Verteilung wird als multimodal (im Gegensatz zu unimodal) bezeichnet. Ein Modus einer kontinuierlichen Wahrscheinlichkeitsverteilung wird häufig als jeder Wert x betrachtet, bei dem die Wahrscheinlichkeitsdichtefunktion ein lokales Maximum aufweist, so dass jeder Spitzenwert ein Modus ist.

Bei symmetrischen unimodalen Verteilungen, wie z. B. der Normalverteilung, stimmen Mittelwert (sofern definiert), Median und Modus überein. Bei Stichproben, von denen bekannt ist, dass sie aus einer symmetrischen unimodalen Verteilung stammen, kann der Stichprobenmittelwert als Schätzwert für den Modus der Grundgesamtheit verwendet werden.

Modus einer Probe

Der Modus einer Stichprobe ist das Element, das am häufigsten in der Sammlung vorkommt. Der Modus der Stichprobe [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] ist beispielsweise 6. Bei der Datenliste [1, 1, 2, 4, 4] ist der Modus nicht eindeutig. In einem solchen Fall wird ein Datensatz als bimodal bezeichnet, während ein Satz mit mehr als zwei Modi als multimodal bezeichnet werden kann.

Für eine Stichprobe aus einer kontinuierlichen Verteilung wie [0,935…, 1,211…, 2,430…, 3,668…, 3,874…] ist das Konzept in seiner Rohform unbrauchbar, da keine zwei Werte genau gleich sind, so dass jeder Wert genau einmal auftritt. Um den Modus der zugrundeliegenden Verteilung zu schätzen, werden die Daten üblicherweise diskretisiert, indem die Häufigkeitswerte Intervallen mit gleichem Abstand zugeordnet werden, wie bei der Erstellung eines Histogramms, wobei die Werte durch die Mittelpunkte der Intervalle, denen sie zugeordnet sind, ersetzt werden. Der Modus ist dann der Wert, bei dem das Histogramm seinen Höchstwert erreicht. Bei kleinen oder mittelgroßen Stichproben reagiert das Ergebnis dieses Verfahrens empfindlich auf die Wahl der Intervallbreite, wenn diese zu eng oder zu weit gewählt wird; in der Regel sollte sich ein beträchtlicher Teil der Daten auf eine relativ kleine Anzahl von Intervallen (5 bis 10) konzentrieren, während der Anteil der Daten, die außerhalb dieser Intervalle liegen, ebenfalls beträchtlich ist. Ein alternativer Ansatz ist die Kernel-Dichte-Schätzung, bei der im Wesentlichen Punktstichproben verwischt werden, um eine kontinuierliche Schätzung der Wahrscheinlichkeitsdichtefunktion zu erhalten, die eine Schätzung des Modus liefern kann.

Das folgende MATLAB- (oder Octave-) Codebeispiel berechnet den Modus einer Stichprobe:

X = sort(x);                               % x ist ein Spaltenvektor-Datensatz
indices   =  find(diff([X; realmax]) > 0); % Indizes, bei denen sich wiederholte Werte ändern
[modeL,i] =  max (diff([0; indices]));     % längste Nachleuchtdauer der wiederholten Werte
mode      =  X(indices(i));

Der Algorithmus erfordert in einem ersten Schritt die Sortierung der Stichprobe in aufsteigender Reihenfolge. Dann berechnet er die diskrete Ableitung der sortierten Liste und findet die Indizes, bei denen diese Ableitung positiv ist. Als nächstes wird die diskrete Ableitung dieser Gruppe von Indizes berechnet, wobei das Maximum dieser Ableitung von Indizes gefunden wird, und schließlich wird die sortierte Stichprobe an dem Punkt ausgewertet, an dem dieses Maximum auftritt, was dem letzten Glied der Strecke der wiederholten Werte entspricht.