Häufigkeitsverteilungen klassierter Daten

Die Datenerhebung ist Voraussetzung für die Datenanalyse. Nachdem die Daten gesammelt wurden, besteht der nächste Schritt darin, die Daten in einer geordneten und logischen Form darzustellen, damit ihre wesentlichen Merkmale deutlich werden. Die Notwendigkeit einer angemessenen Darstellung der Daten ergibt sich aus der Tatsache, dass die Masse der gesammelten Daten in ihrer Rohform oft so umfangreich ist, dass sie nicht leicht zu verstehen und zu analysieren ist. Nach der Datenerhebung müssen die Daten daher oft klassifiziert und in einer Weise dargestellt werden, die Ähnlichkeiten und Unterschiede in den Daten aufzeigt.

Klassifizierung von Daten

Klassifizierung ist der Prozess der Einteilung von Daten in verschiedene Gruppen oder Klassen nach einigen gemeinsamen Merkmalen. Die Funktionen der Klassifizierung lassen sich wie folgt zusammenfassen:

  • Sie verdichtet die Daten
  • Sie erleichtert Vergleiche
  • Sie hilft, die Beziehungen zu untersuchen
  •  Sie erleichtert die statistische Behandlung der Daten.

Die Klassifizierung von Daten erfolgt im Allgemeinen auf geografischer, chronologischer, qualitativer oder quantitativer Basis nach folgenden Grundsätzen:

a) Bei der geografischen Klassifizierung werden die Daten nach Orten, Gebieten oder Regionen geordnet.

b) Bei der chronologischen Klassifizierung werden die Daten nach der Zeit geordnet, d. h. wöchentlich, monatlich, vierteljährlich, halbjährlich, jährlich usw.

c) Bei der qualitativen Klassifizierung werden die Daten nach Merkmalen wie Geschlecht, Familienstand, Bildungsstand, Region, Betrieb, Krankheit usw. geordnet.

d) Bei der quantitativen Klassifizierung werden die Daten nach bestimmten Merkmalen geordnet, die gemessen wurden, z. B. nach Größe oder Gewicht usw. Bei dieser Art der Klassifizierung werden bestimmte Klassen gebildet und die Einheiten, die zu diesen Klassen gehören, werden ihnen zugeordnet. Das zu untersuchende quantitative Phänomen wird als Variable bezeichnet und daher wird diese Klassifikation manchmal auch als Klassifikation nach Variablen bezeichnet.

Variable: Das zu untersuchende quantitative Phänomen, wie z. B. Löhne, Niederschlagsmengen, Höhen, Gewichte, Alter usw., wird als Variable oder Variate bezeichnet. Mit anderen Worten, eine Größe, die von einem Individuum zu einem anderen Individuum variieren kann, wird als Variable bezeichnet. Es gibt zwei Arten von Variablen

a) Kontinuierliche Variable: Mengen, die jeden numerischen Wert innerhalb eines bestimmten Bereichs annehmen können, werden als kontinuierliche Variablen bezeichnet. So ist z. B. die Größe eines Menschen in verschiedenen Altersstufen eine kontinuierliche Variable.

b) Diskrete Variable: Größen, die nicht alle möglichen Werte annehmen können, werden als diskontinuierliche oder diskrete Variablen bezeichnet, z. B. kann die Anzahl der Tiere in einer Herde nur ganzzahlige Werte wie 2, 3, 4 usw. annehmen.

Häufigkeitsverteilung

Die Häufigkeitsverteilung ist eine statistische Tabelle, in der die Werte einer Variablen in der Reihenfolge ihrer Größe entweder einzeln oder in Gruppen zusammen mit den entsprechenden Häufigkeiten nebeneinander dargestellt werden. Die Daten zu einem quantitativen Phänomen können auf vier Arten klassifiziert werden:

  • Die Menge oder Reihe von Einzelbeobachtungen – nicht gruppierte (rohe) oder geordnete (geordnete) Daten
  • Diskrete oder nicht gruppierte Häufigkeitsverteilung.
  • Gruppierte Häufigkeitsverteilung.
  • Kontinuierliche Häufigkeitsverteilung.

Neben anderen deskriptiven Methoden haben wir uns die Häufigkeitsverteilung klassierter Daten in einem umfassenden Fallbeispiel angeschaut: https://martin-grellmann.de/fiktives-fallbeispiel-datenanalyse-i