Ein Überblick über die deskriptive Analyse

Die deskriptive Analyse ist die Art der Datenanalyse, die dazu beiträgt, Datenpunkte auf konstruktive Weise zu beschreiben, darzustellen oder zusammenzufassen, so dass Muster entstehen können, die alle Bedingungen der Daten erfüllen.

Sie ist einer der wichtigsten Schritte bei der Durchführung einer statistischen Datenanalyse. Sie gibt Aufschluss über die Verteilung der Daten, hilft bei der Erkennung von Tippfehlern und Ausreißern und ermöglicht es, Ähnlichkeiten zwischen den Variablen zu erkennen, so dass Sie weitere statistische Analysen durchführen können.  

Techniken für die deskriptive Analyse

Datenaggregation und Data Mining sind zwei Techniken, die bei der deskriptiven Analyse verwendet werden, um historische Daten zu gewinnen. Bei der Datenaggregation werden die Daten zunächst gesammelt und dann sortiert, um die Datensätze besser handhabbar zu machen.

  1. Zu den deskriptiven Techniken gehören häufig die Erstellung von Quantils- und Mittelwerttabellen, Streuungsmethoden wie Varianz oder Standardabweichung und Kreuztabellen, die zur Überprüfung vieler unterschiedlicher Hypothesen verwendet werden können. Diese Hypothesen heben oft Unterschiede zwischen Untergruppen hervor.
  2. Maßnahmen wie Segregation, Diskriminierung und Ungleichheit werden mit speziellen deskriptiven Techniken untersucht. Diskriminierung wird mit Hilfe von Prüfungsstudien oder Dekompositionsmethoden gemessen. Eine stärkere Segregation auf der Grundlage der Art oder Ungleichheit der Ergebnisse muss an sich nicht unbedingt gut oder schlecht sein, wird aber oft als Marker für ungerechte soziale Prozesse angesehen; eine genaue Messung der verschiedenen Stufen über Raum und Zeit hinweg ist eine Voraussetzung für das Verständnis dieser Prozesse.
  3. Eine Tabelle mit den Mittelwerten nach Untergruppen wird verwendet, um wichtige Unterschiede zwischen den Untergruppen aufzuzeigen, was meist zu Schlussfolgerungen und Schlussfolgerungen führt. Wenn wir z. B. ein Einkommensgefälle feststellen, neigen wir natürlich dazu, Gründe für diese Muster zu extrapolieren.

    Aber auch dies fällt in den Bereich der Wirkungsmessung, die den Einsatz verschiedener Techniken erfordert. Oft verursachen zufällige Schwankungen Unterschiede in den Mittelwerten, und es sind statistische Schlussfolgerungen erforderlich, um festzustellen, ob die beobachteten Unterschiede nur zufällig entstanden sein könnten.
  4. Eine Kreuztabelle oder Zwei-Wege-Tabelle soll die Anteile der Komponenten mit eindeutigen Werten für jede der beiden verfügbaren Variablen oder die Zellenanteile aufzeigen. Beispielsweise könnte man den Anteil der Bevölkerung tabellarisch darstellen, der einen Highschool-Abschluss hat und außerdem Lebensmittel- oder Bargeldunterstützung erhält, d. h. es soll eine Kreuztabelle der Bildung gegenüber dem Erhalt von Unterstützung erstellt werden.

Dann könnten wir auch die Zeilenanteile oder die Anteile in jeder Bildungsgruppe untersuchen, die Nahrungsmittel- oder Bargeldunterstützung erhalten, und vielleicht feststellen, dass die Unterstützungsniveaus bei höheren Bildungsniveaus außerordentlich abnehmen.

Auch die Spaltenanteile können untersucht werden, d. h. der Anteil der Bevölkerung mit unterschiedlichen Bildungsniveaus, aber dies ist das Gegenteil von kausalen Auswirkungen. Es könnte sein, dass wir eine überraschend hohe Anzahl oder einen hohen Anteil von Empfängern mit Hochschulbildung finden, aber das könnte darauf zurückzuführen sein, dass mehr Menschen einen Hochschulabschluss haben als Menschen mit weniger als einem Highschool-Abschluss.

Arten der deskriptiven Analyse

Die deskriptive Analyse kann in vier Typen eingeteilt werden: Häufigkeitsmaße, zentrale Tendenz, Streuung oder Variation und Position. Diese Methoden sind jeweils für eine einzelne Variable optimal.

Maße der Häufigkeit

 Bei der deskriptiven Analyse ist es wichtig zu wissen, wie häufig ein bestimmtes Ereignis oder eine bestimmte Reaktion wahrscheinlich auftritt. Dies ist der Hauptzweck von Häufigkeitsmaßen, die wie eine Zählung oder ein Prozentsatz aussehen.

Nehmen wir zum Beispiel eine Umfrage, bei der 500 Teilnehmer nach ihrem Lieblingsteam der IPL gefragt werden. Eine Liste mit 500 Antworten wäre schwer zu verarbeiten und unterzubringen, aber die Daten können viel leichter zugänglich gemacht werden, indem man misst, wie oft ein bestimmtes IPL-Team ausgewählt wurde.#

Maße der zentralen Tendenz

Bei der deskriptiven Analyse ist es auch wichtig, die zentrale (oder durchschnittliche) Tendenz oder Antwort zu ermitteln. Die zentrale Tendenz wird mit Hilfe von drei Durchschnittswerten gemessen – Mittelwert, Median und Modus. Nehmen wir als Beispiel eine Umfrage, bei der das Gewicht von 1.000 Personen gemessen wird. In diesem Fall wäre der Mittelwert eine ausgezeichnete deskriptive Metrik zur Messung der Mittelwerte.

Maße der Streuung

Manchmal ist es wichtig zu wissen, wie die Daten über einen Bereich verteilt sind. Um dies zu verdeutlichen, betrachten Sie das Durchschnittsgewicht in einer Stichprobe von zwei Personen. Wenn beide Personen 60 Kilo wiegen, beträgt das Durchschnittsgewicht 60 kg. Wenn jedoch eine Person 50 kg und die andere 70 kg wiegt, liegt das Durchschnittsgewicht immer noch bei 60 kg. Streuungsmaße wie die Spannweite oder die Standardabweichung können verwendet werden, um diese Art der Verteilung zu messen.

Maße der Position

Bei der deskriptiven Analyse geht es auch darum, die Position eines einzelnen Wertes oder seiner Reaktion im Verhältnis zu anderen zu ermitteln. Maße wie Perzentile und Quartile sind in diesem Fachgebiet sehr nützlich.

Abgesehen davon können Sie, wenn Sie Daten über mehrere Variablen gesammelt haben, die bivariate oder multivariate deskriptive Statistik verwenden, um zu untersuchen, ob es Beziehungen zwischen ihnen gibt.

Bei der bivariaten Analyse werden gleichzeitig die Häufigkeit und die Variabilität von zwei verschiedenen Variablen untersucht, um festzustellen, ob sie ein Muster zu haben scheinen und gemeinsam variieren. Sie können auch die zentrale Tendenz der beiden Variablen testen und vergleichen, bevor Sie weitere Arten der statistischen Analyse durchführen.

Die multivariate Analyse ist dasselbe wie die bivariate Analyse, wird aber für mehr als zwei Variablen durchgeführt. Die folgenden 2 Methoden sind für die bivariate Analyse.

Kontingenztabelle

In einer Kontingenztabelle steht jede Zelle für die Kombination der beiden Variablen. Natürlich wird eine unabhängige Variable (z. B. das Geschlecht) auf der vertikalen Achse und eine abhängige Variable (z. B. die Aktivitäten) auf der horizontalen Achse aufgeführt. Sie müssen die Tabelle “quer” lesen, um zu sehen, wie die beiden Variablen, d. h. die unabhängige und die abhängige Variable, zueinander stehen.

Gruppe0–45–89–1213–1617+
Männer3368372322
Frauen3648448325

Streudiagramme

Ein Punktdiagramm ist ein Diagramm, mit dem Sie die Beziehung zwischen zwei oder drei verschiedenen Variablen darstellen können. Es ist eine visuelle Darstellung der Stärke einer Beziehung.

Bei einer Punktwolke wird eine Variable auf der X-Achse und eine andere auf der Y-Achse aufgetragen. Jeder Datenpunkt wird durch einen Punkt im Diagramm gekennzeichnet.

Vorteile der deskriptiven Analyse

  • Ein hohes Maß an Objektivität und Neutralität der Forscher ist einer der Hauptvorteile der deskriptiven Analyse. Der Grund, warum Forscher besonders wachsam sein müssen, liegt darin, dass die deskriptive Analyse verschiedene Merkmale der extrahierten Daten aufzeigt, und wenn die Daten nicht mit den Trends übereinstimmen, führt dies zu einem großen Datenmüll.
  • Die deskriptive Analyse gilt als umfangreicher als andere quantitative Methoden und liefert ein umfassenderes Bild eines Ereignisses oder Phänomens. Es kann eine beliebige Anzahl von Variablen oder sogar eine einzige Anzahl von Variablen verwendet werden, um eine deskriptive Forschung durchzuführen.
  • Diese Art der Analyse wird als bessere Methode zur Sammlung von Informationen angesehen, die Beziehungen als natürlich beschreiben und die Welt, wie sie existiert, zeigen. Aus diesem Grund ist diese Analyse sehr real und menschennah, da alle Tendenzen nach der Erforschung des realen Verhaltens der Daten ermittelt werden.
  • Sie gilt als nützlich für die Identifizierung von Variablen und neuen Hypothesen, die durch experimentelle und inferentielle Studien weiter analysiert werden können. Sie gilt als nützlich, weil die Fehlermarge sehr gering ist, da wir die Trends direkt aus den Dateneigenschaften ableiten.
  • Diese Art von Studie gibt dem Forscher die Flexibilität, sowohl quantitative als auch qualitative Daten zu verwenden, um die Eigenschaften der Population zu entdecken.
  • So können Forscher beispielsweise sowohl Fallstudien, die eine qualitative Analyse darstellen, als auch Korrelationsanalysen verwenden, um ein Phänomen auf seine eigene Weise zu beschreiben. Die Verwendung von Fallstudien zur Beschreibung von Personen, Ereignissen und Institutionen ermöglicht es dem Forscher, das Verhalten und die Muster der betreffenden Gruppe in vollem Umfang zu verstehen.
  • Bei Umfragen, die eine der Hauptarten der deskriptiven Analyse darstellen, neigt der Forscher dazu, Datenpunkte aus einer relativ großen Anzahl von Stichproben zu sammeln, im Gegensatz zu experimentellen Studien, die im Allgemeinen kleinere Stichproben benötigen.
  • Dies ist ein eindeutiger Vorteil der Erhebungsmethode gegenüber anderen deskriptiven Methoden, da sie es den Forschern ermöglicht, problemlos größere Gruppen von Personen zu untersuchen. Wenn die Erhebungen ordnungsgemäß durchgeführt werden, ergibt sich eine umfassendere und genauere Beschreibung der untersuchten Einheit.