In R: Eine ‘dummy-variable’ erstellen.

Eine “Dummy-Variable” (auch als “Indikator-Variable” bezeichnet) ist oft ein binärer Indikator (0 oder 1), der das Vorhandensein (oder Fehlen) einer bestimmten Kategorie oder eines bestimmten Zustands für eine Beobachtung in einem Datensatz anzeigt. In R können Sie Dummy-Variablen auf verschiedene Arten erstellen, abhängig von Ihrem spezifischen Anwendungsfall.

Hier zeige ich Ihnen, wie Sie Dummy-Variablen für kategorische Daten in einem data.frame erstellen können:

  1. Mit der model.matrix()-Funktion:
data <- data.frame(Category = c("A", "B", "A", "C"))

# Erstellt Dummy-Variablen und entfernt die erste Spalte (Intercept)
dummy_vars <- model.matrix(~ Category - 1, data)
  1. Mit dem fastDummies-Paket:

Das fastDummies-Paket bietet Funktionen zur schnellen Erstellung von Dummy-Variablen:

install.packages("fastDummies")
library(fastDummies)

data <- data.frame(Category = c("A", "B", "A", "C"))
data_dummy <- dummy_cols(data, select_columns = "Category")
  1. Manuelles Erstellen:

Manchmal möchten Sie möglicherweise eine Dummy-Variable basierend auf einer bestimmten Bedingung manuell erstellen:

data$Is_A <- as.integer(data$Category == "A") # Erstellt eine Spalte, die 1 ist, wenn die Kategorie "A" ist, sonst 0

In der Regel erstellen Sie Dummy-Variablen für kategorische Daten, insbesondere wenn Sie lineare Modelle oder andere statistische Modelle erstellen möchten, die numerische Eingaben erfordern. Beachten Sie, dass es oft eine gute Idee ist, eine der Dummy-Spalten zu entfernen (auch bekannt als “Dummy-Variable-Falle” zu vermeiden), um Multikollinearitätsprobleme in bestimmten Modellen zu vermeiden. In den obigen Beispielen, insbesondere bei Verwendung von model.matrix(), wird standardmäßig eine der Dummy-Variablen entfernt.