Faktoren in R können unbenutzte Stufen haben, besonders nachdem Sie einige Zeilen aus einem data.frame
entfernt haben. Diese unbenutzten Stufen können zu unerwarteten Ergebnissen führen, wenn Sie Analysen oder Plots erstellen.
Um unbenutzte Faktorstufen aus einem data.frame
zu entfernen, können Sie die Funktion droplevels()
verwenden:
daten <- data.frame(
ID = 1:5,
Kategorie = factor(c("A", "B", "C", "A", "D"))
)
# Nehmen Sie an, Sie filtern die Daten und behalten nur Zeilen, in denen die Kategorie 'A' oder 'B' ist:
daten <- daten[daten$Kategorie %in% c("A", "B"), ]
# Jetzt enthält der Faktor Kategorie immer noch die Stufen "C" und "D", obwohl sie nicht mehr in den Daten vorhanden sind.
# Verwenden Sie droplevels, um unbenutzte Stufen zu entfernen:
daten$Kategorie <- droplevels(daten$Kategorie)
Wenn Sie den dplyr
-Ansatz verwenden, könnten Sie mutate()
zusammen mit droplevels()
verwenden, um das gleiche Ergebnis zu erzielen:
library(dplyr)
daten <- daten %>%
filter(Kategorie %in% c("A", "B")) %>%
mutate(Kategorie = droplevels(Kategorie))
Nachdem Sie droplevels()
verwendet haben, werden alle unbenutzten Stufen des Faktors entfernt, was in vielen Fällen zu klareren und korrekteren Analysen und Visualisierungen führt.