Random Forests - Martin Grellmann

Random Forests sind ein ensemble-basiertes Machine Learning-Verfahren, das auf Entscheidungsbäumen basiert. Sie werden verwendet, um Probleme der Klassifikation und Regression zu lösen und sind besonders nützlich bei der Behandlung von hohen Dimensionen und komplexen Problemen.

Das Konzept hinter Random Forests besteht darin, mehrere Entscheidungsbäume zu erstellen und ihre Ergebnisse zu kombinieren, um die Vorhersagegenauigkeit zu erhöhen und Überanpassung zu vermeiden. Dies wird durch den Einsatz von Bootstrap Aggregating (auch bekannt als Bagging) und dem Zufallsuntergruppenauswahlverfahren erreicht.

Bei der Erstellung eines Entscheidungsbaums werden die Merkmale aus einer zufälligen Untergruppe ausgewählt, anstatt die Verwendung aller verfügbaren Merkmale. Auch die Trainingsdaten werden durch zufällige Sampling der Ausgangsdaten ohne Rückzug erstellt. Dies reduziert die Abhängigkeit der Ergebnisse von einzelnen Merkmalen und verringert die Wahrscheinlichkeit von Überanpassung.

Jeder Entscheidungsbaum in einem Random Forest-Modell wird auf einer anderen zufälligen Untergruppe von Merkmalen und Trainingsdaten erstellt und gibt seine Vorhersagen ab. Das endgültige Ergebnis wird durch die Kombination der Ergebnisse aller Bäume erhalten. In Fällen von Klassifikation werden die Mehrheiten der Stimmen der Bäume als Ergebnis genommen, während in Fällen der Regression die Mittelwert der Vorhersagen der Bäume genommen werden.

Einer der Vorteile von Random Forest ist die Fähigkeit, die Wichtigkeit von Merkmalen zu bestimmen. Da jeder Baum ein gewisses Maß an Unabhängigkeit hat, kann die Häufigkeit, mit der ein bestimmtes Merkmal in den Bäumen verwendet wird, als Maß für seine Wichtigkeit angesehen werden.

Random Forests haben auch eine gute Leistung bei der Handhabung von hohen Dimensionen und unordentlichen Daten und sind weniger anfällig für Überanpassung im Vergleich zu einzelnen Entscheidungsbäumen. Sie erfordern jedoch mehr Rechenzeit und Speicher, da mehrere Bäume erstellt werden müssen.

Es gibt viele Tools und Bibliotheken, die es Data Scientists ermöglichen, Random Forests zu erstellen und zu analysieren. Beispiele sind scikit-learn in Python und randomForest in R.

Es ist wichtig zu beachten, dass Random Forests nicht immer die beste Wahl für bestimmte Arten von Problemen sind und es kann sinnvoll sein, sie mit anderen Methoden zu kombinieren oder zu vergleichen. zum Beispiel kann Gradient Boosting eine bessere Alternative sein, wenn es um sehr tiefe und komplexe Bäume geht.

Insgesamt ist Random Forest eine mächtige und verbreitete Methode in der Data Science, die es ermöglicht, komplexe Probleme mit hohen Dimensionen zu lösen und die Wichtigkeit der Merkmale zu bestimmen. Durch die richtige Anwendung und Kombination mit anderen Methoden kann es ein wertvolles Werkzeug für Data Scientists sein, um Probleme der Klassifikation und Regression zu lösen.

Im Folgenden werde ich die Schritte zur Implementierung des Random Forest-Algorithmus in Python erläutern.

Schritt 1: Daten laden und vorbereiten Der erste Schritt besteht darin, die Daten zu laden und vorzubereiten. In diesem Beispiel verwenden wir den Iris-Datensatz aus der Scikit-learn-Bibliothek.

from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target

Schritt 2: Aufteilung der Daten in Trainings- und Testsets Als nächstes teilen wir die Daten in Trainings- und Testsets auf. Wir verwenden 70% der Daten für das Training und 30% für das Testen.

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

Schritt 3: Erstellen des Random Forest-Klassifikators Als nächstes erstellen wir den Random Forest-Klassifikator und passen ihn an das Trainingsset an. Wir verwenden die RandomForestClassifier-Klasse aus der Scikit-learn-Bibliothek.

from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(n_estimators=100)
rf.fit(X_train, y_train)

Schritt 4: Vorhersagen treffen und Modellleistung bewerten Nachdem wir den Random Forest-Klassifikator trainiert haben, können wir Vorhersagen für das Testset treffen und die Leistung des Modells bewerten.

from sklearn.metrics import accuracy_score
y_pred = rf.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))

Das accuracy_score-Modul berechnet die Genauigkeit des Modells und gibt sie als Dezimalzahl zwischen 0 und 1 zurück.

Schritt 5: Modellparameter optimieren Sie können die Parameter des Random Forest-Klassifikators optimieren, um die Leistung des Modells weiter zu verbessern. Einige der wichtigsten Parameter sind:

n_estimators: Die Anzahl der Bäume im Wald.
max_depth: Die maximale Tiefe eines Entscheidungsbaums.
min_samples_split: Die minimale Anzahl von Beispielen, die erforderlich sind, um einen Knoten zu teilen.
min_samples_leaf: Die minimale Anzahl von Beispielen, die erforderlich sind, um ein Blatt zu sein.
max_features: Die Anzahl der Merkmale, die für die Entscheidungsbaumsuche verwendet werden sollen.

rf = RandomForestClassifier(n_estimators=200, max_depth=5, min_samples_split=2, min_samples_leaf=1, max_features='sqrt')
rf.fit(X_train, y_train)
y_pred = rf.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))

Im obigen Beispiel haben wir die Anzahl der Bäume im Wald auf 200 erhöht, die maximale Tiefe der Entscheidungsbäume auf 5 begrenzt und die minimale Anzahl von Beispielen, die erforderlich sind, um einen Knoten zu teilen, auf 2 festgelegt. Wir haben auch die Anzahl der Merkmale, die für die Entscheidungsbaumsuche verwendet werden sollen, auf die Wurzel der Gesamtanzahl von Merkmalen im Datensatz (in diesem Fall 2) festgelegt.

Schritt 6: Kreuzvalidierung anwenden Um sicherzustellen, dass unser Modell nicht überangepasst ist und gut generalisiert, können wir eine Kreuzvalidierung anwenden. Die Kreuzvalidierung teilt den Datensatz in k gleich große Teile und trainiert das Modell k Mal, wobei jedes Mal ein anderer Teil als Testset verwendet wird. Wir können die cross_val_score-Funktion aus der Scikit-learn-Bibliothek verwenden, um die Kreuzvalidierung durchzuführen.

from sklearn.model_selection import cross_val_score
rf = RandomForestClassifier(n_estimators=200, max_depth=5, min_samples_split=2, min_samples_leaf=1, max_features='sqrt')
scores = cross_val_score(rf, X, y, cv=5)
print("Cross Validation Scores:", scores)
print("Mean Score:", scores.mean())

Im obigen Beispiel führen wir eine 5-fache Kreuzvalidierung durch und berechnen den Durchschnitt der Genauigkeitswerte.

Das ist eine grundlegende Implementierung des Random Forest-Algorithmus in Python. Beachten Sie, dass es viele andere Möglichkeiten gibt, den Algorithmus anzupassen und zu erweitern, um eine bessere Vorhersagegenauigkeit zu erzielen.