Silhouettenkoeffizienten

Silhouettenkoeffizienten sind ein Maß zur Beurteilung der Qualität von Clustering-Ergebnissen. Sie helfen dabei, die Zusammengehörigkeit von Objekten innerhalb eines Clusters sowie die Trennung zwischen verschiedenen Clustern zu bewerten.

Die Clusteranalyse ist eine wichtige Methode in der Datenanalyse, die dazu dient, Gruppen ähnlicher Objekte in einem Datensatz zu identifizieren. Sie wird in verschiedenen Anwendungsbereichen eingesetzt, wie zum Beispiel in der Kundenanalyse, Bioinformatik und Textanalyse.


Silhouettenkoeffizienten
{\displaystyle n_{C}/s_{C}}
Anzahl ClusterTotal
2150 / 0,5278 / 0,3972 / 0,66
3150 / 0,5150 / 0,7628 / 0,5972 / 0,31
4150 / 0,5050 / 0,7628 / 0,5260 / 0,2712 / 0,51

Grundlagen des Clustering

Klassifikation von Clustering-Methoden:

  1. Hierarchisches Clustering: Hierarchisches Clustering ist eine Methode, bei der ein Baum von Clustern erstellt wird. Es gibt zwei Haupttypen von hierarchischem Clustering: agglomerativ und divisev. Agglomeratives Clustering beginnt mit einzelnen Objekten als Clustern und verschmilzt sie schrittweise zu größeren Clustern, während divisev Clustering von einem einzigen Cluster ausgeht und es in kleinere Cluster aufteilt.
  2. Partitionierendes Clustering: Partitionierendes Clustering teilt den Datensatz in eine vorab festgelegte Anzahl von Clustern auf. Der k-means-Algorithmus ist ein bekanntes Beispiel für partitionierendes Clustering.

Distanzmaße für Clustering:

  1. Euklidische Distanz: Die euklidische Distanz ist der Abstand zwischen zwei Punkten im euklidischen Raum und wird häufig als Distanzmaß im Clustering verwendet.
  2. Manhattan-Distanz: Die Manhattan-Distanz, auch als L1-Norm bekannt, misst den Abstand zwischen zwei Punkten entlang der Achsen und ist ein weiteres gebräuchliches Distanzmaß.
  3. Kosinusähnlichkeit: Die Kosinusähnlichkeit misst den Winkel zwischen zwei Vektoren und wird häufig in der Textanalyse und bei hochdimensionalen Daten verwendet.

Auswahl der optimalen Clusteranzahl

Die Wahl der richtigen Anzahl von Clustern ist entscheidend für die Qualität der Clustering-Ergebnisse. Methoden wie der Elbow-Method, Silhouettenkoeffizienten und Gap-Statistik können bei der Entscheidungsfindung helfen.

StrukturierungWertebereich von {\displaystyle S(o)}
stark{\displaystyle 0{,}75<S(o)\leq 1}
mittel{\displaystyle 0{,}5<S(o)\leq 0{,}75}
schwach{\displaystyle 0{,}25<S(o)\leq 0{,}5}
keine Struktur{\displaystyle 0<S(o)\leq 0{,}25}
Dendrogramm und Silhouettenplot für eine Zwei-, Drei- und Vier-Cluster-Lösung.

Silhouettenkoeffizienten: Konzept und Berechnung

Der Silhouettenkoeffizient berechnet sich aus der Differenz der durchschnittlichen Distanz eines Objekts zu den Objekten im nächstgelegenen Cluster (b) und der durchschnittlichen Distanz zu den Objekten im eigenen Cluster (a), dividiert durch das Maximum von a und b. Der Wert liegt zwischen -1 und 1, wobei Werte nahe 1 auf eine gute Clusterqualität hinweisen und Werte nahe -1 auf eine schlechte Clusterqualität hindeuten. Ein Silhouettenkoeffizient von 0 bedeutet, dass die Objekte nicht eindeutig einem Cluster zugeordnet werden können.

Ein hoher Silhouettenkoeffizient (nahe 1) zeigt an, dass die Objekte innerhalb eines Clusters gut zusammenpassen und die Clusters gut voneinander getrennt sind. Ein niedriger Silhouettenkoeffizient (nahe -1) deutet darauf hin, dass Objekte möglicherweise falsch zugeordnet wurden oder die Clusterstruktur nicht klar ist.

Vor- und Nachteile von Silhouettenkoeffizienten

Vorteile:

  • Einfach zu berechnen und zu interpretieren
  • Kann für verschiedene Distanzmaße verwendet werden
  • Berücksichtigt sowohl die Zusammengehörigkeit innerhalb eines Clusters als auch die Trennung zwischen den Clustern

Nachteile:

  • Kann bei großen Datensätzen rechenintensiv sein
  • Möglicherweise nicht für alle Clustering-Methoden geeignet

Anwendung von Silhouettenkoeffizienten

Schritt-für-Schritt-Anleitung zur Berechnung

  1. Führen Sie die Clusteranalyse für verschiedene Clusteranzahlen durch.
  2. Berechnen Sie für jedes Objekt den durchschnittlichen Abstand zu den Objekten im eigenen Cluster (a) und den durchschnittlichen Abstand zum nächstgelegenen Cluster (b).
  3. Berechnen Sie für jedes Objekt den Silhouettenkoeffizienten.
  4. Ermitteln Sie den durchschnittlichen Silhouettenkoeffizienten für jede Clusteranzahl.
  5. Wählen Sie die Clusteranzahl mit dem höchsten durchschnittlichen Silhouettenkoeffizienten aus.

Vergleich mit anderen Clusterevaluationsmethoden

  1. Dunn-Index: Der Dunn-Index misst das Verhältnis der kleinsten interklastischen Distanz zur größten intraklastischen Distanz. Ein höherer Dunn-Index zeigt eine bessere Clusterqualität an.
  2. Calinski-Harabasz-Index: Der Calinski-Harabasz-Index bewertet die Clusterqualität anhand der Varianz innerhalb der Cluster und der Varianz zwischen den Clustern. Ein höherer Indexwert deutet auf eine bessere Clusterqualität hin.
  3. Gap-Statistik: Die Gap-Statistik vergleicht die Log-Likelihood der Daten unter verschiedenen Clusteranzahlen mit einer Referenzverteilung. Die optimale Clusteranzahl ist diejenige, bei der die Gap-Statistik ihren höchsten Wert erreicht.