Wenn du jemals ein Haustier trainiert oder ein Videospiel gespielt hast, hast du vielleicht ohne es zu wissen etwas über das Konzept des bestärkenden Lernens erfahren. Einfach gesagt, bestärkendes Lernen ist eine Methode, mit der Maschinen oder Software-Agenten lernen, ein bestimmtes Ziel in einer komplexen, ungewissen Umgebung zu erreichen.
weiterlesen…Kategorie: Data Science
Einführung in die Polynomiale Regression
Die Polynomiale Regression ist eine spezielle Form der Regressionanalyse, einer statistischen Technik, die dazu dient, den Zusammenhang zwischen zwei oder mehr Variablen zu untersuchen. “Regression” stammt aus dem lateinischen “regressio” und bedeutet “Rückkehr”. In diesem Kontext meint es, dass wir zu bestimmten Werten “zurückkehren” oder “schätzen”, basierend auf den gegebenen Daten.
weiterlesen…Latent Dirichlet Allocation (LDA) – Ein Überblick und Beispiel in Python
Latent Dirichlet Allocation (LDA) ist ein populärer Algorithmus zur Topic-Modellierung, der häufig in der Verarbeitung natürlicher Sprache und im Maschinenlernen eingesetzt wird. Es handelt sich dabei um ein generatives probabilistisches Modell, das verwendet wird, um Sammlungen von Dokumenten oder Datensätzen zu analysieren. In diesem Artikel werden wir LDA erläutern und ein Beispiel in Python geben.
weiterlesen…Der Calinski-Harabasz-Index: Eine Methode zur Beurteilung der Clusterqualität ohne bekannte Grundwahrheit
Der Calinski-Harabasz (CH) Index, 1974 von Calinski und Harabasz eingeführt, kann zur Beurteilung von Clustering-Modellen verwendet werden, wenn die wahren Klassenlabels der Datenpunkte unbekannt sind. Die Validierung der Qualität des Clusterings erfolgt dabei auf der Grundlage von in den Daten inhärenten Größen und Merkmalen. Der CH-Index misst, wie ähnlich ein Objekt innerhalb seines eigenen Clusters ist (Kohäsion) im Vergleich zu anderen Clustern (Separation). Kohäsion wird anhand der Abstände der Datenpunkte in einem Cluster zu ihrem jeweiligen Clustermittelpunkt geschätzt, während Separation auf der Distanz der Clustermittelpunkte zum globalen Zentroid basiert. Der CH-Index hat die Form (a . Separation)/(b . Kohäsion), wobei a und b Gewichte sind.
weiterlesen…Silhouettenkoeffizienten
Silhouettenkoeffizienten sind ein Maß zur Beurteilung der Qualität von Clustering-Ergebnissen. Sie helfen dabei, die Zusammengehörigkeit von Objekten innerhalb eines Clusters sowie die Trennung zwischen verschiedenen Clustern zu bewerten.
weiterlesen…