Data Science Archive - Martin Grellmann

Bestärkendes Lernen (Reinforcement learning) – ein Überblick

Posted onJuli 19, 2023Januar 31, 2024

Wenn du jemals ein Haustier trainiert oder ein Videospiel gespielt hast, hast du vielleicht ohne es zu wissen etwas über das Konzept des bestärkenden Lernens erfahren. Einfach gesagt, bestärkendes Lernen ist eine Methode, mit der Maschinen oder Software-Agenten lernen, ein bestimmtes Ziel in einer komplexen, ungewissen Umgebung zu erreichen.

Einführung in die Polynomiale Regression

Posted onJuli 16, 2023Januar 31, 2024

Die Polynomiale Regression ist eine spezielle Form der Regressionanalyse, einer statistischen Technik, die dazu dient, den Zusammenhang zwischen zwei oder mehr Variablen zu untersuchen. “Regression” stammt aus dem lateinischen “regressio” und bedeutet “Rückkehr”. In diesem Kontext meint es, dass wir zu bestimmten Werten “zurückkehren” oder “schätzen”, basierend auf den gegebenen Daten.

Latent Dirichlet Allocation (LDA) – Ein Überblick und Beispiel in Python

Posted onJuni 15, 2023Dezember 6, 2023

Latent Dirichlet Allocation (LDA) ist ein populärer Algorithmus zur Topic-Modellierung, der häufig in der Verarbeitung natürlicher Sprache und im Maschinenlernen eingesetzt wird. Es handelt sich dabei um ein generatives probabilistisches Modell, das verwendet wird, um Sammlungen von Dokumenten oder Datensätzen zu analysieren. In diesem Artikel werden wir LDA erläutern und ein Beispiel in Python geben.

Der Calinski-Harabasz-Index: Eine Methode zur Beurteilung der Clusterqualität ohne bekannte Grundwahrheit

Posted onApril 28, 2023Januar 28, 2024

Der Calinski-Harabasz (CH) Index, 1974 von Calinski und Harabasz eingeführt, kann zur Beurteilung von Clustering-Modellen verwendet werden, wenn die wahren Klassenlabels der Datenpunkte unbekannt sind. Die Validierung der Qualität des Clusterings erfolgt dabei auf der Grundlage von in den Daten inhärenten Größen und Merkmalen. Der CH-Index misst, wie ähnlich ein Objekt innerhalb seines eigenen Clusters ist (Kohäsion) im Vergleich zu anderen Clustern (Separation). Kohäsion wird anhand der Abstände der Datenpunkte in einem Cluster zu ihrem jeweiligen Clustermittelpunkt geschätzt, während Separation auf der Distanz der Clustermittelpunkte zum globalen Zentroid basiert. Der CH-Index hat die Form (a . Separation)/(b . Kohäsion), wobei a und b Gewichte sind.

Silhouettenkoeffizienten

Posted onApril 21, 2023Januar 27, 2024

Silhouettenkoeffizienten sind ein Maß zur Beurteilung der Qualität von Clustering-Ergebnissen. Sie helfen dabei, die Zusammengehörigkeit von Objekten innerhalb eines Clusters sowie die Trennung zwischen verschiedenen Clustern zu bewerten.