Einführung in die Polynomiale Regression

Die Polynomiale Regression ist eine spezielle Form der Regressionanalyse, einer statistischen Technik, die dazu dient, den Zusammenhang zwischen zwei oder mehr Variablen zu untersuchen. “Regression” stammt aus dem lateinischen “regressio” und bedeutet “Rückkehr”. In diesem Kontext meint es, dass wir zu bestimmten Werten “zurückkehren” oder “schätzen”, basierend auf den gegebenen Daten.

weiterlesen…

Latent Dirichlet Allocation (LDA) – Ein Überblick und Beispiel in Python

Latent Dirichlet Allocation (LDA) ist ein populärer Algorithmus zur Topic-Modellierung, der häufig in der Verarbeitung natürlicher Sprache und im Maschinenlernen eingesetzt wird. Es handelt sich dabei um ein generatives probabilistisches Modell, das verwendet wird, um Sammlungen von Dokumenten oder Datensätzen zu analysieren. In diesem Artikel werden wir LDA erläutern und ein Beispiel in Python geben.

weiterlesen…

Der Calinski-Harabasz-Index: Eine Methode zur Beurteilung der Clusterqualität ohne bekannte Grundwahrheit

Der Calinski-Harabasz (CH) Index, 1974 von Calinski und Harabasz eingeführt, kann zur Beurteilung von Clustering-Modellen verwendet werden, wenn die wahren Klassenlabels der Datenpunkte unbekannt sind. Die Validierung der Qualität des Clusterings erfolgt dabei auf der Grundlage von in den Daten inhärenten Größen und Merkmalen. Der CH-Index misst, wie ähnlich ein Objekt innerhalb seines eigenen Clusters ist (Kohäsion) im Vergleich zu anderen Clustern (Separation). Kohäsion wird anhand der Abstände der Datenpunkte in einem Cluster zu ihrem jeweiligen Clustermittelpunkt geschätzt, während Separation auf der Distanz der Clustermittelpunkte zum globalen Zentroid basiert. Der CH-Index hat die Form (a . Separation)/(b . Kohäsion), wobei a und b Gewichte sind.

weiterlesen…