Assoziationsregeln im Data Mining

Assoziationsregeln sind Wenn-Dann-Aussagen, die dabei helfen, die Wahrscheinlichkeit von Beziehungen zwischen Datenelementen in großen Datensätzen in verschiedenen Arten von Datenbanken aufzuzeigen. Das Mining von Assoziationsregeln hat eine Reihe von Anwendungen und wird häufig verwendet, um Beziehungen zwischen Verkäufen in Transaktionsdaten oder medizinischen Datensätzen aufzudecken.

Anwendungsfälle für Assoziationsregeln

In der Datenwissenschaft werden Assoziationsregeln verwendet, um Korrelationen und gemeinsames Auftreten zwischen Datensätzen zu finden. Sie werden idealerweise verwendet, um Muster in Daten aus scheinbar unabhängigen Informationsbeständen wie relationalen Datenbanken und Transaktionsdatenbanken zu erklären. Die Verwendung von Assoziationsregeln wird manchmal auch als “Mining von Assoziationsregeln” oder “Mining von Assoziationen” bezeichnet.

Im Folgenden finden Sie einige praktische Anwendungsfälle für Assoziationsregeln:

  • Medizin. Ärzte können Assoziationsregeln verwenden, um Patienten zu diagnostizieren. Bei der Diagnosestellung sind viele Variablen zu berücksichtigen, da viele Krankheiten die gleichen Symptome aufweisen. Mithilfe von Assoziationsregeln und einer auf maschinellem Lernen basierenden Datenanalyse können Ärzte die bedingte Wahrscheinlichkeit einer bestimmten Krankheit bestimmen, indem sie Symptombeziehungen in den Daten vergangener Fälle vergleichen. Wenn neue Diagnosen gestellt werden, kann das maschinelle Lernmodell die Regeln anpassen, um die aktualisierten Daten zu berücksichtigen.
  • Einzelhandel. Einzelhändler können Daten über Einkaufsmuster sammeln, indem sie Kaufdaten aufzeichnen, wenn die Strichcodes der Artikel von Kassensystemen gescannt werden. Modelle für maschinelles Lernen können in diesen Daten nach Übereinstimmungen suchen, um festzustellen, welche Produkte am wahrscheinlichsten zusammen gekauft werden. Der Einzelhändler kann dann seine Marketing- und Verkaufsstrategie anpassen, um von diesen Informationen zu profitieren.
  • Gestaltung der Benutzererfahrung (UX). Entwickler können Daten darüber sammeln, wie Verbraucher eine von ihnen erstellte Website nutzen. Sie können dann die Assoziationen in den Daten nutzen, um die Benutzeroberfläche der Website zu optimieren, indem sie z. B. analysieren, wo die Benutzer am ehesten klicken und was die Wahrscheinlichkeit maximiert, dass sie einer Aufforderung zum Handeln nachkommen.
  • Unterhaltung. Dienste wie Netflix und Spotify können Assoziationsregeln nutzen, um ihre Inhaltsempfehlungssysteme zu optimieren. Modelle für maschinelles Lernen analysieren Daten zum früheren Nutzerverhalten auf häufige Muster, entwickeln Assoziationsregeln und verwenden diese Regeln, um Inhalte zu empfehlen, mit denen ein Nutzer wahrscheinlich etwas anfangen kann, oder um Inhalte so zu organisieren, dass die interessantesten Inhalte für einen bestimmten Nutzer an erster Stelle stehen.

Wie Assoziationsregeln funktionieren

Bei der Suche nach Assoziationsregeln werden grundsätzlich Modelle des maschinellen Lernens eingesetzt, um Daten nach Mustern oder gemeinsamen Vorkommnissen in einer Datenbank zu analysieren. Dabei werden häufige Wenn-Dann-Beziehungen identifiziert, die wiederum Assoziationsregeln darstellen.

Eine Assoziationsregel besteht aus zwei Teilen: einem Antezedens (wenn) und einem Konsekutiv (dann). Ein Antezedens ist ein Element, das in den Daten gefunden wird. Ein Konsekutiv ist ein Element, das in Kombination mit dem Antezedens gefunden wird.

Assoziationsregeln werden erstellt, indem die Daten nach häufigen Wenn-Dann-Mustern durchsucht werden und die Kriterien Unterstützung und Vertrauen verwendet werden, um die wichtigsten Beziehungen zu identifizieren. Die Unterstützung gibt an, wie häufig die Elemente in den Daten vorkommen. Die Konfidenz gibt an, wie oft die Wenn-Dann-Aussagen für wahr gehalten werden. Eine dritte Metrik, der sogenannte Lift, kann verwendet werden, um die Konfidenz mit der erwarteten Konfidenz zu vergleichen, d.h. wie oft eine Wenn-Dann-Aussage erwartungsgemäß als wahr gefunden wird.

Assoziationsregeln werden aus Itemsätzen berechnet, die aus zwei oder mehr Items bestehen. Würden die Regeln aus der Analyse aller möglichen Itemsätze erstellt, könnte die Anzahl der Regeln so groß sein, dass die Regeln wenig aussagekräftig wären. Aus diesem Grund werden Assoziationsregeln in der Regel aus Regeln erstellt, die in den Daten gut repräsentiert sind.

Ein Venn-Diagramm zur Darstellung der Assoziationen zwischen den Itemsets X und Y eines Datensatzes. Alle Transaktionen, die das Element X enthalten, befinden sich im weißen, linken Teil des Kreises, während die Transaktionen, die Y enthalten, rot gefärbt sind und sich rechts befinden. Alle Transaktionen, die sowohl X als auch Y enthalten, befinden sich in der Mitte und sind rosa gefärbt. Zur Darstellung der Informationen aus diesem Diagramm können mehrere Konzepte verwendet werden. Nimmt man beispielsweise alle Transaktionen im rosafarbenen Bereich und teilt sie durch die Gesamtzahl der Transaktionen (Transaktionen, die X (weiß) + Transaktionen, die Y (rot) enthalten), so erhält man die so genannte Unterstützung. Um das Ergebnis einer Methode zu erhalten, die als Konfidenz bekannt ist, kann man alle Transaktionen in der Mitte (rosa) nehmen und sie durch alle Transaktionen teilen, die Y enthalten (rot und rosa). In diesem Fall ist Y der Antezedent und X ist der Konsekutivwert.

Maße für die Wirksamkeit von Assoziationsregeln

Die Stärke einer bestimmten Assoziationsregel wird durch zwei Hauptparameter gemessen: Unterstützung und Vertrauen. Die Unterstützung bezieht sich auf die Häufigkeit, mit der eine bestimmte Regel in der untersuchten Datenbank auftritt. Die Konfidenz bezieht sich auf die Häufigkeit, mit der sich eine bestimmte Regel in der Praxis als wahr erweist. Eine Regel kann in einem Datensatz eine hohe Korrelation aufweisen, weil sie sehr häufig vorkommt, aber in der Praxis viel seltener angewendet wird. Dies wäre ein Fall von hoher Unterstützung, aber niedrigem Vertrauen.

Umgekehrt kann eine Regel in einem Datensatz nicht besonders auffällig sein, aber eine weitere Analyse zeigt, dass sie sehr häufig vorkommt. Dies wäre ein Fall von hohem Vertrauen, aber geringer Unterstützung. Die Verwendung dieser Maße hilft den Analysten, Kausalität von Korrelation zu trennen und eine bestimmte Regel richtig zu bewerten.

Ein dritter Parameter, der so genannte Lift-Wert, ist das Verhältnis zwischen Vertrauen und Unterstützung. Ist der Lift-Wert negativ, besteht eine negative Korrelation zwischen den Datenpunkten. Wenn der Wert positiv ist, besteht eine positive Korrelation, und wenn das Verhältnis gleich 1 ist, besteht keine Korrelation.

Algorithmen für Assoziationsregeln

Beliebte Algorithmen, die Assoziationsregeln verwenden, sind AIS, SETM, Apriori und Variationen davon.

Der AIS-Algorithmus erzeugt und zählt Itemsets, während die Daten durchsucht werden. In Transaktionsdaten bestimmt der AIS-Algorithmus, welche großen Itemsets eine Transaktion enthielt, und neue Kandidaten-Itemsets werden erzeugt, indem die großen Itemsets mit anderen Items in den Transaktionsdaten erweitert werden.

Der SETM-Algorithmus erzeugt ebenfalls Kandidaten-Itemsets, während er eine Datenbank durchsucht, aber dieser Algorithmus berücksichtigt die Itemsets am Ende der Suche. Neue Kandidaten-Itemsets werden auf die gleiche Weise wie beim AIS-Algorithmus erzeugt, aber die Transaktions-ID der erzeugenden Transaktion wird zusammen mit dem Kandidaten-Itemset in einer sequentiellen Datenstruktur gespeichert. Am Ende des Durchlaufs wird die Unterstützungszahl der Kandidaten-Itemsets durch Aggregation der sequentiellen Struktur erzeugt. Der Nachteil sowohl des AIS- als auch des SETM-Algorithmus ist, dass jeder Algorithmus viele kleine Kandidaten-Itemsets erzeugen und zählen kann, wie aus den Veröffentlichungen von Dr. Saed Sayad, dem Autor von Real Time Data Mining, hervorgeht.

Das Kontrollflussdiagramm für den Apriori-Algorithmus

Beim Apriori-Algorithmus werden die Kandidaten-Itemsets nur aus den großen Itemsets des vorherigen Durchlaufs generiert. Das große Itemset des vorherigen Durchgangs wird mit sich selbst verknüpft, um alle Itemsets zu erzeugen, deren Größe um eins größer ist. Jedes generierte Itemset, dessen Teilmenge nicht groß ist, wird gelöscht. Die verbleibenden Teilmengen stellen die Kandidaten dar. Der A-priori-Algorithmus betrachtet jede Teilmenge eines häufigen Itemsets ebenfalls als häufiges Itemset. Mit diesem Ansatz reduziert der Algorithmus die Anzahl der in Frage kommenden Kandidaten, indem er nur die Itemsets untersucht, deren Unterstützungsgrad größer als der minimale Unterstützungsgrad ist, so Sayad.

Verwendung von Assoziationsregeln im Data Mining

Im Data Mining sind Assoziationsregeln nützlich, um das Kundenverhalten zu analysieren und vorherzusagen. Sie spielen eine wichtige Rolle bei der Kundenanalyse, der Warenkorbanalyse, der Gruppierung von Produkten, der Kataloggestaltung und dem Ladenlayout.

Programmierer verwenden Assoziationsregeln, um Programme zu erstellen, die maschinelles Lernen beherrschen. Maschinelles Lernen ist eine Form der künstlichen Intelligenz (KI), die darauf abzielt, Programme zu entwickeln, die in der Lage sind, ohne explizite Programmierung effizienter zu werden.

Verschiedene Data Mining Methoden im Kontext von Assoziationsregeln

Assoziationsregeln sind ein integraler Bestandteil des Data Minings, das eine Vielzahl von Methoden umfasst, um Muster und Zusammenhänge in großen Datensätzen zu identifizieren. Um den vollen Nutzen von Assoziationsregeln zu verstehen, ist es hilfreich, sie im Kontext anderer Data Mining-Methoden zu betrachten:

  1. Clusteranalyse: Diese Methode teilt Daten in Gruppen (Cluster) ein, die interne Homogenität und externe Heterogenität aufweisen. Assoziationsregeln können innerhalb dieser Cluster angewendet werden, um häufige Muster oder Kombinationen zu identifizieren, die spezifisch für jedes Cluster sind.
  2. Klassifikation und Entscheidungsbäume: Bei der Klassifikation werden Daten auf Basis definierter Kriterien klassifiziert. Entscheidungsbäume, eine beliebte Form der Klassifikation, nutzen hierarchische Strukturen zur Entscheidungsfindung. Assoziationsregeln können helfen, die Regeln zu identifizieren, die zur Klassifizierung verwendet werden, indem sie Beziehungen zwischen verschiedenen Attributen aufdecken.
  3. Neuronale Netze und Maschinelles Lernen: Diese fortschrittlichen Methoden imitieren die Funktionsweise des menschlichen Gehirns, um Muster in Daten zu erkennen. Assoziationsregeln können hier verwendet werden, um die von diesen Netzwerken identifizierten Muster zu interpretieren und zu verstehen.
  4. Regelbasierte Systeme: Diese Systeme verwenden eine Reihe von “Wenn-Dann”-Regeln zur Datenanalyse. Assoziationsregeln können zur Generierung solcher Regel-Sets genutzt werden, insbesondere in Situationen, in denen die Beziehungen zwischen verschiedenen Datenpunkten nicht offensichtlich sind.
  5. Zeitreihenanalyse: Diese Methode analysiert Datensequenzen über einen Zeitverlauf. Assoziationsregeln können Trends und Muster in zeitlichen Daten aufdecken, was besonders nützlich in Bereichen wie der Aktienmarktanalyse oder der Wettervorhersage ist.
  6. Text Mining: Text Mining extrahiert nützliche Informationen aus Textdaten. Assoziationsregeln können genutzt werden, um Muster und Trends in großen Textmengen zu erkennen, wie beispielsweise häufige Wortkombinationen in Kundenfeedbacks.

Indem man Assoziationsregeln im Zusammenhang mit diesen verschiedenen Data Mining-Methoden betrachtet, kann man ein tieferes Verständnis für ihre Vielseitigkeit und ihren Wert in der Datenanalyse gewinnen.

Geschichte

Obwohl die Konzepte hinter den Assoziationsregeln älter sind, wurde das Mining von Assoziationsregeln in den 1990er Jahren definiert, als die Informatiker Rakesh Agrawal, Tomasz Imieliński und Arun Swami eine auf Algorithmen basierende Methode entwickelten, um Beziehungen zwischen Artikeln in POS-Systemen (Point-of-Sale) zu finden. Durch die Anwendung der Algorithmen auf Supermärkte konnten die Wissenschaftler Verbindungen zwischen verschiedenen gekauften Artikeln, so genannte Assoziationsregeln, aufdecken und diese Informationen schließlich nutzen, um die Wahrscheinlichkeit vorherzusagen, mit der verschiedene Produkte zusammen gekauft werden.

Für Einzelhändler bot das Mining von Assoziationsregeln eine Möglichkeit, das Kaufverhalten ihrer Kunden besser zu verstehen. Aufgrund seiner Ursprünge im Einzelhandel wird Assoziationsregel-Mining oft auch als Warenkorbanalyse bezeichnet.

Mit den Fortschritten, die seit dem ursprünglichen Anwendungsfall von Assoziationsregeln in der Datenwissenschaft, der künstlichen Intelligenz und dem maschinellen Lernen erzielt wurden, und mit der wachsenden Zahl von Geräten, die Daten erzeugen, können Assoziationsregeln in einem breiteren Spektrum von Anwendungsfällen eingesetzt werden. Es werden mehr Daten generiert, was mehr Anwendungen für Assoziationsregeln bedeutet. KI und maschinelles Lernen ermöglichen die Analyse größerer und komplexerer Datensätze und die Suche nach Assoziationsregeln.