Wie Künstliche Intelligenz hilft mehr Erkenntnisse aus Big Data zu gewinnen

Wie kann künstliche Intelligenz (KI) – und ihre führende Disziplin, das maschinelle Lernen (ML) – dazu beitragen, bessere Geschäftseinblicke aus Big Data zu gewinnen? Sehen wir uns einige Möglichkeiten an – und werfen wir einen Blick auf die Zukunft von KI und die Analyse von Big Data.

Wie KI mit Big Data zusammenpasst

Heute wollen wir so viele Daten wie möglich – nicht nur, um bessere Einblicke in Geschäftsprobleme zu erhalten, die wir zu lösen versuchen, sondern auch, weil die maschinellen Lernmodelle umso besser werden, je mehr Daten wir ihnen zur Verfügung stellen. In dieser Hinsicht ist es ein positiver Zusammenhang.

Es besteht eine wechselseitige Beziehung zwischen Big Data und KI: Letztere ist für den Erfolg stark von ersterer abhängig und hilft Unternehmen gleichzeitig, das Potenzial ihrer Datenspeicher auf eine Weise zu erschließen, die früher mühsam oder unmöglich war.

KI schafft neue Methoden zur Datenanalyse

Eines der grundlegenden Geschäftsprobleme von Big Data lässt sich manchmal mit einer einfachen Frage zusammenfassen: Was nun? Im Sinne von: Wir haben all diese Daten und noch viel mehr davon – was machen wir also damit? In dem einst ohrenbetäubenden Trubel um Big Data war es nicht immer leicht, die Antworten auf diese Frage zu finden.

Außerdem erforderte die Beantwortung dieser Frage – oder die Ableitung von Erkenntnissen aus Ihren Daten – in der Regel viel manuellen Aufwand. KI schafft dafür neue Methoden. In gewissem Sinne sind KI und ML die neuen Methoden, ganz allgemein gesprochen.

Wenn es um die Analyse von Daten geht, mussten Ingenieure in der Vergangenheit eine in der Regel eine SQL-Abfrage verwenden. Aber da die Bedeutung von Daten immer weiter zunimmt, gibt es inzwischen eine Vielzahl von Möglichkeiten, um Erkenntnisse zu gewinnen. KI ist der nächste Schritt nach SQL. Was früher statistische Modelle waren, ist jetzt mit der Informatik konvergiert und zu KI und maschinellem Lernen geworden.

Die Datenanalyse wird immer weniger arbeitsintensiv

Infolgedessen ist die Verwaltung und Analyse von Daten weniger zeitaufwändig als in der Vergangenheit. Menschen spielen immer noch eine wichtige Rolle bei der Datenverwaltung und -analyse, aber Prozesse, die früher Tage oder Wochen (oder länger) gedauert haben, werden dank KI immer schneller.

KI und ML sind Werkzeuge, die einem Unternehmen helfen, seine Daten schneller und effizienter zu analysieren, als dies allein durch Mitarbeiter möglich wäre.

Es lässt sich mittlerweile ein Trend zu einer zweistufigen Strategie erkennen, wenn es um Big Data geht. Die Speicherebene und eine darüber liegende operative Analyseschicht. Die operative Analyseschicht ist diejenige, um die sich der CEO kümmert, auch wenn sie ohne die Speicherebene nicht funktionieren kann.

Für bestimmte Anwendungsfälle revolutioniert sie die Art und Weise, wie man Regeln, Entscheidungen und Vorhersagen trifft.

Dort werden Erkenntnisse aus den Daten gewonnen und datengesteuerte Entscheidungen getroffen. KI erweitert diese Analysewelt um völlig neue Möglichkeiten, halbautomatische Entscheidungen auf der Grundlage von Trainingsdaten zu treffen. Sie ist nicht für alle Datenfragen anwendbar, aber für bestimmte Anwendungsfälle revolutioniert sie die Art und Weise, wie man Regeln, Entscheidungen und Vorhersagen ohne komplexes menschliches Know-how treffen kann.

Mit anderen Worten: Erkenntnisse und Entscheidungen können schneller getroffen werden. Darüber hinaus kann die IT ähnliche Prinzipien – Einsatz von KI-Technologien zur Verringerung des manuellen, arbeitsintensiven Aufwands und zur Erhöhung der Geschwindigkeit – auf die Back-End-Aufgaben anwenden, von denen, seien wir ehrlich, nur wenige außerhalb der IT-Abteilung etwas wissen wollen.

“Die Echtzeit-Natur der Daten und die Tatsache, dass sie überall vorhanden sind – in verschiedenen Racks, Regionen und Clouds – bedeutet, dass Unternehmen sich von den traditionellen Methoden der Verwaltung und Analyse von Daten wegentwickeln müssen. Hier kommt KI ins Spiel. Vorbei sind die Zeiten, in denen Dateningenieure Daten immer wieder manuell kopierten und Datensätze erst Wochen nach der Anfrage eines Datenwissenschaftlers lieferten.

Der Mensch ist immer noch sehr wichtig

KI und maschinelles Lernen sind neben anderen aufstrebenden Technologien von entscheidender Bedeutung, wenn es darum geht, Unternehmen einen ganzheitlicheren Blick auf all diese Daten zu ermöglichen und Verbindungen zwischen wichtigen Datensätzen herzustellen. Es geht jedoch nicht darum, die menschliche Intelligenz und Einsicht auszuschalten.

Unternehmen müssen die Kraft menschlicher Intuition mit maschineller Intelligenz kombinieren, um diese Technologien zu erweitern. Genauer gesagt, muss ein KI-System sowohl von Daten als auch von Menschen lernen, um seine Aufgabe erfüllen zu können.

Unternehmen, die die Leistung von Mensch und Technologie erfolgreich kombiniert haben, können den Kreis derjenigen, die Zugang zu wichtigen Erkenntnissen aus Analysen haben, über Datenwissenschaftler und Unternehmensanalysten hinaus erweitern und gleichzeitig Zeit sparen und potenzielle Verzerrungen reduzieren, die sich aus der Interpretation von Daten durch Geschäftsanwender ergeben können. Dies führt zu effizienteren Geschäftsabläufen, schnelleren Erkenntnissen aus Daten und letztlich zu einer höheren Unternehmensproduktivität.

KI/ML kann genutzt werden, um häufige Datenprobleme zu beheben

Eines hat sich nicht geändert: Der Wert Ihrer Daten ist untrennbar mit ihrer Qualität verbunden. Schlechte Qualität bedeutet geringen (oder gar keinen) Wert. Dies ist etwas, das die so genannten Big Data mit der KI gemeinsam haben.

Das ‘schmutzige’ Geheimnis von ML-Projekten ist, dass 80 Prozent der Zeit für die Bereinigung und Vorbereitung der Daten aufgewendet wird.

Jedes Gespräch über maschinelles Lernen kommt immer wieder auf die Qualität der Unternehmensdaten zurück. Wenn die Daten schmutzig sind, kann man den daraus gewonnenen Erkenntnissen nicht trauen.

ML-Algorithmen können Ausreißerwerte und fehlende Werte erkennen, doppelte Datensätze finden, die dieselbe Entität mit leicht unterschiedlicher Terminologie beschreiben, Daten auf eine gemeinsame Terminologie normalisieren usw.

Analysen werden prädiktiver und präskriptiver

Einem ML-Algorithmus kann beigebracht werden, auf der Grundlage einer vorausschauenden Erkenntnis eine Entscheidung zu treffen oder eine Maßnahme zu ergreifen.

In der Vergangenheit war die Datenanalyse eher postmortem: “Hier ist, was passiert ist.” Zukunftsprognosen waren im Wesentlichen immer noch historische Analysen. KI und ML helfen dabei, eine neue Front zu eröffnen: “Hier ist, was passieren wird”. (Außerdem kann einem ML-Algorithmus beigebracht werden, auf der Grundlage dieser vorausschauenden Erkenntnis eine Entscheidung zu treffen oder eine Maßnahme zu ergreifen.

Heutzutage verlagert KI Big-Data-Entscheidungen durch den Einsatz von prädiktiver Analytik auf Punkte, die weiter in der Zeitachse liegen, und zwar auf genauere Weise. Traditionell basierten Big-Data-Entscheidungen auf vergangenen und aktuellen Datenpunkten, was im Allgemeinen zu einem linearen ROI führte. Mit KI hat dies epische und exponentielle Ausmaße angenommen. Die präskriptive Analytik, die KI nutzt, hat das Potenzial, unternehmensweite, zukunftsorientierte strategische Erkenntnisse zu liefern, die das Unternehmen voranbringen.

“Der Wert für das Unternehmen steigt mit jeder Stufe des Reifegradmodells der Analytik: angefangen bei der Prozess- und Datenzuordnung über die deskriptive Analytik bis hin zur prädiktiven Analytik und schließlich zur präskriptiven Analytik.

Wie geht es weiter mit KI und Big Data?

Wenn die meisten Teams noch lernen zu kriechen (oder zu laufen), ist das vielleicht in Ordnung, denn die Kombination aus KI und Big Data beginnt gerade erst, ihre Möglichkeiten zu offenbaren.

Ich persönlich sehe eine große Zukunft in intelligenterer Unternehmenssoftware. Meiner Meinung nach sind viele Geschäftsanwendungen noch immer analog aufgebaut.

Die Benutzer verbringen immer noch unverhältnismäßig viel Zeit damit, sich durch endlose Berichte zu quälen.

Die meisten Unternehmensanwendungen sind immer noch in der Designsprache von Papierformularen und Büchern aufgebaut. Das bedeutet, dass die Benutzer trotz der vielen Daten, die von den Unternehmen erfasst und gespeichert werden, immer noch übermäßig viel Zeit damit verbringen, sich durch endlose Berichte zu quälen, um nützliche Informationen zu finden.

Die Zukunft liegt in intelligenter Software, die all diese Daten nutzt, um Probleme zu lösen und uns Arbeit abnimmt, indem sie Kontext und Antworten liefert, anstatt nur schönere Berichte zu erstellen. Aus technischer Sicht werden intelligente Unternehmensanwendungen erfordern, dass wir einzelne KI/ML-Systeme mit anderen Systemen verbinden, damit sie miteinander kommunizieren und voneinander lernen können. Die Unternehmen werden endlich einen signifikanten ROI aus all den Daten sehen, die sie gespeichert haben.

Business Intelligence vs Big Data

Was ist Business Intelligence?

Business Intelligence umfasst die Datenanalyse mit dem Ziel, Trends, Muster und Erkenntnisse aufzudecken. Auf Daten basierende Erkenntnisse liefern genaue, scharfsinnige Einblicke in die Prozesse Ihres Unternehmens und die Ergebnisse, die diese Prozesse hervorbringen. Neben den Standardkennzahlen, wie z. B. Finanzkennzahlen, zeigt eine detaillierte Business Intelligence die Auswirkungen der aktuellen Praktiken auf die Leistung der Mitarbeiter, die Gesamtzufriedenheit des Unternehmens, die Umsätze, die Medienreichweite und eine Reihe anderer Faktoren.

Die Nutzung von Business Intelligence gibt nicht nur Aufschluss über den aktuellen Zustand Ihres Unternehmens, sondern ermöglicht auch Prognosen für die künftige Leistung. Durch die Analyse vergangener und aktueller Daten verfolgen robuste BI-Systeme Trends und zeigen auf, wie sich diese Trends im Laufe der Zeit fortsetzen werden.

Business Intelligence umfasst mehr als nur Beobachtung. BI geht über die Analyse hinaus, wenn auf der Grundlage der Ergebnisse Maßnahmen ergriffen werden. Die Möglichkeit, die realen, quantifizierbaren Ergebnisse von Maßnahmen und die Auswirkungen auf die Zukunft Ihres Unternehmens zu sehen, ist ein mächtiges Entscheidungsinstrument.

Was ist Big Data?

Der Begriff “Big Data” kann einfach als große Datensätze definiert werden, die über einfache Datenbanken und Datenverarbeitungsarchitekturen hinausgehen. So können beispielsweise Daten, die sich nicht ohne weiteres in Excel-Tabellen verarbeiten lassen, als Big Data bezeichnet werden.

Big Data umfasst den Prozess der Speicherung, Verarbeitung und Visualisierung von Daten. Es ist wichtig, die richtigen Tools zu finden, um eine optimale Umgebung zu schaffen, in der wertvolle Erkenntnisse aus Ihren Daten gewonnen werden können.

Die Einrichtung einer effektiven Big-Data-Umgebung umfasst den Einsatz von Infrastrukturtechnologien, die die Verarbeitung, Speicherung und Analyse von Daten erleichtern. Data Warehouses, Modellierungssprachenprogramme und OLAP-Würfel sind nur einige Beispiele dafür. Heutzutage verwenden Unternehmen oft mehr als eine Infrastruktur, um verschiedene Aspekte ihrer Daten zu verwalten.

Big Data liefert Unternehmen oft Antworten auf Fragen, von denen sie nicht wussten, dass sie sie stellen wollten: Wie hat sich die neue HR-Software auf die Leistung der Mitarbeiter ausgewirkt? Wie hängen die jüngsten Kundenrezensionen mit dem Umsatz zusammen? Die Analyse von Big Data-Quellen beleuchtet die Beziehungen zwischen allen Facetten Ihres Unternehmens.

Daher sind die in Big Data gesammelten Informationen von Natur aus nützlich. Unternehmen müssen relevante Ziele und Parameter festlegen, um wertvolle Erkenntnisse aus Big Data zu gewinnen.

Big Data vs Business Intelligence

Der Begriff “Big Data” hat für verschiedene Menschen unterschiedliche Bedeutungen. Beim Vergleich von Big Data und Business Intelligence verwenden einige den Begriff Big Data in Bezug auf den Umfang der Daten, während andere den Begriff in Bezug auf spezifische Analyseansätze verwenden.

Wie hängen also Business Intelligence und Big Data zusammen und wie lassen sie sich vergleichen? Big Data kann Informationen liefern, die nicht aus den eigenen Datenquellen eines Unternehmens stammen, und stellt somit eine umfassende Ressource dar. Sie sind daher ein Bestandteil von Business Intelligence und bieten einen umfassenden Einblick in Ihre Prozesse. Big Data sind oft die Informationen, die zu Erkenntnissen der Business Intelligence führen.

Auch hier ist Big Data Teil von Business Intelligence. Das bedeutet, dass sich beide durch die Menge und die Art der Daten unterscheiden, die sie umfassen. Da Business Intelligence ein Oberbegriff ist, sind die Daten, die als Teil von BI betrachtet werden, viel umfassender als die, die unter Big Data fallen. Business Intelligence umfasst alle Daten, von Verkaufsberichten in Excel-Tabellen bis hin zu großen Online-Datenbanken. Big Data hingegen besteht nur aus diesen großen Datensätzen.

Auch die Werkzeuge, die bei der Verarbeitung von Big Data und Business Intelligence zum Einsatz kommen, unterscheiden sich. Einfache Business-Intelligence-Software ist in der Lage, Standarddatenquellen zu verarbeiten, ist aber möglicherweise nicht für die Verwaltung von Big Data geeignet. Andere, fortschrittlichere Systeme sind speziell für die Verarbeitung von Big Data konzipiert.

Assoziationsregeln im Data Mining

Assoziationsregeln sind “Wenn-dann”-Aussagen, die helfen, die Wahrscheinlichkeit von Beziehungen zwischen Datenelementen innerhalb großer Datensätze in verschiedenen Arten von Datenbanken aufzuzeigen. Das Mining von Assoziationsregeln hat eine Reihe von Anwendungen und wird häufig eingesetzt, um Zusammenhänge zwischen Verkäufen in Transaktionsdaten oder in medizinischen Datensätzen zu entdecken.

Anwendungsfälle für Assoziationsregeln

In der Datenwissenschaft werden Assoziationsregeln verwendet, um Korrelationen und gemeinsame Vorkommen zwischen Datensätzen zu finden. Sie werden idealerweise verwendet, um Muster in Daten aus scheinbar unabhängigen Informationsbeständen wie relationalen Datenbanken und Transaktionsdatenbanken zu erklären. Die Verwendung von Assoziationsregeln wird manchmal auch als “Assoziationsregel-Mining” oder “Mining von Assoziationen” bezeichnet.

Im Folgenden finden Sie einige praktische Anwendungsfälle für Assoziationsregeln:

  • Medizin. Ärzte können Assoziationsregeln verwenden, um Patienten zu diagnostizieren. Bei der Diagnosestellung sind viele Variablen zu berücksichtigen, da viele Krankheiten die gleichen Symptome aufweisen. Mithilfe von Assoziationsregeln und einer auf maschinellem Lernen basierenden Datenanalyse können Ärzte die bedingte Wahrscheinlichkeit einer bestimmten Krankheit bestimmen, indem sie Symptombeziehungen in den Daten vergangener Fälle vergleichen. Wenn neue Diagnosen gestellt werden, kann das maschinelle Lernmodell die Regeln anpassen, um die aktualisierten Daten zu berücksichtigen.
  • Einzelhandel. Einzelhändler können Daten über Einkaufsmuster sammeln, indem sie Kaufdaten aufzeichnen, wenn die Strichcodes der Artikel von Kassensystemen gescannt werden. Modelle für maschinelles Lernen können in diesen Daten nach Übereinstimmungen suchen, um festzustellen, welche Produkte am wahrscheinlichsten zusammen gekauft werden. Der Einzelhändler kann dann seine Marketing- und Verkaufsstrategie anpassen, um von diesen Informationen zu profitieren.
  • Gestaltung der Benutzererfahrung (UX). Entwickler können Daten darüber sammeln, wie Verbraucher eine von ihnen erstellte Website nutzen. Sie können dann die Assoziationen in den Daten nutzen, um die Benutzeroberfläche der Website zu optimieren, indem sie z. B. analysieren, wo die Benutzer am ehesten klicken und was die Wahrscheinlichkeit maximiert, dass sie einer Aufforderung zum Handeln nachkommen.
  • Unterhaltung. Dienste wie Netflix und Spotify können Assoziationsregeln nutzen, um ihre Inhaltsempfehlungssysteme zu optimieren. Modelle für maschinelles Lernen analysieren Daten zum früheren Nutzerverhalten auf häufige Muster, entwickeln Assoziationsregeln und verwenden diese Regeln, um Inhalte zu empfehlen, mit denen ein Nutzer wahrscheinlich etwas anfangen kann, oder um Inhalte so zu organisieren, dass die interessantesten Inhalte für einen bestimmten Nutzer an erster Stelle stehen.

Wie Assoziationsregeln funktionieren

Bei der Suche nach Assoziationsregeln werden grundsätzlich Modelle des maschinellen Lernens eingesetzt, um Daten nach Mustern oder gemeinsamen Vorkommnissen in einer Datenbank zu analysieren. Dabei werden häufige Wenn-Dann-Verknüpfungen identifiziert, die ihrerseits Assoziationsregeln darstellen.

Eine Assoziationsregel besteht aus zwei Teilen: einem Antezedens (wenn) und einem Konsekutivum (dann). Ein Antezedens ist ein Element, das in den Daten gefunden wird. Eine Konsequenz ist ein Element, das in Kombination mit dem Antezedens gefunden wird.

Assoziationsregeln werden erstellt, indem die Daten nach häufigen Wenn-Dann-Mustern durchsucht werden und die Kriterien Unterstützung und Konfidenz verwendet werden, um die wichtigsten Beziehungen zu ermitteln. Die Unterstützung ist ein Hinweis darauf, wie häufig die Elemente in den Daten vorkommen. Die Konfidenz gibt an, wie oft die Wenn-Dann-Aussagen als wahr befunden werden. Eine dritte Metrik, der so genannte Lift, kann verwendet werden, um die Konfidenz mit der erwarteten Konfidenz zu vergleichen, d. h. wie oft eine Wenn-dann-Aussage erwartungsgemäß als wahr gefunden wird.

Assoziationsregeln werden aus Item-Sets berechnet, die aus zwei oder mehr Items bestehen. Wenn Regeln aus der Analyse aller möglichen Itemsets erstellt werden, könnte es so viele Regeln geben, dass die Regeln wenig Aussagekraft haben. Aus diesem Grund werden Assoziationsregeln in der Regel aus Regeln erstellt, die in den Daten gut repräsentiert sind.

Maße für die Wirksamkeit von Assoziationsregeln

Die Stärke einer bestimmten Assoziationsregel wird durch zwei Hauptparameter gemessen: Unterstützung und Konfidenz. Die Unterstützung bezieht sich darauf, wie oft eine bestimmte Regel in der zu untersuchenden Datenbank vorkommt. Die Konfidenz bezieht sich auf die Häufigkeit, mit der sich eine bestimmte Regel in der Praxis als wahr herausstellt. Eine Regel kann in einem Datensatz eine starke Korrelation aufweisen, weil sie sehr häufig vorkommt, aber in der Praxis weit weniger häufig angewendet wird. Dies wäre ein Fall von hoher Unterstützung, aber geringem Vertrauen.

Umgekehrt kann eine Regel in einem Datensatz nicht besonders auffallen, aber eine weitere Analyse zeigt, dass sie sehr häufig auftritt. Dies wäre ein Fall von hohem Vertrauen und geringer Unterstützung. Die Verwendung dieser Maße hilft Analysten, Kausalität von Korrelation zu trennen, und ermöglicht ihnen, eine bestimmte Regel richtig zu bewerten.

Ein dritter Wertparameter, der so genannte Lift-Wert, ist das Verhältnis von Konfidenz zu Unterstützung. Wenn der Lift-Wert negativ ist, besteht eine negative Korrelation zwischen den Datenpunkten. Ist der Wert positiv, besteht eine positive Korrelation, und wenn das Verhältnis gleich 1 ist, besteht keine Korrelation.

Algorithmen für Assoziationsregeln

Beliebte Algorithmen, die Assoziationsregeln verwenden, sind AIS, SETM, Apriori und Variationen der letzteren.

Mit dem AIS-Algorithmus werden beim Durchsuchen der Daten Item-Sets erzeugt und gezählt. In Transaktionsdaten bestimmt der AIS-Algorithmus, welche großen Itemsets eine Transaktion enthielten, und neue Kandidaten-Itemsets werden erstellt, indem die großen Itemsets mit anderen Items in den Transaktionsdaten erweitert werden.

Der SETM-Algorithmus erzeugt ebenfalls Kandidaten-Itemsets, während er eine Datenbank durchsucht, aber dieser Algorithmus berücksichtigt die Itemsets am Ende seiner Suche. Neue Kandidaten-Itemsets werden auf die gleiche Weise wie beim AIS-Algorithmus erzeugt, aber die Transaktions-ID der erzeugenden Transaktion wird zusammen mit dem Kandidaten-Itemset in einer sequentiellen Datenstruktur gespeichert. Am Ende des Durchlaufs wird die Unterstützungszahl der Kandidaten-Itemsets durch Aggregation der sequentiellen Struktur erstellt. Der Nachteil sowohl des AIS- als auch des SETM-Algorithmus besteht darin, dass jeder Algorithmus viele kleine Kandidaten-Itemsets erzeugen und zählen kann, wie aus den Veröffentlichungen von Dr. Saed Sayad, dem Autor von Real Time Data Mining, hervorgeht.

Beim Apriori-Algorithmus werden die Kandidaten-Itemsets nur aus den großen Itemsets des vorherigen Durchgangs generiert. Das große Itemset des vorherigen Durchgangs wird mit sich selbst verbunden, um alle Itemsets zu erzeugen, deren Größe um eins größer ist. Jedes generierte Itemset mit einer Teilmenge, die nicht groß ist, wird dann gelöscht. Die verbleibenden Teilmengen sind die Kandidaten. Der Apriori-Algorithmus betrachtet jede Teilmenge eines häufigen Itemsets auch als häufiges Itemset. Mit diesem Ansatz reduziert der Algorithmus die Anzahl der in Frage kommenden Kandidaten, indem er nur die Itemsets untersucht, deren Unterstützungsgrad größer als der minimale Unterstützungsgrad ist, so Sayad.

Verwendung von Assoziationsregeln im Data Mining

Beim Data Mining sind Assoziationsregeln nützlich, um das Kundenverhalten zu analysieren und vorherzusagen. Sie spielen eine wichtige Rolle bei der Kundenanalyse, der Warenkorbanalyse, dem Clustering von Produkten, der Kataloggestaltung und dem Ladenlayout.

Programmierer verwenden Assoziationsregeln, um Programme zu erstellen, die maschinelles Lernen beherrschen. Maschinelles Lernen ist eine Form der künstlichen Intelligenz (KI), die darauf abzielt, Programme mit der Fähigkeit zu entwickeln, effizienter zu werden, ohne explizit programmiert zu werden.

Beispiele für Assoziationsregeln im Data Mining

Ein klassisches Beispiel für Assoziationsregeln bezieht sich auf eine Beziehung zwischen Windeln und Bier. In dem scheinbar fiktiven Beispiel wird behauptet, dass Männer, die in ein Geschäft gehen, um Windeln zu kaufen, wahrscheinlich auch Bier kaufen. Daten, die darauf hindeuten würden, könnten wie folgt aussehen:

Ein Supermarkt hat 200.000 Kundentransaktionen. Etwa 4.000 Transaktionen, also etwa 2 % der Gesamtzahl der Transaktionen, beinhalten den Kauf von Windeln. Etwa 5.500 Transaktionen (2,75 %) beinhalten den Kauf von Bier. Davon beinhalten etwa 3.500 Transaktionen (1,75 %) sowohl den Kauf von Windeln als auch von Bier. Ausgehend von den Prozentsätzen müsste diese hohe Zahl viel niedriger sein. Die Tatsache, dass etwa 87,5 % der Windelkäufe mit dem Kauf von Bier einhergehen, deutet jedoch auf einen Zusammenhang zwischen Windeln und Bier hin.

Geschichte

Die Konzepte hinter den Assoziationsregeln lassen sich zwar schon früher zurückverfolgen, doch wurde das Assoziationsregel-Mining in den 1990er Jahren definiert, als die Informatiker Rakesh Agrawal, Tomasz Imieliński und Arun Swami eine auf Algorithmen basierende Methode entwickelten, um Beziehungen zwischen Artikeln in POS-Systemen (Point-of-Sale) zu finden. Durch die Anwendung der Algorithmen auf Supermärkte konnten die Wissenschaftler Verbindungen zwischen verschiedenen gekauften Artikeln, so genannte Assoziationsregeln, aufdecken und diese Informationen schließlich nutzen, um die Wahrscheinlichkeit vorherzusagen, dass verschiedene Produkte zusammen gekauft werden.

Für Einzelhändler bot das Assoziationsregel-Mining eine Möglichkeit, das Kaufverhalten der Kunden besser zu verstehen. Aufgrund seiner Ursprünge im Einzelhandel wird das Assoziationsregel-Mining oft auch als Warenkorbanalyse bezeichnet.

Mit den Fortschritten in der Datenwissenschaft, der künstlichen Intelligenz und dem maschinellen Lernen, die seit dem ursprünglichen Anwendungsfall für Assoziationsregeln erzielt wurden, und mit der zunehmenden Zahl von Geräten, die Daten generieren, können Assoziationsregeln in einem breiteren Spektrum von Anwendungsfällen eingesetzt werden. Es werden mehr Daten generiert, was mehr Anwendungen für Assoziationsregeln bedeutet. KI und maschinelles Lernen ermöglichen es, größere und komplexere Datensätze zu analysieren und nach Assoziationsregeln zu durchsuchen.

Was ist Data Mining?

Data Mining ist der Prozess der Aufdeckung von Mustern und anderen wertvollen Informationen aus großen Datensätzen. Angesichts der Entwicklung der Data-Warehousing-Technologie und der Zunahme von Big Data hat sich der Einsatz von Data-Mining-Techniken in den letzten Jahrzehnten rapide beschleunigt, da sie Unternehmen bei der Umwandlung ihrer Rohdaten in nützliches Wissen helfen. Trotz der Tatsache, dass die Technologie kontinuierlich weiterentwickelt wird, um Daten in großem Maßstab zu verarbeiten, stehen die Verantwortlichen immer noch vor Herausforderungen in Bezug auf Skalierbarkeit und Automatisierung.

Data Mining hat die Entscheidungsfindung in Unternehmen durch aufschlussreiche Datenanalysen verbessert. Die Data-Mining-Techniken, die diesen Analysen zugrunde liegen, lassen sich in zwei Hauptzwecke unterteilen: Sie können entweder den Zieldatensatz beschreiben oder durch den Einsatz von Algorithmen für maschinelles Lernen Ergebnisse vorhersagen. Diese Methoden werden eingesetzt, um Daten zu organisieren und zu filtern und die interessantesten Informationen herauszufiltern, von der Betrugserkennung über das Nutzerverhalten und Engpässe bis hin zu Sicherheitsverletzungen.

In Kombination mit Datenanalyse- und Visualisierungstools wie Apache Spark war das Eintauchen in die Welt des Data Mining noch nie so einfach und die Gewinnung relevanter Erkenntnisse noch nie so schnell. Die Fortschritte im Bereich der künstlichen Intelligenz werden den Einsatz in allen Branchen weiter beschleunigen. 

Data-Mining-Prozess

Der Data-Mining-Prozess umfasst eine Reihe von Schritten von der Datenerfassung bis zur Visualisierung, um wertvolle Informationen aus großen Datensätzen zu extrahieren. Wie bereits erwähnt, werden Data-Mining-Techniken eingesetzt, um Beschreibungen und Vorhersagen über einen Zieldatensatz zu erstellen. Datenwissenschaftler beschreiben Daten durch ihre Beobachtungen von Mustern, Assoziationen und Korrelationen. Außerdem klassifizieren und gruppieren sie Daten mithilfe von Klassifizierungs- und Regressionsmethoden und identifizieren Ausreißer für Anwendungsfälle wie die Spam-Erkennung.

Data Mining besteht in der Regel aus vier Hauptschritten: Festlegen von Zielen, Sammeln und Aufbereiten von Daten, Anwenden von Data-Mining-Algorithmen und Auswerten der Ergebnisse.

  1. Festlegen der Geschäftsziele: Dies kann der schwierigste Teil des Data-Mining-Prozesses sein, und viele Unternehmen verwenden zu wenig Zeit auf diesen wichtigen Schritt. Datenwissenschaftler und Unternehmensinteressenten müssen zusammenarbeiten, um das Geschäftsproblem zu definieren, das die Datenfragen und Parameter für ein bestimmtes Projekt bestimmt. Möglicherweise müssen Analysten auch zusätzliche Nachforschungen anstellen, um den Geschäftskontext richtig zu verstehen.
  2. Datenaufbereitung: Sobald der Umfang des Problems definiert ist, können Datenwissenschaftler leichter feststellen, welche Daten zur Beantwortung der für das Unternehmen relevanten Fragen beitragen werden. Sobald sie die relevanten Daten gesammelt haben, werden die Daten bereinigt, indem jegliches Rauschen, wie z. B. Duplikate, fehlende Werte und Ausreißer, entfernt wird. Je nach Datensatz kann in einem weiteren Schritt die Anzahl der Dimensionen reduziert werden, da zu viele Merkmale die nachfolgenden Berechnungen verlangsamen können. Datenwissenschaftler achten darauf, die wichtigsten Prädiktoren beizubehalten, um eine optimale Genauigkeit in allen Modellen zu gewährleisten.
  3. Modellbildung und Mustersuche: Je nach Art der Analyse können Datenwissenschaftler alle interessanten Datenbeziehungen untersuchen, z. B. sequenzielle Muster, Assoziationsregeln oder Korrelationen. Während hochfrequente Muster eine breitere Anwendung finden, können manchmal die Abweichungen in den Daten interessanter sein und Bereiche mit potenziellem Betrug aufzeigen.
  4. Deep-Learning-Algorithmen können auch zur Klassifizierung oder zum Clustern eines Datensatzes in Abhängigkeit von den verfügbaren Daten eingesetzt werden. Wenn die Eingabedaten mit Etiketten versehen sind (d. h. überwachtes Lernen), kann ein Klassifizierungsmodell zur Kategorisierung der Daten verwendet werden, oder alternativ kann eine Regression zur Vorhersage der Wahrscheinlichkeit einer bestimmten Zuordnung angewendet werden. Ist der Datensatz nicht beschriftet (d. h. unüberwachtes Lernen), werden die einzelnen Datenpunkte im Trainingssatz miteinander verglichen, um zugrundeliegende Ähnlichkeiten zu entdecken und sie anhand dieser Merkmale zu clustern.
  5. Auswertung der Ergebnisse und Umsetzung der Erkenntnisse: Sobald die Daten aggregiert sind, müssen die Ergebnisse ausgewertet und interpretiert werden. Die endgültigen Ergebnisse sollten gültig, neu, nützlich und verständlich sein. Wenn diese Kriterien erfüllt sind, können Organisationen dieses Wissen nutzen, um neue Strategien umzusetzen und die angestrebten Ziele zu erreichen.

Data-Mining-Techniken

Beim Data Mining werden verschiedene Algorithmen und Techniken eingesetzt, um große Datenmengen in nützliche Informationen umzuwandeln. Hier sind einige der gängigsten Verfahren:

Assoziationsregeln: Eine Assoziationsregel ist eine regelbasierte Methode zum Auffinden von Beziehungen zwischen Variablen in einem bestimmten Datensatz. Diese Methoden werden häufig für Warenkorbanalysen verwendet, die es Unternehmen ermöglichen, die Beziehungen zwischen verschiedenen Produkten besser zu verstehen. Das Verständnis der Konsumgewohnheiten von Kunden ermöglicht es Unternehmen, bessere Cross-Selling-Strategien und Empfehlungsmaschinen zu entwickeln.

Neuronale Netze: Neuronale Netze, die hauptsächlich für Deep-Learning-Algorithmen eingesetzt werden, verarbeiten Trainingsdaten, indem sie die Interkonnektivität des menschlichen Gehirns durch Schichten von Knoten nachahmen. Jeder Knoten besteht aus Eingaben, Gewichten, einer Vorspannung (oder Schwelle) und einer Ausgabe. Wenn der Ausgangswert einen bestimmten Schwellenwert überschreitet, wird der Knoten “ausgelöst” oder aktiviert und leitet die Daten an die nächste Schicht im Netzwerk weiter. Neuronale Netze erlernen diese Zuordnungsfunktion durch überwachtes Lernen und passen sich auf der Grundlage der Verlustfunktion durch den Prozess des Gradientenabstiegs an. Wenn die Kostenfunktion bei oder nahe Null liegt, können wir sicher sein, dass das Modell die richtige Antwort liefert.

Entscheidungsbaum: Diese Data-Mining-Technik verwendet Klassifizierungs- oder Regressionsmethoden, um potenzielle Ergebnisse auf der Grundlage einer Reihe von Entscheidungen zu klassifizieren oder vorherzusagen. Wie der Name schon sagt, wird eine baumartige Visualisierung verwendet, um die potenziellen Ergebnisse dieser Entscheidungen darzustellen.

K-nächster Nachbar (KNN): K-Nächster Nachbar, auch bekannt als KNN-Algorithmus, ist ein nicht-parametrischer Algorithmus, der Datenpunkte auf der Grundlage ihrer Nähe und Assoziation mit anderen verfügbaren Daten klassifiziert. Dieser Algorithmus geht davon aus, dass ähnliche Datenpunkte in der Nähe zueinander gefunden werden können. Daher versucht er, den Abstand zwischen den Datenpunkten zu berechnen, in der Regel durch den euklidischen Abstand, und ordnet dann eine Kategorie auf der Grundlage der häufigsten Kategorie oder des Durchschnitts zu.

Data-Mining-Anwendungen

Data-Mining-Techniken werden von Business-Intelligence- und Datenanalyse-Teams in großem Umfang eingesetzt und helfen ihnen, Wissen für ihr Unternehmen und ihre Branche zu gewinnen. Einige Anwendungsfälle für Data Mining sind:

Vertrieb und Marketing

Unternehmen sammeln eine große Menge an Daten über ihre Kunden und Interessenten. Durch die Beobachtung der Verbraucherdemografie und des Online-Nutzerverhaltens können Unternehmen die Daten zur Optimierung ihrer Marketingkampagnen nutzen, um die Segmentierung, Cross-Sell-Angebote und Kundenbindungsprogramme zu verbessern und so einen höheren ROI für Marketingmaßnahmen zu erzielen. Prädiktive Analysen können den Teams auch dabei helfen, die Erwartungen ihrer Stakeholder zu erfüllen, indem sie Schätzungen über die Rendite einer eventuellen Erhöhung oder Senkung der Marketinginvestitionen liefern.

Bildung

Bildungseinrichtungen haben begonnen, Daten zu sammeln, um ihre Studentenpopulationen zu verstehen und herauszufinden, welche Umgebungen für den Erfolg förderlich sind. Da immer mehr Kurse auf Online-Plattformen verlagert werden, können sie eine Vielzahl von Dimensionen und Metriken zur Beobachtung und Bewertung der Leistung nutzen, z. B. Tastenanschläge, Studentenprofile, Klassen, Universitäten, Zeitaufwand usw.

Operative Optimierung

Process Mining nutzt Data-Mining-Techniken, um die Kosten in allen betrieblichen Funktionen zu senken, so dass die Unternehmen effizienter arbeiten können. Dieses Verfahren hat dazu beigetragen, kostspielige Engpässe zu ermitteln und die Entscheidungsfindung der Unternehmensleiter zu verbessern.

Aufdeckung von Betrug

Während häufig auftretende Muster in Daten den Teams wertvolle Einblicke verschaffen können, ist die Beobachtung von Datenanomalien ebenfalls von Vorteil und hilft Unternehmen bei der Aufdeckung von Betrug. Dies ist ein bekannter Anwendungsfall bei Banken und anderen Finanzinstituten, aber auch SaaS-Unternehmen haben begonnen, diese Verfahren zu übernehmen, um gefälschte Benutzerkonten aus ihren Datensätzen zu entfernen.

Was ist Pandas in Python?

Pandas ist ein Open-Source-Python-Paket, das am häufigsten für Data Science/Datenanalyse und maschinelles Lernen verwendet wird. Es baut auf einem anderen Paket namens Numpy auf, das Unterstützung für mehrdimensionale Arrays bietet.

Als eines der beliebtesten Datenverarbeitungspakete arbeitet Pandas gut mit vielen anderen Data-Science-Modulen innerhalb des Python-Ökosystems zusammen und ist in der Regel in jeder Python-Distribution enthalten.

Was können Sie mit DataFrames mit Pandas machen?

Pandas macht es einfach, viele der zeitaufwändigen, sich wiederholenden Aufgaben zu erledigen, die mit der Arbeit mit Daten verbunden sind, einschließlich:

  • Bereinigung von Daten
  • Auffüllen von Daten
  • Normalisierung von Daten
  • Zusammenführen und Verknüpfen
  • Visualisierung von Daten
  • Statistische Analyse
  • Überprüfung der Daten
  • Laden und Speichern von Daten
  • Und vieles mehr

Was ist NumPy?

NumPy ist eine Python-Bibliothek, die für die Arbeit mit Arrays verwendet wird. Sie enthält auch Funktionen für die Arbeit im Bereich der linearen Algebra, Fourier-Transformation und Matrizen. NumPy wurde im Jahr 2005 von Travis Oliphant entwickelt. Es ist ein Open-Source-Projekt und Sie können es frei verwenden.

NumPy steht für Numerisches Python.

Warum NumPy verwenden?

In Python gibt es Listen, die den Zweck von Arrays erfüllen, aber sie sind langsam in der Verarbeitung.
NumPy zielt darauf ab, ein Array-Objekt bereitzustellen, das bis zu 50 Mal schneller ist als traditionelle Python-Listen.
Das Array-Objekt in NumPy heißt ndarray und bietet eine Menge unterstützender Funktionen, die die Arbeit mit ndarray sehr einfach machen.

Arrays werden sehr häufig in der Datenwissenschaft verwendet, wo Geschwindigkeit und Ressourcen sehr wichtig sind.

Warum ist NumPy schneller als Listen?

NumPy-Arrays werden im Gegensatz zu Listen an einer kontinuierlichen Stelle im Speicher gespeichert, so dass Prozesse sehr effizient auf sie zugreifen und sie manipulieren können. Dieses Verhalten wird in der Informatik als Lokalität der Referenz bezeichnet. Dies ist der Hauptgrund, warum NumPy schneller ist als Listen. Außerdem ist es für die Arbeit mit den neuesten CPU-Architekturen optimiert.

In welcher Sprache ist NumPy geschrieben?

NumPy ist eine Python-Bibliothek und ist teilweise in Python geschrieben, aber die meisten Teile, die schnelle Berechnungen erfordern, sind in C oder C++ geschrieben.

Wo befindet sich die Codebasis von NumPy?

Der Quellcode für NumPy befindet sich in diesem Github-Repository https://github.com/numpy/numpy

Data Storytelling: ein wichtiger Schlüssel für erfolgreiche Datenanalyse

Wenn Ihr Unternehmen damit begonnen hat, alle Arten von Daten zu sammeln und zu kombinieren, besteht der nächste schwer fassbare Schritt darin, daraus einen Wert zu schöpfen. Ihre Daten können eine enorme Menge an potenziellem Wert enthalten, aber es kann kein einziger Wert geschaffen werden, wenn die Erkenntnisse nicht aufgedeckt und in Aktionen oder Geschäftsergebnisse umgesetzt werden.

 „Die Fähigkeit, Daten zu nutzen, sie zu verstehen, zu verarbeiten, aus ihnen Wert zu schöpfen, sie zu visualisieren und zu kommunizieren – das wird in den nächsten Jahrzehnten eine enorm wichtige Fähigkeit sein.” (Chefökonom von Google, Dr. Hal R. Varian)

Mit der Verlagerung hin zu mehr Selbstbedienungsfunktionen in den Bereichen Analytik und Business Intelligence wird sich der Pool von Personen, die Erkenntnisse generieren, über Analysten und Datenanalysten hinaus erweitern. Diese neue Art von Datentools wird es den Mitarbeitern in allen Geschäftsbereichen erleichtern, selbständig auf Daten zuzugreifen und diese zu untersuchen. Infolgedessen werden wir in den Unternehmen eine noch nie dagewesene Anzahl von Erkenntnissen gewinnen. Wenn es uns jedoch nicht gelingt, die Kommunikation dieser Erkenntnisse zu verbessern, werden wir auch eine schlechtere Umwandlungsrate von Erkenntnissen in Werte erleben. Wenn eine Erkenntnis nicht verstanden wird und nicht überzeugend ist, wird niemand danach handeln und es wird keine Veränderung stattfinden.

Hier kommt Data Storytelling ins Spiel, eine Fähigkeit, die für das Zeitalter von Big Data entwickelt wurde. Auch wenn es unterschiedliche Interpretationen gibt, beschreiben die meisten Experten Data Storytelling als die Fähigkeit, Daten nicht nur in Form von Zahlen oder Diagrammen zu vermitteln, sondern als eine Geschichte, die Menschen verstehen können.

Die vielleicht am schwierigsten zu beherrschende Fähigkeit des Data Storytellings ist das Einfühlungsvermögen – zu verstehen, woher das Publikum kommt und auf welche Teile der Datenanalyse es reagieren wird.

So haben beispielsweise ein Vertriebsleiter und ein Softwareentwickler in der Regel gegensätzliche Weltanschauungen, und wenn man ihnen dieselben Daten vorlegt, werden sie wahrscheinlich sehr unterschiedlich reagieren. Daher ist es wichtig, dass derjenige, der mit der Datenanalyse betraut ist, in der Lage ist, die verschiedenen Standpunkte zu interpretieren und das relevante Material entsprechend zu präsentieren.

Es ist wichtig Erkenntnisse effektiv zu kommunizieren und die Perspektive eines Publikums zu verstehen, das möglicherweise nicht dieselbe Sichtweise teilt oder über vergleichbare Kenntnisse im Umgang mit Daten verfügt.

Wie funktioniert Data Storytelling?

Wenn Sie Ihre Erkenntnisse in eine Datengeschichte verpacken, bauen Sie eine Brücke für Ihre Daten zur einflussreichen, emotionalen Seite des Gehirns. Als Neurowissenschaftler die Auswirkungen detaillierter Informationen auf ein Publikum beobachteten, zeigten Gehirnscans, dass nur zwei Hirnregionen aktiviert wurden, die mit der Sprachverarbeitung in Verbindung stehen: Das Broca-Areal und das Wernicke-Areal. Wenn jemand jedoch in eine Geschichte vertieft ist, wurden mehr Hirnregionen aktiviert. Menschen hören Statistiken, aber sie fühlen Geschichten. Dieser subtile, aber wichtige Unterschied zahlt sich für Datenerzähler in einigen wichtigen Punkten aus:

Einprägsamkeit: Eine Studie des Stanford-Professors Chip Heath (Autor von Made to Stick) ergab, dass sich 63 % der Menschen an Geschichten erinnern können, aber nur 5 % an eine einzige Statistik.

Überzeugungskraft: In einer anderen Studie testeten Forscher zwei Varianten einer Broschüre für die Wohltätigkeitsorganisation Save the Children. Die auf einer Geschichte basierende Version übertraf die infografische Version in Bezug auf die Spenden pro Teilnehmer um 2,38 Dollar zu 1,14 Dollar. Verschiedene Statistiken über die Notlage afrikanischer Kinder waren weit weniger überzeugend als die Geschichte von Rokia, einem siebenjährigen Kind aus Mali, Afrika.

Engagement: Die Forscher fanden auch heraus, dass die Menschen in einen tranceartigen Zustand eintreten, in dem sie ihren intellektuellen Schutz fallen lassen und weniger kritisch und skeptisch sind. Anstatt sich über die Details aufzuregen, wollen die Zuschauer sehen, wohin die Geschichte sie führt. Wie der Mathematiker John Allen Paulos feststellte, “neigen wir beim Hören von Geschichten dazu, unseren Unglauben zu suspendieren, um unterhalten zu werden, während wir bei der Auswertung von Statistiken im Allgemeinen die gegenteilige Neigung haben, unseren Glauben zu suspendieren, um nicht betört zu werden.”

Aristoteles’ klassischer Fünf-Punkte-Plan, der dabei hilft, starke Wirkungen zu erzielen, lautet:

  • Liefern Sie eine Geschichte oder Aussage, die das Interesse des Publikums weckt.
  • Stellen Sie ein Problem oder eine Frage, die gelöst oder beantwortet werden muss.
  • Bieten Sie eine Lösung für das Problem an, das Sie angesprochen haben.
  • Beschreiben Sie die spezifischen Vorteile, die sich aus der Annahme der in Ihrer Lösung dargelegten Vorgehensweise ergeben.
  • Geben Sie eine Aufforderung zum Handeln an.
  • Ich habe meinen Bericht mit Hilfe von Diagrammen strukturiert, die mir ein besseres Verständnis meiner Daten ermöglichen sollten.

Ermitteln Sie genau, was die Idee Ihrer Geschichte ist. Fragen Sie sich: “Was will ich mit dieser Geschichte wirklich vermitteln?” Es geht nie um die Geschichte allein, sondern darum, was die Geschichte dazu beitragen kann, die Entscheidungsfindung zu verbessern. Was Sie zeigen, ist die Idee einer besseren Entscheidungsfindung oder Analytik.

Hier einige allgemeine Hinweis für die Vorbereitung ihrer Datengeschichte:

  • Beschriften Sie immer Ihre Achsen und geben Sie die Überschrift Ihrer Darstellung an.
  • Verwenden Sie bei Bedarf Legenden.
  • Verwenden Sie Farben, die dem Auge schmeicheln.
  • Verwenden Sie niemals Punkte zur Visualisierung, wenn Sie Zeitreihen kodieren.
  • Erstellen Sie eine Liste mit allen wichtigen Punkten, die Ihr Publikum über Ihre Geschichte, Ihr Bildmaterial oder Ihre Analyse wissen soll.
  • Kategorisieren Sie die Liste, bis Sie nur noch drei Hauptaussagen haben. Diese drei Punkte bilden die verbale Road-Map für Ihre Geschichte.

Wie können Sie eine Datengeschichte erzählen, die Menschen hilft, bessere Entscheidungen zu treffen? Lassen Sie uns überlegen, was eine Datenstory effektiv macht:

1. Sie muss relevant sein

Das bedeutet, dass der Inhalt (einschließlich der Texte und Bilder) zum aktuellen Wissensstand des Publikums passen und ihm helfen muss, ein bestimmtes Ziel zu erreichen.

Vielleicht handelt es sich um ein internes Publikum, z. B. eine Präsentation für die Unternehmensleitung über die Notwendigkeit, in eine bestimmte Strategie oder Taktik zu investieren. Oder es handelt sich um eine externe Zielgruppe, z. B. eine Kampagne, mit der Sie Kunden davon überzeugen wollen, Ihre Lösung auszuprobieren.

Überlegen Sie in jedem Fall, was für sie wichtig ist. Die besten Geschichten sprechen die Menschen an, und je konkreter die Person, desto besser.

2. Es muss eine klare Erzählung geben

Wenn es um das Erzählen von Geschichten geht, sind wir alle an einen traditionellen Erzählbogen mit einem Anfang, einer Mitte und einem Ende gewöhnt.

Für Datengeschichten bedeutet dies in der Regel, dass Sie eine Einführung in das Thema brauchen, bevor Sie in die Daten eintauchen. Außerdem müssen Sie mit einer konkreten Handlungsaufforderung schließen – ein weiterer Punkt, der eine Datengeschichte deutlich von einem einfachen Bericht unterscheidet.

Wenn Ihr Publikum keine Experten sind, ist es außerdem wichtig, eine einfache Sprache zu verwenden, damit Sie es nicht mit Fachtermini oder verwirrenden Akronymen verwirren.

3. Beginnen Sie damit, Ihrem Publikum zuzuhören

Zunächst müssen Sie herausfinden, wer Ihre Zielgruppe ist. Dann können Sie mit ihr sprechen und vielleicht zusätzliche Nachforschungen anstellen, um herauszufinden, was sie am meisten interessiert, welche Ziele sie verfolgen, was sie derzeit wissen, welche Entscheidungen getroffen werden müssen und welches zusätzliche Wissen ihnen helfen könnte, die Entscheidungen zu treffen, die ihnen helfen, ihre Ziele zu erreichen.

4. Bestimmen Sie die Daten, die wichtig sind

Wenn Sie Ihre Zielgruppe kennen, wissen Sie, nach welchen Daten Sie suchen und welche Sie einbeziehen sollten. Sie können quantitative Daten verwenden, z. B. zum Umsatz, zu Veränderungen im Zeitverlauf oder zur Anzahl der betroffenen Personen, oder Sie können qualitative Daten verwenden, z. B. zu Prozessen, Systemen oder Zitaten.

Fazit

Data Storytelling kann ein guter Weg sein, um Daten verständlich zu machen. Es kann Experten helfen, ihre Datenanalyse anderen zu vermitteln. Aber es hat auch eine Kehrseite. Zum Beispiel verstehen die Leute ohne weitere Informationen vielleicht nicht, dass Korrelation nicht dasselbe ist wie Kausalität. Und wenn Sie es falsch machen, könnten die Leute eine falsche Vorstellung von Ihren Ergebnissen bekommen, ohne zu verstehen, was Sie eigentlich sagen wollen.

Der Blickwinkel, aus dem eine Geschichte erzählt wird, verändert die Bedeutung der Geschichte. Daten und ihre Analyse können sehr genau sein, aber das Wissen jeder Person führt dazu, dass sie sie anders sieht. Die häufigsten Probleme treten auf, wenn Menschen zu viele oder zu wenige Informationen haben, wenn sie sich auf eine Sache zu sehr oder auf eine andere zu wenig konzentrieren oder wenn sie sich unter Druck gesetzt fühlen, zu handeln.

Es kommt auf die Geschichte an und darauf, wie Sie sie erzählen. Sie können Daten nutzen, um Trends aufzuzeigen, Vorhersagen zu treffen oder auch nur Ihre Gedanken zu visualisieren. Aber der Erzähler muss sich dessen bewusst sein und versuchen, mögliche Verzerrungen zu vermeiden. Die Zuhörer sollten sich auch ihrer eigenen Voreingenommenheit bewusst sein und bedenken, dass Datengeschichten manipulativ sein können, um absichtlich in die Irre zu führen. Aber das ist eine ganz andere Geschichte.

Programmiersprache R

R ist eine Programmiersprache und freie Softwareumgebung für statistische Berechnungen und Grafiken, die vom R Core Team und der R Foundation for Statistical Computing unterstützt wird. Die Sprache R ist unter Statistikern und Data Minern für die Entwicklung statistischer Software und Datenanalyse weit verbreitet.

Die offizielle R-Softwareumgebung ist ein GNU-Paket. Sie ist hauptsächlich in C, Fortran und R selbst geschrieben und ist unter der GNU General Public License frei verfügbar. Vorkompilierte ausführbare Dateien werden für verschiedene Betriebssysteme bereitgestellt. Obwohl R über eine Befehlszeilenschnittstelle verfügt, gibt es mehrere grafische Benutzeroberflächen von Drittanbietern, wie z. B. RStudio, eine integrierte Entwicklungsumgebung, und Jupyter, eine Schnittstelle für Notebooks.

Warum sollte man R für statistische Berechnungen und Grafiken verwenden?

R ist quelloffen und kostenlos!

R kann kostenlos heruntergeladen werden, da es unter den Bedingungen der GNU General Public License lizenziert ist. Sie können sich den Quellcode ansehen, um zu sehen, was unter der Haube passiert. Darüber hinaus sind die meisten R-Pakete unter der gleichen Lizenz verfügbar, so dass Sie sie auch in kommerziellen Anwendungen verwenden können, ohne Ihren Anwalt anrufen zu müssen.

R ist beliebt – und wird immer beliebter

Das IEEE veröffentlicht jedes Jahr eine Liste der beliebtesten Programmiersprachen. R lag 2016 auf Platz 5, gegenüber Platz 6 im Jahr 2015. Es ist eine große Sache, dass eine domänenspezifische Sprache wie R beliebter ist als eine Allzwecksprache wie C#. Dies zeigt nicht nur das wachsende Interesse an R als Programmiersprache, sondern auch an Bereichen wie Datenwissenschaft und maschinelles Lernen, in denen R häufig verwendet wird.

R läuft auf allen Plattformen

Es gibt R-Distributionen für alle gängigen Plattformen – Windows, Linux und Mac. R-Code, den Sie auf einer Plattform schreiben, kann problemlos auf eine andere portiert werden. Plattformübergreifende Interoperabilität ist ein wichtiges Merkmal in der heutigen Computerwelt – sogar Microsoft stellt seine begehrte .NET-Plattform auf allen Plattformen zur Verfügung, nachdem es die Vorteile einer Technologie erkannt hat, die auf allen Systemen läuft.

Wer R lernt, erhöht seine Chancen auf einen Job

Laut der von O’Reilly Media im Jahr 2014 durchgeführten Gehaltsstudie für Datenwissenschaftler liegt das Durchschnittsgehalt von Datenwissenschaftlern weltweit bei 98.000 US-Dollar. In den USA liegt die Zahl höher, nämlich bei 144.000 Dollar. Natürlich werden Sie nicht sofort einen Job bekommen, wenn Sie wissen, wie man R-Programme schreibt, denn ein Datenwissenschaftler muss mit einer Vielzahl von Tools jonglieren, um seine Arbeit zu erledigen. Selbst wenn Sie sich für eine Stelle als Softwareentwickler bewerben, können Sie sich mit R-Programmiererfahrung von der Masse abheben.

R wird von den größten Tech-Giganten verwendet

Die Übernahme durch Tech-Giganten ist immer ein Zeichen für das Potenzial einer Programmiersprache. Die Unternehmen von heute treffen ihre Entscheidungen nicht mehr aus einer Laune heraus. Jede wichtige Entscheidung muss durch eine konkrete Datenanalyse gestützt werden.

Unternehmen, die R verwenden

R ist die richtige Mischung aus Einfachheit und Leistung, und Unternehmen auf der ganzen Welt nutzen es, um kalkulierte Entscheidungen zu treffen. Im Folgenden finden Sie einige Beispiele dafür, wie führende Unternehmen der Branche R nutzen und zum R-Ökosystem beitragen.

Anwendungen der R-Programmierung

Data Science

Die Harvard Business Review bezeichnete Datenwissenschaftler als den “attraktivsten Job des 21. Jahrhunderts”. Glassdoor kürte ihn zum “besten Job des Jahres” für 2016. Mit dem Aufkommen von IoT-Geräten, die Terabytes und Terabytes an Daten erzeugen, die für bessere Entscheidungen genutzt werden können, ist Data Science ein Bereich, der nur noch aufwärts gehen kann. Einfach erklärt ist ein Datenwissenschaftler ein Statistiker mit einem zusätzlichen Vorteil: Programmierkenntnisse. Programmiersprachen wie R verleihen einem Datenwissenschaftler Superkräfte, die es ihm ermöglichen, Daten in Echtzeit zu sammeln, statistische und prädiktive Analysen durchzuführen, Visualisierungen zu erstellen und den Beteiligten verwertbare Ergebnisse mitzuteilen. Die meisten Kurse über Datenwissenschaft beinhalten R in ihrem Lehrplan, weil es das Lieblingswerkzeug der Datenwissenschaftler ist.

Statistisches Rechnen

R ist die beliebteste Programmiersprache unter Statistikern. Tatsächlich wurde sie ursprünglich von Statistikern für Statistiker entwickelt. Sie verfügt über ein reichhaltiges Paketarchiv mit mehr als 9100 Paketen mit allen erdenklichen statistischen Funktionen. Die ausdrucksstarke Syntax von R ermöglicht es Forschern – auch solchen mit nicht-informatischem Hintergrund -, Daten aus verschiedenen Datenquellen schnell zu importieren, zu bereinigen und zu analysieren.

R verfügt auch über Diagrammfunktionen, d. h. Sie können Ihre Daten grafisch darstellen und interessante Visualisierungen aus jedem Datensatz erstellen.

Maschinelles Lernen

R wird häufig für prädiktive Analysen und maschinelles Lernen eingesetzt. Es gibt verschiedene Pakete für gängige ML-Aufgaben wie lineare und nichtlineare Regression, Entscheidungsbäume, lineare und nichtlineare Klassifizierung und vieles mehr. Alle, von Enthusiasten des maschinellen Lernens bis hin zu Forschern, verwenden R, um Algorithmen des maschinellen Lernens in Bereichen wie Finanzen, Genforschung, Einzelhandel, Marketing und Gesundheitswesen zu implementieren.

Was ist Data Science?

Data Science verwendet wissenschaftliche Methoden, um Wissen in Daten zu finden. Es ist verwandt mit Data Mining, maschinellem Lernen und Big Data.

Data Science ist ein Konzept zur Vereinheitlichung von Statistik, Datenanalyse, Informatik und den damit verbundenen Methoden, um Phänomene mit Daten zu verstehen und zu analysieren. Sie verwendet Techniken und Theorien aus vielen Bereichen im Kontext von Mathematik, Statistik und Informatik.

Grundlagen

Data Science ist ein interdisziplinäres Feld, das sich darauf konzentriert, Wissen aus typischerweise großen Datensätzen zu extrahieren und das Wissen und die verwertbaren Erkenntnisse aus den Daten anzuwenden, um Probleme in einer Vielzahl von Anwendungsbereichen zu lösen.

Das Feld umfasst die Vorbereitung von Daten für die Analyse, die Formulierung von Data-Science-Problemen, die Analyse von Daten, die Entwicklung von datengesteuerten Lösungen und die Präsentation von Ergebnissen, um Entscheidungen auf höchster Ebene in einer breiten Palette von Anwendungsbereichen zu treffen.

Auswirkungen

Big Data wird sehr schnell zu einem unverzichtbaren Werkzeug für Unternehmen aller Größen. Die Verfügbarkeit und Interpretation von Big Data hat die Geschäftsmodelle alter Branchen verändert und die Schaffung neuer ermöglicht.

Was macht ein Data Scientist?

In den letzten zehn Jahren haben sich Data Scientists zu einem unverzichtbaren Bestandteil entwickelt und sind in immer mehr Unternehmen vertreten. Diese Fachleute sind gut ausgebildete, datengetriebene Personen mit hohen technischen Fähigkeiten, die in der Lage sind, komplexe quantitative Algorithmen zu erstellen, um große Mengen an Informationen zu organisieren und zu synthetisieren, die zur Beantwortung von Fragen und zum Vorantreiben der Strategie in ihrem Unternehmen verwendet werden.

Sie verfügen über einen starken quantitativen Hintergrund in Statistik und linearer Algebra sowie über Programmierkenntnisse mit Schwerpunkten in Data Warehousing, Mining und Modellierung, um Algorithmen zu erstellen und zu analysieren.

Was ist lineare Regression?

In der Statistik ist die lineare Regression eine Möglichkeit, die Beziehung zwischen einer oder mehreren Variablen zu modellieren. Eine dieser Variablen kann eine Antwortvariable sein (auch abhängige und unabhängige Variable genannt).

Wenn es nur eine erklärende Variable gibt, spricht man von einfacher linearer Regression. Wenn es zwei oder mehr Variablen gibt, wird sie als multivariate lineare Regression bezeichnet.

Die lineare Regression ist eine Methode, um herauszufinden, wie sich Dinge auf andere Dinge auswirken. Sie tut dies, indem sie lineare Funktionen verwendet, um die unbekannten Modellparameter vorherzusagen. Die lineare Regression wird auch als lineare Modellierung bezeichnet. Meistens verwenden wir den bedingten Mittelwert der Antwort bei gegebenen Werten für die erklärenden Variablen (oder Prädiktoren).

Die lineare Regression ist eine Möglichkeit, die bedingte Wahrscheinlichkeit einer Antwortvariablen in Abhängigkeit von den Werten einiger anderer Variablen zu ermitteln. Sie unterscheidet sich von der multivariaten Analyse, bei der es darum geht, die gemeinsame Wahrscheinlichkeitsverteilung aller Variablen zu finden.

Die lineare Regression war die erste Art der Regressionsanalyse, die rigoros untersucht und in der Praxis ausgiebig verwendet wurde, Die lineare Regression ist die erste Art der Regression, die untersucht und in der Praxis verwendet wurde. Sie wird verwendet, weil Modelle, die linear von ihren unbekannten Parametern abhängen, einfacher anzupassen sind als Modelle, die nicht linear von ihren Parametern abhängen. Und die statistischen Eigenschaften der resultierenden Schätzer sind einfach zu bestimmen.

Die lineare Regression hat viele praktische Anwendungen. Die meisten Anwendungen fallen in eine der beiden folgenden großen Kategorien:

  • Die lineare Regression wird verwendet, um die Zukunft vorherzusagen. Das Modell kann aus einem beobachteten Datensatz von Antwort- und erklärenden Variablen erstellt werden. Wenn Sie die Antwortvariable nicht haben, kann das angepasste Modell trotzdem verwendet werden, um sie vorherzusagen.
  • Wenn Sie sehen möchten, ob sich eine Antwort aufgrund von etwas ändert, wie z. B. das Alter einer Person, verwenden Sie die Regression. Es kann sehen, wie groß die Änderung ist und ob es eine Beziehung zwischen 2 Dingen gibt.

Lineare Regressionsmodelle werden oft mit dem Ansatz der kleinsten Quadrate angepasst, aber sie können auch auf andere Weise angepasst werden, z. B. durch Minimierung des “Mangels an Anpassung” in einer anderen Norm (wie bei der Regression der kleinsten absoluten Abweichungen) oder durch Minimierung einer bestraften Version der Kostenfunktion der kleinsten Quadrate wie bei der Ridge-Regression (L2-Norm-Strafe) und dem Lasso (L1-Norm-Strafe).

Umgekehrt kann der Ansatz der kleinsten Quadrate auch zur Anpassung von Modellen verwendet werden, die keine linearen Modelle sind. Obwohl die Begriffe “kleinste Quadrate” und “lineares Modell” eng miteinander verbunden sind, sind sie also nicht synonym.

Annahmen

In einem standardmäßigen linearen Regressionsmodell sind die Prädiktorvariablen und die Antwortvariablen miteinander verbunden. Es gibt viele Erweiterungen, die es ermöglichen, diese Beziehung entweder zu reduzieren oder zu entfernen. Diese Erweiterungen machen das Schätzverfahren komplexer und zeitaufwändiger.

Im Folgenden werden die wichtigsten Annahmen von linearen Standardregressionsmodellen mit Standardschätzverfahren (z. B. gewöhnliche kleinste Quadrate) aufgeführt:

  • Schwache Exogenität. Das bedeutet im Wesentlichen, dass die Prädiktorvariablen x als feste Werte und nicht als Zufallsvariablen behandelt werden können. Das bedeutet z. B., dass angenommen wird, dass die Prädiktorvariablen fehlerfrei sind. Obwohl diese Annahme in vielen Situationen nicht realistisch ist, führt das Weglassen dieser Annahme zu viel schwierigeren Fehler-in-Variablen-Modellen.
  • Linearität. Dies bedeutet, dass der Mittelwert der Antwortvariablen eine lineare Kombination der Parameter (Regressionskoeffizienten) und der Prädiktorvariablen ist. Beachten Sie, dass diese Annahme viel weniger restriktiv ist, als es auf den ersten Blick erscheinen mag. Da die Prädiktorvariablen als feste Werte behandelt werden, ist die Linearität eigentlich nur eine Einschränkung für die Parameter. Die Prädiktorvariablen selbst können beliebig transformiert werden, und es können sogar mehrere Kopien derselben zugrunde liegenden Prädiktorvariable hinzugefügt werden, die jeweils unterschiedlich transformiert werden.
  • Konstante Varianz (auch bekannt als Homoskedastizität). Dies bedeutet, dass die Varianz der Fehler nicht von den Werten der Prädiktorvariablen abhängt. Somit ist die Variabilität der Antworten für gegebene feste Werte der Prädiktoren gleich, unabhängig davon, wie groß oder klein die Antworten sind. Dies ist oft nicht der Fall, da eine Variable, deren Mittelwert groß ist, typischerweise eine größere Varianz hat als eine, deren Mittelwert klein ist.
  • Unabhängigkeit der Fehler. Dies setzt voraus, dass die Fehler der Antwortvariablen untereinander unkorreliert sind. (Tatsächliche statistische Unabhängigkeit ist eine stärkere Bedingung als das bloße Fehlen von Korrelation und wird oft nicht benötigt, obwohl sie ausgenutzt werden kann, wenn bekannt ist, dass sie gilt).

Über diese Annahmen hinaus beeinflussen mehrere andere statistische Eigenschaften der Daten stark die Leistung der verschiedenen Schätzverfahren:

  • Die statistische Beziehung zwischen den Fehlertermen und den Regressoren spielt eine wichtige Rolle bei der Entscheidung, ob ein Schätzverfahren wünschenswerte Stichprobeneigenschaften hat, wie z. B. unverzerrt und konsistent zu sein.
  • Die Anordnung, bzw. Wahrscheinlichkeitsverteilung der Prädiktorvariablen x hat einen großen Einfluss auf die Genauigkeit der Schätzungen von β. Stichprobenziehung und Versuchsplanung sind hochentwickelte Teilgebiete der Statistik, die Anleitungen geben, wie man Daten so erhebt, dass eine präzise Schätzung von β erreicht wird.

Interpretation

Ein angepasstes lineares Regressionsmodell kann verwendet werden, um die Beziehung zwischen einer einzelnen Prädiktorvariablen xj und der Antwortvariablen y zu identifizieren, wenn alle anderen Prädiktorvariablen im Modell “fest gehalten” werden. Genauer gesagt ist die Interpretation von βj die erwartete Änderung von y für eine Änderung von xj um eine Einheit, wenn die anderen Kovariablen konstant gehalten werden – d. h. der Erwartungswert der partiellen Ableitung von y nach xj. Im Gegensatz dazu kann der marginale Effekt von xj auf y unter Verwendung eines Korrelationskoeffizienten oder eines einfachen linearen Regressionsmodells, das nur xj mit y in Beziehung setzt, abgeschätzt werden; dieser Effekt ist die Gesamtableitung von y nach xj.

Bei der Interpretation von Regressionsergebnissen ist Vorsicht geboten, da einige der Regressoren möglicherweise keine marginalen Änderungen zulassen, während andere nicht fixiert werden können.