Wie Künstliche Intelligenz hilft mehr Erkenntnisse aus Big Data zu gewinnen

Wie kann künstliche Intelligenz (KI) – und ihre führende Disziplin, das maschinelle Lernen (ML) – dazu beitragen, bessere Geschäftseinblicke aus Big Data zu gewinnen? Sehen wir uns einige Möglichkeiten an – und werfen wir einen Blick auf die Zukunft von KI und die Analyse von Big Data.

Wie KI mit Big Data zusammenpasst

Heute wollen wir so viele Daten wie möglich – nicht nur, um bessere Einblicke in Geschäftsprobleme zu erhalten, die wir zu lösen versuchen, sondern auch, weil die maschinellen Lernmodelle umso besser werden, je mehr Daten wir ihnen zur Verfügung stellen. In dieser Hinsicht ist es ein positiver Zusammenhang.

Es besteht eine wechselseitige Beziehung zwischen Big Data und KI: Letztere ist für den Erfolg stark von ersterer abhängig und hilft Unternehmen gleichzeitig, das Potenzial ihrer Datenspeicher auf eine Weise zu erschließen, die früher mühsam oder unmöglich war.

KI schafft neue Methoden zur Datenanalyse

Eines der grundlegenden Geschäftsprobleme von Big Data lässt sich manchmal mit einer einfachen Frage zusammenfassen: Was nun? Im Sinne von: Wir haben all diese Daten und noch viel mehr davon – was machen wir also damit? In dem einst ohrenbetäubenden Trubel um Big Data war es nicht immer leicht, die Antworten auf diese Frage zu finden.

Außerdem erforderte die Beantwortung dieser Frage – oder die Ableitung von Erkenntnissen aus Ihren Daten – in der Regel viel manuellen Aufwand. KI schafft dafür neue Methoden. In gewissem Sinne sind KI und ML die neuen Methoden, ganz allgemein gesprochen.

Wenn es um die Analyse von Daten geht, mussten Ingenieure in der Vergangenheit eine in der Regel eine SQL-Abfrage verwenden. Aber da die Bedeutung von Daten immer weiter zunimmt, gibt es inzwischen eine Vielzahl von Möglichkeiten, um Erkenntnisse zu gewinnen. KI ist der nächste Schritt nach SQL. Was früher statistische Modelle waren, ist jetzt mit der Informatik konvergiert und zu KI und maschinellem Lernen geworden.

Die Datenanalyse wird immer weniger arbeitsintensiv

Infolgedessen ist die Verwaltung und Analyse von Daten weniger zeitaufwändig als in der Vergangenheit. Menschen spielen immer noch eine wichtige Rolle bei der Datenverwaltung und -analyse, aber Prozesse, die früher Tage oder Wochen (oder länger) gedauert haben, werden dank KI immer schneller.

KI und ML sind Werkzeuge, die einem Unternehmen helfen, seine Daten schneller und effizienter zu analysieren, als dies allein durch Mitarbeiter möglich wäre.

Es lässt sich mittlerweile ein Trend zu einer zweistufigen Strategie erkennen, wenn es um Big Data geht. Die Speicherebene und eine darüber liegende operative Analyseschicht. Die operative Analyseschicht ist diejenige, um die sich der CEO kümmert, auch wenn sie ohne die Speicherebene nicht funktionieren kann.

Für bestimmte Anwendungsfälle revolutioniert sie die Art und Weise, wie man Regeln, Entscheidungen und Vorhersagen trifft.

Dort werden Erkenntnisse aus den Daten gewonnen und datengesteuerte Entscheidungen getroffen. KI erweitert diese Analysewelt um völlig neue Möglichkeiten, halbautomatische Entscheidungen auf der Grundlage von Trainingsdaten zu treffen. Sie ist nicht für alle Datenfragen anwendbar, aber für bestimmte Anwendungsfälle revolutioniert sie die Art und Weise, wie man Regeln, Entscheidungen und Vorhersagen ohne komplexes menschliches Know-how treffen kann.

Mit anderen Worten: Erkenntnisse und Entscheidungen können schneller getroffen werden. Darüber hinaus kann die IT ähnliche Prinzipien – Einsatz von KI-Technologien zur Verringerung des manuellen, arbeitsintensiven Aufwands und zur Erhöhung der Geschwindigkeit – auf die Back-End-Aufgaben anwenden, von denen, seien wir ehrlich, nur wenige außerhalb der IT-Abteilung etwas wissen wollen.

“Die Echtzeit-Natur der Daten und die Tatsache, dass sie überall vorhanden sind – in verschiedenen Racks, Regionen und Clouds – bedeutet, dass Unternehmen sich von den traditionellen Methoden der Verwaltung und Analyse von Daten wegentwickeln müssen. Hier kommt KI ins Spiel. Vorbei sind die Zeiten, in denen Dateningenieure Daten immer wieder manuell kopierten und Datensätze erst Wochen nach der Anfrage eines Datenwissenschaftlers lieferten.

Der Mensch ist immer noch sehr wichtig

KI und maschinelles Lernen sind neben anderen aufstrebenden Technologien von entscheidender Bedeutung, wenn es darum geht, Unternehmen einen ganzheitlicheren Blick auf all diese Daten zu ermöglichen und Verbindungen zwischen wichtigen Datensätzen herzustellen. Es geht jedoch nicht darum, die menschliche Intelligenz und Einsicht auszuschalten.

Unternehmen müssen die Kraft menschlicher Intuition mit maschineller Intelligenz kombinieren, um diese Technologien zu erweitern. Genauer gesagt, muss ein KI-System sowohl von Daten als auch von Menschen lernen, um seine Aufgabe erfüllen zu können.

Unternehmen, die die Leistung von Mensch und Technologie erfolgreich kombiniert haben, können den Kreis derjenigen, die Zugang zu wichtigen Erkenntnissen aus Analysen haben, über Datenwissenschaftler und Unternehmensanalysten hinaus erweitern und gleichzeitig Zeit sparen und potenzielle Verzerrungen reduzieren, die sich aus der Interpretation von Daten durch Geschäftsanwender ergeben können. Dies führt zu effizienteren Geschäftsabläufen, schnelleren Erkenntnissen aus Daten und letztlich zu einer höheren Unternehmensproduktivität.

KI/ML kann genutzt werden, um häufige Datenprobleme zu beheben

Eines hat sich nicht geändert: Der Wert Ihrer Daten ist untrennbar mit ihrer Qualität verbunden. Schlechte Qualität bedeutet geringen (oder gar keinen) Wert. Dies ist etwas, das die so genannten Big Data mit der KI gemeinsam haben.

Das ‘schmutzige’ Geheimnis von ML-Projekten ist, dass 80 Prozent der Zeit für die Bereinigung und Vorbereitung der Daten aufgewendet wird.

Jedes Gespräch über maschinelles Lernen kommt immer wieder auf die Qualität der Unternehmensdaten zurück. Wenn die Daten schmutzig sind, kann man den daraus gewonnenen Erkenntnissen nicht trauen.

ML-Algorithmen können Ausreißerwerte und fehlende Werte erkennen, doppelte Datensätze finden, die dieselbe Entität mit leicht unterschiedlicher Terminologie beschreiben, Daten auf eine gemeinsame Terminologie normalisieren usw.

Analysen werden prädiktiver und präskriptiver

Einem ML-Algorithmus kann beigebracht werden, auf der Grundlage einer vorausschauenden Erkenntnis eine Entscheidung zu treffen oder eine Maßnahme zu ergreifen.

In der Vergangenheit war die Datenanalyse eher postmortem: “Hier ist, was passiert ist.” Zukunftsprognosen waren im Wesentlichen immer noch historische Analysen. KI und ML helfen dabei, eine neue Front zu eröffnen: “Hier ist, was passieren wird”. (Außerdem kann einem ML-Algorithmus beigebracht werden, auf der Grundlage dieser vorausschauenden Erkenntnis eine Entscheidung zu treffen oder eine Maßnahme zu ergreifen.

Heutzutage verlagert KI Big-Data-Entscheidungen durch den Einsatz von prädiktiver Analytik auf Punkte, die weiter in der Zeitachse liegen, und zwar auf genauere Weise. Traditionell basierten Big-Data-Entscheidungen auf vergangenen und aktuellen Datenpunkten, was im Allgemeinen zu einem linearen ROI führte. Mit KI hat dies epische und exponentielle Ausmaße angenommen. Die präskriptive Analytik, die KI nutzt, hat das Potenzial, unternehmensweite, zukunftsorientierte strategische Erkenntnisse zu liefern, die das Unternehmen voranbringen.

“Der Wert für das Unternehmen steigt mit jeder Stufe des Reifegradmodells der Analytik: angefangen bei der Prozess- und Datenzuordnung über die deskriptive Analytik bis hin zur prädiktiven Analytik und schließlich zur präskriptiven Analytik.

Wie geht es weiter mit KI und Big Data?

Wenn die meisten Teams noch lernen zu kriechen (oder zu laufen), ist das vielleicht in Ordnung, denn die Kombination aus KI und Big Data beginnt gerade erst, ihre Möglichkeiten zu offenbaren.

Ich persönlich sehe eine große Zukunft in intelligenterer Unternehmenssoftware. Meiner Meinung nach sind viele Geschäftsanwendungen noch immer analog aufgebaut.

Die Benutzer verbringen immer noch unverhältnismäßig viel Zeit damit, sich durch endlose Berichte zu quälen.

Die meisten Unternehmensanwendungen sind immer noch in der Designsprache von Papierformularen und Büchern aufgebaut. Das bedeutet, dass die Benutzer trotz der vielen Daten, die von den Unternehmen erfasst und gespeichert werden, immer noch übermäßig viel Zeit damit verbringen, sich durch endlose Berichte zu quälen, um nützliche Informationen zu finden.

Die Zukunft liegt in intelligenter Software, die all diese Daten nutzt, um Probleme zu lösen und uns Arbeit abnimmt, indem sie Kontext und Antworten liefert, anstatt nur schönere Berichte zu erstellen. Aus technischer Sicht werden intelligente Unternehmensanwendungen erfordern, dass wir einzelne KI/ML-Systeme mit anderen Systemen verbinden, damit sie miteinander kommunizieren und voneinander lernen können. Die Unternehmen werden endlich einen signifikanten ROI aus all den Daten sehen, die sie gespeichert haben.

Was ist Customer Intelligence?

Customer Intelligence ist der Prozess des Sammelns und Analysierens von Kundendaten und deren Umwandlung in umsetzbare Erkenntnisse.

Sie beantwortet nicht nur die Fragen nach dem Wer, Was, Wann und Wo, sondern auch nach dem Warum.

Mit Hilfe von Customer Intelligence können Sie die Kommunikation mit Ihrer Zielgruppe verbessern, indem Sie die Informationen bereitstellen, die Sie für die Segmentierung von Kampagnen, die Beseitigung von Engpässen bei der Kundenansprache und eine Vielzahl anderer Anwendungsfälle benötigen.

So kann Customer Intelligence beispielsweise für die psychografische Segmentierung verwendet werden.

Psychografische Daten sind zwar etwas langatmig, aber sie helfen Ihnen, Ihre Kunden auf einer intrinsischen Ebene zu verstehen.

Aber das ist nicht der einzige Grund, warum Customer Intelligence Ihnen dabei helfen kann, Ihren Geschäftserfolg zu maximieren.

Warum brauche ich Customer Intelligence ?

Customer Intelligence ist der universelle Weg nach vorne für jede Marke mit eCommerce-Ambitionen. Indem Sie den Schwerpunkt auf den Kunden und seine Daten legen, können Sie:

  1. das Kundenerlebnis personalisieren und verbessern
  2. was unweigerlich zu höheren Konversionsraten, Loyalität und Kundenbindung führt.

Ich sage ” unweigerlich”, weil laut einer Harvard-Business-Studie die Kundenanalyse (und damit die Kundenintelligenz) das Kundenerlebnis um 60 % verbessert hat, was zu einer besseren Kundenbindung von 58 % führte (die Kunden kommen immer wieder zurück).

Und wenn man es genau nimmt, ist es natürlich wichtig, den Kunden zu verstehen, wenn es um sein Einkaufserlebnis geht: Ein holländischer Junge möchte nicht, dass ihm beim Online-Surfen nach Laufschuhen ein Vorschlag für High Heels angezeigt wird, die es nur in Spanien gibt.

Kundenintelligenz ermöglicht Personalisierung. So einfach ist das.

Und wissen Sie was? Der London Research Customer Analytics Report zeigt, dass 69 % der Unternehmen, die im Bereich Customer Intelligence führend sind, ihre Investitionen in diesem Bereich erhöhen.

Wie erhalte ich Customer Intelligence?

Customer-Intelligence-Daten können auf verschiedene Weise gesammelt werden, aber lassen Sie uns kurz auf die gängigsten Methoden eingehen:

  1. Kundenbefragungen oder Fokusgruppen
  2. Kunden- oder Marktforschungsumfragen
  3. Verhaltensdaten der Website

Wie nutze ich Customer Intelligence?

Nach der Durchführung der erforderlichen Kundenforschung sollten Sie über verschiedene Datenpunkte verfügen, die Ihre Zielgruppe und die verschiedenen Profile (oder Personas), die zu ihr gehören, repräsentieren.

Um Daten in Intelligenz zu verwandeln, müssen Sie die verschiedenen Punkte in einen größeren Kontext integrieren. Zum Beispiel können Sie die folgenden Datenpunkte von mehreren hundert Besuchern haben:

  • Ort: München, Deutschland
  • Browser: Chrome
  • Gerät: iPhone
  • Referrer: Facebook
  • Mikro-Conversions: Click-through auf das Produktabzeichen “Saison-Favorit” auf der Produktseite, Add-to-cart auf die Meldung “nur noch 5 Stück dieses Produkts” auf der Produktdetailseite

Übersetzt in Kundeninformationen könnte das in etwa so aussehen:

Website-Besucher in München, die von Facebook über ein iPhone (Chrome) kommen, reagieren positiv auf Social-Proof-Botschaften, wenn sie auf der Produktübersichtsseite mit einem Überangebot an Produkten konfrontiert werden. Personen, die auf Social Proof reagieren, wenden sich in Zeiten der Unsicherheit in der Regel an andere, um eine Entscheidung zu treffen.

Dieses Segment wird auch durch Meldungen über Nachfrageüberhang und Knappheit auf der Produktdetailseite motiviert. Diese Tendenz veranlasst die Nutzer dazu, entschlossen zu handeln, weil sie befürchten, den Kauf des ausgewählten Produkts zu verpassen.

Damit haben Sie ein neues Segment geschaffen, das in anderen Kanälen getestet werden kann.

Für den Online-Handel sind diese Informationen besonders interessant, um die Konversion (Akquisition, Bestellwert und Upsell) und ein effektives Omnichannel-Marketing zu steigern.

Um noch einen Schritt weiter zu gehen, können Sie diese Informationen in Erkenntnisse umwandeln. Die Erkenntnisse aus den Kundeninformationen können genutzt werden, um die Relevanz des Kundenerlebnisses zu verbessern und sicherzustellen, dass Ihre Botschaften bei der Zielgruppe ankommen.

Ausgehend von der obigen Beschreibung können Sie dies in Ihre Kommunikation implementieren, indem Sie Social Proof/Übernachfrage-Knappheitsnachrichten für dieses Segment verwenden. Eine Facebook-Werbekampagne kann zum Beispiel mit einer Mischung aus sozialem Beweis und Verknappung erstellt werden.

Customer Intelligence liefert den Kontext, in dem Kaufentscheidungen getroffen werden, sodass Sie die Erkenntnisse kanalübergreifend anwenden können, um die Konversion zu steigern.

Wie kann ich die Customer Intelligence maximieren?

Die Gewinnung von Kundeninformationen und ihre anschließende Nutzung ist der erste Teil. Aber jeder motivierte eCommerce-Profi möchte wissen, wie er die Kundeninformationen maximieren kann.

Um es Ihnen leicht zu machen, habe ich es in 4 einfache Schritte unterteilt, die Sie befolgen können:

  1. Entwickeln Sie eine Customer Intelligence-Strategie
  2. Verbessern Sie Ihre Digital Analytics Maturity
  3. Investieren Sie in Technologie
  4. Machen Sie das Beste aus Ihren Daten

Wenn es Ihnen gelingt, diese Schritte erfolgreich in Ihre Unternehmensstrategie zu integrieren, können Sie sich selbst auf die Schulter klopfen.

Aber vergessen Sie nicht, dass diese Schritte mit einem Mandat von der Führungsebene abwärts beginnen müssen.

Die Wichtigkeit von Datenanalysen

Was bedeutet es, datengesteuerte Entscheidungen zu treffen? Es bedeutet, strategische Entscheidungen auf der Grundlage von Datenanalysen und -interpretationen zu treffen. Ein datengesteuerter Ansatz ermöglicht es Unternehmen und Einzelpersonen, ihre Daten mit dem Ziel zu untersuchen und zu organisieren, ihre Kunden und Verbraucher besser zu bedienen.

Datengesteuert zu sein bedeutet, Fakten, Messgrößen und Daten zu nutzen, um strategische Geschäftsentscheidungen zu treffen, die mit den eigenen Zielen und Initiativen übereinstimmen. Wenn Unternehmen den vollen Wert ihrer Daten erkennen, bedeutet dies, dass jeder in die Lage versetzt wird, täglich bessere Entscheidungen auf der Grundlage von Daten zu treffen. Dies wird jedoch nicht einfach durch die Auswahl der geeigneten Analysetechnologie erreicht, um die nächste strategische Chance zu identifizieren.

Um zu lernen, wie man datengestützte Entscheidungen trifft, muss man verstehen, wie man Daten analysiert. In diesem Artikel werden wir die Welt der Datenanalyse durchqueren, um ihre Feinheiten besser zu verstehen.

Was sind Daten?

Daten sind eine Abstraktion des realen Lebens. Das heißt, sie stellen Menschen, Orte und Dinge dar. Sie sind eine Momentaufnahme in der Zeit, die etwas darstellt oder festhält, das sich bewegt und verändert.

Was ist Datenanalyse?

Die Datenanalyse ist ein Prozess der Überprüfung, Bereinigung, Umwandlung und Modellierung von Daten mit dem Ziel, nützliche Informationen zu entdecken, Schlussfolgerungen zu ziehen und die Entscheidungsfindung zu unterstützen. Die Datenanalyse hat viele Facetten und Ansätze, umfasst unterschiedliche Techniken unter einer Vielzahl von Namen und wird in verschiedenen Bereichen der Wirtschaft, Wissenschaft und Sozialwissenschaften eingesetzt. In der heutigen Geschäftswelt spielt die Datenanalyse eine Rolle, wenn es darum geht, Entscheidungen wissenschaftlicher zu treffen und Unternehmen zu helfen, effektiver zu arbeiten.

Wie wir die Datenanalyse in Unternehmen genutzt?

Die Datenanalyse ist für die Unternehmen von heute wichtig, weil datengestützte Entscheidungen die einzige Möglichkeit sind, wirklich sicher zu sein. Einige erfolgreiche Unternehmen mögen auf einer Vermutung beruhen, aber fast alle erfolgreichen Geschäftsentscheidungen sind datengestützt.

Datenanalysen geben Ihnen mehr Einblicke in Ihre Kunden und ermöglichen es Ihnen, den Kundenservice auf deren Bedürfnisse zuzuschneiden, mehr Personalisierung zu bieten und stärkere Beziehungen zu ihnen aufzubauen.

Die Datenanalyse kann Ihnen helfen, Ihre Prozesse zu rationalisieren, Geld zu sparen und Ihren Gewinn zu steigern. Wenn Sie besser verstehen, was Ihr Publikum will, verschwenden Sie weniger Zeit mit der Erstellung von Anzeigen und Inhalten, die nicht den Interessen Ihrer Zielgruppe entsprechen.

Warum ist die Datenanalyse wichtig?

Die Datenanalyse ist einer der wichtigsten Prozesse, den Unternehmen nutzen können, um die richtigen Entscheidungen zu treffen. In diesem Informationszeitalter gibt es kaum ein Unternehmen, das keine Datenanalyse benötigt, um die richtigen Entscheidungen treffen zu können.

Effektive Datenanalyse ist eine Fähigkeit, die im Finanzwesen, im Einzelhandel, in der Medizin und im Gesundheitswesen und sogar in der Welt des Sports angewendet werden kann. Der FC Liverpool zum Beispiel hat in den letzten zwei Jahren immer wieder Weltklasseleistungen erbracht und damit die Premier League dominiert – das Geheimnis ist die Datenanalyse. Sie ist eine universelle Sprache, und sie ist heute wichtiger als je zuvor.

Arten der Datenanalyse

Es gibt verschiedene Arten der Datenanalyse, je nachdem, was Sie erreichen wollen;

  • Deskriptive Analyse: Hier geht es darum, vergangene Daten zu betrachten und daraus Erkenntnisse zu ziehen. Dies ist die häufigste Art der Datenanalyse. Sie wird häufig bei der Verfolgung von Leistungsindikatoren (Key Performance Indicators, KPIs), Umsätzen, Leads und mehr eingesetzt.
  • Diagnostische Analyse: Hier geht es darum, zu ermitteln, warum etwas passiert ist. Sobald Ihre deskriptive Analyse zeigt, dass etwas Negatives oder Positives passiert ist, kann eine diagnostische Analyse durchgeführt werden, um den Grund herauszufinden. Ein Unternehmen stellt vielleicht fest, dass die Zahl der Leads im Oktober zugenommen hat, und nutzt die diagnostische Analyse, um festzustellen, welche Marketingmaßnahmen am meisten dazu beigetragen haben.
  • Prädiktive Analyse: Hier geht es darum, vorherzusagen, was in der Zukunft wahrscheinlich passieren wird. Bei dieser Art von Forschung werden aus den Daten der Vergangenheit Trends abgeleitet, aus denen dann Vorhersagen für die Zukunft getroffen werden. Zum Beispiel: Was geschah mit dem Umsatz im letzten heißen Sommer? Wie viele Wettermodelle sagten einen heißen Sommer in diesem Jahr voraus?
  • Prädiktive Analyse: Hier werden die Informationen aus den drei vorangegangenen Arten der Datenanalyse kombiniert und ein Aktionsplan für die Organisation erstellt, um das Problem oder die Entscheidung zu bewältigen. Hier werden datengesteuerte Entscheidungen getroffen.

Der Prozess der Datenanalyse

Im Folgenden finden Sie die Leitlinien für eine effektive Analyse Ihrer Daten. Sie lauten;

1. Identifizieren Sie Ihre Fragen

Bei der Analyse Ihrer Organisations- oder Geschäftsdaten müssen Sie mit der/den richtigen Frage(n) beginnen. Die Fragen sollten messbar, klar und prägnant sein. Entwerfen Sie Ihre Fragen so, dass sie potenzielle Lösungen für Ihr spezifisches Problem oder Ihre Chance entweder qualifizieren oder disqualifizieren.

2. Datenerhebung

Nachdem Sie Ihre Frage klar definiert haben, ist es nun an der Zeit, Ihre Daten zu sammeln. Denken Sie bei der Sammlung und Organisation Ihrer Daten an diese wichtigen Punkte, damit Sie Ihre gesammelten Daten in einer guten Benennungskonvention und einem geeigneten Speichersystem organisieren können.

3. Datenbereinigung

Nach der Verarbeitung und Organisation können die Daten unvollständig sein, Duplikate enthalten oder Fehler aufweisen. Die Notwendigkeit der Datenbereinigung ergibt sich aus Problemen bei der Eingabe und Speicherung der Daten. Bei der Datenbereinigung geht es darum, diese Fehler zu vermeiden und zu korrigieren. Zu den üblichen Aufgaben gehören der Abgleich von Datensätzen, die Identifizierung ungenauer Daten, die Gesamtqualität der vorhandenen Daten, die Deduplizierung und die Segmentierung von Spalten. Solche Datenprobleme können auch durch eine Vielzahl von Analysetechniken ermittelt werden.

4. Analysieren Sie die Daten

Nachdem Sie die Daten bereinigt haben, ist es Zeit für eine tiefergehende Datenanalyse. Beginnen Sie damit, Ihre Daten auf verschiedene Weise zu manipulieren, z. B. indem Sie sie grafisch darstellen und Korrelationen finden oder indem Sie eine Pivot-Tabelle in Excel erstellen. Mit einer Pivot-Tabelle können Sie Daten nach verschiedenen Variablen sortieren und filtern und den Mittelwert, das Maximum, das Minimum und die Standardabweichung Ihrer Daten berechnen. Wenn Sie die Daten bearbeiten, stellen Sie vielleicht fest, dass Sie genau die Daten haben, die Sie brauchen. Wahrscheinlicher ist jedoch, dass Sie Ihre ursprüngliche Frage überarbeiten oder weitere Daten sammeln müssen. In jedem Fall hilft Ihnen diese erste Analyse von Trends, Korrelationen, Schwankungen und Ausreißern, Ihre Datenanalyse auf die Beantwortung Ihrer Fragen und etwaiger Einwände anderer zu konzentrieren.

5. Einblicke gewinnen

Nachdem Sie Ihre Daten analysiert und möglicherweise weitere Nachforschungen angestellt haben, ist es nun an der Zeit, Ihre Ergebnisse zu interpretieren. Denken Sie bei der Interpretation Ihrer Analyse daran, dass Sie eine Hypothese niemals beweisen können, sondern dass, egal wie viele Daten Sie sammeln, der Zufall Ihre Ergebnisse immer verfälschen kann.

Stellen Sie sich bei der Interpretation der Ergebnisse Ihrer Daten die folgenden Schlüsselfragen:

  • Welche Fragen werden verwertbare Erkenntnisse liefern?
  • Werden die Antworten auf meine Fragen von Bedeutung sein?
  • Sind die Antworten auf meine Fragen richtig?

Wenn Ihre Interpretation der Daten all diesen Fragen und Überlegungen standhält, dann sind Sie wahrscheinlich zu einer produktiven Schlussfolgerung gelangt. Der einzige verbleibende Schritt besteht darin, die Ergebnisse Ihrer Datenanalyse zu nutzen, um Ihre beste Vorgehensweise zu bestimmen.

Worauf Sie für eine effiziente Datenanalyse achten sollten:

Die folgenden Eigenschaften sollten Sie sich aneignen, um eine effiziente Datenverwaltung zu gewährleisten. Es handelt sich dabei lediglich um Richtlinien, und das sind sie;

  • Seien Sie zielstrebig und paranoid, was die Qualität Ihrer Daten angeht.
  • Seien Sie skeptisch gegenüber Ihren Daten. D.h. eine Abweichung in Ihren Daten ist in der Regel ein Dateneingabe- oder Kodierungsfehler.
  • Wenn Ihnen jemand oder ein Kollege mit großer Zuversicht etwas über den Datensatz erzählt, dämpfen Sie Ihre Erwartungen.
  • Nehmen Sie Ihre Daten nicht für bare Münze. Seien Sie leidenschaftlich dabei, herauszufinden, was Ihre Daten wirklich bedeuten.

Business Intelligence vs Big Data

Was ist Business Intelligence?

Business Intelligence umfasst die Datenanalyse mit dem Ziel, Trends, Muster und Erkenntnisse aufzudecken. Auf Daten basierende Erkenntnisse liefern genaue, scharfsinnige Einblicke in die Prozesse Ihres Unternehmens und die Ergebnisse, die diese Prozesse hervorbringen. Neben den Standardkennzahlen, wie z. B. Finanzkennzahlen, zeigt eine detaillierte Business Intelligence die Auswirkungen der aktuellen Praktiken auf die Leistung der Mitarbeiter, die Gesamtzufriedenheit des Unternehmens, die Umsätze, die Medienreichweite und eine Reihe anderer Faktoren.

Die Nutzung von Business Intelligence gibt nicht nur Aufschluss über den aktuellen Zustand Ihres Unternehmens, sondern ermöglicht auch Prognosen für die künftige Leistung. Durch die Analyse vergangener und aktueller Daten verfolgen robuste BI-Systeme Trends und zeigen auf, wie sich diese Trends im Laufe der Zeit fortsetzen werden.

Business Intelligence umfasst mehr als nur Beobachtung. BI geht über die Analyse hinaus, wenn auf der Grundlage der Ergebnisse Maßnahmen ergriffen werden. Die Möglichkeit, die realen, quantifizierbaren Ergebnisse von Maßnahmen und die Auswirkungen auf die Zukunft Ihres Unternehmens zu sehen, ist ein mächtiges Entscheidungsinstrument.

Was ist Big Data?

Der Begriff “Big Data” kann einfach als große Datensätze definiert werden, die über einfache Datenbanken und Datenverarbeitungsarchitekturen hinausgehen. So können beispielsweise Daten, die sich nicht ohne weiteres in Excel-Tabellen verarbeiten lassen, als Big Data bezeichnet werden.

Big Data umfasst den Prozess der Speicherung, Verarbeitung und Visualisierung von Daten. Es ist wichtig, die richtigen Tools zu finden, um eine optimale Umgebung zu schaffen, in der wertvolle Erkenntnisse aus Ihren Daten gewonnen werden können.

Die Einrichtung einer effektiven Big-Data-Umgebung umfasst den Einsatz von Infrastrukturtechnologien, die die Verarbeitung, Speicherung und Analyse von Daten erleichtern. Data Warehouses, Modellierungssprachenprogramme und OLAP-Würfel sind nur einige Beispiele dafür. Heutzutage verwenden Unternehmen oft mehr als eine Infrastruktur, um verschiedene Aspekte ihrer Daten zu verwalten.

Big Data liefert Unternehmen oft Antworten auf Fragen, von denen sie nicht wussten, dass sie sie stellen wollten: Wie hat sich die neue HR-Software auf die Leistung der Mitarbeiter ausgewirkt? Wie hängen die jüngsten Kundenrezensionen mit dem Umsatz zusammen? Die Analyse von Big Data-Quellen beleuchtet die Beziehungen zwischen allen Facetten Ihres Unternehmens.

Daher sind die in Big Data gesammelten Informationen von Natur aus nützlich. Unternehmen müssen relevante Ziele und Parameter festlegen, um wertvolle Erkenntnisse aus Big Data zu gewinnen.

Big Data vs Business Intelligence

Der Begriff “Big Data” hat für verschiedene Menschen unterschiedliche Bedeutungen. Beim Vergleich von Big Data und Business Intelligence verwenden einige den Begriff Big Data in Bezug auf den Umfang der Daten, während andere den Begriff in Bezug auf spezifische Analyseansätze verwenden.

Wie hängen also Business Intelligence und Big Data zusammen und wie lassen sie sich vergleichen? Big Data kann Informationen liefern, die nicht aus den eigenen Datenquellen eines Unternehmens stammen, und stellt somit eine umfassende Ressource dar. Sie sind daher ein Bestandteil von Business Intelligence und bieten einen umfassenden Einblick in Ihre Prozesse. Big Data sind oft die Informationen, die zu Erkenntnissen der Business Intelligence führen.

Auch hier ist Big Data Teil von Business Intelligence. Das bedeutet, dass sich beide durch die Menge und die Art der Daten unterscheiden, die sie umfassen. Da Business Intelligence ein Oberbegriff ist, sind die Daten, die als Teil von BI betrachtet werden, viel umfassender als die, die unter Big Data fallen. Business Intelligence umfasst alle Daten, von Verkaufsberichten in Excel-Tabellen bis hin zu großen Online-Datenbanken. Big Data hingegen besteht nur aus diesen großen Datensätzen.

Auch die Werkzeuge, die bei der Verarbeitung von Big Data und Business Intelligence zum Einsatz kommen, unterscheiden sich. Einfache Business-Intelligence-Software ist in der Lage, Standarddatenquellen zu verarbeiten, ist aber möglicherweise nicht für die Verwaltung von Big Data geeignet. Andere, fortschrittlichere Systeme sind speziell für die Verarbeitung von Big Data konzipiert.

Was ist Data Mining?

Data Mining ist der Prozess der Aufdeckung von Mustern und anderen wertvollen Informationen aus großen Datensätzen. Angesichts der Entwicklung der Data-Warehousing-Technologie und der Zunahme von Big Data hat sich der Einsatz von Data-Mining-Techniken in den letzten Jahrzehnten rapide beschleunigt, da sie Unternehmen bei der Umwandlung ihrer Rohdaten in nützliches Wissen helfen. Trotz der Tatsache, dass die Technologie kontinuierlich weiterentwickelt wird, um Daten in großem Maßstab zu verarbeiten, stehen die Verantwortlichen immer noch vor Herausforderungen in Bezug auf Skalierbarkeit und Automatisierung.

Data Mining hat die Entscheidungsfindung in Unternehmen durch aufschlussreiche Datenanalysen verbessert. Die Data-Mining-Techniken, die diesen Analysen zugrunde liegen, lassen sich in zwei Hauptzwecke unterteilen: Sie können entweder den Zieldatensatz beschreiben oder durch den Einsatz von Algorithmen für maschinelles Lernen Ergebnisse vorhersagen. Diese Methoden werden eingesetzt, um Daten zu organisieren und zu filtern und die interessantesten Informationen herauszufiltern, von der Betrugserkennung über das Nutzerverhalten und Engpässe bis hin zu Sicherheitsverletzungen.

In Kombination mit Datenanalyse- und Visualisierungstools wie Apache Spark war das Eintauchen in die Welt des Data Mining noch nie so einfach und die Gewinnung relevanter Erkenntnisse noch nie so schnell. Die Fortschritte im Bereich der künstlichen Intelligenz werden den Einsatz in allen Branchen weiter beschleunigen. 

Data-Mining-Prozess

Der Data-Mining-Prozess umfasst eine Reihe von Schritten von der Datenerfassung bis zur Visualisierung, um wertvolle Informationen aus großen Datensätzen zu extrahieren. Wie bereits erwähnt, werden Data-Mining-Techniken eingesetzt, um Beschreibungen und Vorhersagen über einen Zieldatensatz zu erstellen. Datenwissenschaftler beschreiben Daten durch ihre Beobachtungen von Mustern, Assoziationen und Korrelationen. Außerdem klassifizieren und gruppieren sie Daten mithilfe von Klassifizierungs- und Regressionsmethoden und identifizieren Ausreißer für Anwendungsfälle wie die Spam-Erkennung.

Data Mining besteht in der Regel aus vier Hauptschritten: Festlegen von Zielen, Sammeln und Aufbereiten von Daten, Anwenden von Data-Mining-Algorithmen und Auswerten der Ergebnisse.

  1. Festlegen der Geschäftsziele: Dies kann der schwierigste Teil des Data-Mining-Prozesses sein, und viele Unternehmen verwenden zu wenig Zeit auf diesen wichtigen Schritt. Datenwissenschaftler und Unternehmensinteressenten müssen zusammenarbeiten, um das Geschäftsproblem zu definieren, das die Datenfragen und Parameter für ein bestimmtes Projekt bestimmt. Möglicherweise müssen Analysten auch zusätzliche Nachforschungen anstellen, um den Geschäftskontext richtig zu verstehen.
  2. Datenaufbereitung: Sobald der Umfang des Problems definiert ist, können Datenwissenschaftler leichter feststellen, welche Daten zur Beantwortung der für das Unternehmen relevanten Fragen beitragen werden. Sobald sie die relevanten Daten gesammelt haben, werden die Daten bereinigt, indem jegliches Rauschen, wie z. B. Duplikate, fehlende Werte und Ausreißer, entfernt wird. Je nach Datensatz kann in einem weiteren Schritt die Anzahl der Dimensionen reduziert werden, da zu viele Merkmale die nachfolgenden Berechnungen verlangsamen können. Datenwissenschaftler achten darauf, die wichtigsten Prädiktoren beizubehalten, um eine optimale Genauigkeit in allen Modellen zu gewährleisten.
  3. Modellbildung und Mustersuche: Je nach Art der Analyse können Datenwissenschaftler alle interessanten Datenbeziehungen untersuchen, z. B. sequenzielle Muster, Assoziationsregeln oder Korrelationen. Während hochfrequente Muster eine breitere Anwendung finden, können manchmal die Abweichungen in den Daten interessanter sein und Bereiche mit potenziellem Betrug aufzeigen.
  4. Deep-Learning-Algorithmen können auch zur Klassifizierung oder zum Clustern eines Datensatzes in Abhängigkeit von den verfügbaren Daten eingesetzt werden. Wenn die Eingabedaten mit Etiketten versehen sind (d. h. überwachtes Lernen), kann ein Klassifizierungsmodell zur Kategorisierung der Daten verwendet werden, oder alternativ kann eine Regression zur Vorhersage der Wahrscheinlichkeit einer bestimmten Zuordnung angewendet werden. Ist der Datensatz nicht beschriftet (d. h. unüberwachtes Lernen), werden die einzelnen Datenpunkte im Trainingssatz miteinander verglichen, um zugrundeliegende Ähnlichkeiten zu entdecken und sie anhand dieser Merkmale zu clustern.
  5. Auswertung der Ergebnisse und Umsetzung der Erkenntnisse: Sobald die Daten aggregiert sind, müssen die Ergebnisse ausgewertet und interpretiert werden. Die endgültigen Ergebnisse sollten gültig, neu, nützlich und verständlich sein. Wenn diese Kriterien erfüllt sind, können Organisationen dieses Wissen nutzen, um neue Strategien umzusetzen und die angestrebten Ziele zu erreichen.

Data-Mining-Techniken

Beim Data Mining werden verschiedene Algorithmen und Techniken eingesetzt, um große Datenmengen in nützliche Informationen umzuwandeln. Hier sind einige der gängigsten Verfahren:

Assoziationsregeln: Eine Assoziationsregel ist eine regelbasierte Methode zum Auffinden von Beziehungen zwischen Variablen in einem bestimmten Datensatz. Diese Methoden werden häufig für Warenkorbanalysen verwendet, die es Unternehmen ermöglichen, die Beziehungen zwischen verschiedenen Produkten besser zu verstehen. Das Verständnis der Konsumgewohnheiten von Kunden ermöglicht es Unternehmen, bessere Cross-Selling-Strategien und Empfehlungsmaschinen zu entwickeln.

Neuronale Netze: Neuronale Netze, die hauptsächlich für Deep-Learning-Algorithmen eingesetzt werden, verarbeiten Trainingsdaten, indem sie die Interkonnektivität des menschlichen Gehirns durch Schichten von Knoten nachahmen. Jeder Knoten besteht aus Eingaben, Gewichten, einer Vorspannung (oder Schwelle) und einer Ausgabe. Wenn der Ausgangswert einen bestimmten Schwellenwert überschreitet, wird der Knoten “ausgelöst” oder aktiviert und leitet die Daten an die nächste Schicht im Netzwerk weiter. Neuronale Netze erlernen diese Zuordnungsfunktion durch überwachtes Lernen und passen sich auf der Grundlage der Verlustfunktion durch den Prozess des Gradientenabstiegs an. Wenn die Kostenfunktion bei oder nahe Null liegt, können wir sicher sein, dass das Modell die richtige Antwort liefert.

Entscheidungsbaum: Diese Data-Mining-Technik verwendet Klassifizierungs- oder Regressionsmethoden, um potenzielle Ergebnisse auf der Grundlage einer Reihe von Entscheidungen zu klassifizieren oder vorherzusagen. Wie der Name schon sagt, wird eine baumartige Visualisierung verwendet, um die potenziellen Ergebnisse dieser Entscheidungen darzustellen.

K-nächster Nachbar (KNN): K-Nächster Nachbar, auch bekannt als KNN-Algorithmus, ist ein nicht-parametrischer Algorithmus, der Datenpunkte auf der Grundlage ihrer Nähe und Assoziation mit anderen verfügbaren Daten klassifiziert. Dieser Algorithmus geht davon aus, dass ähnliche Datenpunkte in der Nähe zueinander gefunden werden können. Daher versucht er, den Abstand zwischen den Datenpunkten zu berechnen, in der Regel durch den euklidischen Abstand, und ordnet dann eine Kategorie auf der Grundlage der häufigsten Kategorie oder des Durchschnitts zu.

Data-Mining-Anwendungen

Data-Mining-Techniken werden von Business-Intelligence- und Datenanalyse-Teams in großem Umfang eingesetzt und helfen ihnen, Wissen für ihr Unternehmen und ihre Branche zu gewinnen. Einige Anwendungsfälle für Data Mining sind:

Vertrieb und Marketing

Unternehmen sammeln eine große Menge an Daten über ihre Kunden und Interessenten. Durch die Beobachtung der Verbraucherdemografie und des Online-Nutzerverhaltens können Unternehmen die Daten zur Optimierung ihrer Marketingkampagnen nutzen, um die Segmentierung, Cross-Sell-Angebote und Kundenbindungsprogramme zu verbessern und so einen höheren ROI für Marketingmaßnahmen zu erzielen. Prädiktive Analysen können den Teams auch dabei helfen, die Erwartungen ihrer Stakeholder zu erfüllen, indem sie Schätzungen über die Rendite einer eventuellen Erhöhung oder Senkung der Marketinginvestitionen liefern.

Bildung

Bildungseinrichtungen haben begonnen, Daten zu sammeln, um ihre Studentenpopulationen zu verstehen und herauszufinden, welche Umgebungen für den Erfolg förderlich sind. Da immer mehr Kurse auf Online-Plattformen verlagert werden, können sie eine Vielzahl von Dimensionen und Metriken zur Beobachtung und Bewertung der Leistung nutzen, z. B. Tastenanschläge, Studentenprofile, Klassen, Universitäten, Zeitaufwand usw.

Operative Optimierung

Process Mining nutzt Data-Mining-Techniken, um die Kosten in allen betrieblichen Funktionen zu senken, so dass die Unternehmen effizienter arbeiten können. Dieses Verfahren hat dazu beigetragen, kostspielige Engpässe zu ermitteln und die Entscheidungsfindung der Unternehmensleiter zu verbessern.

Aufdeckung von Betrug

Während häufig auftretende Muster in Daten den Teams wertvolle Einblicke verschaffen können, ist die Beobachtung von Datenanomalien ebenfalls von Vorteil und hilft Unternehmen bei der Aufdeckung von Betrug. Dies ist ein bekannter Anwendungsfall bei Banken und anderen Finanzinstituten, aber auch SaaS-Unternehmen haben begonnen, diese Verfahren zu übernehmen, um gefälschte Benutzerkonten aus ihren Datensätzen zu entfernen.

Was ist Pandas in Python?

Pandas ist ein Open-Source-Python-Paket, das am häufigsten für Data Science/Datenanalyse und maschinelles Lernen verwendet wird. Es baut auf einem anderen Paket namens Numpy auf, das Unterstützung für mehrdimensionale Arrays bietet.

Als eines der beliebtesten Datenverarbeitungspakete arbeitet Pandas gut mit vielen anderen Data-Science-Modulen innerhalb des Python-Ökosystems zusammen und ist in der Regel in jeder Python-Distribution enthalten.

Was können Sie mit DataFrames mit Pandas machen?

Pandas macht es einfach, viele der zeitaufwändigen, sich wiederholenden Aufgaben zu erledigen, die mit der Arbeit mit Daten verbunden sind, einschließlich:

  • Bereinigung von Daten
  • Auffüllen von Daten
  • Normalisierung von Daten
  • Zusammenführen und Verknüpfen
  • Visualisierung von Daten
  • Statistische Analyse
  • Überprüfung der Daten
  • Laden und Speichern von Daten
  • Und vieles mehr

Was ist NumPy?

NumPy ist eine Python-Bibliothek, die für die Arbeit mit Arrays verwendet wird. Sie enthält auch Funktionen für die Arbeit im Bereich der linearen Algebra, Fourier-Transformation und Matrizen. NumPy wurde im Jahr 2005 von Travis Oliphant entwickelt. Es ist ein Open-Source-Projekt und Sie können es frei verwenden.

NumPy steht für Numerisches Python.

Warum NumPy verwenden?

In Python gibt es Listen, die den Zweck von Arrays erfüllen, aber sie sind langsam in der Verarbeitung.
NumPy zielt darauf ab, ein Array-Objekt bereitzustellen, das bis zu 50 Mal schneller ist als traditionelle Python-Listen.
Das Array-Objekt in NumPy heißt ndarray und bietet eine Menge unterstützender Funktionen, die die Arbeit mit ndarray sehr einfach machen.

Arrays werden sehr häufig in der Datenwissenschaft verwendet, wo Geschwindigkeit und Ressourcen sehr wichtig sind.

Warum ist NumPy schneller als Listen?

NumPy-Arrays werden im Gegensatz zu Listen an einer kontinuierlichen Stelle im Speicher gespeichert, so dass Prozesse sehr effizient auf sie zugreifen und sie manipulieren können. Dieses Verhalten wird in der Informatik als Lokalität der Referenz bezeichnet. Dies ist der Hauptgrund, warum NumPy schneller ist als Listen. Außerdem ist es für die Arbeit mit den neuesten CPU-Architekturen optimiert.

In welcher Sprache ist NumPy geschrieben?

NumPy ist eine Python-Bibliothek und ist teilweise in Python geschrieben, aber die meisten Teile, die schnelle Berechnungen erfordern, sind in C oder C++ geschrieben.

Wo befindet sich die Codebasis von NumPy?

Der Quellcode für NumPy befindet sich in diesem Github-Repository https://github.com/numpy/numpy

Data Storytelling: ein wichtiger Schlüssel für erfolgreiche Datenanalyse

Wenn Ihr Unternehmen damit begonnen hat, alle Arten von Daten zu sammeln und zu kombinieren, besteht der nächste schwer fassbare Schritt darin, daraus einen Wert zu schöpfen. Ihre Daten können eine enorme Menge an potenziellem Wert enthalten, aber es kann kein einziger Wert geschaffen werden, wenn die Erkenntnisse nicht aufgedeckt und in Aktionen oder Geschäftsergebnisse umgesetzt werden.

 „Die Fähigkeit, Daten zu nutzen, sie zu verstehen, zu verarbeiten, aus ihnen Wert zu schöpfen, sie zu visualisieren und zu kommunizieren – das wird in den nächsten Jahrzehnten eine enorm wichtige Fähigkeit sein.” (Chefökonom von Google, Dr. Hal R. Varian)

Mit der Verlagerung hin zu mehr Selbstbedienungsfunktionen in den Bereichen Analytik und Business Intelligence wird sich der Pool von Personen, die Erkenntnisse generieren, über Analysten und Datenanalysten hinaus erweitern. Diese neue Art von Datentools wird es den Mitarbeitern in allen Geschäftsbereichen erleichtern, selbständig auf Daten zuzugreifen und diese zu untersuchen. Infolgedessen werden wir in den Unternehmen eine noch nie dagewesene Anzahl von Erkenntnissen gewinnen. Wenn es uns jedoch nicht gelingt, die Kommunikation dieser Erkenntnisse zu verbessern, werden wir auch eine schlechtere Umwandlungsrate von Erkenntnissen in Werte erleben. Wenn eine Erkenntnis nicht verstanden wird und nicht überzeugend ist, wird niemand danach handeln und es wird keine Veränderung stattfinden.

Hier kommt Data Storytelling ins Spiel, eine Fähigkeit, die für das Zeitalter von Big Data entwickelt wurde. Auch wenn es unterschiedliche Interpretationen gibt, beschreiben die meisten Experten Data Storytelling als die Fähigkeit, Daten nicht nur in Form von Zahlen oder Diagrammen zu vermitteln, sondern als eine Geschichte, die Menschen verstehen können.

Die vielleicht am schwierigsten zu beherrschende Fähigkeit des Data Storytellings ist das Einfühlungsvermögen – zu verstehen, woher das Publikum kommt und auf welche Teile der Datenanalyse es reagieren wird.

So haben beispielsweise ein Vertriebsleiter und ein Softwareentwickler in der Regel gegensätzliche Weltanschauungen, und wenn man ihnen dieselben Daten vorlegt, werden sie wahrscheinlich sehr unterschiedlich reagieren. Daher ist es wichtig, dass derjenige, der mit der Datenanalyse betraut ist, in der Lage ist, die verschiedenen Standpunkte zu interpretieren und das relevante Material entsprechend zu präsentieren.

Es ist wichtig Erkenntnisse effektiv zu kommunizieren und die Perspektive eines Publikums zu verstehen, das möglicherweise nicht dieselbe Sichtweise teilt oder über vergleichbare Kenntnisse im Umgang mit Daten verfügt.

Wie funktioniert Data Storytelling?

Wenn Sie Ihre Erkenntnisse in eine Datengeschichte verpacken, bauen Sie eine Brücke für Ihre Daten zur einflussreichen, emotionalen Seite des Gehirns. Als Neurowissenschaftler die Auswirkungen detaillierter Informationen auf ein Publikum beobachteten, zeigten Gehirnscans, dass nur zwei Hirnregionen aktiviert wurden, die mit der Sprachverarbeitung in Verbindung stehen: Das Broca-Areal und das Wernicke-Areal. Wenn jemand jedoch in eine Geschichte vertieft ist, wurden mehr Hirnregionen aktiviert. Menschen hören Statistiken, aber sie fühlen Geschichten. Dieser subtile, aber wichtige Unterschied zahlt sich für Datenerzähler in einigen wichtigen Punkten aus:

Einprägsamkeit: Eine Studie des Stanford-Professors Chip Heath (Autor von Made to Stick) ergab, dass sich 63 % der Menschen an Geschichten erinnern können, aber nur 5 % an eine einzige Statistik.

Überzeugungskraft: In einer anderen Studie testeten Forscher zwei Varianten einer Broschüre für die Wohltätigkeitsorganisation Save the Children. Die auf einer Geschichte basierende Version übertraf die infografische Version in Bezug auf die Spenden pro Teilnehmer um 2,38 Dollar zu 1,14 Dollar. Verschiedene Statistiken über die Notlage afrikanischer Kinder waren weit weniger überzeugend als die Geschichte von Rokia, einem siebenjährigen Kind aus Mali, Afrika.

Engagement: Die Forscher fanden auch heraus, dass die Menschen in einen tranceartigen Zustand eintreten, in dem sie ihren intellektuellen Schutz fallen lassen und weniger kritisch und skeptisch sind. Anstatt sich über die Details aufzuregen, wollen die Zuschauer sehen, wohin die Geschichte sie führt. Wie der Mathematiker John Allen Paulos feststellte, “neigen wir beim Hören von Geschichten dazu, unseren Unglauben zu suspendieren, um unterhalten zu werden, während wir bei der Auswertung von Statistiken im Allgemeinen die gegenteilige Neigung haben, unseren Glauben zu suspendieren, um nicht betört zu werden.”

Aristoteles’ klassischer Fünf-Punkte-Plan, der dabei hilft, starke Wirkungen zu erzielen, lautet:

  • Liefern Sie eine Geschichte oder Aussage, die das Interesse des Publikums weckt.
  • Stellen Sie ein Problem oder eine Frage, die gelöst oder beantwortet werden muss.
  • Bieten Sie eine Lösung für das Problem an, das Sie angesprochen haben.
  • Beschreiben Sie die spezifischen Vorteile, die sich aus der Annahme der in Ihrer Lösung dargelegten Vorgehensweise ergeben.
  • Geben Sie eine Aufforderung zum Handeln an.
  • Ich habe meinen Bericht mit Hilfe von Diagrammen strukturiert, die mir ein besseres Verständnis meiner Daten ermöglichen sollten.

Ermitteln Sie genau, was die Idee Ihrer Geschichte ist. Fragen Sie sich: “Was will ich mit dieser Geschichte wirklich vermitteln?” Es geht nie um die Geschichte allein, sondern darum, was die Geschichte dazu beitragen kann, die Entscheidungsfindung zu verbessern. Was Sie zeigen, ist die Idee einer besseren Entscheidungsfindung oder Analytik.

Hier einige allgemeine Hinweis für die Vorbereitung ihrer Datengeschichte:

  • Beschriften Sie immer Ihre Achsen und geben Sie die Überschrift Ihrer Darstellung an.
  • Verwenden Sie bei Bedarf Legenden.
  • Verwenden Sie Farben, die dem Auge schmeicheln.
  • Verwenden Sie niemals Punkte zur Visualisierung, wenn Sie Zeitreihen kodieren.
  • Erstellen Sie eine Liste mit allen wichtigen Punkten, die Ihr Publikum über Ihre Geschichte, Ihr Bildmaterial oder Ihre Analyse wissen soll.
  • Kategorisieren Sie die Liste, bis Sie nur noch drei Hauptaussagen haben. Diese drei Punkte bilden die verbale Road-Map für Ihre Geschichte.

Wie können Sie eine Datengeschichte erzählen, die Menschen hilft, bessere Entscheidungen zu treffen? Lassen Sie uns überlegen, was eine Datenstory effektiv macht:

1. Sie muss relevant sein

Das bedeutet, dass der Inhalt (einschließlich der Texte und Bilder) zum aktuellen Wissensstand des Publikums passen und ihm helfen muss, ein bestimmtes Ziel zu erreichen.

Vielleicht handelt es sich um ein internes Publikum, z. B. eine Präsentation für die Unternehmensleitung über die Notwendigkeit, in eine bestimmte Strategie oder Taktik zu investieren. Oder es handelt sich um eine externe Zielgruppe, z. B. eine Kampagne, mit der Sie Kunden davon überzeugen wollen, Ihre Lösung auszuprobieren.

Überlegen Sie in jedem Fall, was für sie wichtig ist. Die besten Geschichten sprechen die Menschen an, und je konkreter die Person, desto besser.

2. Es muss eine klare Erzählung geben

Wenn es um das Erzählen von Geschichten geht, sind wir alle an einen traditionellen Erzählbogen mit einem Anfang, einer Mitte und einem Ende gewöhnt.

Für Datengeschichten bedeutet dies in der Regel, dass Sie eine Einführung in das Thema brauchen, bevor Sie in die Daten eintauchen. Außerdem müssen Sie mit einer konkreten Handlungsaufforderung schließen – ein weiterer Punkt, der eine Datengeschichte deutlich von einem einfachen Bericht unterscheidet.

Wenn Ihr Publikum keine Experten sind, ist es außerdem wichtig, eine einfache Sprache zu verwenden, damit Sie es nicht mit Fachtermini oder verwirrenden Akronymen verwirren.

3. Beginnen Sie damit, Ihrem Publikum zuzuhören

Zunächst müssen Sie herausfinden, wer Ihre Zielgruppe ist. Dann können Sie mit ihr sprechen und vielleicht zusätzliche Nachforschungen anstellen, um herauszufinden, was sie am meisten interessiert, welche Ziele sie verfolgen, was sie derzeit wissen, welche Entscheidungen getroffen werden müssen und welches zusätzliche Wissen ihnen helfen könnte, die Entscheidungen zu treffen, die ihnen helfen, ihre Ziele zu erreichen.

4. Bestimmen Sie die Daten, die wichtig sind

Wenn Sie Ihre Zielgruppe kennen, wissen Sie, nach welchen Daten Sie suchen und welche Sie einbeziehen sollten. Sie können quantitative Daten verwenden, z. B. zum Umsatz, zu Veränderungen im Zeitverlauf oder zur Anzahl der betroffenen Personen, oder Sie können qualitative Daten verwenden, z. B. zu Prozessen, Systemen oder Zitaten.

Fazit

Data Storytelling kann ein guter Weg sein, um Daten verständlich zu machen. Es kann Experten helfen, ihre Datenanalyse anderen zu vermitteln. Aber es hat auch eine Kehrseite. Zum Beispiel verstehen die Leute ohne weitere Informationen vielleicht nicht, dass Korrelation nicht dasselbe ist wie Kausalität. Und wenn Sie es falsch machen, könnten die Leute eine falsche Vorstellung von Ihren Ergebnissen bekommen, ohne zu verstehen, was Sie eigentlich sagen wollen.

Der Blickwinkel, aus dem eine Geschichte erzählt wird, verändert die Bedeutung der Geschichte. Daten und ihre Analyse können sehr genau sein, aber das Wissen jeder Person führt dazu, dass sie sie anders sieht. Die häufigsten Probleme treten auf, wenn Menschen zu viele oder zu wenige Informationen haben, wenn sie sich auf eine Sache zu sehr oder auf eine andere zu wenig konzentrieren oder wenn sie sich unter Druck gesetzt fühlen, zu handeln.

Es kommt auf die Geschichte an und darauf, wie Sie sie erzählen. Sie können Daten nutzen, um Trends aufzuzeigen, Vorhersagen zu treffen oder auch nur Ihre Gedanken zu visualisieren. Aber der Erzähler muss sich dessen bewusst sein und versuchen, mögliche Verzerrungen zu vermeiden. Die Zuhörer sollten sich auch ihrer eigenen Voreingenommenheit bewusst sein und bedenken, dass Datengeschichten manipulativ sein können, um absichtlich in die Irre zu führen. Aber das ist eine ganz andere Geschichte.

Statistische Methoden, die jeder Data Scientist kennen sollte

Unabhängig davon, wie man zur Frage der Sexyness von Data Science steht, ist es einfach unmöglich, die anhaltende Bedeutung von Daten und unserer Fähigkeit, sie zu analysieren, zu organisieren und in einen Kontext zu setzen, zu ignorieren.

Die Rolle wird bleiben, aber zweifellos werden sich die spezifischen Aufgaben eines Data Scientist weiterentwickeln.

Mit Technologien wie Machine Learning, die sich immer mehr durchsetzen, und aufstrebenden Feldern wie Deep Learning, die bei Forschern und Ingenieuren – und den Unternehmen, die sie einstellen – immer mehr Zuspruch finden, reiten Data Scientists weiterhin auf einer unglaublichen Welle der Innovation und des technologischen Fortschritts.

Obwohl es wichtig ist, über gute Programmierkenntnisse zu verfügen, geht es bei Data Science nicht nur um Software-Engineering.

Data Scientists leben an der Schnittstelle von Programmierung, Statistik und kritischem Denken. Wie Josh Wills es ausdrückt: “Data Scientist ist eine Person, die besser in Statistik ist als jeder Programmierer und besser im Programmieren als jeder Statistiker.”

Es ist wichtig, die Ideen hinter den verschiedenen Methoden zu verstehen, um zu wissen, wie und wann man sie einsetzt. Man muss zuerst die einfacheren Methoden verstehen, um dann die anspruchsvolleren zu begreifen. Es ist wichtig, die Leistung einer Methode genau zu beurteilen, um zu wissen, wie gut oder wie schlecht sie funktioniert. Außerdem ist dies ein spannendes Forschungsgebiet, das wichtige Anwendungen in Wissenschaft, Industrie und Finanzwesen hat. Letztendlich ist statistisches Lernen ein grundlegender Bestandteil in der Ausbildung eines modernen Data Scientists. Beispiele für Probleme mit statistischem Lernen sind:

  • Identifizieren Sie die Risikofaktoren für Prostatakrebs.
  • Klassifizieren Sie ein aufgenommenes Phonem auf der Grundlage eines Log-Periodogramms.
  • Voraussagen, ob jemand einen Herzinfarkt erleiden wird, auf der Basis von demografischen, diätetischen und klinischen Messungen.
  • Ein E-Mail-Spam-Erkennungssystem anpassen.
  • Identifizieren Sie die Zahlen in einer handgeschriebenen Postleitzahl.
  • Klassifizieren Sie eine Gewebeprobe in eine von mehreren Krebsklassen.
  • Stellen Sie die Beziehung zwischen Gehalt und demografischen Variablen in Bevölkerungsumfragedaten her.

Bevor ich mit auf die 10 wichtigsten Methoden für Data Scientists weitermache, möchte ich zwischen statistischem Lernen und maschinellem Lernen unterscheiden:

  • Maschinelles Lernen ist als Teilgebiet der Künstlichen Intelligenz entstanden.
  • Statistisches Lernen entstand als Teilgebiet der Statistik.
  • Beim maschinellen Lernen liegt der Schwerpunkt stärker auf groß angelegten Anwendungen und der Vorhersagegenauigkeit.
  • Beim statistischen Lernen liegt der Schwerpunkt auf Modellen und deren Interpretierbarkeit sowie auf Präzision und Unsicherheit.
  • Aber die Unterscheidung ist immer unschärfer geworden, und es gibt eine Menge “gegenseitige Befruchtung”.
  • Maschinelles Lernen hat die Oberhand im Marketing!

Inhalt

1 – Lineare Regression:

In der Statistik ist die lineare Regression eine Methode zur Vorhersage einer Zielvariablen durch Anpassung der besten linearen Beziehung zwischen der abhängigen und der unabhängigen Variable. Die beste Anpassung erfolgt, indem sichergestellt wird, dass die Summe aller Abstände zwischen der Form und den tatsächlichen Beobachtungen an jedem Punkt so klein wie möglich ist. Die Passung der Form ist “am besten” in dem Sinne, dass keine andere Position bei der Wahl der Form weniger Fehler produzieren würde. 2 Haupttypen der linearen Regression sind die einfache lineare Regression und die multiple lineare Regression. Bei der einfachen linearen Regression wird eine einzelne unabhängige Variable verwendet, um eine abhängige Variable vorherzusagen, indem eine bestmögliche lineare Beziehung angepasst wird. Die multiple lineare Regression verwendet mehr als eine unabhängige Variable, um eine abhängige Variable vorherzusagen, indem sie eine beste lineare Beziehung anpasst.

Wählen Sie 2 beliebige Dinge, die Sie in Ihrem täglichen Leben verwenden und die miteinander in Beziehung stehen. Zum Beispiel: Ich habe Daten über meine monatlichen Ausgaben, mein monatliches Einkommen und die Anzahl der Reisen pro Monat für die letzten 3 Jahre. Jetzt muss ich die folgenden Fragen beantworten:

  • Wie hoch werden meine monatlichen Ausgaben für das nächste Jahr sein?
  • Welcher Faktor (monatliches Einkommen oder Anzahl der Reisen pro Monat) ist wichtiger bei der Entscheidung über meine monatlichen Ausgaben?
  • Wie korrelieren Monatseinkommen und Reisen pro Monat mit den monatlichen Ausgaben?

2 – Klassifizierung:

Die Klassifizierung ist eine Data-Mining-Technik, die einer Datensammlung Kategorien zuordnet, um genauere Vorhersagen und Analysen zu ermöglichen. Manchmal auch als Entscheidungsbaum bezeichnet, ist die Klassifizierung eine von mehreren Methoden, die dazu dienen, die Analyse sehr großer Datensätze effektiv zu gestalten. 2 wichtige Klassifizierungstechniken stechen hervor: Logistische Regression und Diskriminanzanalyse.

Die logistische Regression ist die geeignete Regressionsanalyse zur Durchführung, wenn die abhängige Variable dichotom (binär) ist. Wie alle Regressionsanalysen ist auch die logistische Regression eine prädiktive Analyse. Die logistische Regression wird verwendet, um Daten zu beschreiben und die Beziehung zwischen einer abhängigen binären Variablen und einer oder mehreren nominalen, ordinalen, intervall- oder verhältnismäßigen unabhängigen Variablen zu erklären. Arten von Fragen, die eine logistische Regression untersuchen kann:

  • Wie ändert sich die Wahrscheinlichkeit, an Lungenkrebs zu erkranken (Ja vs. Nein), für jedes zusätzliche Pfund Übergewicht und für jede täglich gerauchte Schachtel Zigaretten?
  • Haben das Körpergewicht, die Kalorienzufuhr, die Fettaufnahme und das Alter der Teilnehmer einen Einfluss auf den Herzinfarkt (Ja vs. Nein)?

Bei der Diskriminanzanalyse sind 2 oder mehr Gruppen oder Cluster oder Populationen a priori bekannt und 1 oder mehrere neue Beobachtungen werden anhand der gemessenen Merkmale in eine der bekannten Populationen eingeordnet. Die Diskriminanzanalyse modelliert die Verteilung der Prädiktoren X separat in jeder der Antwortklassen und verwendet dann das Bayes-Theorem, um diese in Schätzungen für die Wahrscheinlichkeit der Antwortkategorie angesichts des Wertes von X umzuwandeln.

Bei der linearen Diskriminanzanalyse werden “Diskriminanz-Scores” für jede Beobachtung berechnet, um zu klassifizieren, in welcher Antwortvariablenklasse sie sich befindet. Diese Scores werden durch das Finden von Linearkombinationen der unabhängigen Variablen erhalten. Es wird angenommen, dass die Beobachtungen innerhalb jeder Klasse aus einer multivariaten Gauß-Verteilung gezogen werden und die Kovarianz der Prädiktorvariablen über alle k Stufen der Antwortvariablen Y gleich ist.

Die quadratische Diskriminanzanalyse bietet einen alternativen Ansatz. Wie LDA nimmt QDA an, dass die Beobachtungen aus jeder Klasse von Y aus einer Gauß-Verteilung gezogen werden. Im Gegensatz zu LDA wird bei QDA jedoch angenommen, dass jede Klasse ihre eigene Kovarianzmatrix hat. Mit anderen Worten, es wird nicht angenommen, dass die Prädiktorvariablen eine gemeinsame Varianz über alle k Stufen in Y haben.

3 – Resampling-Methoden:

Resampling ist die Methode, die darin besteht, wiederholte Stichproben aus den ursprünglichen Datenstichproben zu ziehen. Es ist eine nicht-parametrische Methode der statistischen Inferenz. Mit anderen Worten, die Methode des Resamplings beinhaltet nicht die Verwendung der generischen Verteilungstabellen, um ungefähre p-Wahrscheinlichkeitswerte zu berechnen.

Das Resampling erzeugt eine eindeutige Stichprobenverteilung auf der Basis der tatsächlichen Daten. Es verwendet experimentelle Methoden anstelle von analytischen Methoden, um die eindeutige Stichprobenverteilung zu erzeugen. Es liefert unverzerrte Schätzungen, da es auf den unverzerrten Stichproben aller möglichen Ergebnisse der vom Forscher untersuchten Daten basiert. Um das Konzept des Resamplings zu verstehen, sollten Sie die Begriffe Bootstrapping und Cross-Validation kennen:

  • Bootstrapping ist eine Technik, die in vielen Situationen hilfreich ist, z. B. bei der Validierung der Leistung eines prädiktiven Modells, bei Ensemble-Methoden und bei der Schätzung von Bias und Varianz des Modells. Es funktioniert durch Stichproben mit Ersetzung aus den Originaldaten und nimmt die “nicht ausgewählten” Datenpunkte als Testfälle. Wir können dies mehrere Male machen und den Durchschnittswert als Schätzung unserer Modellleistung berechnen.
  • Auf der anderen Seite ist die Kreuzvalidierung eine Technik zur Validierung der Modellleistung und wird durch Aufteilung der Trainingsdaten in k Teile durchgeführt. Wir nehmen die k – 1 Teile als unseren Trainingssatz und verwenden den “ausgehaltenen” Teil als unseren Testsatz. Wir wiederholen das k-mal anders. Schließlich nehmen wir den Durchschnitt der k Ergebnisse als unsere Leistungsschätzung.

Normalerweise ist für lineare Modelle die gewöhnlichen kleinsten Quadrate das Hauptkriterium, um sie an die Daten anzupassen. Die nächsten 3 Methoden sind die alternativen Ansätze, die eine bessere Vorhersagegenauigkeit und Modellinterpretierbarkeit für die Anpassung linearer Modelle bieten können.

4 – Teilmengenauswahl:

Bei diesem Ansatz wird eine Teilmenge der p-Prädiktoren identifiziert, von denen wir glauben, dass sie mit der Antwort in Beziehung stehen. Dann wird ein Modell unter Verwendung der kleinsten Quadrate der Untergruppenmerkmale angepasst.

  • Best-Subset-Auswahl: Hier passen wir eine separate OLS-Regression für jede mögliche Kombination der p Prädiktoren an und betrachten dann die resultierenden Modellanpassungen. Der Algorithmus ist in 2 Stufen unterteilt: (1) Anpassung aller Modelle, die k Prädiktoren enthalten, wobei k die maximale Länge der Modelle ist, (2) Auswahl eines einzelnen Modells mithilfe des kreuzvalidierten Vorhersagefehlers. Es ist wichtig, den Test- oder Validierungsfehler und nicht den Trainingsfehler zu verwenden, um die Modellanpassung zu beurteilen, da RSS und R² mit mehr Variablen monoton ansteigen. Der beste Ansatz ist die Kreuzvalidierung und die Auswahl des Modells mit dem höchsten R² und dem niedrigsten RSS bei Testfehlerschätzungen.
  • Die schrittweise Vorwärtsauswahl berücksichtigt eine viel kleinere Teilmenge von p Prädiktoren. Sie beginnt mit einem Modell, das keine Prädiktoren enthält, und fügt dem Modell dann Prädiktoren hinzu, und zwar einen nach dem anderen, bis alle Prädiktoren im Modell enthalten sind. Die Reihenfolge der hinzugefügten Variablen ist diejenige, die die größte Verbesserung der Anpassung ergibt, bis keine weiteren Variablen die Modellanpassung unter Verwendung des kreuzvalidierten Vorhersagefehlers verbessern.
  • Die schrittweise Rückwärtsauswahl beginnt mit allen p Prädiktoren im Modell und entfernt dann iterativ den am wenigsten nützlichen Prädiktor, einen nach dem anderen.
  • Die hybride Methode folgt dem schrittweisen Vorwärtsansatz, entfernt jedoch nach dem Hinzufügen jeder neuen Variable möglicherweise auch Variablen, die nicht zur Modellanpassung beitragen.

5 – Schrumpfung:

Bei diesem Ansatz wird ein Modell mit allen p Prädiktoren angepasst, jedoch werden die geschätzten Koeffizienten relativ zu den Schätzungen der kleinsten Quadrate gegen Null geschrumpft. Diese Schrumpfung, auch Regularisierung genannt, hat den Effekt, dass die Varianz reduziert wird. Je nachdem, welche Art von Schrumpfung durchgeführt wird, können einige der Koeffizienten so geschätzt werden, dass sie genau Null sind. Somit führt diese Methode auch eine Variablenselektion durch. Die beiden bekanntesten Techniken zum Schrumpfen der Koeffizientenschätzungen gegen Null sind die Ridge-Regression und das Lasso.

  • Die Ridge-Regression ähnelt der Methode der kleinsten Quadrate, mit dem Unterschied, dass die Koeffizienten durch Minimierung einer etwas anderen Größe geschätzt werden. Die Ridge-Regression sucht, wie OLS, nach Koeffizientenschätzungen, die RSS reduzieren, hat aber auch eine Schrumpfungsstrafe, wenn die Koeffizienten näher an Null kommen. Diese Strafe hat den Effekt, dass die Koeffizientenschätzungen gegen Null schrumpfen. Ohne auf die Mathematik einzugehen, ist es nützlich zu wissen, dass die Ridge-Regression die Features mit der kleinsten Spaltenraumvarianz schrumpft. Wie bei der Hauptkomponentenanalyse projiziert die Ridge-Regression die Daten in den d-gerichteten Raum und schrumpft dann die Koeffizienten der Komponenten mit geringer Varianz stärker als die Komponenten mit hoher Varianz, die der größten und kleinsten Hauptkomponente entsprechen.
  • Die Ridge-Regression hat mindestens einen Nachteil: Sie schließt alle p Prädiktoren in das endgültige Modell ein. Der Strafterm wird viele von ihnen nahe an Null setzen, aber nie genau auf Null. Dies ist im Allgemeinen kein Problem für die Vorhersagegenauigkeit, aber es kann die Interpretation der Ergebnisse des Modells erschweren. Lasso überwindet diesen Nachteil und ist in der Lage, einige der Koeffizienten auf Null zu zwingen, vorausgesetzt, dass s klein genug ist. Da s = 1 zu einer regulären OLS-Regression führt, schrumpfen die Koeffizienten gegen Null, wenn s gegen 0 geht. Die Lasso-Regression führt also auch eine Variablenselektion durch.

6 – Dimensionsreduktion:

Die Dimensionsreduktion reduziert das Problem der Schätzung von p + 1 Koeffizienten auf das einfache Problem von M + 1 Koeffizienten, wobei M < p. Dies wird erreicht, indem M verschiedene Linearkombinationen oder Projektionen der Variablen berechnet werden. Dann werden diese M Projektionen als Prädiktoren verwendet, um ein lineares Regressionsmodell durch kleinste Quadrate anzupassen. 2 Ansätze für diese Aufgabe sind die Hauptkomponentenregression und die partielle kleinste Quadrate.

  • Man kann die Hauptkomponentenregression als einen Ansatz zur Ableitung eines niedrigdimensionalen Satzes von Merkmalen aus einem großen Satz von Variablen beschreiben. Die erste Hauptkomponentenrichtung der Daten ist die, entlang der die Beobachtungen am meisten variieren. Mit anderen Worten, die erste PC ist eine Linie, die so gut wie möglich zu den Daten passt. Man kann p verschiedene Hauptkomponenten anpassen. Die zweite PC ist eine Linearkombination der Variablen, die mit der ersten PC unkorreliert ist und unter dieser Bedingung die größte Varianz hat. Die Idee ist, dass die Hauptkomponenten die größte Varianz in den Daten erfassen, indem sie Linearkombinationen der Daten in anschließend orthogonalen Richtungen verwenden. Auf diese Weise können wir auch die Effekte von korrelierten Variablen kombinieren, um mehr Informationen aus den verfügbaren Daten herauszuholen, während wir bei regulären kleinsten Quadraten eine der korrelierten Variablen verwerfen müssten.
  • Die PCR-Methode, die wir oben beschrieben haben, beinhaltet die Identifizierung von linearen Kombinationen von X, die die Prädiktoren am besten repräsentieren. Diese Kombinationen (Richtungen) werden auf eine nicht überwachte Weise identifiziert, da die Antwort Y nicht zur Bestimmung der Hauptkomponentenrichtungen verwendet wird. Das heißt, die Antwort Y überwacht nicht die Identifizierung der Hauptkomponenten, sodass es keine Garantie dafür gibt, dass die Richtungen, die die Prädiktoren am besten erklären, auch die besten für die Vorhersage der Antwort sind (auch wenn dies oft angenommen wird). Partielle kleinste Quadrate (PLS) sind eine überwachte Alternative zur PCR. Wie PCR ist PLS eine Dimensionsreduktionsmethode, die zuerst einen neuen kleineren Satz von Features identifiziert, die lineare Kombinationen der ursprünglichen Features sind, und dann ein lineares Modell über kleinste Quadrate an die neuen M-Features anpasst. Im Gegensatz zur PCR verwendet PLS jedoch die Antwortvariable, um die neuen Merkmale zu identifizieren.

7 – Nichtlineare Modelle:

In der Statistik ist die nichtlineare Regression eine Form der Regressionsanalyse, bei der Beobachtungsdaten durch eine Funktion modelliert werden, die eine nichtlineare Kombination der Modellparameter ist und von einer oder mehreren unabhängigen Variablen abhängt. Die Daten werden durch eine Methode der sukzessiven Approximation angepasst. Im Folgenden werden einige wichtige Techniken zum Umgang mit nichtlinearen Modellen vorgestellt:

  • Eine Funktion auf den reellen Zahlen wird als Stufenfunktion bezeichnet, wenn sie als endliche Linearkombination von Indikatorfunktionen von Intervallen geschrieben werden kann. Informell ausgedrückt, ist eine Stufenfunktion eine stückweise konstante Funktion, die nur endlich viele Stücke hat.
  • Eine stückweise Funktion ist eine Funktion, die durch mehrere Unterfunktionen definiert ist, wobei jede Unterfunktion auf ein bestimmtes Intervall des Bereichs der Hauptfunktion angewendet wird. Stückweise ist eigentlich eine Art, die Funktion auszudrücken, und nicht eine Eigenschaft der Funktion selbst, aber mit zusätzlicher Qualifikation kann es die Natur der Funktion beschreiben. Eine stückweise Polynomfunktion ist z. B. eine Funktion, die in jedem ihrer Teilbereiche ein Polynom ist, aber möglicherweise in jedem Teilbereich ein anderes.
  • Ein Spline ist eine spezielle Funktion, die stückweise durch Polynome definiert ist. In der Computergrafik bezieht sich Spline auf eine stückweise polynomiale parametrische Kurve. Splines sind beliebte Kurven wegen der Einfachheit ihrer Konstruktion, ihrer leichten und genauen Auswertung und ihrer Fähigkeit, komplexe Formen durch Kurvenanpassung und interaktives Kurvendesign zu approximieren.
  • Ein verallgemeinertes additives Modell ist ein verallgemeinertes lineares Modell, bei dem der lineare Prädiktor linear von unbekannten glatten Funktionen einiger Prädiktorvariablen abhängt, und das Interesse konzentriert sich auf Inferenz über diese glatten Funktionen.

8 – Baumbasierte Methoden:

Baumbasierte Methoden können sowohl für Regressions- als auch für Klassifikationsprobleme verwendet werden. Sie beinhalten eine Schichtung oder Segmentierung des Prädiktorraums in eine Anzahl einfacher Regionen. Da der Satz von Aufteilungsregeln, der zur Segmentierung des Prädiktorraums verwendet wird, in einem Baum zusammengefasst werden kann, werden diese Arten von Ansätzen als Entscheidungsbaummethoden bezeichnet. Die folgenden Methoden erzeugen mehrere Bäume, die dann kombiniert werden, um eine einzige Konsensvorhersage zu erhalten.

  • Bagging ist eine Methode, mit der die Varianz Ihrer Vorhersage verringert wird, indem zusätzliche Daten für das Training aus dem ursprünglichen Datensatz generiert werden, wobei Kombinationen mit Wiederholungen verwendet werden, um mehrere Bäume mit der gleichen Karnalität/Größe wie die ursprünglichen Daten zu erzeugen. Durch die Vergrößerung Ihres Trainingsdatensatzes können Sie die Vorhersagekraft des Modells nicht verbessern, sondern nur die Varianz verringern, indem Sie die Vorhersage eng auf das erwartete Ergebnis abstimmen.
  • Boosting ist ein Ansatz, bei dem die Ausgabe mit mehreren verschiedenen Modellen berechnet wird und das Ergebnis dann mit einem gewichteten Mittelwertansatz gemittelt wird. Wenn Sie die Vorteile und Fallstricke dieser Ansätze kombinieren, indem Sie die Gewichtungsformel variieren, können Sie eine gute Vorhersagekraft für einen größeren Bereich von Eingabedaten erzielen, indem Sie verschiedene eng abgestimmte Modelle verwenden.
  • Der Random-Forest-Algorithmus ist dem Bagging eigentlich sehr ähnlich. Auch hier ziehen Sie zufällige Bootstrap-Stichproben aus Ihrem Trainingsset. Zusätzlich zu den Bootstrap-Stichproben ziehen Sie jedoch auch eine zufällige Teilmenge von Features für das Training der einzelnen Bäume; beim Bagging geben Sie jedem Baum die volle Menge an Features. Durch die zufällige Feature-Auswahl machen Sie die Bäume im Vergleich zum regulären Bagging unabhängiger voneinander, was oft zu einer besseren Vorhersageleistung führt (aufgrund besserer Varianz-Bias-Abwägungen) und es ist auch schneller, da jeder Baum nur aus einer Teilmenge von Features lernt.

9 – Support-Vektor-Maschinen:

SVM ist eine Klassifizierungstechnik, die unter den überwachten Lernmodellen im Maschinellen Lernen aufgeführt ist. Laienhaft ausgedrückt, geht es darum, die Hyperebene (Linie in 2D, Ebene in 3D und Hyperebene in höheren Dimensionen) zu finden. Formal gesehen ist eine Hyperebene ein n-1 dimensionaler Unterraum eines n-dimensionalen Raums), die zwei Klassen von Punkten am besten mit dem maximalen Abstand trennt. Im Wesentlichen handelt es sich um ein eingeschränktes Optimierungsproblem, bei dem der Spielraum unter der Einschränkung maximiert wird, dass er die Daten perfekt klassifiziert (harter Spielraum).

Die Datenpunkte, die diese Hyperebene auf beiden Seiten “unterstützen”, werden als “Support-Vektoren” bezeichnet. Im obigen Bild sind der gefüllte blaue Kreis und die beiden gefüllten Quadrate die Support-Vektoren. In Fällen, in denen die beiden Klassen der Daten nicht linear trennbar sind, werden die Punkte in einen aufgelösten (höherdimensionalen) Raum projiziert, in dem eine lineare Trennung möglich sein kann. Ein Problem mit mehreren Klassen kann in mehrere binäre Eins-gegen-Eins- oder Eins-gegen-Rest-Klassifikationsprobleme zerlegt werden.

10 – Unüberwachtes Lernen:

Bisher haben wir nur überwachte Lerntechniken diskutiert, bei denen die Gruppen bekannt sind und die dem Algorithmus zur Verfügung gestellte Erfahrung die Beziehung zwischen den tatsächlichen Entitäten und der Gruppe ist, zu der sie gehören. Eine andere Gruppe von Techniken kann verwendet werden, wenn die Gruppen (Kategorien) der Daten nicht bekannt sind. Sie werden als unüberwacht bezeichnet, da es dem Lernalgorithmus überlassen ist, Muster in den bereitgestellten Daten zu erkennen. Clustering ist ein Beispiel für unüberwachtes Lernen, bei dem verschiedene Datensätze in Gruppen von eng verwandten Elementen geclustert werden. Im Folgenden finden Sie eine Liste der am häufigsten verwendeten Algorithmen für unüberwachtes Lernen:

Die Hauptkomponentenanalyse hilft bei der Erstellung einer niedrigdimensionalen Darstellung des Datensatzes, indem sie einen Satz linearer Kombinationen von Merkmalen identifiziert, die eine maximale Varianz aufweisen und untereinander unkorreliert sind. Diese lineare Dimensionalitätstechnik kann hilfreich sein, um latente Interaktionen zwischen den Variablen in einer nicht überwachten Umgebung zu verstehen.

k-Means-Clustering: teilt die Daten in k verschiedene Cluster ein, basierend auf dem Abstand zum Zentroid eines Clusters.

Hierarchisches Clustering: baut eine mehrstufige Hierarchie von Clustern auf, indem ein Clusterbaum erstellt wird.

Dies war ein grundlegender Überblick über einige grundlegende statistische Techniken, die einem Data-Science-Programmmanager oder einer Führungskraft helfen können, besser zu verstehen, was unter der Haube ihrer Data-Science-Teams abläuft. Um ehrlich zu sein, lassen einige Data-Science-Teams ihre Algorithmen lediglich über Python und R-Bibliotheken laufen. Die meisten von ihnen müssen nicht einmal über die Mathematik nachdenken, die dahinter steckt. Wenn Sie jedoch die Grundlagen der statistischen Analyse verstehen, haben Ihre Teams einen besseren Ansatz. Einen Einblick in die kleinsten Teile zu haben, ermöglicht eine einfachere Manipulation und Abstraktion. Ich hoffe, dass dieser grundlegende Leitfaden zur statistischen Datenwissenschaft Ihnen ein anständiges Verständnis vermittelt!

Data Science vs. Business Intelligence

Das Wachstum von Data Science in der modernen datengesteuerten Welt von heute musste passieren, als es passierte. Wenn man sich das Wachstum der Datenanalyse über die Jahre hinweg genau ansieht, wäre die traditionelle (deskriptive) Business Intelligence (BI) ohne Data Science in erster Linie ein statischer Performance Reporter innerhalb des Geschäftsbetriebs geblieben.

Mit der steigenden Menge und Komplexität der Daten und dem Wachstum der Dateneingabe-Technologien kam Data Science zu einem wichtigen Zeitpunkt, um einige Methoden für die expansiven Datenmengen bereitzustellen, die viele moderne Unternehmen bewältigen müssen. Die Frage nach dieser Entwicklung und den Gemeinsamkeiten und Unterschieden zwischen Data Science vs. Business Intelligence ist ein wichtiges Thema für viele, die sich mit diesen Technologien beschäftigen.

Inhalt

Definieren wir die Begriffe: Data Science vs. Business Intelligence (BI)

Es ist wichtig, mit einigen grundlegenden Definitionen der beiden Begriffe zu beginnen und einen tieferen Blick auf die beiden unterschiedlichen (wenn auch eng verwandten) Bereiche innerhalb der Datenanalyse zu werfen. Data Science, wie es in der Wirtschaft verwendet wird, ist von Natur aus datengetrieben, wobei viele interdisziplinäre Wissenschaften zusammen angewendet werden, um Bedeutung und Erkenntnisse aus den verfügbaren Geschäftsdaten zu extrahieren, die in der Regel groß und komplex sind. Auf der anderen Seite hilft Business Intelligence oder BI, den aktuellen Zustand von Geschäftsdaten zu überwachen, um die historische Leistung eines Unternehmens zu verstehen.

Kurz gesagt, während BI hilft, vergangene Daten zu interpretieren, kann Data Science die vergangenen Daten (Trends oder Muster) analysieren, um zukünftige Vorhersagen zu treffen. BI wird hauptsächlich für das Reporting oder die deskriptive Analyse verwendet, während Data Science eher für Predictive oder Prescriptive Analysen eingesetzt wird.

Die wichtigsten Gemeinsamkeiten zwischen Data Science und Business Intelligence

Sowohl Data Science als auch BI konzentrieren sich auf “Daten”, mit dem Ziel, zum Beispiel, Gewinnmargen oder die Kundenbindung zu optimieren. Beide Bereiche haben die Fähigkeit, “Daten zu interpretieren”, und beschäftigen in der Regel technische Experten, die datenangereicherte Ergebnisse in benutzerfreundliche Dashboards übersetzen.

In einer typischen Geschäftsumgebung haben weder leitende Angestellte noch Manager die Zeit oder die Neigung, die technischen Details zu erlernen, die sich hinter Data Analytics oder BI verbergen, aber sie benötigen schnelle und genaue Entscheidungsunterstützungssysteme, um in den Stunden, in denen sie gebraucht werden, kritische Entscheidungen zu treffen.

Sowohl BI als auch Data Science bieten zuverlässige Entscheidungsunterstützungssysteme für vielbeschäftigte Führungskräfte, Manager oder sogar Mitarbeiter an der Front, die Experten in ihrem jeweiligen Arbeitsbereich sind und zuverlässige Hilfe und Unterstützung von Datenexperten erwarten, um datengetriebene Entscheidungen zu treffen.

Der Hauptunterschied zwischen Data Science und Business Intelligence besteht darin, dass BI für die Verarbeitung statischer und stark strukturierter Daten ausgelegt ist, während Data Science mit schnellen, hochvolumigen und komplexen, mehrfach strukturierten Daten aus einer Vielzahl von Datenquellen umgehen kann. Während BI nur Daten verstehen kann, die in bestimmten Formaten “vorformatiert” sind, können fortschrittliche Data Science-Technologien wie Big Data, IoT und Cloud gemeinsam viele Arten von Freiformdaten sammeln, bereinigen, aufbereiten, analysieren und berichten, die von weit verteilten betrieblichen Berührungspunkten gesammelt wurden.

Data Science, bewaffnet mit einem gewaltigen Arsenal an Technologien und Werkzeugen, begann, vergangene Daten zu untersuchen, um Trends zu entdecken, Muster zu finden und zukünftiges Geschäftsverhalten vorherzusagen. Plötzlich waren Unternehmen mit sehr mächtigen Erkenntnissen und Intelligenz ausgestattet, die das Potenzial hatten, ihre Zukunft zu verändern!

Die Hauptunterschiede zwischen Data Science und Business Intelligence

Mit der zunehmenden Datenabhängigkeit von Unternehmen wird die Bedeutung von Data Science als ultimative Entscheidungstechnologie noch zunehmen. Data Science verspricht, in Zukunft einen Großteil der Analytics- oder BI-Aufgaben zu automatisieren, wobei alltägliche Geschäftsanwender Zugang zu zentralisierten Daten-Repositories und automatisierten Tools haben werden, um Erkenntnisse und Intelligenz zu extrahieren, wann und wo sie diese benötigen.

In der Vergangenheit blieb BI, obwohl es für die Entscheidungsfindung im Unternehmen wichtig ist, eine Aktivität der IT-Abteilung; Data Science durchbricht diese Barriere und verspricht, die Kernaktivitäten von Analytics und BI in den Mainstream der Geschäftswelt zu bringen.

Die Data Scientists der Zukunft werden die “wenigen” Experten sein, die zur Operationalisierung von Daten hinzugezogen werden, und wenn das geschehen ist, nur noch dann Unterstützung leisten, wenn sie gebraucht werden.

Da Unternehmen immer stärkerem Wettbewerb ausgesetzt sind, werden BI-Experten mit Data Scientists zusammenarbeiten müssen, um diese fantastischen “Modelle” für sofortige Erkenntnisse zu erstellen.

Wie sich Data Science von Business Intelligence abhebt

Ein wesentlicher Unterschied zwischen fortgeschrittener BI und fortgeschrittener Data Science ist die Reichweite und der Umfang der eingebauten Bibliotheken für maschinelles Lernen (ML), die automatisierte oder halbautomatische Datenanalysen ermöglichen, die von normalen Geschäftsanwendern durchgeführt werden können. So bewegt sich Data Science in gewisser Weise auf eine demokratisierte “Business Analytics”-Welt zu, in der eines Tages jeder Datenanwender in der Lage sein wird, Advanced Analytics und BI mit ein paar Mausklicks auf seinem Desktop durchzuführen.

Data Science oder KI-unterstützte Data Science verspricht, die gewöhnlichen Geschäftsanwender von schwerfälliger Technologie zu entlasten, so dass sie sich mehr auf die Ziele und Ergebnisse ihrer Analytics-Aufgaben konzentrieren können, als auf den Analytics-Prozess selbst.

In der traditionellen BI sind gewöhnliche Geschäftsanwender gezwungen, sich auf die Expertise des ansässigen Analytics-Teams zu verlassen, um aussagekräftige Erkenntnisse aus ihren Daten zu extrahieren. ML-gestützte Data Science hat nun jedoch Self-Service-BI-Plattformen auf den Markt gebracht, auf denen gewöhnliche Anwender die Unternehmensdaten ganz einfach und ohne Hilfe von technischen Teams einsehen, analysieren und Erkenntnisse daraus gewinnen können.

Data Science wurde in der Vergangenheit oft als eine Weiterentwicklung von BI durch Experten definiert. Während BI-Teams Lösungen für die Gegenwart lieferten, indem sie die zentrale Entscheidungsfindung unterstützten, zielen Data Scientists darauf ab, zukünftige Lösungen zu liefern, indem sie ihre Algorithmen kontinuierlich verfeinern. Im Prinzip arbeiten sowohl BI als auch Data Science daran, eine reibungslose, genaue und schnelle Entscheidungsfindung zu ermöglichen, aber die Ansätze sind unterschiedlich.

Während BI sich stark auf einen Kernsatz von Analysetools stützt, verfolgt Data Science einen ganzheitlicheren Ansatz für das Datenmanagement, indem es den gesamten Rahmen für Data Governance, Data Analytics, BI und fortschrittliche Datenvisualisierung bietet. Kleine oder mittelständische Unternehmen mit einer begrenzten Anzahl von Analytics-Anforderungen können von einer durchschnittlichen, auf dem Markt erhältlichen BI-Lösung profitieren, während größere Unternehmen mit einem Bedarf an hochgradig automatisierten Prozessen von einem ML-gestützten BI-System profitieren, das wiederum die Anwesenheit und Beteiligung von qualifizierten Data Scientists erfordert.

Wie Data Science die Business Intelligence stärkt

Sowohl Data Scientists als auch BI-Experten teilen die Liebe zur Datenanalyse. Beide nutzen Algorithmen in unterschiedlichem Ausmaß, und beide verwenden fortschrittliche Visualisierungstools, um die “Nuggets of Wisdom” zu erfassen, die sehr wohl über Erfolg oder Misserfolg eines Unternehmens entscheiden können.

Data Science unterscheidet sich jedoch in drei Hauptbereichen von traditioneller BI: die Vielfalt und das Volumen der Daten, die Vorhersagefähigkeiten und die Visualisierungsplattformen.

In fortgeschrittenen BI-Systemen stoßen Anwender auf “Data Discovery Tools”, aber diese Tools sind oft durch die Qualität und Quantität der Daten, die sie verarbeiten, begrenzt. Data Science durchbricht die gläserne Decke der “Daten” und erlaubt es, jede Art von strukturierten, unstrukturierten oder halbstrukturierten Daten zu sammeln, zu bereinigen und für die Analyse vorzubereiten.

Während BI-Teams schon immer Führungskräfte oder Manager bei der Entscheidungsfindung unterstützt haben, hat Data Science es diesen Managern und Führungskräften ermöglicht, zu selbständigen Analytics-Experten zu werden.

In einer idealen Geschäftsumgebung sollte das BI-Team die operative Analytik verwalten, während die Data Scientists, falls vorhanden, mehr Zeit damit verbringen sollten, die bestehende Analytik und den BI-Fußabdruck zu verfeinern und das System so weit wie möglich zu automatisieren, damit die täglichen Geschäftsanwender ihre Arbeit zügig und genau erledigen können.

Wenn BI-Experten und Data Scientists zusammenarbeiten, können BI-Analysten die Daten für Data Scientists aufbereiten, damit diese sie in ihre algorithmischen Modelle einspeisen können. BI-Experten können ihr aktuelles Verständnis und Wissen über die Analytics-Anforderungen eines Unternehmens zur Verfügung stellen und den Data Scientists helfen, leistungsfähige Modelle zu erstellen, um zukünftige Trends und Muster vorherzusagen.

Sowohl der BI-Experte als auch der Data Scientist haben ihren Platz in einem Enterprise-Analytics-Team – der BI-Experte als Berichterstatter von Analytics-Aktivitäten und der Data Scientist als Entwickler von zukünftigen Lösungen. Gemeinsam können der BI-Experte und der Data Scientist nach und nach eine leistungsstarke, unternehmensinterne Analytics-Plattform aufbauen, die normale Geschäftsanwender ohne technische Hilfe erlernen und nutzen können.

Datenwissenschaft vs. Business Intelligence: Abschließende Gedanken

Einer der größten Stolpersteine, mit denen sich technologisch versierte Unternehmen konfrontiert sehen, ist das rasante Wachstum von Technologien, die zusammen eingesetzt eine Business-Transformation für den Erfolg auf dem Markt ermöglichen können.

Heutzutage sind Unternehmen häufig ratlos, wie sie mit der Geschwindigkeit des technologischen Wandels Schritt halten können und wie sie neuere und bessere Funktionen mit den vorhandenen integrieren können. Zum Beispiel können fortschrittliche Technologien wie Big Data, IoT, maschinelles Lernen und Serverless Computing zusammen die Geschäftslandschaft verändern, aber wie viele Unternehmen wissen tatsächlich, wie sie diese Lösungen integrieren können, um eine leistungsstarke Analytics-Plattform aufzubauen?

Technologien, Tools, Prozesse und talentierte Arbeitskräfte – diese müssen zusammenarbeiten, um den maximalen Nutzen aus Daten und Analytics zu ziehen.