5 Schritte zur Lösung eines neuen Data-Science-Problems

TABLE OF CONTENTS

5 Schritte zur Lösung eines neuen Data-Science-Problems

Einführung

Daten sind das neue Gold geworden. 85 Prozent der Unternehmen versuchen, datengetrieben zu sein, so die letztjährige Umfrage von Neue Vantage-Partner, und der globale Markt für Data-Science-Plattformen ist erwartet soll bis 2022 128,21 Milliarden $ erreichen, gegenüber 19,75 Milliarden $ im Jahr 2016.

Natürlich ist Data Science nicht nur ein weiteres Schlagwort mit begrenzten Anwendungsfällen in der realen Welt. Dennoch haben viele Unternehmen Schwierigkeiten, ihre Entscheidungsfindung rund um Daten und implementieren Sie eine kohärente Datenstrategie. Das Problem ist sicherlich nicht der Mangel an Daten.

Allein in den letzten Jahren 90 Prozent aller Daten der Welt wurden erstellt, und unsere aktuelle tägliche Datenmenge hat 2,5 Trillionen Byte erreicht. Das ist eine so unglaublich große Zahl, dass es schwierig ist, das halsbrecherische Tempo, mit dem wir neue Daten generieren, vollständig einzuschätzen.

Das eigentliche Problem ist die Unfähigkeit der Unternehmen, die ihnen zur Verfügung stehenden Daten in umsetzbare Erkenntnisse umzuwandeln, die genutzt werden können, um bessere Geschäftsentscheidungen zu treffen, Bedrohungen abzuwehren und Risiken zu mindern.

Tatsächlich sind oft zu viele Daten verfügbar, um eine klare Entscheidung zu treffen. Aus diesem Grund ist es für Unternehmen von entscheidender Bedeutung zu wissen, wie sie ein neues datenwissenschaftliches Problem angehen und verstehen, welche Arten von Fragen die Datenwissenschaft beantworten kann.

Welche Arten von Fragen kann Data Science beantworten?

„Datenwissenschaft und Statistik sind keine Zauberei. Sie werden nicht auf magische Weise alle Probleme eines Unternehmens lösen. Sie sind jedoch nützliche Tools, die Unternehmen dabei helfen, genauere Entscheidungen zu treffen und sich wiederholende Arbeiten und Entscheidungen, die Teams treffen müssen, zu automatisieren.“ schreibt Seattle Data Guy, eine datengesteuerte Beratungsagentur.

Die Fragen, die mit Hilfe von Data Science beantwortet werden können, fallen unter folgende Kategorien:

Identifizieren von Themen in großen Datensätzen: Welcher Server in meiner Serverfarm muss am meisten gewartet werden?
Identifizierung von Anomalien in großen Datensätzen: Unterscheidet sich diese Kombination von Käufen von dem, was dieser Kunde in der Vergangenheit bestellt hat?
Vorhersage der Wahrscheinlichkeit, dass etwas passiert: Wie wahrscheinlich ist es, dass dieser Nutzer auf mein Video klickt?
Zeigt, wie Dinge miteinander verbunden sind: Was ist das Thema dieses Online-Artikels?
Kategorisierung einzelner Datenpunkte: Ist das ein Bild einer Katze oder einer Maus?

Natürlich ist dies keineswegs eine vollständige Liste aller Fragen, die Data Science beantworten kann. Selbst wenn dies der Fall wäre, entwickelt sich die Datenwissenschaft in einem so rasanten Tempo, dass sie innerhalb von ein oder zwei Jahren nach ihrer Veröffentlichung höchstwahrscheinlich völlig veraltet wäre.

Nachdem wir nun die Arten von Fragen festgelegt haben, von denen vernünftigerweise erwartet werden kann, dass sie mithilfe der Datenwissenschaft beantwortet werden, ist es an der Zeit, die Schritte festzulegen, die die meisten Datenwissenschaftler ergreifen würden, wenn sie sich einem neuen datenwissenschaftlichen Problem nähern würden.

Schritt 1: Definieren Sie das Problem

Zunächst muss das Datenproblem, das gelöst werden soll, genau definiert werden. Das Problem sollte sein klar, präzise und messbar. Viele Unternehmen definieren Datenprobleme zu vage, was es für Datenwissenschaftler schwierig oder sogar unmöglich macht, sie in Maschinencode zu übersetzen.

Hier sind einige grundlegende Merkmale eines klar definierten Datenproblems:

Die Lösung des Problems wird wahrscheinlich genügend positive Auswirkungen haben, um die Bemühungen zu rechtfertigen.
Genügend Daten sind in einem brauchbaren Format verfügbar.
Die Interessengruppen sind daran interessiert, Datenwissenschaft zur Lösung des Problems anzuwenden.

Schritt 2: Entscheiden Sie sich für einen Ansatz

Es gibt viele datenwissenschaftliche Algorithmen, die auf Daten angewendet werden können, und sie lassen sich grob in die folgenden Gruppen einteilen:

Einstufung in zwei Klassen: nützlich für jede Frage, die nur zwei mögliche Antworten hat.
Mehrklassenklassifizierung: beantwortet eine Frage, die mehrere mögliche Antworten hat.
Erkennung von Anomalien: identifiziert Datenpunkte, die nicht normal sind.
Regression: gibt eine reellwertige Antwort und ist nützlich, wenn Sie nach einer Zahl statt nach einer Klasse oder Kategorie suchen.
Mehrklassenklassifikation als Regression: nützlich für Fragen, die als Rankings oder Vergleiche auftreten.
Zweiklassenklassifikation als Regression: nützlich für binäre Klassifikationsprobleme, die auch als Regression umformuliert werden können.
Clustering: Beantworten Sie Fragen zur Organisation von Daten, indem Sie versuchen, einen Datensatz in intuitive Abschnitte zu unterteilen.
Reduzierung der Dimensionalität: reduziert die Anzahl der betrachteten Zufallsvariablen, indem ein Satz von Hauptvariablen abgerufen wird.
Algorithmen für verstärkendes Lernen: Konzentrieren Sie sich darauf, in einer Umgebung Maßnahmen zu ergreifen, um eine gewisse Vorstellung von kumulativer Belohnung zu maximieren.

Schritt 3: Daten sammeln

Nachdem das Problem klar definiert und ein geeigneter Ansatz ausgewählt wurde, ist es an der Zeit, Daten zu sammeln. Alle gesammelten Daten sollten zusammen mit den Erfassungsdaten und anderen hilfreichen Metadaten in einem Protokoll organisiert werden.

Es ist wichtig zu verstehen, dass gesammelte Daten selten sofort zur Analyse bereit sind. Die meisten Datenwissenschaftler verbringen einen Großteil ihrer Zeit damit Datenbereinigung, was das Entfernen fehlender Werte, das Identifizieren doppelter Datensätze und das Korrigieren falscher Werte umfasst.

Schritt 4: Daten analysieren

Der nächste Schritt nach der Datenerfassung und -bereinigung ist die Datenanalyse. In dieser Phase besteht eine gewisse Wahrscheinlichkeit, dass der gewählte datenwissenschaftliche Ansatz nicht funktioniert. Dies ist zu erwarten und zu berücksichtigen. Im Allgemeinen wird empfohlen, zunächst alle grundlegenden Ansätze des maschinellen Lernens auszuprobieren, da bei ihnen weniger Parameter geändert werden müssen.

Es gibt viele hervorragende Open-Source-Data-Science-Bibliotheken, die zur Analyse von Daten verwendet werden können. Die meisten Data-Science-Tools sind in Python, Java oder C++ geschrieben.

<blockquote><p>„So verlockend diese coolen Spielzeuge auch sein mögen, für die meisten Anwendungen ist es die kluge erste Wahl, ein viel einfacheres Modell zu wählen, beispielsweise mithilfe von Scikit-Learn und Modellierungstechniken wie einfacher logistischer Regression“, rät Francine Bennett, CEO und Mitbegründerin von Mastodon C.</p></blockquote>

Schritt 5: Ergebnisse interpretieren

Nach der Datenanalyse ist es endlich an der Zeit, die Ergebnisse zu interpretieren. Das Wichtigste, was zu berücksichtigen ist, ist, ob das ursprüngliche Problem gelöst wurde. Möglicherweise stellen Sie fest, dass Ihr Modell funktioniert, aber unterdurchschnittliche Ergebnisse liefert. Eine Möglichkeit, damit umzugehen, besteht darin, weitere Daten hinzuzufügen und das Modell so lange neu zu trainieren, bis es zufrieden ist.

Fazit

Die meisten Unternehmen ertrinken heute in Daten. Die weltweit führenden Unternehmen nutzen die von ihnen generierten Daten bereits, um sich Wettbewerbsvorteile zu verschaffen, und andere erkennen, dass sie dasselbe tun müssen oder untergehen. Es ist zwar keine leichte Aufgabe, ein Unternehmen so umzugestalten, dass es datengesteuert wird, aber die Belohnung ist die Mühe mehr als wert.

Die 5 Schritte zur Herangehensweise an ein neues datenwissenschaftliches Problem, die wir in diesem Artikel beschrieben haben, sollen das Allgemeine veranschaulichen Denkweise zur Problemlösung Unternehmen müssen sich anpassen, um sich den Herausforderungen unserer aktuellen datenzentrierten Ära erfolgreich zu stellen.

Frequently Asked Questions

No items found.

Unser Versprechen

Brainhub unterstützt jedes Jahr Gründer:innen, Tech-Leads und Entwickler:innen bei klugen Technologieentscheidungen – mit offen geteiltem Wissen aus der Praxis.

Authors

Matt Warcholinski

Chief Growth Officer

Ein Serienunternehmer, leidenschaftlicher Forschungs- und Entwicklungsingenieur mit 15 Jahren Erfahrung in der Technologiebranche. Teilt sein Expertenwissen über Technologie, Startups, Geschäftsentwicklung und Marktanalysen.

Matt Warcholinski

Chief Growth Officer