Es wird geschätzt, dass sich der jährliche globale Datenverbrauch bis 2025 auf 181 Zettabyte–mehr als zehnmal mehr als 2015. Bedeutet das, dass wir zehnmal besser informierte Geschäftsentscheidungen treffen werden? Höchstwahrscheinlich nicht, und der Grund ist einfach: Laut verschiedenen Quellen lauern 75 Prozent oder mehr der Daten, die Unternehmen sammeln, im Dunkeln.
„Dark Data“ ist die riesige Menge an Informationen, die von Unternehmen gesammelt werden, aber nie analysiert oder verwendet. Dies können Web-und App-Protokolle, E-Mail-Korrespondenz, Besucher-Tracking-Daten, die von IoT-Geräten generierten Informationen usw. sein. Heutzutage wird jede Geschäftsaktivität irgendwie aufgezeichnet. Die meisten dieser Daten sind unstrukturiert und werden in verschiedenen Formaten gesammelt. Dieses Füllhorn an Informationen muss verarbeitet, gespeichert, gesichert und gepflegt werden. Anstatt den ROI zu erhöhen, erhöht es Lärm, versteckte Kosten und Sicherheitsprobleme, da Unternehmen rechtlich für alle gesammelten Daten verantwortlich sind, auch wenn sie sie nicht verwenden.
Einige dunkle Daten können verfolgt und entschlüsselt werden , gruppiert und für die Analyse mit bereits verfügbaren KI-und ML-gestützten Tools vorbereitet. Dennoch erfordert der Einsatz von kognitiver Automatisierung zur Identifizierung von Dark Data spezielle Fähigkeiten, die schwer zu finden sind, und erhebliche analytische Ressourcen, da das Volumen oft ziemlich extrem ist.
Es besteht jedoch eine geringe Wahrscheinlichkeit, dass es jemandem gelingt, eine so präzise Strategie zu prägen, dass es eine gibt es werden keine redundanten, veralteten oder trivialen Daten gesammelt. Gibt es also einen Ausweg aus der Dark-Data-Challenge? Ich werde in diesem Artikel nicht auf fehlerhafte interne Datenverwaltungspraktiken eingehen, da das Thema sehr umfangreich ist. Stattdessen werde ich schnell auf häufige Fehler eingehen, die uns aufgefallen sind und die Unternehmen beim Sammeln von Big Data aus externen Quellen machen, was zu einer schlechten Datenqualität führt.
Der Hype um externe Daten
Einer der Gründe, warum Unternehmen redundante Daten sammeln, ist FOMO und das Fehlen einer klaren Strategie. Viele Unternehmen fühlen sich unter Druck gesetzt, so viele Daten wie möglich zu sammeln – sie befürchten, dass sie sonst benachteiligt werden und keine fundierten Entscheidungen treffen können. Daher verfehlen Datenerfassungspraktiken oft von Anfang an ein klares Ziel.
Durch die jüngste Verbreitung von Web-Scraping-Tools sind riesige Mengen öffentlicher Daten für Unternehmen jeder Größe zugänglicher geworden. Leider impliziert die schiere Menge an dunklen Daten, dass Unternehmen dem schnellen Anstieg der Datenerfassungskapazitäten nicht mit ausreichender Fähigkeit zur Bereinigung und Analyse gerecht werden.
In meinem Artikel über tZum Zweck von Daten habe ich argumentiert, dass Daten genaue Beschreibungen liefern müssen der tatsächlichen Geschäftstätigkeit und führen uns bewusst zu umsetzbaren Verbesserungen. Es tut nichts von selbst, bis wir es interpretieren und ihm Bedeutung geben. Einer der größten Fehler besteht darin, die Daten zu suchen, ohne einen gut begründeten Zweck und eine Liste von Fragen zu haben, die Sie beantworten müssen. Mit anderen Worten, ohne einen Plan, wie diese Daten verwendet werden. Da das Sammeln, Speichern und Verarbeiten von Daten mit Geschäftskosten verbunden ist, verschwendet das Sammeln redundanter Informationen Ressourcen.
Webdaten sind verrauscht
Die Definition, welche Art von Daten die Anforderungen des Unternehmens und welchen Zweck es erfüllen soll, ist nur der erste Schritt zum Erfolg. Das Extrahieren bringt seine eigenen Herausforderungen mit sich, da Webdaten über verschiedene Quellen verstreut sind und in mehreren Standards und Formaten vorliegen. Das Sammeln qualitativ hochwertiger externer Daten erfordert einige Programmierkenntnisse und spezifische technische Erfahrung: Webinhalte können schwierig abzurufen und zu analysieren sein, insbesondere in großem Umfang.
Ein Unternehmen kann sich beispielsweise entscheiden, Tausende von E-Commerce-Websites zu durchsuchen Preise, Beschreibungen und Bewertungen bestimmter Produkte. Normalerweise geht alles schief, bis sich herausstellt, dass dasselbe Produkt auf verschiedenen Websites unterschiedlich benannt wird oder es mehrere Versionen desselben Produkts mit nur geringfügigen Funktionsunterschieden gibt. Der Produktabgleich kann für Scraping-Neulinge ziemlich mühsam werden, und das Endergebnis können inkonsistente oder ungenaue Daten sein.
Außerdem nehmen wir an, dass das Unternehmen nicht über genügend Erfahrung in der Datenextraktion verfügt und versucht, Daten zu sammeln mehrere Quellen wahllos. In diesem Fall können sie leicht in die sogenannten Honeypots fallen – gefälschte und potenziell schädliche Daten, die Sicherheitssysteme an ahnungslose Crawler und Scraper weitergeben.
Ein weiteres kniffliges Problem, auf das das Unternehmen stoßen könnte, sind Websites ihre Struktur ständig ändern und aktualisieren. Normalerweise sind Scraping-Routinen auf die spezifischen Bedingungen der einzelnen Standorte zugeschnitten, und häufige Updates stören sie. Daher müssen Scraper regelmäßig gewartet werden, um die Datenintegrität zu gewährleisten.
Oft ist es zu kostspielig, umfassende Scraping-Lösungen intern zu entwickeln. Neueste Untersuchungen von Oxylabs zeigen, dass 36 % der britischen Finanzdienstleistungsunternehmen Web-Scraping-Aktivitäten auslagern, um komplexe Probleme zu lösen Herausforderungen bei der Datenextraktion und weitere 27 Prozent nutzen sowohl Drittanbieter-als auch interne Funktionen. Sofern Sie nicht über ein erfahrenes internes Team von Datenwissenschaftlern und Entwicklern verfügen, kann die Verwendung angepasster Drittanbieter-Software oder die Auslagerung von Extraktionsaufgaben die kosteneffizienteste Methode zum Sammeln von Webdaten sein.
Offene Zusammenarbeit ist der Schlüssel
Da Webdaten verrauscht sind, muss das Unternehmen die gesammelten Daten ständig überprüfen, um widersprüchliche, falsche oder unnötige Informationen zu entfernen. Auditing hilft dabei, Quellen zu identifizieren, die die besten Informationen für Ihre Scraping-Absichten liefern, und ermöglicht das Herausfiltern von Websites mit zu vielen redundanten oder ungenutzten Daten.
Wenn Ihre Datenbanken immer noch zu viele Daten enthalten oder inkonsistent erscheinen, ist dies der Fall wahrscheinlich haben Sie irgendwo auf der Linie ungenaue Daten gesammelt, oder vielleicht sind einige Ihrer Daten nicht mehr gültig. Aufgrund von Datensilos und schlechter Datenintegration verlieren Unternehmen oft den Überblick oder vergessen, was sie sammeln, was (wieder) zu redundanten oder veralteten Daten führt.
Schließlich, selbst wenn die Bemühungen zur Datensammlung erfolgreich sind, die Das Unternehmen muss sicherstellen, dass seine Teammitglieder diese Daten leicht finden können. Wenn das Unternehmen die Datenerfassung nicht über alle Kanäle hinweg standardisiert und geeignete Integrationstools verwendet, können Mitarbeiter beim Versuch, sie zu finden und zu analysieren, auf echte Probleme stoßen.
Damals im Jahr 2018, DTC-Untersuchungen zeigten, dass Datenexperten etwa 30 Prozent ihrer wöchentlichen Arbeitszeit verschwendeten, weil sie Daten nicht finden, schützen oder vorbereiten konnten. Noch interessanter ist, dass weitere 20 Prozent ihrer Zeit damit verbracht wurden, bereits in ihrem Unternehmen vorhandene Informationsressourcen aufzubauen.
Wenn Unternehmen expandieren, besteht die Möglichkeit, dass große Datenmengen nur noch in mehrere getrennte Datenbanken unterteilt werden Grundlegende Metadaten und eingeschränkte Durchsuchbarkeit werden erhöht. Das bedeutet, dass verschiedene Abteilungen und Teams nicht auf die gleichen Daten schauen, sondern nur auf einen kleinen Ausschnitt zugreifen können. Niemand sieht das Gesamtbild, was es schwierig macht, fundierte und unvoreingenommene Geschäftsentscheidungen zu treffen.
Daten allein machen nichts
Es kann sein, dass einige Herausforderungen I habe hier erwähnt, dass es zu allgemein klingt; Es sind jedoch die Grundlagen, die am häufigsten vergessen oder zugunsten schnellerer Ergebnisse eingetauscht werden. Big Data ist wahrscheinlich die größte Chance, die außerhalb eines jeden Unternehmens liegt: Richtig eingesetzt, können sie Probleme innerhalb eines Unternehmens identifizieren und lösen, Einblicke in den Kundenlebenszyklus geben und Wege zur Umsatzsteigerung aufzeigen. Aber Daten sind nur gut, wenn sie gewollt sind und uns zum Handeln anspornen.
Oft betrachten Unternehmen es als notwendiges Gut, mehr oder überhaupt Daten zu haben. Glücklicherweise oder nicht, scheint es Daten für alles zu geben – Kundeninteressen, Website-Besucher, Abwanderungsraten, Stimmungen, demografische Daten und vieles mehr. Angesichts der schieren Menge an verfügbaren Informationen ist die wichtigste Aufgabe, bevor ein Unternehmen sich auf die nächste Data-Scraping-Reise begibt, zu entscheiden, was für sein Geschäft wertvoll ist und was nicht.
Bildnachweis: agsandrew/depositphotos
Julius Černiauskas ist CEO von Oxylabs.io.