據估計,到 2025 年,每年全球數據消耗量將達到 181 澤字節–是 2015 年的十倍多。這是否意味著我們將做出十倍更明智的業務決策?很可能不是,原因很簡單:根據不同的來源,75% 或更多的公司收集的數據潛伏在黑暗中。

“暗數據”是企業收集的大量信息,但從未分析或使用過。它可以是網絡和應用程序日誌、電子郵件通信、訪客跟踪數據、物聯網設備生成的信息等。如今,每項業務活動都以某種方式記錄下來。大多數這些數據都是非結構化的,並以不同的格式收集。必須處理、存儲、保護和維護這些信息的聚寶盆。它不會增加投資回報率,反而會增加噪音、隱性成本和安全問題,因為公司對所有收集的數據負有法律責任,即使他們不使用這些數據也是如此。

一些暗數據可以被追踪、解鎖、分組並準備使用現有的 AI 和 ML 支持的工具進行分析。即便如此,採用認知自動化來識別暗數據需要難以找到的特定技能和大量分析資源,因為它的數量通常非常大。

然而,任何人都能夠設法創造出如此精確的策略的可能性很小,以至於沒有收集多餘的、過時的或無關緊要的數據。那麼有沒有辦法擺脫暗數據的挑戰呢?由於主題範圍廣泛,我不會在本文中深入探討有缺陷的內部數據管理實踐。相反,我將快速回顧一下我們注意到公司在從外部來源收集大數據時所犯的常見錯誤,這些錯誤導致數據質量不佳。

外部數據炒作

公司最終收集冗餘數據的原因之一是 FOMO 和缺乏明確的戰略。許多企業感到有壓力要收集盡可能多的數據——他們擔心否則,他們將處於不利地位,無法做出明智的決定。因此,數據收集實踐往往從一開始就沒有明確的目標。

最近網絡抓取工具的激增使得各種規模的企業更容易訪問大量公共數據。不幸的是,暗數據的絕對數量意味著公司無法匹配數據收集能力的快速增長以及足夠的清理和分析能力。

在我關於 t數據的目的,我認為數據必須提供準確的描述的實際業務活動,並有意引導我們進行可行的改進。在我們解釋它、賦予它意義之前,它本身什麼都不做。最大的錯誤之一是在沒有合理的目的和需要回答的問題列表的情況下尋找數據。換句話說,沒有計劃如何使用這些數據。由於數據收集、存儲和處理會產生相關的業務成本,因此收集冗餘信息會浪費資源。

Web 數據充滿噪音

定義數據類型公司的需求和服務的目的只是邁向成功的第一步。由於 Web 數據分散在不同的來源並以多種標準和格式出現,因此提取它會帶來自身的挑戰。收集高質量的外部數據需要一定的編程技能和特定的技術經驗:Web 內容可能難以獲取和分析,尤其是在大規模的情況下。

例如,企業可能決定抓取數千個電子商務網站以獲取特定產品的價格、描述和評論。通常,一切都會順利進行,直到同一產品在不同站點上的名稱不同,或者同一產品有多個版本,但功能略有不同。產品匹配對於抓取新手來說可能會變得相當麻煩,最終結果可能是不一致或不准確的數據。

此外,假設企業在數據提取方面沒有足夠的專業知識,並試圖從中收集數據多個來源不分青紅皂白。在這種情況下,它很容易落入所謂的蜜罐——安全系統向毫無戒心的爬蟲和抓取器提供的虛假和潛在有害數據。

公司可能遇到的另一個棘手問題是網站是不斷改變和更新他們的結構。通常,抓取例程是針對各個站點的特定條件量身定制的,頻繁的更新往往會破壞它們。因此,抓取器需要定期維護以確保數據完整性。

通常,在內部開發全面的抓取解決方案成本太高。 Oxylabs 的最新研究表明,36% 的英國金融服務公司外包網絡抓取活動以解決複雜的問題數據提取挑戰,另有 27% 的人同時使用第三方和內部功能。除非您擁有經驗豐富的內部數據科學家和開發人員團隊,否則使用定制的第三方軟件或外包提取任務可能是收集網絡數據的最具成本效益的方式。

開放協作是關鍵

由於網絡數據嘈雜,公司必須不斷審核其收集的數據,以去除衝突、不正確或不必要的信息。審核有助於確定為您的抓取意圖提供最佳信息的來源,並允許過濾掉具有過多冗餘或垃圾數據的站點。

如果您的數據庫中仍然有太多數據或看起來不一致,那麼它是很可能在這條線上的某個地方,您收集了不准確的數據,或者您的某些數據可能不再有效。由於數據孤島和數據集成不佳,公司經常會迷失方向或忘記他們正在收集的內容,最終(再次)得到冗餘或過時的數據。

最後,即使數據收集工作取得成功,公司必須確保其團隊成員可以輕鬆找到該數據。如果公司不標準化所有渠道的數據收集並使用適當的集成工具,員工在嘗試定位和分析數據時可能會遇到實際問題。

早在 2018 年,DTC 研究表明,數據專業人員每週浪費大約 30% 的工作時間,因為他們無法定位、保護或準備數據。更有趣的是,他們將另外 20% 的時間花在了構建公司中已有的信息資產上。

隨著組織的擴展,大量數據可能會被分隔在多個斷開連接的數據庫中,只有基本元數據和有限的可搜索性增加。這意味著不同的部門和團隊不會查看相同的數據,而只能訪問一個小片段。沒有人看到全貌,因此很難做出合理且公正的業務決策。

數據本身沒有任何作用

可能是我遇到的一些挑戰這裡提到的聽起來太籠統了;然而,這是最常被遺忘或為了更快的結果而犧牲的基礎知識。大數據可能是任何企業之外的最大機會:以正確的方式利用它,它可以識別和解決組織內部的問題,提供對客戶生命週期的洞察力,並提供增加銷售額的方法。但數據只有在有意為之並促使我們採取行動時才是有益的。

通常,企業將擁有更多數據或完全擁有數據視為一種必需品。不管幸運與否,似乎一切都有數據——客戶興趣、網站訪問者、流失率、情緒、人口統計數據等等。由於可用信息量巨大,在公司開始下一次數據抓取之旅之前,最重要的任務是確定哪些對其業務有價值,哪些沒有。

圖片來源:

strong> agsandrew/depositphotos

Julius Çerniauskas 是 Oxylabs.io 的首席執行官。

By Kaitlynn Clay

我是一名用戶體驗專家。 我對網頁設計和用戶行為分析很感興趣。 在我休息的日子裡,我總是參觀藝術博物館。