Web 抓取,自動從網站收集和提取數據,可以成為企業了解客戶的有用工具。
但很容易陷入收集數據的陷阱,因為它就在那裡,導致信息過載,更不用說消費者的隱私問題了。為了進一步了解網絡抓取以及如何以合乎道德的方式使用它,我們採訪了 Rayobyte 的創始人兼首席執行官, Neil Emeigh。
BN:什麼是道德抓取以及它如何用於收集消費者數據?
NE:信不信由你,網絡抓取是我們所有人都會做的事情每天。你甚至可以在沒有軟件的情況下做到這一點。如果您是社交媒體用戶,定期檢查您的帖子獲得的點贊數量,或者銷售產品的人定期檢查競爭對手的價格,那麼您實際上是在抓取,因為您正在從一個網站收集特定的實時數據公共網站。
現在假設您是一家管理著一百個社交媒體帳戶的機構,或者是一家擁有數千種競爭產品的電子商務賣家。顯然,您自己觀察和收集所有這些信息會花費太長時間,而當您這樣做時,這些信息已經過時了。這就是為什麼我們大多數人選擇使用一款軟件來為我們查找該信息的原因。這稱為“抓取”,因為該軟件從包含許多您不感興趣的其他信息的頁面中抓取您真正需要的信息(比如價格數據)。
甚至如果您不直接進行抓取,那麼今天任何經營業務的人都可能依賴某種形式的抓取。大型 SEO 工具從搜索引擎結果頁面抓取信息,社交書籍和電影評論應用程序從數據庫中提取信息以確保它們擁有最廣泛的標題列表,抓取甚至是所有搜索引擎結果的引擎!正如您所看到的,抓取已經存在多年,而且不會很快消失。
道德問題與兩個因素有關。第一:用法。您是否只抓取不可識別且任何人都可以免費使用的公開可用數據?您是否遵守有關數據收集的所有當地法律?其次:抓取工具本身的道德規範。這一點有點技術性。
所有的爬蟲都需要代理 IP 地址,這是我公司出售的。那是因為當大多數網站檢測到抓取機器人時,他們會禁止該機器人的 IP 地址。因此,要有效地抓取數百萬個頁面,您需要大量的 IP 地址——理想情況下,IP 地址與真實的互聯網服務提供商相關聯,或者更好的是與真實用戶相關聯。在行業歷史的不同時期,我的許多代理提供商夥伴都在這些真實用戶不知情的情況下採購代理,並且沒有對他們進行補償。許多“代理網絡”實際上是高級殭屍網絡,非法獲得和/或用於收集有關消費者的個人隱私數據。
因此,“道德抓取”實際上是強制執行代理的道德使用和獲取。
BN:網絡抓取是否合法,您是否希望該活動受到監管?
NE:這是一個複雜的問題,我通常認為它是比較容易回答。 Web 抓取工具和為它們提供動力的代理是工具,所以讓我們考慮另一種工具:不起眼的錘子。買賣錘子是合法的。錘子有許多奇妙的合法用途-您可以為您和您的家人建造家具,或為鄰居建造住所。另一方面,你也可以用錘子傷害或殺死某人,這當然是違法的。
所以是的,刮刀的存在是——在大多數情況下,在地球上的大多數地方——-相當合法。但是,就在我們說話的時候,通過美國的 HiQ Labs 訴 LinkedIn 等案件,或加利福尼亞、科羅拉多和弗吉尼亞等州的消費者隱私法規,正在劃定使用它們的合法性的確切界限。像我這樣的爬蟲有責任確保我的公司——以及我們的客戶——始終遵守法律。
我承認這是我關心的事情——我們的行業並不存在於真空中,數據隱私最近已成為一個主要的公眾話題。如果代理行業無法從我們身上清除不道德行為的惡臭,我們將看到更多的舉措來規範公共和私營部門當前的運營模式。這就是我與您以及像您這樣的面試官交談的部分原因,目的是試圖幫助人們了解這些技術具有有用和必要的一面,以及更廣為人知的粗略用例。
BN:從消費者的角度來看,人們可以做些什麼來確保他們的數據安全和受到保護?
NE:來自像我這樣的道德抓取者——我真的相信他們構成了我們行業的大多數人——您可以免受任何隱藏在登錄後的東西的侵害。我們的工具不能用於獲取您的信用卡信息、密碼等。
因此,如果您擔心信息被竊取,最安全的做法很簡單:不要發表它!這是常識,但我們都應該非常仔細地考慮我們在網上發布的內容。到目前為止,我假設我們大多數人都知道,如果您在自己的網站上發布您的電話號碼,一些垃圾郵件呼叫者會找到它,或者如果您在 Twitter 上發布令人尷尬的內容,它將永遠以屏幕截圖的形式存在。我自己沒有任何個人社交媒體帳戶,這是它自己的安全形式。
至於保護自己免受試圖查找個人信息的不道德爬蟲的攻擊,你說的是黑客點——所以建議是相同的,它適用於任何其他類型的惡意攻擊。在整個組織中實施安全密碼,聘請優秀的安全團隊,限制對敏感信息的訪問,諸如此類。不要在所有網站上使用相同的密碼。如果您是不想被抓取的網站所有者,請將其放入您網站的服務條款中。它顯然不會阻止真正致力於抓取的人,但如果發生這種情況以及何時發生,它將為您提供法律追索權。
BN:如何減少網絡抓取的侵入性?
NE:同樣,我認為關鍵是只抓取公共信息。人們自己發佈到公共空間的數據。
我也不認為個人身份信息真的是必要的——而且我認為這是許多人對數據收集的普遍誤解.我們的客戶有興趣篩選大量業務數據,而不是 Joe Whoever 的個人瀏覽習慣。
圖片來源:deyangeorgiev2/depositphotos.com