การขูดเว็บ การเก็บเกี่ยวและแยกข้อมูลจากเว็บไซต์โดยอัตโนมัติ สามารถเป็นเครื่องมือที่มีประโยชน์สำหรับธุรกิจในการเรียนรู้เกี่ยวกับลูกค้าของตน

แต่การตกหลุมพรางของการเก็บเกี่ยวข้อมูลนั้นเป็นเรื่องง่ายเพราะมันอยู่ที่นั่น นำไปสู่การโอเวอร์โหลดข้อมูลโดยไม่ต้องพูดถึงความกังวลเรื่องความเป็นส่วนตัวสำหรับผู้บริโภค หากต้องการข้อมูลเพิ่มเติมเกี่ยวกับการขูดเว็บและวิธีการใช้งานอย่างถูกจริยธรรม เราได้พูดคุยกับผู้ก่อตั้งและซีอีโอของ Rayobyte Neil Emeigh

BN: การขูดข้อมูลอย่างมีจริยธรรมคืออะไร และใช้เพื่อรวบรวมข้อมูลผู้บริโภคอย่างไร

NE: เชื่อหรือไม่ว่าการขูดเว็บเป็นสิ่งที่พวกเราทุกคนทำ ทุกวัน. คุณสามารถทำได้โดยไม่ต้องใช้ซอฟต์แวร์ หากคุณเป็นผู้ใช้โซเชียลมีเดียที่ตรวจสอบจำนวนไลค์ที่โพสต์ของคุณได้รับเป็นประจำ หรือคนขายผลิตภัณฑ์ที่ตรวจสอบราคาของคู่แข่งเป็นประจำ คุณกำลังถูกคัดออก เพราะคุณกำลังรวบรวมข้อมูลเรียลไทม์ที่เฉพาะเจาะจงจาก เว็บไซต์สาธารณะ

ตอนนี้ สมมติว่าคุณเป็นเอเจนซีที่จัดการบัญชีโซเชียลมีเดียหนึ่งร้อยบัญชี หรือผู้ขายอีคอมเมิร์ซที่มีผลิตภัณฑ์คู่แข่งหลายพันรายการ เห็นได้ชัดว่าคุณใช้เวลานานเกินไปในการสังเกตและรวบรวมข้อมูลทั้งหมดด้วยตัวคุณเอง และเมื่อถึงเวลาที่คุณทำ ข้อมูลก็จะล้าสมัย นั่นเป็นเหตุผลที่พวกเราส่วนใหญ่เลือกใช้ซอฟต์แวร์สักชิ้นเพื่อค้นหาข้อมูลนั้นให้กับเรา สิ่งนี้เรียกว่า’การขูด’เนื่องจากซอฟต์แวร์จะขูดข้อมูลที่คุณกำลังมองหาจริงๆ เช่น ข้อมูลราคา จากหน้าเว็บที่มีข้อมูลอื่นๆ มากมายที่คุณไม่สนใจ

แม้กระทั่ง หากคุณไม่ได้ขูดโดยตรง มีโอกาสที่ทุกคนที่มีธุรกิจในปัจจุบันจะอาศัยการขูดในบางรูปแบบ เครื่องมือ SEO ขนาดใหญ่จะขูดข้อมูลจากหน้าผลลัพธ์ของเครื่องมือค้นหา แอปวิจารณ์หนังสือโซเชียลและภาพยนตร์จะดึงข้อมูลจากฐานข้อมูลเพื่อให้แน่ใจว่ามีรายชื่อหนังสือที่ครอบคลุมมากที่สุด และการขูดยังเป็นเครื่องมือที่ขับเคลื่อนผลลัพธ์ของเครื่องมือค้นหาทั้งหมด! อย่างที่คุณเห็น การขูดเกิดขึ้นมาหลายปีแล้วและจะไม่เกิดขึ้นเร็วๆ นี้

คำถามเกี่ยวกับจริยธรรมเกี่ยวข้องกับปัจจัยสองประการ ประการแรก: การใช้งาน คุณกำลังคัดลอกเฉพาะข้อมูลที่เปิดเผยต่อสาธารณะซึ่งไม่สามารถระบุตัวตนได้และฟรีสำหรับทุกคนหรือไม่? คุณปฏิบัติตามกฎหมายท้องถิ่นทั้งหมดเกี่ยวกับการรวบรวมข้อมูลหรือไม่ และประการที่สอง: จริยธรรมของเครื่องมือขูดเอง ประเด็นนี้เป็นเรื่องทางเทคนิคเล็กน้อย

เครื่องขูดทั้งหมดต้องการที่อยู่ IP ของพร็อกซี ซึ่งเป็นสิ่งที่บริษัทของฉันขาย นั่นเป็นเพราะเมื่อเว็บไซต์ส่วนใหญ่ตรวจพบบอตที่ขูดข้อมูล พวกเขาจะแบนที่อยู่ IP ของบอตนั้น ดังนั้นในการขูดหน้าหลายล้านหน้าอย่างมีประสิทธิภาพ คุณต้องมีที่อยู่ IP จำนวนมาก–ตามหลักแล้ว ที่อยู่ IP ที่เชื่อมโยงกับผู้ให้บริการอินเทอร์เน็ตจริง หรือดีกว่านั้นคือผู้ใช้จริง ผู้ให้บริการพร็อกซีที่เป็นเพื่อนของฉันหลายคนเคยได้รับพร็อกซีมาโดยที่ผู้ใช้จริงเหล่านั้นไม่ทราบ และไม่มีการชดเชยให้’เครือข่ายพร็อกซี’จำนวนมากเป็นบอทเน็ตขั้นสูงที่ได้มาอย่างผิดกฎหมายและ/หรือใช้เพื่อรวบรวมข้อมูลส่วนตัวเกี่ยวกับผู้บริโภค

ดังนั้น’การขูดข้อมูลอย่างมีจริยธรรม’จึงเกี่ยวกับการบังคับใช้อย่างมีจริยธรรมและการได้มาซึ่งพร็อกซี

BN: การขูดเว็บถูกกฎหมายหรือไม่ และคุณคาดหวังว่ากิจกรรมจะถูกควบคุมหรือไม่

NE: นี่เป็นคำถามที่ซับซ้อน ฉันมักจะพบว่า ตอบง่ายที่สุดด้วยการเปรียบเทียบ เครื่องมือขูดเว็บและพร็อกซีที่ทำงานเป็นเครื่องมือ ดังนั้นลองพิจารณาเครื่องมืออื่น: ค้อนเจียมเนื้อเจียมตัว การซื้อและขายค้อนเป็นสิ่งถูกกฎหมาย มีการใช้ค้อนอย่างถูกกฎหมายและยอดเยี่ยมมากมาย-คุณสามารถสร้างเฟอร์นิเจอร์สำหรับคุณและครอบครัวของคุณ หรือที่พักพิงสำหรับเพื่อนบ้าน ในทางกลับกัน คุณสามารถใช้ค้อนเพื่อทำร้ายหรือฆ่าใครบางคน ซึ่งแน่นอนว่าผิดกฎหมาย

ใช่แล้ว การมีอยู่ของมีดโกนก็คือ–ในสถานการณ์ส่วนใหญ่ ในสถานที่ส่วนใหญ่บนโลก—ค่อนข้างถูกกฎหมาย แต่บรรทัดที่แน่นอนสำหรับวิธีการใช้ถูกกฎหมายนั้นกำลังถูกวาดขึ้นในขณะที่เราพูด โดยกรณีต่างๆ เช่น HiQ Labs v LinkedIn ที่นี่ในสหรัฐอเมริกา หรือข้อบังคับความเป็นส่วนตัวของผู้บริโภคในรัฐต่างๆ เช่น แคลิฟอร์เนีย โคโลราโด และเวอร์จิเนีย เป็นหน้าที่ของผู้ขูดเช่นฉันที่จะต้องแน่ใจว่าบริษัทของฉัน–และลูกค้าของเรา–ปฏิบัติตามกฎหมายตลอดเวลา

ฉันจะยอมรับว่านี่เป็นสิ่งที่ทำให้ฉันกังวล–ของเรา อุตสาหกรรมไม่ได้อยู่ในสุญญากาศ และความเป็นส่วนตัวของข้อมูลก็กลายเป็นประเด็นพูดคุยสาธารณะที่สำคัญในเวลาต่อมา หากอุตสาหกรรมตัวแทนไม่สามารถกำจัดพฤติกรรมที่ผิดจรรยาบรรณของเราได้ เราจะเห็นการเคลื่อนไหวมากขึ้นในการควบคุมโหมดการทำงานปัจจุบันของเราจากทั้งภาครัฐและเอกชน นั่นเป็นส่วนหนึ่งของเหตุผลที่ฉันพูดคุยกับคุณและผู้สัมภาษณ์เช่นคุณ เพื่อช่วยให้ผู้คนเข้าใจว่าเทคโนโลยีเหล่านี้มีประโยชน์และจำเป็น เช่นเดียวกับกรณีการใช้งานคร่าวๆ ที่เป็นที่รู้จักมากขึ้น

BN: จากฝั่งผู้บริโภค ผู้คนสามารถทำอะไรได้บ้างเพื่อให้มั่นใจว่าข้อมูลของตนปลอดภัยและได้รับการปกป้อง

NE: จากผู้ขูดรีดที่มีจริยธรรมเช่นตัวฉันเอง ซึ่งฉันเชื่ออย่างแท้จริงว่ามีส่วน อุตสาหกรรมส่วนใหญ่ของเรา–คุณจะปลอดภัยจากสิ่งที่ซ่อนอยู่หลังการเข้าสู่ระบบ เครื่องมือของเราไม่สามารถใช้เพื่อรับข้อมูลบัตรเครดิต รหัสผ่าน และอื่นๆ ได้

ดังนั้น หากคุณมีข้อมูลที่คุณกังวลว่าจะถูกคัดลอก สิ่งที่ปลอดภัยที่สุดที่คุณสามารถทำได้คืออย่า โพสต์ไว้! นี่เป็นสามัญสำนึก แต่เราทุกคนควรคิดอย่างรอบคอบเกี่ยวกับสิ่งที่เราโพสต์ทางออนไลน์ ถึงตอนนี้ ฉันคิดว่าพวกเราส่วนใหญ่ทราบดีว่าหากคุณโพสต์หมายเลขโทรศัพท์ของคุณบนเว็บไซต์ ผู้โทรที่เป็นสแปมจะพบหมายเลขโทรศัพท์นั้น หรือหากคุณโพสต์บางสิ่งที่น่าอายบน Twitter หมายเลขโทรศัพท์นั้นจะอยู่ในรูปหน้าจอตลอดไป ตัวฉันเองไม่มีบัญชีโซเชียลมีเดียส่วนตัวซึ่งเป็นรูปแบบการรักษาความปลอดภัยของตัวเอง

สำหรับการปกป้องตัวเองจากนักขูดที่ไร้จรรยาบรรณที่พยายามค้นหาข้อมูลส่วนบุคคล คุณกำลังพูดถึงแฮ็กเกอร์อยู่นั่นเอง ประเด็น–ดังนั้น คำแนะนำก็เหมือนกันสำหรับการโจมตีที่เป็นอันตรายประเภทอื่นๆ บังคับใช้รหัสผ่านที่ปลอดภัยทั่วทั้งองค์กรของคุณ จ้างทีมรักษาความปลอดภัยที่ดี จำกัดการเข้าถึงข้อมูลที่ละเอียดอ่อน อะไรทำนองนั้น อย่าใช้รหัสผ่านเดียวกันในทุกไซต์ของคุณ และหากคุณเป็นเจ้าของไซต์ที่ไม่ต้องการถูกคัดลอก ให้ใส่ไว้ในข้อกำหนดในการให้บริการของเว็บไซต์ของคุณ เห็นได้ชัดว่าจะไม่หยุดคนที่มุ่งมั่นที่จะขูดข้อมูลจริงๆ แต่จะให้สิทธิ์ทางกฎหมายแก่คุณหากสิ่งนั้นควรเกิดขึ้นและเมื่อใด

BN: การขูดเว็บจะทำให้ล่วงล้ำน้อยลงได้อย่างไร

NE: ขอย้ำอีกครั้ง สิ่งสำคัญในความคิดของฉันคือการขูดข้อมูลสาธารณะเท่านั้น ข้อมูลที่ผู้คนเปิดเผยออกมาในที่สาธารณะ

ฉันยังไม่รู้สึกว่าข้อมูลที่สามารถระบุตัวบุคคลนั้นมีความจำเป็นจริง ๆ และฉันคิดว่านี่เป็นความเข้าใจผิดที่หลายคนมีเกี่ยวกับการรวบรวมข้อมูล. ลูกค้าของเราสนใจที่จะกลั่นกรองข้อมูลธุรกิจจำนวนมหาศาล ไม่ใช่นิสัยการท่องเว็บส่วนตัวของ Joe ใครก็ตาม

เครดิตรูปภาพ: deyangeorgiev2/depositphotos.com

By Kaitlynn Clay

ฉันทำงานเป็นผู้เชี่ยวชาญด้าน UX ฉันสนใจในการออกแบบเว็บและการวิเคราะห์พฤติกรรมผู้ใช้ ในวันหยุดของฉัน ฉันมักจะไปเยี่ยมชมพิพิธภัณฑ์ศิลปะเสมอ