El web scraping, que recopila y extrae automáticamente datos de sitios web, puede ser una herramienta útil para que las empresas conozcan a sus clientes.
Pero es fácil caer en la trampa de recopilar datos solo porque están ahí, lo que lleva a una sobrecarga de información, sin mencionar las preocupaciones de privacidad para el consumidor. Para obtener más información sobre el web scraping y cómo se puede usar de manera ética, hablamos con el fundador y director ejecutivo de Rayobyte, Neil Emeigh.
BN: ¿Qué es el raspado ético y cómo se utiliza para recopilar datos de los consumidores?
NE: Lo crea o no, el web scraping es algo que todos hacemos cada día. Incluso puedes hacerlo sin software. Si usted es un usuario de las redes sociales que verifica regularmente la cantidad de Me gusta que obtienen sus publicaciones, o alguien que vende un producto que verifica regularmente los precios de sus competidores, en realidad está raspando, porque está recopilando datos específicos en tiempo real de un sitio web público.
Ahora supongamos que es una agencia que administra cien cuentas de redes sociales o un vendedor de comercio electrónico con miles de productos de la competencia. Obviamente, le llevaría demasiado tiempo observar y recopilar toda esa información usted mismo, y para cuando lo hiciera, estaría desactualizada. Es por eso que la mayoría de nosotros optamos por usar un software para encontrar esa información por nosotros. Esto se llama’raspado’porque el software extrae la información que REALMENTE está buscando, digamos datos de precios, de una página con mucha otra información que no le interesa.
Incluso Si no está raspando directamente, lo más probable es que cualquier persona que tenga un negocio hoy dependa del raspado de alguna forma. Las grandes herramientas de SEO extraen información de las páginas de resultados del motor de búsqueda, las aplicaciones de reseñas de películas y libros sociales extraen información de las bases de datos para asegurarse de que tengan la lista más extensa de títulos, ¡y el raspado es incluso el motor que impulsa todos los resultados del motor de búsqueda! Entonces, como puede ver, el scraping ha existido durante años y no desaparecerá pronto.
La cuestión de la ética se relaciona con dos factores. En primer lugar: uso. ¿Solo está extrayendo datos disponibles públicamente que no son identificables y que cualquiera puede usar de forma gratuita? ¿Está siguiendo todas las leyes locales sobre la recopilación de datos? Y en segundo lugar: la ética de las propias herramientas de raspado. Este punto se vuelve un poco técnico.
Todos los scrapers requieren direcciones IP de proxy, que es lo que vende mi empresa. Esto se debe a que cuando la mayoría de los sitios web detectan un bot de raspado, prohibirán la dirección IP de ese bot. Entonces, para rastrear millones de páginas de manera efectiva, necesita una gran cantidad de direcciones IP; idealmente, direcciones IP asociadas con un proveedor de servicios de Internet real, o mejor aún, un usuario real. Muchos de mis compañeros proveedores de proxy, en varios momentos de la historia de la industria, han obtenido proxies sin el conocimiento de esos usuarios reales y sin compensarlos. Muchas’redes de proxy’son en realidad botnets avanzados, obtenidos ilegalmente y/o utilizados para recopilar datos personales privados sobre los consumidores.
Entonces, el’raspado ético’se trata realmente de hacer cumplir el uso ético y la adquisición de proxies.
BN: ¿Es legal el web scraping y espera que la actividad se regule?
NE: Esta es una pregunta complicada, una que normalmente me parece más fácil de responder con una comparación. Los web scrapers y los proxies que los alimentan son herramientas, así que consideremos otra herramienta: el humilde martillo. Es legal comprar y vender martillos. Hay muchos usos maravillosos y legales para los martillos: podría construir muebles para usted y su familia, o un refugio para un vecino. Por otro lado, también puedes usar un martillo para lastimar o matar a alguien, lo que por supuesto es ilegal.
Así que sí, la existencia de raspadores es, en la mayoría de las circunstancias, en la mayoría de los lugares del mundo,-bastante legal. Pero las líneas exactas sobre cómo es legal usarlos se trazan en estos momentos, por casos como HiQ Labs v LinkedIn aquí en los Estados Unidos, o las regulaciones de privacidad del consumidor en estados como California, Colorado y Virginia. Es el deber de los scrapers como yo garantizar que mi empresa, y nuestros clientes, cumplan con la ley en todo momento.
Admito que esto es algo que me preocupa: nuestra La industria no existe en el vacío, y la privacidad de los datos se ha convertido, con razón, en un importante tema de conversación pública últimamente. Si la industria de los proxy no puede quitarnos el mal olor del comportamiento poco ético, vamos a ver muchos más movimientos para regular nuestros modos de operación actuales tanto en el sector público como en el privado. Esa es parte de la razón por la que estoy hablando contigo y con entrevistadores como tú, para tratar de ayudar a las personas a comprender que estas tecnologías tienen un lado útil y necesario, así como los casos de uso incompletos más conocidos.
BN: Desde el punto de vista del consumidor, ¿qué pueden hacer las personas para garantizar que sus datos estén seguros y protegidos?
NE: De los raspadores éticos como yo, quienes realmente creo que constituyen el la mayoría de nuestra industria: está a salvo de cualquier cosa que esté oculta detrás de un inicio de sesión. Nuestras herramientas no se pueden usar para obtener la información de su tarjeta de crédito, su contraseña, etc.
Entonces, si tiene información que le preocupa que se extraiga, lo más seguro que puede hacer es simple: no ¡publícalo! Esto es de sentido común, pero todos debemos pensar con mucho cuidado sobre lo que publicamos en línea. A estas alturas, asumo que la mayoría de nosotros sabemos que si publicas tu número de teléfono en tu sitio web, alguna persona que llama spam lo encontrará, o que si publicas algo vergonzoso en Twitter, existirá en forma de captura de pantalla para siempre. Yo mismo no tengo ninguna cuenta personal de redes sociales, que es su propia forma de seguridad.
En cuanto a protegerse de raspadores poco éticos que están tratando de encontrar información personal, está hablando de piratas informáticos en ese punto, por lo que el consejo es el mismo para cualquier otro tipo de ataque malicioso. Aplique contraseñas seguras en toda su organización, contrate un buen equipo de seguridad, restrinja el acceso a información confidencial, ese tipo de cosas. No utilice la misma contraseña en todos sus sitios. Y si usted es propietario de un sitio y no quiere que lo raspen, inclúyalo en los términos de servicio de su sitio web. Obviamente, no detendrá a alguien que esté realmente comprometido con el scraping, pero le brindará un recurso legal cuando eso suceda.
BN: ¿Cómo se puede hacer que el web scraping sea menos intrusivo?
NE: Una vez más, en mi opinión, la clave es recopilar únicamente información pública. Los datos que las personas publican ellas mismas en un espacio público.
Tampoco creo que la información de identificación personal sea realmente necesaria, y creo que este es un concepto erróneo común que muchas personas tienen sobre la recopilación de datos.. Nuestros clientes están interesados en filtrar grandes volúmenes de datos comerciales, no en los hábitos de navegación personales de Joe Whoever.
Crédito de la imagen: deyangeorgiev2/depositphotos.com