A coleta e extração automática de dados de sites pode ser uma ferramenta útil para as empresas aprenderem sobre seus clientes.
Mas é fácil cair na armadilha de coletar dados apenas porque eles estão lá, levando a sobrecarga de informações para não mencionar preocupações de privacidade para o consumidor. Para saber mais sobre web scraping e como ele pode ser usado de maneira ética, conversamos com o fundador e CEO da Rayobyte, Neil Emeigh.
BN: O que é scraping ético e como ele está sendo usado para coletar dados do consumidor?
NE: Acredite ou não, web scraping é algo que todos nós fazemos diariamente. Você pode até fazer isso sem software. Se você é um usuário de mídia social que verifica regularmente o número de curtidas que suas postagens obtêm ou alguém que vende um produto que verifica regularmente os preços de seus concorrentes, você está de fato raspando, porque está coletando dados específicos em tempo real de um site público.
Agora, digamos que você seja uma agência que gerencia centenas de contas de mídia social ou um vendedor de comércio eletrônico com milhares de produtos concorrentes. Obviamente, você levaria muito tempo para observar e coletar todas essas informações sozinho e, quando o fizesse, estaria desatualizado. É por isso que a maioria de nós opta por usar um software para encontrar essas informações para nós. Isso é chamado de’raspagem’porque o software extrai as informações que você REALMENTE está procurando–digamos dados de preços–de uma página com muitas outras informações nas quais você não está interessado.
Até mesmo se você não está raspando diretamente, é provável que qualquer pessoa com um negócio hoje esteja contando com a raspagem de alguma forma. As grandes ferramentas de SEO extraem informações das páginas de resultados do mecanismo de pesquisa, livros sociais e aplicativos de revisão de filmes extraem informações de bancos de dados para garantir que eles tenham a lista mais extensa de títulos, e a raspagem é até o mecanismo que alimenta todos os resultados do mecanismo de pesquisa! Então, como você pode ver, o scraping existe há anos e não vai a lugar nenhum tão cedo.
A questão da ética está relacionada a dois fatores. Em primeiro lugar: uso. Você está coletando apenas dados disponíveis publicamente que não são identificáveis e gratuitos para qualquer um usar? Você está seguindo todas as leis locais sobre coleta de dados? E segundo: a ética das próprias ferramentas de raspagem. Este ponto é um pouco técnico.
Todos os scrapers exigem endereços IP de proxy, que é o que minha empresa vende. Isso ocorre porque, quando a maioria dos sites detecta um bot de raspagem, eles banem o endereço IP desse bot. Portanto, para coletar milhões de páginas com eficiência, você precisa de um grande número de endereços IP-idealmente, endereços IP associados a um provedor de serviços de Internet real ou, melhor ainda, a um usuário real. Muitos de meus colegas provedores de proxy, em vários momentos da história do setor, adquiriram proxies sem o conhecimento desses usuários reais e sem compensá-los. Muitas’redes de proxy’são, na verdade, botnets avançados, obtidos ilegalmente e/ou usados para coletar dados pessoais privados sobre os consumidores.
Portanto, a’raspagem ética’trata-se, na verdade, de impor o uso ético e a aquisição de proxies.
BN: A raspagem da web é legal e você espera que a atividade seja regulamentada?
NE: Esta é uma pergunta complicada, que geralmente acho que é mais fácil de responder com uma comparação. Os raspadores da Web e os proxies que os alimentam são ferramentas, então vamos considerar outra ferramenta: o humilde martelo. É legal comprar e vender martelos. Existem muitos usos maravilhosos e legais para martelos-você pode construir móveis para você e sua família ou abrigo para um vizinho. Por outro lado, você também pode usar um martelo para ferir ou matar alguém, o que obviamente é ilegal.
Então, sim, a existência de raspadores é–na maioria das circunstâncias, na maioria dos lugares do mundo–bastante legal. Mas as linhas exatas de como é legal usá-los estão sendo traçadas enquanto falamos, por casos como HiQ Labs v LinkedIn aqui nos Estados Unidos, ou regulamentos de privacidade do consumidor em estados como Califórnia, Colorado e Virgínia. É dever de raspadores como eu garantir que minha empresa–e nossos clientes–cumpram a lei em todos os momentos.
Admito que isso é algo que me preocupa–nossa a indústria não existe no vácuo, e a privacidade dos dados tornou-se, com razão, um importante ponto de discussão pública ultimamente. Se a indústria de proxy não conseguir tirar de nós o fedor do comportamento antiético, veremos muito mais movimentos para regular nossos atuais modos de operação dos setores público e privado. É por isso que estou falando com você e com entrevistadores como você, para tentar ajudar as pessoas a entender que essas tecnologias têm um lado útil e necessário, bem como os casos de uso incompletos mais conhecidos.
BN: Do lado do consumidor, o que as pessoas podem fazer para garantir que seus dados estejam seguros e protegidos?
NE: De raspadores éticos como eu–que eu realmente acredito que compõem o maioria de nossa indústria-você está protegido contra qualquer coisa que esteja escondida atrás de um login. Nossas ferramentas não podem ser usadas para obter as informações do seu cartão de crédito, sua senha, etc.
Portanto, se você tem informações que tem medo de serem extraídas, a coisa mais segura que você pode fazer é simples: não poste! Isso é senso comum, mas todos devemos pensar com muito cuidado sobre o que publicamos online. Até agora, presumo que a maioria de nós saiba que, se você postar seu número de telefone em seu site, algum chamador de spam o encontrará, ou se você postar algo embaraçoso no Twitter, ele existirá em forma de captura de tela para sempre. Eu mesmo não tenho nenhuma conta pessoal de mídia social, que é sua própria forma de segurança.
Quanto a se proteger de raspadores antiéticos que estão tentando encontrar informações pessoais, você está falando sobre hackers ponto-então o conselho é o mesmo para qualquer outro tipo de ataque malicioso. Aplique senhas seguras em toda a sua organização, contrate uma boa equipe de segurança, restrinja o acesso a informações confidenciais, esse tipo de coisa. Não use a mesma senha em todos os seus sites. E se você é o proprietário de um site que não quer ser excluído, coloque isso nos termos de serviço do seu site. Obviamente, isso não impedirá alguém realmente comprometido com o scraping, mas fornecerá a você um recurso legal se e quando isso acontecer.
BN: Como o web scraping pode ser menos intrusivo?
NE: Mais uma vez, a chave, na minha opinião, é apenas coletar informações públicas. Os dados que as próprias pessoas colocam em um espaço público.
Também não sinto que as informações de identificação pessoal sejam realmente necessárias-e acho que esse é um equívoco comum que muitas pessoas têm sobre a coleta de dados. Nossos clientes estão interessados em analisar grandes volumes de dados comerciais, não nos hábitos de navegação pessoal de Joe Whoever.
Crédito da imagem: deyangeorgiev2/depositphotos.com