Estima-se que até 2025, o consumo global anual de dados será de 181 zettabytes–mais de dez vezes mais do que em 2015. Isso significa que tomaremos decisões de negócios dez vezes mais bem informadas? Provavelmente não, e o motivo é simples: de acordo com diferentes fontes, 75% ou mais dos dados que as empresas coletam se escondem no escuro.
‘Dark data’é a grande quantidade de informações coletadas pelas empresas, mas nunca analisados ou usados. Podem ser logs da web e de aplicativos, correspondência por e-mail, dados de rastreamento de visitantes, informações geradas por dispositivos IoT, etc. Hoje em dia, todas as atividades de negócios são registradas de alguma forma. A maioria desses dados não é estruturada e está reunida em diferentes formatos. Essa cornucópia de informações deve ser processada, armazenada, protegida e mantida. Em vez de aumentar o ROI, aumenta o ruído, os custos ocultos e os problemas de segurança, pois as empresas são legalmente responsáveis por todos os dados coletados, mesmo que não os usem.
Alguns dados obscuros podem ser rastreados, desbloqueados , agrupados e preparados para análise com ferramentas de IA e ML já disponíveis. Mesmo assim, empregar automação cognitiva para identificar dados obscuros requer habilidades específicas que são difíceis de encontrar e recursos analíticos substanciais, já que o volume deles costuma ser bastante extremo.
Há uma baixa probabilidade, no entanto, de que alguém consiga cunhar uma estratégia tão precisa que não há nenhum dado redundante, obsoleto ou trivial coletado. Então, existe uma saída para o desafio dos dados obscuros? Não vou me aprofundar em práticas de gerenciamento interno de dados defeituosas neste artigo devido ao amplo escopo do tópico. Em vez disso, abordarei rapidamente os erros comuns que notamos que as empresas cometem ao coletar big data de fontes externas, resultando em dados de baixa qualidade.
O hype dos dados externos
Uma das razões pelas quais as empresas acabam reunindo dados redundantes é o FOMO e a falta de uma estratégia clara. Muitas empresas se sentem pressionadas a coletar o máximo de dados possível-elas temem que, caso contrário, ficarão em desvantagem e não poderão tomar decisões informadas. Portanto, as práticas de coleta de dados muitas vezes perdem um objetivo claro desde o início.
A recente proliferação de ferramentas de extração da web tornou grandes quantidades de dados públicos mais acessíveis para empresas de todos os tamanhos. Infelizmente, o grande volume de dados obscuros implica que as empresas não conseguem igualar o rápido aumento nos recursos de coleta de dados com capacidade suficiente para limpá-los e analisá-los.
Em meu artigo sobre tobjetivo dos dados, argumentei que os dados devem fornecer descrições precisas de atividades de negócios factuais e intencionalmente nos levam a melhorias acionáveis. Não faz nada por si só até que o interpretemos, dando-lhe significado. Um dos maiores erros é buscar os dados sem ter um propósito bem fundamentado e uma lista de perguntas que você precisa responder. Em outras palavras, sem um plano de como esses dados serão utilizados. Como a coleta, o armazenamento e o processamento de dados têm custos comerciais associados, coletar informações redundantes desperdiça recursos.
Os dados da Web são barulhentos
Definir que tipo de dados os necessidades da empresa e a que propósito ela deve servir é apenas o primeiro passo para o sucesso. A extração traz seus próprios desafios, pois os dados da web estão espalhados por diferentes fontes e vêm em vários padrões e formatos. A coleta de dados externos de qualidade requer algumas habilidades de programação e experiência técnica específica: o conteúdo da web pode ser difícil de buscar e analisar, especialmente em grande escala.
Por exemplo, uma empresa pode decidir coletar milhares de sites de comércio eletrônico para preços, descrições e análises de produtos específicos. Normalmente, tudo corre bem até parecer que o mesmo produto tem nomes diferentes em sites diferentes ou existem várias versões do mesmo produto com apenas pequenas diferenças de funcionalidade. A correspondência de produtos pode se tornar um incômodo para os novatos, e o resultado final pode ser dados inconsistentes ou imprecisos.
Além disso, suponha que a empresa não tenha experiência suficiente na extração de dados e esteja tentando coletar dados de várias fontes indiscriminadamente. Nesse caso, ele pode facilmente cair nos chamados honeypots-dados falsos e potencialmente nocivos que os sistemas de segurança fornecem para crawlers e scrapers desavisados.
Outro problema complicado que a empresa pode enfrentar é que os sites são mudando e atualizando constantemente sua estrutura. Normalmente, as rotinas de raspagem são adaptadas para condições específicas de sites individuais e atualizações frequentes tendem a interrompê-las. Portanto, os scrapers requerem manutenção regular para garantir a integridade dos dados.
Muitas vezes, é muito caro desenvolver soluções abrangentes de scraping internamente. Pesquisa recente da Oxylabs mostra que 36 por cento das empresas de serviços financeiros do Reino Unido terceirizam atividades de web scraping para resolver problemas complexos desafios de extração de dados e outros 27% usam recursos internos e de terceiros. A menos que você tenha uma equipe interna experiente de cientistas de dados e desenvolvedores, usar software personalizado de terceiros ou terceirizar tarefas de extração pode ser a maneira mais econômica de coletar dados da web.
Colaboração aberta é a chave
Como os dados da web são barulhentos, a empresa deve auditar constantemente os dados que coleta para se livrar de informações conflitantes, incorretas ou desnecessárias. A auditoria ajuda a identificar as fontes que fornecem as melhores informações para suas intenções de extração e permite filtrar sites com muitos dados redundantes ou inúteis.
Se ainda houver muitos dados em seus bancos de dados ou parecerem inconsistentes, é provavelmente, em algum momento, você coletou dados imprecisos ou talvez alguns de seus dados não sejam mais válidos. Devido ao silo de dados e à má integração de dados, as empresas geralmente perdem o controle ou esquecem o que estão coletando, terminando (mais uma vez) com dados redundantes ou obsoletos.
Finalmente, mesmo que os esforços de coleta de dados sejam bem-sucedidos, o A empresa precisa garantir que os membros de sua equipe possam encontrar facilmente esses dados. Se a empresa não padronizar a coleta de dados em todos os canais e usar ferramentas de integração adequadas, os funcionários podem ter problemas reais ao tentar localizá-los e analisá-los.
Em 2018, Pesquisa DTC mostrou que os profissionais de dados estavam desperdiçando cerca de 30% de suas horas de trabalho semanais porque não conseguiam localizar, proteger ou preparar dados. Ainda mais interessante é que outros 20 por cento de seu tempo passaram construindo ativos de informações que já existiam em sua empresa.
À medida que as organizações se expandem, a possibilidade de grandes quantidades de dados se tornarem compartimentadas em vários bancos de dados desconectados com apenas metadados básicos e aumentos de capacidade de pesquisa limitada. Isso significa que diferentes departamentos e equipes não estão olhando para os mesmos dados, mas apenas têm acesso a um pequeno trecho. Ninguém vê o quadro completo, dificultando a tomada de decisões de negócios sólidas e imparciais.
Os dados não fazem nada sozinhos
Pode ser que alguns desafios que eu’mencionei aqui som muito genérico; no entanto, é o básico que costuma ser esquecido ou trocado por resultados mais rápidos. Big data é provavelmente a maior oportunidade fora de qualquer negócio: utilizado da maneira certa, pode identificar e resolver problemas dentro de uma organização, fornecer informações sobre o ciclo de vida do cliente e informar maneiras de aumentar as vendas. Mas os dados só são bons se forem intencionais e nos estimularem a agir.
Muitas vezes, as empresas tratam ter mais ou não ter dados como um bem necessário. Felizmente ou não, parece haver dados para tudo-interesses dos clientes, visitantes do site, taxas de rotatividade, sentimentos, dados demográficos e muito mais. Com a enorme quantidade de informações disponíveis, a tarefa mais importante antes de uma empresa embarcar na próxima jornada de coleta de dados é decidir o que é valioso para seus negócios e o que não é.
Crédito da imagem: agsandrew/depositphotos
Julius Černiauskas é CEO da Oxylabs.io.