Se estima que para 2025, el consumo global anual de datos ascenderá a 181 zettabytes–más de diez veces más que en 2015. ¿Significa que tomaremos decisiones comerciales diez veces mejor informadas? Lo más probable es que no, y la razón es simple: según diferentes fuentes, el 75 por ciento o más de los datos que recopilan las empresas se esconden en la oscuridad.
‘Datos oscuros’es la gran cantidad de información recopilada por las empresas, pero nunca analizado o utilizado. Pueden ser registros web y de aplicaciones, correspondencia por correo electrónico, datos de seguimiento de visitantes, información generada por dispositivos IoT, etc. Hoy en día, cada actividad comercial se registra de alguna manera. La mayoría de estos datos no están estructurados y se recopilan en diferentes formatos. Esta cornucopia de información tiene que ser procesada, almacenada, asegurada y mantenida. En lugar de aumentar el ROI, aumenta el ruido, los costos ocultos y los problemas de seguridad, ya que las empresas son legalmente responsables de todos los datos recopilados, incluso si no los usan.
Algunos datos oscuros se pueden rastrear y desbloquear. , agrupados y preparados para el análisis con herramientas basadas en IA y ML ya disponibles. Aun así, emplear la automatización cognitiva para identificar datos oscuros requiere habilidades específicas que son difíciles de encontrar y recursos analíticos sustanciales, ya que el volumen suele ser bastante extremo.
Existe una baja probabilidad, sin embargo, de que alguien logre acuñar una estrategia tan precisa que haya no se recopilan datos redundantes, obsoletos o triviales. Entonces, ¿hay alguna forma de salir del desafío de los datos oscuros? No profundizaré en las prácticas defectuosas de gestión de datos internos en este artículo debido al amplio alcance del tema. En su lugar, repasaré rápidamente los errores comunes que hemos notado que las empresas cometen al recopilar grandes datos de fuentes externas, lo que resulta en una mala calidad de los datos.
La exageración de los datos externos
Una de las razones por las que las empresas terminan recopilando datos redundantes es FOMO y la falta de una estrategia clara. Muchas empresas se sienten presionadas para recopilar la mayor cantidad de datos posible; les preocupa que, de lo contrario, estarán en desventaja y no podrán tomar decisiones informadas. Por lo tanto, las prácticas de recopilación de datos a menudo pasan por alto un objetivo claro desde el principio.
La reciente proliferación de herramientas de web scraping hizo que grandes cantidades de datos públicos fueran más accesibles para empresas de todos los tamaños. Desafortunadamente, el gran volumen de datos oscuros implica que las empresas no pueden igualar el rápido aumento en las capacidades de recopilación de datos con la capacidad suficiente para limpiarlos y analizarlos.
En mi artículo sobre tEl propósito de los datos, argumenté que los datos deben proporcionar descripciones precisas de las actividades comerciales fácticas y nos llevan intencionalmente a mejoras procesables. No hace nada por sí mismo hasta que lo interpretamos, dándole sentido. Uno de los mayores errores es buscar los datos sin tener un propósito bien razonado y una lista de preguntas que debes responder. En otras palabras, sin un plan sobre cómo se utilizarán estos datos. Dado que la recopilación, el almacenamiento y el procesamiento de datos tienen costos comerciales asociados, la recopilación de información redundante desperdicia recursos.
Los datos web son ruidosos
Definir qué tipo de datos las necesidades de la empresa y el propósito al que debe servir es solo el primer paso hacia el éxito. Extraerlo trae sus propios desafíos, ya que los datos web están dispersos a través de diferentes fuentes y vienen en múltiples estándares y formatos. La recopilación de datos externos de calidad requiere algunas habilidades de programación y experiencia técnica específica: el contenido web puede ser difícil de obtener y analizar, especialmente a gran escala.
Por ejemplo, una empresa puede decidir raspar miles de sitios web de comercio electrónico para precios, descripciones y reseñas de productos específicos. Por lo general, todo sale bien hasta que parece que el mismo producto tiene un nombre diferente en diferentes sitios o hay varias versiones del mismo producto con solo ligeras diferencias de funcionalidad. La coincidencia de productos puede convertirse en una molestia para los novatos, y el resultado final puede ser datos incoherentes o inexactos.
Además, suponga que la empresa no tiene suficiente experiencia en la extracción de datos y está tratando de recopilar datos de múltiples fuentes indiscriminadamente. En ese caso, puede caer fácilmente en los llamados honeypots: datos falsos y potencialmente dañinos que los sistemas de seguridad transmiten a rastreadores y raspadores desprevenidos.
Otro problema complicado con el que se puede encontrar la empresa es que los sitios web son constantemente cambiando y actualizando su estructura. Por lo general, las rutinas de raspado se adaptan a las condiciones específicas de los sitios individuales y las actualizaciones frecuentes tienden a interrumpirlas. Por lo tanto, los scrapers requieren un mantenimiento regular para garantizar la integridad de los datos.
A menudo, es demasiado costoso desarrollar soluciones integrales de scraping internamente. La investigación reciente de Oxylabs muestra que el 36 % de las empresas de servicios financieros del Reino Unido subcontratan actividades de extracción de datos web para resolver problemas complejos. desafíos de extracción de datos, y otro 27 por ciento utiliza capacidades internas y de terceros. A menos que tenga un equipo interno experimentado de científicos y desarrolladores de datos, el uso de software de terceros personalizado o la subcontratación de tareas de extracción puede ser la forma más rentable de recopilar datos web.
Colaboración abierta es clave
Dado que los datos web son ruidosos, la empresa debe auditar constantemente los datos que recopila para deshacerse de información contradictoria, incorrecta o innecesaria. La auditoría ayuda a identificar las fuentes que brindan la mejor información para sus intenciones de raspado y permite filtrar sitios con demasiados datos redundantes o basura.
Si todavía hay demasiados datos en sus bases de datos o parece inconsistente, es es probable que en algún momento haya recopilado datos inexactos, o tal vez, algunos de sus datos ya no sean válidos. Debido a la acumulación de datos en silos y a la mala integración de datos, las empresas a menudo pierden el rastro u olvidan lo que están recopilando, y terminan (una vez más) con datos redundantes u obsoletos.
Finalmente, incluso si los esfuerzos de recopilación de datos tienen éxito, la la empresa tiene que asegurarse de que los miembros de su equipo puedan encontrar fácilmente esos datos. Si la empresa no estandariza la recopilación de datos en todos los canales y no utiliza las herramientas de integración adecuadas, los empleados pueden tener problemas reales al intentar localizarlos y analizarlos.
En 2018, La investigación de DTC mostró que los profesionales de datos desperdiciaban alrededor del 30 % de sus horas de trabajo semanales porque no podían ubicar, proteger o preparar los datos. Aún más interesante es que otro 20 por ciento de su tiempo pasó creando activos de información que ya existían en su empresa.
A medida que las organizaciones se expanden, existe la posibilidad de que grandes cantidades de datos se compartimenten en múltiples bases de datos desconectadas con solo metadatos básicos y aumenta la capacidad de búsqueda limitada. Significa que diferentes departamentos y equipos no miran los mismos datos, sino que solo tienen acceso a un pequeño fragmento. Nadie ve el panorama completo, lo que dificulta la toma de decisiones comerciales sensatas e imparciales.
Los datos no hacen nada por sí mismos
Es posible que algunos desafíos He mencionado aquí suena demasiado genérico; sin embargo, son los conceptos básicos los que se olvidan con mayor frecuencia o se intercambian para obtener resultados más rápidos. Big data es probablemente la mayor oportunidad que se encuentra fuera de cualquier negocio: utilizado de la manera correcta, puede identificar y resolver problemas dentro de una organización, proporcionar información sobre el ciclo de vida del cliente e informar formas de aumentar las ventas. Pero los datos solo son buenos si son intencionales y nos incitan a la acción.
A menudo, las empresas consideran que tener más o no tener ningún dato es un bien necesario. Afortunadamente o no, parece haber datos para todo: los intereses de los clientes, los visitantes del sitio web, las tasas de abandono, los sentimientos, la demografía y mucho más. Con la gran cantidad de información disponible, la tarea más importante antes de que una empresa se embarque en el próximo viaje de extracción de datos es decidir qué es valioso para su negocio y qué no.
Crédito de la imagen: agsandrew/depositphotos
Julius Černiauskas es director ejecutivo de Oxylabs.io.