Qué es el Dirty Data

por Emilio Fernández Lastra | May 19, 2020 | DMG

Qué es el Dirty Data

Dirty Data o datos sucios, es el término que se utiliza para denominar a aquella información que es errónea, inconsistente o incompleta. Incluso puede ser Dirty Data, todos aquellos datos mal relacionados, con campos vacíos o con información falsa. A priori podrías pensar que este tipo de datos no merecen un post, sin embargo, si te cuento que el impacto del Dirty Data en España se ha cifrado en 321 millones de euros de pérdidas, la cosa cambia, ¿verdad? En este post no sólo te ayudaré a entender mejor lo que son los datos sucios, sino que, además, te contaré cuáles son las principales causas, y su solución posible: el Data Cleaning.

Las plataformas de Big Data no tienen en cuenta el Dirty Data, es decir, funcionan incluso con datos erróneos, incompletos o inconsistentes, ofreciendo información y conclusiones equivocadas, las cuales originan desastrosas tomas de decisiones.

Sin embargo, en realidad, la gravedad depende el volumen de Dirty Data que hubiera en la plataforma. Según algunos estudios, el 82% de los datos almacenados por las organizaciones es Dirty Data. ¿Te parece demasiado? Imagina el daño que puede hacer a las conclusiones que de ellos pueda sacar tu equipo de Customer Intelligence.

Y es que según la firma Verve, el 60% de los consumidores mienten en algún dato a la hora de rellenar sus datos personales, y según la compañía Hocelot, cerca del 25% de los datos que tiene una compañía, podrían ser falsos.

¿De qué sirve disponer de las mayores fuentes de recogida de datos, así como de las infraestructuras más potentes para almacenarlos y la mejor analítica, si los datos que allí se guardan son falsos o erróneos?

Sin embargo, la solución es más compleja de lo que pueda parecer. Imagina una compañía de seguros que dispone de varias bases de datos con millones de filas en cada una de las bases, y al menos 100 columnas. Invertir tiempo y recursos en comprobar esos datos uno a uno, es imposible de realizar. Para que fuera factible, se requeriría un análisis específico con algoritmos que trataran de solventar los errores más comunes en la recogida de datos. Este algoritmo debería de contar, para ser más eficaz, con un grado de aprendizaje automático o Deep learning.

Gracias a este método se podría reducir bastante la suciedad de los datos, pero nunca se llegaría al margen de error del 0%. Para ayudar a obtener una base de datos lo más veraz posible, debemos trabajar otros aspectos, sin embargo, antes vamos a ver cuáles son las principales causas del Dirty Data, para así comprender mejor sus posibles soluciones.

Principales causas del Dirty Data

Causas del Dirty Data

Hay un ‘sinfín’ de causas de que aparezcan datos sucios en una base de datos o en una plataforma de Big Data, sin embargo, posiblemente los más comunes sean estos:

El volumen. Lógicamente, cuanto mayor volumen de datos, más probabilidades de que haya erróneos. Al aumentar el número de datos con la Era Digital, el número de datos sucios, también se ha visto incrementado en la misma proporción.
Fallos en el registro de los datos. La introducción de datos es clave. Al ser en muchos casos, realizado de forma manual por alguna persona, es muy posible que alguno de ellos acabe siendo grabado de manera errónea o con alguna errata o alteración. En la grabación de datos masiva, es fundamental disponer de un equipo profesional de Data Entry.
Existencia de silos de información. Muchas empresas aún no disponen de un único sitio en donde tener almacenada y disponer toda la información de la empresa. Este hecho hace que cuando se intenta unificar la información surjan incoherencias y datos duplicados.
Falta de información. Los registros con campos vacíos provocan que la información que manejamos sea parcial y por lo tanto provoquen decisiones equivocadas.
Datos falseados. Suele pasar con la información extraída de Internet. Muchos usuarios prefieren dar datos falsos ante el temor de poder ofrecer información verídica a una empresa, sin saber exactamente para qué los va a acabar utilizando. A continuación, te dejo un gráfico extraído de la empresa Verve, donde te muestra precisamente esto.

Datos falsos en Dirty Data

Tras leer esto, seguro que piensas que puede que dispongas de dirty data en tu base de datos, ¿verdad? Pues si es así, voy a contarte qué puede suponer esto a tu empresa.

Cómo afecta el Dirty Data a una empresa

Cómo afecta el Dirty Data a tu empresa

Por lo general, las empresas que más se verán afectadas por el Dirty Data, son las que ya están utilizando el Big Data. En esos casos, lo normal es que les incurra en:

Una pérdida de tiempo y recursos. Si dispones de demasiada información sucia en tu CRM por poner un ejemplo, a la hora de sacar conclusiones, segmentar a tus clientes o hacer previsiones, estas serán realizadas de manera más inexacta, repercutiendo en una visión errónea del cliente y una relación con ellos defectuosa. Este hecho repercutirá en que se tendrá que dedicar tiempo extra a ajustar esos mismos estudios, ya que habremos comprobado a posteriori que son falsos, dedicando a su vez, más recursos.
Una pérdida de ingresos netos. Si tienes pensado realizar una campaña de venta a través de tu Contact Center, disponer de unos datos falseados, erróneos o incompletos en tu base de datos, hará perder claramente clientes potenciales. Según un informe de la empresa Experian, el 77% de las empresas consideran que pierden cerca de un 12% de sus ingresos netos, por falta de datos de sus clientes.
Decisiones carentes de información. Uno de los mayores avances que han surgido entorno a Internet, la tecnología y los datos, es el poder realizar tomas de decisiones apoyadas en datos, o lo que se llama Data Driven. El Dirty Data puede influir de manera negativa en esa toma de decisiones, ya que estas serían desacertadas.

Y todo esto es debido a datos incompletos, duplicados, incorrectos, imprecisos, inconsistentes o incluso que incumplen las reglas de tu negocio.

Pero ¿cómo podemos solucionar este enorme problema? Vamos a ver ahora qué soluciones podemos poner en marcha para que este Dirty Data nos haga el menor daño posible.

Cómo solucionar el problema del Dirty Data

Soluciones para el Dirty Data

Siempre la mejor solución para cualquier problema es la prevención, sin embargo, ante este problema, la prevención es realmente complicada, debido fundamentalmente a la gran cantidad de datos o al Big Data. Este hecho, hace imposible crear un sistema fiable.

Una cierta solución, que no llega a ser de prevención, pero se le acerca bastante, es la atención a la calidad del dato. Gracias a ella, evitamos que se produzcan errores al introducir el dato en base de datos. Herramientas de Inteligencia artificial (IA) están comenzando a funcionar muy bien en estos sentidos, validando el dato en tiempo real y ayudando a la calidad de ese dato.

Sin embargo, hay un sistema que se impone sobre los otros dos: el método correctivo, a través del Data Cleaning.

Sin embargo, el sistema del Data Cleaning tiene algunas desventajas:

Son sistemas costosos.
Requiere mucho trabajo.
No se puede automatizar al 100%, ya que muchas veces se necesita de un equipo mixto para realizarlos (técnico y de negocio).

No obstante, lamento decirte que este es el único método para reducir al máximo el Dirty Data dentro de tu plataforma.

Vamos a ver cómo realizar un Data Cleaning exitoso a través de unas sencillas fases:

FASE #1. Detección. Lo primero que debes hacer, lógicamente, es detectar el Dirty Data, ya que no podemos limpiar, si no sabemos qué limpiar. Hay soluciones de Data Profiling que revelan campos vacíos o inconsistencias en los datos. También hay metodologías para asegurar la calidad del dato.

FASE #2. Corrección de los datos. Una vez detectados los errores, hay que subsanarlos, pero no todos son igual de fáciles de arreglar. Por ejemplo, una errata es fácil de solucionar, sin embargo, un dato falso ¿cómo lo corriges por el verdadero? En cuanto a campos vacíos, se pueden rellenar con el dato más probable, haciendo una media, si es dato es numérico, sin embargo, si se hace esto corremos es riesgo que influya en el posterior análisis.

FASE #3. Eliminación de duplicados. En estos casos nos podemos encontrar con que la información que le pudiera faltar a uno de los duplicados, está en la otra. Por tanto, es recomendable, antes de eliminar uno de ellos, juntar todos los datos en uno, y eliminar el duplicado, completando todo lo que fuera posible el uno con el otro.

Como has podido ver, muchas veces nos centramos en el almacenamiento, la gestión de los datos, incluso en métodos y metodologías para sacar conclusiones y conocimiento de los datos, lo cual es fundamental, pero nos olvidamos de la materia prima: el dato. Y es que, si el dato es malo, las conclusiones que saquemos de ellos, y por tanto las decisiones, serán malas. Tal y como se dice en el mundo de los datos “Garbage in, Garbage out”.

En artyco llevamos más de 25 años trabajando con los datos, sacando verdadero oro de cada uno de ellos. Te proponemos algo: “Gold in, Gold out” ¿te apuntas?

Emilio Fernández Lastra

Chief Marketing Officer

“Después de la hipoteca, el inbound marketing es la mejor
herramienta para asegurar una relación a largo plazo”

¿Te ha parecido interesante lo que has leído?

En artyco podemos ayudarte a conseguir tus objetivos

¿Hablamos?

Si, quiero

+34 916 404 150

Únete

Política de Calidad y Seguridad - Política de Privacidad y Cookies

Política de Calidad y Seguridad

Política de Privacidad y Cookies

Qué es la arquitectura de datos

por Emilio Fernández Lastra | Mar 25, 2020 | DMG

Qué es la arquitectura de datos

Arquitectura de datos son los modelos, políticas, reglas y estándares que nos indican de qué manera tenemos que almacenar, organizar e integrar los datos que recoge una compañía con el objetivo de que sean aprovechables y útiles. Ante la Era del Big Data y el Data Science en la que estamos, tras leer la definición de qué es la arquitectura de datos, parece que esta es fundamental, ¿verdad? En este post te voy a contar más en profundidad qué es, pero también cómo diseñar una arquitectura de datos o al menos qué debería de tener para que esta fuera alineada con los objetivos comerciales de la empresa. Vamos a por ello.

En la nueva era del Big Data y el Data Science, es de vital importancia para una empresa tener una arquitectura de datos centralizada, alineada con los procesos comerciales, que se adapta al crecimiento del negocio, y que evoluciona con los avances tecnológicos. Una arquitectura de datos exitosa proporciona claridad sobre cada aspecto de los datos, lo que permite a los científicos de datos trabajar con datos confiables de manera eficiente y resolver problemas comerciales complejos.

También prepara a una organización para aprovechar rápidamente las nuevas oportunidades de negocios al servirse de las tecnologías emergentes, así como mejorar la eficiencia operativa al administrar la entrega compleja de datos e información en toda la empresa.

A pesar de lo que pueda parecer, la arquitectura de datos es una disciplina relativamente nueva. El papel de Data Architect ha recaído, tiempo atrás, en analistas de negocio senior, desarrolladores de ETL y científicos de datos. Hoy día, estos perfiles conviven con otro ya más especializado en la labor de Data Architecture.

Debido a este hecho, quizás la arquitectura de los datos de la mayoría de las empresas hoy día, no sean las más adecuadas. De este modo, nos solemos encontrar con los siguientes errores frecuentes:

Las empresas que manejan por sí mismas los datos suelen tener varios departamentos de IT, que trabajan en silos con sus propios estándares y arquitectura de datos.
Las aplicaciones y los procesos se crean en función de los requisitos empresariales individuales, sin estándares de arquitectura de datos a seguir.
El arquitecto de datos tiene la función de centrarse únicamente en un número limitado de áreas técnicas y posee un conocimiento comercial limitado sobre los datos.
Los proyectos de IT se administran sin considerar la arquitectura de datos como parte de la fase de diseño, de este modo, los científicos e ingenieros de datos codifican su camino sin un proceso de gestión de datos coherente.

Debido a esto, no es difícil encontrar sistemas de datos desarticulados, brechas entre equipos y silos de información entre departamentos.

Estas situaciones conllevan un bajo rendimiento de los sistemas con muchas transferencias, mucho tiempo para solucionar problemas cuando surge un problema de datos de producción, una falta de responsabilidad para llegar a la solución correcta en todos los sistemas y una falta de capacidad para evaluar el impacto de un cambio.

Como colofón, el disponer de una arquitectura de datos desarticulada, causaría un enorme esfuerzo a la hora de analizar e investigar en el momento de realizar una migración o rediseño a una plataforma tecnológicamente superior.

¿Estás preparado para que profundicemos un poco más? Sigue leyendo y te contaré los pasos para poner en marcha una correcta arquitectura de datos.

Cómo diseñar correctamente una arquitectura de datos alineada con los objetivos comerciales de la empresa.

Como-diseñar-data-architecture

Una empresa que quiera sacar provecho de sus datos debe sí o sí tener muy bien diseñada la arquitectura de estos. Para ello, debe de seguir un proceso de análisis y estructuración, que le ayude a conseguir ese objetivo.

Para ello te recomiendo que sigas estos pasos:

#1. Diseña la arquitectura de datos al nivel conceptual, basándolo en procesos y operaciones comerciales.

En cualquier departamento de IT moderno, los procesos comerciales deberían de ser compatibles e impulsados por entidades de datos, flujos de datos y reglas comerciales aplicadas a los datos. Un arquitecto de datos, por lo tanto, necesita tener un profundo conocimiento del negocio, así como del sector.

Cumpliendo con esas bases, se puede comenzar a construir un plan de datos adecuado para el negocio. Es el momento de diseñar cada entidad de datos, así como cada flujo de datos que habría por debajo de cada proceso comercial.

Este es el momento para planificar las siguientes áreas:

Las entidades de datos centrales y los elementos de datos, como los de clientes, productos y ventas.
Los datos de salida que se necesitan.
Los datos de origen que se recopilarán y transformarán, o harán referencia para producir los datos de salida.
Cuál es la propiedad de cada entidad de datos y cómo se debe consumir y distribuir según los casos de uso de la empresa.
Políticas de seguridad que se aplicarán a cada entidad de datos.
Las relaciones entre las entidades de datos, como integridad de referencia, reglas de negocio o secuencia de ejecución.
Clasificación estándar de datos y taxonomía.
Estándares de calidad de datos, operaciones y acuerdos de nivel de servicio (SLA).

Este nivel conceptual de diseño consiste en las entidades de datos subyacentes que soportan cada función comercial. El plan es crucial para el diseño exitoso y la implementación de arquitecturas empresariales y de sistemas y sus futuras expansiones o actualizaciones.

#2. Diseñar la arquitectura de datos de nivel lógico

A esta fase se le llama en ocasiones, modelado de datos al considerar qué tipo de base de datos o formato de datos usar. Esta fase lo que hace, es conectar los requisitos comerciales a las plataformas y sistemas tecnológicos.

Sin embargo, la mayoría de las organizaciones tienen un modelado de datos diseñado solo dentro de una base de datos o sistema particular, dada la función aislada del modelador de datos.

Lo que se debe de hacer, por tanto, para desarrollar una arquitectura de datos exitosa, es dar con un enfoque integrado, considerando los estándares aplicables a cada base de datos o sistema, y los flujos de datos entre estos sistemas de datos.

Para ello, las siguientes 5 áreas deben diseñarse de manera sinérgica:

Las convenciones de nomenclatura para entidades y elementos de datos deben aplicarse de manera coherente a cada base de datos. Además, la integridad entre la fuente de datos y sus referencias debe hacerse cumplir si los mismos datos tienen que residir en múltiples bases de datos.
Las políticas de archivo y retención de datos a menudo no se consideran o establecen hasta cada etapa tardía de la producción, lo que causa el desperdicio de recursos, estados de datos inconsistentes en diferentes bases de datos y un bajo rendimiento de las consultas y actualizaciones de datos.
Si bien el diseño conceptual ha definido qué componente de datos es información confidencial, el diseño lógico debe tener la información confidencial protegida en una base de datos con acceso limitado, replicación de datos restringida, tipo de datos particular y flujos de datos seguros para proteger la información.
Las réplicas de datos excesivas pueden generar confusión, mala calidad de datos y bajo rendimiento. Cualquier réplica de datos debe ser examinada por el arquitecto de datos y aplicada con principios y disciplinas.
La forma en que los datos fluyen entre diferentes sistemas de bases de datos y aplicaciones debe definirse claramente en este nivel.

#3. La gobernanza de datos como clave para el éxito continuo de la arquitectura de datos

La arquitectura de datos no es estática, sino que debe gestionarse, mejorarse y auditarse continuamente. La gobernanza de datos, es fundamental en este caso, ya que garantiza que la arquitectura de datos empresariales se diseñe e implemente correctamente a medida que se inicia cada nuevo proyecto.

Si quieres saber más sobre la gobernanza del dato, aquí te dejo un post sobre “Qué es el Data Governance”.

La arquitectura de datos, sin embargo, es un elemento vivo que tiene que estar en continua adaptación.

En artyco, como expertos en datos, la arquitectura de datos es fundamental para poder afrontar cualquier reto relacionado con la tecnología de la información. Si estás buscando tener una estructura perfectamente definida de tus datos, cuenta con nosotros. ¿Hablamos?