La ciencia de datos o Data Science, involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados, lo cual es una continuación de algunos campos de análisis de datos como la estadística, la minería de datos, el aprendizaje automático, y la analítica predictiva. A pesar de datar de los años 60 y 70, es en los últimos años cuando más repercusión está teniendo esta disciplina, en el mundo de los negocios. En este post voy a contarte cuáles son los principales conocimientos que debe de tener un científico de datos, así como cuáles son sus aplicaciones solucionando problemas reales en diferentes industrias. ¿Te interesa? Pues vamos a por ello.
La ciencia de datos y la tecnología han ido siempre de la mano, ya que esta no puede existir sin una tecnología computacional que la apoye. De hecho, “dato” es un concepto que surge en los 40, la etapa de los primeros ordenadores, con la acepción de «información susceptible de ser transmitida y almacenada en un ordenador».
A partir de ahí, la evolución de los ordenadores y su capacidad para almacenar y procesar datos han ido modelando el concepto de análisis de datos primero y de Ciencia de Datos después, aumentando el alcance de los análisis y la fiabilidad de las predicciones.
Sin embargo, la Ciencia de Datos no solo son datos y ordenadores. Esta se encuentra centrada en una figura, la del Data Scientist.
Para conocer bien qué puede hacer la ciencia de datos por los negocios, antes hay que saber qué habilidades y conocimientos tienen que dominar los científicos de datos o data scientists.
Si bien no hay una definición clara y concisa, existe una aproximación realizada en 2010 por Drew Conway en la que se llega al concepto de Ciencia de Datos a partir de las áreas de conocimiento que es necesario dominar, y son estas:
Hace referencia a habilidades adquiridas para manejar diferentes tipos de datos en formatos distintos y para los que no hay un único método de integración en un proyecto de Ciencia de Datos. Son habilidades para «buscarse la vida» manejando fuentes de datos no siempre estructuradas, en busca de relaciones, predicciones o patrones útiles en un determinado sector o área de negocio.
Atañe al conocimiento del área de actividad o el negocio de donde provienen los datos. Los mismos datos, en áreas de negocio diferentes, se manejan también de forma diferente. Por ejemplo, los datos de conducción de los coches pueden servir para diseñar estrategias de mantenimiento predictivo en un taller o para ofrecer seguros personalizados en función de la forma de conducir.
Son subconjuntos de áreas de conocimiento, mientras que la Ciencia de Datos las engloba a todas. Son piezas de un enorme rompecabezas como la Manipulación de Datos y el Análisis.
Sin embargo, en los últimos tiempos, un elemento nuevo ha entrado en juego: la Inteligencia Artificial. Y es que, a medida que la potencia de cálculo de los sistemas computacionales ha ido aumentando, la IA ha ido emergiendo en paralelo. Sin ir más lejos, la IA Watson de IBM se enfrentó en 2011 a personas reales en el concurso ‘Jeopardy’ usando la tecnología DeepQA (preguntas y respuestas profundas). En ella intervienen decenas de algoritmos diferentes para procesar el lenguaje natural, clasificar, buscar relaciones o categorizar la veracidad estadística de la respuesta. La IA ganó el concurso.
La “apariencia” de inteligencia emerge a partir del hardware capaz de hacer los cálculos lo suficientemente rápido como para que pareciese que estábamos ante un concursante humano. Watson usaba computación distribuida mediante Hadoop y bases de datos que se tuvieron que almacenar en memoria RAM para que la respuesta fuera rápida.
Los avances tecnológicos han propiciado el manejo de grandísimas cantidades de datos en tiempos muy reducidos. Esto ha facilitado del mismo modo, el poder integrar estos métodos en interfaces de usuario, haciéndolo más accesible a las personas y por tanto, a las empresas.
Esta, llamémosla, democratización de los datos, ha supuesto que su uso se vaya extendiendo a diferentes industrias y sectores, en los que está aportando soluciones rápidas y eficaces a problemas cotidianos a los que se enfrentan en esos mercados cada día.
Las nueve aplicaciones más potentes podrían ser estas:
La detección se realiza a partir de los datos de acceso a los sistemas y recursos de red. Se buscan patrones y se procede a dar la alerta cuando se detectan situaciones que no respondan a un patrón predefinido.
Los datos provienen de logs de actividad, con abrumadoras cantidades de datos recopilados en archivos históricos. De ellos, se extraen patrones de actividad para usarlos como referencia.
Un proceso similar se aplica, por ejemplo, en la detección de fraudes en pagos con tarjetas de crédito. Aquí, los sistemas pueden cruzar datos de diferentes fuentes, como la actividad habitual de un cliente, junto con los «normales» de uso.
De esta forma, es posible identificar escenarios fraudulentos (tarjetas duplicadas/robadas o cobros indebidos/duplicados), paralizando o advirtiendo sobre una actividad irregular antes de que se produzca el daño.
El sector de los seguros es otro que se beneficia de la Ciencia de Datos. Analizando los hábitos de conducción mediante sensores, una empresa aseguradora puede calcular los riesgos de accidente de un cliente y ofrecer una cuota personalizada para él. Incluso puede introducir conceptos variables que dependan del análisis de sus rutinas en diferentes épocas del año.
Campos como el análisis de imagen en la identificación de enfermedades son perfectos candidatos para aplicar la Ciencia de Datos. Cuando se obtienen las imágenes en un TAC, radiografía o ecografía, los sistemas de reconocimiento empiezan a ser mejores incluso que los propios especialistas humanos.
Para conseguir una tasa de acierto tan elevada, es preciso elegir y procesar decenas de miles de exploraciones para entrenar estadísticamente los sistemas de reconocimiento de imagen basados en Machine Learning Supervisado.
Otro tanto de lo mismo se aplica para el descubrimiento de nuevos medicamentos o para ofrecer tratamientos personalizados.
El mantenimiento predictivo es un ejemplo claro de aplicación de la Ciencia de Datos en la industria. Las máquinas, sistemas logísticos y demás elementos de una planta industrial integran miles de sensores que recogen datos sobre temperaturas, horas de funcionamiento, velocidades, distancias, nivel de ruido, etc.
Se generan cantidad de información que hay que preparar, filtrar, limpiar e introducir en los modelos de Machine Learning o Deep Learning para predecir fallos con antelación. Como consecuencia, se consiguen sustanciosos ahorros en revisiones periódicas o en compra de piezas de repuesto. Por no hablar de evitar que una planta de producción se pare por sorpresa.
Actualmente, la Ciencia de Datos es capaz de usar como fuentes a las redes sociales en tiempo real. De esta manera, se puede desde predecir la demanda de un producto hasta crearla a partir de ofertas segmentadas por clase social, preferencias culturales, nivel adquisitivo, género, aficiones…
En los departamentos de marketing, estos datos ayudan a confeccionar informes previos a campañas, lanzamientos o promociones.
Valga Google Fotos como ejemplo. En esta plataforma, las fotos que subimos se analizan y clasifican automáticamente a partir de aquellos elementos que la IA de Google es capaz de identificar, ya sean coches, aviones, personas, flores, comida, animales, paisajes o lugares singulares, entre otros.
La Ciencia de Datos interviene en la elección de los mismos (imágenes) para entrenar a los modelos de Deep Learning. Para darnos cuenta de su importancia, recordemos que, cuando se pedía a Google que buscara gorilas, devolvía como resultado fotos de personas de color. Google lo resolvió inicialmente eliminando “gorila” de la búsqueda.
Es uno de los territorios más ambiciosos de la Ciencia de Datos. No es lo mismo automatizar el aparcamiento de un coche que automatizar la conducción completa, por lo que aún queda un largo recorrido en esta vía.
En el sector de la energía, la Ciencia de Datos se aplica a diferentes áreas, como la del mantenimiento predictivo de sus instalaciones e infraestructuras y redes de distribución, o la previsión de consumo, para programar las tareas de generación energética.
También se emplea para detectar el uso fraudulento del grid ─como pueden ser enganches ilegales─, prevenir caídas de suministro o tarificar en tiempo real.
Como ves, la ciencia de datos es cada vez más importante y supone una ventaja competitiva de cualquier negocio, frente a su competencia, no sólo por ser más eficientes, sino porque ofrecen en tiempo real soluciones reales a quienes importan realmente, que son los consumidores.
En artyco ayudamos a los negocios a sacar verdadero partido de los datos, utilizando el Data Science como sistema dentro de nuestra oferta de Customer Intelligence. ¿Te ayudamos?
“Después de la hipoteca, el inbound marketing es la mejor
herramienta para asegurar una relación a largo plazo”
¿Hablamos?
© Artyco comunicación y servicios - Todos los derechos reservados
© Artyco comunicación y servicios - Todos los derechos reservados