Qué es un árbol de decisión y su importancia en el Data Driven
Un árbol de decisión es un diagrama en forma de árbol que muestra la probabilidad estadística o determina un curso de acción. Muestra a los analistas y, a los que toman las decisiones, qué pasos deben tomar y cómo las diferentes elecciones podrían afectar todo el proceso. Todo ello soportado en datos. Como entenderás, es una herramienta muy útil en cualquier organización regida por los datos o Data Driven. En este post, te voy a contar cómo construirlo, sus principales símbolos, sus ventajas y desventajas, así como su importancia en el Data Driven. ¿Interesante verdad? Vamos a por ello.
Un árbol de decisión es una especie de mapa en que se muestra cada una de las opciones de decisión posibles y sus resultados. Este es tremendamente útil para aquellas personas que tienen que tomar decisiones en un negocio, ya que te permite comparar diferentes decisiones y acciones según sus costos, probabilidades y beneficios.
Este diagrama acaba teniendo una forma similar a la de un árbol, de ahí su nombre de “diagrama de árbol de decisión”.
Los árboles de decisión comienzan con un nodo, del cual salen otros en función de las opciones que se presenten, y de cada una de estas, otros. Existen tres tipos diferentes de nodos:
- Nodos de decisión.
Se le representa con un cuadrado y muestra una decisión que se tomará. - Nodos de probabilidad.
Está representado por un círculo y muestra las probabilidades de ciertos resultados. - Nodos terminales.
Son de forma triangular, y muestra el resultado definitivo de una ruta de decisión.
Una vez que ya sabes qué es un árbol de decisión y el significado de sus figuras, vamos a ver cómo dibujar uno.
Cómo dibujar un árbol de decisiones
Para dibujar un árbol de decisión puedes optar por hacerlo manualmente o bien a través de una aplicación. De cualquiera de las formas, su desarrollo es el mismo.
- Empieza por la decisión principal. Dibuja un cuadrado pequeño y traza hacia la derecha, a través de líneas, las posibles soluciones o acciones. Estas deben de estar correctamente etiquetadas y ofrecer el coste que supone tomar un camino u otro.
- Es el momento de añadir nodos de decisión y probabilidad, los cuales harán crecer el árbol. Para ello, debes de seguir el siguiente razonamiento:
- Si otra decisión es necesaria, dibuja otro cuadrado.
- Si el resultado es incierto, dibuja un círculo (los círculos representan nodos de probabilidad).
- Si el problema está resuelto, déjalo en blanco (por ahora).
Como ves, desde cada nódulo de decisión, debes de poner soluciones posibles, mientras que desde cada nódulo de probabilidad, debes de incluir los resultados posibles. Para poder basarte en datos, lo ideal es que incluyas en cada línea de decisión, el coste de esa acción, o el ingreso. De igual forma, en cada nódulo de probabilidad, debes de incluir tus opciones de forma numérica, a través de la probabilidad.
- Continúa expandiendo tu árbol hasta que no haya más decisiones que tomar, y este llegue a su fin. El final representa que no hay más decisiones posibles o resultados probables que considerar. Una vez hayas asignado un valor a cada resultado posible, bien a través de una puntuación abstracta o un valor financiero, agrega triángulos que determinen los extremos.
Ahora, con el árbol listo, ya estás preparado para analizar la decisión a la que te enfrentas.
Cómo realizar un análisis en un árbol de decisión
Diseñar el árbol de decisión es útil sobre todo para plasmar sobre el papel las alternativas y para visualizar todas las opciones que tienes. Sin embargo, no está completo hasta que no realizas un análisis como tal.
Para ello, tienes que realizar el cálculo final esperado de cada decisión. Este cálculo te aportará una minimización del riesgo y una maximización de la probabilidad de obtener el resultado esperado.
Para sacar ese dato, sólo tienes que restar el costo de esa decisión a los beneficios esperados. Así de fácil. Ten en cuenta que los beneficios esperados son iguales al valor total de todos los resultados que puedan derivar de esa decisión, y cada valor se multiplica por la probabilidad de que ocurra. A continuación, te muestro cómo se calcularían estos valores para el ejemplo descrito anteriormente.
Al identificar cuál es el resultado más deseable, es importante tener en cuenta las preferencias de utilidad del encargado de tomar la decisión. Por ejemplo, algunos prefieren opciones de bajo riesgo, mientras que otros están dispuestos a correr riesgos si el beneficio es mayor.
Al usar tu árbol de decisión acompañado por un modelo de probabilidad, puedes emplearlo para calcular la probabilidad condicional de un evento o la probabilidad de que suceda, en el caso de que otro evento ocurra. Para hacerlo, simplemente empieza con el evento inicial, luego sigue la ruta desde ese evento hasta el evento objetivo, y multiplica la probabilidad de cada uno de esos eventos juntos.
De este modo, un árbol de decisión se puede emplear como un diagrama de árbol tradicional, que traza las probabilidades de determinados eventos, como lanzar una moneda dos veces.
Como puedes suponer, los árboles de decisión ofrecen muchas ventajas, pero también alguna que otra desventaja. Vamos a verlas.
Ventajas y desventajas del uso del árbol de decisión
Las principales ventajas de utilizar en tu proceso de decisión, este tipo de diagrama, son evidentes y seguro que la mayoría de ellas ya se te han pasado por la cabeza:
- Los árboles de decisión son simples de entender y de interpretar.
- Si el diagrama no es demasiado grande, puede visualizarse de un vistazo y eso facilita mucho el entendimiento del proceso.
- No requiere que prepares unos datos excesivamente complejos.
- Es válido tanto para variables cuantitativas como para cualitativas.
- Se pueden agregar nuevas opciones a los árboles existentes.
- Son fácilmente combinables con otras herramientas de tomas de decisiones.
- Utiliza un modelo de caja blanca: la respuesta del algoritmo es fácilmente justificable a partir de la lógica booleana implementada en él.
Por otro lado, hay una serie de desventajas, las cuales quizás no sean tan evidentes, aunque seguro que muchas de ellas se te hayan pasado por la cabeza. Principalmente son estas:
- Son inestables: cualquier pequeño cambio en los datos de entrada puede suponer un árbol de decisión completamente diferente.
- No se puede garantizar que el árbol generado sea el óptimo.
- Hay conceptos que no son fácilmente aprendidos pues los árboles de decisión no son capaces de expresarlos con facilidad (como el operador XOR).
- Los principiantes crean árboles sesgados, sobre todo si una de las personas que interviene es dominante respecto al resto.
- Un árbol de decisión puede llegar a ser demasiado complejo con facilidad, perdiendo su utilidad.
Por lo que puedes suponer, esta herramienta es muy útil en las empresas Data Driven, las cuales, sólo toman decisiones en base a los datos. A continuación, paso a contarte por qué es tan útil para este tipo de empresas.
Los diagramas de árbol de decisión en el Data Driven
Hoy día, las empresas más modernas están siendo regidas por los datos. Los años en los que se tomaban las decisiones en función de la experiencia personal del más veterano, o la intuición del empleado de más éxito, terminaron.
Gracias a los datos, una empresa Data Driven es capaz de multiplicar el número de ventas fácilmente, así como de fidelizar a sus clientes y de ahorrar costes, entre otras muchas cosas.
Para lograrlo, es necesario crear una cultura y una filosofía entorno al dato, pero también entorno a la mejor manera de tomar decisiones basadas en estos.
En este sentido, el diagrama de árbol de decisión es una excelente herramienta para lograr tomar decisiones basadas en datos.
Pero no sólo eso, los árboles de decisión son, además, potentes herramientas de visualización que ayudan a los responsables precisamente en esa toma de decisiones, realizando los movimientos correctos en el momento adecuado.
Cada vez más sectores los utilizan hoy en día con el fin de sacarles todo el provecho y aumentar su negocio, utilizándolos para optimizar estrategias, predecir los resultados o la probabilidad de eventos.
En próximos posts profundizaremos más en esta herramienta, hablando de árboles más avanzados como el de regresión o el de clasificación y cómo pueden entrar en juego en la Inteligencia artificial, a través del machine learning. No te lo pierdas.
¿Quieres convertir tu empresa en una compañía Data Driven?
Emilio Fernández Lastra
“Después de la hipoteca, el inbound marketing es la mejor
herramienta para asegurar una relación a largo plazo”
¿Te ha parecido interesante lo que has leído?
En artyco podemos ayudarte a conseguir tus objetivos
¿Hablamos?
© Artyco comunicación y servicios - Todos los derechos reservados
© Artyco comunicación y servicios - Todos los derechos reservados
- Los 6 algoritmos de Clustering que todo Data Scientist debe conocer - 7 junio, 2022
- 7 estrategias de marketing automation que te darán un excelente resultado - 26 abril, 2022
- Qué son los MLOps - 8 marzo, 2022