Cientifico de Datos: ¿Cómo se implementa un algoritmo de entrenamiento de árbol de decisiones?

Cientifico de Datos: ¿Cómo se implementa un algoritmo de entrenamiento de árbol de decisiones?

Los árboles de decisión se catalogan como un método de supervisión no paramétrico que se utiliza para resolver la clasificación cuando la variable de destino con la que trabajar utiliza valores discretos (por ejemplo, elementos o datos contables). Los problemas de regresión también pueden usar árboles de decisión cuando la variable objetivo usa valores continuos (por ejemplo: números reales).

Una variable clave en la que se basan los árboles de decisión y sus nodos es la impureza o incertidumbre de gini del conjunto de datos en un nivel definido en el árbol de decisión. El valor de impureza de gini más deseable en un nodo es cero, lo que significa que el conjunto de datos en ese nodo es puro. Cuanto más pequeños sean los árboles, mejor, de modo que se sugiere alcanzar el punto en el que los nudos de las hojas son puros (impureza de gini = 0).

Pasos para crear un árbol de decisiones:

  • Primero, seleccione un conjunto de datos que contenga las variables y valores que se usarán para estructurar el árbol de decisiones.
  • Calcule la impureza de gini o la frecuencia o mezcla de datos en esta etapa del árbol de decisión
  • Identificar las preguntas de decisión en las que intervienen los datos en este nodo
  • Cada pregunta que se haga generará filas de partición de filas verdaderas y falsas
  • Se calcula la ganancia de información (tomada de la impureza de gini) y la partición de datos de los pasos anteriores
  • Actualice la mayor información obtenida en cada pregunta formulada.
  • Actualice la mejor pregunta para este nodo utilizando la pregunta con la mayor ganancia de información.
  • Divida el nodo que utiliza la mejor pregunta y repita los pasos desde el punto 1 hasta que los nodos de las hojas sean puros o la impureza de gini sea cero.

¿Cómo optimizar los modelos de árboles de decisión?


Una vez que obtenga su árbol de decisiones, es posible que no sea perfecto, por lo que se requiere optimización para garantizar que la clasificación y la regresión se calcularán sin sesgos ni problemas de sobreajuste. Superar el sobreajuste es un reto habitual en este tipo de modelos por lo que se ha comprobado que los árboles de decisión más cortos y los árboles más pequeños tienen en cuenta principalmente dos técnicas de poda:

  • Error más pequeño: el árbol se acorta hasta el punto en el que el error de validación cruzada fue mínimo
  • Error mínimo: esta técnica busca un error mínimo con validación cruzada dentro de 1 error estándar