Modelado de Datos: Conceptos y Temas en la Modelación de Datos – Carreras Universitarias

Modelado de Datos: Conceptos y Temas en la Modelación de Datos – Carreras Universitarias

El modelado es la tarea que incorpora información en una herramienta para predecir o pronosticar eventos. Esta herramienta podría ser una función que represente la relación entre Y y X (X1, X2, X3, etc.) y que contenga un error aleatorio (e). Este error puede ser irreducible o reducible para que se obtenga un modelo estimado de modo exacto. Los modelos se ven afectados dependiendo de su flexibilidad (predicción) e interpretabilidad (inferencia). Un aumento en la flexibilidad, produce una disminución en la capacidad de interpretación que se considera la compensación de sesgo-varianza. Una disminución en el sesgo conduce a un aumento de la varianza, por lo tanto, se debe encontrar una compensación óptima de sesgo-varianza.

• Los modelos simples son mejores que los complejos (el sobreajuste está relacionado con la complejidad)

• ¿Cómo evaluar un modelo?

◦ Error de sesgo.- Menos o más supuestos tomados en cuenta sobre la forma de la función objetivo

▪ Algoritmos de aprendizaje automático de bajo sesgo: árbol de decisión, K más cercano, máquina de vectores de soporte

▪ Alto sesgo: regresión lineal, análisis discriminante lineal y regresión logística

◦ Error de varianza, cambios pequeños o grandes en la estimación de la función objetivo con cambios en el conjunto de datos de entrenamiento.

▪ Baja varianza: regresión lineal, regresión logística y análisis discriminante lineal.

▪ Alta variación: árbol de decisión, máquina de vectores de soporte y vecino k más cercano

◦ Error irreducible

• Alta varianza significa ruido del modelo o sobreajuste en un modelo.

• Alto sesgo significa relaciones perdidas o falta de ajuste en un modelo