Problema de regresiónes – Regresión Lineal y Regresión Logaritmica – Análisis Detallado

Problema de regresiónes – Regresión Lineal y Regresión Logaritmica – Análisis Detallado

Modelos de aprendizaje automático utilizados para resolver la regresión: admite regresión vectorial, regresión lineal, árbol de decisión, vecinos más cercanos, árbol de regresión y bosque aleatorio (el promedio de resultados se utiliza para obtener el valor regresado), descenso de gradiente estocástico.

Regresión lineal


Hay varios valores en la salida del modelo. Por ejemplo, puede tomar varios valores que son para un modelo de regresión entre 0, 1 y -1, por ejemplo.

Sabemos que podemos usar la regresión lineal cuando existe una correlación entre las variables independientes y las variables dependientes que se han encontrado y se dan por sentado 6 supuestos:

  • Supuesto # 1.- Las variables se miden a nivel continuo, ya sean variables de razón o de intervalo (las variables continuas se clasifican como variables de intervalo o de relación).
  • Supuesto # 2.- Los datos de variables dependientes e independientes muestran una tendencia lineal y una dispersión de puntos. Este supuesto se identifica visualmente con gráficos de diagrama de dispersión.
  • Supuesto # 3.- Los datos no tienen trazos significativos alrededor de la línea o zona regresada en la que se puede rastrear la línea.
  • Suposiciones # 4 Debe haber independencia de las observaciones. La estadística de Durbi-Watson identifica si existe este tipo de observaciones.
  • Supuesto # 5.- Los datos muestran signos de homocedasticidad en los que los datos están cerca de la línea regresiva, mientras que la heterocedasticidad muestra signos de datos mostrados alrededor de tendencias no lineales y los datos trazados
  • Supuesto # 6.- Los errores residuales muestran signos de distribuciones normales, de modo que los histogramas superpuestos frente a la curva distribuida normalmente o la curva PP normal podrían ayudar a identificar si este supuesto es válido.

Regresión logística

La regresión logística se usa para encontrar las probabilidades o la proporción de eventos en los que ocurre un evento específico en relación con otros eventos. Gestiona la probabilidad de ocurrencia. Tiene la ventaja de encontrar la relación entre una o más variables y su probabilidad de ocurrencia en un problema específico. La salida del modelo logístico tiene valores limitados disponibles.

También supone que los datos de muestra se distribuyen en bernoulli para predecir la probabilidad de ocurrencia en un problema binario (pasar / fallar, sí.no).
Se encuentran los parámetros y para encontrar un modelo que se ajuste a los datos y la probabilidad se encuentra a partir de la ecuación obtenida en un valor determinado de la variable independiente. Por ejemplo, la regresión logística se usa para encontrar la probabilidad de aprobar un examen en función del número de horas estudiadas. La regresión logística podría calcularse a partir de los datos y representarse con un modelo como este.

Probabilidad de pasar = 1 / (1 + exp (- (1.5046 * horas-4.0777))

En la forma general teniendo en cuenta dos variables independientes:

p = 1 / (1 + b- (Bo + B1x1 + B2x2))

dónde:
p = probabilidad de aprobar un examen
b = base logarítmica generalmente elegida como exponencial (exp) o base 2 o base 10 (log)
B1, B2 = parámetros
Bo = interceptar con eje
x1, x2 = predictores
Se podría encontrar una solución para predecir la probabilidad de que una persona apruebe con una calificación superior a 3.1.