Científico de Datos: Ventajas y Desventajas de Naive Bayes en Machine Learning

Científico de Datos: Ventajas y Desventajas de Naive Bayes en Machine Learning

Tal vez te preguntarás sobre por qué usar Navie Bayes y cuales son las ventajas y desventajas de este método de machine learning (aprendizaje computarizado) . Estas son algunas de las incognitas que pódras aclarar en este artículo y que te permitirán implementar y predecir mejor tus eventos con los datos adecuados.

El modelo Naive Bayes es un método ampliamente utilizado para clasificar los datos. Es útil porque permite hacer análisis multivariados y obtener una probabilidad estimada. De hecho, el algoritmo se basa en el teorema de Bayes de probabilidad condicional que considera la probabilidad de que ocurra un evento dado el hecho de que ocurrió otro evento. También, asume que los predictores ocurren independientemente de cualquier otro, lo que es un supuesto muy ideal que puede no contribuir a ajustarse al mejor modelo.

Se debe comprender cómo los datos contribuirían realmente a ajustar el modelo y hacer un juicio más estricto de las diferentes alternativas y eventos que ocurrirían. Por ejemplo: se podrían usar datos que tengan diferentes características para un elemento químico como el helio, como rojo, inodoro, líquido y gas. Sabemos de antemano que trabajaremos con un gas en función del contexto de nuestro problema, por lo que la aplicación del modelo de aprendizaje automático de bayes ingenuo puede no ser la mejor. Esta afirmación está respaldada por el ejemplo en el que se intenta encontrar la probabilidad de que el helio sea inodoro dado que es líquido (P (inodoro / líquido). Como se mencionó anteriormente, el helio se administra en una fase gaseosa, por lo que usar el modelo puede ser muy útil para este caso. Otra consideración que se debe tener en cuenta es que el hecho de que las propiedades químicas también influyen en la fase fluida, por lo que puede no tener sentido tratar de clasificar una sustancia química como helio en función de la probabilidad de que esté en fase líquida. dado que se produjo el color rojo.

El teorema de Bayes se ha utilizado en algunos campos como el médico o el medioambiental. Este modelo también se usa más específicamente para casos como clasificación de spam y clasificación de palabras.

La fórmula de bayes ingenua se representa de esta manera:

P (x | c) = P (c | x) * P (x) / P (c)

P (x | c) = Probabilidad de que ocurra un evento x dado que ocurrió una clase
P (x) = Probabilidad de que ocurra un evento x
P (c) = Probabilidad de ocurrencia de la clase c

Puede comprender mejor integrando algunos eventos. Por lo tanto, supongamos que queremos clasificar un manómetro fabricado correctamente en función de sus características observadas, como longitud, altura, ancho.

P (manómetro derecho | (largo, alto, ancho) = P (largo / manómetro derecho) x PP (alto / manómetro derecho) x P (ancho / manómetro derecho) xP (manómetro derecho) / P (largo ) x P (alto) x P (ancho)

Son varias las ventajas que podemos encontrar en este método:

• Se pueden integrar múltiples variables en los cálculos para clasificar datos
• Es fácil de integrar con características conocidas en un conjunto de datos.
• Una buena comprensión de los posibles eventos en una clasificación específica o caso probabilístico ayuda a entrenar y ajustar el modelo.

Por otro lado, existen varias desventajas que pueden llevarnos a evitar el uso de este modelo.
• Los predictores se consideran independientes entre sí, lo cual es algo que puede no ser cierto y esta suposición llevará a construir un modelo que no se ajuste correctamente a los datos.
• El cálculo del teorema ingenuo requiere más esfuerzo computacional a medida que hay más características en
• Se asume que los datos se distribuyen normalmente, lo cual es un supuesto sólido que debemos verificar y comprender a partir de nuestros datos y caso específico.
• La frecuencia cero ocurre cuando una característica o variable en sus datos no aparece, la probabilidad se considerará cero. Existe una opción para que usted especifique una probabilidad o un valor muy bajo para que la característica correspondiente haga frente al problema.