Científico de Datos: Tipos de Distribución de Datos – Fundamentos de la Distribución de Datos

¿Cómo se pueden distribuir los datos?

Los datos se pueden distribuir de diferentes maneras, por lo que es importante comprender cómo se distribuyen los datos para inferir sobre la población total que nos interesa. Los principales tipos de distribución de datos son:

Distribución binomial (discreta)
Distribución de Bernoulli (discreta)
Distribución normal / gaussiana (continua)
Distribución de Poisson (discreta)
Distribución de la ley de potencia (discreta)

Distribución binomial (Discreta) .- es un tipo de distribución en la que los resultados son binomiales (sí / no, verdadero / falso) y los experimentos se repiten N veces.

Distribución de Bernoulli (Discreta) .- Es un tipo de distribución binomial en la que la probabilidad de que ocurra un evento es binomial (sí / no, verdadero / falso) y el experimento no se repite por lo que N = 1

p (k; p) = pk () 1-k para k E {0,1}

Distribución normal / gaussiana (continua). Este tipo de distribución relaciona la desviación estándar y la media y establece qué tan variados y distantes son los datos de esas variables. Los datos que se distribuyen normalmente muestran signos de que el 99,7% del total de datos está dentro de las 3 desviaciones estándar de la media. Los datos también se distribuyen en una curva en forma de campana que es simétrica, de modo que los valores superiores a la media tienen la misma forma que los inferiores a la media. La distribución normal generalmente se verifica mediante gráficos o métodos cuantitativos.

Distribución de Poisson (Discreta) .- Los eventos ocurren en un intervalo fijo de tiempo / espacio con una tasa Lambda constante e independientemente. Probabilidades de que ocurran eventos en estas condiciones (número de veces dentro de un intervalo de tiempo específico). Se usa en casos que ocurren raramente y cuando queremos saber la probabilidad de que un evento sea impredecible o aleatorio en un intervalo de tiempo específico.

p (k, L) = Lkexp (-L) / k!

K = número de ocurrencias

L = tasa de ocurrencia (ocurrencias / tiempo)

Distribución de la ley de potencia (discreta). El cambio de una cantidad varía con la potencia de otra. P (X = x) = cx-a donde a es el exponente de la ley y c es la constante de normalización

Hay otros dos conceptos que se relacionan con la distribución de datos y que ayudan a comprender las fórmulas correspondientes para calcular la media muestral y la desviación estándar e inferir sobre la media y la desviación estándar de toda la población. Estos son:

La ley de los grandes números
El teorema del límite central

La ley de los grandes números explica por qué el promedio de un gran número de datos aleatorios en una muestra será el mismo que el promedio de la población.

El teorema del límite central es el que indica que la suma de variables aleatorias independientes con varianza finita y distinta de cero (Sn) tiene una función de distribución que se aproxima correctamente a la de una distribución normal.