La distribución normal

ESTADISTICA INFERENCIAL CON R
HERALDO GONZALEZ SERRANO
La distribución normal
Quizás es la más importante de las distribuciones continuas, se usa profusamente en Inferencia
Estadística dado que muchas estadísticas muestrales convergen a la normal conforme el tamaño
de la muestra crece.
La distribución normal, fue descrita originalmente por el matemático francés Abraham de Moivre
(1667-1754) en 1733 como el límite de la binomial , más tarde fue utilizada por Pierre Simon
Laplace en una variedad de fenómenos de la ciencias naturales y sociales, pero fue el “Príncipe de
los Matemáticos”, el alemán Karl Gauss (1777-1855) quien aplicó la distribución normal al estudio
de la forma de la tierra y los movimientos de los planetas, dicho trabajo fue tan influyente que la
distribución normal se denomina con mucha frecuencia “Gaussiana” ; en el siglo XIX se aplica
extensamente por científicos que habían notado que los errores al llevar a cabo mediciones
físicas, frecuentemente seguían un comportamiento en forma de campana, propia de la normal
Definición.
Sea X una variable aleatoria con recorrido los números reales, decimos que la variable X tiene
μ
distribución normal o Gaussiana de parámetros
f ( x) =
1
2π σ
e
1 x−μ 2
)
− (
2 σ
Notación.
Denotamos X ~ N ( μ , σ )
2
.
.
.
y
σ 2 si
su función de probabilidad es:
, x, μ ∈ ℜ , σ ∈ ℜ +
ESTADISTICA INFERENCIAL CON R
HERALDO GONZALEZ SERRANO
Propiedades.
1) El gráfico de la normal alcanza su máximo en x =
μ
2) El gráfico de la normal es simétrico con respecto del eje
x=μ
3) El gráfico de la normal es asintótico con respecto del eje X
4) El grafico de la normal tiene puntos de inflexión en
x = μ −σ y x = μ +σ
∞
5) La masa de probabilidad tiene valor 1;
∫ f ( x)dx = 1 ( al demostrarlo nos encontramos con la
−∞
∞
integral
∫e
1
− t2
2
dt la cual
no tiene primitiva, sin embargo
se calcula con métodos más
−∞
sofisticados)
6) Las áreas explicadas se muestran en la figura adjunta
7) La esperenza de ka normal es E ( X )
8) Si
μ =0
y
σ 2 =1
= μ ,la varianza de la normal es V ( X ) = σ 2
entonces hablamos de una distribución normal estándar y la denotamos:
Z ~ N (0;1)
9) Para la normal estándar Z esta calculada la función de distribución F(z) para diversos valores de
z, desde-3,5 hasta 3,5
10) X ~ N ( μ , σ 2 ) entonces
X −μ
σ
= Z ~ N (0;1)
Observación
En el lenguaje R, el gráfico de la distribución normal estándar se puede conseguir como sigue:
> mu <- 0
> sigma <- 1
> x <- c(-400:400)/100
> fx <- (1/sqrt(2*pi*sigma))*exp((x-mu)*(x-mu)/(-2*sigma*sigma))
> plot(x,fx,main="Distribución normal",type="l")
.
.
.
ESTADISTICA INFERENCIAL CON R
HERALDO GONZALEZ SERRANO
Según se declaro “muchas estadísticas muestrales convergen a la normal conforme el tamaño de
la muestra crece”.
El ejemplo que sigue muestra cómo muestras de diferentes tamaños hechas a una población
normal, obtenidas con la función de R rnorm devuelve una vector de n cantidad de muestras
provenientes de una población de números aleatorios con distribución normal (para más detalles
sobre esta u otra función de R puede utilizar la función help, para este caso por ejemplo
help(rnorm)).
>
>
>
>
>
>
>
>
>
par <- par(mfrow=c(2,2))
muestra10 <- rnorm(10)
hist(muestra10,main="A.Histograma muestra10",ylab="Frecuencia")
muestra50 <- rnorm(50)
hist(muestra50,main="B.Histograma muestra50",ylab="Frecuencia")
muestra500 <- rnorm(500)
hist(muestra500,main="C.Histograma muestra500",ylab="Frecuencia")
muestra1000 <- rnorm(1000)
hist(muestra1000,main="D.Histograma muestra1000",ylab="Frecuencia")
Los gráficos generados por la implementación anterior se pueden apreciar en la figura precedente,
donde muestra10 es la muestra de 10 observaciones, muestra50 tiene 50 observaciones,
muestra500 tiene 500 observaciones y finalmente muestra1000 tiene 1000 observaciones.
Note que a medida que aumentamos la cantidad de observaciones el histograma presenta una
curva en forma de “campana, y se parece cada vez más a la grafica de la distribución normal.
Pudimos ver que muestras de una misma población normal pueden ser diferentes, y por lo tanto la
media de las mismas también serán diferentes, y dichas medias pueden también tener una
distribución distinta, sin embargo, un teorema fundamental de la estadística dice que las medias de
muestras aleatorias provenientes de cualquier distribución tienen una distribución normal conforme
crece el tamaño de la muestra, dicho teorema se conoce con el nombre de “Teorema del límite
central”, una consecuencia de este teorema es que cuando trabajamos con muestras de cientos de
observaciones podemos olvidarnos de la distribución de la población y asumir que es normal. Una
.
.
.
ESTADISTICA INFERENCIAL CON R
HERALDO GONZALEZ SERRANO
regla práctica muy utilizada dice que muestras con 30 o más observaciones tienen una distribución
aceptablemente normal, como lo podemos verificar con nuestro experimento en R.
Veamos el uso del lenguaje R
Ejemplo1
Supongamos que la capacidad de aireación de cierto tipo de máquinas esta distribuida como una
normal estándar Z ~ N (0;1) Si un puntaje de -1,5 indica baja capacidad ¿Qué porcentaje de las
máquinas tendría baja capacidad?
La respuesta es P ( Z ≤ −1,5) , en lenguaje R se obtiene por:
> pnorm(-1.5,0,1)
[1] 0.0668072
Aproximadamente el 7% de las máquinas tendría baja capacidad
Ejemplo 2
Otro ejemplo, ahora con una variable normal no estandarizada
El gerente de crédito de una gran tienda comercial estima que el monto por deudas impagas en el
año, se distribuye normal con media $ 30.000 y desviación estándar de $ 4.000
¿Cuál es la probabilidad de que una cuenta impaga, seleccionada aleatoriamente tenga un monto
adeudado menos que $ 35.000?
Si X = “Monto adeudado, en miles de pesos” entonces la variable es
X ~ N ( μ = 30,000; σ 2 = 4.000 2 ) . Se pide P( X ≤ 35.000) ; tenemos:
> pnorm(35.000,30.000,4.000)
[1] 0.8943502
Aproximadamente, “el 89% de las deudas impagas” tiene un monto
35.000
adeudado menor que $
Ejemplo 3
Si ahora estamos interesados en conocer la probabilidad de que una cuenta impaga, seleccionada
aleatoriamente tenga un monto adeudado entre $25.000 y $35.000, entonces la pregunta es
P (25.000 ≤ X ≤ 35.000)
Como esta probabilidad es equivalente a calcular el área entre 25.000 y 35.000 bajo el gráfico de
la variable aleatoria X entonces, usando R tenemos:
> pnorm(35.000,30.000,4.000)-pnorm(25.000,30.000,4.000)
[1] 0.7887005
Aproximadamente, “el 79% de las deudas impagas” tiene un monto adeudado entre
$ 25.000 y %35.000
Ejemplo 4
¿A partir de que mínimo monto se encuentra el 10% de las cuentas con mayor deuda impaga?
Aquí se pide el monto k tal que P( X > k ) = 0,10 , equivalentemente, queremos determinar k tal
que P ( X ≤ k ) = 0,90 . Con el lenguaje R tenemos:
> qnorm(0.9,30000,4000)
[1] 35126.21
Es decir, el mínimo monto adeudado por el 10% de las mayores deudas es $ 35.126,21
.
.
.