ESTADISTICA INFERENCIAL CON R HERALDO GONZALEZ SERRANO La distribución normal Quizás es la más importante de las distribuciones continuas, se usa profusamente en Inferencia Estadística dado que muchas estadísticas muestrales convergen a la normal conforme el tamaño de la muestra crece. La distribución normal, fue descrita originalmente por el matemático francés Abraham de Moivre (1667-1754) en 1733 como el límite de la binomial , más tarde fue utilizada por Pierre Simon Laplace en una variedad de fenómenos de la ciencias naturales y sociales, pero fue el “Príncipe de los Matemáticos”, el alemán Karl Gauss (1777-1855) quien aplicó la distribución normal al estudio de la forma de la tierra y los movimientos de los planetas, dicho trabajo fue tan influyente que la distribución normal se denomina con mucha frecuencia “Gaussiana” ; en el siglo XIX se aplica extensamente por científicos que habían notado que los errores al llevar a cabo mediciones físicas, frecuentemente seguían un comportamiento en forma de campana, propia de la normal Definición. Sea X una variable aleatoria con recorrido los números reales, decimos que la variable X tiene μ distribución normal o Gaussiana de parámetros f ( x) = 1 2π σ e 1 x−μ 2 ) − ( 2 σ Notación. Denotamos X ~ N ( μ , σ ) 2 . . . y σ 2 si su función de probabilidad es: , x, μ ∈ ℜ , σ ∈ ℜ + ESTADISTICA INFERENCIAL CON R HERALDO GONZALEZ SERRANO Propiedades. 1) El gráfico de la normal alcanza su máximo en x = μ 2) El gráfico de la normal es simétrico con respecto del eje x=μ 3) El gráfico de la normal es asintótico con respecto del eje X 4) El grafico de la normal tiene puntos de inflexión en x = μ −σ y x = μ +σ ∞ 5) La masa de probabilidad tiene valor 1; ∫ f ( x)dx = 1 ( al demostrarlo nos encontramos con la −∞ ∞ integral ∫e 1 − t2 2 dt la cual no tiene primitiva, sin embargo se calcula con métodos más −∞ sofisticados) 6) Las áreas explicadas se muestran en la figura adjunta 7) La esperenza de ka normal es E ( X ) 8) Si μ =0 y σ 2 =1 = μ ,la varianza de la normal es V ( X ) = σ 2 entonces hablamos de una distribución normal estándar y la denotamos: Z ~ N (0;1) 9) Para la normal estándar Z esta calculada la función de distribución F(z) para diversos valores de z, desde-3,5 hasta 3,5 10) X ~ N ( μ , σ 2 ) entonces X −μ σ = Z ~ N (0;1) Observación En el lenguaje R, el gráfico de la distribución normal estándar se puede conseguir como sigue: > mu <- 0 > sigma <- 1 > x <- c(-400:400)/100 > fx <- (1/sqrt(2*pi*sigma))*exp((x-mu)*(x-mu)/(-2*sigma*sigma)) > plot(x,fx,main="Distribución normal",type="l") . . . ESTADISTICA INFERENCIAL CON R HERALDO GONZALEZ SERRANO Según se declaro “muchas estadísticas muestrales convergen a la normal conforme el tamaño de la muestra crece”. El ejemplo que sigue muestra cómo muestras de diferentes tamaños hechas a una población normal, obtenidas con la función de R rnorm devuelve una vector de n cantidad de muestras provenientes de una población de números aleatorios con distribución normal (para más detalles sobre esta u otra función de R puede utilizar la función help, para este caso por ejemplo help(rnorm)). > > > > > > > > > par <- par(mfrow=c(2,2)) muestra10 <- rnorm(10) hist(muestra10,main="A.Histograma muestra10",ylab="Frecuencia") muestra50 <- rnorm(50) hist(muestra50,main="B.Histograma muestra50",ylab="Frecuencia") muestra500 <- rnorm(500) hist(muestra500,main="C.Histograma muestra500",ylab="Frecuencia") muestra1000 <- rnorm(1000) hist(muestra1000,main="D.Histograma muestra1000",ylab="Frecuencia") Los gráficos generados por la implementación anterior se pueden apreciar en la figura precedente, donde muestra10 es la muestra de 10 observaciones, muestra50 tiene 50 observaciones, muestra500 tiene 500 observaciones y finalmente muestra1000 tiene 1000 observaciones. Note que a medida que aumentamos la cantidad de observaciones el histograma presenta una curva en forma de “campana, y se parece cada vez más a la grafica de la distribución normal. Pudimos ver que muestras de una misma población normal pueden ser diferentes, y por lo tanto la media de las mismas también serán diferentes, y dichas medias pueden también tener una distribución distinta, sin embargo, un teorema fundamental de la estadística dice que las medias de muestras aleatorias provenientes de cualquier distribución tienen una distribución normal conforme crece el tamaño de la muestra, dicho teorema se conoce con el nombre de “Teorema del límite central”, una consecuencia de este teorema es que cuando trabajamos con muestras de cientos de observaciones podemos olvidarnos de la distribución de la población y asumir que es normal. Una . . . ESTADISTICA INFERENCIAL CON R HERALDO GONZALEZ SERRANO regla práctica muy utilizada dice que muestras con 30 o más observaciones tienen una distribución aceptablemente normal, como lo podemos verificar con nuestro experimento en R. Veamos el uso del lenguaje R Ejemplo1 Supongamos que la capacidad de aireación de cierto tipo de máquinas esta distribuida como una normal estándar Z ~ N (0;1) Si un puntaje de -1,5 indica baja capacidad ¿Qué porcentaje de las máquinas tendría baja capacidad? La respuesta es P ( Z ≤ −1,5) , en lenguaje R se obtiene por: > pnorm(-1.5,0,1) [1] 0.0668072 Aproximadamente el 7% de las máquinas tendría baja capacidad Ejemplo 2 Otro ejemplo, ahora con una variable normal no estandarizada El gerente de crédito de una gran tienda comercial estima que el monto por deudas impagas en el año, se distribuye normal con media $ 30.000 y desviación estándar de $ 4.000 ¿Cuál es la probabilidad de que una cuenta impaga, seleccionada aleatoriamente tenga un monto adeudado menos que $ 35.000? Si X = “Monto adeudado, en miles de pesos” entonces la variable es X ~ N ( μ = 30,000; σ 2 = 4.000 2 ) . Se pide P( X ≤ 35.000) ; tenemos: > pnorm(35.000,30.000,4.000) [1] 0.8943502 Aproximadamente, “el 89% de las deudas impagas” tiene un monto 35.000 adeudado menor que $ Ejemplo 3 Si ahora estamos interesados en conocer la probabilidad de que una cuenta impaga, seleccionada aleatoriamente tenga un monto adeudado entre $25.000 y $35.000, entonces la pregunta es P (25.000 ≤ X ≤ 35.000) Como esta probabilidad es equivalente a calcular el área entre 25.000 y 35.000 bajo el gráfico de la variable aleatoria X entonces, usando R tenemos: > pnorm(35.000,30.000,4.000)-pnorm(25.000,30.000,4.000) [1] 0.7887005 Aproximadamente, “el 79% de las deudas impagas” tiene un monto adeudado entre $ 25.000 y %35.000 Ejemplo 4 ¿A partir de que mínimo monto se encuentra el 10% de las cuentas con mayor deuda impaga? Aquí se pide el monto k tal que P( X > k ) = 0,10 , equivalentemente, queremos determinar k tal que P ( X ≤ k ) = 0,90 . Con el lenguaje R tenemos: > qnorm(0.9,30000,4000) [1] 35126.21 Es decir, el mínimo monto adeudado por el 10% de las mayores deudas es $ 35.126,21 . . .
© Copyright 2024