Curso: Estadística Inferencial (ICO 8306) Profesores: Esteban Calvo, Pablo Hueichapan y Omar Ramos Ayudantes: José T. Medina, Fabio Salinas y Daniela Vilches ESTIMACIÓN POR INTERVALO La primera parte consistió en estimar los intervalos de confianza considerando una desviación estándar conocida, en ese caso usábamos una estimación de la desviación estándar poblacional tomando como referencia datos históricos que se tenían o algún otro valor que se pudiera tener de referencia para ese parámetro. Ahora, si lo pensamos bien, esto es netamente para la teoría, porque sería bastante raro tener la desviación estándar de una población, y no tener la media de esta. Por eso el basarse en la desviación estándar poblacional y considerar la media muestral es teoría para poder introducirnos en la obtención de Intervalos de Confianza con desviación estándar desconocida. Estimación por intervalos de la media poblacional con desviación estándar desconocida Es muy común que el cálculo de los intervalos de confianza de la media poblacional se realice sin conocer la desviación estándar de la población, siendo esta situación la mayoría de los casos. En esta clase veremos cómo resolver este problema utilizando la desviación estándar muestral π , utilizando también la misma muestra para poder obtener π π¦ π. Anteriormente utilizábamos la tabla de distribución normal estándar, para este caso utilizaremos una nueva distribución de probabilidad, conocida como distribución π‘ o distribución π‘ β π π‘π’ππππ‘, en honor a su creador que firmaba bajo el seudónimo de "Student" en sus publicaciones, Sealy Gosset. Es necesario señalar que esta distribución matemáticamente parte de una distribución normal, y se ha demostrado que sirve para muchos casos en que la población se desvía significativamente de una población normal. Distribución π Esta distribución es un conjunto de distribuciones similares, donde cada distribución está sujeta al número de grados de libertad que tenga, es decir, cada distribución depende del valor de este parámetro. Esto nos indica que cada distribución π‘ es distinta. También debemos señalar que mientras mayor sea el grado de libertad de la distribución, más nos acercamos a una distribución normal. Características importantes de señalar; mientras mayor sea el grado de libertad de la distribución, menor es su varianza; la media de toda distribución π‘ es 0. Al igual que con la tabla de probabilidades normal estándar, el valor π‘ también tiene un sub índice que denota el área en la cola superior de la distribución de probabilidad π‘ β π π‘π’ππππ‘. En la siguiente figura se puede ver la distribución π‘ con la probabilidad πΌ/2 en la cola superior (π‘πΌ/2 ). 1 Curso: Estadística Inferencial (ICO 8306) Profesores: Esteban Calvo, Pablo Hueichapan y Omar Ramos Ayudantes: José T. Medina, Fabio Salinas y Daniela Vilches La tabla de distribución π‘ tiene ciertas diferencias con la tabla de distribución normal estándar. En este caso hay dos parámetros que necesitamos conocer para obtener una probabilidad, los grados de libertad y el área de la cola superior. Es así como podemos ver la probabilidad de la tabla π‘ β π π‘π’ππππ‘. La siguiente figura nos muestra un pequeño ejemplo de la tabla, ya que los grados de libertad van de 1 a infinito, mientras mayor sea el grado de libertad, más se acercará a una probabilidad normal estándar. Para grados de libertad mayores a 100, regularmente se usa el renglón infinito de grados de libertad, esto significa que para grados de libertad mayor a 100 el valor Θ₯ normal estándar es una buena aproximación al valor π‘. Obtención de los intervalos de confianza Si recordamos la formula anterior para la estimación por intervalo de la media poblacional cuando la desviación estándar es conocida: π₯Μ ± Θ₯πΌ/2 π βπ Cuando la desviación estándar es desconocida, se utiliza la desviación estándar muestral (π ) en reemplazo de sigma y se reemplaza el valor Θ₯πΌ por π‘πΌ de la distribución π‘. Nuestro margen de error está dado por π‘πΌ/2 2 2 π . βπ La estimación por intervalo de la media poblacional cuando se desconoce la desviación estándar poblacional es: π₯Μ ± π‘πΌ/2 π βπ 2 Curso: Estadística Inferencial (ICO 8306) Profesores: Esteban Calvo, Pablo Hueichapan y Omar Ramos Ayudantes: José T. Medina, Fabio Salinas y Daniela Vilches La descripción no se diferencia mucho de la descrita en la estimación por intervalo de la media poblacional con desviación estándar conocida. Lo visto anteriormente se ve formalmente de la siguiente manera: ο· El margen de error está dado por: π‘πΌ/2 ο· Coeficiente de confianza: (1 β πΌ) ο· Intervalo de confianza: π₯Μ ± π‘πΌ/2 ο· Grados de libertad: π β 1 π βπ π βπ El uso de los grados de libertad se debe a la utilización de la desviación estándar muestral como nuestra estimación de la desviación estándar poblacional. Los grados de libertad se refieren al número de valores independientes en el cálculo de β(π₯π β π₯Μ ), ya que en cualquier conjunto de datos β(π₯π β π₯Μ ) = 0, por lo tanto π β 1 de esos valores son independientes, y el último se puede determinar conociendo los otros. Y como vimos anteriormente, la fórmula de la desviación estándar muestral es: β(π₯π β π₯Μ )2 π =β πβ1 Ejemplo Chile y Brasil se han enfrentado en 71 oportunidades por partidos de campeonato, ya sean considerados oficiales por la FIFA o no, recibiendo un total de 161 goles en contra y 61 goles a favor. Suponiendo que no podemos obtener la desviación estándar poblacional, pero que tenemos acceso a una muestra aleatoria de tamaño n. Obtengamos la estimación por intervalo de confianza de la media poblacional de goles recibidos por partido al 95% de confianza. Tomando una muestra aleatoria de tamaño 10. Los resultados fueron los siguientes: ο· ο· ο· ο· ο· Ch 1-1 Br Ch 0-1 Br Ch 2-2 Br Ch 4-1 Br Ch 1-1 Br Ch 1-6 Br Ch 2-4 Br Ch 1-1 Br Ch 0-3 Br Ch 1-2 Br En promedio chile recibe 2,2 goles por partido, con una desviación estándar muestral de 1,7 aproximadamente. Reemplazando en nuestra formula tenemos: 2,2 ± 2,262 β 1,7 β10 2,2 ± 1,2064 Esto nos dice que Chile cuando juega ante Brasil puede recibir en promedio 2,2 goles por partido con un margen de error de 1,2064. Pudiendo estar la media entre 3,41 y 0,99 goles por partido. 3 Curso: Estadística Inferencial (ICO 8306) Profesores: Esteban Calvo, Pablo Hueichapan y Omar Ramos Ayudantes: José T. Medina, Fabio Salinas y Daniela Vilches Información útil Mediante este método, el intervalo de confianza es exacto cuando la población tiene una distribución normal, esto nos dice que se puede usar con cualquier tamaño muestral. Si la población no se distribuye normal, los intervalos de confianza serán aproximados (esta aproximación dependerá del tamaño de la muestra y de la distribución de la población, es decir de la calidad de los datos). Una muestra de tamaño mayor o igual a 30 puede ser suficiente como hemos visto a lo largo del curso, siempre considerando que no tenemos observaciones atípicas o que la distribución sea muy sesgada, para estos casos es bueno aumentar el tamaño de nuestra muestra a 50 o más. Con muestras pequeñas se debe trabajar solo si suponemos normalidad en la distribución de la población. Al enfrentarse a un problema de estimación por intervalo de la media poblacional debemos seguir el siguiente procedimiento; primero preguntarnos si se conoce o no la desviación estándar poblacional π, si es conocida utilizamos la formula vista en la clase anterior con la tabla de probabilidad normal estándar, si no la conocemos usamos la desviación estándar de la muestra para estimar π, más la tabla de distribución π‘ β π π‘π’ππππ‘. STATA La clase pasada ya vimos como poder utilizar STATA para obtener estimación por intervalo de confianza de la media poblacional, es por esto que repasaremos lo visto con el ejercicio que se usó en la Solemne 1. Utilizando el comando para elaborar intervalos de confianza inmediatos para variables distribuidas normalmente, genere los intervalos de confianza para los siguientes datos sobre la variable: π = 49 ; π = 120 ; π₯Μ = 100. Asuma que la muestra de donde se obtuvieron los valores esté distribuida de forma normal, que se trata de una muestra grande y que se usó una tabla de distribución normal estándar para obtener los valores. Luego repita el ejercicio cambiando el nivel de confianza a 90. Luego interprete y explique todos los valores expresados en la tabla de intervalos de confianza inmediatos y las diferencias que se producen al cambiar el nivel de confianza. . cii 120 100 49 Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+--------------------------------------------------------------| 120 100 4.473068 91.14288 108.8571 En la primera pregunta debíamos simplemente utilizar el comando cii con los datos que nos entregaba el enunciado. La única dificultad que podían tener era que los datos no estaban en orden. Para el siguiente punto era agregarle un nivel de confianza menor, ya que por defecto, cuando no se le asigna un nivel de confianza al comando cii, utiliza un 95% como nivel de confianza. El resultado es el que se muestra a continuación. 4 Curso: Estadística Inferencial (ICO 8306) Profesores: Esteban Calvo, Pablo Hueichapan y Omar Ramos Ayudantes: José T. Medina, Fabio Salinas y Daniela Vilches . cii 120 100 49, level(90) Variable | Obs Mean Std. Err. [90% Conf. Interval] -------------+--------------------------------------------------------------| 120 100 4.473068 92.58473 107.4153 Pregunta ¿Por qué cambian los resultados? ¿Cómo se interpreta que los intervalos de confianza sean distintos? La segunda parte del ejercicio era la siguiente. Usando la base de datos casen2011_ie. Asuma que el total de la base de datos es una población. Genere 6 muestras aleatorias de la base de datos y genere los Intervalos de confianza al 99% de confiabilidad para todas las muestras. Explique por qué se diferencian y compare con la media poblacional. (Utilizar la variable ytotaj para los intervalos de confianza). 5
© Copyright 2024