Clase 11 - Esteban Calvo

Curso: Estadística Inferencial (ICO 8306)
Profesores: Esteban Calvo, Pablo Hueichapan y Omar Ramos
Ayudantes: José T. Medina, Fabio Salinas y Daniela Vilches
ESTIMACIÓN POR INTERVALO
La primera parte consistió en estimar los intervalos de confianza considerando una desviación estándar conocida, en ese
caso usábamos una estimación de la desviación estándar poblacional tomando como referencia datos históricos que se
tenían o algún otro valor que se pudiera tener de referencia para ese parámetro. Ahora, si lo pensamos bien, esto es
netamente para la teoría, porque sería bastante raro tener la desviación estándar de una población, y no tener la media
de esta. Por eso el basarse en la desviación estándar poblacional y considerar la media muestral es teoría para poder
introducirnos en la obtención de Intervalos de Confianza con desviación estándar desconocida.
Estimación por intervalos de la media poblacional con desviación estándar desconocida
Es muy común que el cálculo de los intervalos de confianza de la media poblacional se realice sin conocer la desviación
estándar de la población, siendo esta situación la mayoría de los casos. En esta clase veremos cómo resolver este
problema utilizando la desviación estándar muestral 𝑠, utilizando también la misma muestra para poder obtener πœ‡ 𝑦 𝜎.
Anteriormente utilizábamos la tabla de distribución normal estándar, para este caso utilizaremos una nueva distribución
de probabilidad, conocida como distribución 𝑑 o distribución 𝑑 βˆ’ 𝑠𝑑𝑒𝑑𝑒𝑛𝑑, en honor a su creador que firmaba bajo el
seudónimo de "Student" en sus publicaciones, Sealy Gosset. Es necesario señalar que esta distribución
matemáticamente parte de una distribución normal, y se ha demostrado que sirve para muchos casos en que la
población se desvía significativamente de una población normal.
Distribución 𝒕
Esta distribución es un conjunto de distribuciones similares, donde cada distribución está sujeta al número de grados de
libertad que tenga, es decir, cada distribución depende del valor de este parámetro. Esto nos indica que cada
distribución 𝑑 es distinta. También debemos señalar que mientras mayor sea el grado de libertad de la distribución, más
nos acercamos a una distribución normal. Características importantes de señalar; mientras mayor sea el grado de
libertad de la distribución, menor es su varianza; la media de toda distribución 𝑑 es 0.
Al igual que con la tabla de probabilidades normal estándar, el valor 𝑑 también tiene un sub índice que denota el área en
la cola superior de la distribución de probabilidad 𝑑 βˆ’ 𝑠𝑑𝑒𝑑𝑒𝑛𝑑. En la siguiente figura se puede ver la distribución 𝑑 con la
probabilidad 𝛼/2 en la cola superior (𝑑𝛼/2 ).
1
Curso: Estadística Inferencial (ICO 8306)
Profesores: Esteban Calvo, Pablo Hueichapan y Omar Ramos
Ayudantes: José T. Medina, Fabio Salinas y Daniela Vilches
La tabla de distribución 𝑑 tiene ciertas diferencias con la tabla de distribución normal estándar. En este caso hay dos
parámetros que necesitamos conocer para obtener una probabilidad, los grados de libertad y el área de la cola superior.
Es así como podemos ver la probabilidad de la tabla 𝑑 βˆ’ 𝑠𝑑𝑒𝑑𝑒𝑛𝑑. La siguiente figura nos muestra un pequeño ejemplo
de la tabla, ya que los grados de libertad van de 1 a infinito, mientras mayor sea el grado de libertad, más se acercará a
una probabilidad normal estándar. Para grados de libertad mayores a 100, regularmente se usa el renglón infinito de
grados de libertad, esto significa que para grados de libertad mayor a 100 el valor Θ₯ normal estándar es una buena
aproximación al valor 𝑑.
Obtención de los intervalos de confianza
Si recordamos la formula anterior para la estimación por intervalo de la media poblacional cuando la desviación
estándar es conocida:
π‘₯Μ… ± Θ₯𝛼/2
𝜎
βˆšπ‘›
Cuando la desviación estándar es desconocida, se utiliza la desviación estándar muestral (𝑠) en reemplazo de sigma y se
reemplaza el valor Θ₯𝛼 por 𝑑𝛼 de la distribución 𝑑. Nuestro margen de error está dado por 𝑑𝛼/2
2
2
𝑠
.
βˆšπ‘›
La estimación por
intervalo de la media poblacional cuando se desconoce la desviación estándar poblacional es:
π‘₯Μ… ± 𝑑𝛼/2
𝑠
βˆšπ‘›
2
Curso: Estadística Inferencial (ICO 8306)
Profesores: Esteban Calvo, Pablo Hueichapan y Omar Ramos
Ayudantes: José T. Medina, Fabio Salinas y Daniela Vilches
La descripción no se diferencia mucho de la descrita en la estimación por intervalo de la media poblacional con
desviación estándar conocida. Lo visto anteriormente se ve formalmente de la siguiente manera:
ο‚·
El margen de error está dado por: 𝑑𝛼/2
ο‚·
Coeficiente de confianza: (1 βˆ’ 𝛼)
ο‚·
Intervalo de confianza: π‘₯Μ… ± 𝑑𝛼/2
ο‚·
Grados de libertad: 𝑛 βˆ’ 1
𝑠
βˆšπ‘›
𝑠
βˆšπ‘›
El uso de los grados de libertad se debe a la utilización de la desviación estándar muestral como nuestra estimación de la
desviación estándar poblacional. Los grados de libertad se refieren al número de valores independientes en el cálculo de
βˆ‘(π‘₯𝑖 βˆ’ π‘₯Μ… ), ya que en cualquier conjunto de datos βˆ‘(π‘₯𝑖 βˆ’ π‘₯Μ… ) = 0, por lo tanto 𝑛 βˆ’ 1 de esos valores son
independientes, y el último se puede determinar conociendo los otros. Y como vimos anteriormente, la fórmula de la
desviación estándar muestral es:
βˆ‘(π‘₯𝑖 βˆ’ π‘₯Μ… )2
𝑠=√
π‘›βˆ’1
Ejemplo
Chile y Brasil se han enfrentado en 71 oportunidades por partidos de campeonato, ya sean considerados oficiales por la
FIFA o no, recibiendo un total de 161 goles en contra y 61 goles a favor. Suponiendo que no podemos obtener la
desviación estándar poblacional, pero que tenemos acceso a una muestra aleatoria de tamaño n. Obtengamos la
estimación por intervalo de confianza de la media poblacional de goles recibidos por partido al 95% de confianza.
Tomando una muestra aleatoria de tamaño 10. Los resultados fueron los siguientes:
ο‚·
ο‚·
ο‚·
ο‚·
ο‚·
Ch 1-1 Br
Ch 0-1 Br
Ch 2-2 Br
Ch 4-1 Br
Ch 1-1 Br
Ch 1-6 Br
Ch 2-4 Br
Ch 1-1 Br
Ch 0-3 Br
Ch 1-2 Br
En promedio chile recibe 2,2 goles por partido, con una desviación estándar muestral de 1,7 aproximadamente.
Reemplazando en nuestra formula tenemos:
2,2 ± 2,262 βˆ—
1,7
√10
2,2 ± 1,2064
Esto nos dice que Chile cuando juega ante Brasil puede recibir en promedio 2,2 goles por partido con un margen de
error de 1,2064. Pudiendo estar la media entre 3,41 y 0,99 goles por partido.
3
Curso: Estadística Inferencial (ICO 8306)
Profesores: Esteban Calvo, Pablo Hueichapan y Omar Ramos
Ayudantes: José T. Medina, Fabio Salinas y Daniela Vilches
Información útil
Mediante este método, el intervalo de confianza es exacto cuando la población tiene una distribución normal, esto nos
dice que se puede usar con cualquier tamaño muestral. Si la población no se distribuye normal, los intervalos de
confianza serán aproximados (esta aproximación dependerá del tamaño de la muestra y de la distribución de la
población, es decir de la calidad de los datos). Una muestra de tamaño mayor o igual a 30 puede ser suficiente como
hemos visto a lo largo del curso, siempre considerando que no tenemos observaciones atípicas o que la distribución sea
muy sesgada, para estos casos es bueno aumentar el tamaño de nuestra muestra a 50 o más. Con muestras pequeñas se
debe trabajar solo si suponemos normalidad en la distribución de la población.
Al enfrentarse a un problema de estimación por intervalo de la media poblacional debemos seguir el siguiente
procedimiento; primero preguntarnos si se conoce o no la desviación estándar poblacional 𝜎, si es conocida utilizamos la
formula vista en la clase anterior con la tabla de probabilidad normal estándar, si no la conocemos usamos la desviación
estándar de la muestra para estimar 𝜎, más la tabla de distribución 𝑑 βˆ’ 𝑠𝑑𝑒𝑑𝑒𝑛𝑑.
STATA
La clase pasada ya vimos como poder utilizar STATA para obtener estimación por intervalo de confianza de la media
poblacional, es por esto que repasaremos lo visto con el ejercicio que se usó en la Solemne 1.
Utilizando el comando para elaborar intervalos de confianza inmediatos para variables distribuidas normalmente,
genere los intervalos de confianza para los siguientes datos sobre la variable: 𝜎 = 49 ; 𝑛 = 120 ; π‘₯Μ… = 100. Asuma que
la muestra de donde se obtuvieron los valores esté distribuida de forma normal, que se trata de una muestra grande y
que se usó una tabla de distribución normal estándar para obtener los valores. Luego repita el ejercicio cambiando el
nivel de confianza a 90. Luego interprete y explique todos los valores expresados en la tabla de intervalos de confianza
inmediatos y las diferencias que se producen al cambiar el nivel de confianza.
. cii 120 100 49
Variable |
Obs
Mean
Std. Err.
[95% Conf. Interval]
-------------+--------------------------------------------------------------|
120
100
4.473068
91.14288
108.8571
En la primera pregunta debíamos simplemente utilizar el comando cii con los datos que nos entregaba el enunciado. La
única dificultad que podían tener era que los datos no estaban en orden.
Para el siguiente punto era agregarle un nivel de confianza menor, ya que por defecto, cuando no se le asigna un nivel
de confianza al comando cii, utiliza un 95% como nivel de confianza. El resultado es el que se muestra a continuación.
4
Curso: Estadística Inferencial (ICO 8306)
Profesores: Esteban Calvo, Pablo Hueichapan y Omar Ramos
Ayudantes: José T. Medina, Fabio Salinas y Daniela Vilches
. cii 120 100 49, level(90)
Variable |
Obs
Mean
Std. Err.
[90% Conf. Interval]
-------------+--------------------------------------------------------------|
120
100
4.473068
92.58473
107.4153
Pregunta
¿Por qué cambian los resultados? ¿Cómo se interpreta que los intervalos de confianza sean distintos?
La segunda parte del ejercicio era la siguiente.
Usando la base de datos casen2011_ie. Asuma que el total de la base de datos es una población. Genere 6 muestras
aleatorias de la base de datos y genere los Intervalos de confianza al 99% de confiabilidad para todas las muestras.
Explique por qué se diferencian y compare con la media poblacional. (Utilizar la variable ytotaj para los intervalos de
confianza).
5