ESTADISTICA II Guía de Estudio Corte #1 Prof. Mariugenia Rincón ESTIMACIÓN DE PARÁMETROS Estadística.Una estadística es cualquier función de las variables aleatorias que se observaron en la muestra de manera que esta función no contiene cantidades desconocidas. Inferencia Estadística.Son aquellos métodos con los cuales se pueden realizar inferencias o generalizaciones acerca de una población. La inferencia estadística puede dividirse en dos grandes áreas: estimación de parámetros y prueba de hipótesis. Estimaciones.Los datos obtenidos a partir de una muestra, nos permiten inferir unos valores aproximados de una población en estudio, estos valores se llaman estimaciones. Las estimaciones vendrán afectadas de un error, que llamaremos “error debido al muestreo”. La estimación de un parámetro involucra el uso de los datos muestrales en conjunción con alguna estadística. Existen dos formas de llevar acabo la estimación: la puntual y por intervalos. Estimador.Es un estadístico que se utiliza para obtener una estimación puntual. Un estimador es un valor que puede calcularse a partir de los datos muestrales y que proporciona información sobre el valor del parámetro. Por ejemplo la media muestral es un estimador de la media poblacional, la proporción observada en la muestra es un estimador de la proporción en la población. Estimador Puntual.Da origen a una estimación univaluada del valor del parámetro, con base en los datos muestrales. Una estimación puntual de algún parámetro “θ” de la población es un valor numérico ˆ de la estadística Ô. Página 1 de 13 Notación de algunos Estimadores Puntuales. Para μ, el estimador es ̂ = x , la media muestral Para σ2, el estimador es ˆ 2 = s2, la varianza muestral. Para μ1 – μ2, el estimador es ̂ 1 – ̂ 2 = x 1 – x 2, la diferencia entre las medias muestrales de dos muestras aleatorias independientes. Estimación por Intervalos.Una estimación por intervalo de un parámetro poblacional “θ” es un intervalo de la forma ˆ L < θ < ˆ U donde ˆ L y ˆ U dependen del valor del estadístico ˆ para una muestra particular y también de la distribución muestral de ˆ . El intervalo de estimación indica, por su longitud, la precisión de la estimación puntual. El intervalo ˆ L < θ < ˆ U se llama intervalo de confianza del (1-α)100%, la fracción 1-α se llama grado de confianza y los puntos extremos se llaman límites de confianza inferior y superior ( ˆ L y ˆ U). Entre mayor es el intervalo de confianza, se tiene más seguridad de que el intervalo dado contiene el parámetro desconocido. Una estimación es puntual cuando se obtiene un sólo valor para el parámetro. Los estimadores más probables en este caso son los estadísticos obtenidos en la muestra, aunque es necesario cuantificar el riesgo que se asume al considerarlos. Recordemos que la distribución muestral indica la distribución de los valores que tomará el estimador al seleccionar distintas muestras de la población. Las dos medidas fundamentales de esta distribución son la media que indica el valor promedio del estimador y la desviación típica, también denominada error típico de estimación, que indica la desviación promedio que podemos esperar entre el estimador y el valor del parámetro. Más útil es la estimación por intervalos en la que calculamos dos valores entre los que se encontrará el parámetro, con un nivel de confianza fijado de antemano. Llamamos Intervalo de confianza al intervalo que con un cierto nivel de confianza, contiene al parámetro que se está estimando. Página 2 de 13 Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al verdadero valor del parámetro. Se indica por 1-α y habitualmente se da en porcentaje (1- α)100%. Hablamos de nivel de confianza y no de probabilidad ya que una vez extraída la muestra, el intervalo de confianza contendrá al verdadero valor del parámetro o no, lo que sabemos es que si repitiésemos el proceso con muchas muestras podríamos afirmar que el (1- α)% de los intervalos así construidos contendría al verdadero valor del parámetro. Un intervalo de confianza se calcula siempre seleccionando primero un nivel de confianza, que es una medida del grado de fiabilidad en el intervalo. Un intervalo de confianza con un nivel de confianza de 95% de la resistencia real promedio a la ruptura podría tener un límite inferior de 9162.5 y uno superior de 9482.9. Entonces, en un nivel de confianza de 95%, es posible tener cualquier valor de μ o cualquier otro parámetro que se esté estimando, y sólo 5% de las muestras producirá un intervalo erróneo. Cuanto mayor sea el nivel de confianza podremos creer que el valor del parámetro que se estima está dentro del intervalo. Una interpretación correcta de la "confianza de 95%" radica en la interpretación frecuente de probabilidad a largo plazo: decir que un evento A tiene una probabilidad de 0.95, es decir que si el experimento donde A está definido re realiza una y otra vez, a largo plazo A ocurrirá 95% de las veces. Para este caso del 95% de los intervalos de confianza calculados contendrán a μ. Intervalo de confianza para la media poblacional (μ ) con σ conocida.Conociendo σ, si x es la media de una muestra aleatoria de tamaño “n” de una población con varianza conocida σ2, el intervalo de confianza de (1-α)100% para μ es: < μ < Donde Zα/2 es el valor de Z a la derecha del cual se tiene un área de α/2. Estimación para la media: Es conocido de nosotros durante este curso, que en base a la distribución muestral de medias que se generó en el tema anterior, la formula para el estadístico es: Página 3 de 13 El cálculo de probabilidad también puede expresarse de la forma siguiente: Como en este caso se desconoce el parámetro y lo queremos estimar por medio de la media de la muestra, sólo se despejará de la formula anterior, quedando lo siguiente: → Son los límites de confianza. 1-α α/2 Zα/2 α/2 0 Z Zα/2 Para muestras de tamaño n≥30, sin importar la forma de las poblaciones, la teoría muestral garantiza buenos resultados. Determinación de Tamaños de Muestra para Estimaciones Con frecuencia se desea saber que tan grande debe ser una muestra para asegurar que el error en la estimación de μ será menor que una cantidad específica “e”. Entonces se debe seleccionar una “n” tal que Z / 2 n e . Si se usa x como una estimación de μ se puede tener una confianza del (1-α)100% de que el error no excederá una cantidad específica “e” cuando el tamaño de la muestra es: Z . n /2 e 2 Si “n” resulta fraccional, se debe redondear al número entero superior más cercano. Ejemplo 1: Se encuentra que la concentración promedio de zinc que se saca del agua a partir de una muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro. Encuentre los intervalos de confianza de 95% y 99% para la concentración media de zinc en el río. Suponga que la desviación estándar de la población es 0.3. Página 4 de 13 Caso 1: La estimación puntual de es 1.96, por lo tanto: es = 2.6. El valor de z para un nivel de confianza del 95% Caso 2: Para un nivel de confianza de 99% el valor de z es de 2.575 por lo que el intervalo será más amplio: El intervalo puntual. Si parte de las errónea. La de confianza proporciona una estimación de la presición de nuestra estimación es realmente el valor central de intervalo, entonces estima sin error. La mayor veces, sin embargo, no será exactamente igual a y la estimación puntual es magnitud de este error será el valor absoluto de la diferencia entre y , y podemos tener el nivel de confianza de que esta diferencia no excederá . Como se puede observar en los resultados del ejercicio se tiene un error de estimación mayor cuando el nivel de confianza es del 99% y más pequeño cuando se reduce a un nivel de confianza del 95%. EJERCICIOS PROPUESTOS: 1.- Se calcula que la media de los promedios de los puntos de calidad de una muestra aleatoria de 36 alumnos de último año es de 2,6. Encuentre los intervalos de confianza del 95% y del 99% para la media del total de alumnos. Asuma que la desviación estándar de la población es de 0,3. 2.- Qué tan grande se requiere que sea la muestra del ejemplo anterior si se desea una confianza del 95% de que la estimación de μ difiera de ésta por menos de 0,05. 3.- Para una muestra de 81 habitantes de cierta población se obtuvo una estatura media de 167 cm. Por estudios anteriores se sabe que la desviación típica de la altura de la población es de 8 cm. Construye un intervalo de confianza para la estatura media de la población al 95% Página 5 de 13 4.- En una muestra de 120 estudiantes que hicieron un examen se obtuvo una nota media de 5,6 y una desviación típica de 2,5. Calcula un intervalo de confianza para la nota media del examen al 94%. 5.- Una empresa eléctrica fabrica focos que tienen una duración aproximadamente distribuida de forma normal con una desviación estándar de 40 horas. Si una muestra de 30 focos tiene una duración promedio de 780 horas, encuentre un intervalo de confianza de 96% para la media de la población de todos los focos que produce esta empresa. 6.- El artículo "Testing the Bond Between Repair Materials and Concrete Substrate" informa que, en cierta investigación sobre un material de reparación y su sustrato de concreto, se obtuvo una resistencia promedio muestral de 17.17 N/mm2, con una muestra de 48 observaciones de resistencia al corte, y la desviación estándar muestral fue 3.28 N/mm2. Utilice un nivel de confianza inferior del 95% para estimar la media real de la resistencia al corte. Intervalo de confianza para la media poblacional (μ ) con σ desconocida.En ocasiones se desconoce por lo que en esos casos lo correcto es utilizar otra distribución llamada "t" de student si la población de donde provienen los datos es normal. Si x y s son la media y la desviación estándar de una muestra aleatoria de una población normal con varianza desconocida σ2, un intervalo de confianza del (1-α)100% para μ es: Donde tα/2 es el valor t con v = n-1 grados de libertad, que deja un área de /2 a la derecha. Ejercicio 1: El contenido de siete contenedores similares de ácido sulfúrico son 9.8, 10.2, 10.4, 9.8, 10.0, 10.2, y 9.6 litros. Encuentre un intervalo de confianza del 95% para la media de todos los contenedores si se supone una distribución aproximadamente normal. Página 6 de 13 Ejercicio 2: Un artículo publicado en el Journal of Testing and Evaluation presenta las siguientes 20 mediciones del tiempo de combustión residual en segundos de especímenes tratados de ropa de dormir para niños: 9.85 9.93 9.75 9.77 9.67 9.87 9.67 9.94 9.85 9.75 9.83 9.92 9.74 9.99 9.88 9.95 9.95 9.93 9.92 9.89 Se desea encontrar un nivel de confianza del 95% para el tiempo de combustión residual promedio. Supóngase que el tiempo de combustión residual sigue una distribución normal. Ejercicio 3: Un fabricante de fibras sintéticas desea estimar la tensión de ruptura media de una fibra. Diseña un experimento un experimento en el que se observan las tensiones de ruptura, en libras, de 16 hilos del proceso seleccionados aleatoriamente. Las tensiones son 20,8 20,6 21,0 20,9 19,9 20,2 19,8 19,6 20,9 21,1 20,4 20,6 19,7 19,6 20,3 20,7. Supóngase que la tensión de ruptura de una fibra se encuentra distribuida normalmente con varianza de 0,2025. Construir un intervalo de confianza del 98% para el valor real de la tensión de ruptura promedio de la fibra. Ejercicio 4: La Cámara de Comercio de una ciudad se encuentra interesada en estimar la cantidad promedio de dinero que gasta la gente que asiste a convenciones, calculando comidas, alojamiento y entretenimiento por día. De las distintas convenciones que se llevan a cabo en la ciudad, se seleccionaron 60 personas y se les preguntó la cantidad que gastaban por día. Se obtuvo la siguiente información en dólares: 150, 175, 163, 148, 142, 189, 135, 174, 168, 152, 158, 184, 134, 146, 155, 163. Si se supone que la cantidad de dinero gastada en un día es la variable aleatoria distribuida normal, obtener los intervalos de confianza estimados del 90%, 95% y 98% para la cantidad promedio real. Intervalo de confianza para la diferencia de dos medias conociendo σ 12 y σ22 Un intervalo de confianza de (1-α)100% para μ1 – μ2 es: 1 2 ( x1 x 2 ) Z / 2 12 n1 22 n2 Donde Zα/2 es el valor de Z que tiene un área de α/2 a la derecha. Página 7 de 13 En el caso en que se desconozcan las varianzas de la población y los tamaños de muestra sean mayores a 30 se podrá utilizar la varianza de la muestra como una estimación puntual. Ejercicio 1: Se lleva a cabo un experimento en que se comparan dos tipos de motores, A y B. Se mide el rendimiento en millas por galón de gasolina. Se realizan 50 experimentos con el motor tipo A y 75 con el motor tipo B. La gasolina que se utiliza y las demás condiciones se mantienen constantes. El rendimiento promedio de gasolina para el motor A es de 36 millas por galón y el promedio para el motor B es 42 millas por galón. Encuentre un intervalo de confianza de 96% sobre la diferencia promedio real para los motores A y B. Suponga que las desviaciones estándar poblacionales son 6 y 8 para los motores A y B respectivamente. Ejercicio 2: Una compañía de taxis trata de decidir si comprar neumáticos de la marca A o de la B para su flotilla de taxis. Para estimar la diferencia de las dos marcas, se lleva a cabo un experimento utilizando 12 de cada marca. Los neumáticos se utilizan hasta que se desgastan, dando como resultado promedio para la marca A 36.300 kilómetros y para la marca B 38.100 kilómetros. Calcule un intervalo de confianza de 95% para la diferencia promedio de las dos marcas, si se sabe que las poblaciones se distribuyen de forma aproximadamente normal con desviación estándar de 5000 kilómetros para la marca A y 6100 kilómetros para la marca B. Solución: -2662.68< B- A<6262.67 Gráficamente: Como el intervalo contiene el valor "cero", no hay razón para creer que el promedio de duración del neumático de la marca B es mayor al de la marca A, pues el cero nos está indicando que pueden tener la misma duración promedio. Página 8 de 13 Ejercicio 3: Se aplica una prueba estandarizada de química a 50 niñas y 75 niños. Las niñas obtienen una calificación promedio de 76, y los niños de 82. Encuentre un intervalo de confianza del 96% para la diferencia de medias, donde μ1 es la calificación promedio de todos los niños y μ2 es la de las niñas que pudieron realizar este examen. Suponga que las desviaciones estándar de las poblaciones para las niñas y niños son 6 y 8 respectivamente. Ejercicio 4: Dos universidades financiadas por el gobierno tienen métodos distintos para inscribir a sus alumnos a principios de cada semestre. Las dos desean comparar el tiempo promedio que les toma a los estudiantes completar el trámite de inscripción. En cada universidad se anotaron los tiempos de inscripción para 100 alumnos seleccionados al azar. Las medias y las desviaciones estándares muestrales son las siguientes: x1 50,2 x 2 52,9 s1= 4,8 s2= 5,4 Obtener los intervalos de confianza estimados del 90, 95 y 99% para la diferencia entre las medias del tiempo de inscripción para las dos universidades. Con base a esta evidencia, ¿se estaría inclinando a concluir que existe una diferencia real entre los tiempos medios para cada universidad?. Intervalo de confianza para la diferencia de dos medias pero con σ 12 y σ22 desconocidas e iguales Un intervalo de Un intervalo de confianza de (1-α)100% para μ1 – μ2 es: 1 2 ( x 1 x 2 ) t / 2 Sp 1 1 n1 n2 Donde Sp es la estimación de la desviación estándar poblacional: (n 1) s1 (n 2 1) s 2 Sp 1 n1 n 2 2 2 2 2 Y tα/2 es el valor “t” con v = n1 + n2 - 2 grados de libertad, con un área de α/2 a la derecha. Ejercicio 1: Se desea estimar el índice de diversidad de especies en un río. Para esto se seleccionaron dos estaciones de muestreo, una río abajo y otra río arriba. Para 12 muestras tomadas mensualmente río abajo, el índice de diversidad de especies tuvo un valor promedio de x1 =3,11 y una desviación estándar s1=0,711 mientras que en 10 muestras tomadas río arriba el Página 9 de 13 índice de diversidad promedio fue x 2 =2,04 y una s2=0,448. Encuentre un intervalo de confianza del 90% para la diferencia de medias poblacionales de las dos estaciones. Ejercicio 2: Cierto metal se produce, mediante un proceso estándar. Se desarrolla un nuevo proceso en el que se añade una aleación a la producción del metal. Los fabricantes se encuentran interesados en estimar la verdadera diferencia entre las tensiones de ruptura de los metales producidos por (los dos procesos. Para cada metal se seleccionan 12 especímenes en kilogramos por centímetro cuadrado: Proceso Estándar Proceso Nuevo 428 419 458 439 441 456 463 429 438 445 441 463 462 448 435 429 472 453 459 427 468 452 447 465 Si se supone que el muestreo se llevó a cabo sobre dos distribuciones normales con varianzas iguales, obtener los intervalos de confianza estimados del 90 y 95% para la diferencia de medias. Con base a los resultados, ¿se podría concluir que existe una diferencia real entre los dos procesos?. Razone su respuesta. Intervalo de confianza para la diferencia de dos medias pero con σ12 y σ22 desconocidas y diferentes 2 2 s s 1 2 ( x1 x 2 ) t / 2 1 2 n1 n2 Donde tα/2 es el valor t con: ( s1 / n1 s2 / n2 ) 2 v 2 2 ( s1 / n1 ) 2 /( n1 1) ( s2 / n2 ) 2 /( n2 1) 2 2 grados de libertad, con un área α/2 a la derecha. Si “v” no resulta entero se redondea al entero más cercano. Ejercicio 1: Se desea estimar la diferencia en la cantidad de cloruro de sodio en un lago, medido en dos estaciones diferentes (NaCl se mide en mg/L). Se tomaron 15 muestras de la estación A y 12 de la estación B. Las de la estación A tuvieron un contenido promedio de 3,84 mg/L y Página 10 de 13 s1=3,07 mg/L, mientras que en las de la segunda estación el contenido promedio fue 1,49 mg/L y s2=0,8 mg/L. Encuentre un intervalo de confianza del 95% para la diferencia en los contenidos promedios del NaCl. Asuma que las observaciones surgen de poblaciones con varianzas distintas. Ejercicio 2: Los siguientes datos representan los tiempos de duración de las películas que producen dos compañías cinematográficas: Compañía Tiempo (minutos) A 103 94 110 87 98 B 97 82 123 92 175 88 118 Calcule un intervalo de confianza del 90% para la diferencia entre los tiempos promedio de duración de las películas que producen las dos compañías. Suponga que se tiene una distribución normal. ESTIMACIÓN DE UNA PROPORCIÓN Un estimador puntual de la proporción “p” en un experimento binomial está dado por el estadístico Pˆ X / N donde X representa el número de éxitos en N intentos. Intervalo de confianza para ”p” de una muestra grande Si p̂ es la proporción de éxitos en una muestra grande de tamaño “n” y q̂ =1- p̂ , un intervalo de confianza aproximado de (1-α)100% para el parámetro binomial p̂ es: pˆ Z / 2 pˆ * qˆ n < p < pˆ Z / 2 pˆ * qˆ n Donde Zα/2 es el valor Z con un área α/2 a la derecha. Ejercicio 1: En una muestra aleatoria de n=500 familias que poseen televisores, se encontró que 340 se habían suscrito a la HBO. Encuentre un intervalo de confianza del 95% para la proporción actual de familias que se suscriben a HBO. Página 11 de 13 Intervalo de confianza para ”p1-p2” de una muestra grande pˆ1 * qˆ1 pˆ 2 * qˆ 2 n1 n2 p1 p2 ( pˆ1 pˆ 2 ) Z / 2 Donde Zα/2 es el valor Z con un área α/2 a la derecha. Ejercicio 1: Se está considerando cambiar el procedimiento de manufactura de piezas mecánicas. Se toman muestras tanto del procedimiento actual como del nuevo para determinar si este último resulta ser mejor. Si 75 de los 1500 artículos del procedimiento actual presentaron defectos, y lo mismo sucedió con 80 de 2000 partes del procedimiento nuevo, determine un intervalo de confianza del 90% para la diferencia real de las fracciones de partes defectuosas entre los dos procesos. ESTIMACIÓN DE LA VARIANZA Puede obtenerse una estimación de intervalo de σ 2 utilizando el estadístico: X 2 (n 1) s 2 2 , tiene distribución ji-cuadrada Si s2 es la varianza de una muestra aleatoria de tamaño “n” de una población normal, un intervalo de confianza del (1-α)100% para σ2 es: (n 1) s 2 X 2 / 2 < σ2 < (n 1) s 2 X 21 / 2 Donde X2α/2 y X21-α/2 son valores X2 con v = n-1 grados de libertad, con áreas de α/2 y 1-α/2, respectivamente a la derecha. Ejercicio 1: Los siguientes son los pesos en gramos de 10 paquetes de semillas de pasto, distribuidos por determinada compañía: 46,4 46,1 45,8 47,0 46,1 45,9 45,8 46,9 45,2 y 46,0. Encuentre un intervalo de confianza de 95% para la varianza de todos los paquetes de semillas de pasto que distribuyó esta compañía. Página 12 de 13 Intervalo de confianza para la razón de dos varianzas Se σ12 y σ22 son las varianzas de poblaciones normales, se puede establecer una estimación del intervalo de σ12/ σ22 utilizando el estadístico: 2 2 * s12 F 2 1 * s2 2 El intervalo de confianza para la razón de varianzas se calcula como sigue: 2 s1 2 s2 * F / 2 (v1 , v2 ) < 12 22 < s1 2 s2 2 * F / 2 (v 2 , v1 ) Donde Fα/2(v1, v2) es un valor F con v1=n1-1 y v2=n2-1 grados de libertad con un área de α/2 a la derecha. Y Fα/2(v2, v1) es un valor similar F con v2=n2-1 y v1=n1-1 grados de libertad. Ejercicio 1: Se desea estimar la diferencia en la cantidad de cloruro de sodio en un lago, medido en dos estaciones diferentes (NaCl se mide en mg/L). Se tomaron 15 muestras de la estación A y 12 de la estación B. Las de la estación A tuvieron un contenido promedio de 3,84 mg/L y s1=3,07 mg/L, mientras que en las de la segunda estación el contenido promedio fue 1,49 mg/L y s2=0,8 mg/L. Encuentre un intervalo de confianza de 98% para la razon de las dos varianzas. Diga si la suposición de que las dos varianzas son distintas es correcta. Ejercicio 2: Un fabricante de baterías para automóvil asegura que sus baterías duran en promedio 3 años con una varianza de un año. Si 5 de éstas baterías tienen duraciones de 1,9 2,4 3,0 3,5 4,2 años, determine un intervalo de confianza de 95% para σ2 e indique si es válida la afirmación del fabricante de que σ2=1. Página 13 de 13
© Copyright 2024