ESTADÍSTICA EN EDUCACIÓN – ESTADÍSTICA II Carreras: Antropología - Ciencias de la Educación Material complementario 2º cuatrimestre 2.015 por el Equipo de Cátedra de la materia. ESTADÍSTICA EN EDUCACIÓN – ESTADÍSTICA II Carreras: Antropología - Ciencias de la Educación Estimados/as estudiantes en esta oportunidad les presentamos un material complementario elaborado por la cátedra, a partir de diferentes fuentes bibliográficas, sobre los temas que vamos a desarrollar a lo largo del segundo cuatrimestre. Como recordarán, durante el primer cuatrimestre realizamos una aproximación a la Estadística como área de conocimiento, definiendo sus características y las partes que la constituyen. Nos apropiarnos de la terminología estadística, definiendo algunos conceptos básicos como ser: Población, Muestra, Variable, etc. Así como también, abordamos en profundidad la Estadística descriptiva, la Probabilidad y sus leyes. Dijimos que vamos a presentar los temas que se van a abordar en este tramo del año, en esta primera parte del material vamos a trabajar sólo algunas temáticas. Estas son: Distribución de probabilidades. Regularidad estadística. Distribución normal. Teorema central del límite. Distribución muestral. Tal vez todavía estos temas representen alguna complejidad para algunos de ustedes, no se preocupen: iremos avanzando entres todos y todas. Dijimos también que la propuesta es un material complementario por lo que apenas abre el panorama y en absoluto lo clausura, y que elegimos recorrer los temas de una manera particular que los acompañe en el cursado, pudiendo ustedes seguir indagando y profundizando los temas. Dicho esto, entremos en el primer tema que nos reúne. DISTRIBUCIONES DE PROBABILIDAD Para abordar este tema será necesario que tengamos presente los conceptos de Probabilidad y el tema de presentación de gráfica de datos que vimos en la primera parte del año. 1 Recordemos que una variable aleatoria es aquella que está asociada a un fenómeno aleatorio. Por otra parte, hemos dicho que la probabilidad de ocurrencia de un evento A de un fenómeno aleatorio es la frecuencia relativa con la que ocurre A en la población. Es decir, es la Se dice que un fenómeno es aleatorio cuando no se puede predecir con certeza la ocurrencia de sus eventos, excepto el evento seguro y el evento imposible frecuencia relativa con la que la variable aleatoria toma los valores que constituyen el evento A. por ello, tiene sentido decir que la distribución de frecuencias relativas de una variable aleatoria en una población es la distribución de las probabilidades asociadas a esa variable. A esta distribución la llamaremos distribución de probabilidad. Así, cuando lo que conocemos son las frecuencias relativas con las que ocurren los valores de la variable en una muestra, la distribución de estas frecuencias relativas será una estimación de la distribución de probabilidad, y cuanto mayor sea la muestra, mejor será la estimación. El tener una idea de la distribución de probabilidad de una variable aleatoria nos puede permitir encontrar modelos que representen adecuadamente la regularidad estadística de esta variable. (UPN. 1989) Recuerdan que dijimos que las variables numéricas continuas son aquellas que pueden tomar cualquier valor en un intervalo de números reales. Por ejemplo: en un caso en que se contemple la estatura en m de los niños de 6 años, la variable estatura puede tener valores entre < 1,03… … 1,12> De ahí que no se puedan enumerar todos los posibles valores de la variable (en la población) por lo que no podemos calcular la probabilidad de cada uno de ellos. Lo que sí se puede hacer con respecto a cada valor es encontrar un intervalo que lo contenga. Veamos ahora un ejemplo: Un grupo de psicólogos creen que sería de utilidad para los maestros contar con cierta prueba que permite medir la coordinación visomotora, puesto que esta les podría dar información interesante sobre los niños que ingresan a la primaria. La interpretación de los resultados de esta prueba no se ha realizado en el caso de los niños mexicanos, por lo que los psicólogos deciden que en una primera etapa de su investigación van a ver cómo responden a la prueba los niños de 6 años de las zonas rurales del centro del país. Con este fin escogen una muestra representativa de 200 niños de la edad y la región mencionada, a los que les aplica la prueba. Una de las variables de interés es el tiempo de resolución empleado por cada niño. Pasaremos directamente a la Tabla de Frecuencias y al gráfico, ustedes podrán ver el lote de datos en la página 45 del módulo de la materia. 2 Frecuencias relativas 0.0 % [22,7 - 27,7> 1 0,005 0,5 [27,7 - 32,7> 15 0,075 7,5 [32,7 - 37,7> 36 0,18 18 [37,7 - 42,7> 50 0,25 25 [42,7 - 47,7> 52 0,26 26 [47,7 - 52,7> 31 0,155 15,5 [52,7 - 57,7> 13 0,065 6,5 [57,7 - 62,7> 1 0,005 0,5 [62,7 - 67,7> 1 0,005 0,5 Histograma de la variable Tiempo 0,3 Y: frecuencias relativas en proporción Intervalos Frecuencias absolutas 0,25 0,2 0,15 0,1 0,05 0 // 22,7 22,7 27,7 27,7 32,732,7 37,737,7 42,742,7 47,747,7 52,752,7 57,757,7 62,7 62,7 67,7 X: tiempo Total 200 1 100 Marquemos ahora sobre el histograma un polígono de frecuencias y las medidas de tendencia central (MTC). Éstas están señaladas con una -----, el promedio es de 42,525, la mediana se encuentra en el mismo intervalo [37,7 - 42,7>, mientras que la moda se encuentra en el intervalo siguiente [42,7 47,7>. Como podemos observar en el histograma de la variable, las MTC se encuentran en las dos barras centrales. Histograma de la variable Tiempo Y: frecuencias relativas en proporción 0,3 0,25 0,2 0,15 0,1 0,05 0 // 22,7 27,727,7 32,732,7 37,737,7 42,742,7 47,747,7 52,752,7 57,757,7 62,7 62,7 67,7 22,7 X: tiempo Si en esta gráfica aumentáramos progresivamente el tamaño de la muestra y con cada aumento redujéramos la amplitud de los intervalos (C), esperaríamos que los histogramas obtenidos se parecieran a los siguientes: 3 Si observamos estos histogramas vemos que son prácticamente simétricos (con respecto a la recta perpendicular al eje de las abscisas que pasa por el punto medios del intervalo correspondiente a la clase de mayor frecuencia). La media pertenece a esta clase (intervalo) y las frecuencias decrecen a medida que los valores de la variable se alejan de la media. Si continuamos con este proceso, esperaríamos que el contorno de los histogramas se aproximara cada vez más al siguiente: Y X Retomemos el concepto de regularidad estadística. Esta es una propiedad de los fenómenos aleatorios que consiste en que: a) cuando aumenta el número de veces en que se observa un fenómeno en condiciones prácticamente constante, las frecuencias relativas de la ocurrencia de un evento tienden a un valor fijo. Las expresiones “aumenta el número de veces en que se repite” y “tienden a” significan que mientras más veces observemos el fenómeno, menos diferirán de un valor fijo las frecuencias relativas de un evento. Es decir, se incrementa el tamaño de n y las frecuencias relativas tienen a estabilizarse. b) Se reduce la amplitud de los intervalos. A medida que la muestra aumenta podríamos reducir aún más la amplitud de los intervalos con lo que el contorno de los histogramas se suavizarían más. Al seguir con este procedimiento obtendríamos un histograma cuyo contorno se parecería cada vez más a la siguiente curva. 4 Esta curva es un buen modelo teórico para representar la regularidad estadística de esta variable, así como la de muchas otras. EL MODELO DE DISTRIBUCIÓN NORMAL Este modelo de distribución de probabilidad representa muy bien la regularidad estadística de mucha o de la mayoría de las variables aleatorias continuas. Esta distribución, conocida como distribución normal, es de gran importancia teórica y práctica en el trabajo estadístico. Propiedades que caracterizan al modelo teórico distribución normal o distribución normal estándar. El área bajo la curva de cualquier modelo de distribución de probabilidad es igual a 1 1 La curva es simétrica respecto a la recta perpendicular al eje de las abscisas que corta la curva en su punto máximo. Desde este punto la curva cae simétricamente en las dos direcciones y se extiende sin llegar a tocar el eje de las abscisas. Eje de simetría Eje de las abscisas Si una variable aleatoria continua X se distribuye normalmente, y si su media poblacional µ y si desviación estándar poblacional σ, entonces se dice que µ y σ son los parámetros de la distribución de X, y que X se distribuye normalmente con una media µ y desviación estándar σ. 5 Si una variable aleatoria continua se distribuye normalmente con una media µ, entonces el punto asociado a µ en el modelo es el punto del eje de las abscisas que se encuentra sobre el eje de simetría de la curva. Además, coincide con la mediana y con la moda de la variable. Eje de simetría Eje de las abscisas µ Si una variable aleatoria continua se distribuye normalmente con media µ y desviación estándar σ, entonces en el intervalo < µ - σ , µ + σ > la curva es cóncava hacia abajo, y en los intervalos < - ∞, µ - σ> y <µ + σ, ∞> la curva es cóncava hacia arriba. concavidad hacia abajo Concavidad hacia arriba Concavidad hacia arriba σ -∞ µ-σ µ µ+σ Si X se distribuye normalmente con µ y desviación estándar σ, entonces: (esta propiedad representa la regla empírica). El área bajo la curva correspondiente al intervalo < µ - σ , µ + σ > es aproximadamente 0.68 El área bajo la curva correspondiente al intervalo < µ - 2σ , µ + 2σ > es aproximadamente 0.95 0.95 0.68 σ σ µ-σ µ µ-2σ µ+σ µ µ+2σ El área bajo la curva correspondiente al intervalo < µ - 3σ , µ + 3σ > es aproximadamente 0.99 ≈1 ≈1 σ µ - 3σ µ µ+3σ Debemos recordar que la distribución normal es un modelo que, aunque adecuado para representar la regularidad estadística de muchas variables, no deja de ser una aproximación a esta 6 regularidad estadística. Por tanto, la interpretación de los resultados que surjan del modelo debe hacerse con cuidado. Ahora veremos un ejemplo en el que platearemos una situación que puede ser resuelta mediante la utilización del modelo de distribución normal: Identifique la variable, determine su nivel de medición e indique sus valores La edad en que se presenta en los niños una enfermedad determinada se distribuye normalmente, con una media de 10 años y una desviación típica de 2 años. a) Un niño se enferma ¿Cuál es la probabilidad que ese niño sea mayor de 11 años? b) P (X ≤ xa)=10%. Simbolizar, graficar, calcular y responder interpretando los resultados con pertinencia. - NOMBRE DE LA VARIABLE: EDAD - NIVEL DE MEDICION: VARIABLE NUMERICA CONTINUA - VALORES: …10… 11… - DATOS: μ: 10 σ: 2 - SIMBOLIZACION: P (X > xa) = P (Z > za) P (X >11) = P (Z > 0,5) - GRÁFICO: 0,1915 0,3085 11 0,1915 0,5 (0,50 - 0,1915= 0,3085) 1 - CALCULO: 7 Z= Z= Z= = 0,5 CUANDO Z = 0,5 => 0,1915 - RESPUESTA: LA PROBABILIDAD DE QUE SE ENFERME UN NIÑO QUE SEA MAYOR DE 11 AÑOS ES DE 0,3085. ES DECIR, EL 30,85% DE LOS NIÑOS QUE SE ENFERMAN TIENEN MAS DE 11 AÑOS. b) - SIMBOLIZACION: P (X ≤ xa)=10%. = P (Z ≤ za)=10%. P (X ≤ 7,436)=0,10 = P (Z ≤ - 1,282)= 0,10 - GRAFICO: 0,10 7,436 8 0,10 - 1,282 -1 CALCULO: X= μ – Z. σ X= 10 - (1,282 x 2) X= 10 – 2,564 = 7,436 - RESPUESTA: EL 10% DE LOS NIÑOS MENORES QUE ENFERMAN TIENEN UNA EDAD MAXIMA DE 7,436 AÑOS. Ó LOS NIÑOS MENORES DE 7,436 AÑOS QUE ENFERMAN REPRESENTAN EL 10%. 8 DISTRIBUCION MUESTRAL Comenzamos con un tipo diferente de distribución de probabilidades para ello recurrimos al libro “ESTADÍSTICA CON APLICACIONES A LAS CIENCIAS SOCIALES Y A LA EDUCACIÓN” de Daniel Wayne, al módulo de la materia entre otros. Gran parte de los conocimientos que tenemos sobre las poblaciones se basa en la información contenida en las muestras que se sacan de dichas poblaciones. Cuando los patrocinadores de una serie de televisión desean saber el número de personas que ven determinado programa, no se ponen en la tarea de interrogar a todos los posibles televidentes del país, entrevistan una muestra. Un fabricante de drogas que desea saber los resultados de algún medicamento para bajar la tensión de la sangre y compararlo con una droga de la competencia, no lleva a cabo un experimento con todos los pacientes conocidos que sufran de hipertensión. En el experimento participa sólo una muestra de los pacientes. El sociólogo que desea conocer las actitudes de los adolescentes frente al aborto, no emprende la tarea de entrevistar a todos los adolescentes que hay en el país sino que elige una muestra de ellos y los entrevista. Podríamos seguir dando ejemplos semejantes. (WAYNE, 1988) Entramos en un tema en el que vamos a conocer los procedimientos inferenciales necesarios para sacar conclusiones valederas sobre poblaciones, tomando como base la información que esté contenida en una muestra. Recuerden que en el primer cuatrimestre trabajamos con la estadística descriptiva que nos brindó herramientas para describir un conjunto de datos por medio de distintas medidas descriptivas como la media (promedio o media aritmética), la varianza y la desviación típica. Estas medidas tienen un carácter descriptivo, que cuando son calculadas a partir de los datos de una muestra (n), se denominan ESTADÍSTICOS. Cuando se calculan con base en datos de una población (N), reciben el nombre de PARÁMETROS. Les recomendamos revisar estos conceptos para una mejor comprensión del tema. Una de las principales preocupaciones de los investigadores y de las personas encargadas de tomar decisiones, consiste en ser Estadísticos Promedio Parámetros µ Varianza Desviación Típica capaces de tomar decisiones sobre esos parámetros (que generalmente no se conocen), tomando como fundamento información relacionada con estadísticos calculados sobre muestras sacadas de las poblaciones. Esta clase de procedimientos, como ya lo anotamos antes, recibe el nombre de inferencia estadística. La inferencia estadística se basa en los conceptos de probabilidad y de distribución de probabilidad (WAYNE, 1988). Sobre estos dos conceptos tienen disponible las presentaciones en la página y en las páginas 149 - 193 del Módulo de la materia. 9 Para entender los procedimientos inferenciales de la distribución muestral veamos primero el Teorema Central del Límite. EL TEOREMA CENTRAL DEL LÍMITE En este tema estudiaremos la relación que hay entre el promedio poblacional (µ) y su estimador, el promedio muestral ( ) cuando se trabaja con una variable continua. Este teorema es fundamental para la comprensión de esta relación. Si bien cada una de las 1 n1 medidas ( ) estima µ, éstas difieren entre sí. La variación de los valores de los 2 n2 N n3 promedios ( ) permiten definir una nueva variable, cuyos valores son i. 3 4 n4 20 n20 Veamos ahora las diferencias entre la variable X y la variable promedio : Variable X Valores de la Promedio Promedio variable muestral poblacional xi µ Desviación Desviación estándar estándar muestral poblacional S Σ i Entonces podemos decir que: = µ No conocemos la desviación estándar de la variable , a la que denotaremos como σ . Podemos calcularla a partir de los valores de la variable. Al realizar este procedimiento obtendríamos como resultado que: La desviación estándar poblacional de la variable es igual a la de X entre la raíz cuadrada del tamaño de la muestra; es decir que: 10 = a esto se lo conoce como error típico. Propiedades del TEOREMA CENTRAL DEL LÍMITE: se distribuye en forma normal si el valor de n es grande. La media poblacional de es igual a la de X= =µ La desviación estándar poblacional de es igual a la de X dividida entre la raíz cuadrada del tamaño de la muestra: = Es pertinente hacer algunas observaciones finales. En la práctica lo que ocurre es que no conocemos los valores de µ y de σ de la población que nos interesa, y que solo contamos con los datos de una única muestra. Sin embargo, los datos de una muestra nos permiten obtener estimadores de µ y de σ, puesto que: µ S σ Pero además lo que hemos visto en este tema nos permite saber que con los datos de una muestra de tamaño n podemos también obtener estimadores de los parámetros de la distribución de las medias de muestras de tamaño n puesto que: (Esto es porque (Esto es porque Al número y = µ) yS σ) se lo denomina error típico muestral LA DISTRIBUCION MUESTRAL Llegamos ahora sí al estudio de las distribuciones muestrales, un tema que está íntimamente ligado con el concepto de estadístico y de distribución de probabilidades. Les presentamos algunas definiciones: Una distribución muestral es una distribución de probabilidades de un estadístico muestral calculado a partir de todas las muestras posibles de tamaño n, elegidas al azar en una población determinada. (WAYNE, 1.988). 11 La distribución muestral es la distribución de probabilidad para los posibles valores del estadístico, que resulta cuando muestras aleatorias de tamaño n se sacan repetidamente de la población. (MENDENHALL, 2.006) Cuando la población que se está considerando es infinita, tenemos que concebir la distribución muestral como una distribución muestral teórica, puesto que es imposible sacar todas las muestras aleatorias posibles de una población infinita. Cuando la población es finita y de tamaño moderado, podemos construir una distribución muestral experimental, sacando realmente todas las muestras posibles de un tamaño dado, calculando para cada muestra el valor del estadístico que nos interesa y enumerando los diferentes valores calculados del estadístico junto con sus probabilidades de ocurrencia. Podemos hacer una aproximación experimental de las verdaderas distribuciones muestrales basadas en poblaciones infinitas o finitas grandes, sacando un gran número de muestras aleatorias y siguiendo el procedimiento que se acaba de describir. (WAYNE, 1988) En términos generales, las características a tener en cuenta en la distribución muestral son: Su forma funcional (como aparece en una representación en gráfica). Su media. Su desviación estándar. El teorema central del límite es tal vez el teorema más importante de la estadística. Este nos dice que, sin tener en cuenta la forma de la población que se está estudiando, podemos seguir empleando (el modelo de distribución normal) para obtener inferencias sobre la media poblacional a condición de que obtengamos una muestra grande, porque la distribución normal de será aproximadamente normal cuando n sea grande. En otras palabras podemos valernos del hecho de que: z= Veamos ahora un ejemplo: Simbolizar, graficar, calcular y responder interpretando los resultados con pertinencia. Los puntaje en facilidad de lectura de un jardín de infantes están normalmente distribuidos, con una media y una desviación típica de 75 y de 10 respectivamente. ¿Cuál es la probabilidad de que en una muestra aleatoria de 25 niños arroje un promedio superior a 78? - NOMBRE DE LA VARIABLE: PUNTAJE - NIVEL DE MEDICION: VARIABLE NUMERICA CONTINUA 12 - VALORES: …75…78 - DATOS: μ: 75 σ: 10 n: 25 - SIMBOLIZACION: P ( > i) = P (Z > z) = P ( > 78) = P (Z > 1,5) - GRAFICO: 0,0668 78 0,4332 1 (0,50 – 0,4332= 0,0668) 1.5 CALCULO: Z= Z= Z= Z= = 1.5 CUANDO Z = 1,5 => 0,4332 RESPUESTA: La probabilidad de que una muestra aleatoria arroje un puntaje promedio superior a 78 es de 0,0668. LA DISTRIBUCION DE UNA PROPORCIÓN MUESTRAL En la práctica, resulta a menudo conveniente hacer inferencias sobre proporciones poblacionales. En consecuencia, la distribución muestral de una proporción es de gran interés. Un equipo de mercadeo puede estar interesado en conocer qué proporción de los consumidores de alguna zona prefieren los productos de su empresa a los de la competencia. Un médico puede desear conocer la proporción de 13 personas artríticas que responden favorablemente a un medicamento. Un candidato a un puesto político puede querer saber la proporción de votantes que van a votar por él. Podríamos citar innumerables ejemplos (WAYNE, 1988). Piensen algunos casos que puedan ser de interés en la carrera que cursan. Supongamos que hemos sacado una muestra de entidades de una población para averiguar el número de ellas que poseen ciertas características de interés. Supongamos que también se desea determinar por anticipado la probabilidad de que la muestra dé como resultado un número de entidades que posean las características que se está estudiando. Esto se podría sintetizar de la siguiente manera: Por ejemplo, si, en una muestra de 500 lectores, 300 prefieren al candidato A, la proporción de la muestra que prefiere al candidato A es: = 0.60 En consecuencia, los procedimientos inferenciales dependerán de la distribución muestral de . Podemos resumir las características de la distribución muestral de como se expresa a continuación: La distribución muestral de , o proporción muestral, calculada con base en muestras aleatorias simples de tamaño n sacadas de una población en la que la proporción poblacional es P, esta aproximadamente distribuida normalmente si n es grande. Tal como se planteó anteriormente, la distribución muestral de será aproximadamente normal si tanto n.p como n.(1- p) son mayores que cinco. (REQUISITO) Veamos ahora un ejemplo: El 60% de los adultos de un área geográfica asiste regularmente a los servicios religiosos. Se obtiene una muestra aleatoria igual a 150 adultos. ¿Cuál es la probabilidad de que la proporción muestral este comprendida entre el 0,50 y 0,70? - NOMBRE DE LA VARIABLE: Asistencia a servicios religiosos - NIVEL DE MEDICION: VARIABLE CATEGORICA NOMINAL - VALORES: ASISTE, NO ASISTE. - DATOS: n: 150 - P: 60% = 0,60 SIMBOLIZACION: P( ) = P (z’ ≤ Z ≤ z) P (0,50 ≤ 0,70) = P (-2,5 ≤ Z ≤ 2,5) 14 - GRAFICO: 0,9876 0,4938 -2,5 -2 - CALCULO: 0,4938 -1 1 2 2,5 REQUISITO: n . P = > 5 => 150 x 0.60= 90 > 5 n . 1 – P= > 5 => 150 x (1- 0.60)= 60 > 5 Z= Z’= Z= Z’= Z= Z’= Z= Z’= Z= CUANDO Z’ = - 2,5 => 0,4938 CUANDO Z’ = - 2,5 => 0,4938 RESPUESTA: La probabilidad de que una proporción muestral de una muestra de 150 este comprendida entre 0,60 y 0,70 es de 0,9876. BIBLIOGRAFÍA UNIVERSIDAD PEDAGÓGICA NACIONAL SEAD. (1.981) “Introducción a los métodos estadísticos” Volumen 1 y 2 México. WAYNE, Daniel (1988) “ESTADÍSTICA CON APLICACIONES A LAS CIENCIAS SOCIALES Y A LA EDUCACIÓN”. Ed. McGRAW-HILL/INTERAMERICANA DE MEXICO, S.A. Naucalpan de Juárez, México. MENDENHALL , William. BEAVER, Robert J. y BEAVER, Barbara M. “INTRODUCCIÓN A LA PROBABILIDAD Y ESTADÍSTICA”. Décima tercera edición. Cengage Learning Editores, S.A. de C.V. Col. Cruz Manca, Santa Fe, México, D.F. 15
© Copyright 2025