MATERIAL BIBLIOGRÁFICO

ESTADÍSTICA EN
EDUCACIÓN
–
ESTADÍSTICA II
Carreras: Antropología - Ciencias de la Educación
Material complementario 2º cuatrimestre 2.015 por el Equipo de
Cátedra de la materia.
ESTADÍSTICA EN EDUCACIÓN
– ESTADÍSTICA II
Carreras: Antropología - Ciencias de la Educación
Estimados/as estudiantes en esta oportunidad les presentamos un material complementario
elaborado por la cátedra, a partir de diferentes fuentes bibliográficas, sobre los temas que vamos a
desarrollar a lo largo del segundo cuatrimestre.
Como recordarán, durante el primer cuatrimestre realizamos una aproximación a la Estadística
como área de conocimiento, definiendo sus características y las partes que la constituyen. Nos apropiarnos
de la terminología estadística, definiendo algunos conceptos básicos como ser: Población, Muestra,
Variable, etc. Así como también, abordamos en profundidad la Estadística descriptiva, la Probabilidad y sus
leyes.
Dijimos que vamos a presentar los temas que se van a abordar en este tramo del año, en esta
primera parte del material vamos a trabajar sólo algunas temáticas. Estas son:
Distribución de probabilidades.
Regularidad estadística.
Distribución normal.
Teorema central del límite.
Distribución muestral.
Tal vez todavía estos temas representen alguna complejidad para algunos de ustedes, no se
preocupen: iremos avanzando entres todos y todas.
Dijimos también que la propuesta es un material complementario por lo que apenas abre el
panorama y en absoluto lo clausura, y que elegimos recorrer los temas de una manera particular que los
acompañe en el cursado, pudiendo ustedes seguir indagando y profundizando los temas. Dicho esto,
entremos en el primer tema que nos reúne.
DISTRIBUCIONES DE PROBABILIDAD
Para abordar este tema será necesario que tengamos presente los conceptos de Probabilidad y el
tema de presentación de gráfica de datos que vimos en la primera parte del año.
1
Recordemos que una variable aleatoria es aquella que está
asociada a un fenómeno aleatorio. Por otra parte, hemos dicho que la
probabilidad de ocurrencia de un evento A de un fenómeno aleatorio es
la frecuencia relativa con la que ocurre A en la población. Es decir, es la
Se dice que un fenómeno es
aleatorio cuando no se puede
predecir
con
certeza
la
ocurrencia de sus eventos,
excepto el evento seguro y el
evento imposible
frecuencia relativa con la que la variable aleatoria toma los valores que
constituyen el evento A. por ello, tiene sentido decir que la distribución de frecuencias relativas de una
variable aleatoria en una población es la distribución de las probabilidades asociadas a esa variable. A esta
distribución la llamaremos distribución de probabilidad.
Así, cuando lo que conocemos son las frecuencias relativas con las que ocurren los valores de la
variable en una muestra, la distribución de estas frecuencias relativas será una estimación de la
distribución de probabilidad, y cuanto mayor sea la muestra, mejor será la estimación. El tener una idea de
la distribución de probabilidad de una variable aleatoria nos puede permitir encontrar modelos que
representen adecuadamente la regularidad estadística de esta variable. (UPN. 1989)
Recuerdan que dijimos que las variables numéricas continuas son aquellas que pueden tomar
cualquier valor en un intervalo de números reales.
Por ejemplo: en un caso en que se contemple la estatura en m de los niños de 6 años, la variable estatura
puede tener valores entre < 1,03… … 1,12>
De ahí que no se puedan enumerar todos los posibles valores de la variable (en la población) por lo
que no podemos calcular la probabilidad de cada uno de ellos. Lo que sí se puede hacer con respecto a
cada valor es encontrar un intervalo que lo contenga.
Veamos ahora un ejemplo:
Un grupo de psicólogos creen que sería de utilidad para los maestros contar con cierta prueba que
permite medir la coordinación visomotora, puesto que esta les podría dar información interesante sobre
los niños que ingresan a la primaria. La interpretación de los resultados de esta prueba no se ha realizado
en el caso de los niños mexicanos, por lo que los psicólogos deciden que en una primera etapa de su
investigación van a ver cómo responden a la prueba los niños de 6 años de las zonas rurales del centro del
país. Con este fin escogen una muestra representativa de 200 niños de la edad y la región mencionada, a
los que les aplica la prueba. Una de las variables de interés es el tiempo de resolución empleado por cada
niño. Pasaremos directamente a la Tabla de Frecuencias y al gráfico, ustedes podrán ver el lote de datos
en la página 45 del módulo de la materia.
2
Frecuencias
relativas
0.0
%
[22,7 - 27,7>
1
0,005
0,5
[27,7 - 32,7>
15
0,075
7,5
[32,7 - 37,7>
36
0,18
18
[37,7 - 42,7>
50
0,25
25
[42,7 - 47,7>
52
0,26
26
[47,7 - 52,7>
31
0,155
15,5
[52,7 - 57,7>
13
0,065
6,5
[57,7 - 62,7>
1
0,005
0,5
[62,7 - 67,7>
1
0,005
0,5
Histograma de la variable Tiempo
0,3
Y: frecuencias relativas en proporción
Intervalos
Frecuencias
absolutas
0,25
0,2
0,15
0,1
0,05
0
//
22,7
22,7 27,7
27,7 32,732,7 37,737,7 42,742,7 47,747,7 52,752,7 57,757,7
62,7
62,7 67,7
X: tiempo
Total
200
1
100
Marquemos ahora sobre el histograma un polígono de frecuencias y las medidas de tendencia
central (MTC). Éstas están señaladas con una -----, el promedio es de
42,525, la mediana se encuentra
en el mismo intervalo [37,7 - 42,7>, mientras que la moda se encuentra en el intervalo siguiente [42,7 47,7>. Como podemos observar en el histograma de la variable, las MTC se encuentran en las dos barras
centrales.
Histograma de la variable Tiempo
Y: frecuencias relativas en proporción
0,3
0,25
0,2
0,15
0,1
0,05
0
//
22,7 27,727,7 32,732,7 37,737,7 42,742,7 47,747,7 52,752,7 57,757,7 62,7
62,7 67,7
22,7
X: tiempo
Si en esta gráfica aumentáramos progresivamente el tamaño de la muestra y con cada aumento
redujéramos la amplitud de los intervalos (C), esperaríamos que los histogramas obtenidos se parecieran a
los siguientes:
3
Si observamos estos histogramas vemos que son prácticamente simétricos (con respecto a la recta
perpendicular al eje de las abscisas que pasa por el punto medios del intervalo correspondiente a la clase
de mayor frecuencia). La media pertenece a esta clase (intervalo) y las frecuencias decrecen a medida que
los valores de la variable se alejan de la media. Si continuamos con este proceso, esperaríamos que el
contorno de los histogramas se aproximara cada vez más al siguiente:
Y
X
Retomemos el concepto de regularidad estadística. Esta es una propiedad de los fenómenos
aleatorios que consiste en que:
a) cuando aumenta el número de veces en que se observa un fenómeno en condiciones
prácticamente constante, las frecuencias relativas de la ocurrencia de un evento tienden a un valor fijo. Las
expresiones “aumenta el número de veces en que se repite” y “tienden a” significan que mientras más
veces observemos el fenómeno, menos diferirán de un valor fijo las frecuencias relativas de un evento. Es
decir, se incrementa el tamaño de n y las frecuencias relativas tienen a estabilizarse.
b) Se reduce la amplitud de los intervalos. A medida que la muestra aumenta podríamos reducir
aún más la amplitud de los intervalos con lo que el contorno de los histogramas se suavizarían más. Al
seguir con este procedimiento obtendríamos un histograma cuyo contorno se parecería cada vez más a la
siguiente curva.
4
Esta curva es un buen modelo teórico para representar la regularidad estadística de esta variable,
así como la de muchas otras.
EL MODELO DE DISTRIBUCIÓN NORMAL
Este modelo de distribución de probabilidad representa muy bien la regularidad estadística de
mucha o de la mayoría de las variables aleatorias continuas. Esta distribución, conocida como distribución
normal, es de gran importancia teórica y práctica en el trabajo estadístico.
Propiedades que caracterizan al modelo teórico distribución normal o distribución normal
estándar.
El área bajo la curva de cualquier modelo de distribución de probabilidad es igual a 1
1
La curva es simétrica respecto a la recta perpendicular al eje de las abscisas que corta la
curva en su punto máximo. Desde este punto la curva cae simétricamente en las dos
direcciones y se extiende sin llegar a tocar el eje de las abscisas.
Eje de simetría
Eje de las abscisas
Si una variable aleatoria continua X se distribuye normalmente, y si su media poblacional µ
y si desviación estándar poblacional σ, entonces se dice que µ y σ son los parámetros de la
distribución de X, y que X se distribuye normalmente con una media µ y desviación
estándar σ.
5
Si una variable aleatoria continua se distribuye normalmente con una media µ, entonces el
punto asociado a µ en el modelo es el punto del eje de las abscisas que se encuentra sobre
el eje de simetría de la curva. Además, coincide con la mediana y con la moda de la
variable.
Eje de simetría
Eje de las abscisas
µ
Si una variable aleatoria continua se distribuye normalmente con media µ y desviación
estándar σ, entonces en el intervalo < µ - σ , µ + σ > la curva es cóncava hacia abajo, y en los
intervalos < - ∞, µ - σ> y <µ + σ, ∞> la curva es cóncava hacia arriba.
concavidad hacia abajo
Concavidad hacia arriba
Concavidad hacia arriba
σ
-∞
µ-σ
µ
µ+σ
Si X se distribuye normalmente con µ y desviación estándar σ, entonces: (esta propiedad
representa la regla empírica).
El área bajo la curva correspondiente al
intervalo < µ - σ , µ + σ > es aproximadamente 0.68
El área bajo la curva correspondiente al intervalo
< µ - 2σ , µ + 2σ > es aproximadamente 0.95
0.95
0.68
σ
σ
µ-σ
µ
µ-2σ
µ+σ
µ
µ+2σ
El área bajo la curva correspondiente al intervalo
< µ - 3σ , µ + 3σ > es aproximadamente 0.99 ≈1
≈1
σ
µ - 3σ
µ
µ+3σ
Debemos recordar que la distribución normal es un modelo que, aunque adecuado para
representar la regularidad estadística de muchas variables, no deja de ser una aproximación a esta
6
regularidad estadística. Por tanto, la interpretación de los resultados que surjan del modelo debe hacerse
con cuidado.
Ahora veremos un ejemplo en el que platearemos una situación que puede ser resuelta mediante la
utilización del modelo de distribución normal:
Identifique la variable, determine su nivel de medición e indique sus valores
La edad en que se presenta en los niños una enfermedad determinada se distribuye normalmente,
con una media de 10 años y una desviación típica de 2 años.
a) Un niño se enferma ¿Cuál es la probabilidad que ese niño sea mayor de 11 años?
b) P (X ≤ xa)=10%.
Simbolizar, graficar, calcular y responder interpretando los resultados con pertinencia.
- NOMBRE DE LA VARIABLE: EDAD
- NIVEL DE MEDICION: VARIABLE NUMERICA CONTINUA
- VALORES: …10… 11…
- DATOS:
μ: 10
σ: 2
- SIMBOLIZACION:
P (X > xa) = P (Z > za)
P (X >11) = P (Z > 0,5)
- GRÁFICO:
0,1915
0,3085
11
0,1915
0,5
(0,50 - 0,1915= 0,3085)
1
- CALCULO:
7
Z=
Z=
Z=
= 0,5
CUANDO Z = 0,5 => 0,1915
- RESPUESTA:
LA PROBABILIDAD DE QUE SE ENFERME UN NIÑO QUE SEA MAYOR DE 11 AÑOS ES DE 0,3085. ES DECIR, EL
30,85% DE LOS NIÑOS QUE SE ENFERMAN TIENEN MAS DE 11 AÑOS.
b)
- SIMBOLIZACION:
P (X ≤ xa)=10%. = P (Z ≤ za)=10%.
P (X ≤ 7,436)=0,10 = P (Z ≤ - 1,282)= 0,10
- GRAFICO:
0,10
7,436 8
0,10
- 1,282 -1
CALCULO:
X= μ – Z. σ
X= 10 - (1,282 x 2)
X= 10 – 2,564 = 7,436
- RESPUESTA: EL 10% DE LOS NIÑOS MENORES QUE ENFERMAN TIENEN UNA EDAD MAXIMA DE 7,436
AÑOS. Ó LOS NIÑOS MENORES DE 7,436 AÑOS QUE ENFERMAN REPRESENTAN EL 10%.
8
DISTRIBUCION MUESTRAL
Comenzamos con un tipo diferente de distribución de probabilidades para ello recurrimos al libro
“ESTADÍSTICA CON APLICACIONES A LAS CIENCIAS SOCIALES Y A LA EDUCACIÓN” de Daniel Wayne, al
módulo de la materia entre otros.
Gran parte de los conocimientos que tenemos sobre las poblaciones se basa en la información
contenida en las muestras que se sacan de dichas poblaciones. Cuando los patrocinadores de una serie de
televisión desean saber el número de personas que ven determinado programa, no se ponen en la tarea de
interrogar a todos los posibles televidentes del país, entrevistan una muestra. Un fabricante de drogas que
desea saber los resultados de algún medicamento para bajar la tensión de la sangre y compararlo con una
droga de la competencia, no lleva a cabo un experimento con todos los pacientes conocidos que sufran de
hipertensión. En el experimento participa sólo una muestra de los pacientes. El sociólogo que desea
conocer las actitudes de los adolescentes frente al aborto, no emprende la tarea de entrevistar a todos los
adolescentes que hay en el país sino que elige una muestra de ellos y los entrevista. Podríamos seguir
dando ejemplos semejantes. (WAYNE, 1988)
Entramos en un tema en el que vamos a conocer los procedimientos inferenciales necesarios para
sacar conclusiones valederas sobre poblaciones, tomando como base la información que esté contenida en
una muestra.
Recuerden que en el primer cuatrimestre trabajamos con la estadística descriptiva que nos brindó
herramientas para describir un conjunto de datos por medio de distintas medidas descriptivas como la
media (promedio o media aritmética), la varianza y la desviación típica. Estas medidas tienen un carácter
descriptivo, que cuando son calculadas a partir de los datos de una muestra (n), se denominan
ESTADÍSTICOS. Cuando se calculan con base en datos de una
población (N), reciben el
nombre
de PARÁMETROS.
Les
recomendamos revisar estos conceptos para una mejor comprensión
del tema.
Una de las principales preocupaciones de los investigadores
y de las personas encargadas de tomar decisiones, consiste en ser
Estadísticos
Promedio
Parámetros
µ
Varianza
Desviación
Típica
capaces de tomar decisiones sobre esos parámetros (que
generalmente no se conocen), tomando como fundamento información relacionada con estadísticos
calculados sobre muestras sacadas de las poblaciones. Esta clase de procedimientos, como ya lo anotamos
antes, recibe el nombre de inferencia estadística. La inferencia estadística se basa en los conceptos de
probabilidad y de distribución de probabilidad (WAYNE, 1988). Sobre estos dos conceptos tienen disponible
las presentaciones en la página y en las páginas 149 - 193 del Módulo de la materia.
9
Para entender los procedimientos inferenciales de la distribución muestral veamos primero el
Teorema Central del Límite.
EL TEOREMA CENTRAL DEL LÍMITE
En este tema estudiaremos la relación que hay entre el promedio poblacional (µ) y su estimador, el
promedio muestral ( ) cuando se trabaja con una variable continua. Este teorema es fundamental para la
comprensión de esta relación.
Si bien cada una de las
1
n1
medidas ( ) estima µ, éstas
difieren entre sí. La variación
de los valores de los
2
n2
N
n3
promedios
( )
permiten
definir una nueva variable,
cuyos valores son i.
3
4
n4
20
n20
Veamos ahora las diferencias entre la variable X y la variable promedio :
Variable
X
Valores de la
Promedio
Promedio
variable
muestral
poblacional
xi
µ
Desviación
Desviación
estándar
estándar
muestral
poblacional
S
Σ
i
Entonces podemos decir que:
= µ
No conocemos la desviación estándar de la variable
, a la que denotaremos como σ . Podemos
calcularla a partir de los valores de la variable. Al realizar este procedimiento obtendríamos como resultado
que:
La desviación estándar poblacional de la variable
es igual a la de X entre la raíz cuadrada del
tamaño de la muestra; es decir que:
10
=
a esto se lo conoce como error típico.
Propiedades del TEOREMA CENTRAL DEL LÍMITE:

se distribuye en forma normal si el valor de n es grande.
 La media poblacional de es igual a la de X=
=µ
 La desviación estándar poblacional de
es igual a la de X
dividida entre la raíz cuadrada del tamaño de la muestra:
=
Es pertinente hacer algunas observaciones finales. En la práctica lo que ocurre es que no
conocemos los valores de µ y de σ de la población que nos interesa, y que solo contamos con los datos de
una única muestra. Sin embargo, los datos de una muestra nos permiten obtener estimadores de µ y de σ,
puesto que:
µ
S
σ
Pero además lo que hemos visto en este tema nos permite saber que con los datos de una muestra
de tamaño n podemos también obtener estimadores de los parámetros de la distribución de las medias de
muestras de tamaño n puesto que:
(Esto es porque
(Esto es porque
Al número
y
=
µ)
yS
σ)
se lo denomina error típico muestral
LA DISTRIBUCION MUESTRAL
Llegamos ahora sí al estudio de las distribuciones muestrales, un tema que está íntimamente ligado
con el concepto de estadístico y de distribución de probabilidades. Les presentamos algunas definiciones:
Una distribución muestral es una distribución de
probabilidades de un estadístico muestral calculado a partir de todas
las muestras posibles de tamaño n, elegidas al azar en una población
determinada. (WAYNE, 1.988).
11
La distribución muestral es la distribución de probabilidad para los
posibles valores del estadístico, que resulta cuando muestras
aleatorias de tamaño n se sacan repetidamente de la población.
(MENDENHALL, 2.006)
Cuando la población que se está considerando es infinita, tenemos que concebir la distribución
muestral como una distribución muestral teórica, puesto que es imposible sacar todas las muestras
aleatorias posibles de una población infinita. Cuando la población es finita y de tamaño moderado,
podemos construir una distribución muestral experimental, sacando realmente todas las muestras posibles
de un tamaño dado, calculando para cada muestra el valor del estadístico que nos interesa y enumerando
los diferentes valores calculados del estadístico junto con sus probabilidades de ocurrencia. Podemos hacer
una aproximación experimental de las verdaderas distribuciones muestrales basadas en poblaciones
infinitas o finitas grandes, sacando un gran número de muestras aleatorias y siguiendo el procedimiento
que se acaba de describir. (WAYNE, 1988)
En términos generales, las características a tener en cuenta en la distribución muestral son:
Su forma funcional (como aparece en una representación en gráfica).
Su media.
Su desviación estándar.
El teorema central del límite es tal vez el teorema más importante de la estadística. Este nos dice
que, sin tener en cuenta la forma de la población que se está estudiando, podemos seguir empleando (el
modelo de distribución normal) para obtener inferencias sobre la media poblacional a condición de que
obtengamos una muestra grande, porque la distribución normal de
será aproximadamente normal
cuando n sea grande. En otras palabras podemos valernos del hecho de que:
z=
Veamos ahora un ejemplo:
Simbolizar, graficar, calcular y responder interpretando los resultados con pertinencia.
Los puntaje en facilidad de lectura de un jardín de infantes están normalmente distribuidos, con
una media y una desviación típica de 75 y de 10 respectivamente. ¿Cuál es la probabilidad de que en una
muestra aleatoria de 25 niños arroje un promedio superior a 78?
- NOMBRE DE LA VARIABLE: PUNTAJE
- NIVEL DE MEDICION: VARIABLE NUMERICA CONTINUA
12
- VALORES: …75…78
- DATOS:
μ: 75
σ: 10
n: 25
- SIMBOLIZACION:
P ( > i) = P (Z > z) =
P ( > 78) = P (Z > 1,5)
- GRAFICO:
0,0668
78
0,4332
1
(0,50 – 0,4332= 0,0668)
1.5
CALCULO:
Z=
Z=
Z=
Z=
= 1.5
CUANDO Z = 1,5 => 0,4332
RESPUESTA:
La probabilidad de que una muestra aleatoria arroje un puntaje promedio superior a 78 es de 0,0668.
LA DISTRIBUCION DE UNA PROPORCIÓN MUESTRAL
En la práctica, resulta a menudo conveniente hacer inferencias sobre proporciones poblacionales.
En consecuencia, la distribución muestral de una proporción es de gran interés. Un equipo de mercadeo
puede estar interesado en conocer qué proporción de los consumidores de alguna zona prefieren los
productos de su empresa a los de la competencia. Un médico puede desear conocer la proporción de
13
personas artríticas que responden favorablemente a un medicamento. Un candidato a un puesto político
puede querer saber la proporción de votantes que van a votar por él. Podríamos citar innumerables
ejemplos (WAYNE, 1988). Piensen algunos casos que puedan ser de interés en la carrera que cursan.
Supongamos que hemos sacado una muestra de entidades de una población para averiguar el
número de ellas que poseen ciertas características de interés. Supongamos que también se desea
determinar por anticipado la probabilidad de que la muestra dé como resultado un número de entidades
que posean las características que se está estudiando.
Esto se podría sintetizar de la siguiente manera:
Por ejemplo, si, en una muestra de 500 lectores, 300 prefieren al candidato A, la proporción de la
muestra que prefiere al candidato A es:
= 0.60
En consecuencia, los procedimientos inferenciales dependerán de la distribución muestral de .
Podemos resumir las características de la distribución muestral de
como se expresa a continuación:
La distribución muestral de , o proporción muestral, calculada con base en muestras aleatorias
simples de tamaño n sacadas de una población en la que la proporción poblacional es P, esta
aproximadamente distribuida normalmente si n es grande. Tal como se planteó anteriormente, la
distribución muestral de
será aproximadamente normal si tanto n.p como n.(1- p) son mayores que cinco.
(REQUISITO)
Veamos ahora un ejemplo:
El 60% de los adultos de un área geográfica asiste regularmente a los servicios religiosos. Se obtiene
una muestra aleatoria igual a 150 adultos. ¿Cuál es la probabilidad de que la proporción muestral este
comprendida entre el 0,50 y 0,70?
- NOMBRE DE LA VARIABLE: Asistencia a servicios religiosos
- NIVEL DE MEDICION: VARIABLE CATEGORICA NOMINAL
- VALORES: ASISTE, NO ASISTE.
- DATOS:
n: 150
-
P: 60% = 0,60
SIMBOLIZACION:
P(
) = P (z’ ≤ Z ≤ z)
P (0,50 ≤ 0,70) = P (-2,5 ≤ Z ≤ 2,5)
14
- GRAFICO:
0,9876
0,4938
-2,5 -2
- CALCULO:
0,4938
-1
1
2
2,5
REQUISITO: n . P = > 5 => 150 x 0.60= 90 > 5
n . 1 – P= > 5 => 150 x (1- 0.60)= 60 > 5
Z=
Z’=
Z=
Z’=
Z=
Z’=
Z=
Z’=
Z=
CUANDO Z’ = - 2,5 => 0,4938
CUANDO Z’ = - 2,5 => 0,4938
RESPUESTA:
La probabilidad de que una proporción muestral de una muestra de 150 este comprendida entre
0,60 y 0,70 es de 0,9876.
BIBLIOGRAFÍA
UNIVERSIDAD PEDAGÓGICA NACIONAL SEAD. (1.981) “Introducción a los métodos estadísticos” Volumen 1
y 2 México.
WAYNE, Daniel (1988) “ESTADÍSTICA CON APLICACIONES A LAS CIENCIAS SOCIALES Y A LA EDUCACIÓN”. Ed.
McGRAW-HILL/INTERAMERICANA DE MEXICO, S.A. Naucalpan de Juárez, México.
MENDENHALL , William. BEAVER, Robert J. y BEAVER, Barbara M. “INTRODUCCIÓN A LA PROBABILIDAD Y
ESTADÍSTICA”. Décima tercera edición. Cengage Learning Editores, S.A. de C.V. Col. Cruz Manca, Santa Fe,
México, D.F.
15