estadística ii

1
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
MODULO
DE
ESTADÍSTICA II
ALBERTO QUINTO JIMÉNEZ
Especialista en Matemática Avanzada.
Universidad Nacional de Colombia.
FACULTAD DE HUMANIDADES
PROGRAMA DE ADMINISTRACIÓN DE EMPRESAS
UNIVERSIDAD TECNOLOGICA DEL CHOCÓ
“DIEGO LUIS CORDOBA”
2007
2
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
OFRENDA
A mi querida tía, recordada por siempre ROSA QUINTO MOSQUERA
a mis hijos, a todos y cada uno de mis actuales y futuros alumnos.
3
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
INDICE
PAGINA
Ofrenda
Introducción
UNIDAD 1.0
SUCESOS ALEATORIOS Y PROBABILIDAD.
5
1.1 Concepto de suceso
6
1.2 Fenómeno o Experimento Aleatorio
6
1.3 Espacio Muestral
6
1.4 Clasificación de los Sucesos
7
1.5 Análisis Combinatorio
10
1.5.1Factorial de N
10
1.5.2 Permutaciones
11
1.5.3 Variaciones Simples
12
1.5.4 Combinaciones
13
1.6 Teoría Elemental de la Probabilidad
15
1.7 Teoremas del Cálculo de Probabilidad
17
1.8 Axiomatización de la Probabilidad
20
Ejercicios
UNIDAD 2.0
DISTRIBUCIONES DE PROBABILIDADES.
31
2.1 Variables Aleatorias
32
2.2 Esperanza Matemática
32
2.3 Distribuciones de Probabilidades
34
2.3.1 Poisson
34
2.3.2 Binomial
38
2.3.3. Normal
41
Ejercicios
4
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
UNIDAD 3.0
DECISION ESTADISTICA
54
3.0 Nociones sobre pruebas de hipótesis y métodos no parametritos
55
3.1 Pruebas de Uno y Dos Extremos
57
3.2 Reglas de Decisión
57
3.3 Errores Estadísticos
58
3.4 Potencia de una Prueba
59
3.5 Procedimientos Estadísticos en la Investigación
59
3.6 Diferencias entre las Pruebas Parámetricas y no Parámetricas
60
3.6.1 El tamaño de la muestra
62
3.7 Prueba Binomial
63
3.8 Prueba de los Signos
68
3.9 Prueba de Cox y Stuart para Tendencia
76
3.10Prueba X2 Para Diferencias en Probabilidades 2x2
78
3.11Prueba de Mc Nemar Para Cambios de Significancias
82
3.12Prueba de la Mediana
86
3.13Prueba de Bondad de Ajuste de Kolmogorov-Smirnov
91
3.14Prueba U de Mann-Whitney
95
3.15Prueba de Kruskal-Wallis
101
3.16Prueba de Sparman
106
UNIDAD 4.0
ASPECTOS GENERALES SOBRE SERIES CRONOLOGICAS, NUMEROS
INDICES Y TASAS.
112
4.0
Series cronológicas.
113
4.1
Componentes de una serie.
113
4.2
Determinación de la tendencia.
115
4.3
Ajuste rectilíneo.
116
4.4
Los números índices.
123
4.5
usos de los números índices.
138
4.6
Proporciones, porcentajes, razones y tasas.
148
Ejercicios aplicativos -
Bibliografía.
5
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
INTRODUCCIÓN
Cada día de nuestras vidas estamos expuestos a una amplia variedad de
información numérica relativa a fenómenos como la actividad del mercado de
valores, los hallazgos de estudios de mercados, los resultados de encuestas
de opinión, las tasas de desempleo, los pronósticos de éxito futuro de
industrias especificas y datos en general.
Es importante recordar que el tema de la estadística moderna abarca la
recolección presentación y caracterización de información para ayudar tanto
en el análisis de datos como en el proceso de la toma de decisiones.
Por la forma en que está estructurado el modulo, es poca la preparación
matemática que se requiere para entenderlo. Aquellos que hayan tomado el
primer curso de estadística, no tendrán dificultad alguna para seguir la
manipulación matemática y estadística en este curso. Tengo fe en que el
estudiante, o el lector común, llegará a darse cuenta que en la estadística
hay más que las meras matemáticas; que la Estadística, primero que todo,
es una filosofía, una manera de pensar. Si el estudiante puede desarrollar los
conceptos, verá la estadística simplemente como el vehículo para su
expresión y comunicación de resultados.
Aspiro, en consecuencia, prestar un nuevo servicio a los educadores
Colombianos; porque considero que todo lo que se hace en beneficio de los
futuros ciudadanos ha de estar inspirado en un elevado anhelo de
engrandecimiento patrio, y ello sólo se logra con la dedicación y el sacrificio
constante de cada uno de nosotros, pues como lo expresa claramente
CHARLES SUMMER, “la verdadera grandeza de las naciones está en
aquellas cualidades que constituyen la grandeza del individuo”.
6
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
UNIDAD 1.0
SUCESOS ALEATORIOS Y PROBABILIDAD
OBJETIVO
DE LA UNIDAD: Desarrollar una comprensión de los conceptos básicos de probabilidad
que son la base necesaria para el desarrollo y estudio de distribuciones de probabilidad e
inferencia estadística.
CONTENIDOS:
1.1 Concepto de suceso
1.2 Fenómeno o Experimento Aleatorio
1.3 Espacio Muestral
1.4 Clasificación de los Sucesos
1.5 Análisis Combinatorio
1.5.1Factorial de N
1.5.2 Permutaciones
1.5.3 Variaciones Simples
1.5.4 Combinaciones
1.6 Teoría Elemental de la Probabilidad
1.7 Teoremas del Cálculo de Probabilidad
1.8 Axiomatización de la Probabilidad
Ejercicios
7
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
1.1
CONCEPTO DE SUCESO
Se denomina suceso o evento (E), a cada uno de los posibles resultados de
un experimento aleatorio.
1.2
FENÓMENOS O EXPERIMENTOS ALEATORIOS
Son todos aquellos sucesos cuyos resultados están establecidos pero no se
pueden predecir con exactitud a priori, o sea que en las mismas
condiciones pueden presentar resultados diferentes.
Además consideramos que el fenómeno
respectivamente en forma indefinida.
aleatorio
puede
ocurrir
Los fenómenos aleatorios, se caracterizan por la imposibilidad de predecir
resultados individuales; sin embargo, al repetir el mismo experimento
aleatorio en condiciones idénticas los resultados promedios o globales
presentan una regularidad o estabilidad sorprendente.
Así, hablamos de los fenómenos o experimentos aleatorios de lanzar una o
más monedas, uno o más dados, de extraer una o más carta de una
baraja, de extraer uno o más remedio de un lote, etc.
1.3
ESPACIO MUESTRAL
Consideremos el experimento aleatorio que consiste en lanzar un dado y
anotemos los posibles resultados (E):
E
= 1, 2,
3,
4,
5,
6
Los resultados posibles del experimento constituyen un conjunto (S)
S
= { 1, 2, 3, 4, 5,6 }
8
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Que
llamaremos espacio de los resultados o espacio muestral
correspondiente al experimento aleatorio de lanzar un dado una sola
vez.
En general, si tomamos el conjunto fundamental de resultados posibles de
un fenómeno aleatorio, como un conjunto de puntos, tal que cada
punto represente uno y sólo uno de los resultados posibles, el espacio
que reúne estos puntos es espacio muestral.
. Cara.
.Cruz
Conjunto de los eventos que aparecen al lanzar una moneda al aire.
.1
.3
.6
.4
.2
.5
Conjunto de los eventos que aparecen al lanzar un dado al aire.
9
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
1.4
CLASIFICACIÓN DE LOS SUCESOS
1.4.1 SUCESO SEGURO:
Es aquel que siempre se produce al realizar un experimento aleatorio
(certeza).
En el experimento de lanzar un dado, el suceso de que salga un
número menor que 7 es un suceso seguro.
EJEMPLO:
1.4.2 SUCESO IMPOSIBLE
Es aquel que nunca se produce al realizar un experimento aleatorio
(imposibilidad).
En el experimento de lanzar un dado, el evento de que salga un
número mayor que seis es un suceso imposible.
EJEMPLO:
1.4.3 INCLUSIÓN DE SUCESO
Se dice que un suceso E1 está incluido en otro E2 cuando todos los sucesos
elementales de E1 pertenecen al suceso E2. Se representa con el
símbolo E1 ⊂ E2 significa: E1 está contenido en E2.
10
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Si en el experimento de lanzar un dado al aire se consideran los
dos sucesos siguientes:
EJEMPLO:
E1: que salga la cifra 4.
E2: que salga una cifra par.
Se observa que E1 ⊂ E2.
1.4.4 IGUALDAD DE SUCESO
Dos sucesos son iguales cuando están formado por los mismos sucesos
elementales.
En el experimento de una mujer dar luz un bebe se consideran dos
sucesos.
EJEMPLO:
E1 : que salga niño
E2: que no salga niña
Se observa fácilmente que E1 = E2, puesto que ambos sucesos aquí valen al
suceso elemental que salga niño
1.4.5 SUCESO CONTRARIO
_
Se denomina suceso contrario, E de un determinado suceso E, al suceso
formado por todos los sucesos elementales que no están en E y que
pertenecen al conjunto de todos los sucesos elementales de un
experimento.
En el experimento de lanzar una moneda al aire, si se considera el
_
suceso E: que salga cruz, el suceso contrario E se forma por los
EJEMPLO:
_
sucesos que no están en E pero que pertenecen al experimento E :
que salga cara.
1.4.6 DOS SUCESOS (UNO U OTRO)
11
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Cuando se están interesados por 2 sucesos A y B, se desea que se
produzca uno de los dos sucesos A ó B, es fácil comprender que esto
ocurre siempre que se produce algún suceso elemental de A o B, es
decir, perteneciente a la unión A ∪ B de los dos conjuntos.
EJEMPLO: Sean los sucesos A y B siguientes:
A
B
: que salga 1 ó 2 al lanzar un dado.
: que salga 2, 5 ó 6 al lanzar un dado.
Tendrá lugar el suceso A ó B cuando se produzca uno cualquiera de los
sucesos elementales de A, de B ó de A U B.
B
A
1.
2.
5.
6.
1.4.7 DOS SUCESOS SIMULTÁNEOS (UNO Y OTRO)
Si se desea que se produzcan los dos sucesos A y B al mismo tiempo, basta
con que se produzca uno de los sucesos elementales de la
intersección de los sucesos dados, ya que por ser de la intersección A
∩ B, pertenecen al mismo tiempo a ambos conjuntos de sucesos
elementales, con lo que los dos sucesos A y B se verificarán a la vez.
En el ejemplo anterior, el suceso A y B tendrá lugar cuando se
verifique el suceso elemental que salga 2, ya que éste es el único
suceso perteneciente a la intersección de A y B.
EJEMPLO:
En el caso de que la intersección sea vacía A ∩ B =
φ
, se dice que los
sucesos de A y B son INCOMPATIBLES, ya que por ser disjuntos no
tienen ningún elemento en común y no pueden darse al mismo
tiempo.
12
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
1.4.8 MAS DE DOS SUCESOS SEGUROS
Cuando se esta interesado por más de dos sucesos, A, B, C disjuntos dos a
dos que cumplen con la condición de que su reunión A U B U C
requiera certezas, S, puede afirmarse que siempre se verificará uno
de los sucesos A, B ó C del experimento aleatorio.
Sea el experimento de lanzar un dado al aire. Si se consideran los
sucesos siguientes:
EJEMPLO:
A
B
C
:
:
:
que salga
que salga
que salga
1
3
5
ó
ó
ó
2.
4
6
Se comprueba fácilmente que los 3 sucesos son disjuntos 2 a 2. Pues:
AnB=
AnB=
BnC=
φ
φ
φ
Además A U B U C es el suceso seguro.
1.5
ANÁLISIS COMBINATORIO
Las secciones que discutiremos a continuación hacen referencia a las
diferentes maneras en que en un momento dado podemos ordenar,
agrupar o seleccionar los elementos de un conjunto.
Este método combinatorio nos llevará al cálculo de la probabilidad a - priori
de un suceso en forma más sencilla y ágil.
Si hay 3 candidatos para Gobernador y 5 para alcalde, los dos
cargos pueden ocuparse de 3 x 5 = 15 formas.
EJEMPLO:
1.5.1 FACTORIAL DE N.
El factorial de n se denota por n! y viene definido por
n! = n (n-1) (n - 2). . .1
Así:
5! = 5.4.3.2.1 = 120
13
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
4! 3! = (4.3.2.1) (3.2.1) = 144
Conviene decir que
1.6
O! = 1
PERMUTACIONES
Una permutación de n objetos diferentes tomados de r en r es una
ordenación de r objetos entre los n dados y atendiendo a la situación
de cada objeto en la ordenación. El número de permutaciones de n
objetos tomados de r en r se representa por n Pr, Pn,r ó P(n,r)
y
viene dado por
n Pr
= n (n -1 ) ( n -2) ... ( n - r + 1) =
n!
(n − r )!
En particular, el número de permutaciones de n objeto tomados de n en n es
n
EJEMPLO 1: El
Pn = n ( n -1 ) ( n -2 ) ... 1 = n!
número de permutaciones de las letras a, b, c tomadas de dos
es:
3
P2 = 3.2 = 6, estas son ab, ba, ac, bc, cb.
EJEMPLO 2: El
número de permutaciones de las palabras estadística es:
11!
1110
. .9.8.7.6.5.4.3.2.1
39916800
=
=
= 2494800
1!.2!.2!.2!.2!.1!.1!
1.2.1.2.1.2.1.2.111
..
16
Puesto que hay: 1e, 2s, 2t, 2a, 2i, 1d, 1c
En un departamento sanitario municipal se tienen cinco oficinas
adyacentes que van a ser ocupadas por cinco enfermeras A, B, C, D y
E. De cuántas maneras diferentes pueden asignarse las enfermeras a
las oficinas.
EJEMPLO 3:
5P5
=
5!
5.4.3.2.1
120
=
=
= 120
(5 − 5)!
0!
1
14
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
1.6.4
PERMUTACIÓN CON REPETICIÓN
Se llaman permutaciones con repetición de n elementos, donde hay r1
iguales y de la misma clase, r2 iguales y de la misma clase etc. donde
r1 + r2 +.....= n a las distintas ordenaciones que se le puedan dar al
conjunto.
Se puede expresar así:
P(n,r1 ,r2 ,...) =
n!
r1! r 2!...
Cuántos números distintos, de cinco cifras, se pueden formar con
el número 22111.
EJEMPLO:
SOLUCIÓN: Hay
dos iguales y tres iguales, luego:
5!
1.2.3.4.5
=
= 10
2!3!
(1.2 )(1.2.3)
Se pueden formar 10 números distintos con el número dado.
p (5, 2, 3) =
1.7
VARIACIONES SIMPLES
En algunas circunstancias nos interesa ordenar o conocer la disposición de
objetos cuando no se toman todos los elementos del conjunto a la
vez.
Cuantos números de dos cifras se pueden formar con los dígitos
del 1 al 5.
EJEMPLO:
Evidentemente se trata de formar ordenaciones, de cinco elementos tomados
de a dos y escribimos:
V5.2 =
5!
(5 − 2 )!
V5.2 =
5!
= 5x 4 = 20
3!
15
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
De cuántas maneras se pueden elegir y disponer en un estante 3
libros tomados de un conjunto de 10.
EJEMPLO:
V10.3 =
10!
10! 10.9.8.7!
=
=
= 720
(10 − 3)!
7!
7!
16
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
1.8
COMBINACIONES
Consideremos ahora un caso importante de la combinatoria. Frecuentemente
se nos presentan situaciones en las cuales al efectuar una disposición
de r objetos de n elementos, no nos interesa el orden de dicha
agrupación; tal tipo de agrupaciones las denominamos combinaciones
de n objetos tomados de r en r.
1.8.1 DEFINICIÓN
Se llaman combinaciones de orden r en un conjunto A, las partes o
subconjuntos de r elementos del conjunto A. se denota por Cn.r , en
general la formula es:
C n.r = V n.r
r!
n!
obtenemos la formula general
( n − r )!
para calcular el número de combinaciones de n elementos tomados
de r en r :
Si reemplazamos el valor de Vn.r por
Cn.r. =
EJEMPLO:
n!
r !( n − r )!
Las combinaciones binarias de orden dos (r =2) en el conjunto
A = a1, a2, a3 es:
a1, a2  , a1, a3 , a2, a3 
Obsérvese que si cambiamos el orden de los elementos
en los
subconjuntos anteriores, no obtenemos conjuntos diferentes, razón
por la cual decimos que en las combinaciones no nos interesa el
orden.
Ahora si aplicamos las fórmulas: donde n = 3, r = 2 tenemos:
17
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Cn.r
=
n!
=
r !( n − r )!
3!
=
2!(3 − 2 )!
3!
= 3
2!.1!
Cuántos comités integrados por tres personas se pueden formar
de un conjunto de doce personas.
EJEMPLO:
C12.3
1.8.2
=
12!
12!
1320
=
=
= 220comites
3!(12 − 3)!
3!.9!
6
COMBINACIONES CON REPETICIÓN
En el caso de combinaciones no se permite repeticiones de sus elementos.
Si se trata de formar todas las combinaciones posibles, de orden r
elegidas entre las n, cuando los elementos pueden repetirse, se dice
que cada grupo de estos es una combinación con repetición de orden
r de los n elementos.
Como se trata de combinaciones, dos de ellas son distintas si difieren en
algún elemento, por lo menos.
Por ejemplo, sea a, b, c,  un conjunto de 3 elementos, entonces aa, ab, bc.
etc. son distintas combinaciones con repetición de orden 2 de 3
elementos.
La formula general para este caso es:
Cn. r
( n + r − 1)!
= r ! ( n + r − 1) − r !
[
]
Se dispone de un recipiente con cuatro tipos de arandelas, A, B, C
y D, y se van a sacar muestras de 3 arandelas cada una. Cuántas
muestras distintas se pueden elegir.
EJEMPLO:
Hay 4 tipos de arandelas y se van a formar grupos de 3
arandelas, donde se permite repeticiones (por ejemplo), dos grupos
distintos pueden ser A A A, A B B, dos de estos grupos son distintos
si difieren, al menos, en una arandela. Se trata de combinaciones con
repeticiones de orden 3, de 4 elementos. O sea:
SOLUCIÓN:
18
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
C4.3 =
( 4 + 3 − 1)!
6!
120
=
=
= 20
3![ ( 4 + 3 − 1) − 3] !
3! 3!
6
Lo que nos permite decir que podemos sacar 20 muestras distintas.
1.9
TEORÍA ELEMENTAL DE LA PROBABILIDAD
1.9.1
DEFINICIÓN DE PROBABILIDAD:
INTRODUCCIÓN: En el lenguaje corriente al hablar acerca de cierto suceso
formamos enunciados tales como:
Probablemente estudiaré ingeniería.
Posiblemente me case en enero.
Es muy probable que pruebe el examen.
Es poco probable que gane el 2080 en la lotería del jueves.
Empleamos los términos, probablemente, muy probable, poco probable
muchas posibilidades, en un sentido muy vago y de ninguno de los
sucesos anteriores podemos asegurar que se verifique o no. Pero
tales términos los podemos utilizar para describir, aunque en forma
muy vaga, nuestro “grado de creencia” en que estos sucesos se
verifiquen.
En efecto, podemos interpretar intuitivamente el concepto de probabilidad
como una medida de la posibilidad (creencia) de ocurrencia de un
suceso.
Es frecuente el empleo de expresiones tales como: el suceso A tiene menor,
igual o mayor probabilidad de ocurrencia que el suceso B.
Pero tales afirmaciones no tendrán validez lógica mientras no podamos darle
un sentido preciso al término probabilidad, de tal manera que nos
permita asociarle a cada probabilidad de ocurrencia de los sucesos A
y B un número real.
19
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
DEFINICIÓN: Dado un experimento aleatorio cualquiera, que pueda dar lugar
a varios sucesos elementales igualmente posible, se define como
probabilidad de un suceso E, al cociente entre el número de sucesos
favorables (SF) y el número de suceso elementales posibles (SP).
Que denotaremos:
20
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
P
(E)
=
NumerodeSucesosElementalesFavorablesaE
NumerodesucesosElementalesPosibles
P (E)
=
SF
SP
Esta definición es denominada REGLA DE LAPLACE. El método para
obtener una medida de un suceso se basa en experimentos
aleatorios; los experimentos más sencillos son: lanzar una moneda al
aire, lanzar un dado, extraer una carta, seleccionar una bola de color
de una urna, extraer un número de una urna, etc.
Es muy importante darle a entender al lector que no
entiende de cartas o barajas, que en este texto trataremos de un
conjunto de naipes ( Rumis) formado por 4 tipos de cartas ; diamante,
trébol, rojo o corazón y negras; donde de cada carta hay 4, por
ejemplo existen 4 ases, 4 jotas, 4 q, 4 cinco, etc.
OBSERVACIONES:
La probabilidad de aparición del suceso E (llamada su ocurrencia) viene
dada por.
P(E)
=
SF
=p
SP
La probabilidad de no aparición del suceso (llamada su no ocurrencia)
viene dada por
g = p (no E) =
Así, pues:
p+ q=1
o
1 - P (E) =
1 - P
P (E) + P (no E) = 1
El suceso “no E” a veces se denota por
∗
−
ª
E , E ,¬ E
21
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Determinar la probabilidad p de la aparición de un número impar
en una tirada de un dado equilibrado.
EJEMPLO 1:
De los 6 casos igualmente probables (1, 2, 3, 4, 5, 6) 3 casos son
favorables cuando salga: 1, 3, ó 5. Entonces:
SOLUCIÓN:
P = 3/6 = 1/2.
La aparición de un as, el cinco de diamante o el tres de corazón
en una sola extracción de una baraja de 52 cartas.
EJEMPLO 2:
El suceso puede ocurrir de 6 formas (uno cualquiera de los ases
son 4, el cinco de diamante, y el tres de corazón) del total de 52 cartas
igualmente probables. Entonces.
SOLUCIÓN:
p = 6/52 = 3/26
En el experimento aleatorio de lanzar una moneda al aire. Los
dos sucesos elementales posibles son: que salga cara ( c ) y que
salga sello (s), luego la probabilidad de cara y de sello es la misma
1/2.
EJEMPLO 3.
P ( c ) = P (s) = 1/2.
NOTA:
La probabilidad del suceso seguro E, P(E) es iguala a 1, y la
probabilidad del suceso imposible, es igual a cero, luego entre estos
dos números o valores, 0 y 1 se sitúa la probabilidad de cualquier otro
suceso A.
0 < p (A) < 1
1.9.2 TEOREMAS DEL CÁLCULO DE PROBABILIDAD
1.9.2.1. PROBABILIDAD CONDICIONAL. SUCESOS INDEPENDIENTES Y
DEPENDIENTES.
22
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Dado un experimento aleatorio cualquiera que puede dar lugar, entre otros, a
los sucesos A y B, se denomina probabilidad del suceso B
condicionada al suceso A, y se representa mediante P ( B / A) y se lee
probabilidad de que ocurra el suceso B sabiendo el suceso A ha
ocurrido , o simplemente, probabilidad de B dado A.
Si el hecho de que se haya realizado el acontecimiento A no altera, en
absoluto, la probabilidad de que se realice el acontecimiento B, los
sucesos A y B son llamados “Independientes” y no tiene sentido
hablar de probabilidad de B condicionado A.
En este caso:
P (B/A) = P (B)
En caso contrario, se dice que los sucesos A y B son “Dependiente” y:
P (B/A) ≠ P (B)
Para el cálculo de la probabilidad condicional P (B/A) se utiliza la siguiente
fórmula:
P (B / A ) =
P ( B  A)
,
P ( A)
Con P(A) ≠ 0
En donde P (B  A) representa la probabilidad de que se verifique a la vez
los sucesos A y B, P (A) la probabilidad de que se produzca el
suceso A.
P (B  A) = P ( B / A ). P (A)
Por analogía con esta fórmula puede decirse que:
P (A  B) = P (A / B). P (B)
Pero por ser P (B /A ) = P ( A / B ) , ya que ambas expresiones indican por
igual la probabilidad de que se produzca a la vez los sucesos A y B,
puede escribirse indistintamente que :
P (B  A) = P (A  B) = P (B / A) . P (A) = P (A / B) . P (B)
23
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
De este modo se obtienen dos fórmulas distintas para la probabilidad de que
se verifiquen a la vez los dos sucesos A y B de un experimento
aleatorio cualquiera.
P (A  B) = P ( B / A ) . P ( A )
P (A  B) = P ( A / B ) . P ( B)
Si A y B son independientes se tiene:
P (A  B) = P (A ) . P ( B)
Sea el experimento aleatorio consiste en lanzar un dado al aire.
Calcular la probabilidad de obtener un 4, sabiendo que se ha obtenido
un número par.
EJEMPLO1:
Sea A el suceso obtener un 4 al lanzar un dado y B el suceso de
obtener un número par al lanzar un dado, luego se trata de calcular
P ( A / B ). Aplicando la fórmula correspondiente se tendrá:
P( A  B)
, conP ( B )≠ 0
P(A/B)=
P(B)
SOLUCIÓN:
P (B) = 3/6, puesto que de los 6 resultados posibles, sólo 3 (2, 4, 6) son
favorables al experimento considerado.
P (A  B) = 1/6 ya que sólo existe un resultado favorable, de los 6 posibles,
que sea al mismo tiempo número par y que coincida con el número
cuatro.
Por tanto:
P(A/B) =
P( A  B)
1/ 6 1
=
=
P (B )
3/ 6
3
Supóngase una caja que contenga 4 bolas blancas y 3 bolas
negras. Sea A el suceso de que la primera bola extraída se negra y B
el suceso de que la segunda bola extraída se negra, en extracción sin
remplazamiento. Aquí A y B son sucesos dependiente.
EJEMPLO 2.
24
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
SOLUCIÓN:
P (A) =
3
3
=
4+ 3
7
2
, puesto que de las 3 bolas negras ya sacamos
6
una, y de las 7 existentes han quedado 6.
P(B)=P(B/A)=
Luego:
P (A  B) = P ( B / A ) . P ( A ) =
2 3
.
=
6 7
6
=
42
1
7
1.9.3. AXIOMATIZACION DE LA PROBABILIDAD .
La teoría de probabilidad ha sido construida partiendo de varios axiomas
como lo fue la geometría, la mecánica teórica y otras ciencias. El
desarrollo axiomático de las probabilidades que ha tenido mayor
aceptación es el propuesto por: Andrej N. Kolmogorov (1903, ) en
1933. Kolmogorov inicia con un conjunto U de eventos simples, o
sea un espacio muestra. Luego considera una familia F de
subconjunto de U los cuales denomina eventos aleatorios. Esta familia
de eventos debe conformar lo que en el álgebra moderna se llama un
Campo de Borel. Con cada evento A del campo de eventos F hay
asociado un número, llamado la probabilidad del evento A, escrito P
(A) y tal que:
Axioma 1:
P (A) ≥ 0 para cualquier evento A
Axioma 2:
P (U) = 1
Axioma 3: P ( A ∪ B ) = P (A) + P (B), si A y B son eventos mutuamente
excluyentes.
La terna (U, F, P) se llama espacio probabilístico y representan el modelo
matemático usado para el estudio de los fenómenos aleatorios.
A partir de los tres axiomas se deducen varias propiedades de las
probabilidades que son útiles en la solución de problemas.
P1 .
P ( ∅) = 0, o sea que la probabilidad del evento imposible es cero.
25
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
P2.
O ≤ P (A ) ≤ 1. la probabilidad es un número entre 0 y 1.
P3
P ( AC ) = 1 - P (A).
P4 . Si un evento A implica otro evento B, es decir, si A ⊂ B, entonces
P (A) ≤ P (B).
P5 . P (A1 U A2 U... Uan ) = P (A1 ) + P (A2) +...+P (An) cuando A1, A2,
An son eventos mutuamente excluyentes.
P6 . p ( A ∪ B ) = P (A ) + P (B ) - P (A ∩ B) Cuando A y B son eventos
cualquiera. Esta probabilidad se llama regla de adición
P7.
P ( A - B ) = P (A) - P (A ∩B).
En los ejemplos siguientes veremos cómo se aplican estas propiedades.
EJEMPLO 1.
Una urna contiene 6 bolas blancas, 4 rojas y 5 azules de igual
tamaño, se extrae una bola al azar, cuál es la probabilidad de que
esta bola sea roja?
Sea R: obtener bola roja, B: obtener bola blanca y A: obtener bola azul.
Entonces:
P(R) =
4
4
=
6 + 4 + 5 15
Cuál es la probabilidad de que la bola sea blanca o azul?
P (A ∪ B ) = P (A) + P (B ), ( eventos mutuamente excluyentes)
P (A ∪ B ) =
6
5
11
+
=
15 15
15
Cuál es la probabilidad de que la bola no sea azul?
P ( AC ) = 1 - P (A)
26
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
P ( AC ) = 1 -
5
=
15
10
=
15
2
3
Se extrae una carta al azar de una baraja de 52 cartas
(poker). Cuál es la probabilidad de obtener un As?
EJEMPLO 2.
Sea A: obtener un as. En las 52 cartas hay 4 ases, luego P (A) = 4/52
Cuál es la probabilidad de obtener un 10 ó un diamante?
Sea B: obtener un diez y D: obtener un diamante. En la baraja hay 4 dieses
y 13 diamantes y una de las cartas es el 10 diamante. Entonces.
P (B) = 4/52, P (D) = 13/52 y P (B ∩ D) = 1/52. Por lo tanto
P (B∪D) = P (B) + P (D) - P ( B∩ D)
P (B∪D) = 4/52 + 13/52 - 1/52 = 16/52
Se lanzan dos dados una vez. Cuál es la probabilidad de obtener
una suma igual a 5 con los dados?
EJEMPLO 3.
Sea C: obtener suma igual a 5. El espacio muestral es uno de los números
del 2 al 12 pero estos números no ocurren con igual probabilidad. El 5
se puede obtener cuando los dados caen: (3,2), (2,3), (1,4), (1,4) esto
es, se tienen 4 casos favorables al evento C entre los 36 posibles.
Luego:
P ( C) = 4/36.
De igual manera se obtienen las probabilidades para las otras sumas. Cuál
es la probabilidad de obtener una suma al menos de 9?
Sea M: obtener al menos 9.
P (M) = P (obtener 9 ó 10 ó 11 ó 12)
P (M) = P ( 9) + P (10) + P (11)+ P (12)
P (M) = 4/36 + 3/36 + 2/36 + 1/36 = 10/36
27
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Un envío de 12 cajas con drogas contienen 3 cajas alteradas.
Cuál es la probabilidad de obtener una caja alterada al tomar al azar 7
cajas de las 12?
EJEMPLO 4;
Llamaremos H dicho evento.
No es fácil resolver este problema si queremos calcular directamente el
número de casos favorables y posibles. En caso como éste, es
recomendable acudir a la teoría del análisis Combinatorio: entonces
razonamos así: el número de casos posibles es el número de
combinaciones de 12 cajas tomas 7 a la vez, es decir C12.7, las cajas
C3.1 formas y
las 6 restantes pueden seleccionarse entre las 9 no alteradas en C9.6
alteradas pueden seleccionarse entre las 3 alteradas en
formas. Por principio fundamental, tenemos que el número de casos
favorables es C3.1 C9.6. Luego:
P(H) =
C C
C
3.1
9 .6
12 .7
Aplicando la fórmula de combinaciones:
Cn. r =
n!
r !( n − r )!
=
3!
= 3
1!( 3 − 1)!
C9.6 =
9!
= 84
6!( 9 − 6)!
C12.7 =
12!
= 792
7!(12 − 7 )!
C3.1
Luego:
P(H) =
( 3)(84 )
=
792
7
22
La siguiente tabla muestra al personal (animales) de un
zoológico, tabulados por edad.
EJEMPLO 5.
28
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
ANIMALES
Águilas
Búfalo
Caballo
Delfín
Elefante
Faisán
Gacela
Hipopótamo
Ibis
X
≤ 25
0
20
3
7
200
1
4
5
20
Y
26- 30
5
30
6
15
375
12
10
25
35
Z
31 -35
25
35
6
8
442
8
19
15
50
W
>35
75
35
10
12
203
3
12
10
25
TOTAL
105
120
25
42
1220
24
45
55
130
29
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Totales
260
513
608
385
1766
30
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Con los datos de la tabla podemos determinar:
a)
Las águilas que tienen más de 35 años: N (A ∩ W) = 75
b.)
B ∪ Y, Consiste en los animales búfalos o los animales que están
entre las edades de 26 y 30 o ambos, luego :
N ( B ∪ Y ) = B + Y - ( B ∩ Y) = 120 +513 - 30 = 603. Es de anotar se resto el
30 quienes son animales que ya han sido contados puesto que están
incluidos en el número 120 como el 513.
c)
Supóngase se elige un animal al azar dentro de todos que se
representan, cuál es la probabilidad de que este animal tenga 25 años
de edad o sea más joven?
P ( X) =
d)
Cuál es la probabilidad de que un animal sea águila, dado que se elige
al azar del conjunto de animales que tienen más de 35 años.
P(A/W)=
e.)
n( X )
260
=
= 0147
.
= 015
.
n (U )
1766
n( A  W )
=
n (W )
75
= 0.19
385
Cuál es la probabilidad de que un animal sea águila y de 25 años de
edad o menos?.
Son eventos mutuamente exclusivos, puesto que:
A ∩ X = O, luego:
P( A ∪ X ) = P (A) + P (X) =
f)
105
260
+
= 0.059 + 0147
.
= 0.206 = 0.21
1766 1766
Cuál es la probabilidad de que un animal elegido al azar de todos los
animales sea tanto elefante como tener una edad comprendida entre
31 - 35 años
P (E ∩ Z ) = P (Z) . p (E/Z) = (608 / 1766) . (442 /608) = ( 0.34 ) ( 0.73) =
0.25
31
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
PROBLEMAS SOBRE LA UNIDAD 1.0
1.1
Hallar el valor de:
a)
7p3 , 9p2 , 8p3 , 6p1 , 10p3 ,
b.)
8C4,
NOTA:
4C4,
6C1,
9C3,
4p4
5C3,
5C3,
10C4.
( nCr = C n.r).
1.2
Calcular el número de permutaciones que se pueden formar con las
letras de la palabra matemáticas.
1. 3
De cuántas maneras puede formarse un equipo de fútbol de entre un
grupo de 12 voluntarios?
1.4
De cuántas formas pueden ordenarse 6 libros en un estante, si:
a) No se da ninguna restricción
b) 2 libros determinados deben estar juntos.
c.) Un libro determinado debe estar en el extremo izquierdo.
1.5
De un total de 5 Químicos y 7 Biólogos, se forman un comité de 2
Químicos y 3 Biólogos. De cuántas formas pueden formarse, si :
a.)
b.)
c.)
1.6
puede pertenecer a él cualquier químico y biólogo
un biólogo determinado debe pertenecer al comité?
Dos biólogos determinados no pueden estar en el comité
Un conductor de terapia de grupos en una clínica de enfermos
mentales tiene 10 pacientes de los cuales debe formar un grupo de 6.
Cuantas combinaciones de pacientes son posibles?
1.7
Un educador en asuntos sanitarios tiene 3 carteles para exhibir uno
junto al otro en la pared del vestíbulo de un centro de salud.
En cuántas formas diferentes los puede disponer?
1.8
Supóngase que en cierto laboratorio se tiene 4 trabajos que deben
realizarse en una tarde particular y existen 5 personas para llevarlos a
cabo. En cuántas formas pueden asignarse las 5 personas a los 4
trabajos?
32
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
1.9
Un investigador tiene 4 medicamentos que desea poner a prueba,
pero sólo cuenta con los suficientes animales experimentales para
probar a 3 de los medicamentos. Cuántas combinaciones de
medicamentos pueden poner a prueba.
1.10
Ocho animales experimentales han sido inoculados con cierta droga;
tres con tipo A, tres con tipo B y dos con tipo C. Cada animal debe
colocarse en una de las ocho jaulas adyacentes para su observación.
Si los animales sólo se distinguen con base en el tipo que recibieron,
cuántos arreglos diferentes son posibles?.
1.11
De una baraja de póquer, cuántas manos de 5 cartas cada una se
puede sacar?
1.12
Un dado normal se lanza dos veces. Determinar la probabilidad de
obtener un seis en ambos lanzamientos.
1.13
Una urna contiene una bola blanca y una bola negra. Se extrae una
cada vez sin reposición. Determinar la probabilidad de que la primera
bola sea blanca y la segunda negra.
1.14
Una urna contiene seis bolas negras y cuatro blancas. Se extrae sin
reposición dos bolas, una a una. Determinar la probabilidad de
seleccionar una bola blanca en la primera extracción y una bola negra
en la segunda.
1.15
Determinar la probabilidad de que todas las cuatros cartas extraídas
aleatoriamente y sin reposición de una baraja de 52 resulten aseas.
1.16
En una ciudad de 10.000 electores el 50% son liberales y el 50% son
conservadores. Si se seleccionan dos electores aleatoriamente cuál
es la probabilidad de que ambos sean liberales?.
1.17
Supóngase que P (A) = ½ y P (B) = ¼, encontrar p ( AB ) si:
a.)
b.)
1.18
A y B son independiente
A y B son mutuamente excluyentes.
Si la P (A) = 1/3, P (B) =
¼
y P (A/B) = 1/2, en contar P ( A + B)
33
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
1.19
A y B juegan 12 partidas de ajedrez, de los cuales A gana 6 veces,
B gana 4 y 2 terminan en tabla. Acuerdan jugar un torneo consistente
en 3 partidas. Hallar la probabilidad de que:
a.)
A gane 3 partidas
b.)
D os partidas terminan en tabla
c.)
A y B ganen alternativamente.
d.)
B gane al menos un partida
1.20
Se extrae una bola al azar de una caja que contiene 10 rojas, 30
blancas, 20 azules y 15 naranjadas. Hallar la probabilidad de que:
a)
b)
c.)
d.)
e)
sea naranja o roja
no roja o azul
no azul
blanca
roja, blanca o azul
1.21
Un pescador atrapa 10 peces, 3 de los cuales son más pequeños que
los permitidos por la ley. Un policía se le acerca y examina la pesca,
pero mirando 2 peces solamente elegidos al azar. Cuál es la
probabilidad de que el pescador sea multado?
1.22
De acuerdo con la tabla del ejemplo 5 de la presente unidad, calcular
a.)
1.23
P ( G ∪ C ) , P (I /Y)
Un joven tiene en su bolsillo una moneda de 10 centavos, una de 20,
una de 25, una de 50 y otra de un peso. Al sacar simultáneamente dos
monedas que posibilidad existe que:
a.)
b.)
c.)
1.24
P (F ∩ W), P ( H / Z ) ,
El joven saque menos de 80 centavos
Saque más de 50 centavos
Saque al menos 10 centavos
La siguiente tabla muestra la distribución de un grupo de personas:
SEXO
GRUPO
SANGUÍNEO
0
A
B
MASCULINO
113
103
40
FEMENINO
113
123
37
TOTAL
226
226
77
34
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
AB
30
20
50
Total
286
293
579
Para este grupo calcular:
a)
La probabilidad de que un paciente elegido al azar sea femenino.
b.)
Sea femenino o Masculino
c)
Sea masculino y de grupo B.
d.)
Sea femenino de grupo A.
e)
La probabilidad de que un paciente sea elegido de grupo AB
f.)
De que un paciente sea elegido de los masculinos, dado que es
grupo O.
1.25.
Supongamos que la probabilidad de nacer varón es 0.51 y que se
estudia familias con tres hijos. Se elige al azar una familia, hallar la
siguiente probabilidad:
a.)
b)
c.)
Que todos sean varones.
Que uno de los hijos sea mujer
Que todos sean mujeres.
Asuma que hay independencia entre los nacimientos
1.26
Se lanzan 2 dados. Determinar la probabilidad que :
a.)
b)
c)
1.27
La suma de los puntos sea 8
La suma de los puntos es menor que 5.
La suma sea mayor que 12.
En un paquete hay 9 semillas de las cuales 2 producen flores blancas,
3 producen flores rojas y 4 producen flores amarillas.
Se extraen al azar dos semillas y se siembra. Calcular la probabilidad de que
:
a.)
b)
c. )
1.28
Ambas produzcan flores blancas.
Una produzca flor blanca y la otra roja
Ambas produzcan flores del mismo color.
Un club de señorita tiene 120 socias con las siguientes características:
35
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
36
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
COLOR DE OJOS
RUBIAS
TRIGUEÑAS
MORENAS
PELIROJAS
Azul
8
4
8
7
Café
5
18
20
6
Verde
9
23
8
16
Un apuesto joven llama al club y concreta una cita con una de ellas para ir al
concierto. Calcular la probabilidad de que la señorita:
a.)
b.)
c.)
d.)
e.)
1.29
Sea trigueña y de ojos verde.
Sea pelirroja
Sea morena y de ojos café o verde
Sea rubia y de ojos azules
Sea rubia o morena sabiendo que tiene ojos verde.
Una rata debe atravesar un laberinto de tres secciones como se ve en
la figura. En la primera sección hay dos caminos, uno de ellos con
comida. En la segunda hay tres caminos y al pasar por uno de ellos la
rata recibe un choque eléctrico. La tercera sección consta de cuatro
caminos y en un de ellos también encuentra comida. Calcule la
probabilidad de que la rata atraviese el laberinto comiendo dos veces
y sin sufrir un choque eléctrico
Comida
1.30
Choque
Comida
Empíricamente se ha estimado que la probabilidad de que germine
una semilla de Olmo Americano es 0.63 y de que germine una semilla
de Abeto es 0.56. Si se siembra una semilla de olmo y otra de Abeto.
Calcular la probabilidad de que :
a.)
b.)
c.)
Germine al menos una de ellas
no germine ninguna
Germine la semilla de olmo y no la de abeto.
37
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
1.31
El 60% del ganado de una región fue vacunado contra un tipo especial
de enfermedad. La probabilidad que tiene un animal de recuperarse
es 1 en 5 si fue vacunado y de 1 en 20 si no fue vacunado. Un animal
tomado al azar estaba enfermo pero se recupero. Calcular la
probabilidad de que éste animal haya sido vacunado.
1.32
Se tienen dos lápices uno blanco y otro negro, las caras de ellos están
numeradas 1, 2, 3, 4. Se hecha a rodar al piso para leer sus caras
superiores.
a.)
b.)
c.)
d.)
e.)
Establezca el espacio muestra
Determine la probabilidad de que la cara superior de los lápices
sea una suma de 1 ó 3
La suma de sus caras sea 4.
La suma de sus caras sea un número par
La suma de sus caras sea un número impar
38
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
UNIDAD 2.0
DISTRIBUCIÓN DE PROBABILIDAD
OBJETIVO
DE LA UNIDAD: Desarrollar una comprensión del concepto de esperanza matemática y
sus aplicaciones en la toma de decisiones y mostrar cómo ciertos tipos de datos pueden
ser representados por tipos particulares de modelos matemáticos.
CONTENIDOS
2.1 Variables Aleatorias
2.2 Esperanza Matemática
2.3 Distribuciones de Probabilidades
2.3.1 Poisson
2.3.2 Binomial
2.3.3 Normal
Ejercicios
39
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
2.1.
VARIABLES ALEATORIAS
Es también llamada variable ESTOCASTICA y es una variable estadística
que asume cada uno de sus valores numéricos posibles con una
probabilidad definida.
Siempre que se determina la estatura, el peso o la edad de un individuo, con
frecuencia se dice que el resultado es un valor de la variable
respectiva. Cuando los valores obtenidos son el resultado de factores
fortuitos, se dice que la variable es una variable aleatoria.
Frecuentemente se da el nombre de observaciones o, simplemente, el de
medidas a los valores que resultan de procedimientos de medición.
Los valores de las variables aleatorias difieren porque en su observación
escapan a nuestro control las diferencias casuales.
Los siguientes son algunos ejemplos de variables aleatorias:
2.1.1. La velocidad de una molécula de gas, Varían en cada choque
molecular y cada choque, a su vez, depende de muchos factores.
2.1.2. El número de meteoritos que penetran en la atmósfera y alcanzan la
superficie terrestre.
Siempre es variable debido a factores de carácter aleatorios.
2.1.3. El peso de los gramos de café cultivados en determinada región.
Es variable en virtud de numerosos factores, tales como calidad del suelo y
semilla, riego, condiciones ambientales etc.
2.1.4. Momento en que se presenta las desintegraciones atómicas.
Estos momentos se presentan al azar y son independientes entre sí.
2.1.5. Número de llamadas a una central telefónica durante un año.
2.2.
ESPERANZA MATEMÁTICA
40
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
La esperanza matemática de una variable aleatoria, es llamada comúnmente
valor medio, valor esperado, o media, se define como una media
ponderada de la población en donde las ponderaciones son las
probabilidades de los valores de la variable aleatoria. En otras
palabras, la esperanza matemática es un promedio probabilistico de
los valores de la variable aleatoria.
Si P es la probabilidad de que una persona reciba una suma de dinero s, la
esperanza matemática o simplemente la esperanza, se define como:
ps.
Si X representa una variable aleatoria discreta que puede tomas los valores
X1, X2, X3 ,....,Xk con probabilidades respectivas p1 , p2, p3 , .. .pK, donde
P1 + P2 , P3 , +... + PK = 1, la esperanza de X simbolizada por
E (X), se define como:
k
E ( x ) = P1 X1 + P2 X2 + P3 X3 +... +PK XK =
∑ px =∑
j= 1
j
j
px
Si las probabilidades pj en esta esperanza se sustituyen por las frecuencias
relativas fj / N, donde N =Σfj, la esperanza se reduce a (ΣFX)/N, que
__
es la media aritmética ( X ).
Cuando N crece, las frecuencias relativas Fj / N se aproximan a las
probabilidades pj . Esto conduce a interpretar que E (X) representa la
media de la población de la que se ha extraído la muestra.
__
Si se denota por X la media de la muestra, la media de la población
vendrá representa por la correspondiente letra griega ( µ ).
La esperanza también puede definirse para variables aleatorias continuas,
pero la definición no requiere la utilización de cálculo avanzado.
Si la probabilidad de que una persona gane un premio de
$ 450.000 es 0.5 su esperanza es (0.5) (450.000) = 225.000.
EJEMPLO 1:
Si un hombre compra una boleta de rifa, en la que puede ganar
un primer premio de $ 70.000. ó un segundo premio de $ 40.000 con
posibilidades 0.002 y 0.005 respectivamente. cuál es el precio justo a
pagar por la boleta de rifa .
EJEMPLO 2:
41
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
E (X) = ( 70.000) (0.002) + (40.000) ( 0.005 ) = $ 140 + $ 200 = $340.
Luego el precio justo a pagar por la boleta de rifa es de $ 340.
EJEMPLO 3:
Una Compañía de seguros piensa asegurar un carro en $
800.000. La compañía estima que puede haber un pérdida total del
vehículo con una probabilidad de 0.009, daños en el 50% del vehículo
con una probabilidad de 0.030 y daños en un 25% del vehículo con
una probabilidad de 0.07. Cuánto debe cobrar la compañía por una
póliza de este tipo si desea ganar $ 2.500?
E (X) = (800.000) (0.009) + ( 400.000) (0.030 ) + (200.000) (0.07) =
7.200 + 12.000 + 14.000 = $ 33.200.
La compañía de seguros deberá cobrar $ 33.200 + 2.500 = 35.700 Por la
póliza para asegurar la ganancia programada.
2.3.
DISTRIBUCIÓN DE PROBABILIDADES
Cuando a una variable aleatoria se asocia la probabilidad, de tal manera que
a cada valor de la variable le corresponde su respectiva probabilidad,
se ha determinado una “distribución de probabilidad “.
Puesto que toda variable aleatoria tiene una distribución de probabilidades,
diremos que las variables aleatorias discretas tienen distribuciones
discretas de probabilidades y las variables aleatorias continuas tienen
distribución continua de probabilidades.
Entre las distribuciones de probabilidades, algunas son tan conocidas y
usuales que tienen nombre propio. por ejemplo, las distribución
binominal, la distribución de Poisson, la distribución Hipergeometrica,
la distribución geométrica, la distribución binominal negativa. etc.
entre las discretas.
Entre las distribuciones continuas tenemos la distribución Normal, la
distribución Exponencial, la distribución Gamma, la distribución Beta,
la distribución Uniforme, etc.
A continuación veremos las distribuciones de probabilidades de uso más
generalizado, como: binominal, normal y de poisson.
42
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
2.3.1 LA DISTRIBUCIÓN BINOMIAL
Nos permite determinar la probabilidad de que un suceso se presente
exactamente x veces en repetidos ensayos.
Es una de las distribuciones de probabilidad que se encuentra con más
frecuencia en la estadística aplicada. Se obtiene de un procesos
conocido como ensayo de BERNOULLI, en honor del matemático
suizo JAMES BERNOULLI
(1654-1705), quien realizo importantes
contribuciones en el campo de la probabilidad incluyendo, en
particular a la distribución Binomial.
Cuando un solo ensayo de algún proceso o experimento puede concluir sólo
a uno de los resultados mutuamente exclusivos, tales como muerto o
vivo, enfermo o saludable, masculino o femenino, el ensayo se conoce
como ensayo Bernoulli.
Para la aplicación de la distribución binomial se deben tener en cuenta los
siguientes criterios.
2.3.1.1.-Debe existir un número exacto de pruebas repetidas. Este número
corresponde a los N ensayos.
2.3.1.2.-Cada prueba realizada debe tener dos posibilidades de resultados
(cara o sello ). por eso es binomial.
2.3.1.3.-La probabilidad de éxito ( p ) en un solo ensayo es un único número.
Este determina la probabilidad de fallo o fracaso ( 1 - p ) denota por
( q ) donde q = 1 - p .
6.3.1.4.-Cada prueba o ensayo realizado es independiente de los demás.
2.3.1.5.-Se trata de determinar la probabilidad de éxito, exactamente, x
ensayos o pruebas.
Si p es la probabilidad de ocurrencia de un suceso en un solo ensayo
(llamada probabilidad de éxito ) y q = 1 - p es probabilidad de que el
suceso no ocurra en un solo ensayo ( llamada probabilidad de fallo ),
entonces la probabilidad de que el suceso se presente exactamente
X veces en N ensayos ( es decir , X éxitos y N - X fallos ) viene dado
por :
43
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
P(X) =
N
CX . PX .qN - X =
Donde X = O,1, 2,...,N
y
N− X
N!
X
q
X !( N − X )! P
N! = N (N - 1) ( N - 2 )..... 1
Se llama distribución binomial, puesto que para X = 0, 1, 2,. . ., N,
corresponde sucesivo términos de la fórmula binomial o desarrollo
binomial:
(q + p ) N = qN + N C1 qN-1 p + N C2 qN-2 p2 +...+pN
Donde 1,
N
C1 , N C2 son los coeficientes binominales
2.3.1.5 ALGUNAS PROPIEDADES DE LA DISTRIBUCIÓN BINOMIAL.
Media µ = NP
Varianza S2 = NPq
Desviación Típica S =
Coeficiente de sesgo α3 =
Coeficiente de curtosis α4 = 3 +
Npq
q− p
Npq
1 − 6 pq
Npq
EJEMPLO1:
La probabilidad de obtener exactamente 3 caras
lanzamientos de una moneda es:
P ( x = 3 ) = 7 C3 (1/2)3 (1/2)7-3 =
en 7
7
7!
5040
1
=
.
= 0.41
(
1
/
2
)
3!.4!
( 6)(16) 128
la probabilidad de obtener al menos 4 cara en 6 lanzamiento de
una moneda es :
EJEMPLO 2.
p ( x = 4 ) + (p (x = 5 ) + ( p (x = 6) = 6 C 4 (1/2)4 (1/2)6-4 + 6 C 5 (1/2)5
15
6
1
22
+
+
=
= 0.34
(1/2)6-5 + 6 C 6 (1/2)6 (1/2)6-6 =
64
64
64
64
44
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Se inyecta una droga tóxica a 5 conejos. Se sabe que la droga es
mortífera en un 70% de los casos, cuál es la probabilidad de que
mueran 3 de los 5 conejos?
EJEMPLO 3.
En este caso: N = 5 , X = 3, P = 0.7 , q = 0.3 luego :
P (X = 3) =
5
C 3 ( 0.7)3 (0.3)2 = 0.3087
Cuando la función binomial es
r
P(X≤ r) =
∑
N
C X pX qN - X
x= o
Dicha función está tabulada para diferentes valores de N y P, y se conoce
como tabla de la distribución binomial. Mediante el siguiente ejemplo
veremos como se maneja dicha tabla.
Por estudios hechos anteriormente se sabe que 25 de cada 100
personas de una población pertenecen al grupo sanguíneo B. Cuál es
la probabilidad de que máximo 5 de 20 donantes tomados al azar
tengan sangre tipo B?
EJEMPLO 1.
Los parámetros son N = 20 y p = 0.25 entonces:
P(máximo 5 con sangre tipo B) = P(5 o menos) = P( X ≤ 5)
P (X ≤ 5) = P( X = 0 ) + P( X=1 ) + P( X = 2) + P(X=3) + P (X=4 ) + P( X=5 ).
El cálculo de esta suma es larga y engorroso. Afortunadamente disponemos
de tablas de la distribución binomial en donde encontraremos que
para
N = 20, r = 5 y P = 0.25: la suma vale 0.6172 luego:
P ( X ≤ 5 ) = 61.72%
b.)
Cuál es la probabilidad de que al menos 3 de los 20 donantes tengan
sangre tipo B ?.
45
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
P ( 3 o Más) =
=
=
=
=
P(X≥3)
1 - P ( X ∠ 3)
1 - P (X ≤ 2)
1 - 0.0913
0.9087
Debemos tener presente que la tabla da únicamente sumas o valores
acumulados de la forma p ( X ≤ r ). Cualquier otra expresión que se
tenga, debe transformarse en ésta antes de buscar los valores en la
tabla.
c.)
Cuál es la probabilidad de que exactamente 3 de los 20 donantes
tenga sangre tipo B ?.
P(X=3)
= P( X ≤ 3 ) - P( X ≤ 2 )
= 0.2252 - 0.0913
= 0.1339 = 13.39%
La distribución binomial se encuentra tabulada para valores de N menores
que 30 y unos pocos valores de P. cuando N es muy grande y P es
pequeño, o en general cuando los valores no se encuentran en la
tabla, los cálculos deben hacerse con una calculadora, o también
aproximando el resultado mediante la distribución de poisson.
2.3.2.
DISTRIBUCIÓN DE POISSON
Otro modelo probabilístico discreto de gran utilidad en estadística es este
modelo, ideado por el francés SIMEON DENIS POISSON (1781,
1840) y publicado en 1837. Esta distribución ha sido usada para
describir el comportamiento de eventos raros por la que se le llama
también “ ley de los eventos improbables”.
46
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
El modelo de poisson sirve para describir una serie de fenómenos cuyos
eventos se presentan como resultados al azar ya sea en el tiempo, en
el espacio o el volumen. Algunos ejemplos de estos resultados
pueden ser el número de : accidente de tránsito durante un período de
tiempo dado, personas con enfermedades raras que llegan
mensualmente a un hospital, llamadas telefónicas recibidas por una
central cada minuto, partículas emitidas por segundo por una
sustancia radiactiva, glóbulos rojos por volumen en una muestra de
sangre, barcos que llegan semanalmente a un puerto, defectos por
m2 de tela , pétalos adicionales en flores que tienen 5 pétalos
normales, etc. este numero varían aleatoriamente con el tamaño de la
muestra o con el intervalo de tiempo considerado.
Las características comunes a estos fenómenos que nos permite
reconocerlos como fenómenos poissonianos son :
2.3.2.1. Las ocurrencias de los eventos en intervalos no traslapados son
independientes.
2.3.2.2. La probabilidad de ocurrencia de un solo evento en un intervalo o
espacio pequeño es pequeña y es proporcional al tamaño del intervalo
o espacio considerado.
2.3.2.3. La probabilidad de dos o más ocurrencia del evento en un intervalo
o espacio pequeño es despreciable o se supone igual a cero.
Una particularidad interesante de la distribución de poisson es el hecho de
que la media y la varianza son iguales.
La función de densidad de poisson viene dada por la siguiente fórmula :
λ e
X
P (X) =
X!
−λ
, con X = 0, 1, 2,...
donde la letra griega λ (lambda ) se llama parámetro de la distribución y es
el número promedio de ocurrencia del evento aleatorio en el intervalo.
El símbolo e = 2.71828.
Los valores de p (x) pueden calcularse mediante una tabla que da los
valores de e
-λ
para distintos valores de λ o mediante logaritmo.
47
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
2.3.2.1 ALGUNAS PROPIEDADES DE LA DISTRIBUCIÓN DE POISSÓN
Media µ =
λ
Varianza S2 = λ
Desviación S =
λ
Coeficiente de sesgo α3 =
1/
λ
Coeficiente de curtosis α4 = 3 + 1/λ
EJEMPLO 1.Un cátodo emite electrones a una rata promedio de 1013
electrones por segundo. Hallar la probabilidad de que no se emita
ningún electrón durante un intervalo de 1 segundo.
( 10 )
13 0
P (0)
=
13
( e) 10
−
0!
13
= ( e) 10 =
−
1
13
10
( e)
EJEMPLO 2.
Los registros del hospital revelan que, durante este período, las
Administraciones de emergencia han sido, en promedio, de 3 por día.
Encontrar la probabilidad de que:
a.)
En un día dado, ocurran exactamente dos admisiones de emergencia.
−3
2
P (X = 2) =
b.)
3e
= 0.224
2!
En un día particular, no ocurra admisión de emergencia alguna.
0
P (X = 0 ) =
−3
3e
0!
= 0.05
48
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
c.)
En un día particular sean administración tres ó cuatro casos de
emergencia.
3
P (X = 3 ) + P (X = 4 ) =
−3
3e
3!
4
+
−3
3e
4!
= 0.224 + 0.168 = 0.39
EJEMPLO 3.En un estudio de cierto organismo acuático, se tomaron gran
número de muestra de un estanque y se contó el número de
organismos que había en cada muestra. Se encontró que el número
promedio organismo por muestra era de dos. Suponiendo que el
número de organismo está distribuido según poisson, encontrar la
probabilidad de que:
a.
La siguiente muestra que se toma tenga uno o más organismos.
P ( X ≥ 1) = 1 - P ( X = O )
En la tabla se ve que, cuando λ = 2 la probabilidad de que X = 0 es de
0.1553. Por lo tanto
P ( X ≥ 1) = 1 - 0.1353 = 0.865
b.
La siguiente muestra que se toma tenga exactamente 3 organismos.
P ( X = 3 ) = P (X ≤ 3 ) - P ( X ≤ 2 )
= 0.8571 - 0.6767
= 0.18
2.3.3. DISTRIBUCIÓN NORMAL
Entre las distribuciones continuas de probabilidades, la distribución normal es
la más conocida, usual y útil en Estadística. Esta distribución fue
descubierta por ABRAHANADE MIVRE (1667, 1754) un protestante
francés que debió huir a Londres, y quien, en 1733 encontró la
distribución normal como el límite de la distribución binomial cuando N
tiende a infinito. También
49
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
se atribuye la paternidad de la distribución normal a LAPLACE (1749 , 1827
) y a GAUSS ( 1777, 1855 ) por lo que se dice a veces distribución
gaussiana
en vez de distribución normal. El hecho es que,
históricamente, la distribución la distribución normal está relacionada
con la teoría de errores en la medición, teoría fundada por Gauss y
Laplace en una fecha posterior a la investigación de Moivre.
La distribución normal es un modelo probabilístico apropiado para el estudio
de muchas variables aleatorias continuas tales como la estatura de los
estudiantes de una universidad, el peso de objetos de una misma
naturaleza, el contenido en volumen de un frasco de jarabe, los
errores en la medición de una misma magnitud física, el diámetro de
alguna parte para ensamblaje, la duración de las baterías y bombillas,
etc.
La densidad normal está dada por:
1
y=
s 2π
e
−
Donde µ es la media, S desviación típica,
2.3.3.1. REPRESENTACIÓN GRÁFICA
1
( X − µ )2 /
2
s
2
π = 3.14159
Gráficamente la distribución normal se representa mediante una curva en
forma de campana, llamada curva de probabilidad, campana de
Gauss o curva de error. El área bajo la curva normal es igual a uno
(1) ó al 100%. La media (µ) se encuentra localizada en el centro
(punto medio de x) y divide la curva en dos sectores iguales, es decir,
la curva es simétrica respecto a su media.
El área bajo la curva normal entre dos ordenadas X = a y X = b, siendo
a ∠ b, representa la probabilidad de que x se encuentre entre a y b lo cual
se denota por p ( a ∠ x ∠ b ).
50%
50
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Z
X
µ
Z
Z1
Z2
X
µ
a
b
2.3.3.2. TIPIFICACIÓN DE DATOS
Para hallar el área bajo la curva normal se introduce una nueva variante
estadística (Z ), es decir, se hace necesario, tificar o estandarizar la variable
X cuando X viene expresada en unidades de desviación.
La tipificación de datos se efectúa mediante la aplicación de la siguiente
fórmula
Z =
X − µ
S
La anterior fórmula antes expuesta para la densidad normal quedará
reducida así:
Z =
y=
X − µ
S
1
2π
−
e
1
2
Z
2
51
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Las áreas bajo la curva normal, para los diferentes valores de Z, se
encuentran en una tabla normal típica de 0 a z.
2.3.3.3. PROPIEDADES DE LA DISTRIBUCIÓN NORMAL
2.3.3.3.1.-Los términos tienden a agruparse alrededor del puntaje cero .
Esto quiere decir que a medida que los términos se apartan del eje vertical,
la curva decrece.
2.3.3.3.2.-La curva normal es simétrica respecto a su eje vertical.
La altura de la curva para Z = a, exactamente igual a la altura para Z = - a.
Los extremos de la campana son asíntotas, lo cual significa que por
más que se prolonguen nunca se intersectan con el eje horizontal
2.3.3.3.3
La media se localiza en el puntaje Z = O, ya que es el punto de
equilibrio de la distribución
2.3.3.3.4
Según la propiedad de simetría, el eje vertical divide exactamente por la
mitad el área bajo la curva, o sea que la mitad de los términos se
ubica a cada lado de la vertical. Allí se localiza, por tanto, la mediana.
52
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
La moda se sitúa en el máximo de la curva, que es el punto correspondiente
al puntaje Z = 0
Media µ = NP
Varianza S2 = Npq
Desviación típica S = √ NPq
Coeficiente de sesgo α3 = 0
Coeficiente se curtosis α4 = 3
Desviación media S =
2
= 0,79795
π
EJEMPLOS 1:
1.
Determinar el área bajo la curva normal entre Z = -1 y Z = 1,
Z = -2 y Z = +2, Z= -3 y Z = +3.
SOLUCIÓN:
Área para
Área para
Área total
Z = 1 es 0.3413 (según tabla)
Z = -1 es 0.3413
0.6826 que equivale a 68.26%
Área para Z = 2 es 0.4772
Área para Z =-2 es 0.4772
Área total
0.9544 que equivale a 95.4%
Área para Z = 3 = 0.4987
Área para Z= 3= 0.4987
Área total
0.9974 que equivale a 99.74%
Un gráfico de esta curva normal tipificada es:
53
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
-3
-2
-1
0
1
2
3
68.26%
95.44%
99.74%
EJEMPLO 2.
Un físicoterapeuta nota que las calificaciones que se obtienen en cierta
prueba de habilidad manual están distribuidas aproximadamente en
forma normal, con una media de 10 y una desviación estándar de 2.5
si un individuo elegido al azar realiza la prueba, cuál es la probabilidad
de que obtenga una calificación de 15 o más?
SOLUCIÓN:
Tracemos el área correspondiente a esta distribución y sombreémosla,
S
µ=10
En este caso X = 15, µ = 10
Z =
15
y S = 2.5, por lo tanto aplicamos:
X − µ
15 − 10
=
= 2
S
2.5
Luego el área para Z = 2 es:
54
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
P (X ≥ 15) = P (Z ≥ 2) = 0.5 - 0.4772 = 0. 0228
EJEMPLO 3.Supóngase
que se sabe que los pesos de cierto grupo de
individuos están distribuidos aproximadamente en forma normal con
una media de 70 Kg. y una desviación estándar de 12.5 Kg. Cuál es la
probabilidad de que una persona elegida al azar de este grupo pese
entre 50 y 85 Kg?
SOLUCIÓN:
85 − 70
 50 − 70
≤ Z≤

P (50 ≤ X ≤ 85) = P
 12.5
12.5 
= P( -1.6 ≤ Z ≤ 1.2 )
= P( -1 .6 ≤ Z ≤ O ) + P ( O ≤ Z ≤ 1.2)
= 0.4452 + 0.3849
= 0.8301
2.4.-
RELACIÓN ENTRE LAS DISTRIBUCIONES BINOMIAL Y NORMAL
Si N es grande y ni p ni q están muy próximo a cero, la distribución binomial
puede aproximarse estrechamente a la distribución normal con
variable tipificada por:
Z=
X − NP
NPq
La aproximación es tanto mejor conforme aumenta N, y en el límite es total .
Esto se ve claramente en las propiedades de las distribuciones que al
aumentar N, el sesgo y la curtosis de la distribución Binomial se
aproximan a los de la distribución Normal. En la práctica, la
aproximación es muy buena si ambos Np y Nq son superiores a 5.
2.5
RELACIÓN ENTRE LAS DISTRIBUCIONES BINOMIAL Y DE POISSON
55
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
En la distribución binomial, si N es grande, mientras que la probabilidad P de
ocurrencia de un suceso está cerca de cero, de modo que q = (1 - p)
está cerca de 1, el suceso recibe el nombre de “raro “. En la práctica
se puede considerar un suceso como raro si el número de
repeticiones del experimento (ensayos) es al menos 50 (N ≥ 50)
mientras que Np es menor que 5. En tales caso la distribución
binomial se aproxima mucho a la distribución de poisson con λ = Np.
Esto se ve comparado las dos propiedades de cada una de las
distribuciones y sustituyendo λ = Np, q ≅ 1 y p ≅ 0.
Puesto que existe una relación entre las distribuciones binomial y normal, se
deduce que hay también una relación entre las distribuciones de
poisson y normal. Puede en efecto ponerse de manifiesto que la
distribución de poisson se aproxima ala normal con variable tipificada.
X− λ
λ
Cuando λ crece indefinidamente.
56
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
PROBLEMAS SOBRE LA UNIDAD 2.0
2.1
Responda las preguntas siguientes:
a.)
Que se entiende por distribución de probabilidades de una
variable aleatoria?
b.)
Cómo se diferencian las variables aleatorias discretas de las
continuas?
c.)
Qué es una variable aleatoria ?
d.)
Pueden estudiar las probabilidades sin necesidad del concepto
de variable aleatoria ?. Discuta su respuesta.
ESPERANZA MATEMÁTICA
2.2
En un negocio determinado un hombre puede tener un beneficio de
$ 379.000 con probabilidad 0.6 o una pérdida de $ 120.000 con probabilidad
0.4. Determinar su esperanza.
2.3
Hallar ( a ) E ( X ),
( b ) E ( X ),
2
( c)

E (X −


2
X) 

__
para la
siguiente distribución de probabilidad.
X
:
P ( X) :
9
14
16
23
37
1/7
1/5
4/5
3/7
1/9
2.4
Cual es precio justo a pagar para entrar en un juego en el que uno
puede pagar $ 5.000 con probabilidad de 0.4 y $ 3.500 con
probabilidad de 0.6.
2.5
Si llueve, un vendedor de paraguas puede ganar $ 130.000 por día. Si
no llueve, puede perder $ 56.000 por día, cual es su esperanza
matemática si la probabilidad de lluvia es 0.4.
57
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
2.6
Se ha estimado que siguiendo cierta dieta y cierto tipo de ejercicios,
una persona robusta pierde 1.0 kg de su peso por semana con
probabilidad 1/2, pierde 1.5 kg con probabilidad 1/4, pierde 2.0 kg con
probabilidad 1/6 y pierde 2.5 kg con probabilidad 1/12. Halle la pérdida
de peso esperada por semana para una persona sometida a dicha
dieta.
2.7
Una lotería del país vende 10.000 billetes cada uno de 100 fracciones
a un costo de $ 200 por fracción. Cada fracción ganadora recibe un
premio de $ 300.000. Si una persona acostumbra comprar una
fracción de esta lotería, cuánto espera ganar en promedio semanal?
DISTRIBUCIÓN BINOMIAL
2.8
Un vendedor de seguros vende póliza a 5 hombres, todos de las
misma edad y con buena salud. De acuerdo con las tablas actuariales,
la probabilidad de que un hombre de esta edad viva 30 años más es
2/3. Hallar la probabilidad de que a los 30 años vivan:
a.)
b.)
c.)
d.)
2.9
Supóngase que el 24 por ciento de cierta población tiene el grupo
sanguíneo B. Para una muestra de tamaño 20 extraída de una
población, encontrar la probabilidad de que:
a.)
b.)
c.)
2.10
Los 5 hombres,
Al menos 3
Solamente 2
Al menos 1.
Se encuentren exactamente tres personas con grupo
sanguíneo B.
Se encuentren tres o más personas con las característica de y
interés.
Se encuentren menos de tres .
Supóngase que se sabe que la probabilidad de recuperación de cierta
enfermedad es de 0.4. Si 15 personas contraen la enfermedad, cuál
es la probabilidad de que:
a.)
b.)
c. )
Tres o más se recuperen?.
Cuatro o más?
Menos de cinco ?
58
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
2.11
Supóngase que la tasa de mortalidad para cierta enfermedad es del
0.10 y supóngase que la contraen 9 personas de la comunidad. Cuál
es la probabilidad de que:
a.)
b)
c. )
2.12
El 80% de los cerdos de una región está infectado con triquinosis. Se
examinan 20 cerdos de esa región, halle la probabilidad de que:
a.)
b.)
c.)
2.13
Ninguna sobreviva?
El cincuenta por ciento muera?
Al menos tres mueran.
A lo sumo 12 estén infectados.
Haya entre 13 y 16 cerdos infectados
Haya más de 14 cerdos infectados.
Las gallinas ponen huevos fecundos entre las 24 y las 28 horas
siguientes a su apareamiento. La vida de los espermatozoides en el
cuerpo de la gallina puede prolongarse de 15 a 20 días después. En
un experimento realizado para determinar la fecundidad de los huevos
puestos por las gallinas después de estar separadas del gallo, se
encontró que pasado cuatro días de separación, el 70% de los huevos
resultaron fecundos. Si se toman 15 huevos al azar, halle la
probabilidad de que todos resulten fecundo y la probabilidad de que
no menos de 10 resulten fecundos.
DISTRIBUCIÓN DE POISSON
2.14
Supóngase que se sabe que en cierta área de una gran ciudad, el
número promedio de ratas por manzanas de casas es de cinco .Su
poniendo que el número de ratas se distribuye según poisson,
encuentre la probabilidad de que en una manzana elegida
aleatoriamente:
a.)
Se tenga exactamente cinco ratas.
b.)
Más de cinco ratas.
c.)
Menos de cinco ratas.
d.)
Entre cinco y siete ratas, inclusive.
2.15
Supóngase que durante un periodo de varios años, el número
promedio de muerte debida a cierta enfermedad no contagiosa ha sido
de diez. Si el número de muertes debidas a esta enfermedad sigue la
distribución de poisson, cuál es la probabilidad de que durante el año
que transcurre:
59
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
a.)
b.)
c.)
Mueren exactamente siete personas de esa enfermedad
Mueran diez o más personas
Nadie muera de esa enfermedad.
2.16
Si el número medio de accidentes graves por año en una fábrica (el
número de empleados es constante) es de cinco, encontrar la
probabilidad de que en el año en curso:
a.)
Se tenga exactamente siete accidente.
b.)
Diez o más accidente
c.)
Ningún accidente
d.)
Menos de cinco accidente.
2.17
En un estudio sobre la efectividad de un insecticida contra cierto
insecto, se roció un área grande de tierra, posteriormente se examino
el área en relación con los insectos vivos, seleccionando lotes
cuadrados al azar y contando el número de insectos vivos por lote
cuadrado. Experiencias anteriores han demostrado que el promedio
de insectos vivos por lote cuadrado después de haber rociado, es de
0.5. Si el número de insectos vivos por lote cuadrado se distribuye
según poisson, cuál es la probabilidad de que un lote cuadrado
elegido contenga:
a.)
Exactamente un insecto vivo.
b.)
Menos de cuatro.
c.)
Mas de un insecto.
2.18
Se ha estimado en un 0.5% el número de nacimientos de niños vivos
con alguna anomalía cromosómica. Cuál es la probabilidad de que en
los próximos 2.000 niños que nazcan vivos hayan por lo menos 10 con
anomalías cromosómica.
2.19
Si el 3% de las bombillas fabricadas por una compañía son
defectuosas, hallar la probabilidad de que en una muestra de 100
bombillas, sean defectuosas
a.)
5 Bombillas
b.)
Más de cinco
c.)
Entre 1 y 3
d.)
Menos de 4.
DISTRIBUCIÓN NORMAL
2.20
Hallar el área bajo la curva normal:
a.)
A la izquierda de Z = - 1.78
b.)
A la izquierda de Z = 0.56
60
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
2.21
c. )
A la derecha de Z = -1.45
d.)
A la correspondiente a Z ≥ 2.16
e.)
Correspondiente a - 0.80 ≤ Z ≤ 1.53
f.)
A la izquierda de Z = -2.52 y a la derecha de Z = 1.83
Si la altura de 300 estudiantes se distribuyen normalmente con media
68 pulgadas y desviación típica de 3 pulgadas, cuántos estudiantes
tienen alturas:
a.)
Mayor de 72 pulgadas.
b.)
Menor o igual a 64 pulgadas
c.)
Entre 65 y 71 pulgadas inclusive.
d.)
Igual a 68 pulgadas.
2.22
Supóngase que las edades en la que se adquieren cierta enfermedad
están distribuidas en forma aproximadamente normal con una media
de 11.5 años y una desviación estándar de 3 años. Un niño acaba de
contraer esta enfermedad. Cuál es la probabilidad de que el niño
tenga:
a.)
Entre 8 ½ y 14 ½ años de edad.
b.)
Más de 10 años de edad
c. )
Menos de 12 años.
2.23
En el estudio de las huellas digitales, una importante característica
cuantitativa es el número total de surcos para los 10 dedos de un
individuo.
Supóngase que los números totales de surco de los individuos en cierta
población están distribuidos aproximadamente en forma normal, con
una media de 140 y una desviación estándar de 50. Hallar la
probabilidad de que un individuo elegido al azar de esta población
tenga un número de surcos :
a.)
De 200 o más
b.)
Menos que 100
c.)
Entre 100 y 200
2.24
Si las capacidades de la cavidad craneana de ciertas población están
distribuidas aproximadamente en forma normal, con una media de
1400 c.c y una desviación estándar de 125, encontrar la probabilidad
de que una persona elegida al azar de esta población tenga una
capacidad de la cavidad craneana.
a.)
Mayor que 1450 cc
b.)
Menos que 1350 cc
c.)
Entre 1300 y 1350 cc
61
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
2.25
Dada una población normalmente distribuida con una media de 75 y
una varianza de 225, encontrar.
a.)
b.)
c.)
d.)
e.)
P ( 50 ≤ X ≤ 100 )
P ( X > 90 )
P (X < 60 )
P (X ≥ 85 )
P ( 30 ≤ X ≤ 110)
2.26
La pérdida de agua por transpiración de una planta de maíz en un día
caluroso es una variable aleatoria aproximadamente normal con
media 2,7 litros y varianza 0.64 litros2. Que porcentaje de planta de
maíz pierden más de 3.2 litros de agua por día caluroso.
2.27
Calcular la media, desviación típica, coeficiente de sesgo y coeficiente
de curtosis de una distribución en la que P = 0.7 y N = 60, interpretar
los resultados.
2.28
Responda las preguntas siguientes:
a.)
b.)
c. )
d,)
2.29
Qué son los ensayos de Bernoulli.
Qué características determinan un fenómeno Binomial.
Qué característica determina un fenómeno de poisson.
Cómo se estandariza un variable aleatoria.
Un dado se lanza 180 veces. Hallar la media, desviación típica,
coeficiente de curtosis y coeficiente de sesgo del número de veces
que aparece el 4 en este experimento.
62
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
UNIDAD 3.0
DECISIÓN ESTADÍSTICA
Objetivo
De la unidad: Desarrollar la metodología de prueba de hipótesis como una técnica para
analizar diferencias y tomar decisiones; determinar los riesgos implicados al tomar tales
decisiones.
Contenidos:
3.0 Nociones sobre pruebas de hipótesis y métodos no parametritos
3.1 Pruebas de Uno y Dos Extremos
3.2 Reglas de Decisión
3.3 Errores Estadísticos
3.4 Potencia de una Prueba
3.5 Procedimientos Estadísticos en la Investigación
3.6 Diferencias entre las Pruebas Parámetricas y no Parámetricas
3.7 Prueba Binomial
3.8 Prueba de los Signos
3.9 Prueba de Cox y Stuart para Tendencia
3.10Prueba X2 Para Diferencias en Probabilidades 2x2
3.11Prueba de Mc Nemar Para Cambios de Significancias
3.12Prueba de la Mediana
3.14Prueba de Bondad de Ajuste de Kolmogorov-Smirnov
3.15Prueba U de Mann-Whitney
3.16Prueba de Kruskal-Wallis
3.17Prueba de Sparman
Ejercicios
63
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
3.0
NOCIONES SOBRE
PARAMETRICOS
PRUEBA
DE
HIPÓTESIS
Y
MÉTODOS
NO
El término más ampliamente usado en la estadística moderna es la palabra
“decisión”; se usa tanto porque la teoría estadística y los métodos
estadísticos toman una importancia, siempre en aumento, en la
confección y análisis de los criterios en los cuales se basan las
decisiones.
No importa como decidamos los problemas que surgen en las ciencias
naturales, en la economía, en la vida cotidiana, etc. siempre hemos de
enfrentarnos, con el riesgo de escoger incorrectamente y sufrir las
consecuencias que encierra.
Considérense las siguientes cinco preguntas.
1.
2.
3.
4.
5.
Qué porcentaje de los cupones impresos en un período se recupera?.
Es más eficaz la receta A que la B?.
Es cierto que el 30% de las personas compra su marca favorita de
pasta para dientes sin importarle el precio de ésta?.
Se encuentra este dado cargado a favor del 3?.
Los resultados que obtienen los hombres y las mujeres en la parte
verbal de la prueba SAT, ¿son diferentes?.
Estas preguntas son de dos tipos. Las preguntas 1 y 2 piden una respuesta
numérica. Las últimas tres requieren un respuesta del tipo si o no.
En muchas ocasiones, los estadísticos tratan este tipo de preguntas
mediante la formulación de dos proposiciones opuestas que reciben el
nombre de hipótesis. Una hipótesis estadística es una afirmación a
cerca de una población.
Un experimentador intenta probar o
desmentir una afirmación “más allá de toda duda razonable” mediante
un análisis de la muestra obtenida de esa población. Para las
preguntas 3, 4 y 5 pueden obtenerse los siguientes pares de
hipótesis.
3.
Denótese con p = P(una persona compra su marca favorita de pasta
para dientes sin importar el precio de ésta). Entonces las dos
hipótesis podrían ser:
H1:
El 30% de las personas compra su marca favorita sin importar el
precio, p =0.30
64
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
H2:
4.
El porcentaje de quienes son fieles a su marca es diferente del 30%,
p ≠ .30.
Sea p= P (en un tiro, el dado muestra un 3). Las dos hipótesis podrían
ser:
H1: El dado es legal, p = 1/6.
H2: El dado está cargado en favor del 3, p > 1/6
Nótese que no se considera la posibilidad de que p sea menor de 1/6.
De manera estricta, H1 y H2, en este ejemplo, no son exactamente opuestos.
Las hipótesis opuestas de H2:p>1/6 es H: p≤1/6, esto es p es menor o
igual a 1/6. Ocurre en muchas ocasiones que en un experimento real
no se consideran ciertas alternativas. en este caso, si una persona
comienza a sospechar al observar que el dado muestra muchos 3, el
mismo comportamiento indica que no existe ninguna razón para tratar
de establecer que se están obteniendo muy pocos 3. Sólo se desea
decidir si se obtienen o no más números 3 de los que se esperaría
obtener con un dado legal.
5.
Sea uB el promedio de los resultados obtenidos por los hombres, y uG
el promedio de las mujeres. Las hipótesis podrían ser:
H1:
Los hombres y las mujeres obtienen los mismos resultados en la parte
verbal de la prueba SAT, esto es, uB = uG.
H2: Los hombres y las mujeres obtienen diferentes resultados en la parte
verbal de la prueba SAT, esto es, uB ≠ uG.
En general, los profesionales de la estadística prueban la hipótesis que les
dice qué esperar al proporcionarle un valor específico con qué
trabajar.
65
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Ellos hacen llamar a esta hipótesis nula y la denotan por H0. La hipótesis nula
es la que presume franqueza y lealtad. Es la que ve al mundo a través
de anteojos de color rosa. El dado es legal. La afirmación que se
encuentra en este periódico es verdadera. Esta teoría es correcta. La
hipótesis opuesta recibe el nombre de hipótesis alternativa y se
denota como H1: Sin embargo, la mayor parte de las veces esta
hipótesis no es de interés. Se sospecha que el dado está cargado,
que el periódico está en un error, que la teoría está equivocada. En
muchas ocasiones, es esta sospecha la que incita a investigar, en
primer lugar, la pregunta. Algunos estadísticos se refieren a H1 como
la hipótesis motivada.
66
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
3.1 PRUEBAS DE UNO Y DOS EXTREMOS
Si se sospecha que cierta hipótesis nula es falsa, pueden formularse tres
alternativas diferentes. Supóngase que una persona lee en la revista
“Pets” que el 34% de las personas en Guatemala son propietarios de
más de dos mascotas y se pregunta si en su localidad, Nort
Southtown, el porcentaje será el mismo. Entonces, su hipótesis nula
deberá ser que cifra de 34% es verdadera.
Sea P (un habitante de North Southtown es propietaria de más de dos
mascotas). Entonces, H0 es p =0.34.
La hipótesis alternativa podría ser cualquiera de las siguientes.
1.
2.
3.
Si se piensa que p es mayor de 0.34 entonces H1: p>0.34
Si se sospecha que p es menor de 0.34, entonces H1: p<0.34.
si no se tiene ninguna idea de si el valor de p es más grande o más
pequeño de 0.34 entonces puede escribirse p ≠ 0.34.
En la primera alternativa sólo se está interesado en aquellos valores de p
que sean más grande que 0.34 y en la segunda en aquellos que sean
menores de 0.34. Estas se denominan pruebas de un extremo, ya
que los valores de interés se encuentran en cualquier dirección a partir
de 0.34. La tercera alterativa se conoce como prueba de dos
extremos, ya que los valores de interés se encuentran en cualquier
dirección a partir de 0.34.
Nótese que se han formulado las hipótesis de manera tal que el signo de
igualdad (=) siempre aparezca en la hipótesis nula, mientras que los
signos (<) y (>) aparecen en la hipótesis alternativa para pruebas de
un extremo.
La hipótesis alternativa para pruebas de dos extremos siempre contiene el
signo de no es igual (≠).La elección entre una prueba de uno o de dos
extremos se encuentra determinada por lo que el estadístico le
interese encontrar.
3.2
REGLAS DE DECISIÓN
67
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Al comienzo de un experimento deben formularse dos hipótesis que tienen la
característica de ser opuestas entre sí. Después deberá formularse
una proposición con respecto a qué evidencia llevará a pensar que la
hipótesis alternativa es verdadera. Esta proposición recibe el nombre
de regla de decisión. Cuando la evidencia apoya a la hipótesis
alternativa se dice que “se rechaza la hipótesis nula”. Cuando la
evidencia no apoya a la hipótesis alternativa, entonces se dice que “no
es posible rechazar la hipótesis nula”.
3.3
ERRORES ESTADÍSTICOS
Cuando se prueba una hipótesis nula, lo que se está tratando de decidir es si
ésta es falsa o verdadera. Sin embargo, ya que la prueba estadística
de hipótesis se basa en la información proporcionada por una muestra
y no es posible tener la seguridad completa de que la decisión sea
correcta, entones, en realidad, se encaran cuatro posibles situaciones.
3.3.1. H0 es verdadera y la información proporcionada por la muestra
conduce a decidir que ésta es verdadera.
3.3.2. H0 es verdadera, pero la información proporcionada por la muestra
conduce a decidir, incorrectamente, que ésta es falsa.
3.3.3. H0 es falsa y la información proporcionada por la muestra conduce a
decidir, de manera correcta, que ésta es falsa.
3.3.4. H0 es falsa, pero la información proporcionada por la muestra conduce
a decidir, en forma errónea, que ésta es verdadera.
En la primera y terceras situaciones, se ha tomado una decisión correcta.
En la segunda situación se rechaza una hipótesis nula que es verdadera.
Esto se conoce como error de tipo I. En la última situación no se rechaza
una hipótesis nula que es falsa. Los profesionales de la estadística
llaman a eso error de tipo II. La tabla siguiente proporciona un
resumen de estos dos tipos de errores.
No se rechaza H0
H0 es verdadera
Correcto
Se rechaza H0
Error de tipo I
68
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
H0 es falsa
Error de tipo II
Correcto
Se utilizará la primera letra del alfabeto griego, alfa (α), para presentar la
probabilidad de cometer un error de tipo I. De manera similar, beta
(β), representará la probabilidad de cometer un error de tipo II.
3.4
POTENCIA DE UNA PRUEBA
Los estadísticos hacen referencia al valor de la expresión 1 - β como la
potencia de una prueba. Esta es una medida de lo buena que es una
prueba para rechazar una hipótesis nula que es falsa. Mientras más
“poderosa” sea una prueba, es decir mientras más cercano a uno sea
el valor de 1 - β será mayor la probabilidad de rechazar una hipótesis
nula que sea falsa.
Una parte importante de la teoría estadística trata el problema de encontrar
una regla de decisión que haga que una prueba, de hipótesis sea lo
más poderosa posible para cualquier valor dado de α. El trabajo
teórico original en esta área fue desarrollado por J. Neyman y E. S.
Pearson, en la década 1930 - 1940.
3.5
PROCEDIMIENTOS ESTADÍSTICOS EN LA INVESTIGACIÓN
En el campo de la salud pública sólo mediante procedimientos estadísticos
podrá conocerse la composición y principales características de la
población que se va a servir, los cambios que acontecen en ella, los
riesgos a que está sometida y las necesidades que presenta.
La planificación de las actividades de la salud pública, el control de los
programas que se están desarrollando y la evaluación final de su
rendimientos y eficiencia sólo podrá llevarse a cabo mediante
procedimientos estadísticos. En tal sentido la estadística es tan
imprescindible para el trabajo de la salud pública, como lo es la
contabilidad en las actividades del Comercio y la Industria.
El procedimiento que seguiremos en este trabajo comprende varios pasos;
las cuales será aplicadas en su orden.
69
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
3.5.1 Formación de la Hipótesis de Nulidad (Ho). Es una hipótesis de
diferencias nulas; es formulada por lo común con la intención expresa
de ser rechazada. Si se rechaza, puede aceptarse entonces la
hipótesis alterna (H1), la cuál es la aseveración operacional de
hipótesis de investigación del ser experimentado.
3.5.2 Elección de una prueba estadística (con su modelo estadístico
asociado) para probar Ho. De las pruebas capaces de usarse con un
diseño de investigación dado, hay que escoger aquella cuyo modelo
se aproxima más a las condiciones de la investigación y cuyos
requisitos satisfacen las medidas usadas en la investigación.
3.5.3
Especificación del nivel de significancia ( ∝ ) y del tamaño de la
muestra (N)
3.5.4
Encuentro (o suposición) de la distribución muestral de la prueba
estadística conforme a Ho.
3.5.5
Sobre los resultados obtenidos hasta a hora se toma o se define la
región de rechazo.
3.5.6
Calculamos el valor de la prueba estadística con los datos obtenidos
de la (s) muestra (s). Sí el valor desciende a la región de rechazo
Ho, debe rechazarse; si el valor cae fuera de la región derechazo, Ho
no puede rechazarse al nivel de significación escogido.
3.6
DIFERENCIA ENTRE LAS PRUEBAS
PARAMÉTRICAS
PARAMÉTRICAS Y NO
Aunque en cada caso, el interés se enfoca en estimar o probar una
hipótesis; una prueba estadística Paramétrica, es aquella cuyo modelo
especifica ciertas condiciones acerca de los parámetros de la
población de la que se obtuvo la muestra investigada, que no se
prueba ordinariamente, sino se supone que se mantienen. La
significación de los resultados de una prueba paramétrica depende la
validez de estas suposiciones. Las pruebas paramétricas también
requieren de los puntajes analizados sean productos de una medición
que por lo menos tenga la fuerza de una escala de intervalo
70
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Una prueba estadística no paramétricas es aquella cuyo modelo no
especifica las condiciones de los parámetros de la población de la que
se saco la muestra. Hay algunas suposiciones que se asocian con la
mayorías de las pruebas estadísticas no paramétricas: observaciones
independientes y variables de continuidad básica; pero estas
suposiciones son pocas y muchas más débiles que las asociada con
las pruebas paramétricas. Además, las no paramétricas se aplican a
datos de una escala ordinal, y algunos a los de una escala nominal.
71
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
3.6.1 Ventajas de las Pruebas Estadísticas No Paramétricas
(i)
Permiten la prueba de hipótesis que no son afirmaciones acerca de
valores de parámetros de población.
(ii)
Puede usarse pruebas no Paramétrica cuando se desconoce la forma
de la población muestreada; aunque algunas pruebas no paramétricas
supongan identidad de forma de dos o más distribuciones de
población. En ciertos casos, las pruebas no paramétricas suponen que
la distribución de base es continua, suposición que comparten las
pruebas paramétricas.
(iii)
Sí los tamaños de las muestras son tan pequeños como N=6, no hay
alternativa no paramétrica a menos que se conozcan exactamente la
naturaleza de la distribución de la población.
(iv)
Hay pruebas estadísticas no paramétricas adicionadas para
observaciones hechas en poblaciones diferentes. Ninguna prueba
paramétrica puede manejar tales datos sin exigirnos suposiciones
aparentemente irreales.
( v)
Las pruebas estadísticas no paramétricas son útiles tanto para datos
inherentes a los rangos como datos cuyos puntajes aparentemente
numéricos tiene fuerza de rango.
( vi)
Los métodos no paramétricos son útiles para los datos simplemente
clasificatorios, medidos en una escala nominal y son estos métodos
más fáciles en relación con el cálculo y como consecuencia, se
aplican con mayor rapidez que los procedimientos paramétricos.
3.6.2
Desventajas de las Pruebas Estadísticas No Paramétricas
(i)
El uso de procedimientos no paramétricos con datos que pueden
manejarse con un procedimiento paramétricos conduce a un
desperdicio de datos.
(ii)
Hasta el momento (al menos no conocemos) no hay métodos no
paramétricos para probar las interacciones dentro del modelo de
análisis de varianza.
(iii)
La aplicación de algunas de las pruebas no paramétricas puede ser
laboriosa para muestras grandes.
72
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
3.6.3 ¿Cuando se deben usar las Estadísticas no Paramétricas?
Los procedimientos no paramétricos proporcionan alternativas útiles y en
muchas situaciones únicas, como las siguientes:
(i)
Cuando la hipótesis que se va a verificar no incluye un parámetro de
población.
(ii)
Cuando los datos consisten en conteo o rangos de frecuencias, más
bien que en medidas tales como: estatura, peso, puntajes de
pruebas etc.
( iii)
Cuando no se hacen las suposiciones necesarias para la aplicación
válida de un procedimiento paramétrico.
(iv)
Cuando se necesitan rápidamente los datos o información, que con el
uso de procedimientos paramétricos sólo se conseguirán después de
un período relativamente largo.
EL TAMAÑO DE LA MUESTRA. Muchas veces nos cuestionamos
acerca del tamaño que debe tener una muestra y, sin embargo, es éste un
aspecto de gran importancia. Dado un nivel de confianza α ,
denominamos error de estimación, denotado por E a la máxima
diferencia que permitir, con nivel de confianza 100(1 - α ) %, entre el
parámetro desconocido y el estadístico utilizado como estimador.
FORMULAS PARA CALCULAR EL TAMAÑO DE LA MUESTRA:
1.0 ERROR MAXIMO DE ESTIMACIÓN:
E=
Ζ
σ
α
2
n
Los valores de mayor uso para
E=
Ζα
Ζ
2
α
2
n
N− n
N−1
son 1.645 para confiabilidad del 90%, 1.96 para
95% y 2.575 para una confiabilidad del 99%.
2.0 TAMAÑO DE LA MUESTRA
σ
73
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
n=
n=
Z σ
E
2
α
2
2
2
Z α2
2
σ
2
N
( N − 1) E 2 + Z α2 σ
2
2
3.0 ERROR MAXIMO PARA PROPORSIÓN: Cuando no se conoce p se toma
p= 0.50
E=
Z
α
2
p (1 − p )
n
4.0 TAMAÑO DE LA MUESTRA PARA PROPORSIÓN:
n=
Z α2 p(1− p )
2
E
n=
2
2
Z α p(1− p )
2
N
( N − 1) E 2 + Z α2 p(1 − p )
2
74
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
3.7.
LA PRUEBA BINOMIAL
Es una de las pruebas que se encuentra con más frecuencia en la estadística
aplicada. La prueba se obtiene de un proceso conocido como Ensayo
de Bernoulli, en honor del matemático suizo James Bernoulli (1.654
- 1.705), quien realizo importantes contribuciones en el campo de la
probabilidad. Cuando un sólo ensayo de algún proceso o experimento
puede conducir sólo a uno de dos resultados mutuamente exclusivos,
tales como muerto o vivo, enfermo o saludable, masculino o femenino,
el ensayo se conoce como ensayo de Bernoulli .
DATO: La prueba consiste del resultado de N ensayos independientes.
Cada resultado es uno u otro; “ clase 1” ó “ clase 2” pero no
ambas ; el número de observaciones en la clase 1 es n1 , y el
número de observaciones en la clase 2 es n2 = N - n1 ; por tanto N
= n1+n2.
SUPOSICIONES:
Se fundamenta esta prueba en las siguientes suposiciones
(i)
Cada una de las “n” observaciones se puede clasificar según tenga
o no la característica de interés.
(ii)
Las “n” observaciones son mutuamente independientes
(iii)
La probabilidad p de tener la característica de interés permanece
constante en todo el procedimiento de muestreo.
Hay muchas situaciones en que un investigador desea verificar
la hipótesis nula de que, en alguna población de interés, la proporción
(porcentajes) de sujetos que tienen determinada característica es igual
a algún valor p. Por ejemplo, un investigador en probar una hipótesis
nula relacionada con la proporción de estudiantes del bachillerato que
fuman, o la proporción de víctimas del cáncer que sobreviven durante
cinco años o más, etc.
HIPÓTESIS:
La hipótesis nula puede tener una hipótesis alterna bilateral o una de las dos
posibles hipótesis alterna unilaterales. Es decir, siendo po alguna
constante especifica 0 ≤ po ≤ 1:
(i) Prueba Bilateral o de Dos Colas
75
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Ho : p = po
H1 : p ≠ po
(ii)
Prueba Unilateral o de Una Cola.
Ho : p ≤ po
H1 : p > po
(iii)
Prueba Unilateral o de Una Cola
Ho : p ≥ po
H1 : p < po
PRUEBA ESTADÍSTICA
Un experimento de Bernoulli puede resultar en un éxito con una
probabilidad p y en un fracaso con una probabilidad q = 1 - p .
Entonces la prueba tendrá una distribución de probabilidades de la
variable aleatoria ( V.a ) binomial X, el número de éxito en n
experimentos independientes, es:
b ( x ; n , p ) = n Cx. px . q n - x , con X = 0,1,2,....n
La medida (µ ) y la varianza ( ∂² ) de la prueba binomial b( x ; n , p ) están
dadas por :
µ = np y ∂² = npq
Estamos interesados en la probabilidad del resultado de la “clase 1”.
Permitiremos que la prueba estadística T sea el número de veces del
resultado es “ clase 1 “ ; esto es : T = n1
Dependiendo en que hipótesis sea probada i , ii, iii las
reglas de decisión son diferentes :
REGLA DE DECISIÓN:
76
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
(i)
Prueba de Dos Colas: La región crítica de tamaño α corresponde
a las 2 colas de la prueba binomial con parámetros Po y N donde el
tamaño de la cola superior es de α1 y el tamaño de la cola inferior es
α2 y α1 + α2 = α . Esto es en la tabla binomial para el valor
particular de Po y N encontramos el número t1 tal que p ( y < t1 ) =
α1 y encontramos el número t2 tal que p ( y > t2 ) = α2 o su
equivalente p ( y ≤ t2 ) = 1 - α 2. Donde y es una variable aleatoria
binomial con parámetros Po y N.
77
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Región aceptación
Región rechazo
Región rechazo
t1
y
t2
Los valores de α1 y α2 pueden ser aproximadamente iguales el uno al
otro. Entonces rechazamos Ho si T excede a t2 ( T > t2 ) o si T
es menor o igual a t1 ( T ≤ t1 ), en caso contrario aceptamos Ho.
(ii)
Prueba de Una sola Cola
:
Ya que para valores grandes de
T
indicaremos que ∝ es falso, la región critica de tamaños ∝ consiste
para todos los valores de T Mayores que t donde t es el número
obtenido de la tabla binomial , usando po y N tales que p ( y > t )
= ∝ o su equivalente p ( y ≤ t ) = 1distribución binomial con
∝
donde
Y
tiene
parámetros Po y N Rechazamos Ho si T > t ; aceptamos Ho si T ≤ t.
Región rechazo
t
(iiii)
Prueba de Una sola Cola : En este caso para pequeños valores de
T indican que Ho es falso, la región crítica de tamaño ∝ consiste
para todos valor de T ≤ t donde t es obtenida de la tabla binomial
usando Po y N a si que :
p(y≤ t)=∝
donde
Y tiene una distribución binomial con parámetros Po
rechazamos Ho si T ≤ t , en otro caso aceptamos Ho
y
N.
78
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Región rechazo
t
Brevemente, estos son los pasos
prueba binomial:
PROCEDIMIENTOS:
para el uso de la
(i)
Se determina
N,
el número total de casos observados
preferiblemente (N ≤ 25).
(ii)
Se determina las frecuencias de ocurrencia observando en cada una
de las dos categorías o “clases”
(iii)
Se escoge el método para encontrar la probabilidad de ocurrencia
conforme a Ho de los valores observados, o valores aún más
extremos.
EJEMPLO ILUSTRATIVO.
Por registro tomado por el S.S.S. (Servicio Seccional de Salud del Chocó)
en el programa E.T.V. de epidemiología se sabe que en Quibdó
existieron en 1.995, 21267 casos censados con 91.584 habitantes de
los cuáles se toma una muestra de sangre a 10.957 habitante.
Saliendo Positivo (Malaria) 2.648 casas y 8.309 habitantes Negativos.
Si denotamos los Positivos como clase 1 entonces Po= 0.24 ; puesto
que Po = 2.648/10.957 = 0.24= 24%.
HIPÓTESIS
Ho : Po = 0.24
Hi : Po ≠ 0.24
Como
n = 8.309 +2.648 la región crítica de tamaño ∝ = 0.05
aproximadamente puede obtener
usando la aproximación para
muestra grande al final de la tabla, así la región crítica corresponde
para todos los valores
T ≤ t1 , donde
t1 = nPo + W 0.025
npo(1− po) con ∝ = 0.05 , entonces ∝ / 2 = 0.025; W0.025 = ±
1.96
79
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
t1= ( 10.957) (0.24) + ( - 1.96 )
t2 = ( 10.957) (0.24) + 1.96
10957(0.24)(0.76)
10957(0.24)(0.76)
= 2542
= 2717
El valor de T obtenido es 2648 en este experimento por lo tanto la Ho es
aceptada dado que t1 < T < t2.
3.8
LA PRUEBA DE LOS SIGNOS.
La prueba de los signos es justamente la prueba binomial con
Po = ½.
El uso de esta prueba se remonta a 1.710 y por lo tanto tal vez es el método
más antiguo.
Es una de las pruebas no paramétricas mas sencillas de utilizar, su nombre
proviene del hecho de que se basa en la dirección (o signos de más y
menos) de un par de observaciones y no en su magnitud numérica.
Es particularmente útil cuando la medición cuantitativa es imposible o no es
práctica, pudiendo aún haber cierto orden entre los miembros de cada
pareja, es usada esta prueba para dos poblaciones que tienen la
misma mediana, puede ser utilizada también para tendencia en una
serie de medidas ordinales o como una prueba para correlación.
Consiste del resultado de observar una muestra aleatoria
bidimensional, ( x1, y1 ) , ( x2 , y2 ) , ........ , ( xi , yi ) , .......... ( xn , yn
) , en donde hay n pares de observaciones.
DATOS :
Dentro de cada par ( xi , yi ) una composición es hecha y la pareja es
clasificada como “ + “ ( más) o “ - “ ( menos ).
Sí xi > yi la diferencia se denota con un “ +”
Sí xi < yi la diferencia será denotado con un “ - ” .
Sí xi = yi eliminará el par de las muestras y se reduce el tamaño de la
misma.
SUPOSICIONES: Tal vez la aplicación más frecuente de la prueba de los
signos es la verificación de la hipótesis nula de que la diferencia de
las medidas es 0 (cero).
80
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Supongamos que designamos un conjunto de puntajes con X y otros
conjuntos de puntajes comprendidos en la población relacionando
con Y
Las muestras de tamaño N de cada conjuntos de puntajes producirá pares
de observaciones , que se pueden designar :
( X1 , X 2 ) , ( X 2 ,
y2 ) , ...( Xi , yi ) , ........... ( Xn, yn ) :
(i) Las variables aleatorias bidimensionales ( Xi , yi ), i = 1,2,....,n son
mutuamente independiente .
(ii)
La escala de medida es por la mayor ordinal dentro de cada par. Esto
es cada pareja ( Xi , yi ), puede determinar un “ + “ ( más) , un “ “
( menos ) “o “ en pares “ .
(iii)
Las parejas ( Xi , Yi ) son internamente consistentes en que sí
P ( +) > P ( - ) para una pareja ( Xi , Yi ) entonces P ( + ) > P ( -1 )
para todas las parejas; lo mismo sucede para P ( +) < P ( - ) y P ( +)
= P ( -).
HIPÓTESIS:
(i) Prueba Bilateral
Ho : P ( Xi < Yi ) = P ( Xi > Y1 ) ∀i
Hi : P ( Xi < Yi ) < P ( Xi > Yi ) ∀i
P ( Xi < Yi ) > P ( Xi > Yi ) ∀i
(ii)
ó
Prueba Unilateral
Ho : P ( Xi < Yi ) ≤ P ( Xi > Yi ) ∀i
Hi : P ( Xi < Yi ) > P ( Xi > Yi ) ∀i
(iii)
Prueba Unilateral
Ho : P ( Xi < Yi ) ≥ P ( Xi > Y1 ) ∀i
Hi : P ( Xi < Yi ) < P ( Xi > Yi ) ∀i
Es de anotar que la prueba de los signos es insesgada y consistente cuando
se prueba las hipótesis de arriba.
81
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
La prueba es usada también para probar la siguiente contraparte en cuyo
caso no es insesgada ni consistente.
(i)
Prueba Bilateral: interpretamos la hipótesis nula como “ Xi y Yi “ ,
tomando el mismo parámetro :
Ho : E ( Xi) = E ( Yi) ∀i
Hi : E ( Xi) ≠ E ( Yi) ∀i
Similarmente puede hacerse la prueba para la mediana ( med)
Ho : Med ( Xi) = Med ( Yi) ∀i
Hi : Med (Xi) ≠ Med ( Yi) ∀i
(ii)
Prueba Unilateral: La hipótesis nula puede ser considerada para
indicar que los valores de Xi tienden hacer mayores que los valores de
yi ó viceversa. Por lo tanto:
Ho : E ( Xi ) ≥ E ( Yi ) ∀i
Hi : E ( Xi) < E ( Yi) ∀i
(ii) Prueba Unilateral:
Ho : E ( Xi ) ≤ E ( Yi ) ∀i
Hi : E ( Xi) > E ( Yi) ∀i
PRUEBA ESTADÍSTICA
La estadística para esta prueba denotada por T , es el número de signos
“ más “ ( +) entre las N pares . Dado que bajo Ho cada par
constituye un
ensayo independiente con una probabilidad para el signo “ + “ de 0.5 , la
estadística T tiene una distribución binomial con P = 0.5 .
T : Nº de parejas ( Xi , Yi ) en la cuál Xi > Yi
T : Nº de “ +”
REGLA DE DECISIÓN
82
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Es prioritario que se elimine todas las parejas empatadas y se tome a N
como todas las parejas no empatadas , es decir , N = Nº total de “
+“ y “-“
α
Representará el nivel de significancia aproximado.
La regla de decisiones siguiente depende de la hipótesis a probar.
( i)
Bilateral : Para N ≤ 20 se usa la Tabla Binomial con el valor
aproximado para N y con P = 0.5 . Seleccionando en la tabla un valor
al rededor de
α1
α/ 2
y lo llamaremos
α1.
El valor de Y corresponde a
es
llamado t. La región crítica de tamaño 2α corresponde al valor de T ≤ t
o T≥n-t.
Rechazamos Ho si T ≤ t o si T ≥ n - t al nivel de significancia 2α1 en
otro caso aceptamos Ho.
Para n > 20 se usará la aproximación:
t = ½ ( n + W α/2
n
)
Donde W α/2 es obtenida de la tabla si α = 0.05 entonces W α/2 =
(- 1.996) y la anterior ecuación seria aproximadamente t = n/2 - √ n
(ii)
Unilateral : Para grandes valores de T indica que un más “ +” es
probable que un menos “ - ” como dice H1 ; así la región crítica
correspondiente a valores de T ≥ n-t, donde t es hallado por medio de
la tabla con P = 0.5 y n , y es aproximadamente igual a
valor correspondiente a α1 es t.
encontrarse por la aproximación
t=½(n+Wα
n
Para
n > 20
α1 .
El
puede
).
Ho es rechazado al nivel de significancia
exacto ) si T ≥ n - t .
α1 ( o α
si el valor en la tabla es
83
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
(iii)
Unilateral : Para pequeños valores de T indica que un menos “ - ”
es más probable que un mas “ +” en conformidad con H1 ; por tanto
t es encontrada exactamente como en (y). La región crítica de
tamaño
α1
( o α ) correspondiente al valor de T ≤ t rechazamos Ho
si T ≤ t al nivel de significancia α1 ( o α en el caso de n ≥ 20)
PROCEDIMIENTOS
Para el empleo de esta prueba se usa estos pasos.
(i ) Examine cada una de las parejas ( Xi , Yi )
(ii) Si Xi > Yi asigne el signo “mas “, si Xi < Yi, asigne el signo “menor; si
Xi = Yi descarte la pareja.
(iii) Represente con n el número de parejas no descartadas.
(iv) Para probar la hipótesis de no diferencia entre los efectos de algún
tratamientos, compare el número de veces que se presenta el signo
menos frecuente (valor observado) con los valores críticos tabulados.
(v) Si el valor observado es igual o menor que el valor tabulado para el nivel
de significancia escogido, la hipótesis se rechaza; de otra manera no
se rechaza.
EJEMPLO ILUSTRATIVO 1.
El SSS del Chocó en el programa de malaria trata de decidir si utiliza el
rociado contra el zancudo (Anofele) en ciertos barrios de la Ciudad
de Quibdó en orden prioritario. (Barrios periféricos y del casco
urbano).
Se tomaron muestras de 1.000 casas y así detectar el número de afectados
de Paludismo (Falsiparum y Vivas). Para la cual se presentan la
siguiente estadística.
TABLA QUE MUESTRA LAS PERSONAS AFECTADAS POR PALUDISMO
84
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
BARRIOS
CASA
1
2
3
4
5
6
7
8
9
10
11
12
200
150
100
80
70
70
120
50
60
60
25
15
CASO
POSITI
VO
36
25
8
5
2
7
16
4
7
12
5
3
CASO
NEGAT
IVO
164
125
92
75
68
63
104
46
53
48
20
12
FALSIPARUM
VIVAS
20
11
4
3
2
1
4
2
4
7
3
2
16
14
4
2
0
6
12
2
3
5
2
1
85
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
∑
1000
130
870
63
67
86
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
¿De la tabla anterior se puede inferir al nivel de significancia de 0.05 que las
personas afectadas de malaria
“Falsifarum” son afectadas
mayormente de salubridad, que los afectados de “Vivas” ?
Si Po , P representa las personas afectadas por Fasiparum y
Vivas respectivamente entonces.
Ho : Po = P
H1 : Po > P
SOLUCIÓN:
α : 0.05
ESTADÍSTICO DE PRUEBAS
Variable Binomial con P= 1/2.
Tablas que relacionan personas afectadas de malaria ( Falsiparum y Vivas )
87
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
ESTIMACION DE CONOCIMIENTOS DE PERSONAS
AFECTADAS POR LA MALARIA (FALSIPARUMVIVAS)
Barrios
Pares
Falsiparum
Vivas
(
F1,
V1)
20
16
1
(F2 , V2)
11
14
2
(F3
,
V3
)
4
4
3
(F4 , V4)
3
2
4
(F5 ,V5)
2
0
5
(F6
,
V6)
1
6
6
(F7 ,V7)
4
12
7
(
F8
,
V8)
2
2
8
( F9 , V9)
4
3
9
(F10
,
V10)
7
5
10
(F11 , V11)
3
2
11
DIRECCION
XF1 > XV1
XF2 < XV2
XF3 = XV3
XF4 >XV4
XF5 > XV5
XF6 < XV6
XF7 < XV7
XF8 = XV8
XF9 > XV9
XF10 >XV10
XF11 > XV11
SIGNOS
+
0
+
+
0
+
+
+
88
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
12
( F12, V12)
2
1
XF12 > XV12
+
89
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Después de establecer cada Fxi > Vyi con un símbolo “ + “ y cada Fxi <
Vyi con un “- “ y descartar cuando Fxi = Vyi = 0 en la tabla anterior
entonces se tiene que n = 10 y X = 7 utilizando la aproximación de la
curva normal se encuentra:
6.5 - 5
3.
3
Z = --------------- = ---------- = --------------- = 0.9486833
3.1622776
10 / 2
10
≈ 0.95
Entonces P = P ( X ≥ 7 ) ≈ P ( Z > 0.95 )
= 1 - P ( Z < 0.95)
= 1 - 0.8289
= 0.1711
Luego no se rechaza Ho y se concluye que las personas afectadas de
malarias “falsiparum” son mayormente afectadas en salubridad.
EJEMPLO ILUSTRATIVO 2.
El cuadro siguiente relaciona 20 educadores que se toman la tensión arterial
(Teniendo en cuenta el sístole) . En la Caja de Previsión Social del
Magisterio del Chocó.
En el programa de Hipertensión. A intervalo de 4 días de por medio para el
mismo paciente;
Utilizar la prueba de los signos para probar, al nivel de significancia de 0.05,
la hipótesis nula de que los educadores asistentes al programa de
hipertensión no se están haciendo adecuadamente el tratamiento por
lo tanto la presión arterial (sístoles) no se les normaliza.
Sí ρo , ρ representa los educadores que se le tomo la presión arterial el 1º
día y 4º día respectivamente estamos :
Ho : ρo , ρ
Hi : ρo > ρ
90
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
∝ = 0.05.
ESTADÍSTICO DE PRUEBA
Variable binomial X con ρ = ½ tabla de 20 educadores que se tomaron las
tensiones arterial (sístoles) a intervalo de 4 días en la Caja de
Previsión Social del Magisterio del Chocó.
91
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
TABLA QUE MUESTRA 20 EDUCADORES QUE SE TOMARON LAS TENSIONES EN LA
CAJA DE PREVISION SOCIAL MAGISTERIO DEL CHOCO
92
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
EDUCADORES
1º DIA
4º DIA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
140
140
150
120
130
140
160
130
160
120
140
150
120
140
120
150
130
120
140
150
150
140
160
110
120
120
170
140
130
120
140
120
130
130
140
150
120
140
130
140
DIREC/ DE LA
DIFERENCIA
(A1i,A4i) i=1,2-,...
A11=A41
A12 = A42
A13 < A43
A14 >A44
A15 > A45
A16 > A46
A17 < A47
A18<A49
A110= A410
A0111 = A411
A112>A412
A113<A413
A114>A414
A115<A415
A116=A416
A117> A417
A118< A418
A119>A419
A120>A420
SIGNOS
0
+
+
+
0
0
+
+
0
+
+
+
93
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Después de identificar el proceso de la dirección de la diferencia para
establecer los signos, se tiene que:
8.5-8
(0.5)(2)
n = 16 , X = 9 entonces Z = --------------- = ---------------- = 1/4= 0.25 luego
,
4
16 /2
P = P ( x ≥ 9 ) ≈ P ( z > 0.25) = 1- P ( z > 0.25) = 1-0.5987 = 0.4013.
Esto implica que P = 0.4013 luego se acepta Ho , puesto 0.4013 > 0.05
luego los educadores asistente al programa de hipertensión no se
hace adecuadamente el tratamiento por tanto la presión arterial
( sístole) no se les normaliza.
3.9 PRUEBA DE COX Y STUART PARA TENDENCIA
El dato consiste de observaciones en una sucesión de M.a X1 , X2.,
........, Xn arregladas en un orden particular en tal orden las muestras
aleatorias son observadas . Se desea ver si existe una tendencia en
la sucesión. Se agrupan las M.a en parejas ( X1 , X1 + c ) , ( X2 , X2
+ c) , ....... ( Xn 1-c , Xn ) donde c = n/2 si n es par , y c= n + ½
si n es impar ( la mitad de la M.a es eliminada se reemplaza cada
pareja ( Xi , Xi + c) con un “ +” si Xi < Xi + c o un “- “ si Xi > Xi
+c. Eliminando los empates el número de parejas restantes es
llamado N.
DATOS:
SUPOSICIONES:
( i)
Las variables aleatorias
independiente .
X1
,
.........,Xn
son
muestrealmente
(ii) La escala de medida de las Xi es al menos ordinal
(iii) Las Xi están idénticamente distribuidas, o hay una tendencia esto es las
variables posteriores son más probables de ser >, más que < y
viceversa.
HIPÓTESIS:
94
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
(i) Bilateral:
Ho : p ( xi < xi +c ) = p ( xi > xi + c ) ∀i
H1 : p ( xi < xi +c ) ≠ p ( xi > xi + c ) ∀i
( ii) Unilateral:
Ho : p ( xi < xi + c ) ≤ p ( xi > xi+c ) ∀i
Hi : p ( xi < xi + c ) > p ( xi > xi+c ) ∀i
( iv) Unilateral:
Ho : p ( xi < xi +c ) ≥ p( xi > xi + c ) ∀i
Hi : p ( xi < xi +c ) < p( xi > xi + c ) ∀i
La
usual interpretación
siguiente.
(i)
Ho : No existen tendencia
H1 : Hay una tendencia hacia arriba o hacia abajo
Ho : No hay tendencia hacia arriba .
H1 : Hay tendencia hacia arriba
(ii)
(iii)
dada
en las hipótesis anteriores es la
Ho : No hay tendencia hacia abajo
H1 : Hay tendencia hacia abajo
PRUEBA ESTADÍSTICA:
Como en la prueba de los signos
Xi + c > Xc ).
T = Nº de parejas + (las parejas donde
REGLA DE DECISIÓN
Es exactamente la de la prueba de los signos.
EJEMPLO ILUSTRATIVO
La razón promedio de diarrea aguda según el grupo de edad en los
pacientes a consulta medica de acuerdo a los datos estadísticos de
(morbilidad por consulta
medica de urgencia del hospital San
Francisco de Asís de Quibdó), es anotada cada mes por un periodo de
dos años, la hipótesis:
95
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Ho la razón de diarrea aguda en el servicio de urgencia del hospital San
Francisco de Asís de la ciudad de Quibdó no es decreciente.
H1 : La razón de diarrea aguda en el servicio de urgencia del Hospital San
Francisco de Asís de la cuidad de Quibdó es decreciente.
La razón de diarrea aguda es conocida siguiendo un ciclo anual y de acuerdo
a un grupo de edad.
96
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
TABLA QUE NOS MUESTRA LOS NIÑOS AFECTADOS POR DIARREA
97
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
1993
1994
4 años
451
459
517 +
522 +
5
14 años
132
170 +
15
44 años
229
276 +
45
59 años
59
53
59
81+
Menor de 1 año
1
60 y más años
98
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Xi
yi
99
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
T = Número de pareja donde el año /94 tiene un alto número de pacientes
con diarrea aguda con relación a /93 (yi>Xi), lo cual es de 5 en
este ejemplo.
Debido que la prueba es detectar una tendencia hacia arriba, la región crítica
de tamaño 0.0730 corresponde a todos los valores T ≤ 3, ver tabla
con n = 6 y P = ½ . Por consiguiente Ho es aceptada. El nivel critico
∝ es dado por
∝ = P ( T ≤ 5 / Ho es V ) = 0.387.
3.10. PRUEBA X² PARA DIFERENCIAS EN PROBABILIDADES 2x2.
DATO:
Cuando los datos de investigación consisten en frecuencias de
categorías discretas, pueden usarse la prueba X² para determinar la
significación de las diferencias entre dos grupos independientes. La
medición implicada puede ser tan vaga como escala nominal.
Los conceptos y técnicas en que se basa esta prueba fueron presentada en
1.900 por Karl Pearson (1857-1936), quién ha sido llamado el
fundador de la ciencia estadística.
Un investigador puede estar interesado en saber, respecto
de una
población, si dos criterios de clasificación están probablemente
relacionados ó no .
Una muestra aleatoria de Na observación es sacada de una población ( o
antes de aplicado el tratamiento)
y cada observación es
clasificada en las clases 1 o 2 el Nº total en las dos clases están
dada por a1 y a2 respectivamente en donde a1 + a2 = Na.
Una
Nb observación es sacada de una segunda población ( o la primera
población después de haber aplicado algún tratamiento), y Nº total
de observaciones en la clase 1 es b1 y número total de la clase es
b2 entonces b1 + b2 = Nb .
Los datos se arreglan en una tabla de contingencias 2x2.
100
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
CLASE 1
Tratamiento
1
Tratamiento
2
Población
1
Población
2
CLASE 2
TOTAL
A
A1
a2
Na
B
B1
b2
Nb
101
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
TOTALES
N1
N2
N
102
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
El número total de observación es N.
SUPOSICIONES
1. Cada muestra es una muestra aleatoria
2. Las dos muestras son muestralmente independientes.
3. Cada observación puede ser categórizada en la clase 1 o 2
La probabilidad que un elemento sea seleccionado
aleatoriamente estará en la clase 2 y será denotada por p1 en la
población 1 y p2 en la población 2.
HIPÓTESIS:
(I).-
Prueba Bilateral
Ho : p1 = p2
H1: p1 ≠ p2
(ii)
Prueba Unilateral
Ho : p1 ≤ p2
H1 : p1 > p2
No es necesario que p1 y p2 sean conocidos
PRUEBAS ESTADÍSTICAS
N (a1 b2 - a2 b1) ²
T=
N( a1b2 - a2b1) ²
---------------------------------------------------------- = ---------------------------(a1 + b1) (a2 + b2) (a1 + a2) (b1 + b2)
N1 N2 Na Nb
En 1.934, Yates propuso el empleo de lo que se ha venido a llamar
corrección de Yates para continuidad, cuando se esta calculando X
² , con base en una tabla de contingencia 2x2. El propósito de la
corrección es mejorar la aproximación de la distribución X ²
a
la X ². La corrección consiste en restar 0.5 n del valor absoluto de
a1b2 - a2b1 en el numerador de la ecuación.
103
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Es decir X ² (corregida)
N (a1b2 - a2b1 - ½ N) ²
= ----------------------------------------.
N1 N2 Na Nb
REGLA DE DECISIÓN:
La exacta distribución de T es difícil de tabular por que todas las diferentes
combinaciones de a1 , a2 , b1 y b2, por lo tanto la gran aproximación
es usada para la T , la cual es X² (1).
(y) Prueba Bilateral: Rechazar Ho a un nivel aproximado ∝ sí T > X1 - ∝ ,
el cuantíl ( 1 - ∝ ) de una X²
(ii)
(1) .
Unilateral: Calcular las proporciones de las muestras en clase 1, a1/
NA, y b1 / NB. Si a1/ NA ≤ b1 / NB, en acuerdo con Ho se acepta
Ho inmediatamente. Si a1 / NA > b1 / NB, entonces calculamos T ,
y rechazamos Ho a un nivel aproximado de ∝ / 2, si T > X1 - ∝ ,
el cuantíl ( 1 - ∝ ) de una X²
(1) .
PROCEDIMIENTO
Estos son los pasos para usar la prueba X² para dos muestras
Independientes:
(i). Se calcula las frecuencias observada en una tabla de contingencia k x r
usando las columnas de k para los grupos y las filas de r para las
condiciones. Así, aquí k = 2.
(ii). Se determina la frecuencia esperada para cada una de las celdillas para
obtener el producto de los totales Marginales comunes a ella y
dividirlo por (N es la suma de cada grupo de totales Marginales.
Representa el número total de observaciones independientes. Las N
Infladas invalidan la prueba) .
El paso 2 es necesario cuando los datos están en una tabla de 2x2, lo que
permiten el uso de la fórmula X² (corregida).
104
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
(iii) Para una tabla 2x2, se calcula X² en la formula X²
(corregida).
Cuando r > 2, se calcula X² con la formula X² (no corregida).
(iv). Se determina la significación de la X² observada consultando la
tabla para una prueba de una cola, se divide por dos el nivel de
significación señalado.
Si la probabilidad dada por la tabla es igual o menor que
Ho y se acepta H1
∝,
se rechaza
EJEMPLO ILUSTRATIVO
Dos enfermedades sacadas del cuadro estadístico del ISS (Causas de
demanda en consulta médica por grupos de edad, resumen mensual),
son muestreados aleatoriamente.
Para determinar si la proporción del grupo de 45 y más años afectada es
diferente para la dos enfermedades. De la primera enfermedad
(I.R.A) 424 de 1476 pacientes fueron afectadas, de la segunda
enfermedad
( H.T.A) 1.216
de los 1.404 son consideradas
afectados .
ENFERMEDAD Nº 1.
ENFERMEDAD Nº 2
AFECTADAS
NO AFECTADAS
424
1.216
1.640
1.052
188
1.240
1.476
1.404
2.880
105
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Las suposiciones son conocidas y una prueba bilateral es usada.
Ho: la proporción afectada son iguales
N ( a1 + b2 - a2 + b2 )2
T = ------------------------------n1n2 ( a1 + a2 ) (b1 + b2)
T =
T =
2880 [(424) (188) - (1052) (1216) ] 2
------------------------------------------------------1476(1404) (1640) (1240)
2880 [ 79712 - 1279232 ] 2
----------------------------------------( 1476) (1040) (1640) (1240)
2880 [ - 1199520 ] 2
T = ----------------------------------------- = 983.30
(1476) (1404) (1640) (1240)
T = 983.30
El cuantíl 0.95 de X2 (1) , es 3.841 por lo tanto la región crítica de tamaño
aproximadamente es 0.05 que corresponde a valores de T > 3.841,
así Ho es aceptable.
3.11. PRUEBA DE Mc NEMAR PARA CAMBIOS DE SIGNIFICANCIA
Esta prueba es particularmente apropiada para los diseños de “antes y
después “en las que cada persona es usada como su propio control,
en la medida tiene la fuerza de escala nominal y ordinal. Así, podría
usarse para probar la efectividad de un tratamiento particular.
DATO : El dato consiste de observaciones en n v.a bidimensionales
(xi, yi); i = 1,....., n . La escala de medida para Xi e yi es normal con 2
categorías , las cuales pueden ser “ 0” y “ 1” , esto es , los
valores posibles de ( xi , yi ) son ( 0,0) , ( 0,1) ; ( 1,0) y ( 1,1 ) .
En la prueba de MCNEMAR los datos son usualmente resumidos en una
tabla de contingencias 2 x 2 como sigue:
106
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Xi = 0
Xi = 31
a ( números parejas donde
b ( No de parejas donde Xi=0
Xi= 0 y
y
yi = 0
c ( número de parejas donde
Xi = 1
y
yi = 0
yi=1
d ( # de parejas donde Xi=1
y
yi=1)
SUPOSICIONES
(i) Las parejas ( xi , yi ) son mutuamente independientes
(ii) La escala de medida es nominal con 2 categorías ∀ xi , yi .
(iii) La diferencia p( xi=0 , yi=1) - p( xi=1 , yi=0) es negativa ∀i o
positiva ∀i.
HIPÓTESIS
Ho : p( xi=0, yi=1) = p( xi=1, yi=0) ∀i
H1 : p( xi=0, yi=1) ≠ p( xi=1, yi=0) ∀i
Esta hipótesis puede tomar una ligera forma diferente si agregamos
p( xi=0, yi=0 ) a ambos lados de la ecuación en
Ho : p( xi=0, yi=1) + p( xi=0, yi=0) = p( xi=1, yi=0) + p( xi=0, yi=0)
107
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
El lado izquierdo de Ho incluye todas las posibilidades para yi , y aquí es
igual p( xi = 0) similarmente, la parte derecha incluye todas las
posibilidades para xi , y así igual
p( yi=0) por consiguiente
tenemos un nuevo conjunto de hipótesis en la forma :
Ho : p( xi=0) = p( yi=0) ∀i
H1 : p( xi=0) ≠ p( yi=0) ∀i
Claro está, que es equivalente a:
Ho : p( xi = 1 ) = p ( yi = 1)
H1 : p( xi = 1) ≠ p ( yi =1 )
PRUEBA ESTADÍSTICA
La prueba estadística para esta prueba de
escrita así:
NCNEMAR
es usualmente
(b - c) ²
T1= -------------b+c
Sin embargo para
b + c ≤ 20 se prefiere
T2
= b.
Nótese que Ni T1 ni T2 depende de a o d ,
esto debido a que a
y d representa el número de empates , y estos son descartados
en el análisis .
REGLA DE DECISIÓN
Sea
n = b + c. Si n ≤ 20 usar la tabla. Si ∝ es el nivel de
significancia deseada ver la tabla con n = b + c y
p = ½
encontrar en la tabla el
valor correspondiente
Rechazar Ho si T2 ≤
2∝1.
t
y
o
∝/2
aproximado llamado este
es llamado
si
t.
T2 ≥ n -
t
∝1
y el
al nivel de significancia de
108
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
En otro caso aceptar Ho si n > 20 use T1 y la tabla.
Rechazar Ho al nivel de significancia
es el Cuantíl de
X²
( 1 ) en
∝
si T1
>
1-
∝
en donde 1-
∝
otro caso acepar Ho .
PROCEDIMIENTO
( i) Se ordena las parejas en un tabla de contingencias 2 x 2 .
(ii) Se determina las frecuencias esperadas en las celdillas a
y d.
(iii) Se determina la probabilidad conforme a Ho asociada con un valor
tan grande como el valor observado de la X² en la tabla.
109
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
EJEMPLO ILUSTRATIVO.
Durante los meses de Abril - Julio del año 1996 se entrevistaron a 100
personas (M.a) que llegaron al Hospital San francisco de Asís de la
Ciudad de Quibdó a utilizar el servicio.
Dichas entrevista fueron realizadas antes que las personas utilizarán los
servicios y después de haberlo utilizado.
El objeto de la entrevista fue la calidad de los servicios hospitalarios de dicha
entidad. Cuya respuesta fueron calificada como buena calidad o mala
calidad.
64 personas manifestaron mala calidad antes de utilizar el servicio. Y 36
manifestaron buena calidad.
Después de utilizar los servicios las mismas personas expresaron su opinión
de nuevo.
Aquellas personas que anteriormente manifestaron
exactamente 0.125 % cambiaron su opinión.
mala
calidad
Las personas que anteriormente manifestaron buena calidad 0.25%
exactamente cambiaron su opinión.
Los resultados arrojados por la entrevista fueron ubicado en la siguiente
tabla.
DESPUES
110
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
BUENA CALIDAD
A
N
T
E
S
a
MALA CALIDAD
b
56
c
8
64
9
36
d
27
111
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
100
SOLUCIÓN:
Se establecieron las siguientes hipótesis
Ho: A los entrevistados les interesan la entrevista preocupándole los
resultados que pueda esta arrojar por el problema de la buena o mala
calidad del servicio.
H1: Se establece un cambio en porcentajes en todos los entrevistados
quienes manifiestan mala calidad. Considerar los Xi en ( Xi , Yi ) =
0 , si la i-ésima persona manifiesta mala calidad antes , ó , 1 si las
personas que manifiestan buena calidad antes.
Análogamente yi identifica a la i-ésima persona después de la entrevista.
La estadística es:
( b - c )²
(8 -27 )²
( - 19 )²
361
T = ---------------- = ---------------- = ---------------- = ---------- = 10.34
b +c
8 + 27
35
35
Entonces
T1 = 10,34
La región crítica de tamaño ∝ = 0.05 corresponde a todas los valores
T1 > 3,84 , el cuantíl 0.95 de X² (1) de la tabla. Debido que 10, 34 >
3, 84
Entonces se rechaza la hipótesis nula y la inferencia que se hace es que los
entrevistados en su mayoría están interesados de la mala calidad de
los servicios hospitalarios.
3.12 LA PRUEBA DE LA MEDIANA.
Es uno de los métodos no paramétricos más simples.
La prueba de la mediana es un procedimiento para contrastar o probar si dos
o más grupos (muestras) independientes (no necesariamente del
mismo tamaño) provienen de poblaciones con igual mediana. Para
mayor simplicidad, se limitará aquí el estudio a dos muestras
solamente, pero el procedimiento se puede extender muy fácilmente a
tres o más muestra.
112
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
DATOS : Para cada una de las K poblaciones se obtienen una muestra
aleatoria de tamaño ni con
i = 1,2,.... , K ; se determina la
mediana combinada de la muestra . Esto es el número el cual es
excedido por la mitad de las observaciones al ordenar N ( N = ni +
n2 + ....+ nK ) el valor de la muestra determinada. Esta es llamada la
“Gran Mediana”.
Sean a, b los números de observaciones de la muestra que excede a la
gran mediana y c, d el número de observaciones que están por
debajo de la gran mediana. Sean ni y n2 los números de
observaciones en las dos muestras respectivamente; se obtienen una
tabla 2 x 2 como sigue:
113
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Números de valores
Por encima de la media
Por debajo de la gran media
Grupo Ι
a
c
Grupo ΙΙ
b
d
TOTAL
a+b
c+d
114
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
TOTAL
a+c =n1
b+d = n2
n1 + n2 = n
115
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
SUPOSICIONES: Se basa
esta prueba en las siguientes suposiciones:
(i) Las muestras son seleccionadas al azar (aleatoria), de sus poblaciones
respectivas.
(ii)
(iii)
Las poblaciones son de la misma forma, difiriendo
localización.
Las muestras son independientes
necesariamente iguales.
sólo
en la
cada una de las otras y no
(iv) La variable de interés es continua.
(v) La escala de medida es ordinal.
(vi) Si todas las poblaciones tienen la misma mediana , entonces todas las
poblaciones tiene la misma probabilidad
excede la gran mediana.
ρ
de que una observación
La hipótesis de nulidad Ho supone que todos las K
poblaciones tienen la misma mediana ; la hipótesis alterna Hi supone
que al menos una de las poblaciones tiene diferentes mediana
( Prueba de dos colas ) o que la mediana de una población es más
alta que la otra ( prueba de una cola ) .
HIPÓTESIS:
PRUEBA ESTADÍSTICA:
Si la hipótesis Ho es cierta, esto es, si las dos poblaciones de donde sean
tomado las muestras tienen igual mediana, seria de esperar que la
mitad de los valores de cada muestra quedaran por encima y la mitad
por debajo de la gran mediana. Es decir que se esperaría que: a =
c = 0.5 n1 y que b = d = 0.5 n2
Entonces, si n = n1 + n2 es mayor que 20 y cuando la frecuencia esperada
en cada casilla es por lo menos 5 , se puede utilizar X² corregida
por continuidad. Si la más pequeña frecuencia esperada es menor
que 5, se usa la prueba de Fisher; cuando n1 + n2 es menor que 20,
se usa la prueba de Fisher.
En este caso usaremos:
116
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
n ( ad - bc  - n/ 2 ) ²
X² = ----------------------------------- = T
(a +b)( a+c) ( c+d)( b+d)
Que tienen un (1) grado de libertad
REGLA DE DECISIÓN.
La región crítica aproximada de tamaño α corresponde a valores de T > X 1
-α
, (
1-α
) es el cuantíl de X²
( k-1)
si T > X
1-α
rechazamos
Ho.
PROCEDIMIENTOS
Estos son los pasos para el uso de esta prueba:
(i)
Se determina la mediana combinada (gran mediana) de los puntajes
n1 + n2
(ii)
Se dividen en la mediana combinada los puntajes de cada grupo. Se
registra las frecuencias resultantes en una tabla 2x2
(iii)
Se encuentra la probabilidad de los valores observados por la prueba
X² (según criterio).
(iv)
Si la p resultante de la prueba es igual a o menor que ∝ , se
rechaza Ho.
EJEMPLOS ILUSTRATIVOS.
Cuatro diferentes enfermedades registrada en el ISS (teniendo en cuenta el
orden para cada enfermedad establecido en el anexo de causa de demanda
en consulta medica por grupos de edad fecha año /95 mes, Ι - VΙ ) fueron
asignada aleatoriamente a un gran número de persona para cada mes se
estableció el número de individuo que padecían cada enfermedad.
117
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
ENFERMEDADES
E.D.A
SINDROME FEBRIL
ANEMIA
AMIBIASIS
43
49
29
38
6
19
3
18
85
45
28
28
62
48
62
27
40
36
46
23
51
44
38
22
Con el propósito de determinar si hay una diferencia entre las enfermedades
como resultados de las causas de demanda en consulta médica por
grupo de edad, se emplea la prueba de la mediana, debido a la
diferencia entre las medianas de la población podría interpretar como
una diferencia en el valor del grupo de edad.
Ho :
Todos los grupos de edad tiene la misma mediana en la causa de
demanda con consulta médica .
Hi :
Por lo menos dos de los grupos de edades difieren con respuesta a la
mediana en la causa de demanda en consulta médica.
Un conteo revela que existe 24 observaciones, así el promedio de la 12 ava y
la 13 ava obsecración mas pequeña es la gran mediana.
118
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
119
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
ENFERMEDADES
E.D.A
SINDROME FEBRIL
ANEMIA
AMIBIASIS
TOTAL
> 38
6
3
2
0
11
≤ 38
0
3
4
6
13
120
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
TOTALES
6
6
6
6
24
121
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Los tamaños de la muestra son pequeños usando X² la región corresponde
a valores de T = > 7.815 el cuantíl 0.95 de X² (c-1) = 3 ; T es
calculada usando
N2
2
6
( o1i − nia / N )
T = ------- ∑
ab
i=1
(24)2
( 6 - (6)(11)/ 24 )2
( 3 - (6)(11)/ 24 )2
T = ----------------------------------- + ----------------------- +
(11) (13)
6
6
(3 - (6)(11)/ 24 )2
( 0 - (6)(11)/ 24 )2
---------------------- + -----------------------6
6
576
T = -------143
( 6 - 2.75) 2
( 3 - 2.75) 2 ( 3 - 2.75) 2 ( - 2.75) 2
------------------ + --------------- + --------------- + ------------6
6
6
6
( 6 - 2.75) 2
( 3 - 2.75) 2 ( 3 - 2.75) 2 ( - 2.75) 2
------------------ + --------------- + --------------- + ------------6
6
6
6
T = 4.02
10.56
T = 4.02 (
0.0625
0.5625
7.562
------------------ + --------------- + --------------- + -------------)
6
6
6
6
T = 4.02
(
T = 4.02
(3.12449) = 12.560449
1.76 + 0.01041 + 0.09375 + 1.26033)
122
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Debido que T = 12.560449 se tiene que T = > 7.815 ===> Ho
es
rechazada, utilizando tabla se nota que el nivel critico es
ligeramente menor que 0.001 ====> ∝ = 0.001.
3.13.
LA PRUEBA DE BONDAD DE AJUSTE DE KOLMAGOROV - SMIRNOV
Cundo se desea determinar qué también se conforma la distribución teórica
de los datos de la muestra o alguna distribución teórica , una prueba
conocida como prueba de bondad de ajuste de Kolmagorov Smirnov proporciona una alternativa a la prueba ji - cuadrada de
bondad de ajuste .
La prueba recibe su nombre de A. Kolmagorov y N.V Smirnov, dos
matemáticos rusos quienes introdujeron dos pruebas íntimamente
relacionadas en la década de 1.930.
DATOS: Muestra aleatoria de
X1, X2..... , Xn de tamaño n asociada con
alguna función de distribución desconocida denotada por F (x).
SUPOSICIONES:
(i) La muestra es aleatoria.
(ii) Si la función F * (x) en Ho es continua la prueba es exacta.
HIPÓTESIS: Sea F* (x) una distribución completamente especificada.
(i)
Bilateral:
Ho : F (x) = F * (x)
∀x
] - α, α [
∀x
] - α, α [
∀x
] - α, α [
H1 : F(x) ≠ F * (x)
(ii)
Unilateral
Ho : F (x) ≥ F* (x)
Hi : F (x) < F*(x)
(iii)
Unilateral
Ho : F(x) ≤ F*(x)
123
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Hi : F(x) > F*(x)
PRUEBA ESTADÍSTICA:
Sea S(x) la función de distribución empírica basada en la muestra aleatoria
X1 , X2, ...., Xn
(i)
Bilateral
T1 mayor distancia vertical entre S(x) y F*(x)
T1 = Supx
(ii)
| F* (x) - S(x) |
Unilateral :
T+1 = Sup x
(iii)
[
T+1
F * (x) - S(x) ]
Unilateral : T1
T-1 = Sup x [ F* (x) -S(x) ]
REGLA DE DECISIÓN
Rechazar Ho al nivel de significancia
(1 - ∝ ) W1- ∝ dado por la tabla.
∝ si T1, T+1 o T-1 excede al cuantíl
PROCEDIMIENTOS
(i) Sea F*(x) la función distribución teórica acumulada completamente
especificada bajo la hipótesis nula.
(ii) Sea Sn(x) la f de a muestra basada en
cualquier X observada,
n observaciones para
k
Sn (x) =-------------, en donde k es el número de observaciones menores ó
n
iguales a X
(iii) Determinar la desviación máxima T1 definida por
T1 = Supx
[
F* (x) - S(x) ]
124
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
(iv) Si, para el nivel de significancia escogido, el valor observado de T1 es
mayor o igual que el valor crítico tabulado. La hipótesis deberá ser
rechazada
EJEMPLO ILUSTRATIVO.
Una muestra aleatoria es obtenida del grupo de edad 45-59 años al 1000%
a través del cuadro estadístico (10 primeras causas de morbilidad por
consulta de urgencias del hospital San Francisco de Asís de la ciudad
de Quibdó en enero - Diciembre / 94)
X1 = 0.198
X2 = 0.098
X3 = 0.052
X4 = 0.428
X5 = 0.083
X6 = 0.081
X7 = 0.134
X8 = 0.103
X9 = 0.017
X10 = 0.026
La hipótesis nula es la función de distribución uniforme cuya expresión
matemática para la distribución hipótizada es:
F* (x) =
0, si X < 0
X, si 0 ≤ X < 1
1, si 1 ≤ X
Formalmente la hipótesis es:
Ho: F (x) = F* (x)
H1: F (x) = F* (x)
Donde
F (x) es la función de distribución desconocida común de los
Xi; i = 1... 10 y F* (x) es cuando se usa la prueba bilateral de
Kolmagorov para la bondad de ajuste.
La región crítica de tamaños ∝ = 0.05 corresponde a valores de T1 mayor al
cuantíl 0.95 igual 0.409 obtenido en tabla de T1 es obtenido
graficando la función de distribución empírica S(x) encima de F* (x) .
F* (x) .
1
125
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
0.5
0.5
1
La distribución hipotetizada de la función
Ho: F(x) ≥ F* (x) ∀x
T1 = 0.290
S(x)
F*(x)
0.5
1.0
La mayor distancia vertical que separa las dos gráficas es 0.290 lo cual
ocurre cuando X = 0.710 por que S (0.710) = 1 y F* ( 0.710 ) =
0.710 ==> T1 = Sup∝ | F* (x) - S (x) | = | F*( 0.710) - S(0.710 | = |
0.710 - 1 |
= 0.290
126
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Así que T1 = 0.290 luego T1 es menor 0.409 ( T1 < 0.409 ) entonces Ho es
aceptada , el nivel crítico ∝ es visto en tabla y es mayor o igual que
0.20
3.14 LA PRUEBA U DE MANN - WHITNEY
Cuando se ha logrado por lo menos, una medida ordinal, la prueba U de
Mann - Wihitney
puede usarse para probar si dos grupos
independientes han sido tomados de la misma población. Es una de
las pruebas no paramétricas más poderosa y constituye la alternativa
más útil ante la prueba t cuando el investigador desea evitar las
suposiciones que ésta exige o si la medición en u la investigación es
más vaga que la escala de intervalo.
DATOS: La prueba consiste en ordenar por rangos todas las puntuaciones
en orden creciente.
Sea
n1
el número de casos más pequeños de los dos grupos
independientes, n2 el número de casos del más grande. Para aplicar
la prueba U, se empieza por combinar las observaciones o puntajes
de ambos grupos y luego se considera el grupo central.
SUPOSICIONES: Las siguientes suposiciones
son necesarias para el uso
valido de la prueba U, en la verificación de Ho que dos medias son
iguales:
(i) Cada una de las muestras ha sido tomada al azar de su población
(ii) Hay independencia entre las observaciones dentro de cada muestra así
como entre las dos muestras.
(iii) La variable aleatoria que se está considerando es continúa en ambas
poblaciones.
(iv) Los datos representan medida por lo menos en una escala ordinal.
(v) Las dos f . d. de población si tienen alguna diferencia, se diferencian
solamente respecto de la localización.
HIPÓTESIS:
127
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
La distribución de muestreo del estadístico U puede ser aproximada
mediante la distribución normal cuando tanto n1 como n2 son mayor
que 10 si se cumple esta condición es posible utilizar la tabla de
distribución normal estándar de probabilidad para efectuar la prueba .
(i)
Prueba Bilateral:
Ho : u1 : u 2
H1 : u 1 ≠ u 2
(ii)
Prueba unilateral o de una cola
Ho : u 2 ≤ u 1
H1 : u 2 > u 0
(iii)
Prueba unilateral o de una cola
Ho : u2 ≥ u 1
H1 : u 2 < u 1
PRUEBA ESTADÍSTICA.
El estadístico U posee característica que permite ahorrarse el tiempo de los
cálculos , cuando las dos muestra en observación son de tamaño
desigual , para valores medianamente grande de n1 y n2 , el
procedimiento de contar para determinar el valor U
puede ser
tedioso. Una alternativa que de resultados idénticos es asignar el
rango de 1 a la suma de puntajes más baja de la combinación n1 +
n2, el rango 2 al siguiente puntaje menor, y así sucesivamente. Por
lo tanto:
n1 (n1+1)
U = n1n2 + -------------------- - R1 ó igualmente
2
n2 (n2+1)
128
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
U = n1n2 + -------------------- - R2
2
REGLA DE DECISIÓN: La decisión de rechazar o no
Ho en el nivel de
significación ∝ depende de la magnitud de T y de cuál de las
hipótesis i , ii , ó iii , se está verificando.
Se observan los siguientes criterios.
(i)
Prueba de dos colas:
Ho: u1 = u2 valores de T suficientemente
grande o suficientemente pequeño darán lugar al rechazo. Por lo
tanto, se rechaza Ho si la T calculada es menor que W α/2 o
mayor que W1 - α/2 donde Wα/2 es el valor crítico de T dado en
la tabla y W1 - α/2 está dado por
W1 - α/2 = n1 n2 - W α/2
(ii)
Prueba de una cola: Ho: u1 ≤ u2 valores suficientemente grande de
T dan lugar al rechazo. Por lo tanto rechazamos Ho si T es mayor
que W1 - α donde W1 - α = n1 n2 - W α
(iii)
Prueba de una cola: Ho: u1 ≥ u2 valores suficientemente pequeño
de T dan lugar al rechazo. Por lo tanto rechazamos Ho si la T
calculada es menor que W α, donde W α, es el valor crítico de T
obtenido consultando la tabla para n1 , n2 y α.
PROCEDIMIENTO.
Esto son los pasos para usar la prueba u de Mann - Whitney.
(i) Se determinan los valores n1 y n2. n1 es el número de casos en el grupo
más pequeño, n2, el número de casos en el grupo más grande.
(ii) Se ordenan junto los puntajes de ambos grupos, asignado el rango de 1
al puntaje que sea algebraicamente más bajo. Los rangos van desde
1 hasta N = n1 + n2.
Se asigna a las observaciones ligadas al promedio de los rangos ligados.
(iii) Se determina el valor u contado. Por medio del estadístico y se toma
el criterio según el caso de Ho.
129
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
EJEMPLO ILUSTRATIVO.
Pruebe la hipótesis de que no existe diferencia entre las causas de demanda
en consulta médica por grupo de edad “ 15 - 44 y 45 -59 años “ de
acuerdo al resumen mensual del ISS del Chocó durante el mes de
Enero - Junio de 1995.
Teniendo en cuenta el orden de enfermedades ( 12 ≤ X ≤ 21 ), donde X es
el número correspondiente al orden en la tabla estadística llevada por
dicha Institución durante la fecha .
Edad ==> 15-44 años ==> 4 8 29 53 62 39 63 25 42 27 39 26 20 32 24 73
Edad==> 45-59 años ==> 36 38 67 46 48 57 54 25 23 26 36 33 29 32 23.
CAUSAS DE DEMANDA EN CONSULTA MÉDICA POR GRUPOS DE EDADES.
RESUMEN MENSUAL EN ORDEN CRECIENTE
RANGO
Nº
EDAD
RANGO
Nº
EDAD (AÑOS)
PACI
(AÑOS)
PACIENTE
ENTE
1
20
15 - 44
16
36
45 - 59
2
23
45 - 59
17
38
45 - 59
3
23
45 - 59
18
39
15 - 44
4
24
15 - 44
19
39
15 - 44
5
25
15 - 44
20
42
15 - 44
6
25
45 - 59
21
46
45 - 59
7
26
15 - 44
22
48
15 - 44
8
26
45 - 59
23
48
45 - 59
9
27
15 - 44
24
53
15 - 44
10
29
15 - 44
25
54
45 - 59
11
29
45 - 59
26
57
15 - 44
12
32
15 - 44
27
62
45 - 59
13
32
45 - 59
28
63
15 - 44
14
33
45 - 59
29
67
45 - 59
15
36
45 - 59
30
73
15 - 44
130
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Datos brutos y rangos del Nº pacientes obtenidos en la causa de demandas
en consulta Medica por grupo de edad resumen mensual en el I.S.S.
131
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
EDAD 15 - 44
20
24
25
26
27
29
32
39
39
42
48
53
62
63
73
RANGO TOTALES
De enero - Junio de 1995
RANGO
EDAD 45 - 59
1
23
4
23
5
25
7
26
9
29
10
32
12
33
18
36
19
36
20
38
22
46
24
48
27
54
28
57
30
67
236
RANGO
2
3
6
8
11
13
14
15
16
17
21
23
25
26
29
229
132
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
n1 = 15
n2 = 15
calculado u.;
u = n 1 n 2 + n 1(n 1+1) / 2 - R1
u = (15)(15) + 15(15+1) / 2 - 229
u = 225 + 120 -229
u = 345 - 229
u = 116, que es el estadístico de u.
R1 = 229
R2 = 236
Ahora calculamos a U con R2:
u=1n2 + n1 ( n1 + 1 ) / 2 - R2
u= (15)(15) + 15( 15 + 1) / 2 - 236
u = 109.
De estos estadísticos nos interesa el menor ( u = 109). Si se toma el valor
más grande tendríamos que aplicar la transformación u = n1n2 - 116.
Si la hipótesis nula de que n1 + n2 observaciones provienen de poblaciones
idénticas
es
verdaderas, este estadístico u tendrá
una
distribución de muestreo con media de:
nn
uu=
1
2
2
(15)(15)
225
=
= 112.5 Media del estadístico U
2
2
=
Error estándar del estadístico u
σ
=
u
n n (n + n
1
2
1
2
+ 1)
12
=
(15)(15)(15 + 15 + 1)
=
12
6975
= 24.1
12
PRUEBA DE HIPÓTESIS.
La distribución de muestreo del estadístico u puede ser aproximada
mediante la distribución anual cuando n1 como n2 son mayores que
10 y dado que en este problema se cumple dicha condición , es
posible utilizar la tabla de distribución normal Standard de probabilidad
para la hipótesis de que estas muestras se extrajeron de poblaciones
idénticas.
133
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Ho: ρ° = ρ No hay diferencia entre las dos poblaciones, por lo cual tiene la
misma media.
H1 : ρ° ≠ ρ Hay una diferencia entre la dos poblaciones; en particular tienen
medias diferentes .
∝ = 0.15
Dado que estamos utilizando la distribución normal como distribución de
muestreo en esta prueba (ver tabla) podemos determinar que el valor
correspondiente a Z para un área de 0.425 es de 1.44, los dos límites
de la región de aceptación se puede calcular así:
PRUEBA DE HIPÓTESIS DE DOS EXTREMOS EN EL NIVEL DE SIGNIFICANCIA DE
0.15
Uu - 1.44
Uu - 1.44
0.075
0.075
0.4251
0.425
Uu + 1.44 σu = 112.5 + (1.44) (24.1) = 112.5 +34.704 = 147.2 ==> limite
superior.
Uu + 1.44 σu = 112.5 - (1.44) (24.1) = 112.5 - 34.704 = 77.79 ≈ 77.8 ==>
limite inferior.
134
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
La figura muestra los limites de la región de aceptación 77.8 y 147.2 y el
valor de U calculado antes es de 109; se advierte que el estadístico
muestral U se encuentra dentro de 77.8 ≤ X ≤ 147.2 (región). Por
tanto, se
acepta la hipótesis nula de que no existe diferencia y se infiere que los
afiliados que requieren consulta médica en el ISS de acuerdo a las
edades “ 15 -44 y 45 -59 años” son iguales .
3.15 LA PRUEBA DE KRUSKAL - WALLIS.
El contraste o prueba de Mann - Wnitney se puede extender a situaciones
en que comparan 3 o más grupos , y entonces se le conoce como
prueba H , también como prueba o “ Análisis de Varianza” de
Kruskal - Wallis, por el nombre de Willian H . Kruskal y de W.
allen Wallis quienes por vez primera sugirieron su empleo en 1.952.
El análisis de varianza de una clasificación por rangos de Kruskal - Wallis
es una prueba extremadamente útil para decidir si K muestras
independientes son de poblaciones diferentes.
DATOS: Sea
nj ( j = 1 , 2, ...k) el número de observaciones en la
j- ésima muestras.
Primero
se combinan todas las muestras
k y se arreglan las
N = n1 + n2 +.... + nk observaciones en un orden ascendente ,
sustituyendo el rango apropiado de 1 , 2 , ... , n
para cada
observación . En el caso de empate (observaciones idénticas) se
sigue el procedimiento usual de reemplazar las observaciones por las
medias de los rangos que las observaciones tendrían si fueran
diferentes, la suma de los rangos correspondientes a las
nj
observaciones en la muestra j se representa por la variable aleatoria
Rj
SUPOSICIONES
A diferencia del análisis de varianza de un solo factor, sin embargo, este
contraste no exige suposiciones
de distribución normal de la
población y de homogeneidad de la varianza.
Todo lo que supone es que la variable aleatorio respecto de lo cual se van a
comparar los diversos grupos tenga distribución continua. Requiere,
por lo menos, una medida ordinal de la variable.
135
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
HIPÓTESIS
La hipótesis de nulidad Ho que se va a contrastar es que los medio de las
J poblaciones de donde proceden las muestras son idénticas; la
alterna H1 es la de que son diferentes.
Ho : u1 = u2= u3 = uj
H1 : u1 ≠ u2 ≠ u3 = uj
PRUEBA ESTADÍSTICA
La estadística usada en la prueba de kruskal - wallis, definida por la fórmula
que se da enseguida está distribuida como Chi cuadrada ( X ² ) con
gl = k - 1, siempre que los tamaños de las diferentes k, muestras no
sean demasiado pequeñas.
R²j
12
H =------------n( n + 1)
∑
k
j=1
---------
-
3 (n + 1)
nj
Donde
K = Número de grupos
nj = Número de casos en la muestra de orden j
n = ∑ nj , el número de casos de todos las muestras combinadas.
Rj = Suma de rangos en la muestra de orden j.
REGLA DE DECISIÓN
136
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Si H cae en la región crítica H > X² α con gl = k - 1 , se rechaza Ho
al nivel de significancia α , de otra manera se acepta Ho.
PROCEDIMIENTOS:
Esto son los pasos para el uso de la prueba o análisis de varianza de
Kruskal - Wallis,
(i) Se ordenan todas las observaciones de los k grupos en una serie,
asignando rangos de 1 a n
(ii)
Se determina el valor R para cada uno de los
k grupos de rangos
(iii)
Se usa el estadístico dependiendo del tamaño de k y del tamaño de
los grupos y se toma la decisión conforme Ho y α con gl = k - 1.
EJEMPLO ILUSTRATIVO.
Los siguientes datos representan el número de afiliados que fueron a
consulta médica en el ISS del Chocó, en un mes, por tres tipos de
enfermedades.
Causas de Demanda en Consultas Médicas por Grupos de Edades - Resumen Mensual
De Enero - Junio de 1995
ORDEN
CAUSAS
MENORES
DE 1
AÑO
1-4
5 - 14
15 - 44
45 - 59
60 Y MÁS
9
12
E.D.A.
SÍNDROME
FEB
RIL
ASMA
43
29
49
38
85
45
62
48
40
36
51
44
5
18
27
42
25
24
19
137
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Utilice la prueba de Kruskal - Wallis, al nivel de significancia de 0.05 para
probar la hipótesis de que existe una diferencia significativa entre el
número de afiliados que fueron a consulta médica al ISS de Enero Junio de 1995 por E.D.A, Síndrome Febril y Asma.
La siguiente tabla muestra el número de afiliados que fueron a consulta
médica al ISS del Chocó durante Enero - junio de 1995 por Eda (E),
Síndrome febril (S) y Asma (A).
138
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
RANGO
Nº
ENFERMED
RANGO
Nº
PACI
ENTE
1
2
3
4
5
18
24
25
ENFERMED.
PACI
ENT
E
A
A
A
A
6
7
8
9
29
36
38
40
S
S
S
E
139
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
5
27
A
10
42
A
140
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
141
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Nº
RANGO
11
12
13
14
PACI
ENTE
43
44
45
48
ENFERM.
E
S
S
S
RANGO
16
17
18
Nº
PACI
ENTE
51
62
85
ENFERM.
E
E
E
142
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
15
49
E
143
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Rangos de las tres enfermedades por la cual los Afiliados asistieron al ISS
durante Enero - Junio de 1995.
144
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
ENFERMEDADES
E
9
11
15
16
17
18
S
6
7
8
12
13
14
A
1
2
3
4
5
10
145
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
RE= 86
RS = 60
RA =25
N = 18, nE 6, nS= 6, nA = 6, RE = 86, RS = 60, RA = 25
H o : p1 = p2 = p3
H1 : no son iguales las tres medias
∝ = 0.05
Región Critica h > X20.05 = 5.991 para V = 2 (grados de libertad)
El estadístico de la prueba H asume el valor:
2
k
12
R j − 3(n + 1)
H=
∑
n(n + 1) j = 1 n j
H=
12
 (86 ) 2 ( 60 ) 2 ( 25 ) 2 
+
+
− 3(19 ) = 10.95
18 (18+ 1)  6
6
66 
H = 10.95
Luego se decide que como h = 10.95 cae en la región crítica h > 5.991 se
tiene suficiente evidencia para aceptar la hipótesis de que existe una
diferencia significativa entre el número de afiliados que fueron a
consulta médica al ISS de Enero - Junio de 1995 por E.D.A,
Síndrome Febril y Asma.
3.16
LA PRUEBA DE SPEARMAN
Una de las medidas de correlación más simple y de más uso para el caso de
dos variables, es el coeficiente de correlación por rango de
Spearman; denotado por
rs’, y que fue propuesto por Carl
Spearman en l.904.
Esta estadística, a veces llamada r h o, es una medida de asociación que
requiere que ambas variables sean medidas por lo menos en una
escala ordinal, de manera que los objetos o individuos en estudios
pueden colocarse en dos series ordenadas.
DATOS: Su pongamos que N
individuos son ordenados de acuerdos con
dos variables. X y Y , con X = X1 + X2 + X3 + Xi + Xn
146
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Y = y1 +y2 + y3 + yi +... + yn. Podemos ver que la correlación; será perfecta
sí y sólo sí Xi = yi ∀i. Por consiguiente, parece lógico usar las
distintas diferencias di = xi - yi como una indicación de la disparidad
entre los dos conjuntos de rangos.
SUPOSICIONES
(i) X e y son independientes y continuas.
(ii) Ambos variables sean medidas por lo mayor en una escala ordinal
HIPÓTESIS: Podemos emplear el coeficiente de correlación por rango
Spearman como un estadístico de prueba para verificar la
independencia entre X e y.
Las hipótesis que se pueden verificar y las hipótesis alternas, son:
(i)
Prueba Bilateral
Ho : X e y son mutuamente independientes.
(ii)
Prueba Unilateral
Ho : X e y son mutuamente independientes
H1 : Valores grandes de X tienden a aparearse con valores grandes de y .
(iii) : Prueba Unilateral
Ho : X e y son mutuamente independientes
H1 : Valores grandes de X tienden a aparearse con valores pequeños de y.
PRUEBA ESTADÍSTICA
147
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
r
s
= 1−
6∑ d 2
n(n 2 − 1)
Donde:
rs = Coeficiente de correlación por rango
n = Número de observaciones pareados ( # de pares de datos)
∑d = Sumatoria de las diferencias entre los rangos asignados a Xi y
yi.
REGLA DE DECISIÓN
Si n
está entre 4 y 30, comparan el valor calculado de
significación , con el valor crítico apropiado de r *s
tabla
(i)
Bilateral
Rechazar Ho en el nivel de significancia
α
si
rs
rs
, para la
dado en la
> r *s
o
rs
rs <r *s sabiendo que r *s,
está localizado en la
intersección de la columna marcada con α/2 y la fila correspondiente
a n
(ii)
Unilateral:
Rechazar Ho si
(iii)
rs
> r *s, para α y n
Unilateral:
Rechazar Ho si rs > r *s, para α y n, Cuando n es mayor que 30, puede
calcularse
t = rs
n− 2
1−
r
2
s
148
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
149
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Para la significación, con valores apropiados de la distribución
Student, con n - 2 gl.
t
de
También se puede calcular el estadístico
r
Z=
s
n− 1
Y compararlo, para la significancia, con valores apropiados de la distribución
normal estandarizada.
Si hay un gran número de empates, se puede utilizar el siguiente
procedimiento.
(i)
Calcular
T =
t3 − t
12
Donde t es el número de observaciones empatadas para un rango dado en
las X o en las y
(ii)
∑x
Calcular
2
∑ y
∑Tx
2
r
S
=
∑
x2 +
2
n3 − n
=
−
12
∑T
x
n3 − n
=
−
12
∑T
y
∑
∑
y2 −
∑
x2 ∑ y2
d
Donde
= la suma de los valores de T para los rangos empatados de X
∑Ty = La suma de los valores de T para los rangos empatados de y
150
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
A menos que el número de empates sea demasiado grande, utilizando
cualquiera de los métodos se obtendrá una diferencia muy pequeña
en el valor de rs.
PROCEDIMIENTO
(i)
Dado n pares de medidas de X e y , Obtener el rango de los valores
de X desde 1 hasta n ( asignando el rango 1 al valor más `pequeño
de X ) y el rango de los valores de y desde 1 hasta n ( asignando el
rango 1 al valor más pequeño de y ).
(ii)
Para cada par de observaciones, calcular
(rangos de yi)
(iii)
Elevar al cuadrado cada di y calcular ∑ d²
Calcular
hipótesis.
r
S
= 1−
6∑ d 2
2
n(n − 1)
di
= (rango de
x i) -
y comparar según lo prescrito en la
EJEMPLO ILUSTRATIVO.
La hipertensión arterial es la enfermedad caracterizada, por la elevación
persistente o mantenida de la presión sistólica, diastólica o ambos,
demostrable por lo menos en tres temas fortuitas y que evoluciona de
acuerdos con la forma clínica que adopte.
Los factores que al parecer guardan una mayor relación con la hipertensión
arterial son: Edad, Raza, Herencia, Obesidad y dieta rica en sodio.
En la Caja de Previsión Social del Magisterio del Chocó, se tomaron lecturas
de la presión sanguínea a 20 maestros entre las edades de 22 - 55
años.
151
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Datos presentados en la siguiente tabla.
EDAD Y PRESIÓN SISTOLICA SANGUÍNEA (mm.Hg) DE 20 MAESTROS DE QUIBDO CHOCO.
Número del Maestro
Edad (x)
Valor Pres. Sistólica (mm.Hg) (y)
1
22
132
2
24
130
3
26
115
4
28
138
5
30
140
6
33
158
7
35
128
8
36
145
9
38
160
10
40
156
11
41
162
12
43
150
13
45
125
14
46
155
15
48
170
16
49
165
17
50
164
18
52
174
19
53
180
20
55
172
Se desea saber si puede concluir que el valor de la presión sistólica
(mm.Hg) está inversamente correlacionada con la edad.
Entonces, las hipótesis para la prueba unilateral son:
Ho: La presión sistólica (mm.Hg) y la edad son mutuamente independientes.
H1: Existe una tendencia para crear que con la edad la presión sistólica
crece. Suponiendo un ∝ = 0.05.
152
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
ORGANIZANDO LOS ANTERIORES DATOS POR RANGOS TENEMOS
Nº del Maestro
Rango (x)
Rango (y)
Di
d li
1
1
5
-4
16
2
2
4
-2
4
3
3
1
-2
4
4
4
6
-2
4
5
5
7
-2
4
6
6
12
-6
36
7
7
3
4
16
8
8
8
0
0
9
9
13
-4
16
10
10
11
-1
1
11
11
14
-3
9
12
12
9
3
9
13
13
2
11
121
14
14
10
4
16
15
15
17
-2
4
16
16
16
0
0
17
17
15
2
4
18
18
19
-1
1
19
19
20
-1
1
20
20
18
2
4
∑d2i = 270
Sustituyendo los valores de la tabla de rangos en la ecuación:
6∑ d 2 i
s = 1 n( n
S
r Sr =
rs =
(
2
6(270)
− 1)
)
20 (20) 2 − 1
= 1−
1620
= 1 − 0,20
7980
0.80
Consultando en la tabla se observa que, para una prueba unilateral, ∝ = 0.05
r*s es 0.377. Como ELrs = 0.80 calculado
es mayor que el valor crítico r*s se rechaza Ho y se concluye que las
y n = 20, el valor crítico de
dos variables están inversamente relacionadas. Es decir, que con la
edad la presión sistólica crece.
153
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
UNIDAD Nº 4
ASPECTOS GENERALES SOBRE
SERIES CRONOLÓGICAS, NÚMEROS ÍNDICES Y TASA
OBJETIVO
DE LA UNIDAD: Identificar, describir y analizar series de tiempo, determinar la importancia
de la tendencia y demás componentes de una serie de tiempo,Identificar, manejar e
interpretar correctamente números índices, desarrollar destrezas en la aplicación de los
números índices en la gestión administrativa.
CONTENIDOS:
4.0 Series cronológicas.
4.1Componentes de una serie.
4.2Determinación de la tendencia.
4.3Ajuste rectilíneo.
4.3.1Método de mano alzada.
4.3.2 Métodos de los puntos seleccionados.
4.3.3 Métodos de los semipromedios.
4.3.4 Método de los mínimos cuadrados.
4.4 Los números índices.
4.5 Usos de los números índices.
4.6 Proporciones, porcentajes, razones y tasas.
154
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
4.0 SERIES CRONOLOGICAS:
Las series cronológicas son casos de distribuciones bidimensionales, donde
X corresponde a la variable tiempo (años, meses, días) y Y a la variable que
se estudia (producción, ventas, precios, exportaciones, etc.)
Las series cronológicas, denominadas también series de tiempo, se pueden
definir como una colección de datos que pertenecen a diferentes periodos.
Estas series son de gran importancia en cualquier empresa u organismo, no
solo para conocer la situación actual o el comportamiento de una variable en
el periodo observado sino para establecer la tendencia futura. Predicciones
de producción, ventas, empleo, ingreso, población, precios y muchas otras
variables socio-económicas necesarias para estudiar, para planear
actividades futuras de una empresa.
Los movimientos que presentan una serie de tiempo, son producidos por una
variedad de factores de carácter económico, natural o institucional.
Parte del análisis de estas series, consiste en descubrir y cuantificar dichas
influencias.
Los principales factores que afectan una serie de tiempo son: tendencia,
variaciones estaciónales, variaciones cíclicas y variaciones aleatorias.
4.1 COMPONENTES DE UNA SERIE :El
análisis de una serie consiste en
investigar los siguientes cuatro componentes cuya actuación conjunta da
como resultado los valores observados:
a) Tendencias secular o regular: son variaciones suaves y constantes que se sucede en el periodo
relativamente largo. El periodo debe ser largo, generalmente mas de cinco periodos (podrán ser años,
meses, etc.), para poder establecer una línea de tendencia (recta parabólica o exponencial) que sea
representativa o significativa.
b) Variaciones estaciónales: éstas, generalmente, están ligadas a las estaciones del año (verano,
otoño, invierno y primavera); también corresponde a cambios periódicos que se repiten en intervalos de
tiempo más cortos, por ejemplo, el consumo de energicen
las 24 horas del día; el movimiento de
pasajeros en buses de servicios urbanos, en un día, etc.
c) Variaciones cíclicas: son fluctuaciones a largo plazo, más o menos periódicas, que se repiten cada
cierto numero de años, y que, a diferencia de las variaciones estaciónales, es difícil determinar el periodo
o ciclo, ya que no se puede saber con exactitud cuando comienza y cuando termina, tal es el caso de las
fluctuaciones cíclicas originadas en la actividad económica (crisis – recuperación – auge - depresión).
d) Variaciones aleatorias, accidentales o erráticas: son aquellos cambios que se presentan en forma
accidental, siendo difícil su predicción. Por ejemplo, terremotos, inundaciones, huelgas, etc.
155
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
En resumen, la variable Y para algunos autores, es la suma de los anteriores
factores, de tal manera que Y= T + VE+VC+VA; para otros, es el resultado
del producto de estos factores. Y = T. VE. VC. VA. Sin embargo, no faltan
Resumiendo diremos que el movimiento de una serie cronológica se
compone de las siguientes suposiciones:
•
•
•
•
Un movimiento de traslación, T(t).
Un movimiento vibratorio (variación estacional), VE.
Un movimiento de oscilación (Variación cíclica) VC.
Un movimiento perturbador (variación aleatoria) VA.
Modelo o esquema aditivo: se considera que la serie está formada por la
suma de los anteriores factores, de tal manera que
Y= T(t) + VE + VC + VA
Modelo o esquema multiplicativo: es el resultado del producto de estos
factores
Y = T(t). VE. VC. VA.
Sin embargo, no faltan aquellos que se consideren que Y es el resultado de
la combinación de suma y producto de estos factores.
La diferencia entre los modelos aditivos y multiplicativos, es que los
componentes en el primero se consideran como residuos y expresan en
unidades originales en el segundo, la tendencia se expresa en cantidad o
valor y los otros componentes en términos porcentuales o relativos.
En la representación grafica, tomando periodos mensuales o semanales, se
pueden observar mejor las variaciones estaciónales, como las aleatorias, esa
es la razón por la que no se representan en la siguiente figura
156
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
4.2 DETERMINACIÓN DE LA TENDENCIA.
La tendencia puede tomar diferentes formas: rectilínea, parabólica,
exponencial o cualquier otra línea. La selección debe ser aquella que mejor
represente a ese conjunto de puntos. La gráfica ayuda mucho a determinar la
forma de la línea y la dirección que toma. Sin embargo, puede afirmarse, que
no es posible visualizar con absoluta certeza la bondad de su adaptación,
pues solamente el juicio personal y la experiencia del estadístico, son los
elementos que se pueden poner en juego en la elección del mejor ajuste.
La representación gráfica se debe hacer en un plano cartesiano. En el eje
horizontal o abscisa se coloca el tiempo (años, meses, semanas, días, etc.),
en el eje vertical u ordenada se anotan los valores correspondientes a la
variable y(producción, precios, ventas etc.). Para cada unidad de tiempo
corresponderá un valor, Y, el cual se representa en el plano mediante un
punto, y habrá tantos puntos como períodos observados tengamos, los que
al ser unidos, darán una línea, que insinúa la tendencia que presenta esa
serie, y que al ser establecida, se refleja en una línea más sencilla que la
poligonal dada por los datos originales, al mismo tiempo, nos permite
establecer cuál será el comportamiento futuro de esa variable.
Algunos critican este proceso de vaticinio, por el hecho de estar
fundamentado en cifras históricas, que reflejan una vivencia del pasado. Sin
embargo, es un hecho, que cualquier proceso futurista necesita
fundamentarse en el presente y en el pasado. Se debe tener en cuenta que
el comportamiento futuro de la variable, dependerá de las condiciones bajo
las cuáles se dieron las informaciones; por esa razón se recomienda que una
predicción no sea mayor de cinco años, ya que las condiciones pueden variar
157
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
por diferentes razones. Por otra parte, una buena selección de la línea nos
dará una mejor aproximación entre el valor estimado y el valor real.
Su importancia, en cualquier empresa, no es discutible. En la vida comercial
es interesante conocer las fluctuaciones de las ventas a través del tiempo,
las causas que originan esas variaciones, y el comportamiento futuro; todo
esto hará pensar sobre una posible ampliación o reducción de los inventarios
de mercancía, del volumen de la producción, precios, espacio físico, etc.
Una línea que sea seleccionada para representar la tendencia de una serie
cronológica continuará en la misma dirección, si las condiciones que la
originan permanecen constantes. Por esto, al trazar una línea, ya sea recta,
parabólica o exponencial, debemos analizar en primer lugar las causas, y
evaluar la probabilidad de que así ocurra, antes de iniciar cualquier proceso
de estimación.
4.3 AJUSTE RECTILÍNEO
Existen varios métodos para el ajuste de una recta en una serie cronológica.
Entre ellos podemos mencionar:
• Método de mano alzada.
• Método de los puntos seleccionados.
• Método de los semipromedios
• Método de los mínimos cuadrados (este método fue visto en el curso de
estadística uno)
4.3.1 Método de mano alzada o método gráfico.
Este método se le conoce también con el nombre de método gráfico. Es muy
utilizado por personas con mucha experiencia; con su aplicación se obtienen
resultados muy satisfactorios, especialmente cuando la serie presenta muy
pocas variaciones o éstas se producen en forma suave. El inconveniente que
presenta este método, es la no existencia de un instrumento que juzgue
adecuadamente la bondad de la línea, por otra parte, por más experta que
sea la persona, una serie puede dar origen a diferentes líneas, de ahí que se
le considere como un método muy subjetivo. Con una buena experiencia
sobre el comportamiento de la variable, se puede lograr una buena
estimación, muchas veces mejor que la obtenida mediante el método
matemático.
El proceso que se sigue en la aplicación del método de mano alzada,
consiste en dibujar la línea poligonal correspondiente a los datos originales,
luego se estudia su comportamiento, para después trazar una línea recta a
mano alzada a través de esos puntos. Si se prolonga la línea hasta el año
que se desea estimar, leeremos en el eje vertical el valor, precio o cantidad
158
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
de Y para ese año. Algunos consideran que una vez trazada la línea
(cuando es recta), se pueden determinar dos puntos, especialmente el
primero y último y luego, obtener una ecuación matemática para que refleje
la línea de la tendencia.
1998 1999
2000
2001
2002
2003
2004
2005
En el primer caso, la producción estimada para el 2005 podría ser
aproximadamente de 174 millones de pesos, si consideramos que puede
bajar de acuerdo a la experiencia.
En el segundo caso, los puntos se localizan en los años 1998 y 2002. Siendo
los valores de 50 y 150, con los cuales determinamos el crecimiento anual en
la siguiente forma:
b=
2º punto − 1º punto 150 − 50
=
= 25
2002 − 1998
4
Siendo la ecuación general Y = b x + c, se tendrá que: Y* = 25 x + 50. El
valor de x será el tiempo transcurrido entre 1998 y 2005, igual a 7.
Reemplazando tenemos Y* = 25(7) + 50 = 225 el cual será el valor estimado
en el 2005.
4.3.2 Método de los puntos seleccionados.
159
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Este método consiste en localizar dos puntos en la serie, ojala uno al inicio
de la serie y el otro al final de la misma, luego se determina la diferencia que
existe entre ellos y se divide, por el número de períodos transcurridos entre
esos períodos, teniendo en cuenta al iniciar el conteo, considerando cero
para el primer punto o período.
Si señalamos por P1, el valor del primer punto de la serie, P2; el del segundo
valor y t el número de unidades de tiempo transcurrido entre P1, y P2, se
tendrá el incremento, por unidad de tiempo, simbolizado por b, siendo igual
a:
b=
P2 − P1
t
Considerando que la ecuación general de la recta está dada por la ecuación
Y = bx + c se tendrá que el valor de c será igual al primer valor de Y
simbolizado por P1.
Ejercicio 1.
Supongamos que una empresa tiene una serie de datos, sobre el valor de la
producción (en millones de pesos).
AÑOS
1998
1999
2000
2001
2002
2003
2004
PRODUCCIÓN
a) Representar gráficamente dicha serie.
(millones de pesos) b) Ajustar una recta al conjunto de puntos.
c) Estimar el valor de la producción para el 2009.
32
24
38
54
42
66
84
Solución:
Los años 1999 y 2003 se señalan con asterisco para indicar los puntos
seleccionados en la serie;
P1, = c = $24 millones
P2; = $ 66 millones
Siendo
P2-P1
66 – 24
42
160
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
b = ------- = -------------t
2003 – 1999
AÑOS
1998
*1999
2000
2001
2002
*2003
2004
y¡
32
24
38
54
42
66
84
Xi
-1
0
1
2
3
4
5
= ----- = 10.5
4
Y*
13,5
24,0
34,5
45,0
55,5
66,0
76,5
CALCULO DE Y*
10,5 (-1) + 24
10,5 (0) + 24
10,5(1) + 24
10,5(2) + 24
10,5 (3) + 24
10,5(4) + 24
10,5 (5) + 24
El incremento anual es de $ 10,5 millones; además sabiendo que c = 24,
podemos escribir la ecuación para la tendencia en la serie, como:
161
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Y* = bX + c siendo b=10,5 ; c= 24
Con la ecuación Y = 10,5 X + 24, se hace necesario establecer el valor de X
para hacer la estimación de Y en el período 2009; se tendrá que: X = 2009 1999 = 10 años, por lo tanto: Y» = 10,5 (10)+ 24 = 129. Aproximadamente
para el 2009, la producción tendrá un valor de 129 millones de pesos.
Si examinamos detenidamente el anterior método, observaremos:
 Es un proceso muy parecido al método gráfico, pero un poco más
refinado.
 No toma en cuenta sino dos valores de la variable, así que el
crecimiento por cada unidad de tiempo (b) no queda influenciado por
los demás valores.
 Quizás el aspecto más negativo que presenta este método, es el
dejar en libertad a investigador la selección de los dos puntos de
referencia.
Si tomamos a P1 = 24 y P2 = 42, el coeficiente angular o el crecimiento por
cada unidad de tiempo cambia, siendo en este caso más bajo que el
obtenido anteriormente.
42 – 24
18
b= -------------- = ----- = 6 < 10,5
2002-1999
3
De todas maneras, es una forma de obtener una estimación más rápida que
por cualquier otro procedimiento utilizado.
4.3.3 Método de los semipromedíos.
El empleo de este método conlleva a una simplificación de cálculo, pero, al
igual que los anteriores, presenta el inconveniente de no utilizar la totalidad
de los datos, por otra parte, al incorporar uno o más datos en la serie se
deben rehacer todas las operaciones.
El procedimiento que se sigue en el cálculo es:
162
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
• Se divide la serie en dos partes, en tal forma que cada parte contenga un
número impar de períodos. En algunos casos habrá necesidad de ignorar
algunos períodos, especialmente los primeros de la serie.
• Se obtiene la suma de yi para cada una de las partes. El valor de la suma
se coloca al frente de la observación central, en la columna denominada
semisuma.
• Cada semisuma se divide por el número de períodos que contiene cada
parte de la serie, obteniendo así los valores para los semipromedios.
• De ahí en adelante, se consideran dos métodos para hallar los
parámetros b y c, obteniéndose con su aplicación los mismos resultados.
Consideremos los datos de la tabla.
• Si se tiene que la ecuación general de la recta es Y = b x + c se tendrán
dos ecuaciones normales:
(1) 31,33=1b+c
(2) 64=5b+c
El valor de X dependerá del tiempo transcurrido desde el período que se
toma como origen. En este ejercicio, se estableció como origen el primer
período. Siendo una serie continua, se tendrán para X¡ valores de O, 1, 2,
etc., (ver la tabla) a partir de ese origen.
Si multiplicamos la ecuación (1) por -1 y el resultado obtenido se lo restamos
a (2), así se obtendrá el valor del coeficiente angular b:
Tabla 10.1
Conociendo el valor de b, lo reemplazamos en la ecuación (1):
31,33= 8,17+c siendo: c = 31,33 - 8,17 = 23,16
163
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
La ecuación quedará así Y* = 8,17x+ 23,16
Si se quiere estimar el valor de Y* para el 2009 se tendrá que x = 2009 1998 =11 por lo tanto Y*(2009) = 89,87 + 23,16 = 113,03
También se puede utilizar otro procedimiento para calcular los parámetros b
y c.
∑ 1 = primera semisuma
∑ 2 = segunda semisuma
T1, = número de períodos en la primera parte de la serie.
T2, = número de períodos en la segunda parte de la serie.
∑2 - ∑1 192 – 94
98
b= --------- = ---------- = ------- = 8,17
T1(n-T2) 3 (7-3)
12
∑2 + ∑1
c= ----------- =
T1 + T2
192 – 94
286
---------- = ------- = 47,67
3 +3
6
Y* = 8,17 X + 47,67
El origen está localizado en el centro de la serie, en este caso en 2001,
donde x = O,
Si estimamos el valor de Y* para el 2009, se tendrá en primer lugar que x es
igual a la diferencia entre 2009 y 2001. x = 2009 - 2001 = 8
Reemplazando en la ecuación general:
Y*(2009) = 8,17 (8) + 47,67 = 65,36 + 47,67 = 113,03
Con un resultado exactamente igual al obtenido por el método
anterior.
Otra forma más elemental de hacer los cálculos es:
164
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
−
−
64 − 31.33
b = X 2 − X1
=
= 8.17
t
2003 − 1999
Si consideramos como c = 31,33 en este punto X= O, la ecuación será:
Y* = 8,17 X + 31,33
Si deseamos estimar Y* para el 2009, se tendrá que:
x = 2009 - 1999 = 10
Y(2009) = 8,17 (10) + 31,33= 81,70 + 31,33 = 113,03
4.3.4 Método de los mínimos cuadrados.
Los métodos anteriores permiten establecer una ligera aproximación a la
tendencia que presenta la serie. El método más utilizado, para realizar un
buen ajuste, es el conocido como el de los mínimos cuadrados. Este método
no lo veremos en este modulo por que fue visto en el modulo de estadística
uno.
LOS NÚMEROS ÍNDICE
Una parte fundamental de la estadística es la reducción de grandes
volúmenes de datos a formas en que se puedan hacer comparaciones y
sacar conclusiones. Así la media, desviación estándar, y otras funciones
describen una distribución de frecuencia. La tendencia y los índices de
estación, por su parte describen series de tiempo. Los números índice son
medidas estadísticas de datos relacionados, y se los utiliza para comparar
estos datos a través del tiempo, sobre un territorio o de otras formas. En la
práctica de administración y la economía usualmente se tiene la dificultad de
no poder relacionar una variable en un momento determinado, con la misma
variable pero en otro momento. Los números índice son la herramienta con la
cual se puede hacer este tipo de comparaciones que pueden referirse a
precios, costos, ganancias etc.
Generalmente es posible sumar elementos de la misma clase si todas las
medidas están expresadas en las mismas unidades. Es posible medir la
producción anual de trigo de un país sumando la que producen los
agricultores individualmente, aquí todos los kilogramos de trigo son los
165
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
iguales, entonces el valor de la producción total tendrá sentido. Cuando se
quiere medir el compuesto de cambios en la producción de varios artículos,
que no se expresan en las mismas unidades de medida, no se podrá sumar
las producciones ni promediarlas, en este caso se hace necesaria la
utilización de los números índice.
Los números índices son cifras relativas expresadas en términos
porcentuales, que sirven para indicar las variaciones que presenta una serie
de observaciones, cuando se comparan respecto a una de ellas, tomada
como punto de referencia, denominada período base.
Por lo general, los números índices se constituyen en series cronológicas
cuando se utilizan para indicar las variaciones porcentuales de una variable a
través del tiempo.
En una serie corta, el período base corresponderá al primer valor de la
misma; en una serie larga, debe seleccionarse aquel período que haya sido
más estable, es decir, que no presente cambios bruscos debido a factores,
ya sean internos o externos. En algunas ocasiones, la selección del período
base dependerá de lo que se quiera presentar, por ejemplo si se examina
una serie referente a los precios de un artículo, se tendrá que el índice de
variación será mucho más alto, cuanto más lejano se encuentre el período
base; y será más bajo cuanto más cercano esté ese período.
Los números índices son muy usados en el análisis de las ventas,
producción, precios, costos, beneficios, aumentos de capital, comercio
exterior, etc., y en especial cuando se quiere comparar dos series, como por
ejemplo, los cambios en los precios de dos o más artículos durante un
determinado período de tiempo. Por lo tanto habrá necesidad de tener
cuidado con su uso, pues a diferencia de lo que la mayoría cree, el índice no
mide, sólo es un indicador que pretende reflejar el comportamiento de ciertas
observaciones en forma aproximada.
Según su composición, el índice puede ser: simple o compuesto. A su vez
los índices compuestos se clasifican en agregativos y de promedios. Los
promedios, a su vez, se clasifican en aritméticos, geométricos, medianos,
etc., siendo los más utilizados los aritméticos.
Un número índice es un indicador diseñado para describir los cambios de
una variable en el tiempo, esto es, su evolución a lo largo de un determinado
período.
166
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Pueden intentar reflejar:
•
•
•
la evolución en la cantidad de un determinado bien o servicio o de un
conjunto de ellos (por ejemplo cantidades producidas o consumidas).
la evolución en el precio de un bien o servicio o conjunto de éstos.
la evolución en el valor de un bien o servicio o de una canasta de bienes
y servicios.
En el caso de un bien o servicio determinado, el valor corriente, se expresa
como el producto del precio por la cantidad correspondiente a un período
establecido.
Las cantidades se miden en magnitudes físicas y pueden expresarse
simplemente por el número de artículos producidos o por un número preciso
de unidades escalares de longitud, de volumen o de peso. Es imperativo que
la unidad física utilizada sea identificable, ya que de otra forma la noción de
precio no tiene sentido. El precio es la cantidad de dinero pagada por cada
unidad de producto (bien o servicio); por eso es indispensable especificar de
qué unidad física se trata. La afirmación de que “el precio del trigo es de 40
dólares” no aporta absolutamente ninguna información a menos que se sepa
que se está hablando de onzas de trigo, o de libras, o de kilos, o de
toneladas.
Los indicadores de cantidad, sólo tienen sentido en el caso de un producto
único y homogéneo; cuando se trata de varios productos, expresados en
unidades físicas diferentes, es imposible sumar las cantidades, porque las
unidades respectivas no son conmensurables. Por la misma razón, no tiene
sentido ni utilidad sumar precios. En cambio, los valores –es decir, el
resultado de multiplicar los precios por las cantidades- sí son aditivos y
constituyen la base de todas las operaciones de agregación económica.
Importa establecer una clara distinción entre precios y valores. Un valor es el
producto (matemático) resultante de la multiplicación de un precio por una
cantidad. Un precio puede considerarse como el valor de una sola unidad de
un producto dado, de donde se desprende que el único caso en que valor y
precio son sinónimos es el caso especial de una sola unidad de un bien.
A los efectos de la elaboración de un determinado índice, se debe tomar
como referencia un determinado período base. La elección del año o período
base parte de la necesidad de un punto de comparación temporal.
167
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Ejemplo
Para un determinado bien o servicio, se dispone de la siguiente información
sobre cantidad, precio y valor. Si la cantidad está expresada por ejemplo en
términos de toneladas, el precio será precio por cada tonelada. Si la cantidad
está expresada en términos de horas, el precio será por cada hora. El valor,
como fue señalado, será el producto del precio por cantidad.
PERIODO
CANTIDAD (q)
PRECIO(p)
VALOR (p*q)
0
1
2
3
125
181
205
115
2
2.5
2.8
2.9
250
452.5
574
333.5
El cálculo de índices de cantidad, precio y valor, tomando como período de
referencia (período base) el período 0, dará los siguientes resultados:
PERIODO
ÍNDICE DE CANTIDAD
ÍNDICE DE PRECIO
ÍNDICE DE VALOR
0
1
2
3
100.0
144.8
164.0
92.0
100.0
125.0
140.0
145.0
100.0
181.0
229.6
133.4
Cálculo: todos los índices se calcularon tomando como referencia el período
0 (período base). En ese sentido los valores de los índices resultan de:
Periodo
1
Índices de Cantidad:
(181 / 125) x 100
Índices de Precios:
(2.5 / 2) x 100
Índices de Valor:
(452.5 / 250) x 100
2
3
(205 / 125) x100 (115 / 125) x 100
(2.8 / 2) x 100
(2.9 /2) x 100
(574 / 250) x 100 (333.5 / 250) x 100
Como se aprecia, se obtuvieron tres indicadores: uno hace referencia a la
evolución en cantidad del bien o servicio, otro a la evolución en precio y otro
a la evolución en valor.
4.4.1 Selección del periodo base
168
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
La selección del período base, adquiere una gran importancia dado que los
resultados obtenidos tendrán un sentido conceptual respecto de dicho
período. Es por ello que debe contar con ciertas características de
normalidad.
En términos generales, ello implica que durante el período de referencia la
variable cuya evolución pretenda reflejarse no haya tenido valores de
excepción por algún motivo como puede ser la puesta en marcha de medidas
de política económica de carácter coyuntural (temporarias), fenómenos
climáticos poco frecuentes (sequías, inundaciones), acontecimientos políticos
especiales, etc.
Por ejemplo, si el objetivo consiste en mostrar la evolución de las cantidades
producidas de un bien o un conjunto de ellos, es conveniente elegir como
período de referencia uno en el cual dicha producción no haya registrado
valores excepcionalmente altos o bajos.
Otra condición es que la ubicación temporal no debe estar muy alejada en el
tiempo.
4.4.2 Índices simples
Un índice simple se obtiene dividiendo cada precio, cantidad o valor de una
serie dada ya sea en períodos anuales, mensuales, etc. por el precio,
cantidad o valor de uno de esos períodos, el cual ha sido tomado como base
o punto de referencia, el resultado de ese cociente se multiplica por cien.
La fórmula general es
I = índice
t = período que se analiza
O = período base
Xt = precio, cantidad o valor del período que se investiga
X0 = precio, cantidad o valor del período considerado como base.
A veces, se cambia el símbolo X por el de P, si se refiere a precios o
producción, y por Q cuando se trata de cantidades. Así por ejemplo:
169
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Ejercicio 1. Supongamos los precios de un artículo en el período 1999 - 2004,
según la tabla 11.1. Con estos datos, calcular los índices simples de precios
con base 1999 y luego los índices simples con base 2002.
Solución:
Los índices simples con base fija se calculan de la siguiente manera:
Siendo la base Xo = 2005, se tendrá:
Si consideramos, como período base al precio de 2002 se tendrán un valor de
Xo= 4000
170
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Observemos que el índice de precios para 2004 con base 1999 es de 300.
Dicho resultado nos indica que los precios han aumentado en un 200%. Para
la lectura del índice se requiere que le restemos 100, pues corresponde al
punto de partida o período base. En cambio, el índice para ese mismo año
de 2004 con base 2002, nos muestra un aumento menor, es decir, apenas
del 50%. Desde el punto de vista matemático, los dos resultados son
equivalentes, pero en la forma como impresionan al lector, en el aspecto
psicológico, son diferentes.
El índice simple también se puede calcular sin base fija, diferente al
calculado anteriormente, en este caso cada índice se obtiene cambiando de
base. Se dice, que en una serie, los índices son de base variable, cuando a
cada observación se le divide por el valor de la observación inmediatamente
anterior, multiplicándolo por 100.
Ejercicio 2. Con los datos de la tabla siguiente, calcular los índices con base
variable y el respectivo porcentaje de variación.
Solución:
Los índices de base variable se calculan de la siguiente forma:
Debido a que no se tiene información del año
anterior.
171
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Los incrementos o las disminuciones que se presentan para cada período se
dan respecto al año inmediatamente anterior. Así por ejemplo, el precio
aumentó en un 25% para 2004, con respecto al precio de 2003.
Ejercicio 3. En enero de 2004 una fábrica pagó un total de $99.200.000.oo a
120 empleados en nómina. En julio del mismo año, la fábrica tuvo 30
empleados más en nómina y pagó $30.000.000 más que en enero. Tomando
al mes de enero como base, hallar:
a) El índice de empleo
b) El índice del costo de mano de obra.
c) Mediante la igualdad. Precio relativo x cantidad relativa. ¿Qué
interpretación podría darse al precio relativo en este caso?
Solución:
a) Número índice de empleo = NIE
Número índice de empleo = NIE
en cantidad relativa sería 1,25. Crecimiento del 25%.
b) Número índice del costo de mano de obra = ICMO = Salarios pagados en julio
Salarios pagados en enero
Índice de costo mano de obra = ICMO
Valor relativo = 1,3024.
c) Precio relativo =P
Crecimiento del 30,24%.
172
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Si lo multiplicamos por 100 se tendrá que el índice de precio es de 104,19%.
Es decir,
que el índice de costo medio por empleado aumentó en un
4,19% para el mes de julio en relación con el del mes de enero.
4.4.3 Índices eslabonados
El índice simple, lo mismo que el ponderado, con base variable presenta, la
ventaja en primer lugar, de indicar las variaciones para cada período
respecto al anterior, además se puede transformar en índices con base fija,
el cual se obtiene, mediante sucesivas multiplicaciones de los relativos para
cada eslabón:
Supongamos que se desea indicar la variación en el precio de 2004 respecto
al precio de ese artículo en 2001. Supongamos que en la tabla anterior se
tienen únicamente los precios de esos dos períodos, el cálculo del índice
será:
El mismo resultado se obtiene si tuviéramos únicamente los índices de base
fija, tal como lo presenta la misma tabla. Con dicha información se podrá
calcular el índice, en la siguiente forma:
Ahora, si sólo se tiene una serie de índices con base variable, se podrán
encadenar dichos índices, para obtener el índice con base fija:
R = es el relativo o sea
tendrá:
y sin ser multiplicado por 100. Reemplazando se
El encadenamiento anterior lo hemos realizado con índices simples de base
variable, pero también se puede hacer utilizando índices ponderados con
base variable.
173
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Ejercicio 4. Un índice para 2003 revela un aumento del 20% respecto del año
anterior. En 2004 alcanzó a 174, es decir, presenta un incremento anual del
18%. Calcular los índices de 2002 y 2003.
Solución:
ya que el aumento con respecto del año anterior fue del 20%.
debido a que el incremento i en ese año fue del 18%..
Se requiere determinar los
. La base en este ejercicio no se
conoce, por lo tanto puede ser considerado cualquier año.
Si reemplazamos se obtendrá que 174 =
Para obtener
donde
se hace lo mismo que para:
Reemplazando se tiene que 147,45 =
x 1,20; siendo:
Ejercicio 5. Existen tres índices, cuyas cifras son: para 2002 = 107, para
2003 = 108, para 2004 = 104, es decir, que entre 2001 y 2004, el índice
eslabonado aumentó en un 19%. Decir si la anterior afirmación es cierta o
falsa.
Solución:
174
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
4.4.4 Índices agregativos simples
Son los de mayor aplicación, especialmente cuando se cuenta con una serie
de precios de un grupo de artículos, dados en unidades de medida
diferentes.
Estos índices se calculan teniendo en cuenta la suma de los precios,
cantidades o valores de un grupo de artículos para un período, dividida por la
suma de los precios, cantidades o valores para ese grupo de artículos en
otro período, considerado como base.
Ejercicio 6. Con los datos de la tabla siguiente, calcular el índice agregativo
de las cantidades que resultaron en mal estado de conservación, en un
grupo de artículos, comprados en el mes de junio de 1999, respecto a las
cantidades compradas, en mal estado de conservación, en el mes de mayo
del mismo año:
Solución:
175
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Un primer método, consiste en dividir la suma de las cantidades en mal
estado, de los diferentes artículos en el mes de junio, por la suma de las
cantidades en dicho estado de esos mismos artículos para el mes de mayo:
Este procedimiento es poco usual, ya que se realiza sumando las cantidades
de un período, dividiéndola por la suma de las cantidades de otro período,
por tal razón el índice no queda afectado por las variaciones grandes, que
pueden presentarse en uno o varios artículos, de un período a otro; de ahí
que se requiera utilizar otro método que mejor refleje esa variación y consiste
en obtener los índices simples para cada artículo, luego sumarlos y dividirlos
por el número de artículos considerados.
El resultado es un poco mayor al obtenido por el método anterior. Este
aumento se debe a la variación que se presenta en el artículo B durante
ese período.
4.4.5 Índices compuestos
Para explicar los índices compuestos consideraremos como punto de partida
los índices agregativos simples, utilizados en el análisis de un grupo de
artículos sin tener en cuenta la importancia que algunos de ellos pueden
presentar en relación al conjunto. Esa importancia se denomina ponderación.
Supongamos dos artículos de consumo diario: la leche y la sal. Si cada
unidad de consumo aumenta en $200 (el precio por botella y por kilo), los
gastos familiares se verán más afectados por el aumento del precio en la
leche que por el de la sal. Si se supone el consumo de dos botellas diarias,
176
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
implica un incremento en el gasto de $400 diarios, o sea $12.000 al mes,
mientras que el consumo de sal, apenas de un kilo al mes, implica un
incremento de $200. Esa importancia que tiene el artículo leche en relación a
la sal, se denomina ponderación
Existe gran cantidad de fórmulas para calcular índices ponderados, cuyo
empleo dependerá de la naturaleza misma del problema. Recomendándose
utilizar aquella fórmula que mejor refleje en una forma aproximada, las
variaciones que pueden presentar los precios o cantidades de un grupo de
artículos.
Generalmente en los índices que brevemente se expondrán, las
ponderaciones son las cantidades o los precios. Cuando se van a calcular los
índices de precios, en un grupo de artículos, las ponderaciones son las
cantidades, y en el cálculo de los índices de cantidad, las ponderaciones son
los precios. Los índices más conocidos y utilizados son los de Laspeyres,
Paasche, Fisher, Keynes, Marshall, Edgeworth, Waish, Drobisch y Sidgwick.
Veremos algunas de estas fórmulas y el procedimiento de cálculo para
obtener los índices tanto de precios como de cantidad.
4.4.5.1 Índices de precios
a) índice de Laspeyres de precios. Puede interpretarse,
como la relación existente, al comparar los precios actuales de
un grupo de artículos con los precios de esos mismos artículos
considerados en el período base, manteniéndose constante
ponderación las cantidades del período base:
como
Pt, = precio de los artículos en el período que se investiga
PO = precio de los artículos en el período base
qo = cantidad de artículos en el período base
L = índice de Laspeyres
I = índice de precios.
b) índice de Paasche. Se interpreta como la relación
existente entre los precios actuales de un grupo de
artículos, con los precios de esos mismos artículos en el
período base, manteniéndose constante las ponderaciones
que corresponden a las cantidades de dichos artículos dadas para el período
que se investiga:
Observemos que la diferencia entre las dos fórmulas anteriores, radica
únicamente en la base tomada para las ponderaciones, en la primera son las
177
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
qo que se refieren a las cantidades del período base y en la segunda, las qt
que corresponden a las cantidades del período que se investiga.
c) índice de Fisher. Es un promedio geométrico, que se define como la raíz
cuadrada del producto del índice de Laspeyres por el de Paasche:
4.4.5.2 Índices de cantidad
Las fórmulas que se dan para el cálculo de los índices de cantidades de
Laspeyres, Paasche y Fisher son muy parecidas a las de los precios, con la
diferencia de que las ponderaciones son los precios.
Se tendrá con el cálculo de los índices de Laspeyres y Paasche una
indicación de las variaciones en las cantidades para un grupo de artículos,
manteniéndose constantes los precios tomados como ponderaciones. En el
índice de Laspeyres las ponderaciones son los precios del período base, en
cambio, en el de Paasche, son los precios del período que se investiga.
El índice de Fisher es la raíz cuadrada del producto de los índices
ponderados de cantidad de Laspeyres por el de Paasche.
Ejercicio 7. Con los siguientes datos, referentes a los precios (cientos de $) y
cantidades (en ambos casos se han tomado valores arbitrarios) para un
grupo de artículos dados para dos períodos.
178
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Calcular los índices de precios y de cantidades, por las fórmulas de
Laspeyres, Paasche y Fisher.
Solución:
a) Cálculo de los índices de precios:
b) Cálculo de los índices de cantidad:
179
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
También se puede calcular así:
Ejercicio 8. El índice de cantidad de un grupo de artículos es igual a 200, si
se usa la fórmula de Fisher, y a 160 si se emplea la de Laspeyres. ¿Cuál es
el índice de cantidad utilizando la fórmula de Paasche?
Ejercicio 9. Una empresa espera aumentar sus ventas en el año próximo en
un 50%. ¿En qué porcentaje deberá incrementar los precios para que el
ingreso total se convierta en un 250%?
Solución:
Se sabe que el índice de ingreso total es igual al índice de cantidad
vendida por el índice de precios:
250 = (150) x Ind. Precios
Quiere decir, que se deben aumentar los precios en un 66,67%.
Ejercicio 10. El índice de precios de Laspeyres es 2/3 del de Paasche y éste
asciende a 130. ¿Cuál es el índice de Fisher?
180
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Solución:
4.5 Usos de los números índices
Hemos observado con los ejercicios anteriores, algunas de las aplicaciones
de los números índices; tal fue el caso al determinar las variaciones que
sufren los precios, cantidades o valores de un conjunto de artículos, o
aplicados en una serie de tiempo, constituida por una sola variable. Sin
embargo, el uso de los números índices es mucho más amplio,
especialmente en la actividad económica. Veamos algunas de las
aplicaciones más importantes que tienen los números índices:
Cálculo del salario y del ingreso real
Mediante el uso de las siguientes fórmulas, se obtienen:
a) Salario real;
b) Ingreso real:
Este proceso de convertir el salario y el ingreso nominal en real, se conoce
como deflactación o sea la transformación de valores expresados a precios
corrientes en valores precios constantes, con respecto a un período.
Ejercicio 11. Supongamos que un empleado en noviembre de 2003 ganaba
un salario de $860.000 y en el mes de junio de 2004, su salario fue
reajustado con un aumento de $124.000. Se sabe además, que los índices
de precios al consumidor para los mismos meses y años son de 1.564,3 y
2.429,4, respectivamente. Se quiere saber si con el reajuste que le hicieron
su salario mejoró con relación al que tenía anteriormente.
Solución:
Lo primero que hacemos es el traslado de la base del índice de precios al
consumidor (IPC), a 2003 pues ambos tienen la misma base
(supuestamente) en 1988.
181
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Lo anterior quiere decir, que los precios de los artículos de primera
necesidad aumentaron para dicho período en un 55,3%, por lo tanto debe
haber un porcentaje igual o mayor de incremento en el salario nominal, para
que las condiciones económicas sean ¡guales o mejores, para 2004.
El salario real para junio de 2004 será:
El anterior resultado nos indica que el aumento es demasiado bajo, es decir,
que a pesar de estar recibiendo más dinero que antes, o sea $984.000, este
salario apenas equivale a $633.612,36 de aquel período, cuando estaba
ganando $860.000.oo. El aumento debía haber sido de $475.580, o sea que
su nuevo salario debería ser de $1.335.580, en vez de $984.000.
Ejercicio 12. La depreciación monetaria, en un país cualquiera, aumenta cada
año. Durante el período 1998 - 2004, el aumento es de un 10%, respecto al
año anterior. Corregir la siguiente serie de valores, (miles $), de la
depreciación monetaria.
Solución:
182
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Como el índice se incrementa en un 10% anual, a partir de 1998 se tendrán
los siguientes índices:
1998 = 100%
1999 = 100 x 1.10 =110
y así sucesivamente
2000 = 110 x 1.10 = 121
2001 = 121 x 1.10 = 133.1
Luego dividimos cada valor por su respectivo índice obteniéndose de esta
manera los valores corregidos.
Poder de compra
Denominado también como poder adquisitivo del dinero o valor del dinero.
Se refiere a la relación existente entre la unidad monetaria y la cantidad de
bienes que se pueden obtener a cambio de ella.
El poder de compra se halla mediante la aplicación de la siguiente fórmula:
y el índice de poder adquisitivo o de compra:
IO = índice de precios al consumidor, considerado como período de
referencia.
It, = índice de precios al consumidor, considerado como período que
investigamos.
183
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Ejercicio 13. En el caso del ejercicio anterior, se consideró que el índice de
precios al consumidor era de 1.564,3 para noviembre de 2003 y de 2.429,4
para junio de 2004. Además, cuando se hizo el cambio de base, para el mes
de junio de 2004, este índice era de 155,30. Con esos datos se puede
calcular tanto el poder de compra, como el índice de poder de compra para
junio respecto a noviembre de 2003.
Solución
Lo anterior quiere decir, que un peso de noviembre de 2003, para el mes de
junio de 2004 vale 64 centavos. Su valor se ha reducido durante ese período
en 36 centavos. El índice de poder adquisitivo, se podría calcular de dos
maneras diferentes, a saber:
a) Multiplicando el poder de compra por 100 para expresarlo en términos
porcentuales:
IPA = 0,6439 x 100 = 64,39%
b) Utilizando los índices de precios al consumidor de los dos períodos
considerados:
Por otra parte, conociéndose el índice de poder adquisitivo, se puede obtener
el salario real. Recordemos, que en ese mismo ejercicio para el cual se
calculó el IPA, el salario nominal para el mes de junio de 2004 fue de
$984.000 y en noviembre, este era de $860.000.oo
SR = SN x IPA = 384.000 (0,6439) = 633.597,6 como se pudo comprobar,
se obtiene, aproximadamente, el mismo resultado. Dará exacto si trabajamos
con todos los decimales.
Porcentaje de des valorización
Corresponde a la pérdida de poder de compra para un período con respecto
a otro considerado como base.
% de desvalorización = 100
184
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
De acuerdo con los datos anteriores, el porcentaje de desvalorización ha
sido de:
% de desvalorización = 100
=¨
De noviembre de 2003 a junio de 2004, la moneda ha perdido un 35% de su
poder de compra, es decir, ahora necesitamos más dinero para comprar el
mismo artículo o la misma cantidad, debido al aumento en el precio.
Ejercicio 14. Cuando el I PC sube en un 25%, el índice de poder adquisitivo
baja en un 20%. ¿Es cierta o falsa la información?
Solución:
= 80 - 100 = -20 es cierto, bajó en un 20%
Porcentaje de devaluación
En primer lugar, indiquemos cómo se obtiene el porcentaje de aumento o de
disminución en el tipo de cambio.
El tipo de cambio es la cantidad de pesos que debemos dar por un dólar.
Ejercicio 15. En Colombia desde el año de 1970 hasta 1980 el tipo de
cambio ha sido:
185
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Ejercicio 16. ¿El tipo de cambio de $1.529,80 significa una devaluación del
peso colombiano en un 37% respecto a qué cotización?
Solución:
Índice de producción y de productividad
El índice de producción se obtiene mediante la aplicación de la fórmula
utilizada para calcular el índice simple:
186
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
El índice de productividad se puede calcular de dos formas diferentes:
a) Dividiendo cada índice de producción por su respectivo índice de obreros
y el valor resultante se multiplica por 100:
b) Dividiendo la producción de cada año por el número de obreros,
obteniéndose así la productividad por obrero. Luego cada valor resultante se
divide por uno de la serie considerado base, dando como resultado el índice
de productividad de cada año en relación al período base:
Ejercicio 17. Con los siguientes datos, obtener el índice de producción y el
de productividad, tomando como base el período 1998.
Solución:
a) El índice de producción será =
187
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Ejercicio 18. En 2004 el precio de un cierto bien de consumo aumentó en un
60% por encima del de 2003, mientras que su producción disminuyó en un
40%. ¿En qué porcentaje aumentó o disminuyó el índice de valor de dicho
bien en 2004 respecto a 2003?
Solución
Relación precios de intercambio (RPI)
188
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
En el comercio exterior se tienen índices de precios y de cantidad. Los
primeros se denominan índices de valores unitarios, ya que el de precios (Pt,
P0) se obtiene dividiendo el valor total de la mercancía (importada o
exportada), por su cantidad; los segundos, o sea los índices de quantum, se
denominan en esa forma por la sencilla razón que siendo la mercancía tan
heterogénea, no sólo en cuanto a la unidad de medida, sino en cuanto a sus
características (marca, modelo, tamaño, etc.) se debe utilizar una unidad
común: kilos, la que a su vez es considerada como cantidad.
Se tienen por lo tanto índices de valores unitarios y de quantum, tanto para
importación como para exportación.
La relación de precios de intercambio, como su nombre lo da a entender, es
un indicador de las variaciones entre los precios de los artículos de
exportación y los precios de importación. La fórmula para determinar la
relación de estos precios es la siguiente:
I de valor unitario de exportación
RPI = ——————————————————————— x 100
I de valor unitario de importación
Un índice de RPI superior a 100, indica una mejora en los términos de
intercambio, y un índice inferior, corresponde a un empeoramiento de los
mismos.
Teniendo el RPI se puede determinar la capacidad que tiene un país para
importar y se obtiene multiplicando el RPI por el relativo del quantum de
exportación:
Capacidad para importar = RPI (relativo de quantum de X).
Ejercicio 19. Con los datos (arbitrarios) de la siguiente tabla, determinar la
relación de precios de intercambio y la capacidad para importar, tomando
como base 1998.
189
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Solución:
a) Primero cambiamos la base 1995 por la de 1998, dividiendo cada índice
por el primero de la serie:
(/ de valor unitario de exportación)
(/ de valor unitario de importación)
(/ de quantum de exportación)
Y así sucesivamente, se procede en cada una de las (3) tres columnas.
b) La relación de precios intercambio (RPI) se obtiene dividiendo cada índice
de valor unitario de exportación (IVUX) por su respectivo índice de valor
unitario de importación (IVUM).
190
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
4.6 Proporciones, porcentajes, razones y tasas
Constantemente estamos hablando de índices o de indicadores, lo que
puede dar lugar a cierta confusión acerca de términos tales como: índices,
proporciones, porcentajes y tasas, así que es conveniente hacer algunas
observaciones.
Los números índices, tal como se ha visto, relacionan una o más variables en
un período dado (colocado como numerador) con la misma variable o
variables en otro período, denominado base (como denominador) y sirven
para indicar las variaciones que presenta una variable en función de uno de
sus valores, que se toma como referencia o término de comparación.
Como cada relativo lo multiplicamos por 100, los números índices son
porcentajes de variación que presenta cada valor de la variable con respecto
al tomado como referencia. Estos números índices generalmente son
aplicados en las series cronológicas.
La razón, la proporción y la tasa tienen en común, como los números índices,
la relación entre dos valores, el uno como numerador y el otro como
191
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
denominador, siendo el cociente de dividir una cantidad por otra, pero con las
siguientes diferencias:
En la razón, el valor considerado como numerador no debe estar contenido
en el valor correspondiente al denominador, en consecuencia, la razón
puede ser un número superior o inferior a la unidad. En el caso de que la
razón se multiplique por 100 se tiene nuevamente un porcentaje.
Supongamos que el número de personas que visitan un centro mercantil, en
un día cualquiera, es de 7.000, de las cuales, 4.200 son mujeres y 2.800
hombres. Ahora si dividimos a 4.200 por 2.800 se tendrá:
La anterior relación es una razón por el hecho de que el numerador (4.200)
no está contenido en el denominador (2.800). Este resultado significa que por
cada hombre se tiene mujer y media, en otras palabras por cada 100
hombres, 150 mujeres visitan dicho lugar.
Nos indica que las mujeres frecuentan ese centro mercantil en un 50% más
que los hombres.
Cuando el valor del numerador está incluido en el denominador, se establece
una proporción, es decir, el cociente de dividir un sumando cualquiera por su
total. Si tal coeficiente se multiplica por 100 se obtendrá un porcentaje,
Con el ejemplo de las 7.000 personas que en un día cualquiera van a un
centro mercantil, se tendrá que la proporción de hombres que lo visitan es:
Esta proporción nos indica que por cada 100 personas que van a ese centro,
en un día, 40 son hombres y 60 son mujeres.
Ahora, si multiplicamos por 100 se tendrá:
192
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Se observará que la proporción no puede ser menor que O ni mayor que 1.
En términos porcentuales se dirá que es un número comprendido entre O y
100.
Ambos casos fueron considerados en la elaboración de una tabla de
frecuencias y se les denominó frecuencias relativas.
A los porcentajes y a las razones, en numerosas ocasiones, se les denomina
tasas; sin embargo al estudiar los cambios que se operan en una población,
los porcentajes y las razones no son suficientes para analizar completamente
la información disponible, siendo necesario recurrir a la elaboración de tesas.
La palabra tesa se emplea para estudiar una variable en función de otra con
al que está relacionada. Estos cocientes se multiplican por 100,1.000, etc.,
para evitar el uso de decimales.
El mismo ejemplo que ha servido para explicar lo que es una razón, una
proporción o un porcentaje, lo utilizaremos para calcular una tasa:
Con lo cual se quiere indicar que 1,45 por 1.000 de los habitantes de esta
ciudad visitan el centro mercantil.
La tasa específica es aquella que se basa en algunos subgrupos
homogéneos de una población, sin tomar en cuenta la totalidad de la
población.
Con base en el conocimiento de los índices, las proporciones, las tasas, las
razones, los cocientes, y los porcentajes, se presentarán a continuación una
serie de indicadores financieros, algunos de ellos de gran utilidad en el
análisis de un balance.
193
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Object 215
194
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
De acuerdo con esta amplia denominación, el concepto de “ TASA” tiene
aplicación como expresión o cuantificación de riesgo y ha generalizado su
utilización constituyéndose en un medio de expresión genérico en el campo
de la planificación y de la evaluación, aunque en estadística demográfica es
uno de los campos en donde con mayor intensidad se usa.
A continuación se definen e ilustran algunas de las tasas de mayor utilidad.
Tasa bruta de natalidad: Relación entre el total de nacidos vivos en un
período de tiempo (generalmente un año) y la población en la mitad del
período, expresada por mil.
b=
B
x 1.000
N
Donde:
b = Tasa de natalidad
B = El total de nacimientos vivos.
N = El total de población a la mitad del período (generalmente comprende el
Cálculo de la población a la mitad del período).
(Por imperfecciones del registro de nacimientos resulta subvaluada. No todos
los nacimientos ocurridos en el período son registrados).
Tasa bruta mortalidad: Es la relación entre el total de las defunciones en
un período dado y la población media del mismo período, expresada
por mil.
m=
D
x 1.000
N
195
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
Donde:
m = Tasa de mortalidad
D = Total de defunciones
N = El total de población a mitad de período.
196
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
(Por imperfecciones de registro de defunciones resulta subvaluada. No
todas las defunciones acaecidas en el período son registradas).
Las tasas brutas (natalidad, mortalidad, etc.) permiten comparaciones
someras, aunque muy útiles. Por sí solas no permiten el análisis
completo del fenómeno de la mortalidad o el de natalidad, pero son la
expresión de la importancia relativa de las defunciones y de los
nacimientos en los grupos estudiados y permiten establecer
comparaciones entre períodos. Con todo sirven como expresión de la
situación demográfica en un período dado.
Tasa anual de Crecimiento natural. Es la diferencia entre la tasa bruta de
natalidad y la tasa bruta de mortalidad
r = b - m
Donde:
r = Tasa anual de crecimiento o crecimiento vegetativo
b = Tasa de natalidad
m = Tasa de mortalidad.
Tasa anual de crecimiento. Esta tasa permite conocer el ritmo anual
supuesto constante, al que ha crecido la población entre dos
momentos dados.
Las fórmulas con las cuales se calcula la tasa de crecimiento son de forma
exponencial, correspondiente con la curva que presenta el crecimiento
poblacional
N1 = N0 (1+r)
N2 = N0.
e
t
rt
Usando cualquiera de estas expresiones se puede obtener la tasa de
crecimiento “r”
En las fórmulas anteriores se tiene:
r
= Tasa de crecimiento
197
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
t
= Tiempo que media entre el momento inicial y el momento final de
observación
N1 = Población al final del período
N0 = Población inicial o en el momento cero
e = Base de los logaritmos naturales.
Mediante manejo algebraico las dos expresiones anteriores se transforman
en:
log
r = antilog
N
N
t
r=
ln
N
N
1
0
− 1
1
0
t
Ejemplo: El cálculo de la tasa de crecimiento intercensal de acuerdo con los
censos de población colombiana en los años 1951, 1964 y 1973 se
realiza de la siguiente manera :
Fecha del censo
Número de Habitantes
Mayo 9 de 1.951
11.548.172
Julio 15 de 1.964
17.484.508
Octubre 24 de 1.973
22.915.229
Período intercensal
13 años y 66 días
9 años y 99 días
Fórmula 1: Tasa de crecimiento para el período de 1.951 - 1.964
N1 = 17.484.508
N0 =11.548.172
t = 13,18 AÑOS (66/360 = 0.18)
198
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
r
17.484.548 

 log( 11.548.172 ) 
 − 1
= antilog 
13
,
18




r = antilog (0.013668) - 1
r = 1.03197 - 1
r = 0.03197 = 31.97%
Tasa de crecimiento por mil habitantes. Es decir, que la población
colombiana aumentó en 32 personas por cada mil durante el período
de 1951 -1964.
Fórmula 2: Tasa de crecimiento para el período 1964 - 1973
N1 = 22.915.229
N0 = 17.484.508
t = 9.275 años ( 99/360 = 0,275 )
r=
ln
22.915.229
17.484.508 = 0.029163 = 29.16%
9 ,275
Tasa de crecimiento por mil habitantes. Lo que equivale a decir, que la
población colombiana aumento en 29 personas por cada mil durante
el período 1964 - 1973.
Una fórmula alternativa para calcular la tasa de crecimiento (r) es la
siguiente:
r=
Tasa de Mortalidad Infantil.
2( N 1 −
N
1
+
N
N
0
0
) 1
. .k
t
199
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
T.M. I. =
D
0
B
x 1.000
Donde:
T.M.I : Tasa de mortalidad infantil
D0: Número de muertos menores de un año en un período de referencia,
generalmente un año.
B : Total de nacidos vivos en el período de referencia.
Este es uno de los indicadores que mejor resumen las condiciones y la
calidad de vida de una sociedad. Su confiabilidad está directamente
relacionada con la calidad y características del sistema del registro.
Por ejemplo, un registro tardío del nacido vivo, conduce a sobrestimar
la tasa, supuesto un registro completo de las defunciones; una
imperfección en el registro de defunciones conduce a subestimar el
valor de la tasa, supuesta buena calidad en el registro de los nacidos
vivos.
Tasa de mortalidad por edad
Mx =
D
N
X
x 1.000
X
Donde:
mx = Tasa de mortalidad para la edad x ( grupo de edad )
Dx =
Defunciones ocurridas en personas de edad X (grupo de edad)
durante el período de referencia.
Nx = Total de población en edad X (grupo de edad) en el centro del
Período de referencia (generalmente en la mitad del año).
200
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
La tasa así definida tiene por virtud describir las diferenciales de la
mortalidad por edad, que de otra forma se esconden en la estructura
por edad de la población. Así, se puede definir tasas de mortalidad
para población joven ( por ejemplo para menores de 15 años ), para
población adulta ( por ejemplo entre 15 y 60 años ) y para población
vieja ( mayores de 60 años ).
Tasa de fecundidad por edad.
Fx =
B
Nf
X
x 1.000
X
Donde:
Fx = Tasa de fecundidad de mujeres en edad X (grupo de edad)
Bx = Total de nacidos vivos en mujeres de edad X durante el período de
referencia, generalmente un año.
NFx = Población femenina de edad X (grupo de edad) en la mitad del
período de referencia.
Este indicador también describe la diferencia que existe en el proceso
reproductivo según la edad de las mujeres.
Tasas de participación por sexo y edad.
Ax
=
NA
N
X
X
Donde:
Ax = Tasa de actividad correspondiente a una edad X.
NAx = Población Económicamente Activa para la población de edad X.
Nx = Población total de edad X.
201
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
(Los elementos pueden referirse a hombres o mujeres en forma
independiente).
Este indicador pone de manifiesto la variación significativa que ocurre por
sexo y edad en la participación económica. Existe edades en la que la
tasa de participación de los hombres se acerca al 100 por ciento, en
tanto que la de las mujeres puede ser muy próximo a cero, entre otras
atribuibles a los diversos niveles de desarrollo. La participación por
zona geográfica es diferencial por sexo. Así en zonas rurales la
participación de las mujeres es mínima en tanto que la de los hombres
es considerada plena.
BIBLIOGRAFÍA
1.
WYNE.DANIEL, BIOESTADISTICA BASE PARA EL ANALISIS DE LAS CIENCIAS DE LA
SALUD. LIMUSA.MEXICO 1983
2.
SNEDECOR GEORGEW.YG.COCHERAN, METODOS ESTADISTICOS ,CONTINENTAL S.A
MEXICO 1971.
3.
MOOD ALEXANDER M. GRAYBILL FRANKLIN A Y BOES DUANE C. INTRODUCTION TO
THEORY OF STATISCS. THIRD EDITTION
4.
MC GRAW-HILL 1974
CONOVER W. J. PRACTICAL NONPARAMETRIC STATICS JHON WILE Y SONS INC.
NEW YORK. 1971
5.
CONOVOS GEORGE C. PROBABILIDAD Y ESTADISTICA
APLICACIONES Y METODOS
MC.GRAW.HILL MEXICO 1988.
6.
CHAO LINCOLN L. ESTADISTICA PARA LAS CIENCIAS
ADMINISTRATIVAS 2 EDICION
MC GRAWL HILL. 1975.
7
WALPOLE RONALD E. RAYMOND H. MYERS.PROBABILIDAD Y ESTADISTICA
4 EDICION MCGRAWL-HILL MEXICO 1992.
202
MODULO DE ESTADÍSTICA II - ALBERTO QUINTO JIMÉNEZ
8.
LEVIN RICHARD Y. ESTADISTICA PARA ADMINISTRADORES 2
EDICION
PRENTICE.
HALL HISPANOAMERICANA S.A MEXICO 1988.
9.
BOROVKOV A. A ESTADISTICA MATEMATICA MIR MOSCU 1984.
10.
SIEGEL SEDNEY ESTADISTICA NO PARAMETRICA, APLICADA A LAS CIENCIAS DE LA
CONDUCTA TRILLAS, MEXICO 1989