Capítulo 2 Probabilidades

Capítulo 2 Probabilidades
Capítulo 2
Probabilidades
167
Introducción
Problemas con base de datos
Introducción
Como establecí en la introducción, la inferencia estadística, a estudiar en el capítulo 5, requiere del
desarrollo de 3 pilares. Habiendo desarrollado en el capítulo 1 el primero de estos pilares, esto es, la
descripción de los datos, estudiaremos en este capítulo el segundo de ellos: el concepto de
probabilidad. Algún estudiante se habrá preguntado ¿Cómo es posible inferir sobre un conjunto
numeroso de datos (población) solo con una fracción de ellos (muestra). La respuesta es: no es
posible en la estadística paramétrica, a menos que se conozca alguna otra particularidad de la
población (o de alguna variable relacionada). Veremos en los capítulos 4 y 5 que esta particularidad
se llama distribución de probabilidades, tercer pilar, cuyo estudio comienza en el capítulo 3. Estas
distribuciones de probabilidad son, ni más ni menos, los modelos matemáticos que usaremos en la
inferencia estadística26.
Veamos un ejemplo para ilustrar la importancia de la comprensión de conceptos básicos de
probabilidades.
El inversor y el mono
Usted lee en el periódico que un agente de inversiones pudo prever el Éxito o Fracaso de inversiones
en la bolsa en cada uno de los 10 días precedentes. ¿Si usted está por invertir, le confiaría parte de
sus ahorros? Probablemente muchos responderían que sí.
Consideremos ahora a 1000 monos durante esos 10 días. A cada mono le asociamos el Éxito si se
levanta con el pie derecho y el Fracaso si lo hace con el pie izquierdo. Veremos en la Regla del
Producto de la página 183 de este capítulo (y en la distribución binomial del capítulo 3), que en el
primer día aproximadamente 500 acertarán. De esos 500, en el segundo día aproximadamente 250
acertarán y así sucesivamente. Al término de los 10 días probablemente solo 1 mono habrá acertado
todas las inversiones. A este mono, las personas anteriores le habrán confiado sus ahorros.
La clave de la información brindada por el periódico es el tamaño de la muestra. Si ésta es mayor o
igual a 1000, el agente de inversiones pudo obtener los resultados por azar.
La probabilidad es una rama de la matemática que trata de cuantificar la incertidumbre (ausencia de
seguridad) de que ocurra un suceso. La teoría de las probabilidades comenzó con los juegos de azar,
pero se ha convertido hoy en día en una de las ramas de la matemática con más aplicaciones en otras
disciplinas ya sean exactas, naturales o sociales. En la vida diaria y en todas las ciencias, la
incertidumbre ocupa un papel importante. Se presenta por ejemplo cuando el pronóstico del tiempo
nos indica que existe una probabilidad del 90% de que llueva. Esto significa que de acuerdo a los
registros anteriores, de cada 100 días con la situación meteorológica observada hoy, en 90 de esos
casos llovió. No existe certeza de que lloverá pero es una indicación de que es probable que lo haga.
Se parte de la lógica suposición de que un hecho puede ocurrir en el futuro tantas veces como haya
aparecido en el pasado bajo similares condiciones. Lo mismo ocurre por ejemplo en una larga serie
de juegos entre 2 personas (ver el ensayo al final del capítulo 1).
26
Al final de capítulo 5, página bootstrap5, se estudiará una técnica de estadística no paramétrica, llamada bootstrap, que no necesita de la distribución de la población pues está centrada solo en los datos de la muestra. Sin embargo, el concepto de distribución de probabilidades, sigue siendo imprescindible. 168
Jorge Carlos Carrá
Capítulo 2 Probabilidades
La probabilidad es entonces una medida de la incertidumbre o falta de certeza.
Este capítulo se divide en 3 partes:
I.
Valor de una probabilidad P(A)
II.
Teoría de las probabilidades
III.
Simulaciones
La primera parte recorrerá los 3 métodos para obtener una medida o valor numérico de una
probabilidad. Este valor deberá ser luego contrastado con la experiencia y será validado (o no) para
la población, con las herramientas de la inferencia estadística, en el capítulo 5.
La segunda parte es una teoría matemática que permite deducir probabilidades en función de otras
probabilidades. No discute la asignación numérica del paso anterior, sino que, como toda teoría
matemática, provee herramientas para realizar razonamientos deductivos rigurosos y exactos.
La tercera parte enseña cómo realizar una simulación virtual para obtener el valor de una
probabilidad sin realizar la experiencia real.
Antes de comenzar veamos algunas definiciones generales.
Álgebra de conjuntos
Dado que las probabilidades tratan con conjuntos y subconjuntos, resumiremos sus operaciones
básicas, para lo cual resulta muy conveniente la utilización de los diagramas de Venn, tal como se
ilustra en la figura 2-1.
Operaciones
Al espacio total, se lo llama Universo en la teoría de conjuntos y como veremos en seguida, Espacio
Muestral en probabilidades, debido a lo cual se simboliza con S (Space).
Los conjuntos se simbolizan con una letra mayúscula, A, B, C, etc. El número de elementos del
mismo se llama cardinal y se simbolizará con una doble barra vertical. Por ejemplo el cardinal de A
es: |A|.
Las operaciones básicas con conjuntos son 3, una para un solo conjunto llamada Negación y las otras
para dos o más conjuntos, llamadas Conjunción y Disyunción. Sus simbologías y conceptos se
resumen en la figura 2.1:
Símbolo
′
Negación
A = A = noA
Conjunción
Disyunción
A ∪ B = A + b = AoB
A ∩ B = A.B = AyB
Figura 2-1
Notas
Debido a que la barra se usa también para la media, en el caso de que exista confusión, utilizaremos el
apóstrofo.
El "o" es inclusivo lo cual significa: uno, el otro o ambos. A menos que se indique expresamente, no se
considerará el o exclusivo, que significa: uno o el otro pero no ambos.
Si el universo contiene n conjuntos, su espacio queda dividido en 2n partes disjuntas (sin partes
comunes), pues cada una de ellas o bien contiene o bien no contiene a cada uno de los n conjuntos.
De esta forma, cada una de estas partes se puede expresar como la conjunción de los conjuntos
169
Introducción
Diagramas
dados, sea directos o negados. En particular si los conjuntos son 2, el Universo quedará dividido en 4
partes, como se muestra en la figura 2-2.
Figura 2-2
Diagramas
A lo largo del capítulo, se utilizarán 3 tipos de diagramas:
1. Diagramas de Venn
2. Tablas de Contingencias
3. Diagramas de Árbol
Son en principio equivalentes entre sí, pues de uno cualquiera de ellos, se pueden obtener los dos
restantes. Sin embargo alguno de ellos resultará en general, más conveniente que los demás. En
particular, los diagramas de Venn completos para más de 3 eventos, no resultan cómodos como
diagramas auxiliares.
Diagramas de Venn y tablas de contingencias
Son aptos para probabilidades conjuntas.
Las tablas de contingencias fueron estudiadas en el capítulo 1 y los diagramas de Venn fueron
mostrados en el apartado anterior. En la tabla de la figura 2-3, se puntualizan las principales
diferencias.
Notación: r: filas (row) y c: columnas (column).
Contenido:
Tamaño:
Complementos:
Tabla de Contingencia
TC
Variables y categorías
r*c celdas
Diagrama de Veitch
Venn
Solo categorías (eventos)
2n regiones
Incluidos.
Figura 2-3
En particular una TC de 2*2 celdas, prácticamente coincide con su diagrama de Venn de 22 regiones,
pues en este caso cada categoría incluye las categorías complementarias.
Diagramas de árbol de probabilidades
Los diagramas de árbol se utilizarán en este libro, casi exclusivamente para el tratamiento de las
probabilidades condicionales (ver regla del producto, página 183).
170
Jorge Carlos Carrá
Capítulo 2 Probabilidades
Definiciones
Experimento
Un experimento es todo proceso para obtener una información o resultado. Algunos son
deterministas (por ejemplo, caída libre) y otros aleatorios o estocásticos (por ejemplo, extracción de
una bola de una caja o lanzamiento de una moneda).
Los resultados de un experimento aleatorio, se caracterizan por 3 aspectos.
• Espacio muestral: el resultado pertenece a un conjunto de resultados previamente conocido, al
cual llamaremos espacio muestral.
• Diversidad: No es posible predecir el resultado definido de un experimento, se dice que ocurre al
azar.
• Regularidad: el resultado de un gran número de experiencias (o de una experiencia repetida
numerosas veces), sí es predecible. Por ejemplo no se puede asegurar que un electrón ocupe
determinado lugar, pero si puede calcularse un valor indicativo de la probabilidad de que esté
allí. Esto refleja una estabilidad o regularidad aún dentro del azar. Una de estas regularidades es
llamada ley de los grandes números debida a Jacques Bernoulli, la cual se presentará en la
definición frecuencial de la probabilidad (página 174).
Es necesario destacar que los resultados no están definidos por el experimento sino por el
experimentador. Por ejemplo al tirar dos dados, puede interesarnos, los pares de números que salen,
la suma de esos números, el producto de esos números, el número de 6, etc.
Definido el experimento, se presentan 3 conceptos:
a Espacio muestral
Es el universo de todas las muestras o resultados posibles, a cada una de las cuales llamaremos
elemento.
Simbolizaremos con una letra minúscula a los elementos (y en forma genérica con la letra x), con S
al espacio muestral y con |S|, al cardinal o número de elementos de S. Un elemento es un punto de S.
b Suceso o evento
Es cualquier subconjunto de S, es decir que pertenecerá al conjunto de partes de S (todos los
subconjuntos posibles de S).
Se simbolizarán con una letra mayúscula, A, B, C, etc.
Si x es el resultado del experimento (es decir es un punto de S) y x pertenece a un suceso A, se dice
que el suceso A ha ocurrido.
Existen 2 eventos límites:
Suceso improbable: el que nunca sucede. Será entonces el suceso vacío,
A=∅
Suceso cierto: el que sucede con seguridad. Será entonces:
A=S
c Probabilidad de un suceso
Es un número entre 0 y 1 que se asocia a cada suceso A y que informa acerca de la posibilidad que
tiene de suceder. Se simbolizará por ejemplo como: P(A) y entonces es la probabilidad de que A
ocurra al realizar el experimento. El dominio de esta función, será entonces el espacio muestral, en
tanto que al definir las probabilidades, veremos la imagen o campo de valores.
Observar que el campo de valores de la función probabilidad es entonces:
0 ≤ P ( A) ≤ 1
171
Introducción
Definiciones
Evento imposible: es aquel cuya probabilidad es 0.
Evento cierto: es aquel cuya probabilidad es 1.
Nunca sucede ⇒ P (∅) = 0
Cierto ⇒ P ( S ) = 1
En el experimento del lanzamiento de una moneda, si llamamos H a las caras (Head) y T a las secas
(Tail), son:
• Espacio Muestral:
S = {H , T }
•
Eventos:
•
Si todos los elementos del espacio muestral tienen la misma probabilidad de aparecer (el espacio
se llama equiprobable), la probabilidad de que ocurra por ejemplo H (por ahora en forma
intuitiva), es:
H , T , HT , ∅
P ( H ) = 0.500 = 50.0%
La terna: Espacio muestral, Suceso, Probabilidad, se denomina espacio de probabilidad. Ya
hemos aclarado que la definición de la probabilidad no pertenece a la teoría de las probabilidades,
pues ésta estudia las consecuencias lógicas que pueden establecerse, luego de estas definiciones.
Redondeo de probabilidades
Se sugiere expresar los resultados con por lo menos 3 dígitos significativos, DS27. Por ejemplo si el
resultado es:
• 0.05894, se expresa como 0.0589 (el tercer dígito se redondea al entero más cercano).
• 1/3, se expresa como 0.333.
• 1/2, se expresa como 0.500 (los 2 ceros adicionales indican correctamente que luego del 5, no
existen DS distintos de 0.
27
Tal como se expresó en el capítulo 1 al tratar el Diagrama de Tallo y Hojas, los DS comienzan con el primer número distinto de 0, con independencia de la coma decimal. Así por ejemplo el número 0.0056836, tiene 5 DS (56836). 172
Jorge Carlos Carrá
Capítulo 2 Probabilidades
I Valor de P(A)
Existen 3 formas de asignar el número P(A).
a) Definición clásica (DC) o de Laplace,
b) Definición frecuencial (DF) o de Bernoulli,
c) Definición subjetiva (DS).
Definiciones
1. Definición clásica o de Laplace (DC)
Es un cálculo a priori del experimento (no necesita de él). y requiere que S consista de un número
finito de elementos.
Equiprobabilidad
Se presenta cuando todos los resultados son igualmente probables. Si solo se tienen n resultados:
P( S ) = p1 + p2 + ... + pn = 1
Si además son igualmente probables, se tiene:
p1 = p2 = ... = pn
Entonces, si un evento tiene k resultados:
P( A) =
r
n
De aquí que si S sea equiprobable, se define la probabilidad como el cociente entre el número de
casos favorables y el número de casos posibles.
P ( A) =
| A|
| Seq |
Puede aparecer como una definición recursiva el definir una probabilidad requiriendo que exista
equiprobabilidad. En todo caso la equiprobabilidad es una hipótesis de trabajo que deberá luego
confirmarse (o no) con la experiencia.
En general el cálculo del número de casos se obtiene a partir de:
1. Enumeración
2. Análisis combinatorio
Veamos un par de ejemplos sencillos.
Problema resuelto 2.1. Cartas
Calcular la probabilidad de sacar un As de un mazo de 40 cartas.
173
I Valor de P(A)
2. Definición frecuencial o de Bernoulli (DF)
P ( A) =
4
= 0.100
40
Este número se interpretará luego con la definición frecuencial, significando que si se realiza una gran cantidad
de repeticiones del experimento, 1 de cada 10 veces se extraerá un As.
Problema resuelto 2.2. Extraer esferas
Se tiene una urna con 2 esferas negras N y 3 esferas blancas B y se extraen 2 esferas. a) Definir el espacio
muestral, b) hallar la probabilidad de sacar sucesivamente y sin reemplazo, una negra y una blanca, P(NB), en
cualquier orden.
Definimos los eventos:
N: sale negra
B: sale blanca
C: sale cualquiera
a) El espacio muestral S no equiprobable es:
S = {NB, BB, NN }
El espacio muestral S equiprobable es:
S = {N1 N 2 , N1 B1 , N1 B2 , N1 B3 , N 2 B1 , N 2 B2 , N 2 B3 , B1 B2 , B1 B3 , B2 B3}
b)
Por enumeración
Se observa en el espacio muestral equiprobable que hay 10 casos posibles y dentro de éstos hay 6 favorables a
la pregunta. Por lo tanto:
P( NB) =
6
= 0.600
10
Por análisis combinatorio
P ( NB ) =
Número de Casos posibles
[ N ][ B ]
=
Número de Casos favorables [C ][C ] / 2!
El número de formas distintas de extraer una esfera N y una esfera B es 2*3 pues hay 2 formas de sacar una
esfera N y por cada una éstas, hay 3 formas de sacar una B.
El número de casos posibles es 5*4/2!. Hay 5 formas distintas de sacar una esfera cualquiera C y por cada una
éstas, hay 4 formas de sacar la otra. Como no interesa el orden se divide por 2!
P ( NB ) = [2][3] / C52 =
6
= 0.600
10
2. Definición frecuencial o de Bernoulli
(DF)
El cálculo por Laplace no es habitual pues o bien es difícil, o es imposible. Ejemplos de esto último
se presentan cuando el espacio no es equiprobable o cuando no se conocen los valores a priori de la
experiencia, como por ejemplo en el cálculo de la probabilidad de que un hombre de 50 años viva
más de 10 años.
En estos casos se puede, afortunadamente, realizar un cálculo a posteriori del experimento, es decir
con los datos observados. En la última sección del capítulo, veremos cómo aplicar esta definición
para conocer probabilidades a partir de la creación de simulaciones con una computadora.
Si nA son los casos favorables observados y n los casos posibles, P(A) se define ahora como:
174
Jorge Carlos Carrá
Capítulo 2 Probabilidades
P ( A) =
nA
n
Por lo tanto P(A) no es otra cosa que la frecuencia relativa definida en el capítulo 1.
P( A) = f x
Esta alternativa de cálculo se corresponde con la idea intuitiva de la probabilidad relacionada con la
frecuencia relativa de la ocurrencia.
Las hipótesis implícitas en esta definición son:
• Las proporciones del pasado ocurrirán el mismo porcentaje de veces en el futuro.
• La frecuencia relativa puede no ser igual a un valor fijo P(A) pero convergerá en probabilidad a
P(A), si el tamaño de la muestra n se hace muy grande.
P ⎡⎣( f A − P( A) ) → 0⎤⎦ → 1
n →∞
La expresión anterior se conoce como ley de los grandes números y establece que la frecuencia
relativa fA (de una muestra) converge en probabilidad a P(A) (de la población) si n se hace muy
grande, con un grado de certeza que es función de n. Debe notarse que, a diferencia de la
convergencia que aparece en matemáticas, esta expresión no garantiza que f A − P( A) tienda a 0,
sino que la probabilidad de esa diferencia tienda a cero.
En otras palabras, si el valor dado por la definición de Laplace existe, el dado por la definición de
Bernoulli convergerá en probabilidad hacia él, para n tendiendo a infinito. Se realizará la
demostración del teorema que apoya esta ley en el capítulo 4, página 487. En este sentido cabe
aclarar que un teorema surge de un razonamiento deductivo matemático y riguroso, en cambio una
ley surge de la experiencia y es válida hasta que la misma experiencia no demuestre lo contrario.
Esta estabilidad que presentan las frecuencias relativas cuando n tiende a infinito, provoca la
estabilidad de otras magnitudes relacionadas con fx, tales como la E(x), la V(x), la forma de la
distribución, etc. Esta circunstancia, de suma importancia para hacer inferencias, se profundizará en
el capítulo 3.
El estudiante podrá preguntarse si es posible conocer en qué grado se alejará el resultado muestral
del valor teórico, para un tamaño muestral n finito. La respuesta es afirmativa. En el capítulo 5,
página 580, se demostrará la relación que existe entre el tamaño muestral n y el número de
repeticiones NR que deben efectuarse para obtener al menos una diferencia preestablecida entre el
error entre el valor obtenido y el teórico (error de estimación).
Problema resuelto 2.3. Seguro de vida
Una compañía de seguros extrae de datos estadísticos, la siguiente información:
A: N° de personas de 25 años en 2007: 93435
B: N° de personas de 26 años en 2007: 89324
Calcular la probabilidad de que una persona de 25 años esté viva a los 26 años.
P (V ) =
89324
= 0.956
93435
Suponiendo que la realidad no va a cambiar demasiado, las compañías de seguros basan sus cálculos en la
frecuencia relativa.
Actividad
Realizar el experimento de lanzar n monedas por vez comenzando por n=1 y registrar el número de
caras. Por practicidad se puede realizar en forma equivalente el lanzamiento de 1 moneda n veces.
Llenar la tabla de la figura 2-4 para por lo menos n = 20 y graficar luego fx en función de n (los
valores indicados solo se colocaron como referencia). ¿Se observa alguna tendencia?, ¿Hacia qué
valor?
175
I Valor de P(A)
2. Definición frecuencial o de Bernoulli (DF)
n
1
2
3
Resultados
fx
C
1
S
0.5
C
0.66
Figura 2-4
Problema resuelto 2.4. Muestra de 52 alumnos.
Tomemos la tabla de contingencias del ejemplo que ilustró el capítulo 1 y que repito en la figura 2-5.
Figura 2-5
Si se escoge un estudiante al azar, a) ¿Cuál es la probabilidad de que sea varón, V?, b) ¿Cuál es la que sea
Mujer, M y estudie Economía, E?, c) ¿Cuál que sea Varón, V o estudie Economía, E?
Puede apreciarse, en principio, que una tabla de contingencias contiene la misma información que un diagrama
de Venn, con las particularidades de que puede expresar variables no dicotómicas y que no presenta
dificultades para manejar más de 2 variables, pues se pueden anidar.
a)
P (V ) =
33
52
b)
P( ME ) =
c)
P (V ∪ E ) =
10
52
16 + 12 + 5 + 10 43
=
52
52
Se observa por lo tanto que la definición de Bernoulli de la probabilidad, no difiere de los cálculos ya
realizados en el capítulo 1 para la frecuencia relativa.
El panorama completo de las probabilidades en cada celda se obtiene de la tabla de contingencias relativa, que
se repite en la figura 2-6.
Figura 2-6
Las probabilidades de cada cruce (Sexo *Carrera) se llaman probabilidades conjuntas, y las de los márgenes
(Totales), probabilidades marginales.
176
Jorge Carlos Carrá
Capítulo 2 Probabilidades
3. Definición subjetiva (DS)
¿Cómo se calcularía la probabilidad de que un nuevo producto tenga aceptación en el mercado si no
existen resultados a priori? En este caso ninguna de las dos definiciones anteriores es aplicable.
Las anteriores probabilidades son objetivas en el sentido de que no dependen del experimentador. En
esta nueva situación, la única alternativa posible es que la misma sea asignada subjetivamente por
cada persona. Esto por lo tanto dependerá de la experiencia y opinión de cada uno.
Este tipo de probabilidad es de uso frecuente en la toma de decisiones. En el último punto de este
capítulo y con más profundidad en el Análisis Bayesiano, se estudia como esta probabilidad puede
ser ajustada por la experiencia.
177
I Valor de P(A)
3. Definición subjetiva (DS)
178
Jorge Carlos Carrá
Capítulo 2 Probabilidades
II Teoría de las
probabilidades
Hasta ahora hemos tratado sucesos simples tal como surgen del experimento. Sin embargo en la
práctica se necesitan con más frecuencia sucesos compuestos, los cuales surgen de combinar los
sucesos simples con las 3 operaciones de conjuntos, es decir: negación, conjunción y/o disyunción.
La teoría de las probabilidades provee las herramientas deductivas para calcular las probabilidades
de estos sucesos compuestos, en función de las probabilidades de los sucesos simples que los
originan. Se reitera que esta teoría no discute la validez de los valores de probabilidad de los sucesos
simples del apartado anterior, los cuales solo podrán ser contrastados con la experiencia.
Como cualquier teoría matemática, su punto de partida es definir un conjunto de axiomas sobre los
cuales basar la teoría. Por esta razón y más allá del tema en sí mismo, constituye una excelente
oportunidad para enfrentar al alumno con un sistema deductivo.
Estos axiomas fueron desarrollados por el matemático ruso Kolmogorov y constituyen la llamada
definición axiomática de las probabilidades.
Definición axiomática
Los axiomas básicos son 3:
Axioma 1
P ( A) ≥ 0
Axioma 2
P( S ) = 1
Axioma 3
Si dos eventos son disjuntos, es decir si:
AB = ∅
Entonces:
P( A ∪ B) = P( A) + P( B)
En base a estos 3 axiomas se puede demostrar (como teorema) cualquier otra relación probabilística.
Veamos un ejemplo:
Teorema
Demostrar que:
P (∅) = 0
Demostración
Cualquier conjunto A es disjunto con el conjunto vacío, por lo tanto, por el axioma 3:
A ∩ ∅ = ∅ ⇒ P ( A ∪ ∅) = P ( A) + P (∅)
Además cualquier conjunto unido con el vacio, no se altera, es decir:
179
II Teoría de las probabilidades
Reglas
A ∪ ∅ = A ⇒ P ( A ∪ ∅) = P ( A)
Reemplazando una ecuación en la otra y simplificando, resulta finalmente:
P(∅) = 0
Reglas
A partir de los axiomas se demostrarán, 3 reglas:
1. Regla del complemento
2. Regla de la suma
3. Regla del producto
1. Regla del complemento (RC)
Recordemos que el complemento o negación de un suceso será simbolizado en este libro con un
apóstrofo o con una barra.
Por definición de la teoría de conjuntos, el complemento de un conjunto A es lo que queda fuera de
A. Matemáticamente, esto es equivalente a las siguientes 2 igualdades:
′
⎪⎧ A ∪ A = S
⎨
′
⎪⎩ A ∩ A = ∅
Demostraremos que:
P( A) + P( A′ ) = 1
Demostración
Por definición de complemento:
P( A ∪ A′ ) = P( S )
Aplicando el axioma 3 al miembro izquierdo (recordando que A y A' son disjuntos) y el axioma 2 al
derecho, resulta:
P( A) + P( A′ ) = 1
Problema resuelto 2.5. Dos dados
Hallar la probabilidad de obtener al menos un As en una sola tirada con dos dados, uno rojo y uno negro.
Definimos los eventos:
R: sale un As en al menos un dado
R': no sale ningún As
Método directo
R = [ A][ A] ∪ [ A][ A′ ] ∪ [ A′ ][ A]
Por análisis combinatorio, el número de formas en que R se presenta es:
| R |= [1][1] + [1][5] + [5][1]
Por su parte el espacio muestral contiene 36 elementos:
| S |eq = [6][6]
Por lo tanto, por la definición de Laplace:
P( R) =
180
| A|
| S |eq
Jorge Carlos Carrá
Capítulo 2 Probabilidades
es decir:
P( R) =
[1][1] + [1][5] + [5][1] 11
=
[6][6]
36
Método por RC
P ( R) = 1 − P ( R′ )
Como,
P( R′ ) =
[5][5]
[6][6]
Resulta:
P( R) = 1 −
[5][5] 11
=
[6][6] 36
Posibilidades (Odds)
Las probabilidades se expresan a veces como posibilidades, también llamadas chances o ventajas (en
inglés odd).
Si P ( A) =
| A|
| A|
, entonces: P ( A) =
, siendo, por RC: | A | + | A |=| S |
|S|
|S|
Se define la posibilidad a favor de A como:
O ( A) =
| A|
| A|
Análogamente, se define la posibilidad en contra de A como:
O ( A) =
| A|
| A|
Las posibilidades se usan con frecuencia en los juegos de azar y se expresan en la forma:
a:b o a a b, donde a y b son enteros sin factores comunes.
Ejemplo: las posibilidades o chances en contra están 36 a 1. Esto equivale a decir que la probabilidad
en contra es:
P ( A) =
36
37
Posibilidad de Pago, PP
Es una expresión utilizada en los juegos de azar y se define como:
PP =
G
A
Donde G: Ganancia y A: Apuesta.
Si el juego de azar fuera equilibrado (se jugara solo por diversión), las posibilidades de pago serían
iguales a las posibilidades en contra de ganar28. En la realidad, los casinos desean ganar dinero por lo
cual fijan las posibilidades de pago en un valor inferior. En el ejemplo anterior, la PP podría ser por
ejemplo de 35:1, en lugar de 36:1. La diferencia es la ganancia de la banca. Se profundizarán estas
relaciones en el capítulo 3, al tratar las decisiones económicas en condiciones de incertidumbre.
28
Esta relación se demostrará en el capítulo 3 (página 431) y es la razón por la cual, en los juegos de azar, el uso de las posibilidades es más frecuente que el de las probabilidades. 181
II Teoría de las probabilidades
2. Regla de la suma (RS) o de la unión
2. Regla de la suma (RS) o de la unión
Establece que, para cualquier par de eventos:
P ( A ∪ B ) = P ( A) + P ( B ) − P ( AB )
Esta probabilidad se llama a veces, probabilidad completa.
Demostración
Observando el diagrama de Venn de la figura 2-7, expresemos la unión con conjuntos disjuntos:
P( A ∪ B) = P( A ∪ ( A′ B))
Aplicando el axioma 3 al segundo miembro (los conjuntos son disjuntos):
P( A ∪ B) = P( A ∪ ( A′ B)) = P( A) + P( A′ B)
Por otra parte, por idéntica razón:
P( B) = P( AB ∪ A′ B) = P( AB) + P( A′ B)
Eliminando P(A'B) de ambos resultados, se obtiene la RS.
Fórmula de inclusiones y exclusiones, FIE
Otra demostración parte de la FIE de la teoría de conjuntos, a la que luego se le aplica la definición
de Laplace. Si consideramos a los cardinales de los conjuntos de un diagrama de Venn, como el de la
figura 2-7, es sencillo deducir la FIE para 2 conjuntos:
| A ∪ B |=| A | + | B | − | AB |
observando que el valor de | A | + | B | , cuenta 2 veces | AB | .
Figura 2-7
Dividiendo ambos miembros por |S|, resulta, por la definición de Laplace, la RS.
La FIE se extiende a más de 2 eventos repitiendo cualquiera de los dos razonamientos. Demostremos
que por ejemplo para 3 eventos, toma la forma:
P ( A ∪ B ∪ C ) = P ( A) + P ( B ) + P (C ) − P ( AB) − P( BC ) − P( AC ) + P( ABC )
Agrupamos para aplicar la LM para 2 eventos.
P ( A ∪ B ∪ C ) = P[ A ∪ B ) ∪ C ] = P ( A ∪ B) + P (C ) − P[( A ∪ B)C ]
Primer término
P ( A ∪ B ) = P ( A) + P ( B ) − P ( AB )
Tercer término
Distribuyendo:
182
Jorge Carlos Carrá
Capítulo 2 Probabilidades
P[( A ∪ B )C ] = P ( AC ∪ BC )
Aplicando nuevamente la LM para 2 eventos:
P ( AC ∪ BC ) = P ( AC ) + P( BC ) − P ( ACBC )
Aplicando la propiedad idempotente:
C ∩C = C
Se tiene:
P ( AC ∪ BC ) = P ( AC ) + P ( BC ) − P ( ACB)
Reemplazando finalmente las expresiones de los primeros y terceros términos:
P ( A ∪ B ∪ C ) = P( A) + P( B) + P (C ) − P( AB ) − P( AC ) − P( BC ) + P( ACB )
Generalizando (se puede demostrar por inducción), se aprecia la causa del nombre de fórmula de
inclusiones y exclusiones:
La probabilidad de una unión de eventos es la suma de las probabilidades tomadas de a uno,
menos la suma de las probabilidades tomadas de a 2, más la suma de las probabilidades
tomadas de a 3, …
El número de componentes de la ecuación de la RS (y de la FIE) es igual al número de particiones
no vacías que pueden obtenerse con n elementos, es decir: 2n − 1 . En la expresión anterior, n = 3 y
por lo tanto el número de componentes es 7.
Problema resuelto 2.6. Cartas
Se extrae una carta de un mazo de cartas españolas (40 cartas). a) hallar la probabilidad de obtener un 7 o una
espada, b) hallar la probabilidad de obtener un 7 o un 5.
a)
Método por RS
P (7 ∪ E ) = P (7) + P( E ) − P (7 E )
4 10 1 13
P (7 ∪ E ) =
+
−
=
40 40 40 40
Método por RC
P (7 ∪ E ) = 1 − P(7 ∪ E ) = 1 −
27 13
=
40 40
b)
Método por RS
P (7 ∪ 5) = P (7) + P (5) − P (7 ∩ 5)
4
4
0
8
P (7 ∪ 5) =
+
−
=
40 40 40 40
Método por RC
P (7 ∪ 5) = 1 − P (7 ∪ 5) = 1 −
32 8
=
40 40
3. Regla del producto (RP) o de la
intersección
Para encontrarla, debemos ver antes el concepto de probabilidades condicionales.
183
II Teoría de las probabilidades
3. Regla del producto (RP) o de la intersección
Probabilidades condicionales
Hemos visto que, como consecuencia de la definición frecuencial de las probabilidades, muchas
relaciones probabilísticas de este capítulo resultan una extensión de las vistas para la frecuencia
relativa. En este sentido y recordando las definiciones de las frecuencias relativas condicionales, se
obtiene:
Probabilidad condicional
P( A | B) =
| AB |
|B|
P(A|B) es la probabilidad de A, sabiendo que ha sucedido B. Con esta notación la P(A), definida
hasta ahora, significa en realidad P(A|S), referencia que queda sobreentendida.
Dividiendo por |S| en el numerador y denominador del segundo miembro, resulta la siguiente
ecuación en función de probabilidades:
P( A | B) =
P ( AB )
P( B)
Por lo tanto, el cálculo de una probabilidad condicional se puede realizar de 2 formas:
En el espacio muestral reducido
Corresponde a la primera expresión considerando el espacio muestral reducido B.
En el espacio muestral original
Corresponde a la segunda expresión en al cual tanto numerador como denominador se calculan en el
espacio muestral original S.
Como conclusión final vemos que una probabilidad P(A) depende de la información de la que se
disponga. No es un número propio del evento A y solo quedará definida, como toda proporción,
cuando se conozca el espacio en el que se calculará.
Problema resuelto 2.7. Dos sucesos
En la figura 2-8, se presentan los cardinales relacionados con dos sucesos: V y F.
Figura 2-8
Diagrama de Venn
Observar las siguientes probabilidades:
184
Jorge Carlos Carrá
Capítulo 2 Probabilidades
3
12
6
P(V | F ) =
8
6
P( F | V ) =
7
3
P(V ′ | F ′ ) =
4
7
P (V ) =
12
8
P( F ) =
12
6
P (VF ) =
12
2
P(V ′ F ) =
12
P (V ′ F ′ ) =
Notas
• Observar que, al igual que en los perfiles, la suma de todas las probabilidades que le corresponden al
mismo espacio de referencia debe ser 1. En símbolos:
Si:
| A | + | B | + | C |=| F |
Entonces:
P ( A | F ) + P ( B | F ) + P (C | F ) = 1
•
El diagrama de Venn es otra forma de presentar la información de una tabla de contingencias, TC. La TC
es más versátil pues es apta para cualquier número de variables. Por ejemplo, el diagrama de Venn de la
figura 2-8, es equivalente a la TC de la figura 2-9.
V
F 6
F' 1
7
V'
2 8
3 4
5 12
Figura 2-9
Tabla de Contingencias, TC
Problema resuelto 2.8. Moneda
Si arroja una moneda en la oscuridad. a) ¿Cuál es la probabilidad de que sea cara?, b) ¿cuál es la probabilidad
de que sea cara, si se sabe que tiene 2 caras?
Naturalmente las respuestas son: a) 0.5 y b) 1. Este sencillo ejemplo muestra que la probabilidad depende del
conocimiento que se tenga.
Regla del producto (RP)
La RP resulta finalmente, en forma directa, despejando P(AB) de la expresión de la probabilidad
condicional. P(AB) se llama a veces, probabilidad compuesta.
185
II Teoría de las probabilidades
3. Regla del producto (RP) o de la intersección
P ( AB ) = P ( B ) P ( A | B )
O también, partiendo de P ( B | A) :
P ( AB ) = P ( A) P ( B | A)
Estas ecuaciones indican que la RP implica un ordenamiento y que todos los ordenamientos
producen el mismo resultado.
Si se aplica esta ley en forma sucesiva, la extensión a más de 2 eventos, toma la siguiente forma:
P ( ABC ) = P ( A) P ( B | A) P (C | AB )
La validez de esta ecuación se puede observar al reemplazar las probabilidades condicionales del
segundo miembro por sus definiciones en función de las probabilidades.
Problema resuelto 2.9. Presidente y secretario
Un comité de 2 hombres y 1 mujer debe elegir entre ellos un presidente y un secretario.
Sean los eventos:
A: el mayor de los hombres es elegido presidente
B: uno de los hombres es elegido presidente
C: la mujer es elegida secretaria
Calcular: P(A), P(B) y P(C), P(AB), P(AC), P(BC).
P(A), P(B) y P(C)
En la figura 2-10 se muestra el espacio muestral, en donde V1 representa al hombre de mayor edad y M a la
mujer.
Figura 2-10
Espacio muestral
Obtención por Laplace (enumeración)
2
6
4
P( B) =
6
2
P(C ) =
6
P( A) =
Obtención por Laplace (análisis combinatorio)
P (C ) =
186
[2][1]
[6]
Jorge Carlos Carrá
Capítulo 2 Probabilidades
[1][2]
[3][2]
[2][2]
P( B) =
[6]
P ( A) =
P(AB), P(AC), P(BC)
Obtención por Laplace
Observando el diagrama de la figura 2-10:
1
3
2
P ( BC ) =
6
1
P ( AC ) =
6
P( AB) =
Obtención por RP
2
1
P( AB) = P( A) P( B | A) = 1 =
6
3
O también:
42 1
=
64 3
21 1
P( AC ) = P(C ) P( A | C ) =
=
62 6
2
2
P ( BC ) = ( PC ) PB | C ) = 1 =
6
6
P ( AB ) = P ( B ) P( A | B) =
Diagrama de árbol de probabilidades
condicionales
De los 3 tipos de diagramas comentados en la página 170, resta tratar el diagrama de árbol de
probabilidades. El árbol que usaremos contiene las probabilidades condicionales, por lo cual resulta
más apto que los otros diagramas si se debe razonar la RP.
Diagrama de árbol de probabilidades condicionales
Se presenta en la figura 2-11. Se definen 3 componentes: nodo, rama y estrella. Desde el punto de
vista matemático un árbol es un grafo.
Grafo
Conjunto de nodos (puntos) unidos por ramas (rectas) tal que tal que en cada nodo solo entra una
sola rama (como consecuencia, un árbol no tiene ciclos).
Nodo
Es cada uno de los sucesos o eventos. Se puede comenzar y seguir por cualquiera, pero la
probabilidad compuesta está asociada solo a ese orden.
Rama
Es la conexión entre dos nodos consecutivos. En cada rama se expresa la probabilidad condicional
del extremo respecto del comienzo. En el extremo de cada camino a la derecha, se coloca la
187
II Teoría de las probabilidades
3. Regla del producto (RP) o de la intersección
probabilidad conjunta de ese camino (RP), la cual resulta de multiplicar las probabilidades
condicionales del camino29.
Camino
Es la sucesión de ramas desde el inicio del árbol hasta el nodo en cuestión.
P(C|AB)
P(B|A)
P(A)
.
A
B
C
P(ABC)
Figura 2-11
Un árbol de probabilidades completo se muestra en la figura 2-12.
Estrella
Es cada uno de los conjuntos de ramas que salen de un nodo, al que llamaremos nodo inicial de la
estrella. Observar que la suma de las probabilidades condicionales de una estrella, debe ser 1, pues es
la suma de todas las probabilidades dentro de un espacio muestral reducido (similar a un perfil fila o
perfil columna)30. Llamaremos a los restantes nodos de la estrella, nodos finales.
P(B1|A1)
P(A1)
.
P(A2)
B1
A1
P(B2|A1)
B2
P(B1|A2)
B1.
A2
P(B2|A2)
B2.
Figura 2-12
Árbol de probabilidades condicionales
Probabilidad de nodo
Es la probabilidad conjunta del camino concurrente a ese nodo. En la figura 2-11, se ha colocado
este valor para el último nodo del camino (nodo C). La suma de las probabilidades de los nodos
finales de una estrella, es la probabilidad del nodo inicial de la estrella. Es sencillo demostrar que,
con estas probabilidades, las probabilidades condicionales surgen del cociente entre las
probabilidades correspondientes de los nodos final e inicial.
Finalmente, si se multiplican las probabilidades de nodo por la cantidad de casos totales, se
obtendrán valores correspondientes a los casos favorables.
29
Podría también construirse un diagrama de árbol con probabilidades compuestas en las ramas, pero como esta información ya la proporcionan los otros dos diagramas, resultaría redundante. Por esta razón me referiré de aquí en más solo al árbol de probabilidades condicionales, a menos que indique lo contrario. 30
Esto también puede demostrarse matemáticamente planteando la fórmula de las particiones de B=B1+B2, aplicando la RP a cada conjunción del segundo miembro y simplificando P(A). 188
Jorge Carlos Carrá
Capítulo 2 Probabilidades
Problema resuelto 2.10. TC, Venn y Árboles
El diagrama de árbol de probabilidades es el diagrama más versátil para razonar probabilidades condicionales.
Sin embargo también pueden construirse tablas de contingencias o diagramas de Venn.
Dado el diagrama de árbol de probabilidades de la figura 2-13, si se sabe que n= 200, obtener la TC y el
diagrama de Venn.
D
0.57
A
0.70
D'
.
D.
A'
0.83
D'.
Figura 2-13
Primero completamos el diagrama de árbol de probabilidades con los valores faltantes, como se muestra en la
figura2-14:
0.570
0.700
D 0.399
A
.
0.300
0.430
D' 0.301
0.170
D. 0.051
A'
0.830
D'. 0.249
Figura 2-14
Tabla de contingencias
La TC para frecuencias absolutas de este problema se dibuja en la figura 2-15 (recordar que n = 200).
A
D 80
D' 60
140
A'
10 90
50 110
60 200
Figura 2-15
Si el problema contiene más de 2 variables, deben anidarse.
Diagrama de Venn
El diagrama de Venn es cómodo solo para 2 variables con 2 niveles.
El diagrama de Venn de este problema se dibuja en la figura 2-16, en la cual se observa que solo contiene los
nombres de todas las filas y columnas menos una. Se sobreentiende que la restante es la complementaria.
189
II Teoría de las probabilidades
3. Regla del producto (RP) o de la intersección
Figura 2-16
Se puede apreciar que las probabilidades marginales de la TC se encuentran en el origen y extremo del árbol de
probabilidades (como valores relativos), pero que no se muestran en forma explícita en el diagrama de Venn.
Problema resuelto 2.11. Artículos defectuosos
En una fábrica, la máquina A fabrica el 25% de la producción con un 5% de defectuosos, la máquina B fabrica
el 35% de la producción con un 4% de defectuosos y la máquina C fabrica el 40% de la producción con un 2%
de defectuosos. Se extrae un elemento de la producción al azar. Hallar la probabilidad de que, a) sea
defectuoso y provenga de la máquina A, b) sea defectuoso, c) sea defectuoso sabiendo que provino de la
máquina B, d) provenga de la máquina B, sabiendo que es defectuoso.
Antes de responder a las preguntas, construir como ayudas gráficas, los árboles de probabilidades directo e
inverso, la tabla de contingencias y el diagrama de Venn. Comprobar que el diagrama más versátil para
estudiar la RP de cualquier número y tipo de variables, es el árbol de probabilidades.
Árbol de probabilidades condicionales
Directo (Máquina-Defectuoso)
0.050
D
0.0125
D'
0.2375
D.
0.014
0.336
A
0.950
0.250
0.040
.
0.350
B
0.400
0.960
D'.
0.020
D.. 0.008
0.980
D'.. 0.392
C
Figura 2-17
Árbol de probabilidades condicionales
Naturalmente las P(D) y P(D') se obtienen aplicando la RS a los valores de las probabilidades conjuntas que se
visualizan en la columna de la derecha, resultando:
P ( D ) = 0.0125 + 0.014 + 0.008 = 0.0345
P( D′ ) = 0.2375 + 0.336 + 0.392 = 0.9655
Inverso (Defectuoso-Máquina)
A partir de los valores anteriores, reconstruyendo las probabilidades de nodo desde atrás hacia adelante, se
puede construir el árbol inverso que se muestra en la figura 2-18. Las probabilidades condicionales resultan de
la división de las correspondientes probabilidades de nodo.
190
Jorge Carlos Carrá
Capítulo 2 Probabilidades
0.362
D
0.0345
0.406
0.232
.
0.246
0.9655
D'
0.348
0.406.
A
0.0125
B
0.014
C
0.008
A.
0.2375
B.
0.336
C.
0.392
Figura 2-18
Tabla de contingencias, TC
A partir de los datos, resulta la TC preliminar de la figura 2-19:
D
D'
25
A 1.25
35
B 1.4
40
C 0.8
100
Figura 2-19
Completando las celdas, resulta la TC final de la figura 2-20:
D
D'
A 1.25 23.75
B 1.4 33.6
C 0.8 39.2
3.45 96.55
25
35
40
100
Figura 2-20
Se puede observar que ambas representaciones son equivalentes, pero contienen distintas probabilidades.
Se puede apreciar además, que un perfil de la tabla, se corresponde con las 2 últimas variables del árbol. En
general si X es la penúltima variable del árbol, los valores del perfil Y|X se encontrarán en la última rama.
Naturalmente, también se puede construir el árbol inverso luego de tener la tabla de contingencias
(comprobarlo).
Diagrama de Venn
Como una variable no es dicotómica, no resulta apropiada la utilización de un diagrama de Venn (a no ser que
solo consista en cambiar los rectángulos de la TC. por óvalos).
A partir de cualquiera de los diagramas, se pueden responder ahora, a las preguntas planteadas:
a) 0.0125
b) 0.0345
c) 0.0400
d) 0.406
Problema resuelto 2.12. Control de calidad
Para limitar el rechazo de los clientes a un determinado producto, se establece un procedimiento previo de
control de calidad. El 65% de los productos pasaron el control de calidad (Q), el 60% fue aceptado por los
191
II Teoría de las probabilidades
3. Regla del producto (RP) o de la intersección
clientes (A) y el 85% de los productos aceptados, había pasado la prueba de calidad. Calcular la probabilidad
de que, a) un producto Q sea A, b) un producto sea Q o A, c) un producto sea Q y A.
Árbol de probabilidades condicionales
Árbol directo (Calidad-Aceptación)
En la estructura del árbol que se muestra en la figura 2-21, solo el valor 0.65 pertenece a los datos. Por lo tanto,
previo a su construcción se requiere calcular algún otro valor. En este problema este valor es la probabilidad
P(QA), la cual se obtiene de:
P(QA)
= 0.850
0.600
P (Q | A) =
de la cual se puede despejar:
P (QA) = 0.510
Con P(Q) = 0.650, P(QA) = 0.510 y P(A) = 0.600, se calculan todos los restantes.
0.785
A 0.510
Q
0.650
0.215
A' 0.140
0.257
A. 0.090
.
0.350
Q'
0.743
A'. 0.260
Figura 2-21
Árbol inverso (Aceptación-Calidad)
Se puede construir a partir de P(A) = 0.600, P(Q|A) = 0.850 y P(Q) = 0.650
0.850
Q. 0.510
A
0.600
0.150
.
0.350
0.400
Q.' 0.090
Q
0.140
A'
0.650
Q' 0.260
Figura 2-22
Tabla de contingencias
Las celdas resaltadas contienen los valores datos.
A
A'
Q 0.51 0.14 0.65
Q' 0.09 0.26 0.35
0.60 0.40 1
Figura 2-23
Diagrama de Venn
Los valores remarcados fueron los valores datos en la construcción.
192
Jorge Carlos Carrá
Capítulo 2 Probabilidades
Figura 2-24
A partir de cualquiera de los diagramas, se obtienen:
a) 0.785
b) 0.14+0.51+0.09 = 0.740
c) 0.510
Muestreo con y sin reemplazo
Supongamos que se realiza más de una extracción. El resultado de la segunda selección dependerá
del tipo de muestreo.
• Muestreo con reemplazo, MCR
El elemento extraído se devuelve a su lugar. En este caso, la configuración numérica antes de la
segunda extracción, es exactamente igual a la de la primera extracción.
• Muestreo sin reemplazo, MSR
El elemento extraído no se devuelve a su lugar. En este caso, el número de elementos para
realizar el cálculo antes de la segunda extracción, ha cambiado pues ya no se encuentra el
elemento extraído.
Problema resuelto 2.13. Muestra de 52 alumnos
Tomemos nuevamente la TC del ejemplo de las Notas de estadística, que repito en la figura 2-25.
Figura 2-25
Se seleccionan 2 alumnos. a) Hallar la probabilidad de que la primera sea mujer y el segundo sea varón si el
muestreo es con reemplazo. Repetir si el muestreo es sin reemplazo. b) Hallar la probabilidad de que sean una
mujer y un varón si el muestreo es con reemplazo. c) Elaborar el diagrama de árbol para todas las alternativas
con reemplazo. d) Construir la tabla de contingencias equivalente al árbol anterior.
a)
19 33
= 0.232
52 52
19 33
P ( MV ) =
= 0.236
52 51
P ( MV ) =
193
II Teoría de las probabilidades
3. Regla del producto (RP) o de la intersección
Observar que la notación P(MV) implica un orden, a diferencia de los problemas anteriores, por ejemplo
P(AB), en los que no existía ningún ordenamiento. El contexto indicará cual es la interpretación.
b)
P (una M y un V ) = P( MV ) + P(VM ) =
19 33 33 19
+
= 0.464
52 52 52 52
c)
M.
0.133
33/52.
V.
0.232
19/52..
M..
0.232.
V..
0.403
19/52.
M
19/52
.
33/52
V
33/52..
Figura 2-26
d)
1°
2°
M
V
T
M
0.133
0.232
0.365
V
0.232
0.403
0.635
T
0.365
0.635
1
Figura 2-27
Probabilidad total
Partición
Los eventos B1 , B2 , …, Bk representan una partición de un espacio muestral S, si:
1. La intersección de cualquier par de ellos es el vacío (son todos disjuntos):
Bi ∩ B j = ∅
2. La unión de todos ellos es S:
k
∪B
i
=S
i =1
3. La probabilidad de cualquiera de ellos no es cero:
P( Bi ) > 0
La siguiente figura representa esta partición.
194
Jorge Carlos Carrá
Capítulo 2 Probabilidades
Figura 2-28
Dada una partición Bi en S, si A es cualquier evento de S, se puede escribir:
A = AB1 ∪ AB2 ∪ ... ∪ ABk
donde cualquiera de las intersecciones componentes puede ser cero.
Como estos eventos son mutuamente exclusivos, se tiene, aplicando la RS:
P( A) = P( AB1 ) + P( AB2 ) + ... + P( ABk )
Aplicando finalmente la RP:
P( A) = P( A | B1 ) P( B1 ) + P( A1B2 ) P( B2 ) + ... + P( A | Bk ) P( Bk )
Esta expresión se llama de la probabilidad total y es sumamente útil cuando el cálculo de P(A) es
complicado pero se conocen las probabilidades condicionales de A en todos los espacios muestrales
reducidos Bk . En su versión frecuencial, ya ha sido utilizada al estudiar las frecuencias marginales
en el capítulo 1, sección 2 variables.
El diagrama de árbol para la probabilidad total, en el caso de que la partición solo tenga 2
componentes es:
P(A|B1)
P(B1)
B1
A
.
P(B2)
P(A|B2)
B2
A.
Figura 2-29
Independencia
En forma análoga al concepto visto en el capítulo 1, página 79, A es independiente de B si:
P ( A | B ) = P ( A)
En otras palabras, la proporción de A dentro de B es la misma que la de A dentro de S y por esto el
conocimiento de B no arroja información adicional a la probabilidad del segundo evento.
Combinando esta expresión con la RP, resulta la regla del producto para sucesos independientes:
P ( AB) = P( A) P ( B )
195
II Teoría de las probabilidades
3. Regla del producto (RP) o de la intersección
Despejando P(B), resulta:
P ( AB )
= P( B)
P ( A)
y reconociendo que el primer miembro es la P(B|A), resulta en definitiva:
P( B | A) = P ( B)
En otras palabras, la independencia es un proceso dual, por esto se habla de independencia entre A y
B, sin importar si se está resolviendo A|B o B|A.
Teorema
Si un suceso D es independiente de A, también lo serán sus complementos: D' y A, D y A', D' y A'.
Veamos la demostración de uno de ellos, los restantes son similares:
Si:
P ( DA) = P( D) P ( A)
Entonces:
P( DA) = (1 − P( D′ )) P( A)
Es decir:
P( DA) = P( A) − P( D′ ) P( A)
Pero:
P( A) = P( AD′ ) + P( AD)
Reemplazando y agrupando:
P( AD′ ) = P( D′ ) P( A)
Por lo tanto D' y A son independientes.
Independencia en una TC
Observar que la expresión:
P ( AB) = P( A) P ( B )
es análoga a la expresión de frecuencias relativas para variables independientes, desarrollada en el
capítulo 1, al tratar tablas de contingencias, TC:
f xy = f x f y
Independencia de eventos
La condición debe cumplirse para la celda en estudio.
Independencia de variables
La condición debe cumplirse para toda la tabla (recordar que basta verificar c − 1 columnas y r − 1
filas (página 81).
Independencia en un árbol
Hemos visto la condición que deberá chequearse en una TC para analizar la independencia. ¿Cuál es
la correspondiente a un árbol de probabilidades condicionales?
A modo de ejemplo, sea el árbol de la siguiente figura:
196
Jorge Carlos Carrá
Capítulo 2 Probabilidades
P(C|A)
P(A)
A
.
P(B)
C
P(D|A)
D
P(C|B)
C.
B
P(D|B)
D.
Figura 2-30
Independencia de eventos
Para analizar la primer rama, una primera alternativa es controlar el cumplimiento de la ecuación:
P (C | A) = P (C ) . Sin embargo esto obliga a calcular separadamente P (C ) . La ecuación de cálculo
de este valor es.
P (C ) = P (CA) + P (CB ) = P (C | A) P ( A) + P (C | B ) P ( B )
Dado que P ( A) + P ( B ) = 1 , para que P (C ) sea igual a P (C | A) , deberá ser: P (C | A) = P (C | B )
Es decir que la probabilidad condicional del evento en estudio debe ser igual a las similares en esa
posición en todas las estrellas.
Independencia de variables
Extendiendo la conclusión anterior, se concluye que para la independencia de variables todas las
estrellas deben ser iguales entre sí. Esto no es sorprendente pues de esta forma las probabilidades de
las segundas ramas son independientes de cual haya sido el valor de la primera.
Confiabilidad de sistemas
La confiabilidad se simboliza con la letra R (Reliability) y se define como la probabilidad de que un
sistema completo funcione. El complemento de R se representa Q y mide la no confiabilidad o
probabilidad de falla (Unreliability).
El problema típico es tener un sistema completo conformado con sistemas más simples cuya
confiabilidad se conoce y se desea conocer la confiabilidad del sistema completo. En muchos casos
el sistema puede ser esquematizado con agrupaciones serie y/o paralelo, por lo cual, al igual que para
circuitos eléctricos, es conveniente desarrollar una expresión para calcular la R para un circuito
equivalente que reemplace a estos subsistemas. En este caso, en lugar de las dos leyes de Kirchhoff
de la electricidad, se usarán las tres reglas de las probabilidades.
Elementos en serie
Sea un subsistema como el de la figura 2-31. El sistema puede asimilarse a un circuito con llaves
eléctricas, que operan con probabilidad RA, RB y RC. El sistema funcionará (pasará corriente de 1 a
2), si todos los componentes funcionan (las llaves se cierran).
Figura 2-31
Para hallar la confiabilidad del sistema completo en función de las confiabilidades individuales, será
de aplicación la Regla del Producto RP. Por razones de simplicidad suele asumirse que los
197
II Teoría de las probabilidades
3. Regla del producto (RP) o de la intersección
componentes funcionan independientemente uno del otro. En este caso, la RP establece que la
confiabilidad equivalente del sistema será:
R = RA RB RC
La confiabilidad equivalente de componentes en serie es el producto de las confiabilidades.
Como los valores de las confiabilidades son menores que 1, se puede apreciar que la confiabilidad
del sistema será menor que la menor de las confiabilidades, lo cual es intuitivo pues un sistema en
serie debe disminuir la confiabilidad.
Elementos en paralelo
Sea un subsistema como el de la figura 2-32. El sistema puede asimilarse a un circuito con llaves
eléctricas, que operan con probabilidad RA, RB y RC. El sistema funcionará (pasará corriente de 1 a
2), si al menos uno de los componentes funcionan (las llaves se cierran).
Figura 2-32
Expresión directa
Para hallar la confiabilidad del sistema completo en función de las confiabilidades individuales, será
de aplicación la Regla de la Suma RS, la cual establece que la confiabilidad equivalente del sistema
será:
R = R A + R B + R C − R AR B − R AR C − R B R C + R AR B R C
En este caso se puede demostrar (ver punto siguiente) que la confiabilidad del sistema será mayor
que la mayor de las confiabilidades, lo cual es intuitivo pues un sistema en paralelo (redundante)
debe aumentar la confiabilidad.
Expresión por complementos
Una forma alternativa es planteando la Regla del complemento RC, observando que el sistema no
funciona si ninguno de los componentes funciona. Por lo tanto:
Q = QAQBQC
La probabilidad de falla equivalente de componentes en paralelo es el producto de las
probabilidades de fallas.
Expresando la ecuación en términos de R (Q = 1–R):
1 − R = (1 − RA )(1 − RB )(1 − RC )
Despejando R:
R = 1 − (1 − RA )(1 − RB )(1 − RC )
La confiabilidad equivalente de componentes en paralelo es el complemento del producto de
los complementos de las confiabilidades.
198
Jorge Carlos Carrá
Capítulo 2 Probabilidades
Notas
1.
2.
Como la expresión de la probabilidad de falla de elementos en paralelo es dual de la de confiabilidad de
elementos en serie, es fácil demostrar que la confiabilidad de un sistema paralelo será mayor que la
mayor de las confiabilidades.
En este capítulo la confiabilidad R se asume fija en un valor numérico constante. En el capítulo 3, se
ampliará el concepto al caso general en donde las confiabilidades sean dependientes de una variable
(tiempo), R(t), utilizando las herramientas relacionadas con las distribuciones de probabilidades.
Problema resuelto 2.14. Sistema en serie-paralelo
El sistema de controles de un modelo de aviones A es de tipo eléctrico (ver figura 2-33) y consiste en un
sistema eléctrico D y 3 circuitos de control en paralelo, A, B y C, para aumentar la redundancia.
Por su lado, otro modelo de aviones B, tiene un sistema similar pero con 2 circuitos eléctricos en paralelo.
Además tiene un sistema manual, mecánico de emergencia, C.
Considerar que todos los sistemas tienen una probabilidad de funcionar de 0.990. Hallar la confiabilidad R de
cada sistema de control: a) avión A, b) avión B. Expresar los resultados con 6 DS (dígitos significativos).
Avión B
Avión A
Figura 2-33
Modelo A
R ABC = 1 − Q ABC = 1 − 0.013 = 0.999999
R = 0.99(0.999999) = 0.989999
Modelo B
R AB = 1 − Q AB = 1 − 0.012 = 0.99990
RABD = 0.99(0.9999) = 0.989901
QABD = 1 − 0.989901 = 0.010099
R = 1 − Q = 1 − 0.01(0.010099) = 0.999899
Problema resuelto 2.15. Sistema en puente
La estructura de un sistema se muestra en la figura 2-34 en sus aspectos esenciales.
Considerar que cada componente tiene una probabilidad de funcionar de 0.90. Hallar un límite superior y otro
inferior para la confiabilidad R del sistema.
199
II Teoría de las probabilidades
3. Regla del producto (RP) o de la intersección
Figura 2-34
El sistema no es ni serie ni paralelo (sistema puente). Sin embargo en cualquier sistema puede ser obtenido un
límite superior y otro inferior para la confiabilidad R. Estos límites resultan de considerar 2 conjuntos
provenientes de la teoría de circuitos: el de caminos y el de cortes. Los valores mínimos de estos conjuntos
determinan los límites enunciados.
Conjunto de caminos mínimos
El conjunto de caminos es el conjunto de ramas que une la entrada con la salida.
El conjunto de caminos es mínimo si cada uno de ellos no atraviesa un nodo más de una vez (no existen
ciclos). Los caminos mínimos del circuito puente dado son:
AD, BE, ACE y BCD
La confiabilidad R de este conjunto mínimo se obtiene del circuito paralelo mostrado en la figura 2-35, el cual,
entonces, está conformado por la mínima cantidad de caminos que hace funcionar al sistema dado.
Figura 2-35
Por lo tanto:
R ≤ 1 − (1 − 0.81)2 (1 − 0.729)3 = 0.999281
Conjunto de cortes mínimos
Un conjunto de cortes es un conjunto de ramas que desconecta la entrada con la salida.
El conjunto de cortes es mínimo si cada uno de ellos no atraviesa una rama más de una vez. El conjunto de
cortes puede ser obtenido sistemáticamente a partir del conjunto de caminos (Billinton R. 1992, página 103) o
por inspección visual. Utilizando esta última estrategia, los cortes mínimos del circuito puente dado son:
AB, DE, ACE y BCD
La confiabilidad R de este conjunto se obtiene más fácilmente planteando la ecuación con los complementos
Q:
Q ≤ QAQB + QDQE + QAQC QE + QBQC QD = 2(1 − 0.81)(1 − 0.729) = 0.10298
Por lo tanto:
En definitiva:
200
R ≥ 1 − Q = 0.89702
0.89702 ≤ R ≤ 0.999281
Jorge Carlos Carrá
Capítulo 2 Probabilidades
Aplicación: Teorema de Bayes
Este teorema fue desarrollado por un religioso y matemático inglés del siglo XVIII llamado Thomas
Bayes, (1702-1761). A pesar de que Bayes se rehusó a publicar los detalles de su trabajo, su obra
quedó en la historia de las ciencias, por la importancia de la aplicación de su teorema en el proceso
de la toma de decisiones.
La expresión matemática del mismo es la conocida ecuación del cálculo de la probabilidad
condicional, completando la misma para mostrar explícitamente la relación que existe entre una
probabilidad condicional conocida P(A|B) y la condicionalidad inversa P(B|A).
P ( B | A) =
P ( AB ) P ( A | B ) P ( B )
=
P ( A)
P ( A)
En un diagrama de árbol de probabilidades, los valores necesarios para el cálculo se encuentran en la
columna marginal de la derecha, lo cual ya fue de hecho utilizado en la obtención del árbol inverso,
página 190.
La expresión anterior nos sugiere la aplicación del teorema en dos tipos de problemas:
• P(B|A) => P(A|B)
Cálculo de una probabilidad condicional inversa, conocida la probabilidad condicional directa.
• P(B) => P(B|A)
Actualización de la probabilidad anterior de un suceso B, P(B), dada la información de nueva
evidencia proporcionada por otro suceso A, P(B|A).
Esta aplicación se denomina: Toma de decisiones bayesianas.
Veamos algunos problemas tipo de la primera aplicación.
Problema resuelto 2.16. Bayes
En el ejemplo del árbol de probabilidades de la página 189, hallar P(A|D).
P( A | D) =
P ( AD )
P( D)
Reemplazando, resulta:
P( A | D) =
0.399
= 0.887
0.450
Problema resuelto 2.17. Test de enfermedad
Veamos una aplicación del primer tipo de problemas. Un doctor lleva a cabo un test con una sensibilidad y
especificidad (página 131) del 99 %, es decir 99 por ciento de las personas que están enfermas dan positivo y
99 por ciento de las personas sanas dan negativo. El doctor sabe que solamente 1 por ciento de las personas en
el país están enfermas (prevalencia). Si el test de un paciente da positivo, ¿cuáles son las probabilidades de que
el paciente está enfermo. (Observar que se plantean 2 eventos y se brindan 3 números).
La respuesta intuitiva es 99%, sin embargo la respuesta correcta es 50%. Veamos la solución.
Llamamos:
E: Suceso Enfermo
S: Suceso Sano
201
II Teoría de las probabilidades
Aplicación: Teorema de Bayes
P: Test Positivo
N: Test Negativo
El diagrama de árbol de probabilidades es el de la figura 2-3631.
P
0.0099
0.010.
N
0.0001
0.010..
P.
0.0099.
0.990..
N. 0.9801
0.990.
0.010
E
.
0.990
S
Figura 2-36
El teorema de Bayes da:
P( E | P) =
0.0099
= 0.500
0.0099 + 0.0099
Una interpretación sin el teorema de Bayes, es la siguiente:
Imagine que la historia anterior tiene lugar en un pueblo con 10000 personas. Sabemos que el 1 por ciento, o
sea 100 personas, están enfermas y 9900 están sanas. Si realizamos la prueba a todas las personas, el resultado
más probable es que 99 de las 100 personas enfermas den positivo y que el 1 %, de las sanas, es decir 99,
también den positivo. Es decir hay igual cantidad de pruebas positivas de pacientes enfermos y de pacientes
sanos. Esos números se aprecian también en el árbol de probabilidades, si se multiplican los valores de las
probabilidades marginales por 10000.
Suponga ahora que en la ciudad existen 1 de cada 200 personas enfermas. Si el test de un paciente da positivo,
¿es más probable que esté sano o que esté enfermo?
Problema resuelto 2.18. Cantidad de empleados
Aplicar el teorema de Bayes, directamente sobre los datos provistos en una TC.
Cuatro compañías de seguros, F1, F2, F3 y F4, brindan la tabla de la figura 2-37, en la que informan la
cantidad de empleados de una determinada empresa, en distintas secciones.
A=sección administración
B= sección producción
C=sección mantenimiento
x
F1
F2
y F3
F4
A
B
100 130
20 40
10
70
300
C
60
15
65
20
600
Figura 2-37
31
Recordar del capítulo 1 (página 131) que llamando Verdadero a la presencia de Enfermedad y Falso a la ausencia, se pueden utilizar dos alternativas de codificación. La que utiliza a las 2 variables conduce a las siguientes probabilidades conjuntas para la secuencia del árbol que se muestra, de arriba hacia abajo: Verdadero +, Verdadero –, Falso+ y Falso–. 202
Jorge Carlos Carrá
Capítulo 2 Probabilidades
Si se consideran estos datos como poblacionales, obtener: a) P(F4|C), b) P(C|F4), c) ¿son independientes F1 y
A? d) si se seleccionan 2 empleados, hallar la probabilidad de que ambos pertenezcan a F3, e) si se seleccionan
2 empleados, hallar la probabilidad de que por lo menos 1 pertenezca a F4, f) si se seleccionan 4 empleados,
hallar la probabilidad de que ninguno pertenezca a la sección C, g) hallar el diagrama de árbol de las P(x|y), h)
hallar el diagrama de árbol de las P(y|x), i) obtener la distribución a priori P(y) y la distribución a posteriori
P(y|x = 300).
a) Primero debemos completar la tabla como en la figura 2-38.
x
F1
F2
y F3
F4
A
100
20
10
70
200
B
130
40
50
80
300
C
60
15
5
20
100
290
75
65
170
600
Figura 2-38
P( F4 | C ) =
20
100
P(C | F4 ) =
20
170
b)
c) Si son independientes, debe verificarse:
| AF1 |=
| A || F1 |
|S|
Reemplazando resulta, 100 distinto a 96.6, por lo cual no son independientes.
d) La selección de 2 empleados simultáneamente es equivalente a la selección sin reemplazo.
P( F3 F3 ) =
65 64
= 0.011
600 599
e) Analogamente al caso d), es un muestreo sin reemplazo.
Existen 2 formas alternativas de realizar el cálculo, con la RS (y RP), o con la RC (y RP).
170 169
170 430
+2
= 0.487
600 599
600 599
430 429
P (≥ 1ε F4 ) = 1 − P ( F4′ F4′ ) = 1 −
= 0.487
600 599
P (≥ 1ε F4 ) = P ( F4 F4 ) + P( F4′ F4 ) + P( F4 F4′ ) =
El árbol de probabilidades de esta situación se ilustra complementariamente, en la figura 2-39.
F4.
0.0799
430/599 F4'.
0.2033
170/599 F4..
F4'
0.2033.
169/599
170/600
F4
.
430/600
429/599
F4'..
0.5134
Figura 2-39
f)
P (C ′C ′C ′C ′ ) =
500 499 498 497
= 0.48
600 599 598 597
g) figura 2-40
203
II Teoría de las probabilidades
Aplicación: Teorema de Bayes
0.167
A
0.345
0.448
F1
0.207
0.483
0.216
B
0.100
C
A.
0.0334
B.
0.00666
0.267
0.533
0.125
F2
.
0.108
0.283
0.154
0.769
F3
0.0769
A..
0.0166
B..
0.0831
0.00831
C..
A...
0.412
0.471
F4
0.0250
C.
0.200
0.1118
B...
C...
0.117
0.133
0.0333
Figura 2-40
h) figura 2-41
F1
0.167.
F2
0.0333.
F3
0.0167
F4
F1.
0.217
F2.
0.0665
F3.
0.0835
0.500.
0.100
A 0.050
0.350
0.333
0.433
0.133
0.500
B
.
0.167..
0.267
0.167
F4.
F1..
0.117
0.134
0.100.
0.600
0.150
C
0.050.
0.200
F2.. 0.0251
F3..
0.00835
F4..
0.0334
Figura 2-41
i)
La distribución a priori P(y) se encuentra en la columna marginal de la tabla de la figura 2-38 o en la primera
estrella del árbol de la figura 2-40.
Todas las distribuciones a posteriori (P(y|x) se encuentran en el árbol de y|x. Entre ellas la solicitada P(y|x =
300), es la estrella correspondiente a x= B.
204
Jorge Carlos Carrá
Capítulo 2 Probabilidades
Toma de decisiones bayesianas
El segundo tipo de problemas consiste en actualizar una probabilidad subjetiva, basada en la creencia
del operador, en base a los resultados de un muestreo. Este tema se profundiza con la inferencia
bayesiana que se estudia en un segundo curso de estadística.
El concepto se aprecia en el diagrama de árbol genérico de la figura 2-42.
D
P(D|A)
A
P(A)
.
P(A')
P(D'|A)
D'
P(D|A')
D.
A´
P(D'|A')
D'.
Figura 2-42
Las probabilidades del suceso A pueden ser calculadas mirando a la izquierda de A, P(A), anterior o
sin condicionalidad, en general subjetiva, o mirando a la derecha de A, P(A|D), posterior o luego del
conocimiento de D, calculada por el teorema de Bayes.
El esquema conceptual se resume en la figura 2-43, en donde se aprecia la recursividad del proceso,
si se vuelve a aplicar la misma secuencia una y otra vez.
Probabilidad
anterior
Probabilidad
posterior
Experiencia
Figura 2-43
Problema resuelto 2.19. Monedas
Se tira una moneda de la que solo sabemos que o tiene dos caras (2C) o tiene una cara y una seca (CyS).
Estimamos subjetivamente que P(2C)=0.100 y queremos ajustar este número con la experiencia. Se tira la
moneda 10 veces y resultan todas caras. ¿Cuál es la P(2C) luego de la experiencia?
El diagrama de árbol de probabilidades se muestra en la figura 2-44.
1
0.100
2C
.
0.900
C
0.100.
(0.5)^10
CyS
C.
0.000879
Figura 2-44
La expresión (0.5)^10, significa:
1
( )10
2
Este valor es la probabilidad de obtener 10 C con una moneda de C y S, obtenida por la RP:
205
II Teoría de las probabilidades
Aplicación: Teorema de Bayes
1
P (10C ) = P (CCCCCCCCCC ) = ( )10
2
Aplicando el teorema de Bayes, se obtiene:
P (2C | C ) =
0.100
= 0.991
0.100 + 0.000879
Esta es la probabilidad de que la moneda sea de 2C, a la luz de la nueva información suministrada por la
experiencia.
Otro ejemplo, probablemente más interesante, se describe en el ensayo de este capítulo: ¿Existe Dios?
206
Jorge Carlos Carrá
Capítulo 2 Probabilidades
III Simulaciones
Monte-Carlo
Una simulación es un modelo que se comporta en forma similar a la realidad que se desea estudiar.
De esta forma se podrán crear datos a bajo costo, los cuales podrán luego ser analizados como si
procedieran de una muestra real. Al final de cada uno de los siguientes capítulos se incluye una
sección de simulaciones y en este en particular, aprenderemos a construir simulaciones para hallar
valores de probabilidad con la intervención de un generador de números aleatorios.
Una muestra debe ser representativa de la población, es decir que cualquiera de los elementos de la
población debe tener la misma probabilidad de estar en la muestra. Suponga que la fuente de datos
sea una encuesta callejera voluntaria. Con ella podríamos generar gráficas, calcular la mediana, la
media, la desviación estándar, etc. ¿Pero representan estos resultados a la población? Decididamente
no. Por esta razón, los resultados que obtengamos son lo que los estadísticos llaman apropiadamente
"basura".
Debido a lo anteriormente expresado, los generadores de números aleatorios que necesitamos, deben
proveer una sucesión de números que tengan la misma probabilidad de aparecer. Si realizamos el
histograma de frecuencias relativas de cada uno de dichos números, obtendríamos prácticamente la
misma frecuencia para cada uno. La forma del histograma sería rectangular o uniforme por lo cual a
éste generador se lo llama de Números Aleatorios Uniformes, NAU. Estos generadores pueden ser,
ruletas, dados, algoritmos matemáticos, tablas de NAU, calculadoras con tecla RAN (RANdom
significa aleatorio), software como EXCEL, SPSS, etc.
Uno de los algoritmos matemáticos típicos es:
xn+1 = xn rmod ( N )
Es decir se inicia con un número cualquiera x0, se lo multiplica reiteradamente por otro r, llamado
semilla y se lo reduce módulo N (es decir se lo divide por N y se retiene el resto). No todas las
secuencias generadas de esta forma son uniformes, esto depende de r y de N.
Ejemplo
Si x0 = 1, r = 13 y N = 100, resulta:
xn+1 = xn13mod (100)
Verificar que la secuencia es:
01, 13, 69, 97, 61, 93,…
Los programas de computación presentan además la ventaja de poder presentar NAU entre cualquier
par de números deseado (por ejemplo: 0 y 1 para una moneda, 1 y 6 para un dado, 1 y 365 para los
días del año, etc). Existen varias formas de obtener esto mismo con una tabla de NAU: ignorando los
valores inferiores y superiores a los límites deseados, convirtiendo los valores utilizando una función
módulo adecuada, etc.
207
III Simulaciones
Monte-Carlo
Valor de probabilidad
Simulación Monte-Carlo
Las simulaciones probabilísticas se suelen denominar genéricamente con el nombre de Método
Monte-Carlo o Simulación Monte-Carlo, SMC. En el capítulo 3 veremos que en realidad bajo este
nombre se agrupan una serie de procedimientos que reproducen por muestreo aleatorio,
distribuciones poblacionales arbitrarias F(x) de variables aleatorias x, normalmente con la
intervención de la computadora. Estas características son parte esencial de un algoritmo por SMC.
El nombre del método se origina por haber tomado inicialmente a una ruleta como un generador
simple de números aleatorios, asociado a que el Casino de Monte Carlo era la capital del juego de
azar. Los orígenes de esta técnica están ligados al trabajo desarrollado por Stan Ulam y John Von
Neumann a finales de los 40 en el laboratorio de Los Álamos, cuando investigaban el movimiento
aleatorio de los neutrones.
Valor de probabilidad
El procedimiento para crear una simulación de valores de probabilidad se puede ajustar a los
siguientes 3 pasos:
1 Población, N
Definir la población que se desea estudiar. Esta definición se utilizará en el segundo paso.
Ejemplos
• Si la población es de nacimiento de varones o mujeres, definir una población de 0 y 1 y codificar
el 0 a las mujeres y 1 a los varones.
• Si la población es de un 90% de hombres y se definen N valores distintos (por ejemplo de 1 a
100), recodificar los números del primer 90% (es decir de 1 a 90) como varones y los restantes
como mujeres (o cualquier otra asignación que respete estos porcentajes).
Bootstrap
En algunos problemas se desconoce la población original y solo se cuenta con una muestra de la
misma. En estos casos se puede aplicar la técnica llamada Boostrap o Remuestreo, que
desarrollaremos en el capítulo 5 (página 838). La idea básica es simular la población original
formando todas las combinaciones posibles con repetición de la muestra en cuestión. En la práctica
se utiliza una gran cantidad de muestras (no necesariamente todas) de igual tamaño que la muestra
original, con repetición. Los resultados que se obtengan se consideran representativos de los que se
obtendrían si se consideraran todas las muestras posibles.
2 Muestra, n
Crear una secuencia de NAU del tamaño n de la muestra deseada. Esta muestra se presenta en
general en una columna del SPSS (con n igual al número de filas). Para contar el número de casos en
estudio y establecer así el valor de probabilidad buscado a través de la generación (virtual) de casos,
se aplicará la definición frecuencial de las probabilidades.
La LGN establece que:
f → P( A)
n →∞
¿Cuál es el valor finito que debe usarse para n? En el capítulo 5 se obtendrá la siguiente ecuación:
n=
4 pq
B pˆ 2
En donde p es el valor de la proporción poblacional, q = 1–p y B p̂ es un término de error igual a la
diferencia entre el valor teórico y el muestral, el cual solo podrá ser superado el 5% de las
repeticiones NR. Usualmente B pˆ ≤ 10% p .
208
Jorge Carlos Carrá
Capítulo 2 Probabilidades
3 Repetición
Repetir el paso 2 para obtener varias muestras, en las cuales se realizará alguna cuenta que se
llamará en el capítulo 4, variable muestral, simbolizada en general con θˆ . La cuenta se podrá
efectuar, según el caso, con el procedimiento Frecuencias, con la función Suma, con el
procedimiento Contar, etc.
Este procedimiento es un caso particular del esquema general (Simulación Montecarlo), que se
estudiará en la sección simulaciones del capítulo 3.
SPSS
La función que provee NAU es Rv.Uniform y se ejecuta con:
Transform > Compute > Random Numbers > Rv.Uniform. En la mayoría de las
calculadoras de mano, esto equivale a la tecla RAN#.
Población
Los valores mínimo y máximo de la población se definen con los parámetros de la función
Rv.Uniform, al reemplazar los dos signos de interrogación.
Darle un nombre a la variable a generar, por ejemplo Muestra1.
Muestra
Es el número de casos existentes en la vista de datos.
Al ejecutar la función, se generarán NAU entre el mínimo y el máximo (excluyendo estos 2 valores),
en la cantidad dada por el número de casos. La creación del número determinado de casos definido
por el tamaño de la muestra, se podrá realizar a mano o en forma automática como se verá luego.
Repetición
Si el resultado de la muestra consiste en un solo caso (por ejemplo, lanzar un dado y hallar la
probabilidad de pares e impares), la repetición consistirá en todos los casos de la variable
Muestra1.
En cambio, si el resultado involucra a varios casos (por ejemplo, lanzar un dado y hallar el valor
esperado o el número de tiradas hasta que salga un 6), entonces deberán crearse muestras
adicionales. En este caso, se tienen 2 alternativas:
Alternativa1
Se realiza repitiendo el proceso que generó la variable Muestra1, originando Muestra2,
Muestra3, etc.
Alternativa 2
Como alternativa a la secuencia anterior podría simularse un sola variable con un tamaño de varias
veces el tamaño de la muestra y luego ir seleccionado de una en una con Select Cases >
Based on time or case range…
Si por ejemplo el tamaño de la muestra es de 200 y se desearan 5 repeticiones, generar 1000 casos y
luego ir seleccionando de 0 a 200, de 200 a 400, etc.
Notas acerca de RV.UNIFORM
Muestreo con reemplazo, MCR
Como todos los generadores de números aleatorios, entrega NAU con reemplazo, de lo contrario
dejaría de ser equiprobable o uniforme.
Muestreo sin reemplazo, MSR
Un muestreo sin reemplazo, condiciona cada resultado a los anteriores, por lo cual el proceso es algo
más complicado. Sin embargo, veremos en el capítulo 3 que las probabilidades del muestreo sin
209
III Simulaciones
Monte-Carlo
SPSS
reemplazo tienden a las del muestreo con reemplazo, si el tamaño de la muestra es pequeño respecto
del de la población. Por lo tanto, si se requiere un MSR, y si el problema lo permite, tomar un
tamaño n ≤ 5% N y luego eliminar los resultados repetidos. Si el problema no lo permite, pues fija
el tamaño de la muestra, no quedará más remedio que condicionar el muestreo en función de cada
resultado (ver en la sección final de problemas, el problema de Simulación: Esferas de distintos
colores).
Eliminar datos repetidos
Si los datos del muestreo están en una columna, se puede utilizar el procedimiento Data >
Identify Duplicate Cases (coloca 1 en los casos sin duplicar y 0 en los duplicados) y
luego con Data > Select Cases se podrán seleccionar los casos deseados y eventualmente
borrar los casos no deseados. Si los datos del muestreo están en una fila (las repeticiones serán las
distintas filas), se puede utilizar el procedimiento Contar Casos con Transform > Count
Values within Cases, nombrar la nueva variable, asignar el valor a ser contado con Define
values y elegir las variables cuyo contenido será contado. Luego con Select Cases se podrán
borrar los casos no deseados (ver el problema de Simulación: Filas de cine).
Redondeo
El resultado del muestreo se presenta con números decimales entre 0 y 1, por lo cual, si estos deben
ser enteros, deberán redondearse. En el SPSS existen 2 funciones para redondear: RND y TRUNC.
RND
RND()significa Round, y redondeará el resultado al entero más cercano. Si el resultado termina
exactamente en 0.5, se redondeará alejándose de 0, por ejemplo –4.5, se redondea a –5. Esta función
se encuentra en Transform > Compute > Arithmetic > RND (sombrear previamente el
contenido que se desea colocar dentro del paréntesis), pero es más directo teclearla en forma manual.
Corrección por continuidad
Para que este redondeo afecte por igual a todos los enteros resultantes, el límite inferior deberá
comenzar con medio punto antes y el superior terminar con medio punto después.
Considerar además que cuanto mayor es la amplitud entre límites, menor será el error de redondeo.
TRUNC
En forma similar se puede utilizar la función truncar, trunc, la cual elimina los decimales de la
expresión.
Corrección por continuidad
En este caso se requiere sumar 1 al límite superior para que el corte comprenda a dicho límite.
Formatear la variable
Para eliminar los 2 decimales que el programa coloca por defecto: hacer clic en Variable View
o doble clic en el nombre de la variable. Se abre la vista de variables en donde se colocará 0 en el
número de decimales.
Definir además a la variable como ordinal.
Semilla
Si se desean generar siempre los mismos números, se deberá fijar una determinada semilla (ver
capítulo 1, página 48), la cual debe ser establecida previamente.
Crear casos
Las funciones que generan una variable o columna (procedimiento Compute), lo hacen solo en la
cantidad de casos preexistentes en el archivo .sav. Por lo tanto deberemos asegurar previamente la
existencia del número de casos deseado, los cuales se pueden conseguir con algunos de los
siguientes procedimientos.
210
Jorge Carlos Carrá
Capítulo 2 Probabilidades
a Con el menú
1. Versiones hasta SPSS15
Si se desean inicializar por ejemplo n = 100 casos, ir a la fila 100. Posteriormente seleccionar la
celda de fila 100, columna 1 y apretar simultáneamente las teclas espaciadora y Enter. Se
observará que el programa coloca un punto en cada una de las 100 celdas, activándolas.
2. Con EXCEL.
Crear una columna con 100 datos arbitrarios en EXCEL (luego podrá borrarse), copiar y pegar
en el SPSS.
b Con Sintaxis
La ventana de sintaxis (Apéndice A) es una alternativa al uso de los menús. El uso de las sintaxis
permite automatizar los trabajos largos y repetitivos al incluir todos los comandos en una sola
sintaxis. Además algunas opciones solo se pueden realizar con la sintaxis.
Para generar un número deseado de casos en la vista de datos, ir a File > New > Syntax. En
la ventana de sintaxis, teclear los siguientes comandos, o si lo prefiere, copiar y pegar desde el
archivo sintaxis.txt de la Base de Datos. Cambiar el valor 100 por el tamaño que se desee.
NEW FILE.
INPUT PROGRAM.
LOOP #I=1 TO 100.
COMPUTE ID=$CASENUM.
END CASE.
END LOOP.
END FILE.
END INPUT PROGRAM.
EXECUTE.
Seleccionar todo y presionar el botón Run
archivo con el número de casos fijado.
o ir al menú: Run > All. Se genera un nuevo
Problema Resuelto 2.20. Eficacia de un medicamento
Se acepta que cuando una persona desea dejar de fumar, la proporción de éxito es del 20%. Una compañía
farmacéutica realiza una prueba acerca de un medicamento para dejar de fumar y obtiene que 12 de 50
fumadores dejan de fumar.
a) Si partimos del supuesto de que la proporción de éxito es del 20% y el suceso encontrado por el laboratorio
(24%), resulta difícil de obtener en forma aleatoria, resultaría un suceso poco común (página 47) y podríamos
concluir que existen evidencias suficientes para considerar la eficacia del fármaco. Realizar una SMC para
analizar la eficacia del medicamento.
b) Hallar analíticamente y con una SMC, la probabilidad de que en una muestra de 5 personas tomadas de una
población de 80% de fumadores, se encuentren 3 F (Fumadores) y 2 N (No fumadores). Este cálculo analítico
se profundizará en el capítulo 3.
a)
SMC
1 Población
Se considera N = 2000 y consideraremos que el 20%, es decir los numerados entre 1 y 400, han dejado de
fumar voluntariamente. Se realizará entonces una simulación de 100 NAU.
211
III Simulaciones
Monte-Carlo
SPSS
2 Muestra
Se muestreará un tamaño n = 100 casos32.
Si en la vista de datos no se cuenta con 100 casos, se deben generar a mano o en forma automática con por
ejemplo la sintaxis anterior o con algunas de las que se encuentran en el Apéndice A, Sección IV, Sintaxis.
Luego seguir con:
Transform > Compute > Random Numbers > Rv.Uniform.
Asignarle un nombre, por ejemplo Muestra. Definir los valores mínimo y máximo de la población. Para que
se cumpla que n ≤ 5% N , deseamos que los límites se encuentren entre 1 y 2000.
Para redondear el resultado, englobar la función entre paréntesis con la palabra RND, con lo cual quedará:
(RND(Rv.UNIFORM(0.5,2000.5))
Recodificar
Debemos ahora recodificar (capítulo 1, página 54) los números entre 1 y 400 con un solo código (por ejemplo1
= F de fumadores) y los números entre 401 y 2000 con otro código (por ejemplo 2 = N de No Fumadores)33.
En la figura 2-45, se muestra la variable MuestraR con este contenido.
Figura 2-45
Frecuencias
Si se solicita ahora el procedimiento Frecuencias, se obtiene una tabla como la de la figura 2-46.
Figura 2-46
3 Repetición
Para repetir el procedimiento varias veces, nada mejor que hacerlo con la sintaxis.
32
Esto corresponde a un error de estimación B = 8%, según la ecuación n =
4 pq
que se estudiará en el B2
capítulo 5. 33
Observar la utilización de las frecuencias acumuladas como parte del proceso. Esto será justificado en el capítulo 3. 212
Jorge Carlos Carrá
Capítulo 2 Probabilidades
Procedimiento 1
Copiar la sintaxis que se genera en el visor para cada procedimiento y copiar luego este código en una ventana
de sintaxis con File > New > Syntax. Si se desean reunir códigos, copiarlos sucesivamente (puede
hacerse en la misma ventana o en Word) y borrar los códigos no deseados. Se obtendrá entonces el siguiente
código (los comentarios que siguen a los asteriscos y los nombres de las variables, son a elección del usuario).
*Obtención de los NAU.
COMPUTE Muestra =rnd(RV.UNIFORM(0.5,2000.5)).
EXECUTE.
*Obtención de la recodificación.
RECODE Muestra (1 thru 400=1) (401 thru 2000=2) INTO MuestraR.
EXECUTE.
*Obtención de la frecuencia.
FREQUENCIES VARIABLES=MuestraR
/ORDER=ANALYSIS.
Procedimiento 2
El procedimiento anterior exige correr a mano varias veces la sintaxis. Sin embargo esto puede automatizarse
aún más, puesto que el SPSS permite generar nuevas variables (en realidad una variable vector) con un
comando llamado DO REPEAT. Si desea experimentarlo escriba la siguiente sintaxis en una ventana nueva de
sintaxis (puede copiarla y pegarla del archivo sintaxis.txt que se encuentra en la Base de Datos).
Se observa que este comando solo requiere 2 sentencias, DO REPEAT antes de los procedimientos (en este
caso Compute y Recode) y END REPEAT para finalizar y un solo EXECUTE al final.
*Generación de la variable vector.
DO REPEAT v=v1 to v5.
*Generación de los NAU.
COMPUTE v =rnd(RV.UNIFORM(0.5,2000.5)).
*Recodificación en la misma variable.
RECODE v (1 thru 400=1) (401 thru 2000=2) INTO v.
END REPEAT PRINT.
EXECUTE.
*Procedimiento frecuencias.
FREQUENCIES VARIABLES=v1 to v5
/ORDER=ANALYSIS.
Esta sintaxis genera automáticamente 5 variables, las carga con NAU, las recodifica y finalmente manda al
visor la tabla de frecuencias para cada una. En lugar de generar 5 variables puede elegir el número que desee,
por ejemplo 20, cambiando v5 por v20. El comando PRINT (opcional) permite que aparezca en el visor
información de lo ejecutado, paso por paso.
Conclusiones
Los resultados numéricos variarán con cada simulación, pero si se repite el proceso suficiente cantidad de
veces (no menos de 10), probablemente se obtenga un valor de frecuencias igual a 24 o mayor, solo en alguna
de ellas. Dado que resulta así un evento poco común, se concluiría que no existen evidencias firmes acerca de
la eficacia del nuevo fármaco.
No es difícil calcular por RM la probabilidad de que, en la muestra de 100, aparezcan exactamente 20 casos o
más de 24 casos (este cálculo se hará en forma sistemática en el capítulo 3, como parte de una distribución
binomial). Los resultados son 0.100 y 0.189, respectivamente. De aquí que si se realizan 10 repeticiones, es
probable que solo alrededor de 2 de ellas, presenten más de 24 casos.
b)
Analíticamente
( 0.8
3
* 0.22 ) P5(2,3) = 0.205
213
III Simulaciones
Monte-Carlo
SPSS
SMC
Generamos 5 columnas similares al punto a) y contamos cuantos caso tienen 3 N y 2F. El proceso se simplifica
codificando con 0 y 1 a N y F respectivamente. De esta forma generando una variable Suma de las 5
columnas, podemos contar cuantas tienen una suma igual a 3 (procedimiento Frequencies). El resultado se
aprecia en las siguientes figuras.
Figura 2-47
Figura 2-48
Se observa que el resultado de la simulación es 20.4% cercano al 20.5% teórico.
Problema Resuelto 2.21. Dado normal-1
Se lanzará un dado 120 veces y se confeccionará su distribución de frecuencias (histograma), considerando
como valores de x a cada uno de los posibles resultados.
Figura 2-49
Dado
En lugar de arrojar el dado, decidimos realizar una SMC con el SPSS.
214
Jorge Carlos Carrá
Capítulo 2 Probabilidades
SMC
1 Población
Abrir un archivo nuevo: File > New > Data.
Crear 120 casos dentro del archivo. Luego continuar con:
Transform > Compute > rnd(RV.UNIFORM(0.5,6.5)). Colocar un nombre a la nueva variable que
se generará, por ejemplo: muestra > OK
2 Muestra
De forma simulada, finalmente se han conseguido 120 lanzamientos incorporados a la planilla SPSS.
3 Repetición
Se repite el procedimiento para un número grande de tiradas, por ejemplo: 240 veces, 1200 veces, 2400 veces,
24000 veces o cualquier número superior que se desee.
Diagramas y tablas
Se observará que al aumentar el número de lanzamientos, la distribución de frecuencias tiende a una forma
rectangular con todas las barras de altura igual a la frecuencia relativa:
f =
1
6
En la figura 2-50 se observa el diagrama de barras de esta distribución empírica para 10000 casos.
Nota
Si repetimos la experiencia anterior pero ahora con un dado de madera casero, no tendremos una frecuencia
relativa esperada previa (como 1/6), con la cual comparar los resultados, pues dependerá de la construcción
del dado. En realidad nosotros estaremos construyendo dicha referencia en base al resultado observado de la
experiencia.
El valor (previamente desconocido) hacia el cual convergerán los resultados de la experiencia, será la única
referencia válida para hacer previsiones sobre el futuro comportamiento de ese dado en particular.
Naturalmente tampoco puede hacerse una simulación con computadora en este caso, pues se desconoce una
distribución teórica a priori.
215
III Simulaciones
Monte-Carlo
SPSS
Figura 2-50
Lanzamiento de un Dado 10000 veces
Problema Resuelto 2.22. Dado normal-2
En este apartado consideramos nuevamente un dado normal equilibrado pero en lugar de fijarnos en todas las
caras de un dado, nos concentraremos en solo una de ellas, por ejemplo la que tiene el número 2.
SMC
1 y 2 Población y Muestra
Estudiaremos el comportamiento de la frecuencia relativa del 2 al tirar 100 veces sucesivas el dado. La
columna de resultados se obtiene como se indicó en el problema resuelto Dado normal-1.
3 Repetición
Lanzaremos el dado 1000 veces y repetimos lo anterior. Completamos la experiencia hasta obtener por lo
menos 11 réplicas con 1000 lanzamientos adicionales en cada una, es decir:
2000, 3000, ...10000.
Como alternativa a la secuencia de lanzamientos con varias variables, podría simularse un solo lanzamiento de
10000 tiradas (o el número que se desee) y luego ir seleccionando de 0 a 100, de 0 a 1000, etc con Select
Cases > Based on time or case range…
216
Jorge Carlos Carrá
Capítulo 2 Probabilidades
Dado que SPSS mantiene las opciones del último procedimiento solicitado, solo será necesario efectuar muy
pocos cambios en las sucesivas reiteraciones facilitándose el proceso. Hacer uso también de los botones de la
barra de herramientas.
Un procedimiento aún más automático es utilizar el botón Paste de la ventana de cada procedimiento, para
generar el código en una ventana de Sintaxis. Luego solo se deberá cambiar la cantidad de lanzamientos en
dicha ventana y ejecutar la sintaxis para cada cambio (seleccionando todo y presionando el botón Run
).
Diagramas y tablas
Para obtener el número de veces que salió el 2, veamos algunas alternativas:
• Diagrama de tallo y hojas.
• Procedimiento frecuencias: tiene la ventaja de dar directamente la frecuencia relativa.
Confeccionar finalmente un tabla con las frecuencias relativas de cada una de las 11 réplicas y obtener a partir
de ella, un diagrama de líneas (figura 2-51) con el número de lanzamientos en abscisas y la frecuencia relativa
de cada serie de 100, 1000, 2000, ..., en ordenadas.
Figura 2-51
Frecuencia relativa del número 2
Sugerencias
Preparar la tabla en 2 columnas de la vista de datos, una con el número de lanzamientos y otra con la
frecuencia.
• Usar el procedimiento reportes (Case Summaries) visto en el capítulo 1, para esas columnas y luego
solicitar el gráfico desde la tabla con un doble clic para activarla, sombrear los valores deseados y luego
con clic derecho > Create Graph > Line.
• Alternativamente utilizar Weight Cases, para ponderar con las columnas de las frecuencias. Luego
obtener un gráfico de líneas de las 11 réplicas.
Se puede apreciar que las oscilaciones de la curva tienden hacia el valor estable siguiente, lo cual se justifica
por la LGN.
f =
1
6
217
III Simulaciones
s
M
Monte-Carlo
SPSS
Prob
blema Reesuelto 2..23. Paseo por el casino
c
Ampliaaremos los concceptos aprendidos en el juegoo con un dado normal,
n
al jueggo de la ruleta. En esta actividdad
utilizareemos una ruletta europea com
mo la de la figurra 2-52, es deccir la que tiene números del 1 al 36 (18 rojos,
18 negrros y el 0 de co
olor verde). Estta ruleta se difeerencia de la am
mericana, puess ésta tiene tam
mbién un doble 0.
F
Figura 2-52
Ruleta
SMC
Simularr 500 tiradas dee la bola y lueg
go repetir para 1000 tiradas y para 50000. L
Llamar Ruleta a la nueva
variablee.
Diag
gramas y tablas
a) De
e plenos (re
esultados numéricos
n
)
En la figura 2-53, se muestra
m
el diag
grama de barrass de los plenoss. El diagrama dde barras esperrado mostraría 37
barras iguales
i
con unaa frecuencia relativa de 1/37.
Si se ju
uega a pleno, ell casino paga 36 veces la apuesta. ¿Puede annticiparse al caapítulo 3 y estaablecer por quéé es
un buenn negocio tenerr un casino?
218
Jorge
e Carlos Carrrá
Capítulo 2 Probabilidades
Figura 2-53
Pleno (50000 veces)
b) De color
En la figura 2-54 se muestra el diagrama de barras para el resultado color (rojo, negro o cero (verde)).
Sugerencia
Para recodificar cada uno de los números de la variable Ruleta en negro, rojo o verde, según corresponda,
seguir el siguiente procedimiento. Puesto que el programa solo acepta la recodificación en otra variable del
mismo tipo (numérica o de cadena), llamamos 1 al negro, 2 al rojo y 3 al verde. Luego podremos etiquetar a la
variable con las palabras negro, rojo y verde. Veamos por ejemplo la recodificación a color de los resultados
de plenos iguales al valor 2 de la variable Ruleta.
Transform > Recode Into different variables > colocar en la caja de texto la variable
Ruleta y definir el nombre de la nueva variable, por ejemplo Color > Old and new values > (Old
Value) Value = 2 > (New Value) Value = 1 > Add. Repetir para el resto de los 36 números
(mirar el color de cada uno en la figura 2-52) > Continue. Dar un nombre a la nueva variable, por ejemplo
color, > Change > OK.
Para etiquetar los valores de esta variable con el nombre del color, abrir la vista variables y colocar el nombre
del color en la columna values presionando el botón del cuadro de texto. No olvidar codificar la variable
como ordinal.
El diagrama de barras tiende ahora hacia los valores: 1/37 para el cero y 18/37 para colorado y negro.
219
III Simulaciones
Monte-Carlo
SPSS
Figura 2-54
Color (50000 veces)
c) De pares–impares
En la figura 2-55 se ha obtenido el diagrama de barras para pares e impares. Llamemos ParImpar a la nueva
variable.
Sugerencia
Para recodificar rápidamente los pares, impares y el cero, seguir el camino siguiente (justificar luego el
razonamiento):
Transform > Compute > escribir ParImpar en Target Variable > Mod(Ruleta,2) + 2 > If
Colocar la condición: Ruleta~=0 (significa distinto de 0) > Continue > OK.
Se observa que los 0 de la ruleta son considerados missing (perdidos). Para colocar nuevamente en estos
valores perdidos los 0 originales, recodificar con: Transform > Recode > Into Same Variables
> colocar la variable a recodificar > Old and New Values > Sistem or used missing > en
New value colocar O > Add > Continue > OK.
Nota
La función módulo devuelve el resto del valor de la variable al dividirla en este caso por el módulo 2. ¿Qué
valores codifican a cada una de las 3 categorías? ¿Por qué se suma un número 2 (o cualquier otro) a la fórmula
anterior? Si no lo percibe, pruebe solo con Mod(Ruleta,2).
El diagrama de barras tiende ahora hacia los valores: 1/37 para el cero y 18/37 para los pares e impares.
Diagramas similares pueden obtenerse para las docenas (1°, 2° y 3°) y para menores y mayores.
220
Jorge Carlos Carrá
Capítulo 2 Probabilidades
Figura 2-55
Pares e Impares (50000 veces)
Problema Resuelto 2.24. Pronóstico del tiempo
La probabilidad de que en la ciudad llueva (L) un día del año seleccionado al azar es 0.25. El pronóstico es
correcto el 60% de los casos en que es de lluvia y el 80% de los casos en que se hacen otros pronósticos.
Realizar una SMC para esta situación con una muestra de 1000 días y con ella hallar la probabilidad de que un
día haya llovido, si el pronóstico fue correcto.
Este es un problema de 2 variables con 2 niveles, Lluvia (V y F) siendo Verdadero cuando llueve y
Pronóstico (P y N), siendo Positivo cuando acierta Lluvia34. Para realizar la simulación debemos pensar
como generar estas 2 variables experimentalmente, para luego cruzarlas y obtener lo que se desee.
El punto de partida es simular la distribución conjunta que se verifica en la tabla de contingencias asociada al
árbol, para lo cual primero debemos construir el árbol de probabilidades condicionales.
34
Apreciar que se está usando la convención que asigna una letra a cada variable y no a una sola variable (página 131). 221
III Simulaciones
Monte-Carlo
SPSS
Árbol de probabilidades
0.15
1500
1500..
0.40
N
0.10
1000
2500
0.80
P.
0.60.
6000
8500
N.
0.15.
1500.
10000
V
.
0.75
Frec acum
P
0.60
0.25
frec abs
F
0.20
Figura 2-56
En las columnas se han colocado los valores conjuntos para 10000 casos y las frecuencias acumuladas, las
cuales son parte del proceso de recodificación, como se verá en breve.
Tabla de Contingencias
La tabla de contingencias equivalente es:
Pronóstico
P
N
V 1500 1000
Lluvia
F 6000 1500
Figura 2-57
SMC
1 Población
Abrir un archivo nuevo: File > New > Data.
Una población aleatoria con N = 10000, se genera con Transform > Compute >
rnd(RV.UNIFORM(0.5,10000.5)), pero previamente se deben habilitar la cantidad de casos de la
muestra en el archivo.
2 Muestra
Crear una muestra de 1000 casos (días) dentro del archivo. Luego continuar con:
Transform > Compute > rnd(RV.UNIFORM(0.5,10000.5)). Colocar un nombre a la nueva
variable que se generará, por ejemplo: muestra > OK.
Para que la población presente los porcentajes de las probabilidades conjuntas, VP, VN, FP y FN., se debe
recodificar en otra variable, llamada por ejemplo muestraR, para esos niveles. Con una población de 10000
habitantes, se tienen:
VP: 1500
VN: 1000
FP: 6000
222
Jorge Carlos Carrá
Capítulo 2 Probabilidades
FN: 1500
Para realizar la recodificación, se utilizan las frecuencias acumuladas que se observan a la derecha del árbol de
probabilidades condicionales. De esta forma las codificaciones surgen rápidamente:
VP: entre 1 y 1500,
VN entre 1501 y 2500,
FP: entre 2501 y 8500 y
FN: entre 8501 y 10000.
Nota
En la recodificación, cada uno de estos niveles de la variable muestraR se podrá codificar como variable
numérica: 1, 2, 3 y 4 para luego, con la vista de variables asignarles los nombres correctos a cada uno de los
niveles. Otra alternativa más rápida es recodificar directamente con letras creando una variable string
(alfanumérica). Para esto se debe tildar previamente el casillero Output variables are strings, que
se encuentra en la parte inferior de la ventana.
Crear las variables Lluvia y Pronóstico
A partir de la variable muestraR, crear estas variables recodificando en distintas variables.
Una variable se llamará llamada Lluvia con niveles V (valor nuevo 1 para los valores viejos de muestraR
1 y 2) y F (valor nuevo 2 para los valores viejos de muestraR 3 y 4) y otra será llamada Pronostico con
niveles P (valor nuevo 1 para los valores viejos de muestraR 1 y 3) y N (valor nuevo 2 para los valores
viejos de muestraR 2 y 4). Con la vista de variables asignar los nombres finales de cada uno de los niveles.
Una vista de cómo debería quedar la vista de datos se muestra en la figura 2-58.
Figura 2-58
Vista de datos
Resultados
El cruce de estas variables para una muestra de 1000 días, simulara el árbol (o Tabla de Contingencias) de la
población de 10000 días.
Figura 2-59
Frecuencias absolutas
223
III Simulaciones
Monte-Carlo
SPSS
Figura 2-60
Perfil dentro Pronóstico
El valor del perfil dentro de Pronóstico, permite responder la probabilidad de que un día haya llovido, si el
pronóstico fue correcto. Se observa en la tabla que en esta simulación resultó: 19.3%.
Obtener el valor teórico (20%) y comprobar así la concordancia con la simulación.
3 Repetición
Para repetir el procedimiento varias veces, nada mejor que hacerlo con la sintaxis.
Notas
1. Podrían seguirse ahora cualquiera de los procedimientos aptos para tablas de contingencias, como por
ejemplo el análisis de la independencia entre ambas variables.
2. Este proceso se extiende a un árbol de más de 2 variables, pero naturalmente, el esfuerzo será mayor. En
estos casos, las primeras variables del árbol deben colocarse en las capas de la distribución inicial del
procedimiento Crosstabs, dejando las últimas 2 para fila y columna. Como de costumbre (página 191),
la penúltima variable del árbol se corresponderá con el perfil que se solicite en la tabla de contingencias.
224
Jorge Carlos Carrá
Capítulo 2 Probabilidades
Ensayo: ¿Existe Dios?
La pregunta de si Dios existe, se encuentra indudablemente asociada a la fe del que la responde. Un
creyente (como es mi caso) responderá naturalmente que sí, en tanto que un ateo se pronunciará
decididamente por la negativa.
En los comienzos del desarrollo de la teoría estadística, en los siglos XVII y XVIII, era común que
se utilizaran sus métodos para probar la existencia de Dios. En este ensayo abordaré esta pregunta a
la luz de la relativamente reciente Teoría de la Decisión, la cual plantea la existencia de distintos
criterios aplicables. Un grupo de ellos se basa solo en utilidades, otro grupo se apoya solo en
probabilidades, en tanto que un tercer grupo se basa en la interrelación conjunta de utilidades y
probabilidades. Este ensayo se basa solo en probabilidades.
El peso de la evidencia. Thomas Bayes
¿Las evidencias físicas influyen en nuestro pensamiento acerca de la existencia de Dios?
El físico teórico inglés, Stephen Unwin, editó en el año 2004 un libro al respecto (Unwin, S).
Posteriormente en el año 2006, el subdirector de la prestigiosa revista científica alemana PM
Magazine, Thomas Vasek, publicó un artículo basado en el libro de Unwin (Vasek. T), cuya portada
se muestra en la figura 2E-1.
Figura 2E-1
Artículo original
En ambos casos se utiliza el Teorema de Bayes, estudiado en este capítulo, configurando un
enfoque basado solo en probabilidades (y evidencias).
Este teorema fue desarrollado por el religioso y matemático inglés del siglo XVIII, Thomas Bayes
225
Ensayo: ¿Existe Dios?
El peso de la evidencia. Thomas Bayes
(1702-1761) y publicado (aunque no en forma explícita), después de su muerte en 1763, por su
amigo, el matemático Richard Price (Price, R. 1763). Price y posiblemente también Bayes, también
estaban motivados por la necesidad de encontrar una respuesta a la existencia de Dios.
En este informe he tomado como referencia al artículo más reciente, es decir al de Thomas Vasek.
El modelo matemático
Se materializa, como ya he puntualizado, por el teorema de Bayes, el cual posibilita actualizar una
probabilidad subjetiva, es decir basada enteramente en la creencia del operador, tomando como base
a los resultados de la evidencia experimental.
Si llamamos a la probabilidad subjetiva, probabilidad anterior y a la resultante del teorema,
probabilidad posterior, el esquema conceptual se resume en la figura 2E-2, en donde se aprecia la
recursividad del proceso, al aplicar la misma secuencia, una y otra vez. Recorreré a continuación
cada uno de los 3 componentes de esta figura.
Probabilidad
anterior
Experiencia
Probabilidad
posterior
Figura 2E-2
Diagrama conceptual
Detalles del modelo
Definimos 2 eventos:
G: Dios existe.
E: Evidencia experimental.
Por lo tanto serán (el apóstrofo significa negación o complemento):
P(G) = probabilidad de que Dios existe (anterior).
P(G') = probabilidad de que Dios no existe. P(G') = 1-P(G).
P(E|G)= probabilidad de la nueva Evidencia, si Dios existe.
P(E|G')= probabilidad de la nueva Evidencia, si Dios no existe.
El esquema de árbol de la regla del producto que se asocia a estas probabilidades se muestra en la
figura 2E-3:
P(E|G)
P(G)
G
E
.
P(G')
P(E|G')
G'
E.
Figura 2E-3
Diagrama de árbol
El teorema de Bayes permite obtener P(G|E) = probabilidad de que Dios existe, posterior a la
evidencia. La expresión matemática del mismo aplicada a este caso es:
P (G | E ) =
226
P ( E | G ) P (G )
P( E )
Jorge Carlos Carrá
Capítulo 2 Probabilidades
P (G | E ) =
P ( E | G ) P (G )
P ( E | G ) P (G ) + P ( E | G ′ ) P (G ′ )
Definimos como factor D a (Stephen Unwin):
D=
P( E | G )
P( E | G ′ )
El factor D es el peso que se le da a la evidencia. Mide cuanto más probable es que se presente la
nueva evidencia E, si Dios existe, en relación a si Dios no existe. Este factor es denominado
Indicador Divino por Unwin.
Así por ejemplo:
D=2, indica que la evidencia es 2 veces más probable de producirse, si Dios existe.
D=1, indica una evidencia neutral, igualmente probable de producirse, si Dios existe o no existe.
D=0.5, indica que la evidencia es 2 veces más probable de producirse, si Dios no existe.
Si reemplazamos D en la ecuación de Bayes, se obtiene la siguiente ecuación final, que llamaré
Ecuación de Bayes-Unwin:
P (G | E ) =
DP (G )
DP (G ) + P (G ′ )
Figura 2E-4
Ecuación de Bayes-Unwin
Ya estamos listos para el razonamiento. En síntesis, este modelo matemático solo requiere de 3
componentes: el tipo de evidencia y 2 valores numéricos: el valor de la probabilidad inicial P(G), de
que Dios existe y el peso de la evidencia, expresada matemáticamente por el valor del indicador D.
Dado que el valor de la probabilidad del resultado de cada nueva experiencia es el valor inicial de la
probabilidad para la siguiente, solo se necesita agregar en cada ciclo, el nuevo valor de D,
correspondiente a la evidencia que se agrega.
El teorema de Bayes forma parte de la teoría de las probabilidades, la cual, como toda teoría
matemática, provee herramientas para realizar razonamientos deductivos rigurosos y exactos. Sin
embargo usted puede no estar de acuerdo con las evidencias y los valores asignados en el ensayo que
sigue a continuación. Si este fuera el caso, puede ajustar libremente estos aspectos y observar el
resultado final, con el archivo EXCEL que se menciona al final.
Probabilidad subjetiva inicial
Tanto Stephen Unwin como Thomas Vasek, parten de asignar una probabilidad subjetiva P(G) de
50% a la existencia de Dios (y por lo tanto de 50% a la no existencia P(G')), lo cual es equivalente a
decir que "se parte del desconocimiento total". Aún muchos de los que niegan la existencia de Dios,
admiten alguna posibilidad de que exista. Este principio (no compartido por todos los estadísticos),
se conoce en la teoría de las probabilidades como "de la razón insuficiente" o "de la indiferencia".
Evidencia y Probabilidad posterior
Thomas Vasek divide a la evidencia sobre la existencia de Dios, a favor y en contra, en cinco
ámbitos, en cada uno de los cuales se debe asignar un valor al factor numérico D (Experiencia
en la figura 2E-1), para luego poder obtener la probabilidad posterior a la experiencia, P(G|E)
1. El origen del universo.
2. El orden en el cosmos.
3. La evolución de la vida.
4. La existencia del bien y del mal.
5. Las experiencias místicas y religiosas.
Se asume que estas evidencias son independientes, por lo cual el orden es insubstancial.
227
Ensayo: ¿Existe Dios?
El peso de la evidencia. Thomas Bayes
Evidencia 1: El origen del universo
A partir del hecho evidente de que el universo existe, Vasek se formula la pregunta de si esta
existencia hubiera sido más o menos posible con o sin la existencia de Dios. Como respuesta,
considera que la probabilidad de la existencia de Dios en la creación de algo tan grande y admirable,
debe ser al menos dos veces mayor que la probabilidad de que haya surgido de la nada, en forma
espontánea.
Valor D
Asigna D = 2
Si por lo tanto reemplazamos los valores P(G)= 0.5 y D= 2 en la ecuación de Bayes se obtiene una
P(G|E) = 67%, con lo que la probabilidad de la existencia de un ser supremo, en virtud de la
evidencia fáctica de la creación del universo, aumenta del 50% al 67%.
Evidencia 2: El orden en el cosmos
Creado el universo, Vasek analiza ahora el orden dentro del mismo. Si las condiciones físicas de
nuestro mundo, cambiaran sólo mínimamente, éste colapsaría, lo cual sin embargo, no ha ocurrido.
Uno de los tantos ejemplos que pueden citarse, es la constante cosmológica Λ (Teoría General de la
Relatividad). Si Λ tuviera un valor levemente distinto al que tiene, el universo o bien se expandiría a
una velocidad enorme o bien se contraería sobre sí mismo. En general el mundo físico obedece
misteriosamente a determinadas constantes y elige el orden en lugar del caos que podría esperarse, si
fuera gobernado por procesos aleatorios. Estas evidencias adicionales promueven la existencia de un
diseño inteligente, por lo cual la probabilidad de la existencia de Dios, aumenta aún más.
Valor D
Asigna D = 2
Si repetimos el cálculo, considerando ahora P(G)= 0.67 y D= 2, obtenemos una P(G|E) = 80%.
Evidencia 3: La evolución de la vida
La tercera evidencia es la relacionada con la evolución y allí se ven las dos hipótesis como
igualmente factibles. Una es que la existencia de Dios explicaría por ejemplo las complejidades del
ADN, cuya estructura es tan compleja que es altamente improbable que haya surgido por azar
(Teoría de Diseño Inteligente). La otra indica que la presencia de la selección natural, no
necesariamente conduce a aceptar la existencia de Dios.
Valor D
Asigna D = 1
Si repetimos el cálculo, considerando ahora P(G)= 0.80 y D= 1, la probabilidad de que Dios existe
no cambia, quedando en el 80%.
Evidencia 4: El bien y el mal
La evidente posibilidad que tenemos los seres humanos de reconocer el bien, aumentaría la
probabilidad de la existencia de Dios, pero es superada por la evidencia en la preponderancia del mal
y de las injusticias (como por ejemplo, guerras, torturas, enfermedades, muerte temprana de seres
bondadosos, etc). La existencia de estos males es más probable en un universo sin Dios que en uno
con Dios.
Valor D
Asigna D = 0.2
Si repetimos el cálculo, considerando ahora P(G)= 0.80 y D= 0.2, obtenemos una P(G|E) = 44%, por
lo cual la existencia del mal le da un duro golpe a la probabilidad de la existencia de Dios.
228
Jorge Carlos Carrá
Capítulo 2 Probabilidades
Evidencia 5: Las experiencias místicas y
religiosas
Existen evidencias de que han existido muchas experiencias místicas y religiosas a lo largo de la
historia, las cuales, naturalmente favorecen la hipótesis de la existencia de Dios.
Valor D
Asigna D = 2
Si repetimos el cálculo, considerando ahora P(G)= 0.45 y D= 2, obtenemos finalmente una
probabilidad de que Dios exista, dada la evidencia, del 62%.
Stephen Unwin (Unwin, S, pag 167) postula finalmente que la creencia total en la proposición G
(Dios existe), se produce esencialmente por tres factores complementarios: una probabilidad
razonada (en este caso, el 62% anterior), la fe y quizá un menor factor de duda. De esta forma, para
llegar al total del 100%, la creencia en Dios requiere, para Vasek, de un 38% adicional, el cual
deberá ser originado esencialmente por la fe.
Un archivo EXCEL para que el lector pueda obtener interactivamente los valores de P(G), a partir de
su propia visión, puede abrirse o descargarse en la dirección que figura en la bibliografía
(ExisteDios.xls).
Hasta aquí el ensayo, acerca del cual se pueden formular algunos interrogantes:
• ¿Tiene la fe religiosa algún punto de contacto con la evidencia o con la decisión?
• ¿Deben considerarse a las muertes "injustas", dentro de un contexto más universal que pondera
otras evidencias?
• ¿Existe subjetividad en los factores y/o números utilizados?
• ¿Es la existencia de Dios científicamente demostrable?
Queda para el lector la interpretación y opinión acerca de cada uno de estos puntos, lo cual se
sumará, ya sea a favor o en contra, a la discusión general que este tipo de enfoques despierta.
229
Ensayo: ¿Existe Dios?
El peso de la evidencia. Thomas Bayes
230
Jorge Carlos Carrá
Capítulo 2 Probabilidades
Ensayo: La ley de Gompertz
Esta ley, a la que nadie puede evadir, fue descubierta en 1825 por el matemático holandés Benjamín
Gompertz (1779-1865). No importa quienes seamos ni cuál es nuestro estado socio económico y
cultural. Aproximadamente cada 8 años, nuestra probabilidad de morir se duplica.
Para detallar la expresión matemática de la ley y corroborarla con los datos experimentales, dividiré
este ensayo en 2 partes:
1. Datos estadísticos experimentales
2. La ley de Gompertz
1 Datos estadísticos experimentales
Una de las informaciones que resultan de los censos, son las Tablas de Mortalidad, de las cuales
puede extraerse, para varones y mujeres, las probabilidades de vivir o morir para determinada edad.
Una de tales tablas se encuentra en el archivo Mortalidad.sav, la cual fue descargada del sitio
de Seguridad Social de los Estados Unidos, datos actualizados al 2006 (ver Social Security
Administration en la bibliografía).
La primera columna contiene la edad x y la segunda el número de personas sobrevivientes, l x
(living a la edad x)35 tanto para varones V como para mujeres M.
La forma de la curva lx = f ( x) es sigmoidal (con forma de S), como puede apreciarse en la figura
2E-4.
35
Pueden usarse paréntesis en lugar de subíndices. 231
Ensayo: La ley de Gompertz
El peso de la evidencia. Thomas Bayes
Figura 2E-4
En base a estos 2 datos, x y lx, construiremos 4 indicadores de importancia para las compañías de
seguros, obras sociales e instituciones financieras.
Probabilidad de vida px
¿Cuál es la probabilidad px de que una mujer de x = 40 años esté viva a la edad de x = 60 años?
A la edad de 40 hay 97564 mujeres de las 100000 iniciales. A la edad de 60 hay 91109 vivas. Por lo
tanto,
px =
91109
= 0.933
97564
Probabilidad de muerte qx
¿Cuál es la probabilidad qx de que una mujer de 40 esté muerta a la edad de 60?
El número de casos favorables es la cantidad de muertes entre 40 años y 60 años.
qx =
97564 − 91109 6455
=
= 0.067
97564
97564
Naturalmente:
px + qx = 1
La gráfica de qx en función de lx, para Varones, se muestra en la figura 2E-5. Se observa que la
probabilidad de muerte sigue un crecimiento de tipo exponencial.
232
Jorge Carlos Carrá
Capítulo 2 Probabilidades
Figura 2E-5
Nota
En la tabla que se obtiene de la seguridad social, se encuentra una columna llamada dx, la cual contiene las
diferencias entre un año y el posterior.
d x = lx − lx +1
Estas diferencias podrían generarse con el SPSS con: Transform > Create Time Series >
Differences of orden 1.
Funciones biométricas
Son los siguientes 2 indicadores:
• Esperanza de vida, Ex
• Duración de Vida Mediana, DVMx
Esperanza de vida Ex
Indica, en promedio, cuanto espera vivir una persona de determinada edad.
Se calcula como el cociente entre el número Tx de personas-años vividos desde la edad x hasta que
todos los miembros del grupo han muerto, dividido por el número de personas lx vivas a la edad x.
Ex =
Tx
lx
donde:
Tx = ∑ Lx
Lx = lx +1 + 0.5d x
Lx es el número total de personas-años que vive el grupo desde la edad x a la edad x+1. Este valor es
la suma de 2 partes: las personas que viven un año completo desde el año x, es decir lx+1 y la mitad
de los que mueren entre x y x+1. Este último término asume que la distribución de las muertes es
uniforme a lo largo del año y por lo tanto este grupo vive en promedio 0.5 años.
233
Ensayo: La ley de Gompertz
El peso de la evidencia. Thomas Bayes
El cálculo de Tx se puede simplificar notando que:
1
Lx = (lx − lx +1 ) + lx +1
2
1
Lx +1 = (lx +1 − lx + 2 ) + lx + 2
2
...
Al sumar para obtener Tx quedará finalmente:
1
1
Tx = lx + lx +1 + lx + 2 + ... lx + n
2
2
Estos valores se encuentran en la variable Ex de la tabla de mortalidad, tanto para varones como para
mujeres. Así para un varón de 30 años, E30 = 46.89 años, lo cual indica que en promedio vivirá hasta
los 30+46.89 = 76.89 años. En los medios periodísticos se suele publicar la esperanza de vida para el
año 0, es decir al nacer, las cuales son, según estos datos: E0 = 75.10 años para los varones y E0 =
80.21 años para las mujeres.
Si se desearan calcular estos valores con el SPSS, se puede utilizar el procedimiento Data >
Aggregate y utilizar la función suma. Previamente se deberá preparar una variable por la cual
agregar, que tenga un nivel común para los casos que deben sumarse (desde la edad x hasta el final.
Nota
A partir de Lx se define también la tasa de mortalidad mx como:
mx =
dx
Lx
Observando la expresión de mx y la de qx, se desprende que este indicador es siempre algo mayor
que la probabilidad de muerte, qx.
Duración de Vida Mediana, DVMx
Es el número de años para que aproximadamente la mitad de los individuos se encuentren vivos.
Encontrar la DVM para un varón de 30 años, es decir DVM30.
Existen 97079 varones de los 100000. La mitad de esta cifra es 48539. Buscar el valor más cercano
para encontrar la edad que corresponde a esta cifra, la cual es alrededor de 81 años. Es decir que a la
edad de 81 años, alrededor de la mitad de los varones de 30 años todavía viven.
Finalmente la DVM30 = 81–30 = 51 años36.
Se han propuesto varias fórmulas matemáticas para predecir los valores de supervivencia lx. Entre
ellas se encuentra el modelo de Gompertz.
2 La ley de Gompertz
Esta función genera una de las tantas funciones sigmoidales. Otras sigmoidales utilizadas en otros
contextos son: arctan, arcth, función logística, CDF de la distribución normal o de PDFs en forma de
campana (ver capítulo 3), funciones como
36
x
1 + x2
, etc.
Interpolando se obtiene 80.51 años y por lo tanto: DVM30 = 50.51 años. 234
Jorge Carlos Carrá
Capítulo 2 Probabilidades
Modelado del crecimiento de poblaciones
y = f ( x) = aebe
cx
Esta es la ley de Gompertz con una exponencial dentro de otra exponencial, lo cual refleja un
comportamiento super exponencial.
Cuando los parámetros se ajustan a la serie de datos, con e = base de los logaritmos neperianos,
resultan b y c negativos, lo cual genera una sigmoide creciente.
Modelado de la mortalidad
En este ensayo utilizaremos el formato siguiente:
l = l ( x) = ag c
x
Cuando los parámetros (incluida la base g), se ajustan a la serie de datos, g resulta menor a 1 y la
sigmoide es decreciente. En este formato, los 3 parámetros; a, g y c se determinan en el proceso de
ajuste a los datos.
Ajuste a los datos
Ajustaremos esta función a los datos del archivo Mortalidad.sav y luego comprobaremos, al
menos visualmente, la bondad del ajuste (capítulo 1 y capítulo 5).
1 Tomamos logaritmos a la función
Tomamos logaritmos de la función para 3 casos arbitrarios de la base de datos, distanciados un valor
t:
log lx = log a + c x log g
log lx +t = log a + c x +t log g
log lx + 2t = log a + c x + 2t log g
2 Formamos las diferencias de orden 1
Se definen las diferencias de orden 1 como la resta del valor que está abajo en la columna, menos el
que está arriba.
Δ log lx = (c x − c x +t ) log g = c x (ct − 1) log g
Δ log lx +t = (c x +t − c x + 2t ) log g = c x +t (ct − 1) log g
Dividiendo la segunda ecuación por la primera:
Δ log lx + t
= ct
Δ log lx
De donde se despeja c. Luego con las ecuaciones del paso 2 se despeja g y de cualquiera de las
expresiones del paso 1, hallamos a.
Experiencias indican que el ajuste de la ley de Gompertz a los datos es importante para edades
mayores a los 25 años, luego de los riesgos de la mortalidad infantil. Para ajustar nuestra base de
datos a las 3 constantes de la ley, consideramos los valores de varones correspondientes a l30, l60 y l90
(es decir t = 30), de los cuales resulta la tabla de la figura 2E-5.
x
l
log
Δ
30 97079 4.987125 -0.05757
60 85026 4.929552 -0.67575
90 17939 4.253798
Figura 2E-5
235
Ensayo: La ley de Gompertz
El peso de la evidencia. Thomas Bayes
De estos valores se obtienen las 3 constantes (se deja el cálculo al lector):
c = 1.0856
g = 0.998949
a = 982850
La función de Gompertz resulta, por lo tanto:
l = l ( x) = ag c = 98285*0.9989491.0856
x
x
Se genera esta función en el SPSS. La gráfica de la figura 2E-6, muestra la función de Gompertz en
función de la edad x.
Figura 2E-6
Se aprecia que la gráfica real (figura 2E-4) sigue marcadamente a la simulada con la función de
Gompertz. Si se crea un gráfico de dispersión entre la variable lx real y la simulada, se obtendrá el
diagrama de la figura 2E-7, observando nuevamente una marcada correlación.
236
Jorge Carlos Carrá
Capítulo 2 Probabilidades
Figura 2E-7
Probabilidad de morir
Hemos visto que la probabilidad de muerte qx, se calcula realizando las diferencias entre los valores
de lx y lx+1 y dividiéndo por lx. Pasando al caso contínuo, esto equivale a obtener (cambiando el signo
para obtener las diferencias en el orden (inicial – final)):
qx = −
l'
l
Realizando las operaciones, el lector podrá obtener:
qx = −
l'
= −kc x
l
siendo k = ln g *ln c = −8.63541E − 05 .
Por lo tanto:
q x = 0.8.635 E − 05*1.0856 x
En la figura 2E-8 se muestra la gráfica de la probabilidad de muerte qx en función de la edad x, dada
por la ley de Gompertz, anteriormente obtenida.
237
Ensayo: La ley de Gompertz
El peso de la evidencia. Thomas Bayes
2E-8
Como se observa, la ley de Gompertz para la probabilidad de morir en el año siguiente, tiene ahora
la forma de una exponencial creciente. Una conocida propiedad de las exponenciales es que
convierten una sucesión aritmética en la variable independiente en una sucesión geométrica en la
variable dependiente. Para las exponenciales crecientes suele ser de interés conocer cada cuanto de
la variable independiente se duplica la variable dependiente, valor llamado tiempo t2de
duplicación37. El tiempo de duplicación se obtiene fácilmente de:
qx = kc x1
2qx = kc x2
Dividiendo miembro a miembro:
2 = c Δx1
y finalmente:
Δx =
ln 2
ln 2
=
≈ 8.4
ln c ln1.0856
Es decir que aproximadamente cada 8 años, la probabilidad de muerte se duplica. Si usted es varón y
tiene 40 años, obtiene de la tabla de mortalidad una probabilidad de morir en el próximo año de
0.0023 (aproximadamente 1 en 400). Dentro de aproximadamente 8 años, su probabilidad de morir
en el año siguiente será de aproximadamente 1 en 200 y así sucesivamente. Cuando llegue a los 80
años, la probabilidad de morir a los 81 años será de 1 en 15 y 8 años después será de 1 en 7.
La probabilidad de morir crece exponencialmente y la supervivencia decrece super
exponencialmente.
Datos de la década 1901-1910
Es instructivo aplicar las ecuaciones anteriores para otra serie de datos suficientemente separada de
la anterior (2006). En el libro del profesor Knopf (Knopf Otto, 1948, página 219), se encuentra una
tabla de mortalidad correspondiente a Alemania para la primera década del siglo 20, por lo cual
37
Para las exponenciales decrecientes se define en forma análoga el tiempo de vida t1/2 como el tiempo para el cual el valor de la variable dependiente se divide por 2. 238
Jorge Carlos Carrá
Capítulo 2 Probabilidades
resulta excelente para realizar el contraste.
De la misma se extraen los siguientes datos correspondientes, en este caso, a una base de 10000
personas en el año 0.
x
l
log
Δ
30 6709 3.826658 -0.18508
60 4381 3.641573 -1.80906
90 68
1.832509
Figura 2E-9
De estos valores se obtienen las 3 constantes (se deja el cálculo al lector):
c = 1.078953
g = 0.995043
a = 7042
La función de Gompertz es, por lo tanto:
l = l ( x) = ag c = 7042*0.9950431.078953
x
x
La gráfica es la que se muestra en la figura 2E-10.
Figura 2E-10
Probabilidad de morir en el año siguiente
qx = −
l'
= −kc x
l
Donde:
k = ln g *ln c = −000377623 .
Por lo tanto:
q x = 0.000377623*1.078953x
239
Ensayo: La ley de Gompertz
El peso de la evidencia. Thomas Bayes
La gráfica es la que se muestra en la figura 2E-11.
Figura 2E-11
Tiempo de duplicación
Δx =
ln 2
ln 2
=
≈ 9.12
ln c ln1.078953
Es decir que, para esta época y país, aproximadamente cada 9 años, la probabilidad de muerte se
duplicaba.
¿Por qué se cumple la ley de Gompertz?
Mientras el tiempo de duplicación cambia un poco de país a país, de acuerdo a la época o a la
especie, la regla general se mantiene: la probabilidad de morir se duplica aproximadamente cada
X años. Es un hecho sorprendente que sea tan válida en la actualidad como en 1825, lo cual indica
que está gobernada por algo intrínseco a nuestros cuerpos y no por el entorno, la época o los
adelantos tecnológicos. Debido a esto se han ensayado diversas explicaciones relacionadas con la
debilidad de nuestras defensas a lo largo de los años y al efecto acumulado de daños en nuestros
organismos.
Este ensayo solo intenta ser un disparador de la curiosidad y se invita al lector a investigar por
Internet, acerca de las distintas explicaciones de esta curiosa (y lamentable) ley.
240
Jorge Carlos Carrá
Capítulo 2 Probabilidades
Problemas
Probabilidades
I Valor de P(A)
1. Dados de distintos colores
Se tiran 3 dados, uno rojo, otro negro y uno azul. a) Comprobar la siguiente tabla teórica, en
donde S es la Suma de los resultados, nF(2D) es el Número de casos Favorables considerando
solo 2 dados y nF(3D) es el Número de casos Favorables para 3 dados, (en el capítulo 3 esta tabla
se llamará histograma de probabilidades). Las sumas restantes no se colocaron pues son
simétricas respecto de las existentes. Así ´por ejemplo para 2 dados, la cantidad de casos
favorables para obtener S = 6 y S = 8 es la misma y sucede lo mismo con todos los totales que
suman 14. En el caso de 3 dados sucede lo mismo si los totales suman 21. ¿Por qué sucede esto?
Considerar solo el dado rojo y el negro y resolver por enumeración38. a) Hallar la probabilidad
de que la suma sea menor de 7 puntos, b) que la suma sea menor o igual a 4, c) que el valor del
dado rojo sea mayor que el del negro, d) que el valor absoluto de la resta entre el rojo y el negro,
sea mayor o igual a 3, e) que el rojo sea 2 y el negro sea 5, f) que la suma sea par.
Considerar los 3 dados. Hallar la probabilidad de que: g) la suma sea mayor de 15 puntos, h) se
obtengan tres caras con el número 5.
S
2 3 4 5 6 7 8 9 10
nF (2D) 1 2 3 4 5 6
nF (3D) – 1 3 6 10 15 21 25 27
R: a) 5/12, b) 1/6, c) 15/36, d) 1/3, e) 1/36, f) 1/2, g) 5/108, h) 1/216.
2. Sala de consulta
Tres pacientes acuden a consulta externa en una clínica, eligiendo al azar entre 2 salas de
consulta. Cuál es la probabilidad de que, a) la sala A reciba por lo menos un paciente, b) la sala
B reciba exactamente dos pacientes.
R: a) 7/8, b) 3/8.
3. Cumpleaños
Esta probabilidad desafía la intuición por su valor extrañamente alto. Calcular la probabilidad de
que, cuando se seleccionan 25 personas al azar, al menos 2 cumplan años el mismo día.
R: 0.569.
4. Helados
Susana, Graciela y Patricia van a una heladería en la cual hay 4 helados distintos, A, B, C y D.
Si cada una compra un helado distinto al azar, hallar la probabilidad de que a) Susana compre el
helado A y Graciela el B, b) el helado D no sea comprado. Si cada una compra un helado al azar,
38
La solución del problema de la suma por análisis combinatorio y binomio de Newton, fue publicada por primera vez por Abraham De Moivre en 1730 y se conoce como problema de De Moivre. 241
Problemas
Probabilidades
hallar la probabilidad de que: c) Susana y Graciela compren el helado A, d) dos cualquiera de las
chicas compren el helado A.
R: a) 0.083, b) 0.25, c) 0.0625, d) 0.15625.
5. Fila del cine
Tres parejas salen al cine y se sientan al azar en una fila, uno al lado del otro. Calcular las
probabilidades de los eventos: a) A: que se sienten juntos los hombres, b) B: que se sienten
juntos los hombres y juntas las mujeres, c) C: que a una pareja concreta no les toque juntas.
R: a) 0.2, b) 0.10, c) 0.66.
II Teoría de las probabilidades
6. Referéndum
En un referéndum por SI o por NO se obtiene en una ciudad con 4 partidos políticos A, B, C y
D, la siguiente tabla de probabilidades conjuntas:
Si
No
Total
7.
8.
9.
10.
11.
242
A
B
C
D
Total
0.15 0.25 0.12 0.08
0.25 0.05 0.08 0.02
Se elige una persona al azar. Hallar la probabilidad de que a) haya votado SI, b) sea del partido
C, c) haya votado SI sabiendo que es del partido D, d) hallar las 30 probabilidades
condicionales, dibujar los diagramas de árbol, directo e inverso y verificarlos con el SPSS, e)
¿qué eventos son independientes?, f) determinar si son independientes los eventos: SI, C y SI, B,
g) determinar P(AoB), h) P(SIoC), i) P(SIyD'), j) P(SIoD'), k) P(SI'yA').
R: a) 0.6, b) 0.2, c) 0.8, e) SI y C; NO y C, f) independientes, dependientes, g) 0.70, h) 0.68, i)
0.52, j) 0.98, k) 0.15.
Consejeros y asistentes
En el consejo de la ciudad hay 25 consejeros y 10 asistentes. Si se forman comités de 8 personas,
¿Cuál es la probabilidad de que contengan 5 consejeros y 3 asistentes?
R: 0.271.
Caras y secas
Se tira una moneda cinco veces, hallar la probabilidad de, a) obtener 3 caras C y 2 secas S, b)
obtener 3 caras y 2 secas si sabemos que salió seca en el primer tiro, c) que la primer cara
aparezca recién en el quinto tiro. Interpretar estos resultados en el caso de que C simule el
nacimiento de un varón y S simule el nacimiento de una mujer.
R: a) 0.3125, b) 0.25, c) 0.03125
Senadores
Un grupo de 50 senadores es elegido al azar entre un total de 100. Determinar la probabilidad de
que: a) los dos senadores de una provincia estén entre los elegidos, b) ninguno de los senadores
de esa provincia esté entre los elegidos.
R: a) 0.2475, b) 0.2475.
Esferas de distintos colores
Una caja contiene 8 bolas rojas, 3 blancas y 9 azules. Se extraen 3 al azar. Hallar la probabilidad
de que a) las 3 sean rojas, b) las 3 sean blancas, c) sean 2 rojas y 1 blanca, d) sean 1 de cada
color, e) al menos 1 sea blanca, f) sean extraídas en el orden roja, blanca y azul: 1) sin
reemplazo, 2) con reemplazo, g) la tercera sea roja dado que las 2 primeras fueron azules.
R: a) 14/285, b)1/1140, c) 7/95, d) 18/95, e) 23/57, f) 3/95, 27/1000, g) 4/9.
Disyunción e independencia
Si P(A) = 0.300 y P ( A ∪ B) = 0.900 , hallar analíticamente y gráficamente (tabla de
contingencias y/o árbol) los valores de P(B), PA|B), P(B|A) y analizar la dependencia si: a) A y
B son disjuntos, b) si A y B son independientes; c) si P(B|A) = 0.100, d) si P(A|B) = 0.100.
R: a) 0.600, 0, 0, dependientes, b) 0.857, 0.300, 0.857, independientes, c) 0.630, 0.0476, 0.100,
dependientes, d) 0.667, 0.100, 0.223, dependientes.
Jorge Carlos Carrá
Capítulo 2 Probabilidades
12. Familia de 3 hijos
En una familia de 3 hijos, hallar la probabilidad de que sean 2 niños y 1 niña, suponiendo iguales
las probabilidades de niño y niña.
R: 3/8.
13. El problema de Monty Hall
El problema de Monty Hall es un problema de probabilidad inspirado por el concurso televisivo
estadounidense Let's Make a Deal (Hagamos un Trato), que fuera conducido por el presentador,
Monty Hall. Un participante P elige una puerta entre tres y el premio consiste en lo que se
encuentra detrás. Una de ellas oculta un vehículo V y tras las otras dos hay una oveja O. Antes
de abrir la puerta, Monty, que sabe dónde está el premio, abre una de las puertas que P no eligió
y muestra que detrás de ella hay una oveja. El participante tiene la opción de quedarse con la
primera elección o cambiar a la otra puerta cerrada. ¿Qué le conviene? ¿Hay alguna diferencia?
Sugerencia: realizar un árbol de probabilidades con 3 ramas para cada una de las opciones.
Adicionalmente puede jugar en línea yendo a la dirección Monty Hall que se encuentra en las
Simulaciones de la Bibliografía, o abrir la simulación en EXCEL que se encuentra en ese mismo
lugar.
R: sin cambiar: 1/3, cambiando: 2/3.
14. Decisión de gastos
Una compañía decide al principio de mes si gastará $100 o $200 en publicidad. La decisión la
toma en forma independiente y al azar. Hallar la probabilidad de que en 3 meses consecutivos, a)
gaste $500 o más, b) gaste $100 en cada mes.
R: a) 0.5, b) 1/8.
15. Sistema de seguridad
El sistema de seguridad de un tipo de ascensor tiene 2 controles automáticos conectados en serie.
Uno lo detiene en el próximo piso y el otro abre la puerta. La probabilidad de que cada sistema
funcione correctamente es 0.99 (llamada confiabilidad, pagina 190). Hallar la probabilidad de
que, a) ninguno de los 2 funcione, b) solo uno de ellos funcione, c) ambos funcionen, d) el
sistema completo funcione. e) Dibujar un árbol de probabilidades e indicar las ramas que
corresponden al sistema funcionando.
R: a) 0.0001, b) 0.0198, c) 0.9801, d) 0.9801.
16. Sistema de seguridad
Al sistema del problema anterior, se le agrega un par adicional en paralelo para aumentar la
confiabilidad. Responder las preguntas pero referidas en este caso a los “pares”.
Complementariamente dibujar el árbol de probabilidades.
R: a) 0.00039601, b) 0.03900798, c) 0.96059601, d) 0.99960399.
17. El gato y el ratón
Un ratón que escapa de un gato puede entrar por uno de tres caminos, A, B o C con las
probabilidades P(A) = 0.3, P(B) = 0.5 y P(C) =0.2. Las probabilidades de alcanzarlo en cada uno
de los tres caminos son: 0.6, 0.4 y 0.1 respectivamente. Si vemos al gato llegar con el ratón en
las fauces. a) ¿En cuál de los 3 caminos lo habrá cazado? No lo sabemos pero podemos calcular
cual de los 3 caminos es el que ofrece mayor probabilidad de que el ratón termine sus días.
¿Cuál es? b) Graficar la distribución a priori P(Alcanzó) y la distribución a posteriori
P(Alcanzó|Camino = B). c) Determinar si las variables Camino y Cazar, se encuentran
asociadas. Utilizar el indicador más adecuado de acuerdo al tipo de variable en estudio.
Considerar n = 100. Resolver con el SPSS.
R: a) B, 0.500. b) 0.333.
18. Inspección completa de artículos defectuosos
Cuando los artículos llegan al final de una línea de producción, un supervisor elige al azar los
que van a pasar por una inspección completa. 10% de todos los artículos son defectuosos, 60%
de los defectuosos y 20% de los buenos pasan por una inspección completa. Hallar las
probabilidades de que: a) pase por la inspección, b) pase por la inspección dado que es
defectuoso, c) sea defectuoso dado que pasó por la inspección completa. d) Graficar la
distribución a priori P(Defectuosos) y distribución a posteriori P(Defectuosos|Inspección =
Inspección Completa), e) para analizar la independencia, obtener el valor de chi-cuadrado, el
243
Problemas
Probabilidades
19.
20.
21.
22.
23.
244
coeficiente φ y el coeficiente de contingencias entre ambas variables. Considerar n = 100.
Resolver con el SPSS.
R: a) 0.24, b) 0.60, e) 0.25.
Reacción positiva de las mujeres
Se ha observado que el 70% de las mujeres reaccionan positivamente en ciertas circunstancias,
mientras que los hombres lo hacen en un 40%. Se sometió a prueba a 15 mujeres y a 5 hombres
y se les pidió llenar un cuestionario para descubrir sus reacciones. Se elige una respuesta al azar
de las 20, calcular, a) la probabilidad de que haya reaccionado positivamente, b) si es un hombre,
la probabilidad de que haya reaccionado negativamente, c) si es negativa, la probabilidad de que
haya sido contestada por un hombre, d) para analizar la independencia, obtener el valor de chicuadrado, el coeficiente φ y el coeficiente de contingencias entre ambas variables. Considerar n
= 100. Resolver con el SPSS.
R: a) 0.625, b) 0.6, c) 0.4.
Prueba de diagnóstico
Una prueba de diagnóstico de una determinada enfermedad detecta la enfermedad (+) con una
probabilidad de 0.90 si la persona la tiene (verdadero, V). Si una persona no tiene la enfermedad
(Falso, F), el resultado de la prueba será que no la tiene (–) también con una probabilidad de
0.90. Solo el 1 % de la población tiene la enfermedad. Se selecciona una persona al azar entre la
población. a) Si la prueba da positivo, cuál es la probabilidad de que la tenga en realidad. b) Si la
prueba acierta A(verdadero + o falso –), cuál es la probabilidad de que la persona esté enferma,
c) Graficar la distribución a priori P(Enfermedad), la distribución a posteriori
P(Enfermedad|Test = +) y la distribución a posteriori P(Enfermedad|Test =
A)¿Cuál es más importante si el médico se encuentra en un grupo de personas +?. d) Determinar
si las variables Enfermedad(V,F) y Prueba(A,N), se encuentran asociadas. Utilizar el
indicador más adecuado de acuerdo al tipo de variable en estudio. Considerar n = 100. Repetir
para las variables Enfermedad(V;F) y Prueba(+,–). Resolver con el SPSS.
Nota: la codificación propuesta utiliza ambas variables, a diferencia de la utilizada
corrientemente en medicina que utiliza solo la variable Prueba (ver página 131).
R: a) 0.0833, b) 0.01.
El testigo
Un evento E ocurre el 60% de las veces. Un testigo dice la verdad V 3 de 4 veces. a) Si el testigo
afirma que el evento ocurrió, ¿cuál es la probabilidad de que en realidad haya ocurrido? b) ¿Qué
ocurre si se varía la probabilidad p del evento E desde 0 a 1? Dibujar la curva de la probabilidad
de la pregunta anterior en función p. c) Graficar la distribución a priori P(Evento), la
distribución a posteriori P(Evento|Testigo = E) y la distribución a posteriori
P(Evento|Testigo = V). d) Para analizar la independencia entre las variables
Evento(E,N) y Testigo(E,N), obtener el valor de chi-cuadrado, el coeficiente φ y el
coeficiente de contingencias. Considerar n = 100. Repetir para las variables Evento(E,N) y
Testigo(V,F). Resolver con el SPSS.
R: a) 81.8%.
Los dos testigos
Se agrega otro testigo B al testigo A del problema anterior, quién dice la verdad 4 de 5 veces. a)
Si ambos testigos enuncian su visión en forma concurrente, es decir con independencia del otro,
hallar la probabilidad de que el suceso haya ocurrido si ambos enunciados de los testigos dicen
que el suceso ocurrió. b) si el testigo B basa su enunciado en el de A. hallar la probabilidad de
que el suceso haya ocurrido si B dice que ocurrió. c) Para analizar la independencia, obtener el
valor de chi-cuadrado, el coeficiente φ y el coeficiente de contingencias entre las variables
A(E,N) y B(E,N) para cada nivel del evento y en ambas situaciones y corroborar la situación de
dependencia fijada en la consigna. Considerar n = 100. Resolver con el SPSS.
R: a) 0.947, b) 0.736.
Dos urnas
En una urna X hay una bola blanca y tres negras. En una segunda urna Y hay cinco blancas y
Jorge Carlos Carrá
Capítulo 2 Probabilidades
tres negras. Se saca una bola al azar de la urna X y se introduce en la urna Y sin verla. Luego se
saca una bola de Y y se introduce en la X sin verla. Calcular las probabilidades de los eventos: a)
Que la urna X no tenga bolas negras, b) que las composiciones de las urnas no hayan cambiado.
R: a) 0.0833, b) 0.5.
24. Dados normales y dados cargados
Se tienen 20 dados normales y 2 cargados indistinguibles entre sí. La probabilidad de obtener un
6 en los dados cargados es el doble de la probabilidad de no obtenerlo. Se elige un dado al azar y
se lo tira. Calcular las probabilidades de los sucesos: a) que salga un 6, b) que sea un dado
cargado sabiendo que ha salido un 6.
R: a) 0.212, b) 0.286.
25. ¿Ignorante o inteligente?
A una clase con una proporción p de estudiantes inteligentes, se les toma una prueba de elección
múltiple con m alternativas. ¿Si se sabe que un alumno eligió la respuesta correcta, cual es la
probabilidad de que sea un ignorante? ¿Cuál es esta probabilidad si p = 0.01 y m =3?
R:
1− p
, 97.1%.
1 − p + pm
III Simulaciones Monte-Carlo, SMC
Elegir 5 problemas distintos de esta sección y realizar una SMC con el SPSS (definición de
Bernoulli). A continuación se han seleccionado algunos de ellos, incluyendo algunas sugerencias
para encaminar el proceso.
1. Dados de distintos colores
Sugerencias
En un archivo con por ejemplo 1000 casos, generar 3 variables, Rojo, Negro y Azul, con NAU
entre 1 y 6. Con el procedimiento Compute, crear una variable SumaRN con la suma de los
resultados de los dados Rojo y Negro y una variable SumaRNA con la suma de los resultados de
los dados Rojo, Negro y Azul. Con el procedimiento Compute se pueden crear las siguientes
variables. Una variable Mayor con un valor de por ejemplo 1 si (If) Rojo > Negro. Una
variable Absoluto con un valor de por ejemplo 1 si |Rojo–Negro| >= 3. Una variable
R2N5 igual a por ejemplo 1, si el rojo es un 2 y el negro es un 5 (el operador y se simboliza en
el SPSS como &). Una variable par que indique si la suma es par (ver página 220).
¿Por qué, para las preguntas de la suma de Rojo y Negro, es incorrecto generar una variable con
valores NAU entre 2 y 12 y luego responder las preguntas?
2. Cumpleaños
Sugerencias
Generar 10 variables v1 a v10 con NAU entre 1 y 365. Contar con el procedimiento Frecuencias
para observar la presencia de alguna repetición de cumpleaños.
3. Sala de consulta
Se trata de un problema de Distribuciones, Dnk. En este caso, D32.
Sugerencias.
Dado que en cada celda del SPSS no puede existir más de un elemento, se debe elegir como
variables a los pacientes (diagrama de n pacientes).
Muestrear para los 3 pacientes:
a. Crear 2000 casos y 3 variables p1, p2 y p3 con rnd(RV.UNIFORM(0.5,2.5)).
Definiremos 1 => sala A y 2 => sala B.
Si se eliminaran repeticiones en las 3 columnas con Data > Identify Duplicate,
restarían solo los 8 casos posibles dados por 23.
b. Detectar los casos solicitados con el procedimiento Contar: Transform > Count
Values within Cases (Contar Valores dentro de los Casos).
c. Solicitar las frecuencias para contar la cantidad de casos en que la sala 1 recibe 0, 1, 2 o 3
pacientes.
245
Problemas
Probabilidades
4. Helados
Sugerencias.
Se trata de un problema de Distribuciones, Dnk. En este caso, D34. Dado que en cada celda del
SPSS no puede existir más de un elemento, se debe elegir como variables a las personas
(diagrama de n personas).
La diferencia entre las últimas dos preguntas y las primeras dos, es si se consideran o no las
repeticiones de helados.
Si se permiten las repeticiones de helados.
Muestrear para las 3 personas:
d. Crear 2000 casos y 3 variables p1, p2 y p3 con rnd(RV.UNIFORM(0.5,4.5)).
Definiremos 1 => helado A, 2 => helado B, 3 => helado C y 4 => helado D.
Si se eliminaran repeticiones en las 3 columnas con Data > Identify Duplicate,
restarían solo los 64 casos posibles dados por 43.
e. Detectar los casos solicitados con el procedimiento Contar. Por ejemplo para la pregunta
a), S1G2 (Susana compra el helado 1 y Graciela el 2, contar los 1 en p2, si p1 = 1. Luego
solicitar las frecuencias para realizar la cuenta en la variable S1G2.
Si no se permiten las repeticiones de helados.
f. Para detectar los casos con helados no repetidos, podemos utilizar el procedimiento Contar
condicional. Son 24 selecciones (4*3*2) que pueden dividirse en 4. Las que contienen p3 =
1, incluyen las siguientes combinaciones de helados en p1, p2: (2,3, 2,4, 3,4. 3,2. 4,2 y 4,3).
De igual manera para las restantes 3 agrupaciones. Luego seleccionar todos los casos con 1
en alguna de estas 4 variables. Se puede verificar que el muestreo sigue siendo aleatorio
solicitando histogramas para cada una de las variables p1, p2 y p3 originales.
5. Fila del cine
Sugerencias.
Para la consigna varones juntos.
Muestrear para las 6 posiciones:
g. Crear 2000 casos y 6 variables con rnd(RV.UNIFORM(0.5,6.5)).
Definiremos 1, 2, 3 => V. 4, 5, 6 => M.
h. Recodificar 1,2,3 => 1 ((Varones). 4,5,6 => 2 (Mujeres)
i. Eliminar casos repetidos por filas (Varones o Mujeres > 3) con el procedimiento Count.
Luego seleccionar solo los casos con V = 3.
j. Detectar los siguientes 4 casos:
1. 111222 => Una alternativa es: Contar 1 en la tercera variable si las primeras dos son
1. Llamarla VVVMMM.
2. 211122 => Una alternativa es: Contar 1 en la cuarta variable si las primeras tres son
211. Llamarla MVVVMM.
3. Los siguientes dos casos, 221112, 222111, se resuelven en forma similar a los
anteriores.
Otra alternativa es convertir la secuencia de 6 números a un código posicional (por ejemplo
decimal) y luego seleccionar intervalos. Para este caso es conveniente realizar la recodificación
con 1 y 0 en lugar de 1 y 2.
k. Procedimiento Frecuencies para contar los 4 casos.
6. Esferas de distintos colores
Sugerencias
Para la consigna P(R, B, A)
Crear 100 casos y obtener 3 variables con rnd(RV.UNIFORM(0.5,20.5)), por ejemplo
E1, E2 y E3. .
MCR
a. Recodificar las variables según los porcentajes de existencia de cada color de esfera y llamar
por ejemplo a 1 = R, 2=B y 3 = A.
b. Detectar los casos solicitados con el procedimiento Compute. Por ejemplo para detectar
RBB, crear una nueva variable RBB, escribiendo su nombre en el panel Target
246
Jorge Carlos Carrá
Capítulo 2 Probabilidades
Variable. Colocar un 1 en el panel Numeric Expression y presionar el botón
condicional If. Habilitar la ventana If Cases presionando Include if satisfies
condition, y colocar E1 = 1 & E2 = 2 & E3 = 2. Presionar Continue > OK.
La nueva variable RBB debe contener 1 solo si se cumple la condición. Finalmente solicitar
las frecuencias para realizar la cuenta de los 1 en la variable RBB.
MSR
a. Recodificar la primera variable según los porcentajes de existencia de cada color de esfera.
Llamarla por ejemplo Incondicional. Seleccionar R en la primera variable (Select
Cases) y borrar los casos no seleccionados. El procedimiento que se sugiere solo simulará
el orden R, B, A.
b. Recodificar la segunda variable, utilizando los porcentajes de las probabilidades
condicionales respectivas dado R en la primera (muestreo por filas). Llamarla por ejemplo
SegundaDadoR. Seleccionar B en la segunda variable (Select Cases) y borrar los
casos no seleccionados.
c. Recodificar en forma similar a la tercera variable dados R en la primera y B en la segunda.
Llamarla por ejemplo TerceraDadosRB.
d. Como el muestreo es sin reemplazo, eliminar repeticiones en las 3 columnas con Data >
Identify Duplicate Cases.
e. Contar las A en la tercera variable (Frequencies).
7. El problema de Monty Hall
Sugerencias
Generar las 2 columnas correspondientes al árbol de la solución teórica.
8. Consejeros y asistentes
Sugerencias.
En un archivo con por ejemplo 1000 casos, generar 8 variables NAU entre 1 y 35. Recodificar
entre 1 y 25 con 1 (C) y entre 26 y 35 con 20 (A). El usar códigos bien distintos tiene que ver
con el proceso elegido para detectar 5 C y 3 A. Eliminar repeticiones en las 8 columnas con
Data > Identify Duplicate Cases. Generar una variable Suma y contar con el
procedimiento Frecuencias, cuantas filas tienen el valor 65 (5C y 3A).
9. Prueba de diagnóstico
Sugerencias.
a. Definir una población con los porcentajes de las probabilidades conjuntas, VP, VN, FP y
FN.
Muestrear y recodificar en la misma variable para esos niveles. En este problema, si la
población es de 2000 habitantes, se tienen: VP= 18, VN=2, FP=198 y FN=1782. Para
realizar la recodificación, se sugiere conformar una lista con las frecuencias acumuladas, es
decir: 18, 20, 200 y 2000. De esta forma las codificaciones surgen rápidamente: VP: entre 1
y 18, VN: entre 19 y 20, FP: entre 21 y 200 y FN: entre 201 y 2000. Dadas las diferencias
entre estos 4 niveles, tomar una muestra comparable a la de la población para disminuir el
error de muestreo.
b. Crear 2 variables recodificando en distintas variables, una llamada Enfermedad con
niveles V y F y otra llamada Test con niveles P y N. El cruce de estas variables, simulara el
árbol (o Tabla de Contingencias) de la población.
Problemas complementarios
Todos los archivos que se mencionan en los problemas siguientes, se encuentran en la dirección
(acceso restringido a alumnos):
http://www.aprehender.net/JCC/viewtopic.php?f=52&t=267
Resolver en forma analítica (exacta) y con el método de Monte-Carlo (resultado aproximado). Se
incluye el archivo de sintaxis para una posible SMC, para que pueda compararla con su resolución.
247
Problemas
Problemas con base de datos
Copiarla y pegarla en una ventana de sintaxis del SPSS y ejecutar. El resultado de la simulación
aparecerá automáticamente en la última línea del visor.
1. Premio SPSS
En un juego que tiene 60 letras S y 40 letras P, gana un premio el que saca 4 en sucesión y forma
la palabra SPSS. Hallar la probabilidad de que usted gane el premio.
R: 0.0864. Archivo SPSS,sps.
2. Elección del par de zapatos
Una persona tiene 5 pares de zapatos y elige un par por día en forma aleatoria. Hallar la
probabilidad de que en 2 o más días de una semana laboral de 5, use el mismo par.
R: 0.96. Archivo Zapatos.sps.
3. Alex y Tomas
Alex juega con Tomás a un juego de acertar al blanco. Alex gana el 85% de las veces y Tomás el
55%. El primero que acierta gana. Si Tomás comienza el juego, hallar la probabilidad de que
gane. Repetir con los porcentajes invertidos.
R: 0.59. Archivo Alex_Tomas.sps.
4. Los cheques
Una caja tiene 6 cheques de 20$, 4 cheques de 50$ y un cheque de 100$. Si selecciona un
cheque al azar, hallar el valor esperado del cheque.
R: 38.2$. Archivo Cheques.sps.
5. El premio de la gaseosa
Un premio se encuentra debajo de una tapa de gaseosa. Si solo 1 de cada 10 botellas tiene
premio, hallar la cantidad de botellas que se deben comprar en promedio, para ganar un premio.
R: 10. Archivo Gaseosa.sps.
Problemas con base de datos
1. Bajar los costos.
Abrir el archivo Fotocopiadoras.sav.
En la empresa de repuestos en la cual usted ha ingresado, su jefe se queja del costo e
inconvenientes que se le presentan cuando una de las dos fotocopiadoras no funciona. Su jefe le
pide que lo ayude a evaluar los costos de cada una de las siguientes opciones: 1) conservar las
actuales fotocopiadoras, 2) alquilar dos fotocopiadoras, 3) comprar una nueva fotocopiadora que
sustituya a las dos juntas. Para ayudarlo en el análisis el jefe le entrega la base de datos
Fotocopiadoras. sav que contiene los registros de la situación de cada fotocopiadora (rotuladas
como 1 y 2) por cada día del último año laboral de 250 días (codificación: 0 = “fuera de
servicio” y 1 = “en servicio”)
a) ¿Cuál es la probabilidad de que cada una de las máquinas esté descompuesta en cualquier día
del año?
b) ¿Cuántos días por año se espera que una máquina esté fuera de servicio? ¿Qué estén las dos?
Comparar los siguientes tres costos utilizando un período de 3 años sin considerar aumentos por
inflación. ¿Cuál es la mejor alternativa?
c) Calcular el costo anual esperado por la salida de servicio de las fotocopiadoras. Ud ha
encontrado que el costo de reparación promedio de cada máquina es de 68 $ por día y ha
estimado que el costo de hacer las fotocopias afuera se puede medir en 0.05$ por copia con
alrededor de 150 copias por fotocopiadora por día.
d) Calcular el costo que representa el alquiler de dos máquinas. Para ello recurre a una empresa
que cobra 350 $ mensuales por las dos fotocopiadoras. Afirman que la probabilidad de que una
de estas máquinas se descomponga en cualquier día dado es de 0.05. Además el service está
incluido en el precio.
e) Calcular el costo que implica comprar una nueva fotocopiadora. Obtiene que el precio de la
nueva máquina es de 8750 $ y tiene garantía por un año. El service es de 175 $ después del año,
en principio elevado pero es una marca de primera línea que solo tiene una probabilidad de
248
Jorge Carlos Carrá
Capítulo 2 Probabilidades
0.017 de fallar un día cualquiera.
R: a) 10.8%, b) 27dias, 2.92dias, c) $12231, d) $13162, e) $10429.
2. El premio.
Abrir el archivo Envíos.sav.
Impresionado por el ahorro en gastos de fotocopias, su jefe ha decidido incorporarlo al
departamento de planeamiento estratégico con una mejora sustancial del sueldo. Como primer
actividad le comenta que la empresa reabrió un depósito de repuestos en la ciudad de Paraná en
el NE del país, pero no está seguro si fue el sitio óptimo en relación al gasto de transporte aéreo
para el envío de los pedidos a los clientes. Le entrega el archivo Envíos.sav que contiene el
destino de los 775 últimos pedidos clasificados por código postal (cp), peso del envío (peso) y
con la información de si fueron despachados con “entrega en 24 horas” (proxdia) lo cual
encarece la tarifa de cinco a diez veces.
La siguiente tabla contiene los datos del código postal asignado a cada región del país (datos
ficticios).
región
NO (Noroeste)
NE (Noreste)
C (Centro)
CO (Centro Oeste)
CE (Centro Este)
SE (Sureste)
SO (Suroeste)
cp
010-069
070-268
270-397
400-499
500-693
700-799
800-994
Llamaremos: A =“el paquete es enviado dentro del área de acción”, U = “El paquete es enviado
urgente” y P = “el paquete es pesado”. Utilizar, cuando sea necesario, estas 3 letras para expresar
en forma matemática cada una de las siguientes respuestas.
a) Hallar la frecuencia relativa de los paquetes enviados a las 7 zonas geográficas
b) El área que debería corresponderle a la ciudad de Paraná es, de acuerdo al proyecto de la
empresa, la que comprende las regiones NE, NO y CO. ¿Cuál es la probabilidad de que un
paquete enviado de éste depósito tenga destino dentro de su área?
c) ¿Cuál es la probabilidad de que sea despachado como “entrega en 24 horas”?
d) ¿Cuál es la probabilidad de que sea despachado como pesado? Se considera pesado si pesa
por lo menos 10 kg.
e) ¿Cuál es la probabilidad de que sea clasificado como pesado o sea embarcado como “entrega
en 24 horas”?
f) ¿Cuál es la probabilidad de que sea clasificado como pesado y sea enviado dentro del área de
acción?
g) ¿Cuál es la probabilidad de que, dado que es un paquete de “entrega en 24 horas”, haya sido
enviado dentro del área de acción?
h) Si un paquete es enviado fuera del área de acción, ¿Cuál es la probabilidad de que sea enviado
con “entrega en 24 horas”. ¿Y si es enviado dentro del área de acción?
i) ¿A qué conclusiones generales puede llegar acerca de si el depósito de Paraná está siendo
utilizado eficientemente para cubrir su área de acción?
R: a) 16.5%, 45%,5.2%,28.8%,1.7%,1.2%,1.7%, b) 90.3%, c) 23%, d) 4.1%, e) 26.7%, f) 4.1%,
g) 86.5%, h) 32%, 22%.
249