Capítulo 2 Probabilidades Capítulo 2 Probabilidades 167 Introducción Problemas con base de datos Introducción Como establecí en la introducción, la inferencia estadística, a estudiar en el capítulo 5, requiere del desarrollo de 3 pilares. Habiendo desarrollado en el capítulo 1 el primero de estos pilares, esto es, la descripción de los datos, estudiaremos en este capítulo el segundo de ellos: el concepto de probabilidad. Algún estudiante se habrá preguntado ¿Cómo es posible inferir sobre un conjunto numeroso de datos (población) solo con una fracción de ellos (muestra). La respuesta es: no es posible en la estadística paramétrica, a menos que se conozca alguna otra particularidad de la población (o de alguna variable relacionada). Veremos en los capítulos 4 y 5 que esta particularidad se llama distribución de probabilidades, tercer pilar, cuyo estudio comienza en el capítulo 3. Estas distribuciones de probabilidad son, ni más ni menos, los modelos matemáticos que usaremos en la inferencia estadística26. Veamos un ejemplo para ilustrar la importancia de la comprensión de conceptos básicos de probabilidades. El inversor y el mono Usted lee en el periódico que un agente de inversiones pudo prever el Éxito o Fracaso de inversiones en la bolsa en cada uno de los 10 días precedentes. ¿Si usted está por invertir, le confiaría parte de sus ahorros? Probablemente muchos responderían que sí. Consideremos ahora a 1000 monos durante esos 10 días. A cada mono le asociamos el Éxito si se levanta con el pie derecho y el Fracaso si lo hace con el pie izquierdo. Veremos en la Regla del Producto de la página 183 de este capítulo (y en la distribución binomial del capítulo 3), que en el primer día aproximadamente 500 acertarán. De esos 500, en el segundo día aproximadamente 250 acertarán y así sucesivamente. Al término de los 10 días probablemente solo 1 mono habrá acertado todas las inversiones. A este mono, las personas anteriores le habrán confiado sus ahorros. La clave de la información brindada por el periódico es el tamaño de la muestra. Si ésta es mayor o igual a 1000, el agente de inversiones pudo obtener los resultados por azar. La probabilidad es una rama de la matemática que trata de cuantificar la incertidumbre (ausencia de seguridad) de que ocurra un suceso. La teoría de las probabilidades comenzó con los juegos de azar, pero se ha convertido hoy en día en una de las ramas de la matemática con más aplicaciones en otras disciplinas ya sean exactas, naturales o sociales. En la vida diaria y en todas las ciencias, la incertidumbre ocupa un papel importante. Se presenta por ejemplo cuando el pronóstico del tiempo nos indica que existe una probabilidad del 90% de que llueva. Esto significa que de acuerdo a los registros anteriores, de cada 100 días con la situación meteorológica observada hoy, en 90 de esos casos llovió. No existe certeza de que lloverá pero es una indicación de que es probable que lo haga. Se parte de la lógica suposición de que un hecho puede ocurrir en el futuro tantas veces como haya aparecido en el pasado bajo similares condiciones. Lo mismo ocurre por ejemplo en una larga serie de juegos entre 2 personas (ver el ensayo al final del capítulo 1). 26 Al final de capítulo 5, página bootstrap5, se estudiará una técnica de estadística no paramétrica, llamada bootstrap, que no necesita de la distribución de la población pues está centrada solo en los datos de la muestra. Sin embargo, el concepto de distribución de probabilidades, sigue siendo imprescindible. 168 Jorge Carlos Carrá Capítulo 2 Probabilidades La probabilidad es entonces una medida de la incertidumbre o falta de certeza. Este capítulo se divide en 3 partes: I. Valor de una probabilidad P(A) II. Teoría de las probabilidades III. Simulaciones La primera parte recorrerá los 3 métodos para obtener una medida o valor numérico de una probabilidad. Este valor deberá ser luego contrastado con la experiencia y será validado (o no) para la población, con las herramientas de la inferencia estadística, en el capítulo 5. La segunda parte es una teoría matemática que permite deducir probabilidades en función de otras probabilidades. No discute la asignación numérica del paso anterior, sino que, como toda teoría matemática, provee herramientas para realizar razonamientos deductivos rigurosos y exactos. La tercera parte enseña cómo realizar una simulación virtual para obtener el valor de una probabilidad sin realizar la experiencia real. Antes de comenzar veamos algunas definiciones generales. Álgebra de conjuntos Dado que las probabilidades tratan con conjuntos y subconjuntos, resumiremos sus operaciones básicas, para lo cual resulta muy conveniente la utilización de los diagramas de Venn, tal como se ilustra en la figura 2-1. Operaciones Al espacio total, se lo llama Universo en la teoría de conjuntos y como veremos en seguida, Espacio Muestral en probabilidades, debido a lo cual se simboliza con S (Space). Los conjuntos se simbolizan con una letra mayúscula, A, B, C, etc. El número de elementos del mismo se llama cardinal y se simbolizará con una doble barra vertical. Por ejemplo el cardinal de A es: |A|. Las operaciones básicas con conjuntos son 3, una para un solo conjunto llamada Negación y las otras para dos o más conjuntos, llamadas Conjunción y Disyunción. Sus simbologías y conceptos se resumen en la figura 2.1: Símbolo ′ Negación A = A = noA Conjunción Disyunción A ∪ B = A + b = AoB A ∩ B = A.B = AyB Figura 2-1 Notas Debido a que la barra se usa también para la media, en el caso de que exista confusión, utilizaremos el apóstrofo. El "o" es inclusivo lo cual significa: uno, el otro o ambos. A menos que se indique expresamente, no se considerará el o exclusivo, que significa: uno o el otro pero no ambos. Si el universo contiene n conjuntos, su espacio queda dividido en 2n partes disjuntas (sin partes comunes), pues cada una de ellas o bien contiene o bien no contiene a cada uno de los n conjuntos. De esta forma, cada una de estas partes se puede expresar como la conjunción de los conjuntos 169 Introducción Diagramas dados, sea directos o negados. En particular si los conjuntos son 2, el Universo quedará dividido en 4 partes, como se muestra en la figura 2-2. Figura 2-2 Diagramas A lo largo del capítulo, se utilizarán 3 tipos de diagramas: 1. Diagramas de Venn 2. Tablas de Contingencias 3. Diagramas de Árbol Son en principio equivalentes entre sí, pues de uno cualquiera de ellos, se pueden obtener los dos restantes. Sin embargo alguno de ellos resultará en general, más conveniente que los demás. En particular, los diagramas de Venn completos para más de 3 eventos, no resultan cómodos como diagramas auxiliares. Diagramas de Venn y tablas de contingencias Son aptos para probabilidades conjuntas. Las tablas de contingencias fueron estudiadas en el capítulo 1 y los diagramas de Venn fueron mostrados en el apartado anterior. En la tabla de la figura 2-3, se puntualizan las principales diferencias. Notación: r: filas (row) y c: columnas (column). Contenido: Tamaño: Complementos: Tabla de Contingencia TC Variables y categorías r*c celdas Diagrama de Veitch Venn Solo categorías (eventos) 2n regiones Incluidos. Figura 2-3 En particular una TC de 2*2 celdas, prácticamente coincide con su diagrama de Venn de 22 regiones, pues en este caso cada categoría incluye las categorías complementarias. Diagramas de árbol de probabilidades Los diagramas de árbol se utilizarán en este libro, casi exclusivamente para el tratamiento de las probabilidades condicionales (ver regla del producto, página 183). 170 Jorge Carlos Carrá Capítulo 2 Probabilidades Definiciones Experimento Un experimento es todo proceso para obtener una información o resultado. Algunos son deterministas (por ejemplo, caída libre) y otros aleatorios o estocásticos (por ejemplo, extracción de una bola de una caja o lanzamiento de una moneda). Los resultados de un experimento aleatorio, se caracterizan por 3 aspectos. • Espacio muestral: el resultado pertenece a un conjunto de resultados previamente conocido, al cual llamaremos espacio muestral. • Diversidad: No es posible predecir el resultado definido de un experimento, se dice que ocurre al azar. • Regularidad: el resultado de un gran número de experiencias (o de una experiencia repetida numerosas veces), sí es predecible. Por ejemplo no se puede asegurar que un electrón ocupe determinado lugar, pero si puede calcularse un valor indicativo de la probabilidad de que esté allí. Esto refleja una estabilidad o regularidad aún dentro del azar. Una de estas regularidades es llamada ley de los grandes números debida a Jacques Bernoulli, la cual se presentará en la definición frecuencial de la probabilidad (página 174). Es necesario destacar que los resultados no están definidos por el experimento sino por el experimentador. Por ejemplo al tirar dos dados, puede interesarnos, los pares de números que salen, la suma de esos números, el producto de esos números, el número de 6, etc. Definido el experimento, se presentan 3 conceptos: a Espacio muestral Es el universo de todas las muestras o resultados posibles, a cada una de las cuales llamaremos elemento. Simbolizaremos con una letra minúscula a los elementos (y en forma genérica con la letra x), con S al espacio muestral y con |S|, al cardinal o número de elementos de S. Un elemento es un punto de S. b Suceso o evento Es cualquier subconjunto de S, es decir que pertenecerá al conjunto de partes de S (todos los subconjuntos posibles de S). Se simbolizarán con una letra mayúscula, A, B, C, etc. Si x es el resultado del experimento (es decir es un punto de S) y x pertenece a un suceso A, se dice que el suceso A ha ocurrido. Existen 2 eventos límites: Suceso improbable: el que nunca sucede. Será entonces el suceso vacío, A=∅ Suceso cierto: el que sucede con seguridad. Será entonces: A=S c Probabilidad de un suceso Es un número entre 0 y 1 que se asocia a cada suceso A y que informa acerca de la posibilidad que tiene de suceder. Se simbolizará por ejemplo como: P(A) y entonces es la probabilidad de que A ocurra al realizar el experimento. El dominio de esta función, será entonces el espacio muestral, en tanto que al definir las probabilidades, veremos la imagen o campo de valores. Observar que el campo de valores de la función probabilidad es entonces: 0 ≤ P ( A) ≤ 1 171 Introducción Definiciones Evento imposible: es aquel cuya probabilidad es 0. Evento cierto: es aquel cuya probabilidad es 1. Nunca sucede ⇒ P (∅) = 0 Cierto ⇒ P ( S ) = 1 En el experimento del lanzamiento de una moneda, si llamamos H a las caras (Head) y T a las secas (Tail), son: • Espacio Muestral: S = {H , T } • Eventos: • Si todos los elementos del espacio muestral tienen la misma probabilidad de aparecer (el espacio se llama equiprobable), la probabilidad de que ocurra por ejemplo H (por ahora en forma intuitiva), es: H , T , HT , ∅ P ( H ) = 0.500 = 50.0% La terna: Espacio muestral, Suceso, Probabilidad, se denomina espacio de probabilidad. Ya hemos aclarado que la definición de la probabilidad no pertenece a la teoría de las probabilidades, pues ésta estudia las consecuencias lógicas que pueden establecerse, luego de estas definiciones. Redondeo de probabilidades Se sugiere expresar los resultados con por lo menos 3 dígitos significativos, DS27. Por ejemplo si el resultado es: • 0.05894, se expresa como 0.0589 (el tercer dígito se redondea al entero más cercano). • 1/3, se expresa como 0.333. • 1/2, se expresa como 0.500 (los 2 ceros adicionales indican correctamente que luego del 5, no existen DS distintos de 0. 27 Tal como se expresó en el capítulo 1 al tratar el Diagrama de Tallo y Hojas, los DS comienzan con el primer número distinto de 0, con independencia de la coma decimal. Así por ejemplo el número 0.0056836, tiene 5 DS (56836). 172 Jorge Carlos Carrá Capítulo 2 Probabilidades I Valor de P(A) Existen 3 formas de asignar el número P(A). a) Definición clásica (DC) o de Laplace, b) Definición frecuencial (DF) o de Bernoulli, c) Definición subjetiva (DS). Definiciones 1. Definición clásica o de Laplace (DC) Es un cálculo a priori del experimento (no necesita de él). y requiere que S consista de un número finito de elementos. Equiprobabilidad Se presenta cuando todos los resultados son igualmente probables. Si solo se tienen n resultados: P( S ) = p1 + p2 + ... + pn = 1 Si además son igualmente probables, se tiene: p1 = p2 = ... = pn Entonces, si un evento tiene k resultados: P( A) = r n De aquí que si S sea equiprobable, se define la probabilidad como el cociente entre el número de casos favorables y el número de casos posibles. P ( A) = | A| | Seq | Puede aparecer como una definición recursiva el definir una probabilidad requiriendo que exista equiprobabilidad. En todo caso la equiprobabilidad es una hipótesis de trabajo que deberá luego confirmarse (o no) con la experiencia. En general el cálculo del número de casos se obtiene a partir de: 1. Enumeración 2. Análisis combinatorio Veamos un par de ejemplos sencillos. Problema resuelto 2.1. Cartas Calcular la probabilidad de sacar un As de un mazo de 40 cartas. 173 I Valor de P(A) 2. Definición frecuencial o de Bernoulli (DF) P ( A) = 4 = 0.100 40 Este número se interpretará luego con la definición frecuencial, significando que si se realiza una gran cantidad de repeticiones del experimento, 1 de cada 10 veces se extraerá un As. Problema resuelto 2.2. Extraer esferas Se tiene una urna con 2 esferas negras N y 3 esferas blancas B y se extraen 2 esferas. a) Definir el espacio muestral, b) hallar la probabilidad de sacar sucesivamente y sin reemplazo, una negra y una blanca, P(NB), en cualquier orden. Definimos los eventos: N: sale negra B: sale blanca C: sale cualquiera a) El espacio muestral S no equiprobable es: S = {NB, BB, NN } El espacio muestral S equiprobable es: S = {N1 N 2 , N1 B1 , N1 B2 , N1 B3 , N 2 B1 , N 2 B2 , N 2 B3 , B1 B2 , B1 B3 , B2 B3} b) Por enumeración Se observa en el espacio muestral equiprobable que hay 10 casos posibles y dentro de éstos hay 6 favorables a la pregunta. Por lo tanto: P( NB) = 6 = 0.600 10 Por análisis combinatorio P ( NB ) = Número de Casos posibles [ N ][ B ] = Número de Casos favorables [C ][C ] / 2! El número de formas distintas de extraer una esfera N y una esfera B es 2*3 pues hay 2 formas de sacar una esfera N y por cada una éstas, hay 3 formas de sacar una B. El número de casos posibles es 5*4/2!. Hay 5 formas distintas de sacar una esfera cualquiera C y por cada una éstas, hay 4 formas de sacar la otra. Como no interesa el orden se divide por 2! P ( NB ) = [2][3] / C52 = 6 = 0.600 10 2. Definición frecuencial o de Bernoulli (DF) El cálculo por Laplace no es habitual pues o bien es difícil, o es imposible. Ejemplos de esto último se presentan cuando el espacio no es equiprobable o cuando no se conocen los valores a priori de la experiencia, como por ejemplo en el cálculo de la probabilidad de que un hombre de 50 años viva más de 10 años. En estos casos se puede, afortunadamente, realizar un cálculo a posteriori del experimento, es decir con los datos observados. En la última sección del capítulo, veremos cómo aplicar esta definición para conocer probabilidades a partir de la creación de simulaciones con una computadora. Si nA son los casos favorables observados y n los casos posibles, P(A) se define ahora como: 174 Jorge Carlos Carrá Capítulo 2 Probabilidades P ( A) = nA n Por lo tanto P(A) no es otra cosa que la frecuencia relativa definida en el capítulo 1. P( A) = f x Esta alternativa de cálculo se corresponde con la idea intuitiva de la probabilidad relacionada con la frecuencia relativa de la ocurrencia. Las hipótesis implícitas en esta definición son: • Las proporciones del pasado ocurrirán el mismo porcentaje de veces en el futuro. • La frecuencia relativa puede no ser igual a un valor fijo P(A) pero convergerá en probabilidad a P(A), si el tamaño de la muestra n se hace muy grande. P ⎡⎣( f A − P( A) ) → 0⎤⎦ → 1 n →∞ La expresión anterior se conoce como ley de los grandes números y establece que la frecuencia relativa fA (de una muestra) converge en probabilidad a P(A) (de la población) si n se hace muy grande, con un grado de certeza que es función de n. Debe notarse que, a diferencia de la convergencia que aparece en matemáticas, esta expresión no garantiza que f A − P( A) tienda a 0, sino que la probabilidad de esa diferencia tienda a cero. En otras palabras, si el valor dado por la definición de Laplace existe, el dado por la definición de Bernoulli convergerá en probabilidad hacia él, para n tendiendo a infinito. Se realizará la demostración del teorema que apoya esta ley en el capítulo 4, página 487. En este sentido cabe aclarar que un teorema surge de un razonamiento deductivo matemático y riguroso, en cambio una ley surge de la experiencia y es válida hasta que la misma experiencia no demuestre lo contrario. Esta estabilidad que presentan las frecuencias relativas cuando n tiende a infinito, provoca la estabilidad de otras magnitudes relacionadas con fx, tales como la E(x), la V(x), la forma de la distribución, etc. Esta circunstancia, de suma importancia para hacer inferencias, se profundizará en el capítulo 3. El estudiante podrá preguntarse si es posible conocer en qué grado se alejará el resultado muestral del valor teórico, para un tamaño muestral n finito. La respuesta es afirmativa. En el capítulo 5, página 580, se demostrará la relación que existe entre el tamaño muestral n y el número de repeticiones NR que deben efectuarse para obtener al menos una diferencia preestablecida entre el error entre el valor obtenido y el teórico (error de estimación). Problema resuelto 2.3. Seguro de vida Una compañía de seguros extrae de datos estadísticos, la siguiente información: A: N° de personas de 25 años en 2007: 93435 B: N° de personas de 26 años en 2007: 89324 Calcular la probabilidad de que una persona de 25 años esté viva a los 26 años. P (V ) = 89324 = 0.956 93435 Suponiendo que la realidad no va a cambiar demasiado, las compañías de seguros basan sus cálculos en la frecuencia relativa. Actividad Realizar el experimento de lanzar n monedas por vez comenzando por n=1 y registrar el número de caras. Por practicidad se puede realizar en forma equivalente el lanzamiento de 1 moneda n veces. Llenar la tabla de la figura 2-4 para por lo menos n = 20 y graficar luego fx en función de n (los valores indicados solo se colocaron como referencia). ¿Se observa alguna tendencia?, ¿Hacia qué valor? 175 I Valor de P(A) 2. Definición frecuencial o de Bernoulli (DF) n 1 2 3 Resultados fx C 1 S 0.5 C 0.66 Figura 2-4 Problema resuelto 2.4. Muestra de 52 alumnos. Tomemos la tabla de contingencias del ejemplo que ilustró el capítulo 1 y que repito en la figura 2-5. Figura 2-5 Si se escoge un estudiante al azar, a) ¿Cuál es la probabilidad de que sea varón, V?, b) ¿Cuál es la que sea Mujer, M y estudie Economía, E?, c) ¿Cuál que sea Varón, V o estudie Economía, E? Puede apreciarse, en principio, que una tabla de contingencias contiene la misma información que un diagrama de Venn, con las particularidades de que puede expresar variables no dicotómicas y que no presenta dificultades para manejar más de 2 variables, pues se pueden anidar. a) P (V ) = 33 52 b) P( ME ) = c) P (V ∪ E ) = 10 52 16 + 12 + 5 + 10 43 = 52 52 Se observa por lo tanto que la definición de Bernoulli de la probabilidad, no difiere de los cálculos ya realizados en el capítulo 1 para la frecuencia relativa. El panorama completo de las probabilidades en cada celda se obtiene de la tabla de contingencias relativa, que se repite en la figura 2-6. Figura 2-6 Las probabilidades de cada cruce (Sexo *Carrera) se llaman probabilidades conjuntas, y las de los márgenes (Totales), probabilidades marginales. 176 Jorge Carlos Carrá Capítulo 2 Probabilidades 3. Definición subjetiva (DS) ¿Cómo se calcularía la probabilidad de que un nuevo producto tenga aceptación en el mercado si no existen resultados a priori? En este caso ninguna de las dos definiciones anteriores es aplicable. Las anteriores probabilidades son objetivas en el sentido de que no dependen del experimentador. En esta nueva situación, la única alternativa posible es que la misma sea asignada subjetivamente por cada persona. Esto por lo tanto dependerá de la experiencia y opinión de cada uno. Este tipo de probabilidad es de uso frecuente en la toma de decisiones. En el último punto de este capítulo y con más profundidad en el Análisis Bayesiano, se estudia como esta probabilidad puede ser ajustada por la experiencia. 177 I Valor de P(A) 3. Definición subjetiva (DS) 178 Jorge Carlos Carrá Capítulo 2 Probabilidades II Teoría de las probabilidades Hasta ahora hemos tratado sucesos simples tal como surgen del experimento. Sin embargo en la práctica se necesitan con más frecuencia sucesos compuestos, los cuales surgen de combinar los sucesos simples con las 3 operaciones de conjuntos, es decir: negación, conjunción y/o disyunción. La teoría de las probabilidades provee las herramientas deductivas para calcular las probabilidades de estos sucesos compuestos, en función de las probabilidades de los sucesos simples que los originan. Se reitera que esta teoría no discute la validez de los valores de probabilidad de los sucesos simples del apartado anterior, los cuales solo podrán ser contrastados con la experiencia. Como cualquier teoría matemática, su punto de partida es definir un conjunto de axiomas sobre los cuales basar la teoría. Por esta razón y más allá del tema en sí mismo, constituye una excelente oportunidad para enfrentar al alumno con un sistema deductivo. Estos axiomas fueron desarrollados por el matemático ruso Kolmogorov y constituyen la llamada definición axiomática de las probabilidades. Definición axiomática Los axiomas básicos son 3: Axioma 1 P ( A) ≥ 0 Axioma 2 P( S ) = 1 Axioma 3 Si dos eventos son disjuntos, es decir si: AB = ∅ Entonces: P( A ∪ B) = P( A) + P( B) En base a estos 3 axiomas se puede demostrar (como teorema) cualquier otra relación probabilística. Veamos un ejemplo: Teorema Demostrar que: P (∅) = 0 Demostración Cualquier conjunto A es disjunto con el conjunto vacío, por lo tanto, por el axioma 3: A ∩ ∅ = ∅ ⇒ P ( A ∪ ∅) = P ( A) + P (∅) Además cualquier conjunto unido con el vacio, no se altera, es decir: 179 II Teoría de las probabilidades Reglas A ∪ ∅ = A ⇒ P ( A ∪ ∅) = P ( A) Reemplazando una ecuación en la otra y simplificando, resulta finalmente: P(∅) = 0 Reglas A partir de los axiomas se demostrarán, 3 reglas: 1. Regla del complemento 2. Regla de la suma 3. Regla del producto 1. Regla del complemento (RC) Recordemos que el complemento o negación de un suceso será simbolizado en este libro con un apóstrofo o con una barra. Por definición de la teoría de conjuntos, el complemento de un conjunto A es lo que queda fuera de A. Matemáticamente, esto es equivalente a las siguientes 2 igualdades: ′ ⎪⎧ A ∪ A = S ⎨ ′ ⎪⎩ A ∩ A = ∅ Demostraremos que: P( A) + P( A′ ) = 1 Demostración Por definición de complemento: P( A ∪ A′ ) = P( S ) Aplicando el axioma 3 al miembro izquierdo (recordando que A y A' son disjuntos) y el axioma 2 al derecho, resulta: P( A) + P( A′ ) = 1 Problema resuelto 2.5. Dos dados Hallar la probabilidad de obtener al menos un As en una sola tirada con dos dados, uno rojo y uno negro. Definimos los eventos: R: sale un As en al menos un dado R': no sale ningún As Método directo R = [ A][ A] ∪ [ A][ A′ ] ∪ [ A′ ][ A] Por análisis combinatorio, el número de formas en que R se presenta es: | R |= [1][1] + [1][5] + [5][1] Por su parte el espacio muestral contiene 36 elementos: | S |eq = [6][6] Por lo tanto, por la definición de Laplace: P( R) = 180 | A| | S |eq Jorge Carlos Carrá Capítulo 2 Probabilidades es decir: P( R) = [1][1] + [1][5] + [5][1] 11 = [6][6] 36 Método por RC P ( R) = 1 − P ( R′ ) Como, P( R′ ) = [5][5] [6][6] Resulta: P( R) = 1 − [5][5] 11 = [6][6] 36 Posibilidades (Odds) Las probabilidades se expresan a veces como posibilidades, también llamadas chances o ventajas (en inglés odd). Si P ( A) = | A| | A| , entonces: P ( A) = , siendo, por RC: | A | + | A |=| S | |S| |S| Se define la posibilidad a favor de A como: O ( A) = | A| | A| Análogamente, se define la posibilidad en contra de A como: O ( A) = | A| | A| Las posibilidades se usan con frecuencia en los juegos de azar y se expresan en la forma: a:b o a a b, donde a y b son enteros sin factores comunes. Ejemplo: las posibilidades o chances en contra están 36 a 1. Esto equivale a decir que la probabilidad en contra es: P ( A) = 36 37 Posibilidad de Pago, PP Es una expresión utilizada en los juegos de azar y se define como: PP = G A Donde G: Ganancia y A: Apuesta. Si el juego de azar fuera equilibrado (se jugara solo por diversión), las posibilidades de pago serían iguales a las posibilidades en contra de ganar28. En la realidad, los casinos desean ganar dinero por lo cual fijan las posibilidades de pago en un valor inferior. En el ejemplo anterior, la PP podría ser por ejemplo de 35:1, en lugar de 36:1. La diferencia es la ganancia de la banca. Se profundizarán estas relaciones en el capítulo 3, al tratar las decisiones económicas en condiciones de incertidumbre. 28 Esta relación se demostrará en el capítulo 3 (página 431) y es la razón por la cual, en los juegos de azar, el uso de las posibilidades es más frecuente que el de las probabilidades. 181 II Teoría de las probabilidades 2. Regla de la suma (RS) o de la unión 2. Regla de la suma (RS) o de la unión Establece que, para cualquier par de eventos: P ( A ∪ B ) = P ( A) + P ( B ) − P ( AB ) Esta probabilidad se llama a veces, probabilidad completa. Demostración Observando el diagrama de Venn de la figura 2-7, expresemos la unión con conjuntos disjuntos: P( A ∪ B) = P( A ∪ ( A′ B)) Aplicando el axioma 3 al segundo miembro (los conjuntos son disjuntos): P( A ∪ B) = P( A ∪ ( A′ B)) = P( A) + P( A′ B) Por otra parte, por idéntica razón: P( B) = P( AB ∪ A′ B) = P( AB) + P( A′ B) Eliminando P(A'B) de ambos resultados, se obtiene la RS. Fórmula de inclusiones y exclusiones, FIE Otra demostración parte de la FIE de la teoría de conjuntos, a la que luego se le aplica la definición de Laplace. Si consideramos a los cardinales de los conjuntos de un diagrama de Venn, como el de la figura 2-7, es sencillo deducir la FIE para 2 conjuntos: | A ∪ B |=| A | + | B | − | AB | observando que el valor de | A | + | B | , cuenta 2 veces | AB | . Figura 2-7 Dividiendo ambos miembros por |S|, resulta, por la definición de Laplace, la RS. La FIE se extiende a más de 2 eventos repitiendo cualquiera de los dos razonamientos. Demostremos que por ejemplo para 3 eventos, toma la forma: P ( A ∪ B ∪ C ) = P ( A) + P ( B ) + P (C ) − P ( AB) − P( BC ) − P( AC ) + P( ABC ) Agrupamos para aplicar la LM para 2 eventos. P ( A ∪ B ∪ C ) = P[ A ∪ B ) ∪ C ] = P ( A ∪ B) + P (C ) − P[( A ∪ B)C ] Primer término P ( A ∪ B ) = P ( A) + P ( B ) − P ( AB ) Tercer término Distribuyendo: 182 Jorge Carlos Carrá Capítulo 2 Probabilidades P[( A ∪ B )C ] = P ( AC ∪ BC ) Aplicando nuevamente la LM para 2 eventos: P ( AC ∪ BC ) = P ( AC ) + P( BC ) − P ( ACBC ) Aplicando la propiedad idempotente: C ∩C = C Se tiene: P ( AC ∪ BC ) = P ( AC ) + P ( BC ) − P ( ACB) Reemplazando finalmente las expresiones de los primeros y terceros términos: P ( A ∪ B ∪ C ) = P( A) + P( B) + P (C ) − P( AB ) − P( AC ) − P( BC ) + P( ACB ) Generalizando (se puede demostrar por inducción), se aprecia la causa del nombre de fórmula de inclusiones y exclusiones: La probabilidad de una unión de eventos es la suma de las probabilidades tomadas de a uno, menos la suma de las probabilidades tomadas de a 2, más la suma de las probabilidades tomadas de a 3, … El número de componentes de la ecuación de la RS (y de la FIE) es igual al número de particiones no vacías que pueden obtenerse con n elementos, es decir: 2n − 1 . En la expresión anterior, n = 3 y por lo tanto el número de componentes es 7. Problema resuelto 2.6. Cartas Se extrae una carta de un mazo de cartas españolas (40 cartas). a) hallar la probabilidad de obtener un 7 o una espada, b) hallar la probabilidad de obtener un 7 o un 5. a) Método por RS P (7 ∪ E ) = P (7) + P( E ) − P (7 E ) 4 10 1 13 P (7 ∪ E ) = + − = 40 40 40 40 Método por RC P (7 ∪ E ) = 1 − P(7 ∪ E ) = 1 − 27 13 = 40 40 b) Método por RS P (7 ∪ 5) = P (7) + P (5) − P (7 ∩ 5) 4 4 0 8 P (7 ∪ 5) = + − = 40 40 40 40 Método por RC P (7 ∪ 5) = 1 − P (7 ∪ 5) = 1 − 32 8 = 40 40 3. Regla del producto (RP) o de la intersección Para encontrarla, debemos ver antes el concepto de probabilidades condicionales. 183 II Teoría de las probabilidades 3. Regla del producto (RP) o de la intersección Probabilidades condicionales Hemos visto que, como consecuencia de la definición frecuencial de las probabilidades, muchas relaciones probabilísticas de este capítulo resultan una extensión de las vistas para la frecuencia relativa. En este sentido y recordando las definiciones de las frecuencias relativas condicionales, se obtiene: Probabilidad condicional P( A | B) = | AB | |B| P(A|B) es la probabilidad de A, sabiendo que ha sucedido B. Con esta notación la P(A), definida hasta ahora, significa en realidad P(A|S), referencia que queda sobreentendida. Dividiendo por |S| en el numerador y denominador del segundo miembro, resulta la siguiente ecuación en función de probabilidades: P( A | B) = P ( AB ) P( B) Por lo tanto, el cálculo de una probabilidad condicional se puede realizar de 2 formas: En el espacio muestral reducido Corresponde a la primera expresión considerando el espacio muestral reducido B. En el espacio muestral original Corresponde a la segunda expresión en al cual tanto numerador como denominador se calculan en el espacio muestral original S. Como conclusión final vemos que una probabilidad P(A) depende de la información de la que se disponga. No es un número propio del evento A y solo quedará definida, como toda proporción, cuando se conozca el espacio en el que se calculará. Problema resuelto 2.7. Dos sucesos En la figura 2-8, se presentan los cardinales relacionados con dos sucesos: V y F. Figura 2-8 Diagrama de Venn Observar las siguientes probabilidades: 184 Jorge Carlos Carrá Capítulo 2 Probabilidades 3 12 6 P(V | F ) = 8 6 P( F | V ) = 7 3 P(V ′ | F ′ ) = 4 7 P (V ) = 12 8 P( F ) = 12 6 P (VF ) = 12 2 P(V ′ F ) = 12 P (V ′ F ′ ) = Notas • Observar que, al igual que en los perfiles, la suma de todas las probabilidades que le corresponden al mismo espacio de referencia debe ser 1. En símbolos: Si: | A | + | B | + | C |=| F | Entonces: P ( A | F ) + P ( B | F ) + P (C | F ) = 1 • El diagrama de Venn es otra forma de presentar la información de una tabla de contingencias, TC. La TC es más versátil pues es apta para cualquier número de variables. Por ejemplo, el diagrama de Venn de la figura 2-8, es equivalente a la TC de la figura 2-9. V F 6 F' 1 7 V' 2 8 3 4 5 12 Figura 2-9 Tabla de Contingencias, TC Problema resuelto 2.8. Moneda Si arroja una moneda en la oscuridad. a) ¿Cuál es la probabilidad de que sea cara?, b) ¿cuál es la probabilidad de que sea cara, si se sabe que tiene 2 caras? Naturalmente las respuestas son: a) 0.5 y b) 1. Este sencillo ejemplo muestra que la probabilidad depende del conocimiento que se tenga. Regla del producto (RP) La RP resulta finalmente, en forma directa, despejando P(AB) de la expresión de la probabilidad condicional. P(AB) se llama a veces, probabilidad compuesta. 185 II Teoría de las probabilidades 3. Regla del producto (RP) o de la intersección P ( AB ) = P ( B ) P ( A | B ) O también, partiendo de P ( B | A) : P ( AB ) = P ( A) P ( B | A) Estas ecuaciones indican que la RP implica un ordenamiento y que todos los ordenamientos producen el mismo resultado. Si se aplica esta ley en forma sucesiva, la extensión a más de 2 eventos, toma la siguiente forma: P ( ABC ) = P ( A) P ( B | A) P (C | AB ) La validez de esta ecuación se puede observar al reemplazar las probabilidades condicionales del segundo miembro por sus definiciones en función de las probabilidades. Problema resuelto 2.9. Presidente y secretario Un comité de 2 hombres y 1 mujer debe elegir entre ellos un presidente y un secretario. Sean los eventos: A: el mayor de los hombres es elegido presidente B: uno de los hombres es elegido presidente C: la mujer es elegida secretaria Calcular: P(A), P(B) y P(C), P(AB), P(AC), P(BC). P(A), P(B) y P(C) En la figura 2-10 se muestra el espacio muestral, en donde V1 representa al hombre de mayor edad y M a la mujer. Figura 2-10 Espacio muestral Obtención por Laplace (enumeración) 2 6 4 P( B) = 6 2 P(C ) = 6 P( A) = Obtención por Laplace (análisis combinatorio) P (C ) = 186 [2][1] [6] Jorge Carlos Carrá Capítulo 2 Probabilidades [1][2] [3][2] [2][2] P( B) = [6] P ( A) = P(AB), P(AC), P(BC) Obtención por Laplace Observando el diagrama de la figura 2-10: 1 3 2 P ( BC ) = 6 1 P ( AC ) = 6 P( AB) = Obtención por RP 2 1 P( AB) = P( A) P( B | A) = 1 = 6 3 O también: 42 1 = 64 3 21 1 P( AC ) = P(C ) P( A | C ) = = 62 6 2 2 P ( BC ) = ( PC ) PB | C ) = 1 = 6 6 P ( AB ) = P ( B ) P( A | B) = Diagrama de árbol de probabilidades condicionales De los 3 tipos de diagramas comentados en la página 170, resta tratar el diagrama de árbol de probabilidades. El árbol que usaremos contiene las probabilidades condicionales, por lo cual resulta más apto que los otros diagramas si se debe razonar la RP. Diagrama de árbol de probabilidades condicionales Se presenta en la figura 2-11. Se definen 3 componentes: nodo, rama y estrella. Desde el punto de vista matemático un árbol es un grafo. Grafo Conjunto de nodos (puntos) unidos por ramas (rectas) tal que tal que en cada nodo solo entra una sola rama (como consecuencia, un árbol no tiene ciclos). Nodo Es cada uno de los sucesos o eventos. Se puede comenzar y seguir por cualquiera, pero la probabilidad compuesta está asociada solo a ese orden. Rama Es la conexión entre dos nodos consecutivos. En cada rama se expresa la probabilidad condicional del extremo respecto del comienzo. En el extremo de cada camino a la derecha, se coloca la 187 II Teoría de las probabilidades 3. Regla del producto (RP) o de la intersección probabilidad conjunta de ese camino (RP), la cual resulta de multiplicar las probabilidades condicionales del camino29. Camino Es la sucesión de ramas desde el inicio del árbol hasta el nodo en cuestión. P(C|AB) P(B|A) P(A) . A B C P(ABC) Figura 2-11 Un árbol de probabilidades completo se muestra en la figura 2-12. Estrella Es cada uno de los conjuntos de ramas que salen de un nodo, al que llamaremos nodo inicial de la estrella. Observar que la suma de las probabilidades condicionales de una estrella, debe ser 1, pues es la suma de todas las probabilidades dentro de un espacio muestral reducido (similar a un perfil fila o perfil columna)30. Llamaremos a los restantes nodos de la estrella, nodos finales. P(B1|A1) P(A1) . P(A2) B1 A1 P(B2|A1) B2 P(B1|A2) B1. A2 P(B2|A2) B2. Figura 2-12 Árbol de probabilidades condicionales Probabilidad de nodo Es la probabilidad conjunta del camino concurrente a ese nodo. En la figura 2-11, se ha colocado este valor para el último nodo del camino (nodo C). La suma de las probabilidades de los nodos finales de una estrella, es la probabilidad del nodo inicial de la estrella. Es sencillo demostrar que, con estas probabilidades, las probabilidades condicionales surgen del cociente entre las probabilidades correspondientes de los nodos final e inicial. Finalmente, si se multiplican las probabilidades de nodo por la cantidad de casos totales, se obtendrán valores correspondientes a los casos favorables. 29 Podría también construirse un diagrama de árbol con probabilidades compuestas en las ramas, pero como esta información ya la proporcionan los otros dos diagramas, resultaría redundante. Por esta razón me referiré de aquí en más solo al árbol de probabilidades condicionales, a menos que indique lo contrario. 30 Esto también puede demostrarse matemáticamente planteando la fórmula de las particiones de B=B1+B2, aplicando la RP a cada conjunción del segundo miembro y simplificando P(A). 188 Jorge Carlos Carrá Capítulo 2 Probabilidades Problema resuelto 2.10. TC, Venn y Árboles El diagrama de árbol de probabilidades es el diagrama más versátil para razonar probabilidades condicionales. Sin embargo también pueden construirse tablas de contingencias o diagramas de Venn. Dado el diagrama de árbol de probabilidades de la figura 2-13, si se sabe que n= 200, obtener la TC y el diagrama de Venn. D 0.57 A 0.70 D' . D. A' 0.83 D'. Figura 2-13 Primero completamos el diagrama de árbol de probabilidades con los valores faltantes, como se muestra en la figura2-14: 0.570 0.700 D 0.399 A . 0.300 0.430 D' 0.301 0.170 D. 0.051 A' 0.830 D'. 0.249 Figura 2-14 Tabla de contingencias La TC para frecuencias absolutas de este problema se dibuja en la figura 2-15 (recordar que n = 200). A D 80 D' 60 140 A' 10 90 50 110 60 200 Figura 2-15 Si el problema contiene más de 2 variables, deben anidarse. Diagrama de Venn El diagrama de Venn es cómodo solo para 2 variables con 2 niveles. El diagrama de Venn de este problema se dibuja en la figura 2-16, en la cual se observa que solo contiene los nombres de todas las filas y columnas menos una. Se sobreentiende que la restante es la complementaria. 189 II Teoría de las probabilidades 3. Regla del producto (RP) o de la intersección Figura 2-16 Se puede apreciar que las probabilidades marginales de la TC se encuentran en el origen y extremo del árbol de probabilidades (como valores relativos), pero que no se muestran en forma explícita en el diagrama de Venn. Problema resuelto 2.11. Artículos defectuosos En una fábrica, la máquina A fabrica el 25% de la producción con un 5% de defectuosos, la máquina B fabrica el 35% de la producción con un 4% de defectuosos y la máquina C fabrica el 40% de la producción con un 2% de defectuosos. Se extrae un elemento de la producción al azar. Hallar la probabilidad de que, a) sea defectuoso y provenga de la máquina A, b) sea defectuoso, c) sea defectuoso sabiendo que provino de la máquina B, d) provenga de la máquina B, sabiendo que es defectuoso. Antes de responder a las preguntas, construir como ayudas gráficas, los árboles de probabilidades directo e inverso, la tabla de contingencias y el diagrama de Venn. Comprobar que el diagrama más versátil para estudiar la RP de cualquier número y tipo de variables, es el árbol de probabilidades. Árbol de probabilidades condicionales Directo (Máquina-Defectuoso) 0.050 D 0.0125 D' 0.2375 D. 0.014 0.336 A 0.950 0.250 0.040 . 0.350 B 0.400 0.960 D'. 0.020 D.. 0.008 0.980 D'.. 0.392 C Figura 2-17 Árbol de probabilidades condicionales Naturalmente las P(D) y P(D') se obtienen aplicando la RS a los valores de las probabilidades conjuntas que se visualizan en la columna de la derecha, resultando: P ( D ) = 0.0125 + 0.014 + 0.008 = 0.0345 P( D′ ) = 0.2375 + 0.336 + 0.392 = 0.9655 Inverso (Defectuoso-Máquina) A partir de los valores anteriores, reconstruyendo las probabilidades de nodo desde atrás hacia adelante, se puede construir el árbol inverso que se muestra en la figura 2-18. Las probabilidades condicionales resultan de la división de las correspondientes probabilidades de nodo. 190 Jorge Carlos Carrá Capítulo 2 Probabilidades 0.362 D 0.0345 0.406 0.232 . 0.246 0.9655 D' 0.348 0.406. A 0.0125 B 0.014 C 0.008 A. 0.2375 B. 0.336 C. 0.392 Figura 2-18 Tabla de contingencias, TC A partir de los datos, resulta la TC preliminar de la figura 2-19: D D' 25 A 1.25 35 B 1.4 40 C 0.8 100 Figura 2-19 Completando las celdas, resulta la TC final de la figura 2-20: D D' A 1.25 23.75 B 1.4 33.6 C 0.8 39.2 3.45 96.55 25 35 40 100 Figura 2-20 Se puede observar que ambas representaciones son equivalentes, pero contienen distintas probabilidades. Se puede apreciar además, que un perfil de la tabla, se corresponde con las 2 últimas variables del árbol. En general si X es la penúltima variable del árbol, los valores del perfil Y|X se encontrarán en la última rama. Naturalmente, también se puede construir el árbol inverso luego de tener la tabla de contingencias (comprobarlo). Diagrama de Venn Como una variable no es dicotómica, no resulta apropiada la utilización de un diagrama de Venn (a no ser que solo consista en cambiar los rectángulos de la TC. por óvalos). A partir de cualquiera de los diagramas, se pueden responder ahora, a las preguntas planteadas: a) 0.0125 b) 0.0345 c) 0.0400 d) 0.406 Problema resuelto 2.12. Control de calidad Para limitar el rechazo de los clientes a un determinado producto, se establece un procedimiento previo de control de calidad. El 65% de los productos pasaron el control de calidad (Q), el 60% fue aceptado por los 191 II Teoría de las probabilidades 3. Regla del producto (RP) o de la intersección clientes (A) y el 85% de los productos aceptados, había pasado la prueba de calidad. Calcular la probabilidad de que, a) un producto Q sea A, b) un producto sea Q o A, c) un producto sea Q y A. Árbol de probabilidades condicionales Árbol directo (Calidad-Aceptación) En la estructura del árbol que se muestra en la figura 2-21, solo el valor 0.65 pertenece a los datos. Por lo tanto, previo a su construcción se requiere calcular algún otro valor. En este problema este valor es la probabilidad P(QA), la cual se obtiene de: P(QA) = 0.850 0.600 P (Q | A) = de la cual se puede despejar: P (QA) = 0.510 Con P(Q) = 0.650, P(QA) = 0.510 y P(A) = 0.600, se calculan todos los restantes. 0.785 A 0.510 Q 0.650 0.215 A' 0.140 0.257 A. 0.090 . 0.350 Q' 0.743 A'. 0.260 Figura 2-21 Árbol inverso (Aceptación-Calidad) Se puede construir a partir de P(A) = 0.600, P(Q|A) = 0.850 y P(Q) = 0.650 0.850 Q. 0.510 A 0.600 0.150 . 0.350 0.400 Q.' 0.090 Q 0.140 A' 0.650 Q' 0.260 Figura 2-22 Tabla de contingencias Las celdas resaltadas contienen los valores datos. A A' Q 0.51 0.14 0.65 Q' 0.09 0.26 0.35 0.60 0.40 1 Figura 2-23 Diagrama de Venn Los valores remarcados fueron los valores datos en la construcción. 192 Jorge Carlos Carrá Capítulo 2 Probabilidades Figura 2-24 A partir de cualquiera de los diagramas, se obtienen: a) 0.785 b) 0.14+0.51+0.09 = 0.740 c) 0.510 Muestreo con y sin reemplazo Supongamos que se realiza más de una extracción. El resultado de la segunda selección dependerá del tipo de muestreo. • Muestreo con reemplazo, MCR El elemento extraído se devuelve a su lugar. En este caso, la configuración numérica antes de la segunda extracción, es exactamente igual a la de la primera extracción. • Muestreo sin reemplazo, MSR El elemento extraído no se devuelve a su lugar. En este caso, el número de elementos para realizar el cálculo antes de la segunda extracción, ha cambiado pues ya no se encuentra el elemento extraído. Problema resuelto 2.13. Muestra de 52 alumnos Tomemos nuevamente la TC del ejemplo de las Notas de estadística, que repito en la figura 2-25. Figura 2-25 Se seleccionan 2 alumnos. a) Hallar la probabilidad de que la primera sea mujer y el segundo sea varón si el muestreo es con reemplazo. Repetir si el muestreo es sin reemplazo. b) Hallar la probabilidad de que sean una mujer y un varón si el muestreo es con reemplazo. c) Elaborar el diagrama de árbol para todas las alternativas con reemplazo. d) Construir la tabla de contingencias equivalente al árbol anterior. a) 19 33 = 0.232 52 52 19 33 P ( MV ) = = 0.236 52 51 P ( MV ) = 193 II Teoría de las probabilidades 3. Regla del producto (RP) o de la intersección Observar que la notación P(MV) implica un orden, a diferencia de los problemas anteriores, por ejemplo P(AB), en los que no existía ningún ordenamiento. El contexto indicará cual es la interpretación. b) P (una M y un V ) = P( MV ) + P(VM ) = 19 33 33 19 + = 0.464 52 52 52 52 c) M. 0.133 33/52. V. 0.232 19/52.. M.. 0.232. V.. 0.403 19/52. M 19/52 . 33/52 V 33/52.. Figura 2-26 d) 1° 2° M V T M 0.133 0.232 0.365 V 0.232 0.403 0.635 T 0.365 0.635 1 Figura 2-27 Probabilidad total Partición Los eventos B1 , B2 , …, Bk representan una partición de un espacio muestral S, si: 1. La intersección de cualquier par de ellos es el vacío (son todos disjuntos): Bi ∩ B j = ∅ 2. La unión de todos ellos es S: k ∪B i =S i =1 3. La probabilidad de cualquiera de ellos no es cero: P( Bi ) > 0 La siguiente figura representa esta partición. 194 Jorge Carlos Carrá Capítulo 2 Probabilidades Figura 2-28 Dada una partición Bi en S, si A es cualquier evento de S, se puede escribir: A = AB1 ∪ AB2 ∪ ... ∪ ABk donde cualquiera de las intersecciones componentes puede ser cero. Como estos eventos son mutuamente exclusivos, se tiene, aplicando la RS: P( A) = P( AB1 ) + P( AB2 ) + ... + P( ABk ) Aplicando finalmente la RP: P( A) = P( A | B1 ) P( B1 ) + P( A1B2 ) P( B2 ) + ... + P( A | Bk ) P( Bk ) Esta expresión se llama de la probabilidad total y es sumamente útil cuando el cálculo de P(A) es complicado pero se conocen las probabilidades condicionales de A en todos los espacios muestrales reducidos Bk . En su versión frecuencial, ya ha sido utilizada al estudiar las frecuencias marginales en el capítulo 1, sección 2 variables. El diagrama de árbol para la probabilidad total, en el caso de que la partición solo tenga 2 componentes es: P(A|B1) P(B1) B1 A . P(B2) P(A|B2) B2 A. Figura 2-29 Independencia En forma análoga al concepto visto en el capítulo 1, página 79, A es independiente de B si: P ( A | B ) = P ( A) En otras palabras, la proporción de A dentro de B es la misma que la de A dentro de S y por esto el conocimiento de B no arroja información adicional a la probabilidad del segundo evento. Combinando esta expresión con la RP, resulta la regla del producto para sucesos independientes: P ( AB) = P( A) P ( B ) 195 II Teoría de las probabilidades 3. Regla del producto (RP) o de la intersección Despejando P(B), resulta: P ( AB ) = P( B) P ( A) y reconociendo que el primer miembro es la P(B|A), resulta en definitiva: P( B | A) = P ( B) En otras palabras, la independencia es un proceso dual, por esto se habla de independencia entre A y B, sin importar si se está resolviendo A|B o B|A. Teorema Si un suceso D es independiente de A, también lo serán sus complementos: D' y A, D y A', D' y A'. Veamos la demostración de uno de ellos, los restantes son similares: Si: P ( DA) = P( D) P ( A) Entonces: P( DA) = (1 − P( D′ )) P( A) Es decir: P( DA) = P( A) − P( D′ ) P( A) Pero: P( A) = P( AD′ ) + P( AD) Reemplazando y agrupando: P( AD′ ) = P( D′ ) P( A) Por lo tanto D' y A son independientes. Independencia en una TC Observar que la expresión: P ( AB) = P( A) P ( B ) es análoga a la expresión de frecuencias relativas para variables independientes, desarrollada en el capítulo 1, al tratar tablas de contingencias, TC: f xy = f x f y Independencia de eventos La condición debe cumplirse para la celda en estudio. Independencia de variables La condición debe cumplirse para toda la tabla (recordar que basta verificar c − 1 columnas y r − 1 filas (página 81). Independencia en un árbol Hemos visto la condición que deberá chequearse en una TC para analizar la independencia. ¿Cuál es la correspondiente a un árbol de probabilidades condicionales? A modo de ejemplo, sea el árbol de la siguiente figura: 196 Jorge Carlos Carrá Capítulo 2 Probabilidades P(C|A) P(A) A . P(B) C P(D|A) D P(C|B) C. B P(D|B) D. Figura 2-30 Independencia de eventos Para analizar la primer rama, una primera alternativa es controlar el cumplimiento de la ecuación: P (C | A) = P (C ) . Sin embargo esto obliga a calcular separadamente P (C ) . La ecuación de cálculo de este valor es. P (C ) = P (CA) + P (CB ) = P (C | A) P ( A) + P (C | B ) P ( B ) Dado que P ( A) + P ( B ) = 1 , para que P (C ) sea igual a P (C | A) , deberá ser: P (C | A) = P (C | B ) Es decir que la probabilidad condicional del evento en estudio debe ser igual a las similares en esa posición en todas las estrellas. Independencia de variables Extendiendo la conclusión anterior, se concluye que para la independencia de variables todas las estrellas deben ser iguales entre sí. Esto no es sorprendente pues de esta forma las probabilidades de las segundas ramas son independientes de cual haya sido el valor de la primera. Confiabilidad de sistemas La confiabilidad se simboliza con la letra R (Reliability) y se define como la probabilidad de que un sistema completo funcione. El complemento de R se representa Q y mide la no confiabilidad o probabilidad de falla (Unreliability). El problema típico es tener un sistema completo conformado con sistemas más simples cuya confiabilidad se conoce y se desea conocer la confiabilidad del sistema completo. En muchos casos el sistema puede ser esquematizado con agrupaciones serie y/o paralelo, por lo cual, al igual que para circuitos eléctricos, es conveniente desarrollar una expresión para calcular la R para un circuito equivalente que reemplace a estos subsistemas. En este caso, en lugar de las dos leyes de Kirchhoff de la electricidad, se usarán las tres reglas de las probabilidades. Elementos en serie Sea un subsistema como el de la figura 2-31. El sistema puede asimilarse a un circuito con llaves eléctricas, que operan con probabilidad RA, RB y RC. El sistema funcionará (pasará corriente de 1 a 2), si todos los componentes funcionan (las llaves se cierran). Figura 2-31 Para hallar la confiabilidad del sistema completo en función de las confiabilidades individuales, será de aplicación la Regla del Producto RP. Por razones de simplicidad suele asumirse que los 197 II Teoría de las probabilidades 3. Regla del producto (RP) o de la intersección componentes funcionan independientemente uno del otro. En este caso, la RP establece que la confiabilidad equivalente del sistema será: R = RA RB RC La confiabilidad equivalente de componentes en serie es el producto de las confiabilidades. Como los valores de las confiabilidades son menores que 1, se puede apreciar que la confiabilidad del sistema será menor que la menor de las confiabilidades, lo cual es intuitivo pues un sistema en serie debe disminuir la confiabilidad. Elementos en paralelo Sea un subsistema como el de la figura 2-32. El sistema puede asimilarse a un circuito con llaves eléctricas, que operan con probabilidad RA, RB y RC. El sistema funcionará (pasará corriente de 1 a 2), si al menos uno de los componentes funcionan (las llaves se cierran). Figura 2-32 Expresión directa Para hallar la confiabilidad del sistema completo en función de las confiabilidades individuales, será de aplicación la Regla de la Suma RS, la cual establece que la confiabilidad equivalente del sistema será: R = R A + R B + R C − R AR B − R AR C − R B R C + R AR B R C En este caso se puede demostrar (ver punto siguiente) que la confiabilidad del sistema será mayor que la mayor de las confiabilidades, lo cual es intuitivo pues un sistema en paralelo (redundante) debe aumentar la confiabilidad. Expresión por complementos Una forma alternativa es planteando la Regla del complemento RC, observando que el sistema no funciona si ninguno de los componentes funciona. Por lo tanto: Q = QAQBQC La probabilidad de falla equivalente de componentes en paralelo es el producto de las probabilidades de fallas. Expresando la ecuación en términos de R (Q = 1–R): 1 − R = (1 − RA )(1 − RB )(1 − RC ) Despejando R: R = 1 − (1 − RA )(1 − RB )(1 − RC ) La confiabilidad equivalente de componentes en paralelo es el complemento del producto de los complementos de las confiabilidades. 198 Jorge Carlos Carrá Capítulo 2 Probabilidades Notas 1. 2. Como la expresión de la probabilidad de falla de elementos en paralelo es dual de la de confiabilidad de elementos en serie, es fácil demostrar que la confiabilidad de un sistema paralelo será mayor que la mayor de las confiabilidades. En este capítulo la confiabilidad R se asume fija en un valor numérico constante. En el capítulo 3, se ampliará el concepto al caso general en donde las confiabilidades sean dependientes de una variable (tiempo), R(t), utilizando las herramientas relacionadas con las distribuciones de probabilidades. Problema resuelto 2.14. Sistema en serie-paralelo El sistema de controles de un modelo de aviones A es de tipo eléctrico (ver figura 2-33) y consiste en un sistema eléctrico D y 3 circuitos de control en paralelo, A, B y C, para aumentar la redundancia. Por su lado, otro modelo de aviones B, tiene un sistema similar pero con 2 circuitos eléctricos en paralelo. Además tiene un sistema manual, mecánico de emergencia, C. Considerar que todos los sistemas tienen una probabilidad de funcionar de 0.990. Hallar la confiabilidad R de cada sistema de control: a) avión A, b) avión B. Expresar los resultados con 6 DS (dígitos significativos). Avión B Avión A Figura 2-33 Modelo A R ABC = 1 − Q ABC = 1 − 0.013 = 0.999999 R = 0.99(0.999999) = 0.989999 Modelo B R AB = 1 − Q AB = 1 − 0.012 = 0.99990 RABD = 0.99(0.9999) = 0.989901 QABD = 1 − 0.989901 = 0.010099 R = 1 − Q = 1 − 0.01(0.010099) = 0.999899 Problema resuelto 2.15. Sistema en puente La estructura de un sistema se muestra en la figura 2-34 en sus aspectos esenciales. Considerar que cada componente tiene una probabilidad de funcionar de 0.90. Hallar un límite superior y otro inferior para la confiabilidad R del sistema. 199 II Teoría de las probabilidades 3. Regla del producto (RP) o de la intersección Figura 2-34 El sistema no es ni serie ni paralelo (sistema puente). Sin embargo en cualquier sistema puede ser obtenido un límite superior y otro inferior para la confiabilidad R. Estos límites resultan de considerar 2 conjuntos provenientes de la teoría de circuitos: el de caminos y el de cortes. Los valores mínimos de estos conjuntos determinan los límites enunciados. Conjunto de caminos mínimos El conjunto de caminos es el conjunto de ramas que une la entrada con la salida. El conjunto de caminos es mínimo si cada uno de ellos no atraviesa un nodo más de una vez (no existen ciclos). Los caminos mínimos del circuito puente dado son: AD, BE, ACE y BCD La confiabilidad R de este conjunto mínimo se obtiene del circuito paralelo mostrado en la figura 2-35, el cual, entonces, está conformado por la mínima cantidad de caminos que hace funcionar al sistema dado. Figura 2-35 Por lo tanto: R ≤ 1 − (1 − 0.81)2 (1 − 0.729)3 = 0.999281 Conjunto de cortes mínimos Un conjunto de cortes es un conjunto de ramas que desconecta la entrada con la salida. El conjunto de cortes es mínimo si cada uno de ellos no atraviesa una rama más de una vez. El conjunto de cortes puede ser obtenido sistemáticamente a partir del conjunto de caminos (Billinton R. 1992, página 103) o por inspección visual. Utilizando esta última estrategia, los cortes mínimos del circuito puente dado son: AB, DE, ACE y BCD La confiabilidad R de este conjunto se obtiene más fácilmente planteando la ecuación con los complementos Q: Q ≤ QAQB + QDQE + QAQC QE + QBQC QD = 2(1 − 0.81)(1 − 0.729) = 0.10298 Por lo tanto: En definitiva: 200 R ≥ 1 − Q = 0.89702 0.89702 ≤ R ≤ 0.999281 Jorge Carlos Carrá Capítulo 2 Probabilidades Aplicación: Teorema de Bayes Este teorema fue desarrollado por un religioso y matemático inglés del siglo XVIII llamado Thomas Bayes, (1702-1761). A pesar de que Bayes se rehusó a publicar los detalles de su trabajo, su obra quedó en la historia de las ciencias, por la importancia de la aplicación de su teorema en el proceso de la toma de decisiones. La expresión matemática del mismo es la conocida ecuación del cálculo de la probabilidad condicional, completando la misma para mostrar explícitamente la relación que existe entre una probabilidad condicional conocida P(A|B) y la condicionalidad inversa P(B|A). P ( B | A) = P ( AB ) P ( A | B ) P ( B ) = P ( A) P ( A) En un diagrama de árbol de probabilidades, los valores necesarios para el cálculo se encuentran en la columna marginal de la derecha, lo cual ya fue de hecho utilizado en la obtención del árbol inverso, página 190. La expresión anterior nos sugiere la aplicación del teorema en dos tipos de problemas: • P(B|A) => P(A|B) Cálculo de una probabilidad condicional inversa, conocida la probabilidad condicional directa. • P(B) => P(B|A) Actualización de la probabilidad anterior de un suceso B, P(B), dada la información de nueva evidencia proporcionada por otro suceso A, P(B|A). Esta aplicación se denomina: Toma de decisiones bayesianas. Veamos algunos problemas tipo de la primera aplicación. Problema resuelto 2.16. Bayes En el ejemplo del árbol de probabilidades de la página 189, hallar P(A|D). P( A | D) = P ( AD ) P( D) Reemplazando, resulta: P( A | D) = 0.399 = 0.887 0.450 Problema resuelto 2.17. Test de enfermedad Veamos una aplicación del primer tipo de problemas. Un doctor lleva a cabo un test con una sensibilidad y especificidad (página 131) del 99 %, es decir 99 por ciento de las personas que están enfermas dan positivo y 99 por ciento de las personas sanas dan negativo. El doctor sabe que solamente 1 por ciento de las personas en el país están enfermas (prevalencia). Si el test de un paciente da positivo, ¿cuáles son las probabilidades de que el paciente está enfermo. (Observar que se plantean 2 eventos y se brindan 3 números). La respuesta intuitiva es 99%, sin embargo la respuesta correcta es 50%. Veamos la solución. Llamamos: E: Suceso Enfermo S: Suceso Sano 201 II Teoría de las probabilidades Aplicación: Teorema de Bayes P: Test Positivo N: Test Negativo El diagrama de árbol de probabilidades es el de la figura 2-3631. P 0.0099 0.010. N 0.0001 0.010.. P. 0.0099. 0.990.. N. 0.9801 0.990. 0.010 E . 0.990 S Figura 2-36 El teorema de Bayes da: P( E | P) = 0.0099 = 0.500 0.0099 + 0.0099 Una interpretación sin el teorema de Bayes, es la siguiente: Imagine que la historia anterior tiene lugar en un pueblo con 10000 personas. Sabemos que el 1 por ciento, o sea 100 personas, están enfermas y 9900 están sanas. Si realizamos la prueba a todas las personas, el resultado más probable es que 99 de las 100 personas enfermas den positivo y que el 1 %, de las sanas, es decir 99, también den positivo. Es decir hay igual cantidad de pruebas positivas de pacientes enfermos y de pacientes sanos. Esos números se aprecian también en el árbol de probabilidades, si se multiplican los valores de las probabilidades marginales por 10000. Suponga ahora que en la ciudad existen 1 de cada 200 personas enfermas. Si el test de un paciente da positivo, ¿es más probable que esté sano o que esté enfermo? Problema resuelto 2.18. Cantidad de empleados Aplicar el teorema de Bayes, directamente sobre los datos provistos en una TC. Cuatro compañías de seguros, F1, F2, F3 y F4, brindan la tabla de la figura 2-37, en la que informan la cantidad de empleados de una determinada empresa, en distintas secciones. A=sección administración B= sección producción C=sección mantenimiento x F1 F2 y F3 F4 A B 100 130 20 40 10 70 300 C 60 15 65 20 600 Figura 2-37 31 Recordar del capítulo 1 (página 131) que llamando Verdadero a la presencia de Enfermedad y Falso a la ausencia, se pueden utilizar dos alternativas de codificación. La que utiliza a las 2 variables conduce a las siguientes probabilidades conjuntas para la secuencia del árbol que se muestra, de arriba hacia abajo: Verdadero +, Verdadero –, Falso+ y Falso–. 202 Jorge Carlos Carrá Capítulo 2 Probabilidades Si se consideran estos datos como poblacionales, obtener: a) P(F4|C), b) P(C|F4), c) ¿son independientes F1 y A? d) si se seleccionan 2 empleados, hallar la probabilidad de que ambos pertenezcan a F3, e) si se seleccionan 2 empleados, hallar la probabilidad de que por lo menos 1 pertenezca a F4, f) si se seleccionan 4 empleados, hallar la probabilidad de que ninguno pertenezca a la sección C, g) hallar el diagrama de árbol de las P(x|y), h) hallar el diagrama de árbol de las P(y|x), i) obtener la distribución a priori P(y) y la distribución a posteriori P(y|x = 300). a) Primero debemos completar la tabla como en la figura 2-38. x F1 F2 y F3 F4 A 100 20 10 70 200 B 130 40 50 80 300 C 60 15 5 20 100 290 75 65 170 600 Figura 2-38 P( F4 | C ) = 20 100 P(C | F4 ) = 20 170 b) c) Si son independientes, debe verificarse: | AF1 |= | A || F1 | |S| Reemplazando resulta, 100 distinto a 96.6, por lo cual no son independientes. d) La selección de 2 empleados simultáneamente es equivalente a la selección sin reemplazo. P( F3 F3 ) = 65 64 = 0.011 600 599 e) Analogamente al caso d), es un muestreo sin reemplazo. Existen 2 formas alternativas de realizar el cálculo, con la RS (y RP), o con la RC (y RP). 170 169 170 430 +2 = 0.487 600 599 600 599 430 429 P (≥ 1ε F4 ) = 1 − P ( F4′ F4′ ) = 1 − = 0.487 600 599 P (≥ 1ε F4 ) = P ( F4 F4 ) + P( F4′ F4 ) + P( F4 F4′ ) = El árbol de probabilidades de esta situación se ilustra complementariamente, en la figura 2-39. F4. 0.0799 430/599 F4'. 0.2033 170/599 F4.. F4' 0.2033. 169/599 170/600 F4 . 430/600 429/599 F4'.. 0.5134 Figura 2-39 f) P (C ′C ′C ′C ′ ) = 500 499 498 497 = 0.48 600 599 598 597 g) figura 2-40 203 II Teoría de las probabilidades Aplicación: Teorema de Bayes 0.167 A 0.345 0.448 F1 0.207 0.483 0.216 B 0.100 C A. 0.0334 B. 0.00666 0.267 0.533 0.125 F2 . 0.108 0.283 0.154 0.769 F3 0.0769 A.. 0.0166 B.. 0.0831 0.00831 C.. A... 0.412 0.471 F4 0.0250 C. 0.200 0.1118 B... C... 0.117 0.133 0.0333 Figura 2-40 h) figura 2-41 F1 0.167. F2 0.0333. F3 0.0167 F4 F1. 0.217 F2. 0.0665 F3. 0.0835 0.500. 0.100 A 0.050 0.350 0.333 0.433 0.133 0.500 B . 0.167.. 0.267 0.167 F4. F1.. 0.117 0.134 0.100. 0.600 0.150 C 0.050. 0.200 F2.. 0.0251 F3.. 0.00835 F4.. 0.0334 Figura 2-41 i) La distribución a priori P(y) se encuentra en la columna marginal de la tabla de la figura 2-38 o en la primera estrella del árbol de la figura 2-40. Todas las distribuciones a posteriori (P(y|x) se encuentran en el árbol de y|x. Entre ellas la solicitada P(y|x = 300), es la estrella correspondiente a x= B. 204 Jorge Carlos Carrá Capítulo 2 Probabilidades Toma de decisiones bayesianas El segundo tipo de problemas consiste en actualizar una probabilidad subjetiva, basada en la creencia del operador, en base a los resultados de un muestreo. Este tema se profundiza con la inferencia bayesiana que se estudia en un segundo curso de estadística. El concepto se aprecia en el diagrama de árbol genérico de la figura 2-42. D P(D|A) A P(A) . P(A') P(D'|A) D' P(D|A') D. A´ P(D'|A') D'. Figura 2-42 Las probabilidades del suceso A pueden ser calculadas mirando a la izquierda de A, P(A), anterior o sin condicionalidad, en general subjetiva, o mirando a la derecha de A, P(A|D), posterior o luego del conocimiento de D, calculada por el teorema de Bayes. El esquema conceptual se resume en la figura 2-43, en donde se aprecia la recursividad del proceso, si se vuelve a aplicar la misma secuencia una y otra vez. Probabilidad anterior Probabilidad posterior Experiencia Figura 2-43 Problema resuelto 2.19. Monedas Se tira una moneda de la que solo sabemos que o tiene dos caras (2C) o tiene una cara y una seca (CyS). Estimamos subjetivamente que P(2C)=0.100 y queremos ajustar este número con la experiencia. Se tira la moneda 10 veces y resultan todas caras. ¿Cuál es la P(2C) luego de la experiencia? El diagrama de árbol de probabilidades se muestra en la figura 2-44. 1 0.100 2C . 0.900 C 0.100. (0.5)^10 CyS C. 0.000879 Figura 2-44 La expresión (0.5)^10, significa: 1 ( )10 2 Este valor es la probabilidad de obtener 10 C con una moneda de C y S, obtenida por la RP: 205 II Teoría de las probabilidades Aplicación: Teorema de Bayes 1 P (10C ) = P (CCCCCCCCCC ) = ( )10 2 Aplicando el teorema de Bayes, se obtiene: P (2C | C ) = 0.100 = 0.991 0.100 + 0.000879 Esta es la probabilidad de que la moneda sea de 2C, a la luz de la nueva información suministrada por la experiencia. Otro ejemplo, probablemente más interesante, se describe en el ensayo de este capítulo: ¿Existe Dios? 206 Jorge Carlos Carrá Capítulo 2 Probabilidades III Simulaciones Monte-Carlo Una simulación es un modelo que se comporta en forma similar a la realidad que se desea estudiar. De esta forma se podrán crear datos a bajo costo, los cuales podrán luego ser analizados como si procedieran de una muestra real. Al final de cada uno de los siguientes capítulos se incluye una sección de simulaciones y en este en particular, aprenderemos a construir simulaciones para hallar valores de probabilidad con la intervención de un generador de números aleatorios. Una muestra debe ser representativa de la población, es decir que cualquiera de los elementos de la población debe tener la misma probabilidad de estar en la muestra. Suponga que la fuente de datos sea una encuesta callejera voluntaria. Con ella podríamos generar gráficas, calcular la mediana, la media, la desviación estándar, etc. ¿Pero representan estos resultados a la población? Decididamente no. Por esta razón, los resultados que obtengamos son lo que los estadísticos llaman apropiadamente "basura". Debido a lo anteriormente expresado, los generadores de números aleatorios que necesitamos, deben proveer una sucesión de números que tengan la misma probabilidad de aparecer. Si realizamos el histograma de frecuencias relativas de cada uno de dichos números, obtendríamos prácticamente la misma frecuencia para cada uno. La forma del histograma sería rectangular o uniforme por lo cual a éste generador se lo llama de Números Aleatorios Uniformes, NAU. Estos generadores pueden ser, ruletas, dados, algoritmos matemáticos, tablas de NAU, calculadoras con tecla RAN (RANdom significa aleatorio), software como EXCEL, SPSS, etc. Uno de los algoritmos matemáticos típicos es: xn+1 = xn rmod ( N ) Es decir se inicia con un número cualquiera x0, se lo multiplica reiteradamente por otro r, llamado semilla y se lo reduce módulo N (es decir se lo divide por N y se retiene el resto). No todas las secuencias generadas de esta forma son uniformes, esto depende de r y de N. Ejemplo Si x0 = 1, r = 13 y N = 100, resulta: xn+1 = xn13mod (100) Verificar que la secuencia es: 01, 13, 69, 97, 61, 93,… Los programas de computación presentan además la ventaja de poder presentar NAU entre cualquier par de números deseado (por ejemplo: 0 y 1 para una moneda, 1 y 6 para un dado, 1 y 365 para los días del año, etc). Existen varias formas de obtener esto mismo con una tabla de NAU: ignorando los valores inferiores y superiores a los límites deseados, convirtiendo los valores utilizando una función módulo adecuada, etc. 207 III Simulaciones Monte-Carlo Valor de probabilidad Simulación Monte-Carlo Las simulaciones probabilísticas se suelen denominar genéricamente con el nombre de Método Monte-Carlo o Simulación Monte-Carlo, SMC. En el capítulo 3 veremos que en realidad bajo este nombre se agrupan una serie de procedimientos que reproducen por muestreo aleatorio, distribuciones poblacionales arbitrarias F(x) de variables aleatorias x, normalmente con la intervención de la computadora. Estas características son parte esencial de un algoritmo por SMC. El nombre del método se origina por haber tomado inicialmente a una ruleta como un generador simple de números aleatorios, asociado a que el Casino de Monte Carlo era la capital del juego de azar. Los orígenes de esta técnica están ligados al trabajo desarrollado por Stan Ulam y John Von Neumann a finales de los 40 en el laboratorio de Los Álamos, cuando investigaban el movimiento aleatorio de los neutrones. Valor de probabilidad El procedimiento para crear una simulación de valores de probabilidad se puede ajustar a los siguientes 3 pasos: 1 Población, N Definir la población que se desea estudiar. Esta definición se utilizará en el segundo paso. Ejemplos • Si la población es de nacimiento de varones o mujeres, definir una población de 0 y 1 y codificar el 0 a las mujeres y 1 a los varones. • Si la población es de un 90% de hombres y se definen N valores distintos (por ejemplo de 1 a 100), recodificar los números del primer 90% (es decir de 1 a 90) como varones y los restantes como mujeres (o cualquier otra asignación que respete estos porcentajes). Bootstrap En algunos problemas se desconoce la población original y solo se cuenta con una muestra de la misma. En estos casos se puede aplicar la técnica llamada Boostrap o Remuestreo, que desarrollaremos en el capítulo 5 (página 838). La idea básica es simular la población original formando todas las combinaciones posibles con repetición de la muestra en cuestión. En la práctica se utiliza una gran cantidad de muestras (no necesariamente todas) de igual tamaño que la muestra original, con repetición. Los resultados que se obtengan se consideran representativos de los que se obtendrían si se consideraran todas las muestras posibles. 2 Muestra, n Crear una secuencia de NAU del tamaño n de la muestra deseada. Esta muestra se presenta en general en una columna del SPSS (con n igual al número de filas). Para contar el número de casos en estudio y establecer así el valor de probabilidad buscado a través de la generación (virtual) de casos, se aplicará la definición frecuencial de las probabilidades. La LGN establece que: f → P( A) n →∞ ¿Cuál es el valor finito que debe usarse para n? En el capítulo 5 se obtendrá la siguiente ecuación: n= 4 pq B pˆ 2 En donde p es el valor de la proporción poblacional, q = 1–p y B p̂ es un término de error igual a la diferencia entre el valor teórico y el muestral, el cual solo podrá ser superado el 5% de las repeticiones NR. Usualmente B pˆ ≤ 10% p . 208 Jorge Carlos Carrá Capítulo 2 Probabilidades 3 Repetición Repetir el paso 2 para obtener varias muestras, en las cuales se realizará alguna cuenta que se llamará en el capítulo 4, variable muestral, simbolizada en general con θˆ . La cuenta se podrá efectuar, según el caso, con el procedimiento Frecuencias, con la función Suma, con el procedimiento Contar, etc. Este procedimiento es un caso particular del esquema general (Simulación Montecarlo), que se estudiará en la sección simulaciones del capítulo 3. SPSS La función que provee NAU es Rv.Uniform y se ejecuta con: Transform > Compute > Random Numbers > Rv.Uniform. En la mayoría de las calculadoras de mano, esto equivale a la tecla RAN#. Población Los valores mínimo y máximo de la población se definen con los parámetros de la función Rv.Uniform, al reemplazar los dos signos de interrogación. Darle un nombre a la variable a generar, por ejemplo Muestra1. Muestra Es el número de casos existentes en la vista de datos. Al ejecutar la función, se generarán NAU entre el mínimo y el máximo (excluyendo estos 2 valores), en la cantidad dada por el número de casos. La creación del número determinado de casos definido por el tamaño de la muestra, se podrá realizar a mano o en forma automática como se verá luego. Repetición Si el resultado de la muestra consiste en un solo caso (por ejemplo, lanzar un dado y hallar la probabilidad de pares e impares), la repetición consistirá en todos los casos de la variable Muestra1. En cambio, si el resultado involucra a varios casos (por ejemplo, lanzar un dado y hallar el valor esperado o el número de tiradas hasta que salga un 6), entonces deberán crearse muestras adicionales. En este caso, se tienen 2 alternativas: Alternativa1 Se realiza repitiendo el proceso que generó la variable Muestra1, originando Muestra2, Muestra3, etc. Alternativa 2 Como alternativa a la secuencia anterior podría simularse un sola variable con un tamaño de varias veces el tamaño de la muestra y luego ir seleccionado de una en una con Select Cases > Based on time or case range… Si por ejemplo el tamaño de la muestra es de 200 y se desearan 5 repeticiones, generar 1000 casos y luego ir seleccionando de 0 a 200, de 200 a 400, etc. Notas acerca de RV.UNIFORM Muestreo con reemplazo, MCR Como todos los generadores de números aleatorios, entrega NAU con reemplazo, de lo contrario dejaría de ser equiprobable o uniforme. Muestreo sin reemplazo, MSR Un muestreo sin reemplazo, condiciona cada resultado a los anteriores, por lo cual el proceso es algo más complicado. Sin embargo, veremos en el capítulo 3 que las probabilidades del muestreo sin 209 III Simulaciones Monte-Carlo SPSS reemplazo tienden a las del muestreo con reemplazo, si el tamaño de la muestra es pequeño respecto del de la población. Por lo tanto, si se requiere un MSR, y si el problema lo permite, tomar un tamaño n ≤ 5% N y luego eliminar los resultados repetidos. Si el problema no lo permite, pues fija el tamaño de la muestra, no quedará más remedio que condicionar el muestreo en función de cada resultado (ver en la sección final de problemas, el problema de Simulación: Esferas de distintos colores). Eliminar datos repetidos Si los datos del muestreo están en una columna, se puede utilizar el procedimiento Data > Identify Duplicate Cases (coloca 1 en los casos sin duplicar y 0 en los duplicados) y luego con Data > Select Cases se podrán seleccionar los casos deseados y eventualmente borrar los casos no deseados. Si los datos del muestreo están en una fila (las repeticiones serán las distintas filas), se puede utilizar el procedimiento Contar Casos con Transform > Count Values within Cases, nombrar la nueva variable, asignar el valor a ser contado con Define values y elegir las variables cuyo contenido será contado. Luego con Select Cases se podrán borrar los casos no deseados (ver el problema de Simulación: Filas de cine). Redondeo El resultado del muestreo se presenta con números decimales entre 0 y 1, por lo cual, si estos deben ser enteros, deberán redondearse. En el SPSS existen 2 funciones para redondear: RND y TRUNC. RND RND()significa Round, y redondeará el resultado al entero más cercano. Si el resultado termina exactamente en 0.5, se redondeará alejándose de 0, por ejemplo –4.5, se redondea a –5. Esta función se encuentra en Transform > Compute > Arithmetic > RND (sombrear previamente el contenido que se desea colocar dentro del paréntesis), pero es más directo teclearla en forma manual. Corrección por continuidad Para que este redondeo afecte por igual a todos los enteros resultantes, el límite inferior deberá comenzar con medio punto antes y el superior terminar con medio punto después. Considerar además que cuanto mayor es la amplitud entre límites, menor será el error de redondeo. TRUNC En forma similar se puede utilizar la función truncar, trunc, la cual elimina los decimales de la expresión. Corrección por continuidad En este caso se requiere sumar 1 al límite superior para que el corte comprenda a dicho límite. Formatear la variable Para eliminar los 2 decimales que el programa coloca por defecto: hacer clic en Variable View o doble clic en el nombre de la variable. Se abre la vista de variables en donde se colocará 0 en el número de decimales. Definir además a la variable como ordinal. Semilla Si se desean generar siempre los mismos números, se deberá fijar una determinada semilla (ver capítulo 1, página 48), la cual debe ser establecida previamente. Crear casos Las funciones que generan una variable o columna (procedimiento Compute), lo hacen solo en la cantidad de casos preexistentes en el archivo .sav. Por lo tanto deberemos asegurar previamente la existencia del número de casos deseado, los cuales se pueden conseguir con algunos de los siguientes procedimientos. 210 Jorge Carlos Carrá Capítulo 2 Probabilidades a Con el menú 1. Versiones hasta SPSS15 Si se desean inicializar por ejemplo n = 100 casos, ir a la fila 100. Posteriormente seleccionar la celda de fila 100, columna 1 y apretar simultáneamente las teclas espaciadora y Enter. Se observará que el programa coloca un punto en cada una de las 100 celdas, activándolas. 2. Con EXCEL. Crear una columna con 100 datos arbitrarios en EXCEL (luego podrá borrarse), copiar y pegar en el SPSS. b Con Sintaxis La ventana de sintaxis (Apéndice A) es una alternativa al uso de los menús. El uso de las sintaxis permite automatizar los trabajos largos y repetitivos al incluir todos los comandos en una sola sintaxis. Además algunas opciones solo se pueden realizar con la sintaxis. Para generar un número deseado de casos en la vista de datos, ir a File > New > Syntax. En la ventana de sintaxis, teclear los siguientes comandos, o si lo prefiere, copiar y pegar desde el archivo sintaxis.txt de la Base de Datos. Cambiar el valor 100 por el tamaño que se desee. NEW FILE. INPUT PROGRAM. LOOP #I=1 TO 100. COMPUTE ID=$CASENUM. END CASE. END LOOP. END FILE. END INPUT PROGRAM. EXECUTE. Seleccionar todo y presionar el botón Run archivo con el número de casos fijado. o ir al menú: Run > All. Se genera un nuevo Problema Resuelto 2.20. Eficacia de un medicamento Se acepta que cuando una persona desea dejar de fumar, la proporción de éxito es del 20%. Una compañía farmacéutica realiza una prueba acerca de un medicamento para dejar de fumar y obtiene que 12 de 50 fumadores dejan de fumar. a) Si partimos del supuesto de que la proporción de éxito es del 20% y el suceso encontrado por el laboratorio (24%), resulta difícil de obtener en forma aleatoria, resultaría un suceso poco común (página 47) y podríamos concluir que existen evidencias suficientes para considerar la eficacia del fármaco. Realizar una SMC para analizar la eficacia del medicamento. b) Hallar analíticamente y con una SMC, la probabilidad de que en una muestra de 5 personas tomadas de una población de 80% de fumadores, se encuentren 3 F (Fumadores) y 2 N (No fumadores). Este cálculo analítico se profundizará en el capítulo 3. a) SMC 1 Población Se considera N = 2000 y consideraremos que el 20%, es decir los numerados entre 1 y 400, han dejado de fumar voluntariamente. Se realizará entonces una simulación de 100 NAU. 211 III Simulaciones Monte-Carlo SPSS 2 Muestra Se muestreará un tamaño n = 100 casos32. Si en la vista de datos no se cuenta con 100 casos, se deben generar a mano o en forma automática con por ejemplo la sintaxis anterior o con algunas de las que se encuentran en el Apéndice A, Sección IV, Sintaxis. Luego seguir con: Transform > Compute > Random Numbers > Rv.Uniform. Asignarle un nombre, por ejemplo Muestra. Definir los valores mínimo y máximo de la población. Para que se cumpla que n ≤ 5% N , deseamos que los límites se encuentren entre 1 y 2000. Para redondear el resultado, englobar la función entre paréntesis con la palabra RND, con lo cual quedará: (RND(Rv.UNIFORM(0.5,2000.5)) Recodificar Debemos ahora recodificar (capítulo 1, página 54) los números entre 1 y 400 con un solo código (por ejemplo1 = F de fumadores) y los números entre 401 y 2000 con otro código (por ejemplo 2 = N de No Fumadores)33. En la figura 2-45, se muestra la variable MuestraR con este contenido. Figura 2-45 Frecuencias Si se solicita ahora el procedimiento Frecuencias, se obtiene una tabla como la de la figura 2-46. Figura 2-46 3 Repetición Para repetir el procedimiento varias veces, nada mejor que hacerlo con la sintaxis. 32 Esto corresponde a un error de estimación B = 8%, según la ecuación n = 4 pq que se estudiará en el B2 capítulo 5. 33 Observar la utilización de las frecuencias acumuladas como parte del proceso. Esto será justificado en el capítulo 3. 212 Jorge Carlos Carrá Capítulo 2 Probabilidades Procedimiento 1 Copiar la sintaxis que se genera en el visor para cada procedimiento y copiar luego este código en una ventana de sintaxis con File > New > Syntax. Si se desean reunir códigos, copiarlos sucesivamente (puede hacerse en la misma ventana o en Word) y borrar los códigos no deseados. Se obtendrá entonces el siguiente código (los comentarios que siguen a los asteriscos y los nombres de las variables, son a elección del usuario). *Obtención de los NAU. COMPUTE Muestra =rnd(RV.UNIFORM(0.5,2000.5)). EXECUTE. *Obtención de la recodificación. RECODE Muestra (1 thru 400=1) (401 thru 2000=2) INTO MuestraR. EXECUTE. *Obtención de la frecuencia. FREQUENCIES VARIABLES=MuestraR /ORDER=ANALYSIS. Procedimiento 2 El procedimiento anterior exige correr a mano varias veces la sintaxis. Sin embargo esto puede automatizarse aún más, puesto que el SPSS permite generar nuevas variables (en realidad una variable vector) con un comando llamado DO REPEAT. Si desea experimentarlo escriba la siguiente sintaxis en una ventana nueva de sintaxis (puede copiarla y pegarla del archivo sintaxis.txt que se encuentra en la Base de Datos). Se observa que este comando solo requiere 2 sentencias, DO REPEAT antes de los procedimientos (en este caso Compute y Recode) y END REPEAT para finalizar y un solo EXECUTE al final. *Generación de la variable vector. DO REPEAT v=v1 to v5. *Generación de los NAU. COMPUTE v =rnd(RV.UNIFORM(0.5,2000.5)). *Recodificación en la misma variable. RECODE v (1 thru 400=1) (401 thru 2000=2) INTO v. END REPEAT PRINT. EXECUTE. *Procedimiento frecuencias. FREQUENCIES VARIABLES=v1 to v5 /ORDER=ANALYSIS. Esta sintaxis genera automáticamente 5 variables, las carga con NAU, las recodifica y finalmente manda al visor la tabla de frecuencias para cada una. En lugar de generar 5 variables puede elegir el número que desee, por ejemplo 20, cambiando v5 por v20. El comando PRINT (opcional) permite que aparezca en el visor información de lo ejecutado, paso por paso. Conclusiones Los resultados numéricos variarán con cada simulación, pero si se repite el proceso suficiente cantidad de veces (no menos de 10), probablemente se obtenga un valor de frecuencias igual a 24 o mayor, solo en alguna de ellas. Dado que resulta así un evento poco común, se concluiría que no existen evidencias firmes acerca de la eficacia del nuevo fármaco. No es difícil calcular por RM la probabilidad de que, en la muestra de 100, aparezcan exactamente 20 casos o más de 24 casos (este cálculo se hará en forma sistemática en el capítulo 3, como parte de una distribución binomial). Los resultados son 0.100 y 0.189, respectivamente. De aquí que si se realizan 10 repeticiones, es probable que solo alrededor de 2 de ellas, presenten más de 24 casos. b) Analíticamente ( 0.8 3 * 0.22 ) P5(2,3) = 0.205 213 III Simulaciones Monte-Carlo SPSS SMC Generamos 5 columnas similares al punto a) y contamos cuantos caso tienen 3 N y 2F. El proceso se simplifica codificando con 0 y 1 a N y F respectivamente. De esta forma generando una variable Suma de las 5 columnas, podemos contar cuantas tienen una suma igual a 3 (procedimiento Frequencies). El resultado se aprecia en las siguientes figuras. Figura 2-47 Figura 2-48 Se observa que el resultado de la simulación es 20.4% cercano al 20.5% teórico. Problema Resuelto 2.21. Dado normal-1 Se lanzará un dado 120 veces y se confeccionará su distribución de frecuencias (histograma), considerando como valores de x a cada uno de los posibles resultados. Figura 2-49 Dado En lugar de arrojar el dado, decidimos realizar una SMC con el SPSS. 214 Jorge Carlos Carrá Capítulo 2 Probabilidades SMC 1 Población Abrir un archivo nuevo: File > New > Data. Crear 120 casos dentro del archivo. Luego continuar con: Transform > Compute > rnd(RV.UNIFORM(0.5,6.5)). Colocar un nombre a la nueva variable que se generará, por ejemplo: muestra > OK 2 Muestra De forma simulada, finalmente se han conseguido 120 lanzamientos incorporados a la planilla SPSS. 3 Repetición Se repite el procedimiento para un número grande de tiradas, por ejemplo: 240 veces, 1200 veces, 2400 veces, 24000 veces o cualquier número superior que se desee. Diagramas y tablas Se observará que al aumentar el número de lanzamientos, la distribución de frecuencias tiende a una forma rectangular con todas las barras de altura igual a la frecuencia relativa: f = 1 6 En la figura 2-50 se observa el diagrama de barras de esta distribución empírica para 10000 casos. Nota Si repetimos la experiencia anterior pero ahora con un dado de madera casero, no tendremos una frecuencia relativa esperada previa (como 1/6), con la cual comparar los resultados, pues dependerá de la construcción del dado. En realidad nosotros estaremos construyendo dicha referencia en base al resultado observado de la experiencia. El valor (previamente desconocido) hacia el cual convergerán los resultados de la experiencia, será la única referencia válida para hacer previsiones sobre el futuro comportamiento de ese dado en particular. Naturalmente tampoco puede hacerse una simulación con computadora en este caso, pues se desconoce una distribución teórica a priori. 215 III Simulaciones Monte-Carlo SPSS Figura 2-50 Lanzamiento de un Dado 10000 veces Problema Resuelto 2.22. Dado normal-2 En este apartado consideramos nuevamente un dado normal equilibrado pero en lugar de fijarnos en todas las caras de un dado, nos concentraremos en solo una de ellas, por ejemplo la que tiene el número 2. SMC 1 y 2 Población y Muestra Estudiaremos el comportamiento de la frecuencia relativa del 2 al tirar 100 veces sucesivas el dado. La columna de resultados se obtiene como se indicó en el problema resuelto Dado normal-1. 3 Repetición Lanzaremos el dado 1000 veces y repetimos lo anterior. Completamos la experiencia hasta obtener por lo menos 11 réplicas con 1000 lanzamientos adicionales en cada una, es decir: 2000, 3000, ...10000. Como alternativa a la secuencia de lanzamientos con varias variables, podría simularse un solo lanzamiento de 10000 tiradas (o el número que se desee) y luego ir seleccionando de 0 a 100, de 0 a 1000, etc con Select Cases > Based on time or case range… 216 Jorge Carlos Carrá Capítulo 2 Probabilidades Dado que SPSS mantiene las opciones del último procedimiento solicitado, solo será necesario efectuar muy pocos cambios en las sucesivas reiteraciones facilitándose el proceso. Hacer uso también de los botones de la barra de herramientas. Un procedimiento aún más automático es utilizar el botón Paste de la ventana de cada procedimiento, para generar el código en una ventana de Sintaxis. Luego solo se deberá cambiar la cantidad de lanzamientos en dicha ventana y ejecutar la sintaxis para cada cambio (seleccionando todo y presionando el botón Run ). Diagramas y tablas Para obtener el número de veces que salió el 2, veamos algunas alternativas: • Diagrama de tallo y hojas. • Procedimiento frecuencias: tiene la ventaja de dar directamente la frecuencia relativa. Confeccionar finalmente un tabla con las frecuencias relativas de cada una de las 11 réplicas y obtener a partir de ella, un diagrama de líneas (figura 2-51) con el número de lanzamientos en abscisas y la frecuencia relativa de cada serie de 100, 1000, 2000, ..., en ordenadas. Figura 2-51 Frecuencia relativa del número 2 Sugerencias Preparar la tabla en 2 columnas de la vista de datos, una con el número de lanzamientos y otra con la frecuencia. • Usar el procedimiento reportes (Case Summaries) visto en el capítulo 1, para esas columnas y luego solicitar el gráfico desde la tabla con un doble clic para activarla, sombrear los valores deseados y luego con clic derecho > Create Graph > Line. • Alternativamente utilizar Weight Cases, para ponderar con las columnas de las frecuencias. Luego obtener un gráfico de líneas de las 11 réplicas. Se puede apreciar que las oscilaciones de la curva tienden hacia el valor estable siguiente, lo cual se justifica por la LGN. f = 1 6 217 III Simulaciones s M Monte-Carlo SPSS Prob blema Reesuelto 2..23. Paseo por el casino c Ampliaaremos los concceptos aprendidos en el juegoo con un dado normal, n al jueggo de la ruleta. En esta actividdad utilizareemos una ruletta europea com mo la de la figurra 2-52, es deccir la que tiene números del 1 al 36 (18 rojos, 18 negrros y el 0 de co olor verde). Estta ruleta se difeerencia de la am mericana, puess ésta tiene tam mbién un doble 0. F Figura 2-52 Ruleta SMC Simularr 500 tiradas dee la bola y lueg go repetir para 1000 tiradas y para 50000. L Llamar Ruleta a la nueva variablee. Diag gramas y tablas a) De e plenos (re esultados numéricos n ) En la figura 2-53, se muestra m el diag grama de barrass de los plenoss. El diagrama dde barras esperrado mostraría 37 barras iguales i con unaa frecuencia relativa de 1/37. Si se ju uega a pleno, ell casino paga 36 veces la apuesta. ¿Puede annticiparse al caapítulo 3 y estaablecer por quéé es un buenn negocio tenerr un casino? 218 Jorge e Carlos Carrrá Capítulo 2 Probabilidades Figura 2-53 Pleno (50000 veces) b) De color En la figura 2-54 se muestra el diagrama de barras para el resultado color (rojo, negro o cero (verde)). Sugerencia Para recodificar cada uno de los números de la variable Ruleta en negro, rojo o verde, según corresponda, seguir el siguiente procedimiento. Puesto que el programa solo acepta la recodificación en otra variable del mismo tipo (numérica o de cadena), llamamos 1 al negro, 2 al rojo y 3 al verde. Luego podremos etiquetar a la variable con las palabras negro, rojo y verde. Veamos por ejemplo la recodificación a color de los resultados de plenos iguales al valor 2 de la variable Ruleta. Transform > Recode Into different variables > colocar en la caja de texto la variable Ruleta y definir el nombre de la nueva variable, por ejemplo Color > Old and new values > (Old Value) Value = 2 > (New Value) Value = 1 > Add. Repetir para el resto de los 36 números (mirar el color de cada uno en la figura 2-52) > Continue. Dar un nombre a la nueva variable, por ejemplo color, > Change > OK. Para etiquetar los valores de esta variable con el nombre del color, abrir la vista variables y colocar el nombre del color en la columna values presionando el botón del cuadro de texto. No olvidar codificar la variable como ordinal. El diagrama de barras tiende ahora hacia los valores: 1/37 para el cero y 18/37 para colorado y negro. 219 III Simulaciones Monte-Carlo SPSS Figura 2-54 Color (50000 veces) c) De pares–impares En la figura 2-55 se ha obtenido el diagrama de barras para pares e impares. Llamemos ParImpar a la nueva variable. Sugerencia Para recodificar rápidamente los pares, impares y el cero, seguir el camino siguiente (justificar luego el razonamiento): Transform > Compute > escribir ParImpar en Target Variable > Mod(Ruleta,2) + 2 > If Colocar la condición: Ruleta~=0 (significa distinto de 0) > Continue > OK. Se observa que los 0 de la ruleta son considerados missing (perdidos). Para colocar nuevamente en estos valores perdidos los 0 originales, recodificar con: Transform > Recode > Into Same Variables > colocar la variable a recodificar > Old and New Values > Sistem or used missing > en New value colocar O > Add > Continue > OK. Nota La función módulo devuelve el resto del valor de la variable al dividirla en este caso por el módulo 2. ¿Qué valores codifican a cada una de las 3 categorías? ¿Por qué se suma un número 2 (o cualquier otro) a la fórmula anterior? Si no lo percibe, pruebe solo con Mod(Ruleta,2). El diagrama de barras tiende ahora hacia los valores: 1/37 para el cero y 18/37 para los pares e impares. Diagramas similares pueden obtenerse para las docenas (1°, 2° y 3°) y para menores y mayores. 220 Jorge Carlos Carrá Capítulo 2 Probabilidades Figura 2-55 Pares e Impares (50000 veces) Problema Resuelto 2.24. Pronóstico del tiempo La probabilidad de que en la ciudad llueva (L) un día del año seleccionado al azar es 0.25. El pronóstico es correcto el 60% de los casos en que es de lluvia y el 80% de los casos en que se hacen otros pronósticos. Realizar una SMC para esta situación con una muestra de 1000 días y con ella hallar la probabilidad de que un día haya llovido, si el pronóstico fue correcto. Este es un problema de 2 variables con 2 niveles, Lluvia (V y F) siendo Verdadero cuando llueve y Pronóstico (P y N), siendo Positivo cuando acierta Lluvia34. Para realizar la simulación debemos pensar como generar estas 2 variables experimentalmente, para luego cruzarlas y obtener lo que se desee. El punto de partida es simular la distribución conjunta que se verifica en la tabla de contingencias asociada al árbol, para lo cual primero debemos construir el árbol de probabilidades condicionales. 34 Apreciar que se está usando la convención que asigna una letra a cada variable y no a una sola variable (página 131). 221 III Simulaciones Monte-Carlo SPSS Árbol de probabilidades 0.15 1500 1500.. 0.40 N 0.10 1000 2500 0.80 P. 0.60. 6000 8500 N. 0.15. 1500. 10000 V . 0.75 Frec acum P 0.60 0.25 frec abs F 0.20 Figura 2-56 En las columnas se han colocado los valores conjuntos para 10000 casos y las frecuencias acumuladas, las cuales son parte del proceso de recodificación, como se verá en breve. Tabla de Contingencias La tabla de contingencias equivalente es: Pronóstico P N V 1500 1000 Lluvia F 6000 1500 Figura 2-57 SMC 1 Población Abrir un archivo nuevo: File > New > Data. Una población aleatoria con N = 10000, se genera con Transform > Compute > rnd(RV.UNIFORM(0.5,10000.5)), pero previamente se deben habilitar la cantidad de casos de la muestra en el archivo. 2 Muestra Crear una muestra de 1000 casos (días) dentro del archivo. Luego continuar con: Transform > Compute > rnd(RV.UNIFORM(0.5,10000.5)). Colocar un nombre a la nueva variable que se generará, por ejemplo: muestra > OK. Para que la población presente los porcentajes de las probabilidades conjuntas, VP, VN, FP y FN., se debe recodificar en otra variable, llamada por ejemplo muestraR, para esos niveles. Con una población de 10000 habitantes, se tienen: VP: 1500 VN: 1000 FP: 6000 222 Jorge Carlos Carrá Capítulo 2 Probabilidades FN: 1500 Para realizar la recodificación, se utilizan las frecuencias acumuladas que se observan a la derecha del árbol de probabilidades condicionales. De esta forma las codificaciones surgen rápidamente: VP: entre 1 y 1500, VN entre 1501 y 2500, FP: entre 2501 y 8500 y FN: entre 8501 y 10000. Nota En la recodificación, cada uno de estos niveles de la variable muestraR se podrá codificar como variable numérica: 1, 2, 3 y 4 para luego, con la vista de variables asignarles los nombres correctos a cada uno de los niveles. Otra alternativa más rápida es recodificar directamente con letras creando una variable string (alfanumérica). Para esto se debe tildar previamente el casillero Output variables are strings, que se encuentra en la parte inferior de la ventana. Crear las variables Lluvia y Pronóstico A partir de la variable muestraR, crear estas variables recodificando en distintas variables. Una variable se llamará llamada Lluvia con niveles V (valor nuevo 1 para los valores viejos de muestraR 1 y 2) y F (valor nuevo 2 para los valores viejos de muestraR 3 y 4) y otra será llamada Pronostico con niveles P (valor nuevo 1 para los valores viejos de muestraR 1 y 3) y N (valor nuevo 2 para los valores viejos de muestraR 2 y 4). Con la vista de variables asignar los nombres finales de cada uno de los niveles. Una vista de cómo debería quedar la vista de datos se muestra en la figura 2-58. Figura 2-58 Vista de datos Resultados El cruce de estas variables para una muestra de 1000 días, simulara el árbol (o Tabla de Contingencias) de la población de 10000 días. Figura 2-59 Frecuencias absolutas 223 III Simulaciones Monte-Carlo SPSS Figura 2-60 Perfil dentro Pronóstico El valor del perfil dentro de Pronóstico, permite responder la probabilidad de que un día haya llovido, si el pronóstico fue correcto. Se observa en la tabla que en esta simulación resultó: 19.3%. Obtener el valor teórico (20%) y comprobar así la concordancia con la simulación. 3 Repetición Para repetir el procedimiento varias veces, nada mejor que hacerlo con la sintaxis. Notas 1. Podrían seguirse ahora cualquiera de los procedimientos aptos para tablas de contingencias, como por ejemplo el análisis de la independencia entre ambas variables. 2. Este proceso se extiende a un árbol de más de 2 variables, pero naturalmente, el esfuerzo será mayor. En estos casos, las primeras variables del árbol deben colocarse en las capas de la distribución inicial del procedimiento Crosstabs, dejando las últimas 2 para fila y columna. Como de costumbre (página 191), la penúltima variable del árbol se corresponderá con el perfil que se solicite en la tabla de contingencias. 224 Jorge Carlos Carrá Capítulo 2 Probabilidades Ensayo: ¿Existe Dios? La pregunta de si Dios existe, se encuentra indudablemente asociada a la fe del que la responde. Un creyente (como es mi caso) responderá naturalmente que sí, en tanto que un ateo se pronunciará decididamente por la negativa. En los comienzos del desarrollo de la teoría estadística, en los siglos XVII y XVIII, era común que se utilizaran sus métodos para probar la existencia de Dios. En este ensayo abordaré esta pregunta a la luz de la relativamente reciente Teoría de la Decisión, la cual plantea la existencia de distintos criterios aplicables. Un grupo de ellos se basa solo en utilidades, otro grupo se apoya solo en probabilidades, en tanto que un tercer grupo se basa en la interrelación conjunta de utilidades y probabilidades. Este ensayo se basa solo en probabilidades. El peso de la evidencia. Thomas Bayes ¿Las evidencias físicas influyen en nuestro pensamiento acerca de la existencia de Dios? El físico teórico inglés, Stephen Unwin, editó en el año 2004 un libro al respecto (Unwin, S). Posteriormente en el año 2006, el subdirector de la prestigiosa revista científica alemana PM Magazine, Thomas Vasek, publicó un artículo basado en el libro de Unwin (Vasek. T), cuya portada se muestra en la figura 2E-1. Figura 2E-1 Artículo original En ambos casos se utiliza el Teorema de Bayes, estudiado en este capítulo, configurando un enfoque basado solo en probabilidades (y evidencias). Este teorema fue desarrollado por el religioso y matemático inglés del siglo XVIII, Thomas Bayes 225 Ensayo: ¿Existe Dios? El peso de la evidencia. Thomas Bayes (1702-1761) y publicado (aunque no en forma explícita), después de su muerte en 1763, por su amigo, el matemático Richard Price (Price, R. 1763). Price y posiblemente también Bayes, también estaban motivados por la necesidad de encontrar una respuesta a la existencia de Dios. En este informe he tomado como referencia al artículo más reciente, es decir al de Thomas Vasek. El modelo matemático Se materializa, como ya he puntualizado, por el teorema de Bayes, el cual posibilita actualizar una probabilidad subjetiva, es decir basada enteramente en la creencia del operador, tomando como base a los resultados de la evidencia experimental. Si llamamos a la probabilidad subjetiva, probabilidad anterior y a la resultante del teorema, probabilidad posterior, el esquema conceptual se resume en la figura 2E-2, en donde se aprecia la recursividad del proceso, al aplicar la misma secuencia, una y otra vez. Recorreré a continuación cada uno de los 3 componentes de esta figura. Probabilidad anterior Experiencia Probabilidad posterior Figura 2E-2 Diagrama conceptual Detalles del modelo Definimos 2 eventos: G: Dios existe. E: Evidencia experimental. Por lo tanto serán (el apóstrofo significa negación o complemento): P(G) = probabilidad de que Dios existe (anterior). P(G') = probabilidad de que Dios no existe. P(G') = 1-P(G). P(E|G)= probabilidad de la nueva Evidencia, si Dios existe. P(E|G')= probabilidad de la nueva Evidencia, si Dios no existe. El esquema de árbol de la regla del producto que se asocia a estas probabilidades se muestra en la figura 2E-3: P(E|G) P(G) G E . P(G') P(E|G') G' E. Figura 2E-3 Diagrama de árbol El teorema de Bayes permite obtener P(G|E) = probabilidad de que Dios existe, posterior a la evidencia. La expresión matemática del mismo aplicada a este caso es: P (G | E ) = 226 P ( E | G ) P (G ) P( E ) Jorge Carlos Carrá Capítulo 2 Probabilidades P (G | E ) = P ( E | G ) P (G ) P ( E | G ) P (G ) + P ( E | G ′ ) P (G ′ ) Definimos como factor D a (Stephen Unwin): D= P( E | G ) P( E | G ′ ) El factor D es el peso que se le da a la evidencia. Mide cuanto más probable es que se presente la nueva evidencia E, si Dios existe, en relación a si Dios no existe. Este factor es denominado Indicador Divino por Unwin. Así por ejemplo: D=2, indica que la evidencia es 2 veces más probable de producirse, si Dios existe. D=1, indica una evidencia neutral, igualmente probable de producirse, si Dios existe o no existe. D=0.5, indica que la evidencia es 2 veces más probable de producirse, si Dios no existe. Si reemplazamos D en la ecuación de Bayes, se obtiene la siguiente ecuación final, que llamaré Ecuación de Bayes-Unwin: P (G | E ) = DP (G ) DP (G ) + P (G ′ ) Figura 2E-4 Ecuación de Bayes-Unwin Ya estamos listos para el razonamiento. En síntesis, este modelo matemático solo requiere de 3 componentes: el tipo de evidencia y 2 valores numéricos: el valor de la probabilidad inicial P(G), de que Dios existe y el peso de la evidencia, expresada matemáticamente por el valor del indicador D. Dado que el valor de la probabilidad del resultado de cada nueva experiencia es el valor inicial de la probabilidad para la siguiente, solo se necesita agregar en cada ciclo, el nuevo valor de D, correspondiente a la evidencia que se agrega. El teorema de Bayes forma parte de la teoría de las probabilidades, la cual, como toda teoría matemática, provee herramientas para realizar razonamientos deductivos rigurosos y exactos. Sin embargo usted puede no estar de acuerdo con las evidencias y los valores asignados en el ensayo que sigue a continuación. Si este fuera el caso, puede ajustar libremente estos aspectos y observar el resultado final, con el archivo EXCEL que se menciona al final. Probabilidad subjetiva inicial Tanto Stephen Unwin como Thomas Vasek, parten de asignar una probabilidad subjetiva P(G) de 50% a la existencia de Dios (y por lo tanto de 50% a la no existencia P(G')), lo cual es equivalente a decir que "se parte del desconocimiento total". Aún muchos de los que niegan la existencia de Dios, admiten alguna posibilidad de que exista. Este principio (no compartido por todos los estadísticos), se conoce en la teoría de las probabilidades como "de la razón insuficiente" o "de la indiferencia". Evidencia y Probabilidad posterior Thomas Vasek divide a la evidencia sobre la existencia de Dios, a favor y en contra, en cinco ámbitos, en cada uno de los cuales se debe asignar un valor al factor numérico D (Experiencia en la figura 2E-1), para luego poder obtener la probabilidad posterior a la experiencia, P(G|E) 1. El origen del universo. 2. El orden en el cosmos. 3. La evolución de la vida. 4. La existencia del bien y del mal. 5. Las experiencias místicas y religiosas. Se asume que estas evidencias son independientes, por lo cual el orden es insubstancial. 227 Ensayo: ¿Existe Dios? El peso de la evidencia. Thomas Bayes Evidencia 1: El origen del universo A partir del hecho evidente de que el universo existe, Vasek se formula la pregunta de si esta existencia hubiera sido más o menos posible con o sin la existencia de Dios. Como respuesta, considera que la probabilidad de la existencia de Dios en la creación de algo tan grande y admirable, debe ser al menos dos veces mayor que la probabilidad de que haya surgido de la nada, en forma espontánea. Valor D Asigna D = 2 Si por lo tanto reemplazamos los valores P(G)= 0.5 y D= 2 en la ecuación de Bayes se obtiene una P(G|E) = 67%, con lo que la probabilidad de la existencia de un ser supremo, en virtud de la evidencia fáctica de la creación del universo, aumenta del 50% al 67%. Evidencia 2: El orden en el cosmos Creado el universo, Vasek analiza ahora el orden dentro del mismo. Si las condiciones físicas de nuestro mundo, cambiaran sólo mínimamente, éste colapsaría, lo cual sin embargo, no ha ocurrido. Uno de los tantos ejemplos que pueden citarse, es la constante cosmológica Λ (Teoría General de la Relatividad). Si Λ tuviera un valor levemente distinto al que tiene, el universo o bien se expandiría a una velocidad enorme o bien se contraería sobre sí mismo. En general el mundo físico obedece misteriosamente a determinadas constantes y elige el orden en lugar del caos que podría esperarse, si fuera gobernado por procesos aleatorios. Estas evidencias adicionales promueven la existencia de un diseño inteligente, por lo cual la probabilidad de la existencia de Dios, aumenta aún más. Valor D Asigna D = 2 Si repetimos el cálculo, considerando ahora P(G)= 0.67 y D= 2, obtenemos una P(G|E) = 80%. Evidencia 3: La evolución de la vida La tercera evidencia es la relacionada con la evolución y allí se ven las dos hipótesis como igualmente factibles. Una es que la existencia de Dios explicaría por ejemplo las complejidades del ADN, cuya estructura es tan compleja que es altamente improbable que haya surgido por azar (Teoría de Diseño Inteligente). La otra indica que la presencia de la selección natural, no necesariamente conduce a aceptar la existencia de Dios. Valor D Asigna D = 1 Si repetimos el cálculo, considerando ahora P(G)= 0.80 y D= 1, la probabilidad de que Dios existe no cambia, quedando en el 80%. Evidencia 4: El bien y el mal La evidente posibilidad que tenemos los seres humanos de reconocer el bien, aumentaría la probabilidad de la existencia de Dios, pero es superada por la evidencia en la preponderancia del mal y de las injusticias (como por ejemplo, guerras, torturas, enfermedades, muerte temprana de seres bondadosos, etc). La existencia de estos males es más probable en un universo sin Dios que en uno con Dios. Valor D Asigna D = 0.2 Si repetimos el cálculo, considerando ahora P(G)= 0.80 y D= 0.2, obtenemos una P(G|E) = 44%, por lo cual la existencia del mal le da un duro golpe a la probabilidad de la existencia de Dios. 228 Jorge Carlos Carrá Capítulo 2 Probabilidades Evidencia 5: Las experiencias místicas y religiosas Existen evidencias de que han existido muchas experiencias místicas y religiosas a lo largo de la historia, las cuales, naturalmente favorecen la hipótesis de la existencia de Dios. Valor D Asigna D = 2 Si repetimos el cálculo, considerando ahora P(G)= 0.45 y D= 2, obtenemos finalmente una probabilidad de que Dios exista, dada la evidencia, del 62%. Stephen Unwin (Unwin, S, pag 167) postula finalmente que la creencia total en la proposición G (Dios existe), se produce esencialmente por tres factores complementarios: una probabilidad razonada (en este caso, el 62% anterior), la fe y quizá un menor factor de duda. De esta forma, para llegar al total del 100%, la creencia en Dios requiere, para Vasek, de un 38% adicional, el cual deberá ser originado esencialmente por la fe. Un archivo EXCEL para que el lector pueda obtener interactivamente los valores de P(G), a partir de su propia visión, puede abrirse o descargarse en la dirección que figura en la bibliografía (ExisteDios.xls). Hasta aquí el ensayo, acerca del cual se pueden formular algunos interrogantes: • ¿Tiene la fe religiosa algún punto de contacto con la evidencia o con la decisión? • ¿Deben considerarse a las muertes "injustas", dentro de un contexto más universal que pondera otras evidencias? • ¿Existe subjetividad en los factores y/o números utilizados? • ¿Es la existencia de Dios científicamente demostrable? Queda para el lector la interpretación y opinión acerca de cada uno de estos puntos, lo cual se sumará, ya sea a favor o en contra, a la discusión general que este tipo de enfoques despierta. 229 Ensayo: ¿Existe Dios? El peso de la evidencia. Thomas Bayes 230 Jorge Carlos Carrá Capítulo 2 Probabilidades Ensayo: La ley de Gompertz Esta ley, a la que nadie puede evadir, fue descubierta en 1825 por el matemático holandés Benjamín Gompertz (1779-1865). No importa quienes seamos ni cuál es nuestro estado socio económico y cultural. Aproximadamente cada 8 años, nuestra probabilidad de morir se duplica. Para detallar la expresión matemática de la ley y corroborarla con los datos experimentales, dividiré este ensayo en 2 partes: 1. Datos estadísticos experimentales 2. La ley de Gompertz 1 Datos estadísticos experimentales Una de las informaciones que resultan de los censos, son las Tablas de Mortalidad, de las cuales puede extraerse, para varones y mujeres, las probabilidades de vivir o morir para determinada edad. Una de tales tablas se encuentra en el archivo Mortalidad.sav, la cual fue descargada del sitio de Seguridad Social de los Estados Unidos, datos actualizados al 2006 (ver Social Security Administration en la bibliografía). La primera columna contiene la edad x y la segunda el número de personas sobrevivientes, l x (living a la edad x)35 tanto para varones V como para mujeres M. La forma de la curva lx = f ( x) es sigmoidal (con forma de S), como puede apreciarse en la figura 2E-4. 35 Pueden usarse paréntesis en lugar de subíndices. 231 Ensayo: La ley de Gompertz El peso de la evidencia. Thomas Bayes Figura 2E-4 En base a estos 2 datos, x y lx, construiremos 4 indicadores de importancia para las compañías de seguros, obras sociales e instituciones financieras. Probabilidad de vida px ¿Cuál es la probabilidad px de que una mujer de x = 40 años esté viva a la edad de x = 60 años? A la edad de 40 hay 97564 mujeres de las 100000 iniciales. A la edad de 60 hay 91109 vivas. Por lo tanto, px = 91109 = 0.933 97564 Probabilidad de muerte qx ¿Cuál es la probabilidad qx de que una mujer de 40 esté muerta a la edad de 60? El número de casos favorables es la cantidad de muertes entre 40 años y 60 años. qx = 97564 − 91109 6455 = = 0.067 97564 97564 Naturalmente: px + qx = 1 La gráfica de qx en función de lx, para Varones, se muestra en la figura 2E-5. Se observa que la probabilidad de muerte sigue un crecimiento de tipo exponencial. 232 Jorge Carlos Carrá Capítulo 2 Probabilidades Figura 2E-5 Nota En la tabla que se obtiene de la seguridad social, se encuentra una columna llamada dx, la cual contiene las diferencias entre un año y el posterior. d x = lx − lx +1 Estas diferencias podrían generarse con el SPSS con: Transform > Create Time Series > Differences of orden 1. Funciones biométricas Son los siguientes 2 indicadores: • Esperanza de vida, Ex • Duración de Vida Mediana, DVMx Esperanza de vida Ex Indica, en promedio, cuanto espera vivir una persona de determinada edad. Se calcula como el cociente entre el número Tx de personas-años vividos desde la edad x hasta que todos los miembros del grupo han muerto, dividido por el número de personas lx vivas a la edad x. Ex = Tx lx donde: Tx = ∑ Lx Lx = lx +1 + 0.5d x Lx es el número total de personas-años que vive el grupo desde la edad x a la edad x+1. Este valor es la suma de 2 partes: las personas que viven un año completo desde el año x, es decir lx+1 y la mitad de los que mueren entre x y x+1. Este último término asume que la distribución de las muertes es uniforme a lo largo del año y por lo tanto este grupo vive en promedio 0.5 años. 233 Ensayo: La ley de Gompertz El peso de la evidencia. Thomas Bayes El cálculo de Tx se puede simplificar notando que: 1 Lx = (lx − lx +1 ) + lx +1 2 1 Lx +1 = (lx +1 − lx + 2 ) + lx + 2 2 ... Al sumar para obtener Tx quedará finalmente: 1 1 Tx = lx + lx +1 + lx + 2 + ... lx + n 2 2 Estos valores se encuentran en la variable Ex de la tabla de mortalidad, tanto para varones como para mujeres. Así para un varón de 30 años, E30 = 46.89 años, lo cual indica que en promedio vivirá hasta los 30+46.89 = 76.89 años. En los medios periodísticos se suele publicar la esperanza de vida para el año 0, es decir al nacer, las cuales son, según estos datos: E0 = 75.10 años para los varones y E0 = 80.21 años para las mujeres. Si se desearan calcular estos valores con el SPSS, se puede utilizar el procedimiento Data > Aggregate y utilizar la función suma. Previamente se deberá preparar una variable por la cual agregar, que tenga un nivel común para los casos que deben sumarse (desde la edad x hasta el final. Nota A partir de Lx se define también la tasa de mortalidad mx como: mx = dx Lx Observando la expresión de mx y la de qx, se desprende que este indicador es siempre algo mayor que la probabilidad de muerte, qx. Duración de Vida Mediana, DVMx Es el número de años para que aproximadamente la mitad de los individuos se encuentren vivos. Encontrar la DVM para un varón de 30 años, es decir DVM30. Existen 97079 varones de los 100000. La mitad de esta cifra es 48539. Buscar el valor más cercano para encontrar la edad que corresponde a esta cifra, la cual es alrededor de 81 años. Es decir que a la edad de 81 años, alrededor de la mitad de los varones de 30 años todavía viven. Finalmente la DVM30 = 81–30 = 51 años36. Se han propuesto varias fórmulas matemáticas para predecir los valores de supervivencia lx. Entre ellas se encuentra el modelo de Gompertz. 2 La ley de Gompertz Esta función genera una de las tantas funciones sigmoidales. Otras sigmoidales utilizadas en otros contextos son: arctan, arcth, función logística, CDF de la distribución normal o de PDFs en forma de campana (ver capítulo 3), funciones como 36 x 1 + x2 , etc. Interpolando se obtiene 80.51 años y por lo tanto: DVM30 = 50.51 años. 234 Jorge Carlos Carrá Capítulo 2 Probabilidades Modelado del crecimiento de poblaciones y = f ( x) = aebe cx Esta es la ley de Gompertz con una exponencial dentro de otra exponencial, lo cual refleja un comportamiento super exponencial. Cuando los parámetros se ajustan a la serie de datos, con e = base de los logaritmos neperianos, resultan b y c negativos, lo cual genera una sigmoide creciente. Modelado de la mortalidad En este ensayo utilizaremos el formato siguiente: l = l ( x) = ag c x Cuando los parámetros (incluida la base g), se ajustan a la serie de datos, g resulta menor a 1 y la sigmoide es decreciente. En este formato, los 3 parámetros; a, g y c se determinan en el proceso de ajuste a los datos. Ajuste a los datos Ajustaremos esta función a los datos del archivo Mortalidad.sav y luego comprobaremos, al menos visualmente, la bondad del ajuste (capítulo 1 y capítulo 5). 1 Tomamos logaritmos a la función Tomamos logaritmos de la función para 3 casos arbitrarios de la base de datos, distanciados un valor t: log lx = log a + c x log g log lx +t = log a + c x +t log g log lx + 2t = log a + c x + 2t log g 2 Formamos las diferencias de orden 1 Se definen las diferencias de orden 1 como la resta del valor que está abajo en la columna, menos el que está arriba. Δ log lx = (c x − c x +t ) log g = c x (ct − 1) log g Δ log lx +t = (c x +t − c x + 2t ) log g = c x +t (ct − 1) log g Dividiendo la segunda ecuación por la primera: Δ log lx + t = ct Δ log lx De donde se despeja c. Luego con las ecuaciones del paso 2 se despeja g y de cualquiera de las expresiones del paso 1, hallamos a. Experiencias indican que el ajuste de la ley de Gompertz a los datos es importante para edades mayores a los 25 años, luego de los riesgos de la mortalidad infantil. Para ajustar nuestra base de datos a las 3 constantes de la ley, consideramos los valores de varones correspondientes a l30, l60 y l90 (es decir t = 30), de los cuales resulta la tabla de la figura 2E-5. x l log Δ 30 97079 4.987125 -0.05757 60 85026 4.929552 -0.67575 90 17939 4.253798 Figura 2E-5 235 Ensayo: La ley de Gompertz El peso de la evidencia. Thomas Bayes De estos valores se obtienen las 3 constantes (se deja el cálculo al lector): c = 1.0856 g = 0.998949 a = 982850 La función de Gompertz resulta, por lo tanto: l = l ( x) = ag c = 98285*0.9989491.0856 x x Se genera esta función en el SPSS. La gráfica de la figura 2E-6, muestra la función de Gompertz en función de la edad x. Figura 2E-6 Se aprecia que la gráfica real (figura 2E-4) sigue marcadamente a la simulada con la función de Gompertz. Si se crea un gráfico de dispersión entre la variable lx real y la simulada, se obtendrá el diagrama de la figura 2E-7, observando nuevamente una marcada correlación. 236 Jorge Carlos Carrá Capítulo 2 Probabilidades Figura 2E-7 Probabilidad de morir Hemos visto que la probabilidad de muerte qx, se calcula realizando las diferencias entre los valores de lx y lx+1 y dividiéndo por lx. Pasando al caso contínuo, esto equivale a obtener (cambiando el signo para obtener las diferencias en el orden (inicial – final)): qx = − l' l Realizando las operaciones, el lector podrá obtener: qx = − l' = −kc x l siendo k = ln g *ln c = −8.63541E − 05 . Por lo tanto: q x = 0.8.635 E − 05*1.0856 x En la figura 2E-8 se muestra la gráfica de la probabilidad de muerte qx en función de la edad x, dada por la ley de Gompertz, anteriormente obtenida. 237 Ensayo: La ley de Gompertz El peso de la evidencia. Thomas Bayes 2E-8 Como se observa, la ley de Gompertz para la probabilidad de morir en el año siguiente, tiene ahora la forma de una exponencial creciente. Una conocida propiedad de las exponenciales es que convierten una sucesión aritmética en la variable independiente en una sucesión geométrica en la variable dependiente. Para las exponenciales crecientes suele ser de interés conocer cada cuanto de la variable independiente se duplica la variable dependiente, valor llamado tiempo t2de duplicación37. El tiempo de duplicación se obtiene fácilmente de: qx = kc x1 2qx = kc x2 Dividiendo miembro a miembro: 2 = c Δx1 y finalmente: Δx = ln 2 ln 2 = ≈ 8.4 ln c ln1.0856 Es decir que aproximadamente cada 8 años, la probabilidad de muerte se duplica. Si usted es varón y tiene 40 años, obtiene de la tabla de mortalidad una probabilidad de morir en el próximo año de 0.0023 (aproximadamente 1 en 400). Dentro de aproximadamente 8 años, su probabilidad de morir en el año siguiente será de aproximadamente 1 en 200 y así sucesivamente. Cuando llegue a los 80 años, la probabilidad de morir a los 81 años será de 1 en 15 y 8 años después será de 1 en 7. La probabilidad de morir crece exponencialmente y la supervivencia decrece super exponencialmente. Datos de la década 1901-1910 Es instructivo aplicar las ecuaciones anteriores para otra serie de datos suficientemente separada de la anterior (2006). En el libro del profesor Knopf (Knopf Otto, 1948, página 219), se encuentra una tabla de mortalidad correspondiente a Alemania para la primera década del siglo 20, por lo cual 37 Para las exponenciales decrecientes se define en forma análoga el tiempo de vida t1/2 como el tiempo para el cual el valor de la variable dependiente se divide por 2. 238 Jorge Carlos Carrá Capítulo 2 Probabilidades resulta excelente para realizar el contraste. De la misma se extraen los siguientes datos correspondientes, en este caso, a una base de 10000 personas en el año 0. x l log Δ 30 6709 3.826658 -0.18508 60 4381 3.641573 -1.80906 90 68 1.832509 Figura 2E-9 De estos valores se obtienen las 3 constantes (se deja el cálculo al lector): c = 1.078953 g = 0.995043 a = 7042 La función de Gompertz es, por lo tanto: l = l ( x) = ag c = 7042*0.9950431.078953 x x La gráfica es la que se muestra en la figura 2E-10. Figura 2E-10 Probabilidad de morir en el año siguiente qx = − l' = −kc x l Donde: k = ln g *ln c = −000377623 . Por lo tanto: q x = 0.000377623*1.078953x 239 Ensayo: La ley de Gompertz El peso de la evidencia. Thomas Bayes La gráfica es la que se muestra en la figura 2E-11. Figura 2E-11 Tiempo de duplicación Δx = ln 2 ln 2 = ≈ 9.12 ln c ln1.078953 Es decir que, para esta época y país, aproximadamente cada 9 años, la probabilidad de muerte se duplicaba. ¿Por qué se cumple la ley de Gompertz? Mientras el tiempo de duplicación cambia un poco de país a país, de acuerdo a la época o a la especie, la regla general se mantiene: la probabilidad de morir se duplica aproximadamente cada X años. Es un hecho sorprendente que sea tan válida en la actualidad como en 1825, lo cual indica que está gobernada por algo intrínseco a nuestros cuerpos y no por el entorno, la época o los adelantos tecnológicos. Debido a esto se han ensayado diversas explicaciones relacionadas con la debilidad de nuestras defensas a lo largo de los años y al efecto acumulado de daños en nuestros organismos. Este ensayo solo intenta ser un disparador de la curiosidad y se invita al lector a investigar por Internet, acerca de las distintas explicaciones de esta curiosa (y lamentable) ley. 240 Jorge Carlos Carrá Capítulo 2 Probabilidades Problemas Probabilidades I Valor de P(A) 1. Dados de distintos colores Se tiran 3 dados, uno rojo, otro negro y uno azul. a) Comprobar la siguiente tabla teórica, en donde S es la Suma de los resultados, nF(2D) es el Número de casos Favorables considerando solo 2 dados y nF(3D) es el Número de casos Favorables para 3 dados, (en el capítulo 3 esta tabla se llamará histograma de probabilidades). Las sumas restantes no se colocaron pues son simétricas respecto de las existentes. Así ´por ejemplo para 2 dados, la cantidad de casos favorables para obtener S = 6 y S = 8 es la misma y sucede lo mismo con todos los totales que suman 14. En el caso de 3 dados sucede lo mismo si los totales suman 21. ¿Por qué sucede esto? Considerar solo el dado rojo y el negro y resolver por enumeración38. a) Hallar la probabilidad de que la suma sea menor de 7 puntos, b) que la suma sea menor o igual a 4, c) que el valor del dado rojo sea mayor que el del negro, d) que el valor absoluto de la resta entre el rojo y el negro, sea mayor o igual a 3, e) que el rojo sea 2 y el negro sea 5, f) que la suma sea par. Considerar los 3 dados. Hallar la probabilidad de que: g) la suma sea mayor de 15 puntos, h) se obtengan tres caras con el número 5. S 2 3 4 5 6 7 8 9 10 nF (2D) 1 2 3 4 5 6 nF (3D) – 1 3 6 10 15 21 25 27 R: a) 5/12, b) 1/6, c) 15/36, d) 1/3, e) 1/36, f) 1/2, g) 5/108, h) 1/216. 2. Sala de consulta Tres pacientes acuden a consulta externa en una clínica, eligiendo al azar entre 2 salas de consulta. Cuál es la probabilidad de que, a) la sala A reciba por lo menos un paciente, b) la sala B reciba exactamente dos pacientes. R: a) 7/8, b) 3/8. 3. Cumpleaños Esta probabilidad desafía la intuición por su valor extrañamente alto. Calcular la probabilidad de que, cuando se seleccionan 25 personas al azar, al menos 2 cumplan años el mismo día. R: 0.569. 4. Helados Susana, Graciela y Patricia van a una heladería en la cual hay 4 helados distintos, A, B, C y D. Si cada una compra un helado distinto al azar, hallar la probabilidad de que a) Susana compre el helado A y Graciela el B, b) el helado D no sea comprado. Si cada una compra un helado al azar, 38 La solución del problema de la suma por análisis combinatorio y binomio de Newton, fue publicada por primera vez por Abraham De Moivre en 1730 y se conoce como problema de De Moivre. 241 Problemas Probabilidades hallar la probabilidad de que: c) Susana y Graciela compren el helado A, d) dos cualquiera de las chicas compren el helado A. R: a) 0.083, b) 0.25, c) 0.0625, d) 0.15625. 5. Fila del cine Tres parejas salen al cine y se sientan al azar en una fila, uno al lado del otro. Calcular las probabilidades de los eventos: a) A: que se sienten juntos los hombres, b) B: que se sienten juntos los hombres y juntas las mujeres, c) C: que a una pareja concreta no les toque juntas. R: a) 0.2, b) 0.10, c) 0.66. II Teoría de las probabilidades 6. Referéndum En un referéndum por SI o por NO se obtiene en una ciudad con 4 partidos políticos A, B, C y D, la siguiente tabla de probabilidades conjuntas: Si No Total 7. 8. 9. 10. 11. 242 A B C D Total 0.15 0.25 0.12 0.08 0.25 0.05 0.08 0.02 Se elige una persona al azar. Hallar la probabilidad de que a) haya votado SI, b) sea del partido C, c) haya votado SI sabiendo que es del partido D, d) hallar las 30 probabilidades condicionales, dibujar los diagramas de árbol, directo e inverso y verificarlos con el SPSS, e) ¿qué eventos son independientes?, f) determinar si son independientes los eventos: SI, C y SI, B, g) determinar P(AoB), h) P(SIoC), i) P(SIyD'), j) P(SIoD'), k) P(SI'yA'). R: a) 0.6, b) 0.2, c) 0.8, e) SI y C; NO y C, f) independientes, dependientes, g) 0.70, h) 0.68, i) 0.52, j) 0.98, k) 0.15. Consejeros y asistentes En el consejo de la ciudad hay 25 consejeros y 10 asistentes. Si se forman comités de 8 personas, ¿Cuál es la probabilidad de que contengan 5 consejeros y 3 asistentes? R: 0.271. Caras y secas Se tira una moneda cinco veces, hallar la probabilidad de, a) obtener 3 caras C y 2 secas S, b) obtener 3 caras y 2 secas si sabemos que salió seca en el primer tiro, c) que la primer cara aparezca recién en el quinto tiro. Interpretar estos resultados en el caso de que C simule el nacimiento de un varón y S simule el nacimiento de una mujer. R: a) 0.3125, b) 0.25, c) 0.03125 Senadores Un grupo de 50 senadores es elegido al azar entre un total de 100. Determinar la probabilidad de que: a) los dos senadores de una provincia estén entre los elegidos, b) ninguno de los senadores de esa provincia esté entre los elegidos. R: a) 0.2475, b) 0.2475. Esferas de distintos colores Una caja contiene 8 bolas rojas, 3 blancas y 9 azules. Se extraen 3 al azar. Hallar la probabilidad de que a) las 3 sean rojas, b) las 3 sean blancas, c) sean 2 rojas y 1 blanca, d) sean 1 de cada color, e) al menos 1 sea blanca, f) sean extraídas en el orden roja, blanca y azul: 1) sin reemplazo, 2) con reemplazo, g) la tercera sea roja dado que las 2 primeras fueron azules. R: a) 14/285, b)1/1140, c) 7/95, d) 18/95, e) 23/57, f) 3/95, 27/1000, g) 4/9. Disyunción e independencia Si P(A) = 0.300 y P ( A ∪ B) = 0.900 , hallar analíticamente y gráficamente (tabla de contingencias y/o árbol) los valores de P(B), PA|B), P(B|A) y analizar la dependencia si: a) A y B son disjuntos, b) si A y B son independientes; c) si P(B|A) = 0.100, d) si P(A|B) = 0.100. R: a) 0.600, 0, 0, dependientes, b) 0.857, 0.300, 0.857, independientes, c) 0.630, 0.0476, 0.100, dependientes, d) 0.667, 0.100, 0.223, dependientes. Jorge Carlos Carrá Capítulo 2 Probabilidades 12. Familia de 3 hijos En una familia de 3 hijos, hallar la probabilidad de que sean 2 niños y 1 niña, suponiendo iguales las probabilidades de niño y niña. R: 3/8. 13. El problema de Monty Hall El problema de Monty Hall es un problema de probabilidad inspirado por el concurso televisivo estadounidense Let's Make a Deal (Hagamos un Trato), que fuera conducido por el presentador, Monty Hall. Un participante P elige una puerta entre tres y el premio consiste en lo que se encuentra detrás. Una de ellas oculta un vehículo V y tras las otras dos hay una oveja O. Antes de abrir la puerta, Monty, que sabe dónde está el premio, abre una de las puertas que P no eligió y muestra que detrás de ella hay una oveja. El participante tiene la opción de quedarse con la primera elección o cambiar a la otra puerta cerrada. ¿Qué le conviene? ¿Hay alguna diferencia? Sugerencia: realizar un árbol de probabilidades con 3 ramas para cada una de las opciones. Adicionalmente puede jugar en línea yendo a la dirección Monty Hall que se encuentra en las Simulaciones de la Bibliografía, o abrir la simulación en EXCEL que se encuentra en ese mismo lugar. R: sin cambiar: 1/3, cambiando: 2/3. 14. Decisión de gastos Una compañía decide al principio de mes si gastará $100 o $200 en publicidad. La decisión la toma en forma independiente y al azar. Hallar la probabilidad de que en 3 meses consecutivos, a) gaste $500 o más, b) gaste $100 en cada mes. R: a) 0.5, b) 1/8. 15. Sistema de seguridad El sistema de seguridad de un tipo de ascensor tiene 2 controles automáticos conectados en serie. Uno lo detiene en el próximo piso y el otro abre la puerta. La probabilidad de que cada sistema funcione correctamente es 0.99 (llamada confiabilidad, pagina 190). Hallar la probabilidad de que, a) ninguno de los 2 funcione, b) solo uno de ellos funcione, c) ambos funcionen, d) el sistema completo funcione. e) Dibujar un árbol de probabilidades e indicar las ramas que corresponden al sistema funcionando. R: a) 0.0001, b) 0.0198, c) 0.9801, d) 0.9801. 16. Sistema de seguridad Al sistema del problema anterior, se le agrega un par adicional en paralelo para aumentar la confiabilidad. Responder las preguntas pero referidas en este caso a los “pares”. Complementariamente dibujar el árbol de probabilidades. R: a) 0.00039601, b) 0.03900798, c) 0.96059601, d) 0.99960399. 17. El gato y el ratón Un ratón que escapa de un gato puede entrar por uno de tres caminos, A, B o C con las probabilidades P(A) = 0.3, P(B) = 0.5 y P(C) =0.2. Las probabilidades de alcanzarlo en cada uno de los tres caminos son: 0.6, 0.4 y 0.1 respectivamente. Si vemos al gato llegar con el ratón en las fauces. a) ¿En cuál de los 3 caminos lo habrá cazado? No lo sabemos pero podemos calcular cual de los 3 caminos es el que ofrece mayor probabilidad de que el ratón termine sus días. ¿Cuál es? b) Graficar la distribución a priori P(Alcanzó) y la distribución a posteriori P(Alcanzó|Camino = B). c) Determinar si las variables Camino y Cazar, se encuentran asociadas. Utilizar el indicador más adecuado de acuerdo al tipo de variable en estudio. Considerar n = 100. Resolver con el SPSS. R: a) B, 0.500. b) 0.333. 18. Inspección completa de artículos defectuosos Cuando los artículos llegan al final de una línea de producción, un supervisor elige al azar los que van a pasar por una inspección completa. 10% de todos los artículos son defectuosos, 60% de los defectuosos y 20% de los buenos pasan por una inspección completa. Hallar las probabilidades de que: a) pase por la inspección, b) pase por la inspección dado que es defectuoso, c) sea defectuoso dado que pasó por la inspección completa. d) Graficar la distribución a priori P(Defectuosos) y distribución a posteriori P(Defectuosos|Inspección = Inspección Completa), e) para analizar la independencia, obtener el valor de chi-cuadrado, el 243 Problemas Probabilidades 19. 20. 21. 22. 23. 244 coeficiente φ y el coeficiente de contingencias entre ambas variables. Considerar n = 100. Resolver con el SPSS. R: a) 0.24, b) 0.60, e) 0.25. Reacción positiva de las mujeres Se ha observado que el 70% de las mujeres reaccionan positivamente en ciertas circunstancias, mientras que los hombres lo hacen en un 40%. Se sometió a prueba a 15 mujeres y a 5 hombres y se les pidió llenar un cuestionario para descubrir sus reacciones. Se elige una respuesta al azar de las 20, calcular, a) la probabilidad de que haya reaccionado positivamente, b) si es un hombre, la probabilidad de que haya reaccionado negativamente, c) si es negativa, la probabilidad de que haya sido contestada por un hombre, d) para analizar la independencia, obtener el valor de chicuadrado, el coeficiente φ y el coeficiente de contingencias entre ambas variables. Considerar n = 100. Resolver con el SPSS. R: a) 0.625, b) 0.6, c) 0.4. Prueba de diagnóstico Una prueba de diagnóstico de una determinada enfermedad detecta la enfermedad (+) con una probabilidad de 0.90 si la persona la tiene (verdadero, V). Si una persona no tiene la enfermedad (Falso, F), el resultado de la prueba será que no la tiene (–) también con una probabilidad de 0.90. Solo el 1 % de la población tiene la enfermedad. Se selecciona una persona al azar entre la población. a) Si la prueba da positivo, cuál es la probabilidad de que la tenga en realidad. b) Si la prueba acierta A(verdadero + o falso –), cuál es la probabilidad de que la persona esté enferma, c) Graficar la distribución a priori P(Enfermedad), la distribución a posteriori P(Enfermedad|Test = +) y la distribución a posteriori P(Enfermedad|Test = A)¿Cuál es más importante si el médico se encuentra en un grupo de personas +?. d) Determinar si las variables Enfermedad(V,F) y Prueba(A,N), se encuentran asociadas. Utilizar el indicador más adecuado de acuerdo al tipo de variable en estudio. Considerar n = 100. Repetir para las variables Enfermedad(V;F) y Prueba(+,–). Resolver con el SPSS. Nota: la codificación propuesta utiliza ambas variables, a diferencia de la utilizada corrientemente en medicina que utiliza solo la variable Prueba (ver página 131). R: a) 0.0833, b) 0.01. El testigo Un evento E ocurre el 60% de las veces. Un testigo dice la verdad V 3 de 4 veces. a) Si el testigo afirma que el evento ocurrió, ¿cuál es la probabilidad de que en realidad haya ocurrido? b) ¿Qué ocurre si se varía la probabilidad p del evento E desde 0 a 1? Dibujar la curva de la probabilidad de la pregunta anterior en función p. c) Graficar la distribución a priori P(Evento), la distribución a posteriori P(Evento|Testigo = E) y la distribución a posteriori P(Evento|Testigo = V). d) Para analizar la independencia entre las variables Evento(E,N) y Testigo(E,N), obtener el valor de chi-cuadrado, el coeficiente φ y el coeficiente de contingencias. Considerar n = 100. Repetir para las variables Evento(E,N) y Testigo(V,F). Resolver con el SPSS. R: a) 81.8%. Los dos testigos Se agrega otro testigo B al testigo A del problema anterior, quién dice la verdad 4 de 5 veces. a) Si ambos testigos enuncian su visión en forma concurrente, es decir con independencia del otro, hallar la probabilidad de que el suceso haya ocurrido si ambos enunciados de los testigos dicen que el suceso ocurrió. b) si el testigo B basa su enunciado en el de A. hallar la probabilidad de que el suceso haya ocurrido si B dice que ocurrió. c) Para analizar la independencia, obtener el valor de chi-cuadrado, el coeficiente φ y el coeficiente de contingencias entre las variables A(E,N) y B(E,N) para cada nivel del evento y en ambas situaciones y corroborar la situación de dependencia fijada en la consigna. Considerar n = 100. Resolver con el SPSS. R: a) 0.947, b) 0.736. Dos urnas En una urna X hay una bola blanca y tres negras. En una segunda urna Y hay cinco blancas y Jorge Carlos Carrá Capítulo 2 Probabilidades tres negras. Se saca una bola al azar de la urna X y se introduce en la urna Y sin verla. Luego se saca una bola de Y y se introduce en la X sin verla. Calcular las probabilidades de los eventos: a) Que la urna X no tenga bolas negras, b) que las composiciones de las urnas no hayan cambiado. R: a) 0.0833, b) 0.5. 24. Dados normales y dados cargados Se tienen 20 dados normales y 2 cargados indistinguibles entre sí. La probabilidad de obtener un 6 en los dados cargados es el doble de la probabilidad de no obtenerlo. Se elige un dado al azar y se lo tira. Calcular las probabilidades de los sucesos: a) que salga un 6, b) que sea un dado cargado sabiendo que ha salido un 6. R: a) 0.212, b) 0.286. 25. ¿Ignorante o inteligente? A una clase con una proporción p de estudiantes inteligentes, se les toma una prueba de elección múltiple con m alternativas. ¿Si se sabe que un alumno eligió la respuesta correcta, cual es la probabilidad de que sea un ignorante? ¿Cuál es esta probabilidad si p = 0.01 y m =3? R: 1− p , 97.1%. 1 − p + pm III Simulaciones Monte-Carlo, SMC Elegir 5 problemas distintos de esta sección y realizar una SMC con el SPSS (definición de Bernoulli). A continuación se han seleccionado algunos de ellos, incluyendo algunas sugerencias para encaminar el proceso. 1. Dados de distintos colores Sugerencias En un archivo con por ejemplo 1000 casos, generar 3 variables, Rojo, Negro y Azul, con NAU entre 1 y 6. Con el procedimiento Compute, crear una variable SumaRN con la suma de los resultados de los dados Rojo y Negro y una variable SumaRNA con la suma de los resultados de los dados Rojo, Negro y Azul. Con el procedimiento Compute se pueden crear las siguientes variables. Una variable Mayor con un valor de por ejemplo 1 si (If) Rojo > Negro. Una variable Absoluto con un valor de por ejemplo 1 si |Rojo–Negro| >= 3. Una variable R2N5 igual a por ejemplo 1, si el rojo es un 2 y el negro es un 5 (el operador y se simboliza en el SPSS como &). Una variable par que indique si la suma es par (ver página 220). ¿Por qué, para las preguntas de la suma de Rojo y Negro, es incorrecto generar una variable con valores NAU entre 2 y 12 y luego responder las preguntas? 2. Cumpleaños Sugerencias Generar 10 variables v1 a v10 con NAU entre 1 y 365. Contar con el procedimiento Frecuencias para observar la presencia de alguna repetición de cumpleaños. 3. Sala de consulta Se trata de un problema de Distribuciones, Dnk. En este caso, D32. Sugerencias. Dado que en cada celda del SPSS no puede existir más de un elemento, se debe elegir como variables a los pacientes (diagrama de n pacientes). Muestrear para los 3 pacientes: a. Crear 2000 casos y 3 variables p1, p2 y p3 con rnd(RV.UNIFORM(0.5,2.5)). Definiremos 1 => sala A y 2 => sala B. Si se eliminaran repeticiones en las 3 columnas con Data > Identify Duplicate, restarían solo los 8 casos posibles dados por 23. b. Detectar los casos solicitados con el procedimiento Contar: Transform > Count Values within Cases (Contar Valores dentro de los Casos). c. Solicitar las frecuencias para contar la cantidad de casos en que la sala 1 recibe 0, 1, 2 o 3 pacientes. 245 Problemas Probabilidades 4. Helados Sugerencias. Se trata de un problema de Distribuciones, Dnk. En este caso, D34. Dado que en cada celda del SPSS no puede existir más de un elemento, se debe elegir como variables a las personas (diagrama de n personas). La diferencia entre las últimas dos preguntas y las primeras dos, es si se consideran o no las repeticiones de helados. Si se permiten las repeticiones de helados. Muestrear para las 3 personas: d. Crear 2000 casos y 3 variables p1, p2 y p3 con rnd(RV.UNIFORM(0.5,4.5)). Definiremos 1 => helado A, 2 => helado B, 3 => helado C y 4 => helado D. Si se eliminaran repeticiones en las 3 columnas con Data > Identify Duplicate, restarían solo los 64 casos posibles dados por 43. e. Detectar los casos solicitados con el procedimiento Contar. Por ejemplo para la pregunta a), S1G2 (Susana compra el helado 1 y Graciela el 2, contar los 1 en p2, si p1 = 1. Luego solicitar las frecuencias para realizar la cuenta en la variable S1G2. Si no se permiten las repeticiones de helados. f. Para detectar los casos con helados no repetidos, podemos utilizar el procedimiento Contar condicional. Son 24 selecciones (4*3*2) que pueden dividirse en 4. Las que contienen p3 = 1, incluyen las siguientes combinaciones de helados en p1, p2: (2,3, 2,4, 3,4. 3,2. 4,2 y 4,3). De igual manera para las restantes 3 agrupaciones. Luego seleccionar todos los casos con 1 en alguna de estas 4 variables. Se puede verificar que el muestreo sigue siendo aleatorio solicitando histogramas para cada una de las variables p1, p2 y p3 originales. 5. Fila del cine Sugerencias. Para la consigna varones juntos. Muestrear para las 6 posiciones: g. Crear 2000 casos y 6 variables con rnd(RV.UNIFORM(0.5,6.5)). Definiremos 1, 2, 3 => V. 4, 5, 6 => M. h. Recodificar 1,2,3 => 1 ((Varones). 4,5,6 => 2 (Mujeres) i. Eliminar casos repetidos por filas (Varones o Mujeres > 3) con el procedimiento Count. Luego seleccionar solo los casos con V = 3. j. Detectar los siguientes 4 casos: 1. 111222 => Una alternativa es: Contar 1 en la tercera variable si las primeras dos son 1. Llamarla VVVMMM. 2. 211122 => Una alternativa es: Contar 1 en la cuarta variable si las primeras tres son 211. Llamarla MVVVMM. 3. Los siguientes dos casos, 221112, 222111, se resuelven en forma similar a los anteriores. Otra alternativa es convertir la secuencia de 6 números a un código posicional (por ejemplo decimal) y luego seleccionar intervalos. Para este caso es conveniente realizar la recodificación con 1 y 0 en lugar de 1 y 2. k. Procedimiento Frecuencies para contar los 4 casos. 6. Esferas de distintos colores Sugerencias Para la consigna P(R, B, A) Crear 100 casos y obtener 3 variables con rnd(RV.UNIFORM(0.5,20.5)), por ejemplo E1, E2 y E3. . MCR a. Recodificar las variables según los porcentajes de existencia de cada color de esfera y llamar por ejemplo a 1 = R, 2=B y 3 = A. b. Detectar los casos solicitados con el procedimiento Compute. Por ejemplo para detectar RBB, crear una nueva variable RBB, escribiendo su nombre en el panel Target 246 Jorge Carlos Carrá Capítulo 2 Probabilidades Variable. Colocar un 1 en el panel Numeric Expression y presionar el botón condicional If. Habilitar la ventana If Cases presionando Include if satisfies condition, y colocar E1 = 1 & E2 = 2 & E3 = 2. Presionar Continue > OK. La nueva variable RBB debe contener 1 solo si se cumple la condición. Finalmente solicitar las frecuencias para realizar la cuenta de los 1 en la variable RBB. MSR a. Recodificar la primera variable según los porcentajes de existencia de cada color de esfera. Llamarla por ejemplo Incondicional. Seleccionar R en la primera variable (Select Cases) y borrar los casos no seleccionados. El procedimiento que se sugiere solo simulará el orden R, B, A. b. Recodificar la segunda variable, utilizando los porcentajes de las probabilidades condicionales respectivas dado R en la primera (muestreo por filas). Llamarla por ejemplo SegundaDadoR. Seleccionar B en la segunda variable (Select Cases) y borrar los casos no seleccionados. c. Recodificar en forma similar a la tercera variable dados R en la primera y B en la segunda. Llamarla por ejemplo TerceraDadosRB. d. Como el muestreo es sin reemplazo, eliminar repeticiones en las 3 columnas con Data > Identify Duplicate Cases. e. Contar las A en la tercera variable (Frequencies). 7. El problema de Monty Hall Sugerencias Generar las 2 columnas correspondientes al árbol de la solución teórica. 8. Consejeros y asistentes Sugerencias. En un archivo con por ejemplo 1000 casos, generar 8 variables NAU entre 1 y 35. Recodificar entre 1 y 25 con 1 (C) y entre 26 y 35 con 20 (A). El usar códigos bien distintos tiene que ver con el proceso elegido para detectar 5 C y 3 A. Eliminar repeticiones en las 8 columnas con Data > Identify Duplicate Cases. Generar una variable Suma y contar con el procedimiento Frecuencias, cuantas filas tienen el valor 65 (5C y 3A). 9. Prueba de diagnóstico Sugerencias. a. Definir una población con los porcentajes de las probabilidades conjuntas, VP, VN, FP y FN. Muestrear y recodificar en la misma variable para esos niveles. En este problema, si la población es de 2000 habitantes, se tienen: VP= 18, VN=2, FP=198 y FN=1782. Para realizar la recodificación, se sugiere conformar una lista con las frecuencias acumuladas, es decir: 18, 20, 200 y 2000. De esta forma las codificaciones surgen rápidamente: VP: entre 1 y 18, VN: entre 19 y 20, FP: entre 21 y 200 y FN: entre 201 y 2000. Dadas las diferencias entre estos 4 niveles, tomar una muestra comparable a la de la población para disminuir el error de muestreo. b. Crear 2 variables recodificando en distintas variables, una llamada Enfermedad con niveles V y F y otra llamada Test con niveles P y N. El cruce de estas variables, simulara el árbol (o Tabla de Contingencias) de la población. Problemas complementarios Todos los archivos que se mencionan en los problemas siguientes, se encuentran en la dirección (acceso restringido a alumnos): http://www.aprehender.net/JCC/viewtopic.php?f=52&t=267 Resolver en forma analítica (exacta) y con el método de Monte-Carlo (resultado aproximado). Se incluye el archivo de sintaxis para una posible SMC, para que pueda compararla con su resolución. 247 Problemas Problemas con base de datos Copiarla y pegarla en una ventana de sintaxis del SPSS y ejecutar. El resultado de la simulación aparecerá automáticamente en la última línea del visor. 1. Premio SPSS En un juego que tiene 60 letras S y 40 letras P, gana un premio el que saca 4 en sucesión y forma la palabra SPSS. Hallar la probabilidad de que usted gane el premio. R: 0.0864. Archivo SPSS,sps. 2. Elección del par de zapatos Una persona tiene 5 pares de zapatos y elige un par por día en forma aleatoria. Hallar la probabilidad de que en 2 o más días de una semana laboral de 5, use el mismo par. R: 0.96. Archivo Zapatos.sps. 3. Alex y Tomas Alex juega con Tomás a un juego de acertar al blanco. Alex gana el 85% de las veces y Tomás el 55%. El primero que acierta gana. Si Tomás comienza el juego, hallar la probabilidad de que gane. Repetir con los porcentajes invertidos. R: 0.59. Archivo Alex_Tomas.sps. 4. Los cheques Una caja tiene 6 cheques de 20$, 4 cheques de 50$ y un cheque de 100$. Si selecciona un cheque al azar, hallar el valor esperado del cheque. R: 38.2$. Archivo Cheques.sps. 5. El premio de la gaseosa Un premio se encuentra debajo de una tapa de gaseosa. Si solo 1 de cada 10 botellas tiene premio, hallar la cantidad de botellas que se deben comprar en promedio, para ganar un premio. R: 10. Archivo Gaseosa.sps. Problemas con base de datos 1. Bajar los costos. Abrir el archivo Fotocopiadoras.sav. En la empresa de repuestos en la cual usted ha ingresado, su jefe se queja del costo e inconvenientes que se le presentan cuando una de las dos fotocopiadoras no funciona. Su jefe le pide que lo ayude a evaluar los costos de cada una de las siguientes opciones: 1) conservar las actuales fotocopiadoras, 2) alquilar dos fotocopiadoras, 3) comprar una nueva fotocopiadora que sustituya a las dos juntas. Para ayudarlo en el análisis el jefe le entrega la base de datos Fotocopiadoras. sav que contiene los registros de la situación de cada fotocopiadora (rotuladas como 1 y 2) por cada día del último año laboral de 250 días (codificación: 0 = “fuera de servicio” y 1 = “en servicio”) a) ¿Cuál es la probabilidad de que cada una de las máquinas esté descompuesta en cualquier día del año? b) ¿Cuántos días por año se espera que una máquina esté fuera de servicio? ¿Qué estén las dos? Comparar los siguientes tres costos utilizando un período de 3 años sin considerar aumentos por inflación. ¿Cuál es la mejor alternativa? c) Calcular el costo anual esperado por la salida de servicio de las fotocopiadoras. Ud ha encontrado que el costo de reparación promedio de cada máquina es de 68 $ por día y ha estimado que el costo de hacer las fotocopias afuera se puede medir en 0.05$ por copia con alrededor de 150 copias por fotocopiadora por día. d) Calcular el costo que representa el alquiler de dos máquinas. Para ello recurre a una empresa que cobra 350 $ mensuales por las dos fotocopiadoras. Afirman que la probabilidad de que una de estas máquinas se descomponga en cualquier día dado es de 0.05. Además el service está incluido en el precio. e) Calcular el costo que implica comprar una nueva fotocopiadora. Obtiene que el precio de la nueva máquina es de 8750 $ y tiene garantía por un año. El service es de 175 $ después del año, en principio elevado pero es una marca de primera línea que solo tiene una probabilidad de 248 Jorge Carlos Carrá Capítulo 2 Probabilidades 0.017 de fallar un día cualquiera. R: a) 10.8%, b) 27dias, 2.92dias, c) $12231, d) $13162, e) $10429. 2. El premio. Abrir el archivo Envíos.sav. Impresionado por el ahorro en gastos de fotocopias, su jefe ha decidido incorporarlo al departamento de planeamiento estratégico con una mejora sustancial del sueldo. Como primer actividad le comenta que la empresa reabrió un depósito de repuestos en la ciudad de Paraná en el NE del país, pero no está seguro si fue el sitio óptimo en relación al gasto de transporte aéreo para el envío de los pedidos a los clientes. Le entrega el archivo Envíos.sav que contiene el destino de los 775 últimos pedidos clasificados por código postal (cp), peso del envío (peso) y con la información de si fueron despachados con “entrega en 24 horas” (proxdia) lo cual encarece la tarifa de cinco a diez veces. La siguiente tabla contiene los datos del código postal asignado a cada región del país (datos ficticios). región NO (Noroeste) NE (Noreste) C (Centro) CO (Centro Oeste) CE (Centro Este) SE (Sureste) SO (Suroeste) cp 010-069 070-268 270-397 400-499 500-693 700-799 800-994 Llamaremos: A =“el paquete es enviado dentro del área de acción”, U = “El paquete es enviado urgente” y P = “el paquete es pesado”. Utilizar, cuando sea necesario, estas 3 letras para expresar en forma matemática cada una de las siguientes respuestas. a) Hallar la frecuencia relativa de los paquetes enviados a las 7 zonas geográficas b) El área que debería corresponderle a la ciudad de Paraná es, de acuerdo al proyecto de la empresa, la que comprende las regiones NE, NO y CO. ¿Cuál es la probabilidad de que un paquete enviado de éste depósito tenga destino dentro de su área? c) ¿Cuál es la probabilidad de que sea despachado como “entrega en 24 horas”? d) ¿Cuál es la probabilidad de que sea despachado como pesado? Se considera pesado si pesa por lo menos 10 kg. e) ¿Cuál es la probabilidad de que sea clasificado como pesado o sea embarcado como “entrega en 24 horas”? f) ¿Cuál es la probabilidad de que sea clasificado como pesado y sea enviado dentro del área de acción? g) ¿Cuál es la probabilidad de que, dado que es un paquete de “entrega en 24 horas”, haya sido enviado dentro del área de acción? h) Si un paquete es enviado fuera del área de acción, ¿Cuál es la probabilidad de que sea enviado con “entrega en 24 horas”. ¿Y si es enviado dentro del área de acción? i) ¿A qué conclusiones generales puede llegar acerca de si el depósito de Paraná está siendo utilizado eficientemente para cubrir su área de acción? R: a) 16.5%, 45%,5.2%,28.8%,1.7%,1.2%,1.7%, b) 90.3%, c) 23%, d) 4.1%, e) 26.7%, f) 4.1%, g) 86.5%, h) 32%, 22%. 249
© Copyright 2024