Infnormal_3GEST.doc 13/03/2015 [email protected] 1 Tema 2 Inferencias para la Normal Multivariante Una distribución de probabilidad desconocida rige el comportamiento aleatorio de un vector p-dimensional. Para obtener información acerca de ella, repetimos el experimento aleatorio n veces y en cada una de ellas observamos las p variables que componen el vector. Así, obtenemos n observaciones p-dimensionales independientes, que componen una muestra aleatoria simple: n vectores aleatorios p-dim independientes, igualmente distribuidos, con distribución común pdimensional desconocida, P. A partir de la muestra trataremos de tomar decisiones sobre la distribución subyacente P, respondiendo preguntas del tipo: ¿Es Normal p-dim? ¿Su media es una determinada, 0? ¿Son incorreladas sus p componentes? … 0 Notación x1, ... xn m.a.s. de vectores aleatorios Np(, ); observamos p variables sobre p individuos. xij valor de la variable j (j=1...p) en el individuo i (i=1... n) x11 … x1p x1+ X= x n1 … x np x n+ x +1 x +p x ++ X=( xij) matriz de datos fila i de X : xit = (xi1...xip) vector con los p datos del individuo i suma= xi+ columna j de X : (xj)t=(x1j...xnj) n observaciones independientes de la variable j suma= x+j x X x 1 x1 1 n 1 1 t vector media muestral x = x i = X 1n = n n n i=1 xp xp =(xij- x )= X - 1n x t = X - 1n 1 1nt X = X - P1X = P1┴ X matriz de datos centrados X j n n Q (Nota: Demostrar que XtX= x i x i t ) matriz de productos cruzados i 1 tX = Xt P1┴ X = Q= X n (x i 1 2 (x i1 x1 ) i 1 = n (x ip x p )(x i1 x1 ) i 1 n n (x i 1 i x)(x i x) t = Xt X - n x x t = n (Cov(xi, xj)) = i1 x1 )(x i2 x 2 ) matriz de varianzas-covarianzas muestrales S matriz de cuasi varianzas-covarianzas muestrales … n i 1 … x1 )(x ip x p ) n 2 (x ip x p ) i 1 (x = 1Q n 1 S= Q n 1 i1 Infnormal_3GEST.doc 13/03/2015 [email protected] 2 1 Distancia de Mahalanobis La distancia usual para medir distancias en el espacio Rp es la Euclídea unitaria d 2 (x r , x s ) (x r x s ) t (x r x s ) = (xr1-xs1)2+(xr2-xs2)2+… +(xrp-xsp)2 Esta distancia trata por igual las p componentes y todas las direcciones de Rp . La distancia entre individuos se evalúa sin tener en cuenta en qué coordenadas o componentes difieran. En el gráfico aparecen las curvas de equidensidad del vector aleatorio (x1, x2). Con la distancia Euclídea unitaria, los puntos 1 y 2 están a la misma distancia de … pero una misma distancia d en la dirección →1 es mucho más relevante que en la →2. Una buena medida debe apreciar que 1 es mucho más atípico que 2. Entonces, al trabajar con observaciones aleatorias p-dimensionales… …la distancia Euclídea unitaria no es la más apropiada porque… a) no tiene en cuenta la dispersión de cada componente: Esta dispersión depende de la escala que utilicemos para medir cada una de las p variables; … y la elección de escala es una cuestión arbitraria (mm, cm, m ...; °F, °C ...) Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos de paso parciales, peso, estatura, talla del pié, longitud de pierna, tamaño de la zancada... en 100 marchadores internacionales de diferentes países. A la hora de calcular parecidos y diferencias entre atletas a partir de las p características observadas, la elección de escala influye de forma determinante. Si medimos la estatura en centímetros en lugar de metros, una diferencia de talla de 0.13 m pasa a ser de 13 cm, por lo que el efecto de esta variable talla se dispara al evaluar distancia entre dos individuos. Lo mismo si utilizo cm en lugar de pulgadas o libras en lugar de Kg; gr en lugar de Kgr, minutos en lugar de segundos, etc. En definitiva, el parecido p-dimensional entre atletas dependería de las escalas de medida utilizadas, lo cuál no suele ser razonable. Una homogeneización de varianzas resuelve el problema sólo parcialmente, puesto que exite un segundo problema, y es que la distancia Euclídea unitaria… b) tampoco tiene en cuenta la estructura de correlaciones entre las p componentes del vector: Si observo en cada individuo varias variables fuertemente correladas, una diferencia grande entre dos individuos en una determinada componente irá acompañada por diferencias también grandes en las componentes correladas con ella. Así, en el cálculo de la distancia aparece un efecto multiplicador, en detrimento de variables que no pertenezcan a haces de variables altamente correladas. Siguiendo con en el ejemplo anterior, los tiempos de paso parciales estarán fuertemente correlados, entre sí. Algo parecido puede ocurrir con las medidas antropométricas (estatura, talla del pié, longitud de pierna, tamaño de zancada...). Un atleta de zancada amplia aventajará a uno de zancada corta en cada toma parcial de datos, de forma que al tomar medidas en 4 momentos de la carrera, habrá 4 coordenadas "zancada" con diferencias similares altas. Aparece así ese efecto multiplicador. También aparece si se toman varias medidas antropométricas relacionadas con la talla. En definitiva, estamos manejando uno o varios grupos de variables correladas, y esto influye en la distancia entre individuos, pues estoy considerando varias veces el mismo efecto. La distancia de Mahalanobis tiene en cuenta estos dos aspectos y los corrige (diferencia de varianzas entre componentes y posible presencia de variables correladas). Infnormal_3GEST.doc 13/03/2015 [email protected] Distacia de Mahalanobis entre dos observaciones o dos puntos cualesquiera de Rp (xr, xs)= d 2 1 (x r , x s ) (x r x s ) t 1 (x r x s ) versión teórica Cuando se desconoce , se utiliza su estimador S, dando lugar a la versión muestral: D(xr, xs)= d S21 (x r , x s ) (x r x s ) t S1 (x r x s ) versión muestral Utilizar la distancia de Mahalanobis sobre puntos expresados en las variables originales equivale a utilizar la distancia Euclídea Unitaria (distancia usual) calculada después de transformar linealmente las p variables en otras p incorreladas y estandarizadas: y= -1/2Pt x d2(yr,ys)= (yr-ys)t(yr-ys)= (xr-xs)t P -1/2-1/2P t (xr-xs) )= (xr-xs)t -1(xr-xs)= d2-1(xr,xs) 2 Estimadores puntuales de y Sea x1, ... xn una m.a.s. de una distribución Np(, ) no degenerada. Función de verosimilitud L() = n f Np (μ,Σ) (x i ) = i=1 1 2π np Σ n 1 n t exp - x i -μ Σ -1 x i -μ 2 i=1 Estimadores máximo verosímiles (EMV) de y : y 1 n = x = x i ; n i=1 : Distribución de y = Q; n (media y covarianzas empíricas) Q n = ) (estimador insesgado de : S= n 1 n 1 1 x ~ N p (, ) n ~ W (n 1, ) independiente de x Q = (n-1) S= n p Nota: x es una transformación de la matriz de datos X: y Q es una forma cuadrática generalizada en X: t 1 n(x ) (x ) ~ p2 x = X t 1p 1 n Q = Xt P1┴ X es n veces la distancia2 de Mahalanobis teórica entre x y : n d 2 1 (x, ) = n ( x , ) se usa para contrastar y construir regiones de confianza para con conocida. n (x ) t S1 (x ) ~ Tp,2 n-1 es n veces la distancia2 de Mahalanobis muestral entre x y : n d S21 (x, ) = n D( x , ) se usa para contrastar y construir regiones de confianza para con desconocida. 3 Infnormal_3GEST.doc 13/03/2015 [email protected] 4 3 Contrastes y regiones de confianza para la media H0: = 0 n ( x - )t -1 ( x - ) ~ 2p n ( x - )t S-1 ( x - ) vs H1: ≠ 0 [ aplico xt x ~ 2rg(A) (tA) A es idempotente a ~T 2 t -1 2 t -1 p, n-1 [ aplico k x W x ~ T p, k ( ) n ( x - ) ~ Np (0, /n) ] n ( x - ) y (n-1)S ~ Wp(k, ) ] a Test 2 3.1 conocida Estadístico de contraste: 20 = n ( x , 0) = n ( x - 0)t -1 ( x - 0) H0 ~ H ~ 1 Región crítica de nivel : C= [ 20 > 2p , 1- ] 2p 2p ( n (, 0)) verifica p H0 (C)= p-valor: p[ 2p > 20 ] potencia para detectar 1 (1 ≠ 0): p H1 (C) = p[ 2p () > 2p, 1-] con = n (, 0) = n (1 0 ) t 1 (1 0 ) 3.2 desconocida Test 2 Estadístico de contraste: de Hotelling 2 = n D( x , 0) = n ( x - 0)t S-1 ( x - 0) H0 ~ H1 Tp,2 n-1 ~ Tp,2 n-1 H0 ( n (, 0)) np 2 ~ Fp, n-p p(n 1) np 2 > Fp, n-p, 1- ] verifica p H0 (C)= . Región crítica de nivel a: C= [ p(n 1) p-valor: p[ Fp, n-p > F0 ] potencia para detectar 1 (1 ≠ 0): p H1 (C) = p[ Fp, n-p() > Fp, n-p, 1-] es decir, F0= con = n (, 0) = n (1 0 ) t 1 (1 0 ) i) Para p=1, el test T02 es el test t contraste de dos lados sobre la media de una N1 con 2 desconocida x 0 2 H0 x 0 H0 T02 = ( n ) ~ F1, n-1 equivale a t0 = n ~ tn-1 * S S* para p ≥ 2 sus propiedades resultan similares a las del test t: ii) Es invariante frente a cambios lineales no singulares de localización y escala y=Fx+C; el test NO depende de las unidades de medida utilizadas: m/cm/pulgadas/pies , °F/°K/°C, Kg/g/libra ... iii) Es T.R.V., T.U.M.P, invariante y admisible. 3.3 Contrastes sobre una o varias combinaciones lineales de H0: A=b vs H1: A ≠ b 3.3.1 Contraste general A=b (para A cualquier matriz qxp y b cualquier vector de Rp) H : A b Para contrastar [1] 0 H1 : A b transformamos la muestra yi = Ax i y =A H 0 : y b y contrastamos [2] : H1 : y b las xi son v.a.i.i.d. Np(xx) ⇒ las yi serán v.a.i.i.d. Np(yy) ≡ Np (AxxAt ) Infnormal_3GEST.doc 13/03/2015 [email protected] El estadístico T02 para [2] es: 2 T0 (A)= n ( y - b) t 5 H0: y=b Sy-1 ( t ~ t -1 y - b) = n (A x - b) (ASx A ) (A x - b) T2q, n-1 que para el caso particular b=0 se convierte en: T02 (A)= n y t Sy-1 y n x t At (ASx At) -1 A x = H0: y=0 ~ T2q, n-1 Nota: Toda hipótesis del tipo A=b puede también expresarse en la forma A=0 reparametrizando adecuadamente el problema (ver Seber p.72), por lo que es suficiente saber contrastar A=0. 3.3.2 Aplicación: Contraste de Simetría H0: 1= 2 ( 2 muestras p-dim pareadass) H1: 1 ≠ 2 (muestras pareadas) vs Comparación de medias en DOS poblaciones Np relacionadas (muestras p-dim pareadas) Introducción: El problema de simetría izquierdo/derecho en un ser vivo es un clásico en biología (zoología, botánica ...), La comparación de efectos producidos por dos tratamientos sobre un conjunto de variables es otro clásico en medicina, farmacia, agricultura, ingeniería … Antecedentes: Conocemos ya contrastes para comparar dos medias univariantes en muestras pareadas ó relacionadas. Planteamiento: Abordemos ahora la versión multivariante del mismo problema de comparación de medias en dos poblaciones relacionadas. Ahora, sobre cada unidad experimental observamos más de una variable. Observamos p características (no una) en dos poblaciones relacionadas: antes/después del tratamiento, características del hombre/mujer en una pareja, características lado derecho/izquierdo, características del hijo mayor y del 2º hijo ... Antes del tratamiento Después del tratamiento variable 1 PAmin variable 2 PAmax … variable p variable 1 Colesterol PAmin variable 2 PAmax … variable p Colesterol 1 Pepe Pérez 10 18 … 320 8 14 … 280 2 Pío Pí 11 13 … 244 9 13 … 200 10 15 … 270 10 14 … 280 … n José Jolín La muestra se compone de n observaciones p-dimensionales pareadas μ x Σ xx Σ xy xi ~ N ( i= 1... n ) 2p , yi μ y Σ yx Σ yy H 0 : μ x μ y Contraste de Simetría o de igualdad de medias en las dos poblaciones: H1: μ x μ y La hipótesis nula es H0: xj = yj j=1 ... p. que se expresa en la forma vista en 3.3.2 A=0 tomando la matriz A apropiada: A= 1 0 0 0 0 0 -1 0 0 -1 0 1 0 0 -1 0 1 0 Ip | - Ip H0 Solución: T0 (A)= n ( x - y ) (Sxx - Sxy - Syx + Syy) ( x - y ) ~ T2p, n-1 donde el vector de medias muestrales y S se han partido en dos y cuatro cajas, igual que y 2 t -1 Infnormal_3GEST.doc 3.4 13/03/2015 [email protected] 6 Intervalos de confianza para combinaciones lineales: I. de C. para at at 3.4.1 Para una función lineal Notaremos como a2 la varianza de at x, que vale at a. t-intervalos 1 a t x ~ N(a t μ, σ a2 ) n n (a t x a t μ) ~ t n-1 t 1 t 2 t a Sa a Sa ~ n-1 indep. de a x σ a2 I. de C. de confianza 100(1-)% para at: atx t 3.4.2 Para r combinaciones lineales {ait }i=1...r preespecificadas: n-1, 12 1 t 1/2 (a Sa) n A t-intervalos simultáneos de Bonferroni 1 (aitSai)1/2 n pues para cada combinación lineal construyo un t-intervalo de nivel 1-/r, y así tenemos: probabilidad de algún fallo en los r recubrimientos ≤ i (prob. falla el intervalo i) = rα/r= α probabilidad de recubrimiento simultáneo ≥ 1- I. simultáneos de confianza ≥ 100(1- para las r c.l. ait: 3.4.3 Para r combinaciones lineales no preespecificadas: a it x t n-1, 12r A S-método de Schefée: Construye un i. de c. para todas las c.l. ait simultáneamente La relación dS21 (A x , A)=n ( x - )t At (ASx At) -1 A( x - ) ~ T2q, n-1, permite construir una Ax región de confianza (elipsoide) para las componentes de A y todas sus combinaciones lineales: 1 { n (A x - A)t (ASx At) -1 (A x - A) ≤ T2q, n-1; 1- } n 1 t ai Sai)1/2 n recubren con una probabilidad simultánea ≥ 1- todas las posibles c.l. ait del vector de medias . Tomando en particular A=I, tenemos que los intervalos a it x ( Tp,2 n-1, 1- Infnormal_3GEST.doc 5 13/03/2015 [email protected] 7 Comparación de medias en DOS poblaciones Np independientes H0: 1= 2 vs H1: 1≠ 2 (muestras independientes) [5.1] Problema: Dadas dos poblaciones Np se pretende comparar sus medias p-dim 1y 2, Para decidir tomamos sendas m.a.s independientes (NO relacionadas) muestra en la población 1: v1, ... v n1 m.a.s. de una distribución Np(1, 1) muestra en la población 2: w1, ... w n 2 m.a.s. de una distribución Np(2, 2) Es la misma situación que en el test de simetría ya estudiado, salvo por una diferencia: aquí las muestras no están relacionadas, sino que son independientes. Cada observación p-dimensional de la población 1 ahora es independiente de toda la muestra de la población 2, mientras que en el test de simetría las muestras estaban pareadas, relacionadas por algún tipo de conexión. En el test de simetría, cada individuo (o unidad experimental) i es medido en la izquierda y en la derecha ó antes y después del tratamiento. Ahora se cambia de individuo. A uno se le toman las p medidas en las condiciones 1 (antes/izquierda...) y a otro, en las condiciones 2 (después/derecha...). El problema va a tener distinta solución según que las matrices de dispersión i sean iguales (apartado 5.1) o no (apartado 5.2). Por eso, y como paso previo (apartado 5.0), haremos un primer contraste para ver si los datos sustentan la hipótesis de igualdad de matrices de dispersión. 5.0 Comparación de matrices de dispersión en DOS poblaciones Np independientes H0: 1= 2 ETRV: vs H0: 1≠2 H0 2 -2 log T ~ 1 2 (muestras independientes) (Seber 102) p (p 1) asintóticamente, n1 siendo T= C12 n2 | Q1 | 2 | Q 2 | 2 | Q1 Q 2 | 5.1 n 2 ; Asumiendo 1= 2 = desconocida H0: 1= 2 equivale a C12= nn n1 n1 n 2n 2 p/2 ; n=n1+n2 queremos contrastar [5.1] (Seber 108) H0: 1- 2 = 0 n1 v ~ N ( , ) indepediente de Q (vi v)(vi v) t ~ Wp (n1 1, ) p 1 1 n1 i 1 independientes, n2 w ~ N ( , ) indepediente de Q (w w)(w w) t ~ W (n 1, ) p 2 2 i i p 2 n2 i 1 1 1 v- w ~ N p (1 - 2 , ( n n ) ) luego 1 2 independientes Q Q ~ W (n +n 2, ) 2 p 1 2 1 ETRV: T02 = n1n 2 ( v- w )t Sp-1 ( v- w ) n1 + n 2 equivalentemente, F0= H0 ~ Tp,2 n1 n 2 2 siendo Sp = H0 n1 + n 2 p 1 T02 ~ Fp, n1 n 2 p 1 (n1 + n 2 2) p Q1 Q 2 n1 + n 2 2 Infnormal_3GEST.doc 13/03/2015 [email protected] 8 Nota sobre normalidad: Los teoremas centrales del límite permiten asumir que v- w tendrá distribución aproximadamente Normal en muestras grandes aunque las distribuciones originales no sean Np. Por esta razón, el test es robusto en muestras grandes frente a la falta de Normalidad. Nota sobre común: La falta de igualdad entre las matrices de covarianza tiene un efecto muy fuerte sobre el tamaño y la potencia del test. 5.2 Sin asumir 1= 2 = 5.2.1 n1 = n2 = n0 se reduce al problema de sólo una muestra (diferencias= 0) desconocidas, queremos contrastar [5.1] (Seber 114) Las diferencias di=vi-wi ; i= 1... n0 forman una m.a.s. Np (d, d) con d= 1- 2, d=1+2 Se contrasta H0: d= 0 utilizando 5.2.2 n1 ≠ n2 T02 = n0 d t Sd-1 d H0 ~ Tp,2 n 0 1 con d = v- w estamos ante una versión multivariante del problema de Beherens-Fisher y no se conoce solución exacta. (Sriva 118) H Se utiliza el estadístico T02 = ( v- w )t ST1 ( v- w ) ~0 Tp,2 f (aproximadamente) 1 2 1 (v- w) t S1 (S / n )S1 (v- w) 2 S1 S2 T i i T y f= donde ST Seber p.115 da t 1 n1 n 2 n 1 (vw) S (vw) i 1 i T esta expresión para f, mientras que Srivastava p.118 utiliza otra aproximación diferente 5.3 H0: 1= 2 RESUMEN Comparación de medias en 2 poblaciones Np En el problema de comparación de medias (multivariantes) en dos poblaciones normales, distinguimos la misma casística que tratábamos en el caso univariante, cada una con su solución específica. muestras relacionadas (test de simetría) T02 = n ( x - y )t (Sxx - Sxy - Syx - Syy) -1 ( x - y ) H0 ~ T2p, n-1 muestras independientes asumiendo 1= 2 T02 = (5.1) 1= 2 n1 = n2 = n0 T02 = n0 ( v- w )t Sd-1 ( v- w ) T02 = (contraste 1= 2 en 5.0) H0 n1 n 2 Q1 Q 2 ( v- w )t Sp-1 ( v- w ) ~ Tp,2 n1 n 2 2 con Sp = n1 + n 2 n1 + n 2 2 muestras independientes sin asumir n1 ≠ n2 (apartado 3.3.2) ( v- w )t ST1 ( v- w ) H0 ~ Tp,2 n 0 1 H0 ~ Tp,2 f con Sd = i 01 (d i d)(d i d) t (5.2.1) aprox. (problema de B-F) (5.2.2) n Nota final: El Modelo Lineal Multivariante nos permite contrastar la igualdad de medias p-dim. en k poblaciones Normales Multivariantes (k ≥ 2), tanto independientes como relacionadas. H0: 1= 2= ... = k Infnormal_3GEST.doc 6 13/03/2015 Contrastes de normalidad H0: X ~ Np [email protected] ó 9 H0: X ~ Np(, ) Problema: A partir de una m.a.s p-dimensional x1, ... xn debemos decidir si la población es Np Idea: Las componentes de cualquier vector Np deben ser N1. Esta es una condición necesaria pero no suficiente, por tanto, si alguna componente falla N1, el vector no será Np. si todas las componentes superan el test, no tenemos asegurada aún la Np de X y efectuaremos más pruebas basadas en propiedades multivariantes de la Np. 6.1 Utilizando contrastes de ajuste univariantes Si detectamos falta de Normalidad a nivel /p en alguna componente de X, se rechaza H0 a nivel al menos. (Bonferroni: pHo(URCi) ≤ pHo(RCi) =p/p=). Recodemos los contrastes de Normalidad univariante. Test de Kolmogorov. Se basa en la máxima separación entre la función de distribución muestral, Fn y la teórica F, en nuestro caso N1. Los parámetros y deben especificarse en H0. En la variante conocida como test de Lilliefords o Kolmogorov-Smirnov, y son desconocidos y se estiman a partir de la misma muestra, calculándose luego la máxima separación entre Fn y F de la N1( x ,s2) . Test de ajuste 2. La muestra se discretiza en intervalos, con lo que se pierde parte de la información. Métodos gráficos: Plots de normalidad (rankit plot o qq-plots) Shapiro-Wilks. 2 n a i x (i) es el cociente entre dos estimadores de dispersión El estadístico W= ni 1 (x i x)2 i 1 la habitual suma de cuadrados de desviaciones a la media, y otro basado en el estadístico ordenado y Rechaza H0 para valores pequeños de W. sus valores esperados bajo normalidad. El W test resulta muy potente y es capaz de detectar pequeñas desviaciones de la normal univariante incluso con tamaños muestrales relativamente pequeños. Implementado en los paquetes de programas para muestras cada vez mayores, se va imponiendo a los demás. Anderson-Darling y Cramer-vonMises. Aparecen en las salidas del Proc Univariate de SAS. Son del tipo EDF cuadrático, pues se basan en un estadístico Q que promedia la desviación cuadrática entre la función de distribución muestral y la poblacional con diferentes funciones de peso (x): Q n (Fn (x)-F(x)) 2 Ψ(x) dx R Cramer-vonMises utiliza función de pesos uniforme: (x)= 1 (área entre Fn y F) Anderson-Darling da más importancia a las colas de la distribución: (x)= [ F(x) (1-F(x)]-1 Mientras el estadístico D de Kolmogoroff, sólo mide la máxima diferencia entre Fn y F, el estadístico Q de los contrastes EDF cuadrático tiene en cuenta todos las diferencias Fn (x)-F(x) Infnormal_3GEST.doc 6.2 13/03/2015 [email protected] 10 Utilizando características multivariantes de la Np 6.2.1 Plot de Normalidad multivariante Introducción: Si x ~ Np(, ), entonces u= -1/2 (x- ) ~ Np(, Ip), o aplicando los resultados sobre f.c.: t -1 t z = (x,)= (x- ) (x- ) = u u= p u i 1 Sea ahora 2 i x1, ... xn una m.a.s. de una distribución Np(, ); ~ 2p zi = (xi ,) z1, ... zn forman una m.a.s. de una distribución 2p ordenamos los valores zi: z(1), ... z(n) Idea: Al representar cada z(i), frente al percentil 2 p; para i=1...n el plot esperado es una recta. 1 1 (i ) n 2 Inconveniente: En la práctica, y son desconocidos y no puedo computar zi. Solución: Estimo zi sustituyendo y (desconocidos) por sus estimadores x y S: zˆ i = D(xi, x )= (xi- x )tS-1 (xi- x ), pero zˆ i ya no es 2p ¿Qué hacer? a) en muestras grandes: Si n es grande (n> 10p) las estimaciones estarán suficientemente cerca de los verdaderos parámetros y . Por tanto, la diferencia entre usar la verdadera distribución de las zˆ i y la 2p resulta despreciable. Para muestras de este tamaño, la falta de independencia de las zˆ i es también insignificante. Con todo ello, el plot de probabilidad 2 proporciona un buen método gráfico para contrastar la normalidad multivariante de forma grosera y detectar rápidamente desviaciones fuertes. b) en muestras pequeñas: Sea x1, ... xn una m.a.s. de una distribución Np(, ) Notaremos por x n y Sn sus momentos muestrales. Sea xn+1 una observación más, independiente de las n anteriores; entonces, d 2 Sn1 t (xn+1, x n )= (xn+1 - x n ) Sn -1 p(n 2 1) (xn+1 - x n ) ~ Fp, n-p n(n p) En el plot usaremos los cuantiles de esta distribución F en lugar de los de la 2 y conseguiremos mantener la independencia entre cada observación xi y los estimadores de y utilizando x y S(i). x y S(i) se calculan a partir de (x1, ... x (i) ... xn), es decir, toda la muestra (i) excepto xi: (i) zi = d S21 (xi, x (i) )= (xi - x (i) )t S(i) -1 (xi - x (i) ) ~ (i ) p((n-1) 2 1) Fp, n-1-p (n 1)(n 1 p) Computacionalmente: x (i) = abS1 (x i x)(x i x) t S1 1 1 (n x - xi) y S(i) = aS-1 + 1 b(x i x) t S1 (x i x) n 1 con a= n2 n y b= n 1 (n 1) 2 Infnormal_3GEST.doc 13/03/2015 [email protected] 6.2.2 Contraste basado en Medida de Asimetría multivariante 11 (skewness) Skewness Poblacional: 1, p= E((x- )t-1 (y- ))3 , siendo x e y dos vectores aleatorios i.i.d. para p=1 se tiene que: 1,p = E( x 3 ) , skewness univariante. Para x, y v.a.i.i.d. Np(, ) se obtiene 1, p= 0 Skewness Muestral: Ap= b1, p= 1 n2 n g i, j1 3 ij con 1 (xj - x ); gij= (xi - x )t 1 a veces se utiliza S-1 en lugar de Si x1, ... xn es una m.a.s. Np(, ) , entonces n b1,p ~ 21 cuando n p(p 1)(p 2) 6 6 (para n>50 es satisfactoria la aproximación por la ley asintótica) 6.2.3 ... y en una Medida de Apuntamiento multivariante (kurtosis) Kurtosis Poblacional: 2, p= E((x- )t-1 (x- ))2 , siendo x un vector aleatorio para p=1 se tiene que: 2, p -3 = E( x 4 ) , kurtosis univariante. Para x ~ Np(, ) se obtiene 2,p= p(p+2) Kurtosis Muestral: Kp= b2, p= 1 n 2 gii n i 1 Si x1, ... xn es una m.a.s. Np(, ), entonces E b2, p= n 1 y, n 1 8 b 2,p ~ N(p(p 2), p(p 2)) cuando n n (para n>50 es satisfactoria la aproximación por la ley asintótica) Los contrastes de normalidad 6.2.2 y 6.2.3 basados en las medidas de kurtosis y asimetría multivariantes resultan invariantes para transformaciones lineales. No son muy potentes, pero resultan útiles para detectar falta de normalidad en datos con valores de asimetría o kurtosis claramente fuera de rango. Infnormal_3GEST.doc 13/03/2015 [email protected] 7 Outliers multidimensionales/ Tests basados en distancias de Mahalanobis. 7.1 Observación más alejada 12 (Srivastava p.58) Test para contrastar, bajo normalidad, si la observación más alejada tiene media diferente a las n-1 observaciones restantes: La observación más alejada es Np(, ), y todas las demás Np(, ) Contraste: H0: = H1: ≠ ( y desconocidos) Se basa en la distancia de Mahalanobis muestral de cada observación, xi, al centro de los datos, x : Di =D(xi, x )= (xi- x )tS-1 (xi- x ) R.C.: Declaro outlier si Q > Q , siendo Q = Justificación: Sea Ti= n Di ; (n 1) 2 Q= maxi Di c (n 1) 2 p F , c = n p 1 p,n p 1,1 n 1 c n se tiene que aplicando Bonferroni con nivel Fi = n p 1 Ti ~ Fp, n-p-1 p 1 Ti sobre los n valores Fi n se obtiene un test de nivel ≤ : La observación más alejada de x será declarada outlier si Q > Q El test se aplica de forma iterada: Si Q > Q , elimino el outlier …y repito el proceso con los individuos restantes hasta que Q ya no supere el valor crítico Q. 7.2 Alternativa Pueden utilizarse los momentos muestrales x (i) yS(i) (computados sin el elemento xi) : bi2 = (xi - x (i) )t S(i) -1 (xi - x (i) ) 7.3 Razón de varianzas generalizadas ri2 = | S(i) | |S| Los tres estadísticos Q, bi2 y ri2 definidos en 7.1, 7.2 y 7.3 dan lugar a la misma ordenación de las observaciones extremas. 7.4 Grupos de outliers y grupos diferenciados La detección de grupos de outliers es más compleja, especialmente si el grupo candidato a outlier no está identificado de antemano. Se puede generalizar el estadístico bi2 eliminando un grupo i de t observaciones (en lugar de sólo una) para computar x (i) yS(i). Si se detectan varios grupos sospechosos de comportamiento diferenciado, se puede emplear un MANOVA confirmatorio (compara las medias p-dim a través de los t grupos) H0: 1= 2= = t Infnormal_3GEST.doc 8 13/03/2015 [email protected] 13 Transformaciones para obtener Normalidad Los fallos de asimetría y kurtosis univariante se corrigen mediante la familia de transformaciones potencia de Box y Cox y la familia de transformaciones módulo de Johnson-Draper respectivamente, para conseguir valores compatibles con la normalidad. Para cada muestra se encuentra el valor que proporciona la transformación óptima. Para corregir los fallos de asimetría y kurtosis multivariante, los algoritmos de optimización de los ’s requieren cálculos fuertemente intensivos y resultan poco operativos: sup L () = sup [ n 1 log | S( ) | ] con = ( 1, ... p) 2 Por eso recurrimos a las transformaciones univariantes. El procedimiento univariante aplicado componente a componente en principio no garantiza normalidad multivariante, pero es lo que se emplea porque resulta operativo y en la práctica suele dar resultados suficientemente satisfactorios. En cualquier caso, después de aplicar las transformaciones univariantes apropiadas comprobaremos si los nuevos datos superan los tests de normalidad multivariante. 8.1 Transformaciones univariantes Las transformaciones univariantes usuales para conseguir normalidad son éstas: T1 Transformación potencia de Box y Cox. Tiende a eliminar la asimetría de los datos. y () i donde g1= (x i 1) / g11 si 0 si = 0 g1 log x i n x1...x n es la media geométrica de los datos. Debe aplicarse a datos x1 ... xn todos positivos. T1a Si hay alguna observación xi negativa, se trasladan los datos una cantidad a para hacerlos positivos y después se aplica la transformación potencia: y () i donde g2= T2 1 [(x i a) 1] / g si 0 2 si = 0 g 2 log (x i +a) n (x1 a)...(x n a) es la media geométrica de los datos trasladados. Transformación módulo de Johnson y Draper, para datos simétricos con kurtosis ≠ 0. z ( ) i [(| x i b | +1 ) 1] / g 31signo(x i b) si 0 signo(x i b) si = 0 g 3 log ( | x i b | +1 ) donde g3= n (| x1 b | 1)...(| x n b | 1) y como valor b suele tomarse la media aritmética o geométrica de los datos. Infnormal_3GEST.doc 8.2 Valor 13/03/2015 [email protected] 14 Efecto que produce la transformación, según sea =1 : no transforma los datos. Valores >1 Se separan los valores altos de x y se comprimen los menores; tanto más cuanto mayor sea . Valores <1 trabaja al revés, separando los pequeños y comprimiendo los grandes. Estas familias incluyen en particular las transformaciones log x, 8.3 x y 1/x. Valor óptimo de Una vez elegida la familia (T1 ó T2 de 8.1), buscamos el mejor valor de aplicando el criterio de máxima verosimilitud: si un miembro de la familia de transformaciones produce datos compatibles con la Normalidad, la verosimilitud (o log-verosimilitud) normal alcanzará su valor máximo. n 1 n 1 2 log( S ) , El EMV será por tanto el valor que maximiza la log-verosimilitud: 2 2 donde S2 representa la cuasivarianza muestral de los datos transformados; Equivalentemente, es el valor que maximiza L () = - log S2 o sea, el que minimiza S2 . Las salidas gráficas de los programas suelen proporcionar plots (, S2 ) para detectar de forma aproximada el valor óptimo de . 8.4 Conveniencia de transformar los datos para conseguir normalidad Los contrastes T2 de localización son robustos para falta de asimetría ó kurtosis y los niveles de significación pueden mantenerse para datos aproximadamente normales. La falta de normalidad por otras razones (por ejemplo mixtura de normales) les afecta más. La normalidad multivariante muchas veces falla porque se da una de estas dos situaciones: Situación 1: Las marginales son aproximadamente simétricas y las relaciones de dependencia son aproximadamente lineales, pero hay unos pocos valores atípicos (outliers). Solución : Eliminamos los outliers, o utilizamos estimadores robustos de y . (ver las opciones Trimmed y Winsorized de SAS/ Proc Univariate) Situación 2: Las marginales son asimétricas en su mayor parte y aparecen relaciones no lineales entre variables. Solución : Transformamos los datos en busca de simetría y relaciones lineales entre componentes. Infnormal_3GEST.doc 13/03/2015 [email protected] INDICE del Tema2: Inferencias en la Np 0 Notación 1 Distancia de Mahalanobis 2 Estimadores puntuales de y 3 Contrastes y regiones de confianza para 3.1 Test 2 3.2 Test 2 de Hotelling; propiedades 3.3 Contrastes sobre una o varias combinaciones lineales de H0: A=b 3.3.1 Contraste general A=b (para A cualquier matriz qxp y b cualquier vector de Rp) 3.3.2 Aplicación: Contraste de Simetría H0: 1= 2 (2 muestras relacionadas) Aplicación 2: Análisis de la Varianza con medidas repetidas Aplicación 3: Tendencia Polinomial del Crecimiento TPC 3.4 3.4.1 3.4.2 3.4.3 Intervalos de confianza para combinaciones lineales: I. de C. para at Para una función lineal: at Para r combinaciones lineales {ait }i=1...r preespecificadas: A Para r combinaciones lineales no preespecificadas: A 5 5.0 Comparación de medias de DOS poblaciones Np independientes Comparación de matrices de dispersión en DOS poblaciones Np independientes H0: 1= 2 (muestras independientes) 5.1 H0: 1= 2 muestras independientes (asumiendo 1= 2 = ) 5.2 H0: 1= 2 muestras independientes (sin asumir 1= 2 = n1 = n2 = n0 se reduce al problema de una sola muestra 5.2.1 n1 ≠ n2 problema de Beherens-Fisher 5.2.2 Resumen H0: 1= 2 Comparación de medias p-dim en 2 poblaciones Np 5.3 6 Contrastes de normalidad H0: X ~ Np ó H0: X ~ Np(, ) 6.1 Utilizando contrastes de ajuste univariantes 6.2 Utilizando características multivariantes de la Np 6.2.1 Plot de Normalidad multivariante 6.2.2 Contraste basado en Medida de Asimetría multivariante (skewness) 6.2.3 ... y en una Medida de Kurtosis multivariante (skewness) 7 7.1 7.2 7.3 Outliers multidimensionales/ Tests basados en distancias de Mahalanobis. Observación más alejada Alternativa Razón de varianzas generalizadas 8 8.1 8.2 8.3 8.4 Transformaciones para obtener Normalidad Transformaciones univariantes Efecto de la transformación, según sea Valor óptimo de Conveniencia de transformar los datos para conseguir normalidad Apéndice 1 Computación secuencial de momentos muestrales 15 Infnormal_3GEST.doc 13/03/2015 [email protected] 16 Apéndice 1 Computación secuencial de momentos muestrales Cómo se modifica la media muestral y la matriz de covariancias empíricas al añadir a la muestra una nueva observación xn+1 (resp. al eliminar una de ellas, xn). Esto permite calcular los momentos muestrales de forma secuencial sin necesidad de manejar la matriz de datos completa.
© Copyright 2024