distmultiv.doc 08/03/2016 [email protected] 1 Tema 1: Distribuciones Multivariantes 1.- Conceptos de Repaso. Leyes de Probabilidad Conjunta. Leyes Marginales. Leyes condicionadas. Independencia. Momentos. 2.- Matrices aleatorias X1 X11 ... X1p X2 Matriz aleatoria nxp dimensional X= ... ... = (Xij); Vector aleatorio p-dim X= . ... X n1 ... X np Xp EX1 μ1 EX 2 μ 2 Esperanza o media del v.a. (vector aleatorio) X es el vector µ= EX= = ... ... EX p μ p Análogamente, esperanza o media de la matriz aleatoria X es la matriz nxp EX= (EXij)= (µij) Transformaciones lineales de vectores o matrices aleatorias X: a11 ... a1p c1 Sea Y=AX+C con A= y C= ... constantes. Entonces, EY= A EX + C. c a k1 ... a kp k Sea Y=AXB+ C con A, B y C matrices de constantes. Entonces, EY= A EX B+ C. Matriz de varianzas-covarianzas Σ X (o matriz de dispersión) de un vector aleatorio X: Es la matriz Σ X de término genérico Cov(X i , X j ): (X1 -μ1 ) 2 ... (X1 -μ1 )(X p -μ p ) =E (X -μ )(X -μ ) ... (X p -μ p ) 2 p p 1 1 Σ X = Cov(X)= E(X- µ)(X- µ)t = Var X1 ... Cov(X1 , X p ) = Cov(X , X ) ... Var X p p 1 = (σ ij ) Σ X = E(XXt)- EX EXt (generaliza la conocida relación VarX=EX2- E2X). Transformaciones lineales: Sea Y=AX+C. Entonces Σ Y = Α Σ X At. En efecto, Σ Y = E(Y- µ Y )(Y- µ Y )t = E(AX+C- Αµ-C)( AX+C- Αµ-C )t =A E(X- µ)(X- µ)t At= Α Σ X At Matriz de correlaciones R X de un vector aleatorio X: Es la matriz R X de término genérico Corr(X i , X j )= ρ ij = R X = D-1/2 Σ X D-1/2, 1 siendo D-1/2 = diag( , ... , σ11 σij σii σ jj σ 0 11 1 ) ; D= σ pp σ pp 0 distmultiv.doc 08/03/2016 [email protected] Matriz de Covarianzas para dos vectores aleatorios X e Y: Cov(X,Y)= ( Cov(X i , Y j ))= E(X-EX)(Y-EY)t Generaliza la matriz de dispersión, pues Σ X = Cov(X,X) Transformaciones lineales. Cov(AX+C, BY+D)= A Cov(X,Y) Bt 3.- Repaso de Álgebra y Geometría i) (AB)t=B t A t; det(A)=det(At); ii) P ortogonal: PPt=PtP=I; Pt=P-1; det(AB)= detA det B; (AB) -1= B-1 A-1; (At)-1= (A-1)t. La transformación x→ Px es en este caso un giro de ejes. iii) Valores propios λ i y vectores propios x i de una matriz simétrica semidefinida positiva A: Ax i =λ i x i ; λ i ≥0 ∀i; rg(A)=nº de autovalores positivos u 1 ... up vectores propios unitarios (u i t u i =1) y ortogonales (u i t u j =0) asociados a λ 1 ... λ p iv) Diagonalización (Pt Σ P= Λ) y reconstrucción (Σ = P Λ Pt) de Σ a partir de los λ i y los u i : Si Λ=diag(λ 1 ,..., λ p ) y P= (u 1 |...|u p ), se tiene que Σ P=P Λ ...y como P es ortogonal (PtP=I=PPt), tenemos: Pt Σ P=Λ y Σ = PΛ Pt Nota: tr(A)= ∑ i λ i Det(A)= ∏λ i i v) A simétrica es definida positiva (se nota A>0) si: A simétrica es semidefinida positiva (se nota A≥0) si: xtAx>0 ∀x,; λ i >0 ∀i. xtAx≥0 ∀x,; λ i ≥0 ∀i. vi) Si Σ es una matriz pxp simétrica y Σ≥0, existe una matriz B pxp tal que Σ = B Bt. En efecto, B= PΛ1/2 verifica la condición: B Bt= PΛ1/2 Λ1/2 Pt = PΛ Pt= Σ vii) A idempotente (AA=A) y simétrica (At=A). Sus autovalores serán 1 ó 0 (pues λx=Ax=AAx=Αλx=λ2x ⇒λ =1 ó 0) rg(A)= traza(A). En efecto, rg(A)=nº λ 's positivos =traza(Λ), pues los λ 's son 0's y 1´s, pero traza(Λ)=traza(Pt Α P)=traza(PPt Σ)=traza(A) ; recuerda que traza(AB)=traza(BA) viii) Subespacio vectorial generado por las columnas de A (todas sus c.l. posibles): ImA= [A]={Ax; x∈Rp} (pues para cada x, Ax es una c.l. de las columnas de A) ix) Proyección ortogonal del punto x sobre conjunto S, en particular, el subespacio [A]: proy[A] x Es el punto de [A] más próximo a x. Su forma es P [A] x, siendo P [A] =A(AtA)-1At la matriz de proyección sobre [A]. P [A] es idempotente y simétrica (de hecho todas las matrices de proyección y sólo ellas lo son) Todo vector se descompone en dos ortogonales: x= P[A]x + P[A]⊥x x) Σ es matriz de varianzas covarianzas de un vector x ⇔ Σ es simétrica definida no negativa demo: ∀a, atΣa=Var(atx) ≥0 ; Σ=BBt y~ (0,I) x=By~ (0,BBt) By~ (0, Σ) 2 distmultiv.doc 08/03/2016 [email protected] 3 4.- Esperanza Condicionada Sea X un vector aleatorio y sea H una función que transforma X. E(H(X)/Y=y) es el valor esperado de H(X) utilizando la ley de X condicionada por Y=y. E(H(X)/Y) es una v.a. función de Y, que toma el valor E(H(X)/Y=y) cuando Y=y. Propiedades: i) Si C es constante, E(C/Y)=C Esperanza de constante ii) E(aX+b/Y)= a E(X/Y)+ b Linealidad iii) E(E(X/Y))= EX Esperanza iterada iv) E(X/Y)=C ⇒ Cov(X,Y)=0 Si no depende de Y v) Var(X/Y)= E(X2/Y) - E2(X/Y) Varianza condicionada vi) Var(X)= Var(E(X/Y)) + E(Var(X/Y)) Regresión Teórica: i) Se define la función de regresión teórica de Y sobre X como la función H(X) que más se parece a Y con el criterio LSE, es decir, hace mínimo el error cuadrático medio esperado, E(Y-H(X))2. Esta función resulta ser H(X)=E(Y/X) siempre. Si X es un vector aleatorio p-dim, la superficie H(X 1 , ..., X n-1 ) que mejor aproxima la v.a. X n en el sentido LSE es pues la esperanza condicionada H(X 1 , ..., X n-1 )= E(X n /X 1 , ..., X n-1 ). ii) Se define la función de regresión LINEAL teórica de Y sobre X, como la función LINEAL de X, H(X), que minimiza E(Y-H(X))2. Nota: Cuando la curva de regresión teórica E(X n /X 1 , ..., X n-1 ) resulta ser lineal en X 1 , ..., X n-1 , directamente ésta será también la regresión lineal. 5.- Distribución Normal 5.1 Normal Univariante Densidad: f X (x)= X~ N (µ , σ2) 1 x-μ 2 - ( ) 1 e 2 σ para x∈R. 2πσ Media E(X)=µ i) Transformaciones lineales: aX+b ~ N (aµ+b, a2σ2) ii) Función característica: ϕ X (t)= exp ( i t µ - iii) Reproductividad: X~ N(µ X ,σ X 2), Y~ N(µ Y ,σ Y 2) independientes Varianza Var(X)=σ2. 1 2 2 t σ) 2 ⇒ X+Y~ N (µ X +µ Y ,σ X 2+σ Y 2) [X, Y independientes, X+Y ~ N] ⇒ [X~ N e Y~ N] Recíprocamente: En definitiva, para X e Y v.a. independientes: X+Y ~ N ⇔ X~ N e Y~ N … y lo mismo para n variables independientes: X 1 + ... +X n ~ N ⇔ X 1 ~ N ... y X n ~ N iv) Cuadradados: X ~ N(0,1) ⇒ X2 ~ χ2 1 X 1 ... X n v.a.i.i.d. N(0,1) ⇒ X 1 2+ ... +X n 2 ~ χ2 n X 1 ... X n v.a.i. (n grados de libertad) N (µ i ,1) ⇒ X 1 2+ ... +X n 2 ~ χ2 n (δ) con δ= µ 1 2+ ... +µ n 2 (descentralidad) distmultiv.doc v) 08/03/2016 4 Momentos muestrales en el muestreo de la N 1 : Si X 1 ... X n v.a.i.i.d. N 1 (µ,σ2), tenemos que X ~ N (µ, vi) [email protected] 1 2 2 1 n 1 σ ); σ = ∑ i=1 (X i -X) 2 , independiente de X ; 2 n n σ ∑ n i=1 (X i -X) 2 ~ χ2 n-1 X ~ t n (n g.de l.) Y/n Distribución t n : [ X ~ N (0,1), Y ~ χ2 n , independientes] ⇒ vii) Distribución F n,m : [ X ~ χ2 n , Y ~ χ2 m , independientes ] ⇒ X/n ~ F n,m (n,m g.de l.) Y/m viii) Distribución F descentrada: [ X ~ χ2 n (δ) , Y ~ χ2 m , independientes ] ⇒ X/n ~ F n,m (δ) Y/m 5.2 Normal Multivariante N p X ~ N p (µ, Σ); dimensión p, media µ, dispersión Σ . Definición 1) El v.a. X= (X 1 , ..., X p ) tiene distribución N p (µ, Σ) si su densidad es de la forma = f ( x) 1 ( 2π ) p t 1 exp − ( x − µ ) Σ -1 ( x − µ ) ; x ∈ R p 2 Σ siendo µ un vector cualquira de Rp y Σ cualquier matriz simétrica definida positiva. para p=1 tenemos la normal univariante ya estudiada. Definición 2) más general El v.a. X= (X 1 , ..., X p ) tiene distribución Normal multivariante (N p ) si ∀a∈Rp, at X ~ N 1 (es decir, si toda combinación lineal de sus componentes es normal univariante) Esta segunda definición de N p es más general que la primera e incluye tanto las normales no singulares (Σ >0) -con densidad según la Def.1-, como las degeneradas (Σ ≥ 0, | Σ | =0), sin densidad. Propiedades de la N p : Si X ~ N p , existen E(X)= µ y Cov(X)= Σ i) Momentos: ii) Forma de f: Regiones de equidensidad de un vector X ~ N p (µ, Σ) con Σ >0 f X (x)=c ⇔ ( x-μ ) Σ -1 ( x-μ ) =c* t El corte de la densidad f X (x) a una altura c, E c ={x/ ( x-μ ) Σ -1 ( x-μ ) =c* }, es un elipsoide t (elipse si p=2). Σ determina la forma del elipsoide y c su tamaño. Está centrado en µ . Los autovectores de Σ determinan las direcciones de los ejes principales del elipsoide y los autovalores, su longitud. Para p=2 podemos visualizar la función de densidad en forma de campana. Las elipses de equidensidad aparecen al cortar f (x,y) por planos paralelos a la base. Al crecer c disminuye su tamaño manteniendo la forma (son elipses homotéticas). distmultiv.doc iii) iv) 08/03/2016 [email protected] 5 1 t' Σ t) 2 Toda transformación lineal (de cualquier dimensión!!) de un vector Normal es Normal. ϕ X (t)= exp ( i t' µ - Función característica: X ~ N p , Y= AX+B ⇒ Y ~ N q ( Aµ+B, A Σ At ) En consecuencia, ∀a∈R aX ~ N p ( aµ, a2 Σ ), puesto que aX ≡ AX con A= a I p ∀a∈Rp atX ~ N 1 ( atµ, at Σa), puesto que atX ≡ AX con A= at Reordenaciones: Y=PX con P matriz de permutación, es normal (directo y como transf.) v) Las marginales de cualquier dimensión de un vector normal son normales: Troceamos el vector X ~ N p (µ, Σ) en dos subvectores X (1) y X (2) de dimensiones k y p-k respectivamente. Se parte µ y Σ de forma congruente: X (1) μ (1) Σ Σ X= ;= μ ;= Σ 11 12 X μ Σ 21 Σ 22 (2) (2) Entonces, y aplicando iv), X (1) = B 1 X para B 1 =(I k | 0) kxp X (1) ~ N k (B 1 µ, B 1 Σ B 1 t ) ≡ N k (µ (1) , Σ 11 ) Análogamente, X (2) = B 2 X para B 2 =( 0 | I p-k ) (p-k)xp , luego X (2) ~ N k (µ (2) , Σ 22 ). En particular, cada componente X i de un vector normal es N 1 , pues X i =(0 …1…0) X vi) El recíproco de v) NO es cierto: Desafortunadamente, aunque las componentes de un vector sean normales, no se tiene garantizado que la distribución conjunta sea normal. Por ejemplo: X~N 1 (0,1) Y=X si |X|>1 Y=-X si |X|<1. Y es tb N 1 (0,1) pero: 0<p(X+Y=0)=φ(1)- φ(-1)<1 ⇒ X+Y no es N 1 ⇒ (X,Y) NO es N2 Si se detecta falta de normalidad en una componente (tests de ajuste de Kolmogoroff, Liliefords, χ2, Shapiro-Wilks ...), la normalidad conjunta será rechazada. Por contra, aunque una por una todas las componentes superen la prueba de Normalidad univariante, la normalidad multivariante del vector no está garantizada. Por ello resulta conveniente desarrollar tests específicos basados en propiedades multivariantes para detectar falta de normalidad conjunta. Los estudiaremos más adelante. vii) Bajo normalidad conjunta, independencia e incorrelación equivalen. (f.c.) Si X(1) y X(2) son dos vectores aleatorios con ley conjunta Normal (X(1), X(2)) ~ Np , entonces X(1), X(2) independientes ⇔ Cov(X(1), X(2))= 0 (demo: ϕX(t)= ϕX1(t1) ϕX2(t2)) Nota: NO vale que X(1) y X(2) sean normales por separado. Es necesaria la normalidad conjunta. viii) Reproductividad: La suma de Np independientes es Np (f.c.) X1 , X2 v.a.i. Xi ~ Np (µi , Σ i) ⇒ X1+ X2 ~ N p (μ1 +μ 2 ,Σ1 +Σ 2 ) Sean X1 ... Xn v.a.i. Xi ~ Np (µi , Σ i) y sean a1 ... an constantes reales. entonces n n n i=1 i=1 i=1 Y= ∑ a i X i ~ N p (∑ a iμ i ,∑ a i2 Σ i ) Si además, las Xi son igualmente distribuidas, n entonces Y= ∑ a i X i ~ N p ((a1 +...+a n )μ, (a 12 +...+a 2n )Σ) i=1 distmultiv.doc 08/03/2016 [email protected] 6 1 Σ) n Recíprocamente, la suma de vectores independientes es Np sólo si cada sumando es Np En particular, la media muestral X n de una m.a.s. Np (µ, Σ) es Np (µ, ix) x) Condicionadas: X Si ~ N2 , las funciones de regresión de Y sobre X y de X sobre Y son rectas. Y La versión multivariante también se verifica (seguimos la notación de v para x, µ y Σ): X (1) Para X= ~ Np (µ, Σ) las leyes condicionales (para Σ>0) son éstas: X (2) X(2)/ X(1)= x1 ~ Np-k (µ(2) + Σ21 Σ11-1 (x1 - µ(1)), Σ22 - Σ21Σ11-1 Σ12) X(1)/ X(2)= x2 ~ Nk (µ(1) + Σ12Σ22-1 (x2 - µ(2)), Σ11 - Σ12Σ22-1 Σ21) Así, la esperanza condicionada µ(2) + Σ21 Σ11-1 (x1 - µ(1)) resulta lineal en x1, luego es también la regresión lineal de X(2) sobre X(1). La matriz de dispersión de la ley condicional, Σ22 - Σ21Σ11-1 Σ12, sorprendentemente, no depende del valor x1 observado. Se nota como Σ22.1 y es la matriz de covarianzas de X(2) tras eliminar el efecto de X(1). Las correlaciones calculadas a partir de esta matriz de covarianzas correlaciones parciales de X(2) conocido X(1). xi) Σ22.1 se denominan Teorema de representación La distribución Np(µ, Σ) se obtiene transformando linealmente variables N1(0,1) independientes En efecto: diagonalizando Σ, Pt Σ P= Λ, Σ= P Λ Pt ; tomamos B=P Λ1/2, de forma que B Bt =Σ. Tomo ahora X1 ... Xn v.a.i.i.d. N1 (0,1). El vector X= (X1 , ... , Xn)t será Np (0,In), puesto que toda c.l. de sus componentes será N1 (por la reproductividad de la N1). Entonces, Y=B X+ µ ~ Np (µ, Σ) Nota: Este resultado es muy importante para desarrollos teóricos y además permite simular observaciones Np a partir de N1(0,1) independientes (transformándolas mediante B=P Λ1/2). Corolario: Existe la Np (µ, Σ) ∀µ y ∀ Σ de dispersión (una matriz es de dispersión si y sólo si es simétrica y semidefinida positiva; además, cuando es definida positiva, la distribución admite densidad –que es la dad en la definición 1 de Np) x) Siempre es posible transformar linealmente un vector para obtener componentes incorreladas (bajo normalidad conjunta, incorrelación equivale a independencia). Por ejemplo, si p=2, esta transformación consigue normales centradas e incorreladas: cos α sen α 2 σ12 Y=A(X-µ) con A= ; siendo tg2α= σ11 - σ 22 -sen α cos α la transformación A es ortogonal (giro de ejes de magnitud α en el plano) Ya en general, se obtiene el mismo resultado transformando por la matriz de paso P=[u1|...|up]. Las columnas ui son vectores propio unitarios ortogonales de Σ. En efecto, el vector Y=Pt X resulta de componentes independientes, pues Pt Σ P= Λ= diag(λ1, ... ,λp) , autovalores de Σ. La transformación P es ortogonal, así que corresponde a un giro de ejes en Rp. Este giro hace coincidir los ejes de coordenadas con los ejes principales del elipsoide de inercia de X (elipsoide tal que una uniforme sobre él tiene los mismos momentos de orden 1 y 2 que el vector X) Premultiplicando Y por Λ-1/2 = diag(λ1-1/2, ... , λp-1/2) se obtienen componentes incorreladas y de varianza 1: Z= Λ-1/2 Y= Λ-1/2 Pt X, ⇒ ΣZ = Λ-1/2 Pt Σ P Λ-1/2 Λ-1/2 Λ Λ -1/2 =I distmultiv.doc 08/03/2016 [email protected] 7 5.3 Teorema Central del Límite Multivariante 5.3.1 Resultados previos i) La distribución de un vector aleatorio X queda determinada por la distribución de todas las combinaciones lineales t’X de sus componentes, puesto que ϕX(t)= E (ei t' X )= ϕ t' X (1) ii) Convergencia en Ley de vectores aleatorios Diremos que la sucesión de vectores aleatorios p-dimensionales X1 ... Xn ... converge en ley al vector aleatorio Y (o a la distribución FY) si las funciones de distribución FXn convergen a FY. Definición: iii) L →Y {X n }n=1 ∞ Teorema de Cramer y Wold: cuando lim FXn (x) = FY (x) ∀x de continuidad de FY n →∞ L →Y {X n }n=1 ∞ ⇔ ∀α∈Rp , {α X } t ∞ n n=1 L → αt Y La convergencia en ley de vectores aleatorios p-dimensionales equivale a la convergencia en ley en R de todas sus posibles combinaciones lineales (v.a. unidimensionales). Esto permite trabajar con convergencias de funciones de distribución en R (más manejables) en lugar de trabajar en Rp. Esta idea se aplica con frecuencia en análisis multivariante y ayuda a resolver muchos problemas: Consiste en reducir un problema multivariante a una colección de problemas univariantes que sabemos resolver. 5.3.2 TCL para vectores aleatorios i.i.d. TCL Univariante: X1, X2, ... Xn ... v.a.i.i.d. 1(µ,σ2) ⇒ L → N1 (0,1) n (X n - μ ) / σ [1] TCL Multivariante: Sea X1, X2, ... Xn ... una sucesión de vectores aleatorios p-dimensionales independientes igualmente distribuidos, de media µ y dispersión Σ. 1 n L n (X n - μ ) → N p (0, Σ) La sucesión de medias muestrales X n = ∑ X i verifica: n i=1 En efecto: 1 ∀α∈Rp , αt X1 ... αt Xn ... son v.a.i.i.d. 1(αt µ, αt Σα); luego αt X n ~ 1(αt µ, αt Σα) n t t α Xn - α μ L y aplicando [1] a la sucesión αt X n se tiene que → N(0,1), t αΣα/n L L o sea, n (α t X n - α t μ) es decir, α t n (X n - μ) → N(0, α t Σ α) → N(0, α t Σ α) y por el Th. de Cramer-Wald se tiene el resultado: L n (X n - μ ) → N p (0, Σ) 5.3.3 Delta-Método g: Rp → Rp es diferenciable, Si L n (X n - μ ) → N p (0, Σ) y Entonces, t δ(g(t)) δ(g(t)) n g(X n ) - g(μ) → N p 0, Σ δ(t) t=μ δ(t) t=μ L Permite calcular de forma simple la ley asintótica de transformaciones de la media muestral. Ejercicios sobre la Np en http://www.eio.uva.es/~valentin/ad3d/anadat/np/jtv/p_sriva_c2.pdf (eio) 2,8,7,4,5,10,29,30 distmultiv.doc 08/03/2016 [email protected] 5.4 Distribución de formas cuadráticas en un vector normal i) x = (x1,…, xp )t ~ Np (0, Ip) ≡ x1 … xp v.a.i.i.d. N1(0,1) ⇒ i*) ii) x = (x1,…, xp )t ~ Np (0,σ2Ip) x = (x1,…, xp )t ~ Np (µ, Ip) ii*) x ~ Np (µ, σ2Ip) iii) x ~ Np (µ, Σ) con Σ > 0 xt x = ≡ ⇒ i=1 x i2 ~ χ2p xt x / σ2 ~ χ2p ≡ x1 … xp v.a.i.i.d. N1(0, σ2) x1 … xp v.a.i.i.d. N(µ,1) ⇒ xt x ~ χ2p (µt µ) ⇒ xt x / σ2 ~ χ2p (µt µ) ⇒ (x- µ)t Σ−1 (x- µ) ~ χ2p ⇒ vi) ∑ p xt Σ−1 x ~ χ2p (µt Σ−1 µ) x ~ Np (µ, Σ) con Σ > 0; A y B matrices de constantes. Entonces: xt Αx ~ χ2rg(A) (µt A µ) ⇔ A Σ es idempotente xt Αx independiente de Βx ⇔ B Σ A= 0 xt Αx independiente de xt Βx ⇔ A Σ B= 0 vii) T. Cochran: x ~ Np (µ, Σ) con Σ > 0; Ai simetrica de rango ki (i=1…p) ; A=A1+…+Ap, de rango k . k= k1+…+kp ^ AΣ es idempotente ⇒ las f.c. xtAix son χ2ki (µt Ai µ) independientes Ejemplo: Desviaciones a la media (xi- x ) x1 … xn v.a.i.i.d. N(µ,σ2) ⇒ x= (x1,…, xn )t ~ Nn (µ,In)x ~ Nn (µ,σ2In) n 1 1 media x n= ∑ i=1 x i = 1t x; n n 1 desviación i-ésima xi - x n = xi - 1t x ; n 1 t vector de desviaciones e = x- 1 x = x- 1 1 x = x- P1 x= (I- P1) x =P1┴ x n suma cuadrados ∑ i=1 (x i - x n ) = ║ e ║2 = e t e = xt P1┴ x 2 n Sumas de cuadrados en el modelo lineal valores observados y = Xβ+u ^ valores estimados residuos media observaciones centradas SST suma de cuadrados total SSm efecto de media general SSTm s.c. total corregida SSE s.c. residual SSR s.c. explicada modelo SSRm s.c. explicada regresores ~ Nn (Xβ, σ2 Ip) ŷ = Xβ =X(XtX)-1Xt y = PX y~ Nn (Xβ, σ2 PX) e= y - ŷ = PX┴ y y = P1 y y - y = P1┴ y ║y ║2 = yt y ║1 y ║2 = n y 2= yt P1 y ║ y -1 y ║2 = yt (I-P1)y =yt P1┴ y ║ y - ŷ ║2 = et e= yt PX┴ y ║ ŷ ║2 = yt PX y ║ ŷ -1 y ║2 = ║ PX y - P1 y ║2 =(y- y )t P1┴ (y- y ) 8 distmultiv.doc 08/03/2016 [email protected] 9 6.- Distribución de Wishart Wp(n , Σ) En el muestro de la N1 la distribución χ2 aparece como suma de cuadrados de N1(0,1) x1 n 2 x = ; xt x = ∑ x i2 ~ σ2 χ2n independientes: x1, x2, ... xn v.a.i.i.d. N1(0, σ ); i=1 x n Análogamente, la distribución de Wishart aparece en el muestreo de la Np: x1t x i1 x1, x2, ... xn v.a.i.i.d. Np(0, Σ ); individuo i xi = ; matriz de datos X = t x ip xn n C = Xt X =* ∑x x i t i = (cij) ~ Wp (n , Σ ) (nota: x i x it generaliza xi2 ) i=1 La ley conjunta de todos los elementos de C se denomina distribución de Wishart basada en n Normales p-dimensionales de dispersión Σ. Se nota como Wp (n , Σ ); p es la "dimensión" y n, los "grados de libertad", como en la χ2. La distribución de Wishart es el análogo multivariante de la χ2n: En el muestreo de la N1 se introduce la χ 2como la ley de la varianza muestral. En el muestro de la Np se introduce la Wp(k,Σ) como la ley de la matriz de covarianzas muestrales, S. La función de densidad de la Wishart es una expresión matemática compleja y de poco interés . Propiedades i) Generaliza la χ2: W1 ( k , σ2 ) ≡ σ2 χ2k ii) Reproductividad: C1 ~ Wp ( k1 , Σ ) , C2 ~ Wp ( k2 , Σ ), C1, C2 indeps. ⇒ C1 + C2~ Wp ( k1 + k2, Σ ) iii) Transformaciones: C ~ Wp ( k , Σ ) , B cualquier matriz qxp de constantes ⇒ B C Bt ~ Wq ( k , B Σ Βt ) En particular, para B= bt= (b1 ... bp) se tiene que bt C b ~ W1 ( k , bt Σ b ) ≡ σ2b χ2k, siendo σ2b = bt Σ b Nota: así, las f.c. (formas cuadráticas) en matrices Wishart son χ2. anteriormente veíamos la condición para que una f.c. x'Ax en un vector x~Np fuera χ2. Los elementos diagonales de C~W son χ2, pues tomando bt=(0...1...0), cii= bt C b ~ σii χ2k cij σij 1 1+ rij 1 1+ϕij 1 iv) C ~ Wp ( k , Σ ) ⇒ ln ~ N( ln , ), siendo rij = y ϕij = 2 1- rij 2 1- ϕij k-2 cii c jj σii σ jj v) C ~ Wp ( k , Σ ), σij = 0 ⇒ rij k- 1 ~ tk-1 (ley asint. y exacta del coef. de correlación muestral) 1- rij2 Formas cuadráticas generalizadas XtAX. XtAX~ Wp (r , Σ ) ⇔ A es i.p. de rango r ; Consecuencia: para x1, x2, ... xn m.a.s.. Np(µ, Σ ) x1, x2, ... xn m.a.s. Np(0, Σ ): independiente de XtBX~ Wp (s , Σ ) ⇔ AB=0 independiente de Xtb ⇔ Ab =0 se obtiene que Q= (n-1) S ~ Wp (n-1 , Σ ) independiente de X n distmultiv.doc 08/03/2016 [email protected] 10 7.- Distribuciones esféricas y elípticas http://fedc.wiwi.hu-berlin.de/xplore/tutorials/mvahtmlnode42.html http://artax.karlin.mff.cuni.cz/~branm1am/download/Elliptical%20Distributions24.ppsx Definición de distribución esférica Se dice que un vector aleatorio X p-dimensional es esférico (o simétricamente esférico) cuando su distribución no cambia bajo rotaciones del sistema de coordenadas., es decir, si la distribución de BX es la misma que la de X para toda matriz ortogonal B. Una definición equivalente cuando X admite función de densidad fX : n fX(x) depende de x sólo a través de ∑x 2 i = xt x i=1 las curvas de equidensidad de un v.a. esférico, son esferas de Rp centradas en O. Ejemplos de distribuciones esféricas: 1 1 i) f X (x)= exp - 2 x t x para x ∈ R p , p p 2σ ( 2π ) ( σ 2 ) ii) fX(x1, x2)= 2 π [1- (x12+ x22)] o sea X ~ Np( 0, σ2 Ip) para x12+ x22 < 1 en R2 iii) fX(x)= C para xt x < 1 , o sea X ~U(E1) siendo E1 la esfera unidad de Rp 1 iv) fX(x1, x2)= exp[- (x12+ x22)1/2] en todo R2 2π 1 v) Distribución de Cauchy bidimensional: fX(x)= exp[1+ (xt x)-3/2] en todo R2 2π vi) Normal contaminada: Sea Z una v.a. discreta que toma dos valores z1 y z2 con probabilidades p1 y p2 respectivamente. Sea X un vector aleatorio k-dimensional cuyas leyes condicionadas por Z=zi son N(0, σi2 Ik). Entonces fX(x)= p1 fX/Z=z1(x)+ p2 fX/Z=z2(x); se dice que X sigue distribución Normal contaminada. Propiedades i) Si X tiene distribución esférica bidimensional y p(X=0)=0, entonces T=X1/X2 ~ Cauchy ii) Si X tiene distribución esférica p-dimensional y p(X=0)=0, entonces Z1 T= ~ tp-1 2 Z2 +...+Z2p p-1 Definición de distribución elíptica Sea Z un vector aleatorio p-dimensional con distribución esférica, m∈Rp y A∈Mpxp constantes. El vector transformado X=AZ+m se dice que tiene distribución elíptica Propiedades i) EX= m; Cov(X)= cAAt . ii) fX(x)= fZ(A-1(x-m)) |det(A-1)|, aplicando teorema del Jacobiano de cambio de variable. iii) Las curvas de equidensidad sos elipsoides centrados en m: {x / (x-m)t M-1(x-m)= cte} Ejemplos de distribuciones elípticas: i) Np (µ, Σ) ii) fX(x)= p det(V)-1/2 en (x-m)t V-1 (x-m) < 1; por ejemplo, X= m+AZ, con Z uniforme en la esfera unidad y V=AAt. distmultiv.doc 08/03/2016 [email protected] 11 8.- Distribución T2 de Hotelling Es una distribución univariante. La distribución T2 de Hotelling es en realidad una F multiplicada por una constante. Aparece en el muestreo de la Np y permite construir contrastes sobre la media desconociendo Σ. Juega un papel paralelo al de la distribución t en el muestreo de la N1, que permite construir intervalos de confianza y contrastes sobre µ en ambiente de σ2 desconocida. Definición de distribución T2 Se dice que X ~ T2p, k cuando k- p+1 X ~ Fp, k-p+1 kp T2p, k ≡ kp Fp, k-p+1 k- p+1 Análogamente, se define la T2 descentrada a partir de la F descentrada: X ~ T2p, k (δ) cuando k- p+1 X ~ Fp, k-p+1(δ); kp Resultado importante W ~ Wp(k, Σ) , x ~ Np (µ, Σ), independientes i) versión centrada T2p, k (δ) ≡ kp Fp, k-p+1(δ) k- p+1 ⇒ k (x- µ)t W-1 (x- µ) ~ T2p, k con δ = µt Σ−1 µ k xt W-1 x ~ T2p, k (δ) ii) versión general Simbólicamente: k Np (0, Σ)t [Wp(k, Σ)]-1 Np (0, Σ) ≡ T2p, k es la versión multivariante de la ya conocida relación: tk ≡ (... que no depende de Σ !!!) [1] N(0,1) con N y χ2 independientes, χ /k cuyos cuadrados dan una versión equivalente, con aspecto similar a la multivariante [1]: 2 k k N(0,1) ( χ 2k )-1 N(0,1) ≡ F1, k Aplicaremos más adelante este importante resultado a la media muestral (~Np) y la matriz de covarianzas empíricas (~Wp) en el muestreo de la Np. Con éste, completamos tres resultados importantes sobre distribución de formas cuadráticas: 1) xt Α x ~ χ2rg(A) (µτ A µ) ⇔ A Σ es idempotente 2) bt W b ~ W1 ( k , bt Σ b ) ≡ σ2b χ2k, siendo σ2b = bt Σ b 3) k xt W-1 x ~ T2p, k(δ)≡ kp Fp, k-p+1(δ) con δ = µt Σ−1 µ k- p+1 9.- Distribución Beta Multivariante 9.1 Beta univariante Sean H ~ σ2 χ2mH ^ E ~ σ2 χ2mE independientes; sean T= H H T y V= . = E+H 1+T E Se dice que: mH m y E g. de l. : 2 2 m m T tiene una distribución Beta invertida de tipo II con H y E g.de l.; 2 2 V tiene una distribución Beta invertida de tipo I con V ~ β mH 2 , mE 2 mE T ~ FmH ,mE mH distmultiv.doc 08/03/2016 [email protected] 12 Las funciones de densidad de T y V son: mH -1 2 1 t Γ(a) Γ(b) ; 0 ≤ t < ∞ donde β (a,b) = m E +m H mH mE Γ(a+b) β( , ) (1+t) 2 2 2 mH mE -1 -1 1 f V (v)= v 2 (1-v) 2 ; 0 ≤ v ≤ 1 m m β( H , E ) 2 2 f T (t)= 9.2 Beta multivariante Sean ahora H ~ Wp (mH, Σ) y E ~ Wp (mE, Σ) independientes; La generalización multivariante natural de 9.1 llevaría a definir las matrices aleatorias T= H E-1 y V= H (E+H) -1 estudiando la distribución de sus autovalores λ, determinante y traza (producto y suma de los λ). En su lugar se utilizan estas otras dos matrices T y V : T= E-1/2 H E-1/2 (Beta II o invertida multivariante) V= (E+H) -1/2 H (E+H) -1/2 (Beta I multivariante) que tienen los mismos autovalores [pues ABu= λu ⇒ BA(Bu)= λ(Bu)] y por tanto los mismos determinantes (Πλi) y trazas (Σλi) pero presentan la ventaja de ser siempre simétricas y por tanto diagonalizables, Los resultados más interesantes sobre distribuciones de estas matrices, sus valores propios (máximo, mínimo, determinante, traza...) son éstos: 1) Λ de Wilks ó U-distribución: U= | I- V | = |E| ~ Up, mH, mE |E+H| Aparece en el TRV para los contrastes de linealidad en el Modelo Lineal Multivariante. Se conocen aproximaciones asintóticas F y χ2. 2) Traza de Pillay: V(s)= traza (V) = tr [ H(E+H) -1], con s= min(p, mH) Se conoce su distribución exacta, aproximaciones y ley asintótica χ2p.mH. T2g = mE traza( T ) = mE tr [ HE -1] 3) Traza de Lawley-Hotelling: Su distribución asintótica es χ2p.mH. 4) Mayor raíz de Roy: maxi ( λi ) , siendo λ1 ... λp los autovalores de HE-1 . En la práctica, estos cuatro estadísticos suelen transformarse en estadísticos F y se utilizan para contrastar una misma hipótesis multivariante (por ejemplo, hipótesisis de no efecto de ciertos regresores en modelos lineales de respuesta multivariante). En unos casos, el F estadístico es exacto y en otros casos es una aproximación asintótica. En muchos problemas los cuatro estadísticos dan lugar al mismo valor F y a los mismos pvalores, pero no siempre es así. La mayor raíz de Roy es una cota superior para los cuatro y da una cota inferior para el p-valor; por eso suele ignorarse cuando es el único significativo de los cuatro. distmultiv.doc 08/03/2016 [email protected] 13 10.- Apéndice: Transformaciones de vectores aleatorios 9.1 Distribuciones discretas (ya visto en Primer Curso) 9.2 Distribuciones continuas (Teorema del Jacobiano, de cambio de variable) * Transformación T y su inversa S: x1 = S1 (y1 , …, y k ) T1 (x1 , …, x k ) y1 = transf. directa transf. inversa S T xk= Sk (y1 , …, y k ) Tk (x1 , …, x k ) yk= * Det. Jacobiano: J1 de la transf. de la transf. ∂ x1 … x k = J inversa, S directa, T ∂ y1 … y k * Teorema del Jacobiano: ∫ f(x) dx = A ∫ T(A) ∂ y1 … y k ∂ x1 … x k Nota: J1 = 1 / J f (S(y)) | J1 | dy (∀f: Ρ → Ρ integrable; ∀A∈Β k) k * Aplicación del Teorema para funciones de densidad: Aplicando el teorema del jacobiano a la integral de una densidad fX, aparece un resultado general de gran utilidad práctica. Obtenemos la densidad fY de un vector Y que es función T de otro vector X, a partir de la densidad fX Enunciado: Sea X un vector aleatorio continuo con densidad fX . Sea Y= T (X), donde T es un difeomorfismo; sea S su transformación inversa. Entonces Y es continua y f Y (y) = f X (S(y)) | J1 | Demostración: ∀B∈Β k pY (B) = ∫ f (y) dy B por ser fY la densidad de Y ; Y p Y (B) = p X (S(B)) , y luego pX (S(B)) = por ser S(B) la contraimagen de B por T, ∫ f (x) dx = (aplicando el Th. del Jacobiano) = ∫ f X (S(y)) | J1 | dy , S(B) X ∫ f (y) dy = B y por tanto, Y ∫ B f (S(y)) | J1 | dy B X fY (y) = ∀B∈Β fX (S(y)) | J1 | k c.s. c.q.d. * Conclusión: Tenemos un procedimiento para calcular directamente la densidad de una nueva v.a. Y=T(X) a partir de la de X: J f Y (y1 … y k ) = f X (x 1 , … , x k ) 1 nueva densidad vieja densidad con las x i ∂S como función de las y: J1 = ∂y x 1 =S1 (y1 … y k ) módulo del ... Jacobiano de la x k =S k (y1 … y k ) transf. inversa distmultiv.doc 08/03/2016 [email protected] * Un resultado más general: Sea X un vector aleatorio continuo k-dimensional con densidad fX . Sea Y= T(X), donde T: Ρk → Ρk NO es un difeomorfismo porque no es una aplicación 1-1 de SX a SY . pero… SX se descompone en r regiones A1 … Ar cada punto imagen y tiene hasta r antecedentes, x1 ∈ A1 , …, xr ∈ Ar y en cada región Ai , T: Ai→ Ρk SÍ es un difeomorfismo, con inversa Si. Ejemplo: Sea T(x,y)= ( |x|, |y|) T no es difeomorfismo, pues no es 1-1: u > 0, v > 0 ⇒ T-1 (u,v) = { (u,v), (-u,v), (u,-v), (-u,-v) } … Pero en cada cuadrante Ci de Ρ2 la aplicación T SÍ que es 1-1 y difeomorfismo. con jacobiano J11 En C1 T(x,y)= (x,y); transf. inversa: S1(u,v)= (u,v) En C2 T(x,y)= (-x,y); “ : S2(u,v)= (-u,v) “ J12 En C3 T(x,y)= (-x,-y); “ : S3(u,v)= (-u,-v) “ J13 En C4 T(x,y)= (x,-y); “ : S4(u,v)= (u,-v) “ J14 La contraimagen por T de cualquier Borel B será entonces la unión de r conjuntos disjuntos Bi ≡ Si(B): T-1(B) = B1 + … + Br. r Así: pY (B) = pX (B1 + … + Br) = ∑ i =1 r pX (Bi) = (1) ∑ ∫f i =1 B i Y (y) dy = r ∫ ∑ B f i Y (y) dy i =1 ∀i, T:A i → T(A i ) es difeomorfismo, con inversa Si y Jacobiano J1i ; (1) p X (Bi ) = = Jacobiano) ∫ f X (Si (y)) J1i dy ∫ Bi f X (x) dx (T.= B f Yi (y) Por tanto la densidad de Y es: f Y (y) = ∑ r i =1 f iY (y) con f iY (y) = fX (Si (y)) | J1i | ∀i=1…r Nota: A veces todas las f iY (y) coinciden y eso agiliza mucho los cálculos, pues en ese caso: fY(y) = r f 1 Y (y) = r fX (S1 (y)) | J11 | 14
© Copyright 2024