1.1 - UVa

distmultiv.doc
08/03/2016
[email protected]
1
Tema 1: Distribuciones Multivariantes
1.- Conceptos de Repaso.
Leyes de Probabilidad Conjunta.
Leyes Marginales.
Leyes condicionadas.
Independencia.
Momentos.
2.- Matrices aleatorias
 X1 
 X11 ... X1p 
 
X2


Matriz aleatoria nxp dimensional X=  ...
...  = (Xij); Vector aleatorio p-dim X=   .
 ... 
 X n1 ... X np 
 


 Xp 
 EX1   μ1 

  
EX 2   μ 2 

Esperanza o media del v.a. (vector aleatorio) X es el vector µ= EX=
=
 ...   ... 

  
 EX p   μ p 
Análogamente, esperanza o media de la matriz aleatoria X es la matriz nxp EX= (EXij)= (µij)
Transformaciones lineales de vectores o matrices aleatorias X:
 a11 ... a1p 
 c1 


 
Sea Y=AX+C con A=      y C=  ...  constantes. Entonces, EY= A EX + C.
c 
 a k1 ... a kp 
 k


Sea Y=AXB+ C con A, B y C matrices de constantes.
Entonces, EY= A EX B+ C.
Matriz de varianzas-covarianzas Σ X (o matriz de dispersión) de un vector aleatorio X:
Es la matriz Σ X de término genérico Cov(X i , X j ):
 (X1 -μ1 ) 2
... (X1 -μ1 )(X p -μ p )



=E 
 (X -μ )(X -μ ) ...
(X p -μ p ) 2
 p p 1 1
Σ X = Cov(X)= E(X- µ)(X- µ)t =
  Var X1
... Cov(X1 , X p )
 


= 
  Cov(X , X ) ...
Var X p
p
1
 


 = (σ ij )


Σ X = E(XXt)- EX EXt (generaliza la conocida relación VarX=EX2- E2X).
Transformaciones lineales: Sea Y=AX+C. Entonces Σ Y = Α Σ X At. En efecto,
Σ Y = E(Y- µ Y )(Y- µ Y )t = E(AX+C- Αµ-C)( AX+C- Αµ-C )t =A E(X- µ)(X- µ)t At= Α Σ X At
Matriz de correlaciones R X de un vector aleatorio X:
Es la matriz R X de término genérico Corr(X i , X j )= ρ ij =
R X = D-1/2 Σ X D-1/2,
1
siendo D-1/2 = diag(
, ... ,
σ11
σij
σii σ jj
σ
0 
 11
1
) ; D= 


σ pp


σ pp 
0
distmultiv.doc
08/03/2016
[email protected]
Matriz de Covarianzas para dos vectores aleatorios X e Y:
Cov(X,Y)= ( Cov(X i , Y j ))= E(X-EX)(Y-EY)t
Generaliza la matriz de dispersión, pues Σ X = Cov(X,X)
Transformaciones lineales. Cov(AX+C, BY+D)= A Cov(X,Y) Bt
3.- Repaso de Álgebra y Geometría
i) (AB)t=B t A t;
det(A)=det(At);
ii) P ortogonal: PPt=PtP=I; Pt=P-1;
det(AB)= detA det B;
(AB) -1= B-1 A-1;
(At)-1= (A-1)t.
La transformación x→ Px es en este caso un giro de ejes.
iii) Valores propios λ i y vectores propios x i de una matriz simétrica semidefinida positiva A:
Ax i =λ i x i ; λ i ≥0 ∀i; rg(A)=nº de autovalores positivos
u 1 ... up vectores propios unitarios (u i t u i =1) y ortogonales (u i t u j =0) asociados a λ 1 ... λ p
iv) Diagonalización (Pt Σ P= Λ) y reconstrucción (Σ = P Λ Pt) de Σ a partir de los λ i y los u i :
Si Λ=diag(λ 1 ,..., λ p ) y P= (u 1 |...|u p ), se tiene que Σ P=P Λ
...y como P es ortogonal (PtP=I=PPt), tenemos: Pt Σ P=Λ y Σ = PΛ Pt
Nota: tr(A)= ∑ i λ i
Det(A)=
∏λ
i
i
v) A simétrica es definida positiva (se nota A>0) si:
A simétrica es semidefinida positiva (se nota A≥0) si:
xtAx>0 ∀x,;
λ i >0 ∀i.
xtAx≥0 ∀x,;
λ i ≥0 ∀i.
vi) Si Σ es una matriz pxp simétrica y Σ≥0, existe una matriz B pxp tal que Σ = B Bt.
En efecto, B= PΛ1/2 verifica la condición: B Bt= PΛ1/2 Λ1/2 Pt = PΛ Pt= Σ
vii) A idempotente (AA=A) y simétrica (At=A).
Sus autovalores serán 1 ó 0 (pues λx=Ax=AAx=Αλx=λ2x ⇒λ =1 ó 0)
rg(A)= traza(A). En efecto, rg(A)=nº λ 's positivos =traza(Λ), pues los λ 's son 0's y 1´s,
pero traza(Λ)=traza(Pt Α P)=traza(PPt Σ)=traza(A) ; recuerda que traza(AB)=traza(BA)
viii) Subespacio vectorial generado por las columnas de A (todas sus c.l. posibles):
ImA= [A]={Ax; x∈Rp} (pues para cada x, Ax es una c.l. de las columnas de A)
ix) Proyección ortogonal del punto x sobre conjunto S, en particular, el subespacio [A]: proy[A] x
Es el punto de [A] más próximo a x.
Su forma es P [A] x, siendo P [A] =A(AtA)-1At la matriz de proyección sobre [A].
P [A] es idempotente y simétrica (de hecho todas las matrices de proyección y sólo ellas lo son)
Todo vector se descompone en dos ortogonales: x= P[A]x + P[A]⊥x
x) Σ es matriz de varianzas covarianzas de un vector x ⇔ Σ es simétrica definida no negativa
demo: ∀a, atΣa=Var(atx) ≥0 ; Σ=BBt y~ (0,I) x=By~ (0,BBt) By~ (0, Σ)
2
distmultiv.doc
08/03/2016
[email protected]
3
4.- Esperanza Condicionada
Sea X un vector aleatorio y sea H una función que transforma X.
E(H(X)/Y=y) es el valor esperado de H(X) utilizando la ley de X condicionada por Y=y.
E(H(X)/Y) es una v.a. función de Y, que toma el valor E(H(X)/Y=y) cuando Y=y.
Propiedades:
i)
Si C es constante, E(C/Y)=C
Esperanza de constante
ii)
E(aX+b/Y)= a E(X/Y)+ b
Linealidad
iii)
E(E(X/Y))= EX
Esperanza iterada
iv)
E(X/Y)=C ⇒ Cov(X,Y)=0
Si no depende de Y
v)
Var(X/Y)= E(X2/Y) - E2(X/Y) Varianza condicionada
vi)
Var(X)= Var(E(X/Y)) + E(Var(X/Y))
Regresión Teórica:
i)
Se define la función de regresión teórica de Y sobre X como la función H(X) que más se parece
a Y con el criterio LSE, es decir, hace mínimo el error cuadrático medio esperado, E(Y-H(X))2. Esta
función resulta ser H(X)=E(Y/X) siempre.
Si X es un vector aleatorio p-dim, la superficie H(X 1 , ..., X n-1 ) que mejor aproxima la v.a. X n
en el sentido LSE es pues la esperanza condicionada H(X 1 , ..., X n-1 )= E(X n /X 1 , ..., X n-1 ).
ii) Se define la función de regresión LINEAL teórica de Y sobre X, como la función LINEAL de
X, H(X), que minimiza E(Y-H(X))2.
Nota: Cuando la curva de regresión teórica E(X n /X 1 , ..., X n-1 ) resulta ser lineal en X 1 , ..., X n-1 ,
directamente ésta será también la regresión lineal.
5.- Distribución Normal
5.1 Normal Univariante
Densidad: f X (x)=
X~ N (µ , σ2)
1 x-μ 2
- (
)
1
e 2 σ para x∈R.
2πσ
Media E(X)=µ
i)
Transformaciones lineales:
aX+b ~ N (aµ+b, a2σ2)
ii)
Función característica:
ϕ X (t)= exp ( i t µ -
iii)
Reproductividad:
X~ N(µ X ,σ X 2), Y~ N(µ Y ,σ Y 2) independientes
Varianza Var(X)=σ2.
1 2 2
t σ)
2
⇒ X+Y~ N (µ X +µ Y ,σ X 2+σ Y 2)
[X, Y independientes, X+Y ~ N] ⇒ [X~ N e Y~ N]
Recíprocamente:
En definitiva, para X e Y v.a. independientes:
X+Y ~ N ⇔ X~ N e Y~ N
… y lo mismo para n variables independientes: X 1 + ... +X n ~ N ⇔ X 1 ~ N ... y X n ~ N
iv)
Cuadradados:
X ~ N(0,1) ⇒ X2 ~ χ2 1
X 1 ... X n v.a.i.i.d. N(0,1) ⇒ X 1 2+ ... +X n 2 ~ χ2 n
X 1 ... X n v.a.i.
(n grados de libertad)
N (µ i ,1) ⇒ X 1 2+ ... +X n 2 ~ χ2 n (δ) con δ= µ 1 2+ ... +µ n 2 (descentralidad)
distmultiv.doc
v)
08/03/2016
4
Momentos muestrales en el muestreo de la N 1 : Si X 1 ... X n v.a.i.i.d. N 1 (µ,σ2), tenemos que
X ~ N (µ,
vi)
[email protected]
1 2 2 1 n
1
σ ); σ = ∑ i=1 (X i -X) 2 , independiente de X ; 2
n
n
σ
∑
n
i=1
(X i -X) 2 ~ χ2 n-1
X
~ t n (n g.de l.)
Y/n
Distribución t n : [ X ~ N (0,1), Y ~ χ2 n , independientes] ⇒
vii) Distribución F n,m : [ X ~ χ2 n , Y ~ χ2 m , independientes ] ⇒
X/n
~ F n,m (n,m g.de l.)
Y/m
viii) Distribución F descentrada: [ X ~ χ2 n (δ) , Y ~ χ2 m , independientes ] ⇒
X/n
~ F n,m (δ)
Y/m
5.2 Normal Multivariante N p
X ~ N p (µ, Σ); dimensión p, media µ, dispersión Σ .
Definición 1)
El v.a. X= (X 1 , ..., X p ) tiene distribución N p (µ, Σ) si su densidad es de la forma
=
f ( x)
1
( 2π )
p
t
 1

exp  − ( x − µ ) Σ -1 ( x − µ )  ; x ∈ R p
 2

Σ
siendo µ un vector cualquira de Rp y Σ cualquier matriz simétrica definida positiva.
para p=1 tenemos la normal univariante ya estudiada.
Definición 2) más general
El v.a. X= (X 1 , ..., X p ) tiene distribución Normal multivariante (N p ) si ∀a∈Rp, at X ~ N 1
(es decir, si toda combinación lineal de sus componentes es normal univariante)
Esta segunda definición de N p es más general que la primera e incluye tanto las normales no
singulares (Σ >0) -con densidad según la Def.1-, como las degeneradas (Σ ≥ 0, | Σ | =0), sin densidad.
Propiedades de la N p :
Si X ~ N p , existen E(X)= µ y Cov(X)= Σ
i)
Momentos:
ii)
Forma de f: Regiones de equidensidad de un vector X ~ N p (µ, Σ) con Σ >0
f X (x)=c ⇔ ( x-μ ) Σ -1 ( x-μ ) =c*
t
El corte de la densidad f X (x) a una altura c, E c ={x/ ( x-μ ) Σ -1 ( x-μ ) =c* }, es un elipsoide
t
(elipse si p=2). Σ determina la forma del elipsoide y c
su tamaño. Está centrado en µ . Los autovectores de
Σ determinan las direcciones de los ejes principales
del elipsoide y los autovalores, su longitud. Para p=2
podemos visualizar la función de densidad en forma
de campana. Las elipses de equidensidad aparecen al
cortar f (x,y) por planos paralelos a la base. Al crecer
c disminuye su tamaño manteniendo la forma (son
elipses homotéticas).
distmultiv.doc
iii)
iv)
08/03/2016
[email protected]
5
1
t' Σ t)
2
Toda transformación lineal (de cualquier dimensión!!) de un vector Normal es Normal.
ϕ X (t)= exp ( i t' µ -
Función característica:
X ~ N p , Y= AX+B ⇒
Y ~ N q ( Aµ+B, A Σ At )
En consecuencia, ∀a∈R aX ~ N p ( aµ, a2 Σ ), puesto que aX ≡ AX con A= a I p
∀a∈Rp atX ~ N 1 ( atµ, at Σa), puesto que atX ≡ AX con A= at
Reordenaciones: Y=PX con P matriz de permutación, es normal (directo y como transf.)
v)
Las marginales de cualquier dimensión de un vector normal son normales:
Troceamos el vector X ~ N p (µ, Σ) en dos subvectores X (1) y X (2) de dimensiones k y p-k
respectivamente. Se parte µ y Σ de forma congruente:
 X (1) 
 μ (1) 
Σ Σ 
X= 
;=
μ 
;=
Σ  11 12 

X 
 μ 
 Σ 21 Σ 22 
 (2) 
 (2) 
Entonces,
y aplicando iv),
X (1) = B 1 X para B 1 =(I k | 0) kxp
X (1) ~ N k (B 1 µ, B 1 Σ B 1 t ) ≡ N k (µ (1) , Σ 11 )
Análogamente, X (2) = B 2 X para B 2 =( 0 | I p-k ) (p-k)xp , luego X (2) ~ N k (µ (2) , Σ 22 ).
En particular, cada componente X i de un vector normal es N 1 , pues X i =(0 …1…0) X
vi)
El recíproco de v) NO es cierto:
Desafortunadamente, aunque las componentes de un vector sean normales, no se tiene
garantizado que la distribución conjunta sea normal. Por ejemplo: X~N 1 (0,1) Y=X si |X|>1 Y=-X si
|X|<1. Y es tb N 1 (0,1) pero: 0<p(X+Y=0)=φ(1)- φ(-1)<1 ⇒ X+Y no es N 1 ⇒ (X,Y) NO es N2
Si se detecta falta de normalidad en una componente (tests de ajuste de Kolmogoroff,
Liliefords, χ2, Shapiro-Wilks ...), la normalidad conjunta será rechazada.
Por contra, aunque una por una todas las componentes superen la prueba de Normalidad
univariante, la normalidad multivariante del vector no está garantizada. Por ello resulta conveniente
desarrollar tests específicos basados en propiedades multivariantes para detectar falta de
normalidad conjunta. Los estudiaremos más adelante.
vii) Bajo normalidad conjunta, independencia e incorrelación equivalen. (f.c.)
Si X(1) y X(2) son dos vectores aleatorios con ley conjunta Normal (X(1), X(2)) ~ Np , entonces
X(1), X(2) independientes ⇔ Cov(X(1), X(2))= 0
(demo: ϕX(t)= ϕX1(t1) ϕX2(t2))
Nota: NO vale que X(1) y X(2) sean normales por separado. Es necesaria la normalidad conjunta.
viii) Reproductividad: La suma de Np independientes es Np (f.c.)
X1 , X2 v.a.i. Xi ~ Np (µi , Σ i)
⇒
X1+ X2 ~ N p (μ1 +μ 2 ,Σ1 +Σ 2 )
Sean X1 ... Xn v.a.i. Xi ~ Np (µi , Σ i) y sean a1 ... an constantes reales.
entonces
n
n
n
i=1
i=1
i=1
Y= ∑ a i X i ~ N p (∑ a iμ i ,∑ a i2 Σ i )
Si además, las Xi son igualmente distribuidas,
n
entonces
Y= ∑ a i X i ~ N p ((a1 +...+a n )μ, (a 12 +...+a 2n )Σ)
i=1
distmultiv.doc
08/03/2016
[email protected]
6
1
Σ)
n
Recíprocamente, la suma de vectores independientes es Np sólo si cada sumando es Np
En particular, la media muestral X n de una m.a.s. Np (µ, Σ) es Np (µ,
ix)
x)
Condicionadas:
X
Si   ~ N2 , las funciones de regresión de Y sobre X y de X sobre Y son rectas.
Y
La versión multivariante también se verifica (seguimos la notación de v para x, µ y Σ):
 X (1) 
Para X= 
~ Np (µ, Σ) las leyes condicionales (para Σ>0) son éstas:
 X 
(2)


X(2)/ X(1)= x1 ~ Np-k (µ(2) + Σ21 Σ11-1 (x1 - µ(1)), Σ22 - Σ21Σ11-1 Σ12)
X(1)/ X(2)= x2 ~ Nk (µ(1) + Σ12Σ22-1 (x2 - µ(2)), Σ11 - Σ12Σ22-1 Σ21)
Así, la esperanza condicionada µ(2) + Σ21 Σ11-1 (x1 - µ(1)) resulta lineal en x1, luego es también la
regresión lineal de X(2) sobre X(1).
La matriz de dispersión de la ley condicional, Σ22 - Σ21Σ11-1 Σ12, sorprendentemente, no depende
del valor x1 observado. Se nota como Σ22.1 y es la matriz de covarianzas de X(2) tras eliminar el
efecto de X(1).
Las correlaciones calculadas a partir de esta matriz de covarianzas
correlaciones parciales de X(2) conocido X(1).
xi)
Σ22.1 se denominan
Teorema de representación
La distribución Np(µ, Σ) se obtiene transformando linealmente variables N1(0,1) independientes
En efecto: diagonalizando Σ, Pt Σ P= Λ, Σ= P Λ Pt ; tomamos B=P Λ1/2, de forma que B Bt =Σ.
Tomo ahora X1 ... Xn v.a.i.i.d. N1 (0,1). El vector X= (X1 , ... , Xn)t será Np (0,In), puesto que toda c.l.
de sus componentes será N1 (por la reproductividad de la N1). Entonces, Y=B X+ µ ~ Np (µ, Σ)
Nota: Este resultado es muy importante para desarrollos teóricos y además permite simular
observaciones Np a partir de N1(0,1) independientes (transformándolas mediante B=P Λ1/2).
Corolario: Existe la Np (µ, Σ) ∀µ y ∀ Σ de dispersión (una matriz es de dispersión si y sólo si es
simétrica y semidefinida positiva; además, cuando es definida positiva, la distribución admite
densidad –que es la dad en la definición 1 de Np)
x)
Siempre es posible transformar linealmente un vector para obtener componentes incorreladas
(bajo normalidad conjunta, incorrelación equivale a independencia).
Por ejemplo, si p=2, esta transformación consigue normales centradas e incorreladas:
 cos α sen α 
2 σ12
Y=A(X-µ) con A= 
;
 siendo tg2α=
σ11 - σ 22
 -sen α cos α 
la transformación A es ortogonal (giro de ejes de magnitud α en el plano)
Ya en general, se obtiene el mismo resultado transformando por la matriz de paso
P=[u1|...|up]. Las columnas ui son vectores propio unitarios ortogonales de Σ. En efecto, el vector
Y=Pt X resulta de componentes independientes, pues Pt Σ P= Λ= diag(λ1, ... ,λp) , autovalores de Σ.
La transformación P es ortogonal, así que corresponde a un giro de ejes en Rp. Este giro hace
coincidir los ejes de coordenadas con los ejes principales del elipsoide de inercia de X (elipsoide tal
que una uniforme sobre él tiene los mismos momentos de orden 1 y 2 que el vector X)
Premultiplicando Y por Λ-1/2 = diag(λ1-1/2, ... , λp-1/2) se obtienen componentes incorreladas y
de varianza 1: Z= Λ-1/2 Y= Λ-1/2 Pt X, ⇒ ΣZ = Λ-1/2 Pt Σ P Λ-1/2 Λ-1/2 Λ Λ -1/2 =I
distmultiv.doc
08/03/2016
[email protected]
7
5.3 Teorema Central del Límite Multivariante
5.3.1 Resultados previos
i)
La distribución de un vector aleatorio X queda determinada por la distribución de todas las
combinaciones lineales t’X de sus componentes, puesto que ϕX(t)= E (ei t' X )= ϕ t' X (1)
ii)
Convergencia en Ley de vectores aleatorios
Diremos que la sucesión de vectores aleatorios p-dimensionales X1 ... Xn ... converge en ley al
vector aleatorio Y (o a la distribución FY) si las funciones de distribución FXn convergen a FY.
Definición:
iii)
L
→Y
{X n }n=1 
∞
Teorema de Cramer y Wold:
cuando
lim FXn (x) = FY (x) ∀x de continuidad de FY
n →∞
L
→Y
{X n }n=1 
∞
⇔ ∀α∈Rp ,
{α X }
t
∞
n n=1
L

→ αt Y
La convergencia en ley de vectores aleatorios p-dimensionales equivale a la convergencia en
ley en R de todas sus posibles combinaciones lineales (v.a. unidimensionales). Esto permite trabajar
con convergencias de funciones de distribución en R (más manejables) en lugar de trabajar en Rp.
Esta idea se aplica con frecuencia en análisis multivariante y ayuda a resolver muchos
problemas: Consiste en reducir un problema multivariante a una colección de problemas
univariantes que sabemos resolver.
5.3.2 TCL para vectores aleatorios i.i.d.
TCL Univariante: X1, X2, ... Xn ... v.a.i.i.d. 1(µ,σ2) ⇒
L
→ N1 (0,1)
n (X n - μ ) / σ 
[1]
TCL Multivariante: Sea X1, X2, ... Xn ... una sucesión de vectores aleatorios p-dimensionales
independientes igualmente distribuidos, de media µ y dispersión Σ.
1 n
L
n (X n - μ ) 
→ N p (0, Σ)
La sucesión de medias muestrales X n = ∑ X i verifica:
n i=1
En efecto:
1
∀α∈Rp , αt X1 ... αt Xn ... son v.a.i.i.d. 1(αt µ, αt Σα); luego αt X n ~ 1(αt µ, αt Σα)
n
t
t
α Xn - α μ
L
y aplicando [1] a la sucesión αt X n se tiene que

→ N(0,1),
t
αΣα/n
L
L
o sea, n (α t X n - α t μ) 
es decir, α t n (X n - μ) 
→ N(0, α t Σ α)
→ N(0, α t Σ α)
y por el Th. de Cramer-Wald se tiene el resultado:
L
n (X n - μ ) 
→ N p (0, Σ)
5.3.3 Delta-Método
g: Rp → Rp es diferenciable,
Si
L
n (X n - μ ) 
→ N p (0, Σ) y
Entonces,
t
  δ(g(t)) 
 δ(g(t))  
n g(X n ) - g(μ)  
→ N p 0, 
 Σ 
 
  δ(t)  t=μ  δ(t)  t=μ 
L
Permite calcular de forma simple la ley asintótica de transformaciones de la media muestral.
Ejercicios sobre la Np en http://www.eio.uva.es/~valentin/ad3d/anadat/np/jtv/p_sriva_c2.pdf (eio) 2,8,7,4,5,10,29,30
distmultiv.doc
08/03/2016
[email protected]
5.4 Distribución de formas cuadráticas en un vector normal
i)
x = (x1,…, xp )t ~ Np (0, Ip)
≡
x1 … xp v.a.i.i.d. N1(0,1)
⇒
i*)
ii)
x = (x1,…, xp )t ~ Np (0,σ2Ip)
x = (x1,…, xp )t ~ Np (µ, Ip)
ii*) x ~ Np (µ, σ2Ip)
iii)
x ~ Np (µ, Σ) con Σ > 0
xt x =
≡
⇒
i=1
x i2 ~ χ2p
xt x / σ2
~ χ2p
≡
x1 … xp v.a.i.i.d. N1(0, σ2)
x1 … xp v.a.i.i.d. N(µ,1)
⇒
xt x
~ χ2p (µt µ)
⇒
xt x / σ2
~ χ2p (µt µ)
⇒
(x- µ)t Σ−1 (x- µ) ~ χ2p
⇒
vi)
∑
p
xt Σ−1 x
~ χ2p (µt Σ−1 µ)
x ~ Np (µ, Σ) con Σ > 0; A y B matrices de constantes. Entonces:
xt Αx ~ χ2rg(A) (µt A µ) ⇔ A Σ es idempotente
xt Αx independiente de
Βx ⇔ B Σ A= 0
xt Αx independiente de xt Βx ⇔ A Σ B= 0
vii) T. Cochran: x ~ Np (µ, Σ) con Σ > 0;
Ai simetrica de rango ki (i=1…p) ; A=A1+…+Ap, de rango k .
k= k1+…+kp ^ AΣ es idempotente ⇒ las f.c. xtAix son χ2ki (µt Ai µ) independientes
Ejemplo: Desviaciones a la media (xi- x )
x1 … xn v.a.i.i.d. N(µ,σ2)
⇒
x= (x1,…, xn )t ~ Nn (µ,In)x ~ Nn (µ,σ2In)
n
1
1
media
x n= ∑ i=1 x i = 1t x;
n
n
1
desviación i-ésima
xi - x n
= xi - 1t x ;
n
1 t
vector de desviaciones
e = x- 1 x = x- 1 1 x = x- P1 x= (I- P1) x =P1┴ x
n
suma cuadrados
∑ i=1 (x i - x n ) = ║ e ║2 = e t e = xt P1┴ x
2
n
Sumas de cuadrados en el modelo lineal
valores observados
y = Xβ+u
^
valores estimados
residuos
media
observaciones centradas
SST
suma de cuadrados total
SSm
efecto de media general
SSTm s.c. total corregida
SSE
s.c. residual
SSR
s.c. explicada modelo
SSRm s.c. explicada regresores
~ Nn (Xβ, σ2 Ip)
ŷ = Xβ =X(XtX)-1Xt y = PX y~ Nn (Xβ, σ2 PX)
e= y - ŷ = PX┴ y
y = P1 y
y - y = P1┴ y
║y ║2 = yt y
║1 y ║2 = n y 2= yt P1 y
║ y -1 y ║2 = yt (I-P1)y =yt P1┴ y
║ y - ŷ ║2 = et e= yt PX┴ y
║ ŷ ║2 = yt PX y
║ ŷ -1 y ║2 = ║ PX y - P1 y ║2 =(y- y )t P1┴ (y- y )
8
distmultiv.doc
08/03/2016
[email protected]
9
6.- Distribución de Wishart Wp(n , Σ)
En el muestro de la N1 la distribución χ2 aparece como suma de cuadrados de N1(0,1)
 x1 
n
 
2
x =   ;
xt x = ∑ x i2 ~ σ2 χ2n
independientes:
x1, x2, ... xn v.a.i.i.d. N1(0, σ );
i=1
x 
 n
Análogamente, la distribución de Wishart aparece en el muestreo de la Np:
 x1t 
 x i1 
 
 
x1, x2, ... xn v.a.i.i.d. Np(0, Σ ); individuo i xi =    ;
matriz de datos X =   
 t 
x 
 ip 
 xn 
n
C = Xt X =*
∑x x
i
t
i
= (cij) ~ Wp (n , Σ )
(nota: x i x it generaliza xi2 )
i=1
La ley conjunta de todos los elementos de C se denomina distribución de Wishart basada en n
Normales p-dimensionales de dispersión Σ.
Se nota como Wp (n , Σ ); p es la "dimensión" y n, los "grados de libertad", como en la χ2.
La distribución de Wishart es el análogo multivariante de la χ2n: En el muestreo de la N1 se
introduce la χ 2como la ley de la varianza muestral. En el muestro de la Np se introduce la Wp(k,Σ)
como la ley de la matriz de covarianzas muestrales, S.
La función de densidad de la Wishart es una expresión matemática compleja y de poco interés .
Propiedades
i) Generaliza la χ2:
W1 ( k , σ2 ) ≡ σ2 χ2k
ii) Reproductividad:
C1 ~ Wp ( k1 , Σ ) , C2 ~ Wp ( k2 , Σ ), C1, C2 indeps. ⇒
C1 + C2~ Wp ( k1 + k2, Σ )
iii) Transformaciones:
C ~ Wp ( k , Σ ) , B cualquier matriz qxp de constantes ⇒ B C Bt ~ Wq ( k , B Σ Βt )
En particular, para B= bt= (b1 ... bp) se tiene que
bt C b ~ W1 ( k , bt Σ b ) ≡ σ2b χ2k,
siendo σ2b = bt Σ b
Nota: así, las f.c. (formas cuadráticas) en matrices Wishart son χ2.
anteriormente veíamos la condición para que una f.c. x'Ax en un vector x~Np fuera χ2.
Los elementos diagonales de C~W son χ2, pues tomando bt=(0...1...0), cii= bt C b ~ σii χ2k
cij
σij
1 1+ rij 
1 1+ϕij 1
iv) C ~ Wp ( k , Σ ) ⇒ ln
~ N( ln
,
), siendo rij =
y ϕij =
2 1- rij
2 1- ϕij k-2
cii c jj
σii σ jj
v) C ~ Wp ( k , Σ ), σij = 0 ⇒ rij
k- 1
~ tk-1 (ley asint. y exacta del coef. de correlación muestral)
1- rij2
Formas cuadráticas generalizadas XtAX.
XtAX~ Wp (r , Σ ) ⇔ A es i.p. de rango r ;
Consecuencia: para x1, x2, ... xn m.a.s.. Np(µ, Σ )
x1, x2, ... xn m.a.s. Np(0, Σ ):
independiente de XtBX~ Wp (s , Σ ) ⇔ AB=0
independiente de Xtb
⇔ Ab =0
se obtiene que
Q= (n-1) S ~ Wp (n-1 , Σ )
independiente de X n
distmultiv.doc
08/03/2016
[email protected]
10
7.- Distribuciones esféricas y elípticas
http://fedc.wiwi.hu-berlin.de/xplore/tutorials/mvahtmlnode42.html
http://artax.karlin.mff.cuni.cz/~branm1am/download/Elliptical%20Distributions24.ppsx
Definición de distribución esférica
Se dice que un vector aleatorio X p-dimensional es esférico (o simétricamente esférico) cuando
su distribución no cambia bajo rotaciones del sistema de coordenadas., es decir, si la distribución de
BX es la misma que la de X para toda matriz ortogonal B.
Una definición equivalente cuando X admite función de densidad fX :
n
fX(x) depende de x sólo a través de
∑x
2
i
= xt x
i=1
las curvas de equidensidad de un v.a. esférico, son esferas de Rp centradas en O.
Ejemplos de distribuciones esféricas:
1
 1

i) f X (x)=
exp  - 2 x t x  para x ∈ R p ,
p
p
 2σ

( 2π ) ( σ 2 )
ii) fX(x1, x2)=
2
π
[1- (x12+ x22)]
o sea X ~ Np( 0, σ2 Ip)
para x12+ x22 < 1 en R2
iii) fX(x)= C para xt x < 1
, o sea X ~U(E1) siendo E1 la esfera unidad de Rp
1
iv) fX(x1, x2)=
exp[- (x12+ x22)1/2] en todo R2
2π
1
v) Distribución de Cauchy bidimensional: fX(x)=
exp[1+ (xt x)-3/2] en todo R2
2π
vi) Normal contaminada:
Sea Z una v.a. discreta que toma dos valores z1 y z2 con probabilidades p1 y p2 respectivamente.
Sea X un vector aleatorio k-dimensional cuyas leyes condicionadas por Z=zi son N(0, σi2 Ik).
Entonces fX(x)= p1 fX/Z=z1(x)+ p2 fX/Z=z2(x); se dice que X sigue distribución Normal contaminada.
Propiedades
i) Si X tiene distribución esférica bidimensional y p(X=0)=0, entonces T=X1/X2 ~ Cauchy
ii) Si X tiene distribución esférica p-dimensional y p(X=0)=0, entonces
Z1
T=
~ tp-1
2
Z2 +...+Z2p
p-1
Definición de distribución elíptica
Sea Z un vector aleatorio p-dimensional con distribución esférica, m∈Rp y A∈Mpxp constantes.
El vector transformado X=AZ+m se dice que tiene distribución elíptica
Propiedades
i) EX= m; Cov(X)= cAAt .
ii) fX(x)= fZ(A-1(x-m)) |det(A-1)|, aplicando teorema del Jacobiano de cambio de variable.
iii) Las curvas de equidensidad sos elipsoides centrados en m: {x / (x-m)t M-1(x-m)= cte}
Ejemplos de distribuciones elípticas:
i) Np (µ, Σ)
ii) fX(x)= p det(V)-1/2 en (x-m)t V-1 (x-m) < 1;
por ejemplo, X= m+AZ, con Z uniforme en la esfera unidad y V=AAt.
distmultiv.doc
08/03/2016
[email protected]
11
8.- Distribución T2 de Hotelling
Es una distribución univariante. La distribución T2 de Hotelling es en realidad una F multiplicada
por una constante. Aparece en el muestreo de la Np y permite construir contrastes sobre la media
desconociendo Σ. Juega un papel paralelo al de la distribución t en el muestreo de la N1, que permite
construir intervalos de confianza y contrastes sobre µ en ambiente de σ2 desconocida.
Definición de distribución T2
Se dice que X ~ T2p, k cuando
k- p+1
X ~ Fp, k-p+1
kp
T2p, k ≡
kp
Fp, k-p+1
k- p+1
Análogamente, se define la T2 descentrada a partir de la F descentrada:
X ~ T2p, k (δ) cuando
k- p+1
X ~ Fp, k-p+1(δ);
kp
Resultado importante
W ~ Wp(k, Σ) , x ~ Np (µ, Σ), independientes
i) versión centrada
T2p, k (δ) ≡
kp
Fp, k-p+1(δ)
k- p+1
⇒
k (x- µ)t W-1 (x- µ) ~ T2p, k
con δ = µt Σ−1 µ
k xt W-1 x ~ T2p, k (δ)
ii) versión general
Simbólicamente: k Np (0, Σ)t [Wp(k, Σ)]-1 Np (0, Σ) ≡ T2p, k
es la versión multivariante de la ya conocida relación: tk ≡
(... que no depende de Σ !!!) [1]
N(0,1)
con N y χ2 independientes,
χ /k
cuyos cuadrados dan una versión equivalente, con aspecto similar a la multivariante [1]:
2
k
k N(0,1) ( χ 2k )-1 N(0,1) ≡ F1, k
Aplicaremos más adelante este importante resultado a la media muestral (~Np) y la matriz de
covarianzas empíricas (~Wp) en el muestreo de la Np.
Con éste, completamos tres resultados importantes sobre distribución de formas cuadráticas:
1)
xt Α x
~ χ2rg(A) (µτ A µ) ⇔ A Σ es idempotente
2)
bt W b
~ W1 ( k , bt Σ b ) ≡ σ2b χ2k, siendo σ2b = bt Σ b
3)
k xt W-1 x
~ T2p, k(δ)≡
kp
Fp, k-p+1(δ) con δ = µt Σ−1 µ
k- p+1
9.- Distribución Beta Multivariante
9.1 Beta univariante
Sean H ~ σ2 χ2mH ^ E ~ σ2 χ2mE independientes;
sean T=
H
H
T
y V=
.
=
E+H 1+T
E
Se dice que:
mH
m
y E g. de l. :
2
2
m
m
T tiene una distribución Beta invertida de tipo II con H y E g.de l.;
2
2
V tiene una distribución Beta invertida de tipo I con
V ~ β mH
2
,
mE
2
mE
T ~ FmH ,mE
mH
distmultiv.doc
08/03/2016
[email protected]
12
Las funciones de densidad de T y V son:
mH
-1
2
1
t
Γ(a) Γ(b)
; 0 ≤ t < ∞ donde β (a,b) =
m E +m H
mH mE
Γ(a+b)
β(
,
) (1+t) 2
2 2
mH
mE
-1
-1
1
f V (v)=
v 2 (1-v) 2 ; 0 ≤ v ≤ 1
m m
β( H , E )
2 2
f T (t)=
9.2 Beta multivariante
Sean ahora H ~ Wp (mH, Σ) y E ~ Wp (mE, Σ) independientes;
La generalización multivariante natural de 9.1 llevaría a definir las matrices aleatorias
T= H E-1
y
V= H (E+H) -1
estudiando la distribución de sus autovalores λ, determinante y traza (producto y suma de los λ).
En su lugar se utilizan estas otras dos matrices T y V :
T= E-1/2 H E-1/2
(Beta II o invertida multivariante)
V= (E+H) -1/2 H (E+H) -1/2
(Beta I multivariante)
que tienen los mismos autovalores [pues ABu= λu ⇒ BA(Bu)= λ(Bu)]
y por tanto los mismos determinantes (Πλi) y trazas (Σλi)
pero presentan la ventaja de ser siempre simétricas y por tanto diagonalizables,
Los resultados más interesantes sobre distribuciones de estas matrices, sus valores propios
(máximo, mínimo, determinante, traza...) son éstos:
1) Λ de Wilks ó U-distribución:
U= | I- V | =
|E|
~ Up, mH, mE
|E+H|
Aparece en el TRV para los contrastes de linealidad en el Modelo Lineal Multivariante.
Se conocen aproximaciones asintóticas F y χ2.
2) Traza de Pillay:
V(s)= traza (V) = tr [ H(E+H) -1], con s= min(p, mH)
Se conoce su distribución exacta, aproximaciones y ley asintótica χ2p.mH.
T2g = mE traza( T ) = mE tr [ HE -1]
3) Traza de Lawley-Hotelling:
Su distribución asintótica es χ2p.mH.
4) Mayor raíz de Roy:
maxi ( λi ) , siendo λ1 ... λp los autovalores de HE-1 .
En la práctica, estos cuatro estadísticos suelen transformarse en estadísticos F y se utilizan para
contrastar una misma hipótesis multivariante (por ejemplo, hipótesisis de no efecto de ciertos
regresores en modelos lineales de respuesta multivariante). En unos casos, el F estadístico es exacto
y en otros casos es una aproximación asintótica.
En muchos problemas los cuatro estadísticos dan lugar al mismo valor F y a los mismos pvalores, pero no siempre es así.
La mayor raíz de Roy es una cota superior para los cuatro y da una cota inferior para el p-valor;
por eso suele ignorarse cuando es el único significativo de los cuatro.
distmultiv.doc
08/03/2016
[email protected]
13
10.- Apéndice: Transformaciones de vectores aleatorios
9.1 Distribuciones discretas (ya visto en Primer Curso)
9.2 Distribuciones continuas (Teorema del Jacobiano, de cambio de variable)
* Transformación T y su inversa S:
x1 =
S1 (y1 , …, y k ) 
T1 (x1 , …, x k )
 y1 =
transf. directa  
  transf. inversa




S
T


xk=
Sk (y1 , …, y k ) 
Tk (x1 , …, x k )

yk=
* Det. Jacobiano:
J1
de la transf.
 de la transf.
∂ x1 … x k
=

 J
inversa,
S
directa, T 
∂ y1 … y k

* Teorema del Jacobiano:
∫ f(x) dx
=
A
∫
T(A)
∂ y1 … y k
∂ x1 … x k
Nota: J1 = 1 / J
f (S(y)) | J1 | dy
(∀f: Ρ → Ρ integrable; ∀A∈Β k)
k
* Aplicación del Teorema para funciones de densidad:
Aplicando el teorema del jacobiano a la integral de una densidad fX, aparece un resultado general de gran
utilidad práctica. Obtenemos la densidad fY de un vector Y que es función T de otro vector X, a partir de la densidad fX
Enunciado:
Sea X un vector aleatorio continuo con densidad fX .
Sea Y= T (X), donde T es un difeomorfismo; sea S su transformación inversa.
Entonces Y es continua y
f Y (y) = f X (S(y)) | J1 |
Demostración: ∀B∈Β k
pY (B) = ∫ f (y) dy
B
por ser fY la densidad de Y ;
Y
p Y (B) = p X (S(B)) ,
y
luego
pX (S(B)) =
por ser S(B) la contraimagen de B por T,
∫
f (x) dx = (aplicando el Th. del Jacobiano) = ∫ f X (S(y)) | J1 | dy ,
S(B) X
∫ f (y) dy =
B
y por tanto,
Y
∫
B
f (S(y)) | J1 | dy
B X
fY (y)
=
∀B∈Β
fX (S(y)) | J1 |
k
c.s.
c.q.d.
* Conclusión:
Tenemos un procedimiento para calcular directamente la densidad de una nueva v.a. Y=T(X) a partir de la de X:
J
f Y (y1 … y k ) = f X (x 1 , … , x k )
 1

nueva densidad
vieja densidad con las x i
∂S
como función de las y:
J1 =
∂y
x 1 =S1 (y1 … y k )
módulo del
...
Jacobiano de la
x k =S k (y1 … y k )
transf. inversa
distmultiv.doc
08/03/2016
[email protected]
* Un resultado más general:
Sea X un vector aleatorio continuo k-dimensional con densidad fX .
Sea Y= T(X), donde T: Ρk → Ρk NO es un difeomorfismo porque no es una aplicación 1-1 de SX a SY .
pero… SX se descompone en r regiones A1 … Ar
cada punto imagen y tiene hasta r antecedentes, x1 ∈ A1 , …, xr ∈ Ar
y en cada región Ai , T: Ai→ Ρk SÍ es un difeomorfismo, con inversa Si.
Ejemplo:
Sea T(x,y)= ( |x|, |y|)
T no es difeomorfismo, pues no es 1-1:
u > 0, v > 0 ⇒ T-1 (u,v) = { (u,v), (-u,v), (u,-v), (-u,-v) }
… Pero en cada cuadrante Ci de Ρ2 la aplicación T SÍ que es 1-1 y difeomorfismo.
con jacobiano J11
En C1 T(x,y)= (x,y); transf. inversa: S1(u,v)= (u,v)
En C2 T(x,y)= (-x,y);
“
: S2(u,v)= (-u,v)
“
J12
En C3 T(x,y)= (-x,-y);
“
: S3(u,v)= (-u,-v)
“
J13
En C4 T(x,y)= (x,-y);
“
: S4(u,v)= (u,-v)
“
J14
La contraimagen por T de cualquier Borel B será entonces la unión de r conjuntos disjuntos Bi ≡ Si(B):
T-1(B) = B1 + … + Br.
r
Así:
pY (B) = pX (B1 + … + Br) =
∑
i =1
r
pX (Bi) = (1)
∑ ∫f
i =1
B
i
Y
(y) dy =
r
∫ ∑
B
f i Y (y) dy
i =1
 ∀i, T:A i → T(A i ) es difeomorfismo, con inversa Si y Jacobiano J1i ;

(1)
 p X (Bi )
=
=
Jacobiano) ∫ f X (Si (y)) J1i dy
∫ Bi f X (x) dx (T.=
B 



f Yi (y)

Por tanto la densidad de Y es:
f Y (y) =
∑
r
i =1
f iY (y) con f iY (y) = fX (Si (y)) | J1i |
∀i=1…r
Nota: A veces todas las f iY (y) coinciden y eso agiliza mucho los cálculos, pues en ese caso:
fY(y) = r f 1 Y (y) = r fX (S1 (y)) | J11 |
14