2.1 - Departamento de Estadística e Investigación Operativa

Infnormal_3GEST.doc
13/03/2015
[email protected]
1
Tema 2 Inferencias para la Normal Multivariante
Una distribución de probabilidad desconocida rige el comportamiento aleatorio de un
vector p-dimensional. Para obtener información acerca de ella, repetimos el experimento aleatorio n
veces y en cada una de ellas observamos las p variables que componen el vector. Así, obtenemos n
observaciones p-dimensionales independientes, que componen una muestra aleatoria simple: n
vectores aleatorios p-dim independientes, igualmente distribuidos, con distribución común pdimensional desconocida, P.
A partir de la muestra trataremos de tomar decisiones sobre la distribución subyacente P,
respondiendo preguntas del tipo: ¿Es Normal p-dim? ¿Su media es una determinada, 0? ¿Son
incorreladas sus p componentes? …
0 Notación
x1, ... xn m.a.s. de vectores aleatorios Np(, ); observamos p variables sobre p individuos.
xij
valor de la variable j (j=1...p) en el individuo i (i=1... n)
 x11 … x1p  x1+


X=      
x

 n1 … x np  x n+
x +1  x +p x ++
X=( xij) matriz de datos
fila i de X :
xit = (xi1...xip) vector con los p datos del individuo i
suma= xi+
columna j de X :
(xj)t=(x1j...xnj) n observaciones independientes de la variable j
suma= x+j
x

X
 x 1   x1 
1 n
1
1
  
t
vector media muestral
x =  x i = X 1n
=     
n
n
n i=1
  
 xp   xp 
 =(xij- x )= X - 1n x t = X - 1n 1 1nt X = X - P1X = P1┴ X
matriz de datos centrados X
j
n
n
Q
(Nota: Demostrar que XtX=  x i x i t )
matriz de productos cruzados
i 1
 tX
 = Xt P1┴ X =
Q= X
n
 (x
i 1

2
  (x i1  x1 )
 i 1
=

 n

  (x ip  x p )(x i1  x1 )
 i 1
n
n
 (x
i 1
i
 x)(x i  x) t = Xt X - n x x t = n (Cov(xi, xj)) =
i1  x1 )(x i2  x 2 )


matriz de varianzas-covarianzas muestrales
S
matriz de cuasi varianzas-covarianzas muestrales
…
n
i 1

…

 x1 )(x ip  x p ) 




n
2

(x ip  x p )


i 1

 (x
= 1Q

n
1
S=
Q
n 1
i1
Infnormal_3GEST.doc
13/03/2015
[email protected]
2
1 Distancia de Mahalanobis
La distancia usual para medir distancias en el espacio Rp es la Euclídea unitaria
d 2 (x r , x s )  (x r  x s ) t (x r  x s ) = (xr1-xs1)2+(xr2-xs2)2+… +(xrp-xsp)2
Esta distancia trata por igual las p componentes y todas las direcciones de Rp . La distancia
entre individuos se evalúa sin tener en cuenta en qué coordenadas o componentes difieran.
En el gráfico aparecen las curvas de equidensidad del vector
aleatorio (x1, x2). Con la distancia Euclídea unitaria, los puntos 1
y 2 están a la misma distancia de … pero una misma distancia d
en la dirección →1 es mucho más relevante que en la →2. Una
buena medida debe apreciar que 1 es mucho más atípico que 2.
Entonces, al trabajar con observaciones aleatorias p-dimensionales…
…la distancia Euclídea unitaria no es la más apropiada porque…
a) no tiene en cuenta la dispersión de cada componente:
Esta dispersión depende de la escala que utilicemos para medir cada una de las p variables;
… y la elección de escala es una cuestión arbitraria (mm, cm, m ...; °F, °C ...)
Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre
tiempos de paso parciales, peso, estatura, talla del pié, longitud de pierna, tamaño de la zancada... en
100 marchadores internacionales de diferentes países. A la hora de calcular parecidos y diferencias
entre atletas a partir de las p características observadas, la elección de escala influye de forma
determinante. Si medimos la estatura en centímetros en lugar de metros, una diferencia de talla de
0.13 m pasa a ser de 13 cm, por lo que el efecto de esta variable talla se dispara al evaluar distancia
entre dos individuos. Lo mismo si utilizo cm en lugar de pulgadas o libras en lugar de Kg; gr en
lugar de Kgr, minutos en lugar de segundos, etc. En definitiva, el parecido p-dimensional entre
atletas dependería de las escalas de medida utilizadas, lo cuál no suele ser razonable.
Una homogeneización de varianzas resuelve el problema sólo parcialmente, puesto que
exite un segundo problema, y es que la distancia Euclídea unitaria…
b) tampoco tiene en cuenta la estructura de correlaciones entre las p componentes del vector:
Si observo en cada individuo varias variables fuertemente correladas, una diferencia grande
entre dos individuos en una determinada componente irá acompañada por diferencias también
grandes en las componentes correladas con ella. Así, en el cálculo de la distancia aparece un efecto
multiplicador, en detrimento de variables que no pertenezcan a haces de variables altamente
correladas.
Siguiendo con en el ejemplo anterior, los tiempos de paso parciales estarán fuertemente
correlados, entre sí. Algo parecido puede ocurrir con las medidas antropométricas (estatura, talla del
pié, longitud de pierna, tamaño de zancada...). Un atleta de zancada amplia aventajará a uno de
zancada corta en cada toma parcial de datos, de forma que al tomar medidas en 4 momentos de la
carrera, habrá 4 coordenadas "zancada" con diferencias similares altas. Aparece así ese efecto
multiplicador. También aparece si se toman varias medidas antropométricas relacionadas con la talla.
En definitiva, estamos manejando uno o varios grupos de variables correladas, y esto influye en la
distancia entre individuos, pues estoy considerando varias veces el mismo efecto.
La distancia de Mahalanobis tiene en cuenta estos dos aspectos y los corrige (diferencia de
varianzas entre componentes y posible presencia de variables correladas).
Infnormal_3GEST.doc
13/03/2015
[email protected]
Distacia de Mahalanobis entre dos observaciones o dos puntos cualesquiera de Rp
(xr, xs)= d 2 1 (x r , x s )  (x r  x s ) t  1 (x r  x s )
versión teórica
Cuando se desconoce , se utiliza su estimador S, dando lugar a la versión muestral:
D(xr, xs)= d S21 (x r , x s )  (x r  x s ) t S1 (x r  x s )
versión muestral
Utilizar la distancia de Mahalanobis sobre puntos expresados en las variables originales
equivale a utilizar la distancia Euclídea Unitaria (distancia usual) calculada después de
transformar linealmente las p variables en otras p incorreladas y estandarizadas: y= -1/2Pt x
d2(yr,ys)= (yr-ys)t(yr-ys)= (xr-xs)t P -1/2-1/2P t (xr-xs) )= (xr-xs)t  -1(xr-xs)= d2-1(xr,xs)
2 Estimadores puntuales de  y 
Sea x1, ... xn una m.a.s. de una distribución Np(, ) no degenerada.
Función de verosimilitud
L() =
n
 f Np (μ,Σ) (x i ) =
i=1
1
 2π 
np
Σ
n
 1 n

t
exp  -   x i -μ  Σ -1  x i -μ  
 2 i=1


Estimadores máximo verosímiles (EMV) de y :  y 
1 n
 = x =  x i ;
n i=1
:
Distribución de  y 
= Q;

n
(media y covarianzas empíricas)

Q
n
=
)
(estimador insesgado de : S=
n 1 n 1
1
  x ~ N p (, )
n
 ~ W (n  1, ) independiente de x
Q = (n-1) S= n 
p
Nota: x es una transformación de la matriz de datos X:
y Q es una forma cuadrática generalizada en X:
t 1
n(x  )  (x  ) ~  p2
x = X t 1p
1
n
Q = Xt P1┴ X
es n veces la distancia2 de Mahalanobis teórica entre x y : n d 2 1 (x, ) = n ( x , )
se usa para contrastar  y construir regiones de confianza para  con  conocida.
n (x  ) t S1 (x  ) ~ Tp,2 n-1
es n veces la distancia2 de Mahalanobis muestral entre x y : n d S21 (x, ) = n D( x , )
se usa para contrastar  y construir regiones de confianza para  con  desconocida.
3
Infnormal_3GEST.doc
13/03/2015
[email protected]
4
3 Contrastes y regiones de confianza para la media 
H0:  =  0
n ( x - )t  -1 ( x - ) ~  2p
n ( x - )t S-1 ( x - )
vs
H1:  ≠  0
[ aplico xt x ~ 2rg(A) (tA)  A es idempotente a
~T
2
t
-1
2
t
-1
p, n-1 [ aplico k x W x ~ T p, k (  )
n ( x - ) ~ Np (0, /n) ]
n ( x - ) y (n-1)S ~ Wp(k, ) ]
a
Test 2
3.1  conocida
Estadístico de contraste:
20 = n ( x , 0) = n ( x - 0)t  -1 ( x - 0)
H0
~
H
~
1
Región crítica de nivel :
C= [ 20 > 2p , 1- ]
 2p
 2p ( n (, 0))
verifica p H0 (C)= 
p-valor:
p[  2p > 20 ]
potencia para detectar 1 (1 ≠ 0):
p H1 (C) = p[  2p () > 2p, 1-]
con = n (, 0) = n (1   0 ) t  1 (1   0 )
3.2  desconocida
Test 2
Estadístico de contraste:
de Hotelling
2
 = n D( x , 0) = n ( x - 0)t S-1 ( x - 0)
H0
~
H1
Tp,2 n-1
~ Tp,2 n-1
H0
( n (, 0))
np
2 ~ Fp, n-p
p(n  1)
np
2 > Fp, n-p, 1- ]
verifica p H0 (C)= .
Región crítica de nivel a:
C= [
p(n  1)
p-valor:
p[ Fp, n-p > F0 ]
potencia para detectar 1 (1 ≠ 0):
p H1 (C) = p[ Fp, n-p() > Fp, n-p, 1-]
es decir,
F0=
con = n (, 0) = n (1   0 ) t  1 (1   0 )
i) Para p=1, el test T02 es el test t contraste de dos lados sobre la media de una N1 con 2 desconocida
x   0 2 H0
x   0 H0
T02 = ( n
) ~ F1, n-1
equivale a t0 = n
~ tn-1
*
S
S*
para p ≥ 2 sus propiedades resultan similares a las del test t:
ii) Es invariante frente a cambios lineales no singulares de localización y escala y=Fx+C; el test NO
depende de las unidades de medida utilizadas: m/cm/pulgadas/pies , °F/°K/°C, Kg/g/libra ...
iii) Es T.R.V., T.U.M.P, invariante y admisible.
3.3 Contrastes sobre una o varias combinaciones lineales de 
H0: A=b
vs
H1: A ≠ b
3.3.1 Contraste general A=b (para A cualquier matriz qxp y b cualquier vector de Rp)
H : A  b
Para contrastar [1]  0
H1 : A  b
transformamos la muestra
yi = Ax i   y =A
H 0 :  y  b
y contrastamos [2] 
:
H1 :  y  b
las xi son v.a.i.i.d. Np(xx) ⇒ las yi serán v.a.i.i.d. Np(yy) ≡ Np (AxxAt )
Infnormal_3GEST.doc
13/03/2015
[email protected]
El estadístico T02 para [2] es:
2
T0 (A)= n ( y - b)
t
5
H0: y=b
Sy-1 (
t
~
t -1
y - b) = n (A x - b) (ASx A ) (A x - b)
T2q, n-1
que para el caso particular b=0 se convierte en:
T02 (A)=
n y t Sy-1 y
n x t At (ASx At) -1 A x
=
H0: y=0
~
T2q, n-1
Nota: Toda hipótesis del tipo A=b puede también expresarse en la forma A=0 reparametrizando
adecuadamente el problema (ver Seber p.72), por lo que es suficiente saber contrastar A=0.
3.3.2 Aplicación:
Contraste de Simetría
H0: 1= 2
( 2 muestras p-dim pareadass)
H1: 1 ≠ 2 (muestras pareadas)
vs
Comparación de medias en DOS poblaciones Np relacionadas (muestras p-dim pareadas)
Introducción: El problema de simetría izquierdo/derecho en un ser vivo es un clásico en
biología (zoología, botánica ...), La comparación de efectos producidos por dos tratamientos sobre un
conjunto de variables es otro clásico en medicina, farmacia, agricultura, ingeniería …
Antecedentes: Conocemos ya contrastes para comparar dos medias univariantes en muestras
pareadas ó relacionadas.
Planteamiento: Abordemos ahora la versión multivariante del mismo problema de
comparación de medias en dos poblaciones relacionadas. Ahora, sobre cada unidad experimental
observamos más de una variable. Observamos p características (no una) en dos poblaciones
relacionadas: antes/después del tratamiento, características del hombre/mujer en una pareja,
características lado derecho/izquierdo, características del hijo mayor y del 2º hijo ...
Antes del tratamiento
Después del tratamiento
variable 1
PAmin
variable 2
PAmax
… variable p variable 1
Colesterol PAmin
variable 2
PAmax
…
variable p
Colesterol
1 Pepe Pérez
10
18
…
320
8
14
…
280
2 Pío Pí
11
13
…
244
9
13
…
200
10
15
…
270
10
14
…
280
…
n José Jolín
La muestra se compone de n observaciones p-dimensionales pareadas
 μ x   Σ xx Σ xy 
 xi 
~
N
(
i= 1... n
 )
2p
  , 
 
 yi 
 μ y   Σ yx Σ yy 
H 0 : μ x  μ y
Contraste de Simetría o de igualdad de medias en las dos poblaciones: 
H1: μ x  μ y
La hipótesis nula es
H0: xj = yj j=1 ... p.
que se expresa en la forma vista en 3.3.2 A=0 tomando la matriz A apropiada:
A=
1

0


0

0

0

  
0  -1
0  0 -1 0 
1  0 0 -1 
   
0  1 0


  Ip | - Ip 


H0
Solución:
T0 (A)= n ( x - y ) (Sxx - Sxy - Syx + Syy) ( x - y ) ~ T2p, n-1
donde el vector de medias muestrales y S se han partido en dos y cuatro cajas, igual que  y 
2
t
-1
Infnormal_3GEST.doc
3.4
13/03/2015
[email protected]
6
Intervalos de confianza para combinaciones lineales: I. de C. para at 
at 
3.4.1 Para una función lineal
Notaremos como a2 la varianza de at x, que vale at a.
t-intervalos
1

a t x ~ N(a t μ, σ a2 )

n
n (a t x  a t μ)
~ t n-1


t
1 t
2
t
a
Sa

a Sa ~  n-1 indep. de a x
σ a2

I. de C. de confianza 100(1-)% para at:
atx  t
3.4.2 Para r combinaciones lineales {ait  }i=1...r preespecificadas:

n-1, 12
1 t 1/2
(a Sa)
n
A
t-intervalos simultáneos de Bonferroni
1
(aitSai)1/2
n
pues para cada combinación lineal construyo un t-intervalo de nivel 1-/r, y así tenemos:
probabilidad de algún fallo en los r recubrimientos ≤ i (prob. falla el intervalo i) = rα/r= α
probabilidad de recubrimiento simultáneo
≥ 1- 
I. simultáneos de confianza ≥ 100(1- para las r c.l. ait:
3.4.3 Para r combinaciones lineales no preespecificadas:
a it x  t

n-1, 12r
A
S-método de Schefée:
Construye un i. de c. para todas las c.l. ait simultáneamente
La relación dS21 (A x , A)=n ( x - )t At (ASx At) -1 A( x - ) ~ T2q, n-1, permite construir una
Ax
región de confianza (elipsoide) para las componentes de A y todas sus combinaciones lineales:
1
{ n (A x - A)t (ASx At) -1 (A x - A) ≤ T2q, n-1; 1- }
n
1 t
ai Sai)1/2
n
recubren con una probabilidad simultánea ≥ 1-  todas las posibles c.l. ait del vector de medias .
Tomando en particular A=I, tenemos que los intervalos a it x  ( Tp,2 n-1, 1- 
Infnormal_3GEST.doc
5
13/03/2015
[email protected]
7
Comparación de medias en DOS poblaciones Np independientes
H0: 1= 2
vs H1: 1≠ 2 (muestras independientes)
[5.1]
Problema:
Dadas dos poblaciones Np se pretende comparar sus medias p-dim 1y 2,
Para decidir tomamos sendas m.a.s independientes (NO relacionadas)
muestra en la población 1:
v1, ... v n1 m.a.s. de una distribución Np(1, 1)
muestra en la población 2:
w1, ... w n 2 m.a.s. de una distribución Np(2, 2)
Es la misma situación que en el test de simetría ya estudiado, salvo por una diferencia: aquí
las muestras no están relacionadas, sino que son independientes. Cada observación p-dimensional
de la población 1 ahora es independiente de toda la muestra de la población 2, mientras que en el test
de simetría las muestras estaban pareadas, relacionadas por algún tipo de conexión. En el test de
simetría, cada individuo (o unidad experimental) i es medido en la izquierda y en la derecha ó antes y
después del tratamiento. Ahora se cambia de individuo. A uno se le toman las p medidas en las
condiciones 1 (antes/izquierda...) y a otro, en las condiciones 2 (después/derecha...).
El problema va a tener distinta solución según que las matrices de dispersión i sean iguales
(apartado 5.1) o no (apartado 5.2). Por eso, y como paso previo (apartado 5.0), haremos un primer
contraste para ver si los datos sustentan la hipótesis de igualdad de matrices de dispersión.
5.0
Comparación de matrices de dispersión en DOS poblaciones Np independientes
H0: 1= 2
ETRV:
vs H0: 1≠2
H0 2
-2 log T ~
1
2
(muestras independientes) (Seber 102)
p (p 1)
asintóticamente,
n1
siendo T= C12
n2
| Q1 | 2 | Q 2 | 2
| Q1  Q 2 |
5.1
n
2
;
Asumiendo 1= 2 = desconocida
H0: 1= 2 equivale a
C12=

nn
n1
n1 n 2n 2

p/2
; n=n1+n2
queremos contrastar [5.1]
(Seber 108)
H0: 1- 2 = 0
n1





v
~
N
(
,
)
indepediente
de
Q
(vi  v)(vi  v) t ~ Wp (n1  1, ) 

p
1
1

n1
i 1



 independientes,
n2

 w ~ N ( , ) indepediente de Q  (w  w)(w  w) t ~ W (n  1, ) 

p
2
2
i
i
p
2


n2
i 1


1 1

 v- w ~ N p (1 -  2 , ( n  n )  ) 
luego 
1
2
 independientes
Q  Q ~ W (n +n  2, )

2
p
1
2
 1

ETRV:
T02 =
n1n 2
( v- w )t Sp-1 ( v- w )
n1 + n 2
equivalentemente, F0=
H0
~
Tp,2 n1  n 2  2
siendo Sp =
H0
n1 + n 2  p  1
T02 ~ Fp, n1  n 2  p 1
(n1 + n 2  2) p
Q1  Q 2
n1 + n 2  2
Infnormal_3GEST.doc
13/03/2015
[email protected]
8
Nota sobre normalidad: Los teoremas centrales del límite permiten asumir que v- w tendrá
distribución aproximadamente Normal en muestras grandes aunque las distribuciones originales no
sean Np. Por esta razón, el test es robusto en muestras grandes frente a la falta de Normalidad.
Nota sobre  común: La falta de igualdad entre las matrices de covarianza tiene un efecto
muy fuerte sobre el tamaño y la potencia del test.
5.2
Sin asumir 1= 2 = 
5.2.1
n1 = n2 = n0 se reduce al problema de sólo una muestra (diferencias= 0)
desconocidas, queremos contrastar [5.1]
(Seber 114)
Las diferencias di=vi-wi ; i= 1... n0 forman una m.a.s. Np (d, d) con d= 1- 2, d=1+2
Se contrasta H0: d= 0 utilizando
5.2.2
n1 ≠ n2
T02 = n0 d t Sd-1 d
H0
~
Tp,2 n 0 1
con d = v- w
estamos ante una versión multivariante del problema de Beherens-Fisher y
no se conoce solución exacta.
(Sriva 118)
H
Se utiliza el estadístico T02 = ( v- w )t ST1 ( v- w ) ~0 Tp,2 f
(aproximadamente)
1
 2 1  (v- w) t S1 (S / n )S1 (v- w)  2 
S1 S2
T
i
i
T
y f=  
donde ST  

  Seber p.115 da
t 1
n1 n 2
n
1
(vw)
S
(vw)

 i 1 i
T

 
esta expresión para f, mientras que Srivastava p.118 utiliza otra aproximación diferente
5.3
H0: 1= 2
RESUMEN Comparación de medias en 2 poblaciones Np
En el problema de comparación de medias (multivariantes) en dos poblaciones normales,
distinguimos la misma casística que tratábamos en el caso univariante, cada una con su solución
específica.
muestras relacionadas (test de simetría)
T02 = n ( x - y )t (Sxx - Sxy - Syx - Syy) -1 ( x - y )
H0
~
T2p, n-1
muestras independientes asumiendo 1= 2
T02 =
(5.1)
1= 2
n1 = n2 = n0 T02 = n0 ( v- w )t Sd-1 ( v- w )
T02 =
(contraste 1= 2 en 5.0)
H0
n1 n 2
Q1  Q 2
( v- w )t Sp-1 ( v- w ) ~ Tp,2 n1  n 2  2 con Sp =
n1 + n 2
n1 + n 2  2
muestras independientes sin asumir
n1 ≠ n2
(apartado 3.3.2)
( v- w )t ST1 ( v- w )
H0
~ Tp,2 n 0 1
H0
~
Tp,2 f
con Sd =  i 01 (d i  d)(d i  d) t
(5.2.1)
aprox. (problema de B-F)
(5.2.2)
n
Nota final: El Modelo Lineal Multivariante nos permite contrastar la igualdad de medias p-dim.
en k poblaciones Normales Multivariantes (k ≥ 2), tanto independientes como relacionadas.
H0: 1= 2= ... = k
Infnormal_3GEST.doc
6
13/03/2015
Contrastes de normalidad
H0: X ~ Np
[email protected]
ó
9
H0: X ~ Np(, )
Problema:
A partir de una m.a.s p-dimensional x1, ... xn debemos decidir si la población es Np
Idea: Las componentes de cualquier vector Np deben ser N1.
Esta es una condición necesaria pero no suficiente, por tanto,
si alguna componente falla N1, el vector no será Np.
si todas las componentes superan el test, no tenemos asegurada aún la Np de X y
efectuaremos más pruebas basadas en propiedades multivariantes de la Np.
6.1
Utilizando contrastes de ajuste univariantes
Si detectamos falta de Normalidad a nivel /p en alguna componente de X, se rechaza H0 a
nivel  al menos. (Bonferroni: pHo(URCi) ≤  pHo(RCi) =p/p=).
Recodemos los contrastes de Normalidad univariante.
Test de Kolmogorov.
Se basa en la máxima separación entre la función de distribución muestral, Fn y la teórica F,
en nuestro caso N1. Los parámetros  y  deben especificarse en H0. En la variante conocida como
test de Lilliefords o Kolmogorov-Smirnov,  y  son desconocidos y se estiman a partir de la
misma muestra, calculándose luego la máxima separación entre Fn y F de la N1( x ,s2) .
Test de ajuste 2.
La muestra se discretiza en intervalos, con lo que se pierde parte de la información.
Métodos gráficos: Plots de normalidad (rankit plot o qq-plots)
Shapiro-Wilks.
2
 n

  a i x (i) 
 es el cociente entre dos estimadores de dispersión
El estadístico W=  ni 1
 (x i  x)2
i 1
la habitual suma de cuadrados de desviaciones a la media, y otro basado en el estadístico ordenado y
Rechaza H0 para valores pequeños de W.
sus valores esperados bajo normalidad.
El W test resulta muy potente y es capaz de detectar pequeñas desviaciones de la normal
univariante incluso con tamaños muestrales relativamente pequeños. Implementado en los paquetes
de programas para muestras cada vez mayores, se va imponiendo a los demás.
Anderson-Darling y Cramer-vonMises.
Aparecen en las salidas del Proc Univariate de SAS. Son del tipo EDF cuadrático, pues se
basan en un estadístico Q que promedia la desviación cuadrática entre la función de distribución
muestral y la poblacional con diferentes funciones de peso (x): Q  n  (Fn (x)-F(x)) 2 Ψ(x) dx
R
Cramer-vonMises utiliza función de pesos uniforme:
(x)= 1
(área entre Fn y F)
Anderson-Darling da más importancia a las colas de la distribución: (x)= [ F(x) (1-F(x)]-1
Mientras el estadístico D de Kolmogoroff, sólo mide la máxima diferencia entre Fn y F, el
estadístico Q de los contrastes EDF cuadrático tiene en cuenta todos las diferencias Fn (x)-F(x)
Infnormal_3GEST.doc
6.2
13/03/2015
[email protected]
10
Utilizando características multivariantes de la Np
6.2.1 Plot de Normalidad multivariante
Introducción:
Si x ~ Np(, ), entonces u= -1/2 (x- ) ~ Np(, Ip), o aplicando los resultados sobre f.c.:
t
-1
t
z = (x,)= (x- )  (x- ) = u u=
p
u
i 1
Sea ahora
2
i
x1, ... xn una m.a.s. de una distribución Np(, );
~  2p
zi = (xi ,)
z1, ... zn forman una m.a.s. de una distribución  2p
ordenamos los valores zi:
z(1), ... z(n)
Idea: Al representar cada z(i), frente al percentil  2
p;
para i=1...n el plot esperado es una recta.
1
1
(i  )
n
2
Inconveniente:
En la práctica,  y  son desconocidos y no puedo computar zi.
Solución:
Estimo zi sustituyendo  y  (desconocidos) por sus estimadores x y S:
zˆ i = D(xi, x )= (xi- x )tS-1 (xi- x ),
pero zˆ i ya no es  2p
¿Qué hacer?
a) en muestras grandes:
Si n es grande (n> 10p) las estimaciones estarán suficientemente cerca de los verdaderos
parámetros  y . Por tanto, la diferencia entre usar la verdadera distribución de las zˆ i y la  2p
resulta despreciable. Para muestras de este tamaño, la falta de independencia de las zˆ i es también
insignificante. Con todo ello, el plot de probabilidad 2 proporciona un buen método gráfico para
contrastar la normalidad multivariante de forma grosera y detectar rápidamente desviaciones fuertes.
b) en muestras pequeñas:
Sea x1, ... xn una m.a.s. de una distribución Np(, )
Notaremos por x n y Sn sus momentos muestrales.
Sea xn+1 una observación más, independiente de las n anteriores;
entonces,
d
2
Sn1
t
(xn+1, x n )= (xn+1 - x n )  Sn
-1
p(n 2  1)
(xn+1 - x n ) ~
Fp, n-p
n(n  p)
En el plot usaremos los cuantiles de esta distribución F en lugar de los de la 2 y
conseguiremos mantener la independencia entre cada observación xi y los estimadores de  y 
utilizando x y S(i). x y S(i) se calculan a partir de (x1, ... x (i) ... xn), es decir, toda la muestra
(i)
excepto xi:
(i)
zi = d S21 (xi, x (i) )= (xi - x (i) )t S(i) -1 (xi - x (i) ) ~
(i )
p((n-1) 2  1)
Fp, n-1-p
(n  1)(n  1  p)
Computacionalmente:
x (i) =
abS1 (x i  x)(x i  x) t S1
1
1
(n x - xi) y S(i)
= aS-1 +
1  b(x i  x) t S1 (x i  x)
n 1
con a=
n2
n
y b=
n 1
(n  1) 2
Infnormal_3GEST.doc
13/03/2015
[email protected]
6.2.2 Contraste basado en Medida de Asimetría multivariante
11
(skewness)
Skewness Poblacional:
1, p= E((x- )t-1 (y- ))3 , siendo x e y dos vectores aleatorios i.i.d.
para p=1 se tiene que:
1,p = E(
x  3
) , skewness univariante.

Para x, y v.a.i.i.d. Np(, ) se obtiene 1, p= 0
Skewness Muestral:
Ap= b1, p=
1
n2
n
g
i, j1
3
ij
con
 1 (xj - x );
gij= (xi - x )t 
 1
a veces se utiliza S-1 en lugar de 
Si x1, ... xn es una m.a.s. Np(, ) , entonces
n
b1,p ~  21
cuando n  
p(p 1)(p  2)
6
6
(para n>50 es satisfactoria la aproximación por la ley asintótica)
6.2.3 ... y en una Medida de Apuntamiento multivariante
(kurtosis)
Kurtosis Poblacional:
2, p= E((x- )t-1 (x- ))2 , siendo x un vector aleatorio
para p=1 se tiene que:
2, p -3 = E(
x  4
) , kurtosis univariante.

Para x ~ Np(, ) se obtiene 2,p= p(p+2)
Kurtosis Muestral:
Kp= b2, p=
1 n 2
 gii
n i 1
Si x1, ... xn es una m.a.s. Np(, ), entonces E b2, p=
n 1
y,
n 1
8
b 2,p ~ N(p(p  2), p(p  2)) cuando n  
n
(para n>50 es satisfactoria la aproximación por la ley asintótica)
Los contrastes de normalidad 6.2.2 y 6.2.3 basados en las medidas de kurtosis y asimetría
multivariantes resultan invariantes para transformaciones lineales. No son muy potentes, pero
resultan útiles para detectar falta de normalidad en datos con valores de asimetría o kurtosis
claramente fuera de rango.
Infnormal_3GEST.doc
13/03/2015
[email protected]
7
Outliers multidimensionales/ Tests basados en distancias de Mahalanobis.
7.1
Observación más alejada
12
(Srivastava p.58)
Test para contrastar, bajo normalidad,
si la observación más alejada tiene media diferente a las n-1 observaciones restantes:
La observación más alejada es Np(, ), y todas las demás Np(, )
Contraste:
H0:  =  H1:  ≠ 
( y desconocidos)
Se basa en la distancia de Mahalanobis muestral de cada observación, xi, al centro de los datos, x :
Di =D(xi, x )= (xi- x )tS-1 (xi- x )
R.C.: Declaro outlier si Q > Q , siendo Q =
Justificación: Sea Ti=
n
Di ;
(n  1) 2
Q= maxi Di
c (n  1) 2
p
F
, c =

n  p  1 p,n  p 1,1 n
1  c
n
se tiene que
aplicando Bonferroni con nivel
Fi =
n  p  1 Ti
~ Fp, n-p-1
p
1  Ti

sobre los n valores Fi
n
se obtiene un test de nivel ≤ :
La observación más alejada de x será declarada outlier si Q > Q

El test se aplica de forma iterada:
Si Q > Q , elimino el outlier …y repito el proceso con los individuos restantes
hasta que Q ya no supere el valor crítico Q.
7.2
Alternativa
Pueden utilizarse los momentos muestrales x (i) yS(i) (computados sin el elemento xi) :
bi2 = (xi - x (i) )t S(i) -1 (xi - x (i) )
7.3
Razón de varianzas generalizadas
ri2 =
| S(i) |
|S|
Los tres estadísticos Q, bi2 y ri2 definidos en 7.1, 7.2 y 7.3
dan lugar a la misma ordenación de las observaciones extremas.
7.4
Grupos de outliers y grupos diferenciados
La detección de grupos de outliers es más compleja, especialmente si el grupo candidato a
outlier no está identificado de antemano. Se puede generalizar el estadístico bi2 eliminando un grupo
i de t observaciones (en lugar de sólo una) para computar x (i) yS(i).
Si se detectan varios grupos sospechosos de comportamiento diferenciado, se puede emplear
un MANOVA confirmatorio (compara las medias p-dim a través de los t grupos)
H0: 1= 2= = t
Infnormal_3GEST.doc
8
13/03/2015
[email protected]
13
Transformaciones para obtener Normalidad
Los fallos de asimetría y kurtosis univariante se corrigen mediante la familia de
transformaciones potencia de Box y Cox y la familia de transformaciones módulo de Johnson-Draper
respectivamente, para conseguir valores compatibles con la normalidad. Para cada muestra se
encuentra el valor  que proporciona la transformación óptima.
Para corregir los fallos de asimetría y kurtosis multivariante, los algoritmos de optimización
de los ’s requieren cálculos fuertemente intensivos y resultan poco operativos:
sup L () = sup [ 


n 1
log | S(  ) | ] con  = ( 1, ...  p)
2
Por eso recurrimos a las transformaciones univariantes. El procedimiento univariante
aplicado componente a componente en principio no garantiza normalidad multivariante, pero es lo
que se emplea porque resulta operativo y en la práctica suele dar resultados suficientemente
satisfactorios.
En cualquier caso, después de aplicar las transformaciones univariantes apropiadas
comprobaremos si los nuevos datos superan los tests de normalidad multivariante.
8.1
Transformaciones univariantes
Las transformaciones univariantes usuales para conseguir normalidad son éstas:
T1
Transformación potencia de Box y Cox. Tiende a eliminar la asimetría de los datos.
y
()
i
donde g1=
(x i  1) / g11 si   0

si  = 0
g1 log x i
n
x1...x n es la media geométrica de los datos.
Debe aplicarse a datos x1 ... xn todos positivos.
T1a Si hay alguna observación xi negativa, se trasladan los datos una cantidad a para hacerlos
positivos y después se aplica la transformación potencia:
y
()
i
donde g2=
T2
1
[(x i  a)  1] / g 
si   0
2

si  = 0
g 2 log (x i +a)
n
(x1  a)...(x n  a) es la media geométrica de los datos trasladados.
Transformación módulo de Johnson y Draper, para datos simétricos con kurtosis ≠ 0.
z
( )
i
[(| x i  b | +1 )  1] / g 31signo(x i  b) si   0

signo(x i  b) si  = 0
 g 3 log ( | x i  b | +1 )
donde g3= n (| x1  b | 1)...(| x n  b | 1) y
como valor b suele tomarse la media aritmética o geométrica de los datos.
Infnormal_3GEST.doc
8.2
Valor
13/03/2015
[email protected]
14
Efecto que produce la transformación, según sea 
 =1 : no transforma los datos.
Valores  >1
Se separan los valores altos de x y se comprimen los menores; tanto más cuanto mayor sea .
Valores  <1
trabaja al revés, separando los pequeños y comprimiendo los grandes.
Estas familias incluyen en particular las transformaciones log x,
8.3
x y 1/x.
Valor óptimo de 
Una vez elegida la familia (T1 ó T2 de 8.1), buscamos el mejor valor de  aplicando el
criterio de máxima verosimilitud: si un miembro de la familia de transformaciones produce datos
compatibles con la Normalidad, la verosimilitud (o log-verosimilitud) normal alcanzará su valor
máximo.
n 1
n 1 2
log(
S ) ,
El EMV  será por tanto el valor  que maximiza la log-verosimilitud: 
2
2
donde S2 representa la cuasivarianza muestral de los datos transformados;
Equivalentemente, es el valor que maximiza L () = - log S2
o sea, el que minimiza S2 .
Las salidas gráficas de los programas suelen proporcionar plots (, S2 ) para detectar de
forma aproximada el valor óptimo de .
8.4
Conveniencia de transformar los datos para conseguir normalidad
Los contrastes T2 de localización son robustos para falta de asimetría ó kurtosis y los niveles
de significación pueden mantenerse para datos aproximadamente normales.
La falta de normalidad por otras razones (por ejemplo mixtura de normales) les afecta más.
La normalidad multivariante muchas veces falla porque se da una de estas dos situaciones:
Situación 1: Las marginales son aproximadamente simétricas y las relaciones de dependencia son
aproximadamente lineales, pero hay unos pocos valores atípicos (outliers).
Solución : Eliminamos los outliers,
o utilizamos estimadores robustos de  y .
(ver las opciones Trimmed y Winsorized de SAS/ Proc Univariate)
Situación 2: Las marginales son asimétricas en su mayor parte y aparecen relaciones no lineales
entre variables.
Solución : Transformamos los datos en busca de simetría y relaciones lineales entre componentes.
Infnormal_3GEST.doc
13/03/2015
[email protected]
INDICE del Tema2: Inferencias en la Np
0
Notación
1
Distancia de Mahalanobis
2
Estimadores puntuales de  y 
3
Contrastes y regiones de confianza para 
3.1
Test 2
3.2
Test 2 de Hotelling; propiedades
3.3
Contrastes sobre una o varias combinaciones lineales de  H0: A=b
3.3.1
Contraste general A=b (para A cualquier matriz qxp y b cualquier vector de Rp)
3.3.2
Aplicación: Contraste de Simetría H0: 1= 2
(2 muestras relacionadas)
Aplicación 2: Análisis de la Varianza con medidas repetidas
Aplicación 3: Tendencia Polinomial del Crecimiento TPC
3.4
3.4.1
3.4.2
3.4.3
Intervalos de confianza para combinaciones lineales: I. de C. para at 
Para una función lineal:
at 
Para r combinaciones lineales {ait  }i=1...r preespecificadas:
A
Para r combinaciones lineales
no preespecificadas: A
5
5.0
Comparación de medias de DOS poblaciones Np independientes
Comparación de matrices de dispersión en DOS poblaciones Np independientes
H0: 1= 2 (muestras independientes)
5.1
H0: 1= 2 muestras independientes (asumiendo 1= 2 =  )
5.2
H0: 1= 2 muestras independientes (sin asumir 1= 2 = 
n1 = n2 = n0 se reduce al problema de una sola muestra
5.2.1
n1 ≠ n2
problema de Beherens-Fisher
5.2.2
Resumen H0: 1= 2 Comparación de medias p-dim en 2 poblaciones Np
5.3
6
Contrastes de normalidad
H0: X ~ Np ó
H0: X ~ Np(, )
6.1
Utilizando contrastes de ajuste univariantes
6.2
Utilizando características multivariantes de la Np
6.2.1
Plot de Normalidad multivariante
6.2.2
Contraste basado en Medida de Asimetría multivariante (skewness)
6.2.3
... y en una Medida de Kurtosis multivariante (skewness)
7
7.1
7.2
7.3
Outliers multidimensionales/ Tests basados en distancias de Mahalanobis.
Observación más alejada
Alternativa
Razón de varianzas generalizadas
8
8.1
8.2
8.3
8.4
Transformaciones para obtener Normalidad
Transformaciones univariantes
Efecto de la transformación, según sea 
Valor óptimo de 
Conveniencia de transformar los datos para conseguir normalidad
Apéndice 1 Computación secuencial de momentos muestrales
15
Infnormal_3GEST.doc
13/03/2015
[email protected]
16
Apéndice 1 Computación secuencial de momentos muestrales
Cómo se modifica la media muestral y la matriz de covariancias empíricas al añadir a la muestra una
nueva observación xn+1 (resp. al eliminar una de ellas, xn). Esto permite calcular los momentos
muestrales de forma secuencial sin necesidad de manejar la matriz de datos completa.