Endogeneidad - Gabriel Montes

El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
Endogeneidad
Gabriel V. Montes-Rojas
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
El problema de la endogeneidad
Una variable es endógena si Cov (xj , error ) 6= 0.
Una variable es exógena si Cov (xj , error ) = 0.
Consideremos el modelo
log(wage ) = β 0 + β 1 educ + β 2 exper + β 3 abil + v
Nuestro interés es estimar β 1 y β 2 . Sin embargo, abil no se puede observar. Por
ello obtendrı́amos estimadores sesgados (ver variables omitidas).
En la práctica solo podemos estimar este modelo:
log(wage ) = γ0 + γ1 educ + γ2 exper + u
donde u ≡ β 3 abil + v .
En este caso podemos argumentar que: Cov (educ, u ) 6= 0, Cov (exper , u ) 6= 0.
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
El problema de la endogeneidad
Consideremos un modelo estructural general:
y = β 0 + β 1 x1 + β 2 x2 + ... + β K xK + γq + v ,
E (v |x1 , x2 , ..., xK , q ) = 0.
Supongamos que q es no observable. Entonces forma parte del error.
Asumamos sin pérdida de generalidad que E (q ) = 0 (como hay un intercepto no
es ningún problema)
y = β 0 + β 1 x1 + β 2 x2 + ... + β K xK + u,
u ≡ γq + v .
Ahora consideremos la proyección de q en x como
q = δ0 + δ1 x1 + ... + δK xK + r ,
donde por definición E (r ) = 0, Cov (xj , r ) = 0, j = 1, 2, ..., K .
Entonces,
y = ( β 0 + γδ0 ) + ( β 1 + γδ1 )x1 + ( β 2 + γδ2 )x2 + ... + ( β K + γδK )xK + u,
plim β̂ j = β j + γδj , j = 1, 2, ..., K .
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
Errores en la medición
Los problemas de endogeneidad abarcan otros casos. Por ejemplo supongamos que el
modelo verdadero es
y = x β + u, u ∼ iid (0, σu2 I)
Asumamos que observamos x con errores y lo que observamos es x ∗ tal que
x ∗ = x + ν, ν ∼ iid (0, ω 2 I). El vector ν es un vector de errores que se asume
independiente de x y u (un supuesto fuerte). Sustituyendo x ∗ − ν por x tenemos
y = x ∗ β − νβ + u = x ∗ β + u ∗
donde u ∗ ≡ u − νβ. Notemos que u ∗ no es independiente de x ∗ porque
0 E x ∗ u ∗ = E (x + ν)0 (u − νβ) = −Nω 2 β.
Ası́, errores de medición (measurement errors) en las variables explicativas se puede
ver como un problema de endogeneidad. Si asumimos que β > 0, el error u ∗ esta
correlacionado en forma negativa con x ∗ . Esto se llama sesgo de atenuación
(attenuation bias),
p
0
β̂ → β − Nω 2 [E (x ∗ x ∗ )]−1 β.
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
Soluciones
Hay 3 posibles soluciones:
1
Medir la variable no observada.
2
Encontrar una variable proxy.
3
Encontrar una variable instrumental.
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
Variables proxy
Consideremos el modelo
log(wage ) = β 0 + β 1 educ + β 2 exper + β 3 abil + u
Tomemos x = (educ, exper ).
Una potencial variable proxy para abil es IQ.
La variable proxy deberı́a satisfacer lo siguiente:
1
2
abil = δ0 + δ3 IQ+v3 , donde v3 no esta correlacionado con educ, exper y
IQ.
u no esta correlacionado con educ, exper y abil. Otra forma de expresarlo
es E (lwage |x, abil, IQ ) = E (lwage |x, abil ), y decimos que la proxy es
irrelevante para explicar los salarios una vez que las variables observables
x y la variable abil son usadas.
Entonces podemos estimar
y = ( β 0 + β 3 δ0 ) + β 1 educ + β 2 exper + β 3 δ3 IQ + u + β 3 v3 .
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
Ejemplo: IQ como proxy para abilidad
use
reg
reg
gen
reg
http://fmwww.bc.edu/ec-p/data/wooldridge/wage2, clear
lwage educ exper tenure married south urban black
lwage educ exper tenure married south urban black IQ
educIQ=educ*IQ
lwage educ exper tenure married south urban black IQ educIQ
Variables
educ
IQ
(1)
.065
(.006)
.014
(.002)
.012
(.002)
.199
(.039)
-.091
(.026)
.184
(.027)
-.188
(.038)
-
educIQ
-
exper
tenure
married
south
urban
black
(2)
.054
(.007)
.014
(.002)
.011
(.002)
.200
(.039)
-.080
(.026)
.182
(.027)
-.143
(.039)
.0036
(.0010)
-
(3)
.018
(.041)
.014
(.003)
.011
(.002)
.201
(.039)
-.080
(.026)
.184
(.027)
-.147
(.040)
-.0009
(.0052)
-.00034
(.00038)
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
Sesgo potencial usando una proxy: proxy imperfecta
Asumamos por el contrario que
abil = δ0 + δ1 educ + δ2 exper + δ3 IQ + v3
⇒ y = ( β 0 + β 3 δ0 ) + ( β 1 + β 3 δ1 )educ
+( β 2 + β 3 δ2 )exper + β 3 δ3 IQ + u + β 3 v3
En este caso, IQ se define como una variable proxy imperfecta. Como puede verse
MCO con proxy imperfecta tiene sesgo.
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
Variables instrumentales
Consideremos la siguiente regresión:
y = β0 + β1 x + u
donde Cov (x, u ) 6= 0 (o sea, x is endógena)
Una variable instrumental (VI) z deberı́a satisfacer:
1
No estar correlacionada con el error: Cov (z, u ) = 0
2
Estar correlacionada con la variable endógena: Cov (x, z ) 6= 0
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
Variables instrumentales
¿Cómo podrı́amos estimar β 1 usando z?
Notar que
β1 =
Cov (z, y )
Cov (z, x )
¿Por qué?
Cov (z, y ) = Cov (z, β 0 + β 1 x + u )
= Cov (z, β 0 ) + Cov (z, β 1 x ) + Cov (z, u )
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
VI como un estimador en dos etapas
Consideremos la regresión simple
y = β 0 + β 1 x + u,
donde Cov (x, u ) 6= 0.
Consideremos la siguiente regresión auxiliar (etapa 1): x = γ0 + γ1 z + r .
Construir los valores predecidos x̂ ≡ γ0 + γ1 z. Notemos que x = x̂ + r and
Cov (x,z )
γ1 = Var (z ) .
Notemos que x̂ no esta correlacionado con r (por construcción) y también
Cov (x̂, u ) = 0.
Consideremos otra regresión (etapa 2):
y = β 0 + β 1 (x̂ + r ) + u = β 0 + β 1 x̂ + v ,
donde v ≡ r + u y Cov (x̂, v ) = Cov (x̂, r + u ) = 0. Entonces,
Cov (x,z )
Cov y , Var (z ) z
Cov (y , x̂ )
= β1 .
β̂ VI 1 =
=
Cov (x,z )
Var (x̂ )
Var Var (z ) z
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
Variables instrumentales en regresión múltiple
Consideremos el modelo
y = β 1 x1 + β 2 x2 + ... + β K xK + u
donde Cov (xK , u ) 6= 0 (o sea, xK es endógena) y Cov (xj , u ) = 0, j = 1, 2, ..., K − 1 (el
resto son exógenas, incluyendo una constante x1 = 1).
Una variable instrumental z debe satisfacer dos condiciones:
1
No estar correlacionada con el error: Cov (z, u ) = 0
2
Estar correlacionada con la vriable endógena. Más formalmente, consideremos la
proyección lineal de xK en todas las variables exógenas:
xK = δ1 x1 + ... + δK −1 xK −1 + θz + rK ,
donde por definición E (rK ) = 0 y rK no está correlacionado con x1 , x2 , ..., xK −1 .
El supuesto importante es que θ 6= 0.
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
Identificación de VI
Consideremos el modelo de regresión
y = xβ + u.
Definamos z ≡ (x1 , ..., xK −1 , z ), como el vector de todas las variables exógenas.
Hay entonces K condiciones de ortogonalidad:
E (z0 u ) = 0.
Multiplicamos el modelo de regresión por z0 , y tomando esperanzas
[E (z0 x)] β = E (z0 y ),
donde E (z0 x) es una matriz K × K y E (z0 y ) es K × 1. Este sistema tiene una
única solución si y sólo si la primera matriz tiene rango K , entonces
β = [E (z0 x)]−1 E (z0 y ).
El estimador de variables instrumentales de β es
! −1
!
β̂ VI =
N −1
N
∑ zi0 xi
N −1
N
∑ zi0 yi
i =1
i =1
Gabriel Montes-Rojas
Endogeneidad
= (Z0 X)−1 (Zy)
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
Muchos instrumentos
Cuando hay más de un instrumento (M, z1 , z2 , ..., zM ) el estimador más eficiente
es el de mı́nimos cuadrados en dos etapas (two-stage least squares, 2SLS):
β̂ 2SLS =
N −1
N
∑ x̂i0 xi
! −1
i =1
N −1
N
∑ x̂i0 yi
!
0
= (X̂ X)−1 (X̂y)
i =1
donde
xK = δ1 x1 + ... + δK −1 xK −1 + θ1 z1 + ... + θM zM + rK
x̂K = δ̂1 x1 + ... + δ̂K −1 xK −1 + θ̂1 z1 + ... + θ̂M zM
Notemos que X̂ = Z(Z0 Z)−1 Z0 X = PZ X, es una proyección de x en el espacio de
z ≡ (x1 , ..., xK −1 , z1 , ..., zM ), donde PZ es la matriz de proyección. Entonces,
0
0
X̂ X̂ = X̂ X. Ası́ el estimador 2SLS es un estimador de MCO donde x̂ se usa en
0
vez de x. O sea, β̂ 2SLS = (X̂ X̂)−1 (X̂y)
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
Supuestos para identificación y consistencia de 2SLS
Supuesto 2SLS.1: Para un vector 1 × L z, E (z0 u ) = 0.
Supuesto 2SLS.2: (a) rango E (z0 z) = L; (b) rango E (z0 x) = K .
Una condición necesaria para estas condiciones es que L ≥ K , o sea, más instrumentos
que variables endógenas.
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
Identificación
Identificación: Si asumimos que E (z0 z) es no singular definamos la proyección
0
x∗ = zΠ, donde Π = [E (z0 z)]−1 E (z0 x) es una matriz L × K . Multiplicando por x ∗ , y
tomando esperanzas tenemos
0
0
0
0
E (x∗ y ) = E (x∗ x ) β + E (x∗ u ) = E (x∗ x ) β
0
0
Ası́ β esta identificado por β = [E (x∗ x)]− 1E (x∗ y ). Para esto necesitamos que
0
E (x∗ x∗ ) sea no singular. Pero
0
E (x∗ x) = E (Π0 z0 x) = E (x0 z)[E (z0 z)]−1 E (z0 x)
Entonces esta matriz es no singular si E (z0 x) tiene rango K (Supuesto 2SLS.2b). Para
esto también necesitamos E (z0 z) no singular y entonces con rango L (Supuesto
2SLS.2a).
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
Consistencia de 2SLS

β̂ 2SLS =  N
−1
N
∑
!
xi0 zi
N
−1
N
∑ xi0 zi
∑
! −1
zi0 zi
N
−1
i =1
i =1
N −1
N
!
N −1
i =1
N
∑ zi0 zi
N
∑
zi0 xi
i =1
! −1
N −1
i =1
N
∑ zi0 yi
!
i =1
Consistencia: Bajo los Supuestos 2SLS.1 y 2SLS.2, plim β̂ 2SLS = β.
Prueba: Ley de los grandes números y teorema de Slutsky.
Gabriel Montes-Rojas
Endogeneidad
!  −1

El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
Normalidad asintótica de 2SLS
Supuesto 2SLS.3: E (u 2 z0 z) = σ2 E (z0 z), donde σ2 = E (u 2 ).
Normalidad asintótica: Bajo los supuestos 2SLS.1, 2SLS.2 y 2SLS.3,
√
d
N ( β̂ 2SLS − β) → N 0, σ2 ([E (x0 z)][E (z0 z)]−1 [E (z0 x)]) .
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
Contrastes para endogeneidad
El estimador de 2SLS es menos eficiente (mayor varianza) que MCO con
variable enxógenas.
La estimación de modelos 2SLS es más demandante en términos
computacionales.
Entonces es importante chequear primero si hay endogeneidad para evitar usar
un estimator ineficiente innecesariamente.
Tomemos el modelo
y1 = β 0 + β 1 y2 + β 2 z1 + β 3 z2 + u
donde y2 es (potencialmente) endógena; z1 and z2 son variables explicativas exógenas;
z3 and z4 son IV. Para contrastar por endogeneidad:
1
y2 = π0 + π1 z1 + π2 z2 + π3 z3 + π4 z4 + v2 y construir los residuos v̂2
2
y1 = β 0 + β 1 y2 + β 2 z1 + + β 3 z2 + δ1 v̂2 + error
3
Contrastar por la significancia estadı́stica de v̂2 , H0 : δ1 = 0.
4
Si rechazamos la hipótesis nula entonces hay evidencia que u y v2 están
correlacionados y y2 es endógena.
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
Contrastes para endogeneidad
Consideremos ahora el contraste de Durbin-Wu-Hausman (DWH) que esta basado en
la comparación de β̂ 2SLS y β̂ OLS . (La misma idea se ve en datos en panel para
comparar RE y FE.)
Bajo la hipótesis nula de exogeneidad, H0 : E (x0 u ) = 0. Entonces,
1
Ambos estimadores son consistentes para β.
2
Entonces la hipótesis nula se puede redefinir con H0 : β̂ 2SLS = β̂ OLS .
3
Bajo H0 (y asumiendo homoscedasticidad)
√
0
Avar [ N ( β̂ 2SLS − β̂ OLS )] = σ2 [E (x∗ x∗ )]−1 − [E (x0 x]−1 .
4
Dado que MCO es más eficiente, entonces la varianza es definida semipositiva.
5
En particular,
0
a
DWH = ( β̂ 2SLS − β̂ OLS )0 [(X̂ X̂)−1 − (X0 X)]( β̂ 2SLS − β̂ OLS )/σ̂2 ∼ χ2L−K
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
Contraste para la validez de los instrumentos
Requerimiento importante: Necesitamos más variables instrumentales que variables
endógenas.
1
Supongamos que en el modelo anterior usamos 2SLS con z3 como la única
variable instrumental.
2
Computar û3 = y1 − β̂ 0 − β̂ 1 y2 − β̂ 2 z1 − β̂ 3 z2 .
3
Correr la regresión auxiliar û3 = δ0 + δ̂1 z1 + δ̂2 z2 + δ4 z4 .
4
Chequer la significancia de z4 .
5
Esto nos da un contraste válido para la validez de z4 como VI. Pero tenemos
que asumir que z3 es una VI válida.
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
Contraste para la validez de los instrumentos
Contraste de Sargan-Hausman
1
Si tenemos más VIs que variables endógenas, entonces el modelo esta
sobre-identificado (over-identified).
2
Consideremos H0 : todas las VIs son exgógenas. Si rechazamos entonces alguna
de las VIs es endgógena.
3
Estimar el modelo con todos las VIs usando 2SLS. Obtener los residuos û.
4
Correr la regresión de û en TODAS las variables exógenas (VIs, X exógenas,
constante).
5
Computar NRu2 ∼ χ2L−K , donde Ru2 es el de la última regresión.
a
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
VI en STATA
Asumamos que x1 is (potentialmente endógena y x2 is exógena. Asumamos la
existencia de 2 VI: z1, z2
ivregress 2sls y (x1=z1 z2) x2
ivregress 2sls y (x1=z1 z2) x2, first (para que muestre la primera
etapa)
estat firststage (significancia de los instrumentos - necesitamos F > 10)
También podemos usar reg x1 z1 z2 y test z1 z2
estat overid (validez de los instrumentos)
estat endogenous (exogeneidad de todas las variables)
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
VI en STATA
Para entender VI se puede correr un estimador en dos etapas a mano para
reproducir
ivreg y (x1=z1 z2) x2
Los mismos coeficientes se pueden obtener con
reg x1 z1 z2 x2
predict x1hat
reg y x1hat x2
Notar que los errores estándar son diferentes. ¿Por qué?
Gabriel Montes-Rojas
Endogeneidad
El problema de la endogeneidad
Variables proxy
Variables instrumentales
STATA
Ejemplos de Wooldridge
http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge15.html
Gabriel Montes-Rojas
Endogeneidad