El problema de la endogeneidad Variables proxy Variables instrumentales STATA Endogeneidad Gabriel V. Montes-Rojas Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA El problema de la endogeneidad Una variable es endógena si Cov (xj , error ) 6= 0. Una variable es exógena si Cov (xj , error ) = 0. Consideremos el modelo log(wage ) = β 0 + β 1 educ + β 2 exper + β 3 abil + v Nuestro interés es estimar β 1 y β 2 . Sin embargo, abil no se puede observar. Por ello obtendrı́amos estimadores sesgados (ver variables omitidas). En la práctica solo podemos estimar este modelo: log(wage ) = γ0 + γ1 educ + γ2 exper + u donde u ≡ β 3 abil + v . En este caso podemos argumentar que: Cov (educ, u ) 6= 0, Cov (exper , u ) 6= 0. Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA El problema de la endogeneidad Consideremos un modelo estructural general: y = β 0 + β 1 x1 + β 2 x2 + ... + β K xK + γq + v , E (v |x1 , x2 , ..., xK , q ) = 0. Supongamos que q es no observable. Entonces forma parte del error. Asumamos sin pérdida de generalidad que E (q ) = 0 (como hay un intercepto no es ningún problema) y = β 0 + β 1 x1 + β 2 x2 + ... + β K xK + u, u ≡ γq + v . Ahora consideremos la proyección de q en x como q = δ0 + δ1 x1 + ... + δK xK + r , donde por definición E (r ) = 0, Cov (xj , r ) = 0, j = 1, 2, ..., K . Entonces, y = ( β 0 + γδ0 ) + ( β 1 + γδ1 )x1 + ( β 2 + γδ2 )x2 + ... + ( β K + γδK )xK + u, plim β̂ j = β j + γδj , j = 1, 2, ..., K . Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA Errores en la medición Los problemas de endogeneidad abarcan otros casos. Por ejemplo supongamos que el modelo verdadero es y = x β + u, u ∼ iid (0, σu2 I) Asumamos que observamos x con errores y lo que observamos es x ∗ tal que x ∗ = x + ν, ν ∼ iid (0, ω 2 I). El vector ν es un vector de errores que se asume independiente de x y u (un supuesto fuerte). Sustituyendo x ∗ − ν por x tenemos y = x ∗ β − νβ + u = x ∗ β + u ∗ donde u ∗ ≡ u − νβ. Notemos que u ∗ no es independiente de x ∗ porque 0 E x ∗ u ∗ = E (x + ν)0 (u − νβ) = −Nω 2 β. Ası́, errores de medición (measurement errors) en las variables explicativas se puede ver como un problema de endogeneidad. Si asumimos que β > 0, el error u ∗ esta correlacionado en forma negativa con x ∗ . Esto se llama sesgo de atenuación (attenuation bias), p 0 β̂ → β − Nω 2 [E (x ∗ x ∗ )]−1 β. Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA Soluciones Hay 3 posibles soluciones: 1 Medir la variable no observada. 2 Encontrar una variable proxy. 3 Encontrar una variable instrumental. Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA Variables proxy Consideremos el modelo log(wage ) = β 0 + β 1 educ + β 2 exper + β 3 abil + u Tomemos x = (educ, exper ). Una potencial variable proxy para abil es IQ. La variable proxy deberı́a satisfacer lo siguiente: 1 2 abil = δ0 + δ3 IQ+v3 , donde v3 no esta correlacionado con educ, exper y IQ. u no esta correlacionado con educ, exper y abil. Otra forma de expresarlo es E (lwage |x, abil, IQ ) = E (lwage |x, abil ), y decimos que la proxy es irrelevante para explicar los salarios una vez que las variables observables x y la variable abil son usadas. Entonces podemos estimar y = ( β 0 + β 3 δ0 ) + β 1 educ + β 2 exper + β 3 δ3 IQ + u + β 3 v3 . Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA Ejemplo: IQ como proxy para abilidad use reg reg gen reg http://fmwww.bc.edu/ec-p/data/wooldridge/wage2, clear lwage educ exper tenure married south urban black lwage educ exper tenure married south urban black IQ educIQ=educ*IQ lwage educ exper tenure married south urban black IQ educIQ Variables educ IQ (1) .065 (.006) .014 (.002) .012 (.002) .199 (.039) -.091 (.026) .184 (.027) -.188 (.038) - educIQ - exper tenure married south urban black (2) .054 (.007) .014 (.002) .011 (.002) .200 (.039) -.080 (.026) .182 (.027) -.143 (.039) .0036 (.0010) - (3) .018 (.041) .014 (.003) .011 (.002) .201 (.039) -.080 (.026) .184 (.027) -.147 (.040) -.0009 (.0052) -.00034 (.00038) Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA Sesgo potencial usando una proxy: proxy imperfecta Asumamos por el contrario que abil = δ0 + δ1 educ + δ2 exper + δ3 IQ + v3 ⇒ y = ( β 0 + β 3 δ0 ) + ( β 1 + β 3 δ1 )educ +( β 2 + β 3 δ2 )exper + β 3 δ3 IQ + u + β 3 v3 En este caso, IQ se define como una variable proxy imperfecta. Como puede verse MCO con proxy imperfecta tiene sesgo. Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA Variables instrumentales Consideremos la siguiente regresión: y = β0 + β1 x + u donde Cov (x, u ) 6= 0 (o sea, x is endógena) Una variable instrumental (VI) z deberı́a satisfacer: 1 No estar correlacionada con el error: Cov (z, u ) = 0 2 Estar correlacionada con la variable endógena: Cov (x, z ) 6= 0 Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA Variables instrumentales ¿Cómo podrı́amos estimar β 1 usando z? Notar que β1 = Cov (z, y ) Cov (z, x ) ¿Por qué? Cov (z, y ) = Cov (z, β 0 + β 1 x + u ) = Cov (z, β 0 ) + Cov (z, β 1 x ) + Cov (z, u ) Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA VI como un estimador en dos etapas Consideremos la regresión simple y = β 0 + β 1 x + u, donde Cov (x, u ) 6= 0. Consideremos la siguiente regresión auxiliar (etapa 1): x = γ0 + γ1 z + r . Construir los valores predecidos x̂ ≡ γ0 + γ1 z. Notemos que x = x̂ + r and Cov (x,z ) γ1 = Var (z ) . Notemos que x̂ no esta correlacionado con r (por construcción) y también Cov (x̂, u ) = 0. Consideremos otra regresión (etapa 2): y = β 0 + β 1 (x̂ + r ) + u = β 0 + β 1 x̂ + v , donde v ≡ r + u y Cov (x̂, v ) = Cov (x̂, r + u ) = 0. Entonces, Cov (x,z ) Cov y , Var (z ) z Cov (y , x̂ ) = β1 . β̂ VI 1 = = Cov (x,z ) Var (x̂ ) Var Var (z ) z Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA Variables instrumentales en regresión múltiple Consideremos el modelo y = β 1 x1 + β 2 x2 + ... + β K xK + u donde Cov (xK , u ) 6= 0 (o sea, xK es endógena) y Cov (xj , u ) = 0, j = 1, 2, ..., K − 1 (el resto son exógenas, incluyendo una constante x1 = 1). Una variable instrumental z debe satisfacer dos condiciones: 1 No estar correlacionada con el error: Cov (z, u ) = 0 2 Estar correlacionada con la vriable endógena. Más formalmente, consideremos la proyección lineal de xK en todas las variables exógenas: xK = δ1 x1 + ... + δK −1 xK −1 + θz + rK , donde por definición E (rK ) = 0 y rK no está correlacionado con x1 , x2 , ..., xK −1 . El supuesto importante es que θ 6= 0. Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA Identificación de VI Consideremos el modelo de regresión y = xβ + u. Definamos z ≡ (x1 , ..., xK −1 , z ), como el vector de todas las variables exógenas. Hay entonces K condiciones de ortogonalidad: E (z0 u ) = 0. Multiplicamos el modelo de regresión por z0 , y tomando esperanzas [E (z0 x)] β = E (z0 y ), donde E (z0 x) es una matriz K × K y E (z0 y ) es K × 1. Este sistema tiene una única solución si y sólo si la primera matriz tiene rango K , entonces β = [E (z0 x)]−1 E (z0 y ). El estimador de variables instrumentales de β es ! −1 ! β̂ VI = N −1 N ∑ zi0 xi N −1 N ∑ zi0 yi i =1 i =1 Gabriel Montes-Rojas Endogeneidad = (Z0 X)−1 (Zy) El problema de la endogeneidad Variables proxy Variables instrumentales STATA Muchos instrumentos Cuando hay más de un instrumento (M, z1 , z2 , ..., zM ) el estimador más eficiente es el de mı́nimos cuadrados en dos etapas (two-stage least squares, 2SLS): β̂ 2SLS = N −1 N ∑ x̂i0 xi ! −1 i =1 N −1 N ∑ x̂i0 yi ! 0 = (X̂ X)−1 (X̂y) i =1 donde xK = δ1 x1 + ... + δK −1 xK −1 + θ1 z1 + ... + θM zM + rK x̂K = δ̂1 x1 + ... + δ̂K −1 xK −1 + θ̂1 z1 + ... + θ̂M zM Notemos que X̂ = Z(Z0 Z)−1 Z0 X = PZ X, es una proyección de x en el espacio de z ≡ (x1 , ..., xK −1 , z1 , ..., zM ), donde PZ es la matriz de proyección. Entonces, 0 0 X̂ X̂ = X̂ X. Ası́ el estimador 2SLS es un estimador de MCO donde x̂ se usa en 0 vez de x. O sea, β̂ 2SLS = (X̂ X̂)−1 (X̂y) Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA Supuestos para identificación y consistencia de 2SLS Supuesto 2SLS.1: Para un vector 1 × L z, E (z0 u ) = 0. Supuesto 2SLS.2: (a) rango E (z0 z) = L; (b) rango E (z0 x) = K . Una condición necesaria para estas condiciones es que L ≥ K , o sea, más instrumentos que variables endógenas. Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA Identificación Identificación: Si asumimos que E (z0 z) es no singular definamos la proyección 0 x∗ = zΠ, donde Π = [E (z0 z)]−1 E (z0 x) es una matriz L × K . Multiplicando por x ∗ , y tomando esperanzas tenemos 0 0 0 0 E (x∗ y ) = E (x∗ x ) β + E (x∗ u ) = E (x∗ x ) β 0 0 Ası́ β esta identificado por β = [E (x∗ x)]− 1E (x∗ y ). Para esto necesitamos que 0 E (x∗ x∗ ) sea no singular. Pero 0 E (x∗ x) = E (Π0 z0 x) = E (x0 z)[E (z0 z)]−1 E (z0 x) Entonces esta matriz es no singular si E (z0 x) tiene rango K (Supuesto 2SLS.2b). Para esto también necesitamos E (z0 z) no singular y entonces con rango L (Supuesto 2SLS.2a). Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA Consistencia de 2SLS β̂ 2SLS = N −1 N ∑ ! xi0 zi N −1 N ∑ xi0 zi ∑ ! −1 zi0 zi N −1 i =1 i =1 N −1 N ! N −1 i =1 N ∑ zi0 zi N ∑ zi0 xi i =1 ! −1 N −1 i =1 N ∑ zi0 yi ! i =1 Consistencia: Bajo los Supuestos 2SLS.1 y 2SLS.2, plim β̂ 2SLS = β. Prueba: Ley de los grandes números y teorema de Slutsky. Gabriel Montes-Rojas Endogeneidad ! −1 El problema de la endogeneidad Variables proxy Variables instrumentales STATA Normalidad asintótica de 2SLS Supuesto 2SLS.3: E (u 2 z0 z) = σ2 E (z0 z), donde σ2 = E (u 2 ). Normalidad asintótica: Bajo los supuestos 2SLS.1, 2SLS.2 y 2SLS.3, √ d N ( β̂ 2SLS − β) → N 0, σ2 ([E (x0 z)][E (z0 z)]−1 [E (z0 x)]) . Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA Contrastes para endogeneidad El estimador de 2SLS es menos eficiente (mayor varianza) que MCO con variable enxógenas. La estimación de modelos 2SLS es más demandante en términos computacionales. Entonces es importante chequear primero si hay endogeneidad para evitar usar un estimator ineficiente innecesariamente. Tomemos el modelo y1 = β 0 + β 1 y2 + β 2 z1 + β 3 z2 + u donde y2 es (potencialmente) endógena; z1 and z2 son variables explicativas exógenas; z3 and z4 son IV. Para contrastar por endogeneidad: 1 y2 = π0 + π1 z1 + π2 z2 + π3 z3 + π4 z4 + v2 y construir los residuos v̂2 2 y1 = β 0 + β 1 y2 + β 2 z1 + + β 3 z2 + δ1 v̂2 + error 3 Contrastar por la significancia estadı́stica de v̂2 , H0 : δ1 = 0. 4 Si rechazamos la hipótesis nula entonces hay evidencia que u y v2 están correlacionados y y2 es endógena. Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA Contrastes para endogeneidad Consideremos ahora el contraste de Durbin-Wu-Hausman (DWH) que esta basado en la comparación de β̂ 2SLS y β̂ OLS . (La misma idea se ve en datos en panel para comparar RE y FE.) Bajo la hipótesis nula de exogeneidad, H0 : E (x0 u ) = 0. Entonces, 1 Ambos estimadores son consistentes para β. 2 Entonces la hipótesis nula se puede redefinir con H0 : β̂ 2SLS = β̂ OLS . 3 Bajo H0 (y asumiendo homoscedasticidad) √ 0 Avar [ N ( β̂ 2SLS − β̂ OLS )] = σ2 [E (x∗ x∗ )]−1 − [E (x0 x]−1 . 4 Dado que MCO es más eficiente, entonces la varianza es definida semipositiva. 5 En particular, 0 a DWH = ( β̂ 2SLS − β̂ OLS )0 [(X̂ X̂)−1 − (X0 X)]( β̂ 2SLS − β̂ OLS )/σ̂2 ∼ χ2L−K Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA Contraste para la validez de los instrumentos Requerimiento importante: Necesitamos más variables instrumentales que variables endógenas. 1 Supongamos que en el modelo anterior usamos 2SLS con z3 como la única variable instrumental. 2 Computar û3 = y1 − β̂ 0 − β̂ 1 y2 − β̂ 2 z1 − β̂ 3 z2 . 3 Correr la regresión auxiliar û3 = δ0 + δ̂1 z1 + δ̂2 z2 + δ4 z4 . 4 Chequer la significancia de z4 . 5 Esto nos da un contraste válido para la validez de z4 como VI. Pero tenemos que asumir que z3 es una VI válida. Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA Contraste para la validez de los instrumentos Contraste de Sargan-Hausman 1 Si tenemos más VIs que variables endógenas, entonces el modelo esta sobre-identificado (over-identified). 2 Consideremos H0 : todas las VIs son exgógenas. Si rechazamos entonces alguna de las VIs es endgógena. 3 Estimar el modelo con todos las VIs usando 2SLS. Obtener los residuos û. 4 Correr la regresión de û en TODAS las variables exógenas (VIs, X exógenas, constante). 5 Computar NRu2 ∼ χ2L−K , donde Ru2 es el de la última regresión. a Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA VI en STATA Asumamos que x1 is (potentialmente endógena y x2 is exógena. Asumamos la existencia de 2 VI: z1, z2 ivregress 2sls y (x1=z1 z2) x2 ivregress 2sls y (x1=z1 z2) x2, first (para que muestre la primera etapa) estat firststage (significancia de los instrumentos - necesitamos F > 10) También podemos usar reg x1 z1 z2 y test z1 z2 estat overid (validez de los instrumentos) estat endogenous (exogeneidad de todas las variables) Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA VI en STATA Para entender VI se puede correr un estimador en dos etapas a mano para reproducir ivreg y (x1=z1 z2) x2 Los mismos coeficientes se pueden obtener con reg x1 z1 z2 x2 predict x1hat reg y x1hat x2 Notar que los errores estándar son diferentes. ¿Por qué? Gabriel Montes-Rojas Endogeneidad El problema de la endogeneidad Variables proxy Variables instrumentales STATA Ejemplos de Wooldridge http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge15.html Gabriel Montes-Rojas Endogeneidad
© Copyright 2024