Cuando un regresor está correlacionado con el término de error, decimos que hay endogeneidad. Este problema hace que el estimador MCO sea sesgado e inconsistente: ningún aumento del tamaño muestral puede corregir el sesgo. La endogeneidad surge por tres causas principales: variables omitidas relevantes, simultaneidad (causalidad inversa), y errores de medida en los regresores.
Las variables instrumentales (IV) proporcionan una solución elegante. Un instrumento es una variable que está correlacionada con el regresor endógeno pero no con el término de error. Esto permite aislar la variación 'limpia' del regresor para estimar el efecto causal.
Consideremos el modelo simple: \(y_i = \beta_0 + \beta_1 x_i + u_i\)
El estimador MCO converge a:
donde \(\sigma_{xu} = \text{Cov}(x,u)\) es la covarianza entre el regresor y el error, y \(\sigma_x^2 = \text{Var}(x)\) es la varianza del regresor. El término \(\sigma_{xu}/\sigma_x^2\) es el sesgo de endogeneidad, que no desaparece al aumentar el tamaño muestral.
Un instrumento válido \(z\) debe cumplir simultáneamente:
El estimador IV explota la relación:
El estimador muestral es:
IV es consistente pero menos eficiente que MCO. La varianza del estimador IV es:
donde \(\rho_{zx}^2\) es el cuadrado de la correlación entre \(z\) y \(x\). Si el instrumento es débil (\(\rho_{zx}^2\) pequeño), la varianza se dispara. Este es el precio de la consistencia: IV siempre tiene mayor varianza que MCO.