Efectos fijos vs pooled OLS

Efectos Fijos vs Pooled OLS

Los datos de panel permiten observar los mismos individuos a lo largo del tiempo, revelando tanto diferencias entre individuos (variación between) como cambios temporales dentro de cada individuo (variación within). Esta estructura plantea una pregunta fundamental: ¿cómo tratamos la heterogeneidad no observada que es constante en el tiempo?

El modelo de panel

El modelo general de datos de panel se especifica como:

$$y_{it} = \alpha_i + x_{it}\beta + \varepsilon_{it}$$

donde:

$y_{it}$: variable dependiente del individuo $i$ en el período $t$
$\alpha_i$: efecto individual no observado (constante en el tiempo)
$x_{it}$: variable explicativa observada
$\beta$: parámetro de interés (efecto de $x$ sobre $y$)
$\varepsilon_{it}$: error idiosincrásico (varía entre individuos y períodos)

Pooled OLS: ignorando la estructura de panel

El estimador pooled OLS trata todas las observaciones como un único corte transversal, estimando:

$$y_{it} = \alpha + x_{it}\beta + u_{it}$$

donde $u_{it} = (\alpha_i - \alpha) + \varepsilon_{it}$. Si el efecto individual $\alpha_i$ está correlacionado con $x_{it}$, el estimador pooled OLS sufre sesgo de variable omitida porque $E[u_{it}|x_{it}] \neq 0$.

Efectos fijos: la transformación within

Para eliminar $\alpha_i$, calculamos la media temporal de cada individuo y la restamos de cada observación:

$$(y_{it} - \bar{y}_i) = (x_{it} - \bar{x}_i)\beta + (\varepsilon_{it} - \bar{\varepsilon}_i)$$

Esta transformación within elimina completamente $\alpha_i$ y produce estimaciones consistentes de $\beta$ independientemente de si $\alpha_i$ está correlacionado con $x_{it}$.

Supuestos del modelo

Exogeneidad estricta: $E[\varepsilon_{it} | x_{i1}, \ldots, x_{iT}, \alpha_i] = 0$. Los errores no están correlacionados con los regresores de ningún período.
Homocedasticidad: $\text{Var}(\varepsilon_{it}) = \sigma_\varepsilon^2$. La varianza del error es constante.
No autocorrelación: $\text{Cov}(\varepsilon_{it}, \varepsilon_{is}) = 0$ para $t \neq s$. Los errores de diferentes períodos no están correlacionados.
Variación within suficiente: Debe existir variación temporal en $x_{it}$ para identificar $\beta$.