Descomposición within/between

Descomposición within/between en datos de panel

Los datos de panel contienen observaciones de los mismos individuos (empresas, personas, países) a lo largo del tiempo. Esta estructura permite descomponer la variación total de cualquier variable en dos componentes fundamentales que capturan diferentes fuentes de heterogeneidad.

La descomposición fundamental

Para cualquier variable $x_{it}$ observada en el individuo $i$ durante el período $t$, podemos escribir:

$$x_{it} = \underbrace{\bar{x}_i}_{\text{between}} + \underbrace{(x_{it} - \bar{x}_i)}_{\text{within}}$$

donde $\bar{x}_i = \frac{1}{T}\sum_{t=1}^T x_{it}$ es la media temporal del individuo $i$.

Variación between: $\bar{x}_i$ mide las diferencias entre las medias de los individuos. Captura heterogeneidad permanente: ¿son diferentes los individuos entre sí?
Variación within: $(x_{it} - \bar{x}_i)$ mide los cambios temporales dentro de cada individuo. Captura heterogeneidad temporal: ¿cambia cada individuo a lo largo del tiempo?

El modelo de panel y los efectos individuales

El modelo general de datos de panel es:

$$y_{it} = \alpha_i + \mathbf{x}_{it}'\boldsymbol{\beta} + \varepsilon_{it}$$

donde $\alpha_i$ es el efecto individual no observado (constante en el tiempo) y $\varepsilon_{it}$ es el error idiosincrásico.

Supuestos del modelo:

Exogeneidad estricta: $E[\varepsilon_{it} | \mathbf{x}_{i1}, \ldots, \mathbf{x}_{iT}, \alpha_i] = 0$. Los errores no están correlacionados con los regresores de ningún período.
Homocedasticidad: $\text{Var}(\varepsilon_{it}) = \sigma_\varepsilon^2$. La varianza del error es constante.
No autocorrelación: $\text{Cov}(\varepsilon_{it}, \varepsilon_{is}) = 0$ para $t \neq s$. Los errores de diferentes períodos no están correlacionados.

Implicaciones para la estimación

La descomposición within/between determina qué estimador es apropiado:

Efectos fijos (within): Utiliza solo la variación within. Elimina $\alpha_i$ mediante la transformación $\tilde{y}_{it} = y_{it} - \bar{y}_i$. Consistente incluso si $\text{Cov}(\alpha_i, \mathbf{x}_{it}) \neq 0$.
Efectos aleatorios: Combina variación within y between de forma ponderada. Más eficiente que efectos fijos, pero requiere $\text{Cov}(\alpha_i, \mathbf{x}_{it}) = 0$.
Estimador between: Utiliza solo las medias individuales $\bar{y}_i = \bar{\mathbf{x}}_i'\boldsymbol{\beta} + \alpha_i + \bar{\varepsilon}_i$. Identifica efectos de variables constantes en el tiempo.

La elección del estimador es fundamentalmente una decisión sobre qué tipo de variación queremos explotar para identificar los parámetros de interés.