Descomposición within/between en datos de panel
Los datos de panel contienen observaciones de los mismos individuos (empresas, personas, países) a lo largo del tiempo. Esta estructura permite descomponer la variación total de cualquier variable en dos componentes fundamentales que capturan diferentes fuentes de heterogeneidad.
La descomposición fundamental
Para cualquier variable \(x_{it}\) observada en el individuo \(i\) durante el período \(t\), podemos escribir:
$$x_{it} = \underbrace{\bar{x}_i}_{\text{between}} + \underbrace{(x_{it} - \bar{x}_i)}_{\text{within}}$$
donde \(\bar{x}_i = \frac{1}{T}\sum_{t=1}^T x_{it}\) es la media temporal del individuo \(i\).
-
Variación between:
\(\bar{x}_i\) mide las diferencias entre las medias de los individuos. Captura heterogeneidad permanente: ¿son diferentes los individuos entre sí?
-
Variación within:
\((x_{it} - \bar{x}_i)\) mide los cambios temporales dentro de cada individuo. Captura heterogeneidad temporal: ¿cambia cada individuo a lo largo del tiempo?
El modelo de panel y los efectos individuales
El modelo general de datos de panel es:
$$y_{it} = \alpha_i + \mathbf{x}_{it}'\boldsymbol{\beta} + \varepsilon_{it}$$
donde \(\alpha_i\) es el efecto individual no observado (constante en el tiempo) y \(\varepsilon_{it}\) es el error idiosincrásico.
Supuestos del modelo:
-
Exogeneidad estricta:
\(E[\varepsilon_{it} | \mathbf{x}_{i1}, \ldots, \mathbf{x}_{iT}, \alpha_i] = 0\). Los errores no están correlacionados con los regresores de ningún período.
-
Homocedasticidad:
\(\text{Var}(\varepsilon_{it}) = \sigma_\varepsilon^2\). La varianza del error es constante.
-
No autocorrelación:
\(\text{Cov}(\varepsilon_{it}, \varepsilon_{is}) = 0\) para \(t \neq s\). Los errores de diferentes períodos no están correlacionados.
Implicaciones para la estimación
La descomposición within/between determina qué estimador es apropiado:
-
Efectos fijos (within):
Utiliza solo la variación within. Elimina \(\alpha_i\) mediante la transformación \(\tilde{y}_{it} = y_{it} - \bar{y}_i\). Consistente incluso si \(\text{Cov}(\alpha_i, \mathbf{x}_{it}) \neq 0\).
-
Efectos aleatorios:
Combina variación within y between de forma ponderada. Más eficiente que efectos fijos, pero requiere \(\text{Cov}(\alpha_i, \mathbf{x}_{it}) = 0\).
-
Estimador between:
Utiliza solo las medias individuales \(\bar{y}_i = \bar{\mathbf{x}}_i'\boldsymbol{\beta} + \alpha_i + \bar{\varepsilon}_i\). Identifica efectos de variables constantes en el tiempo.
La elección del estimador es fundamentalmente una decisión sobre qué tipo de variación queremos explotar para identificar los parámetros de interés.