Heteroscedasticidad en el Modelo de Probabilidad Lineal
El Modelo de Probabilidad Lineal (MPL) es simplemente MCO aplicado a una variable dependiente binaria. Aunque su simplicidad lo hace atractivo, presenta un problema fundamental: los errores son heterocedásticos por construcción, no por casualidad o mala especificación.
El modelo y su estructura de errores
El MPL se especifica como:
$$P(y_i = 1 | \mathbf{x}_i) = \mathbf{x}_i'\boldsymbol{\beta} + u_i$$
donde \(P(y_i = 1 | \mathbf{x}_i)\) es la probabilidad de que la variable dependiente tome el valor 1, \(\mathbf{x}_i\) es el vector de covariables, \(\boldsymbol{\beta}\) son los parámetros a estimar, y \(u_i\) es el término de error.
Como \(y_i\) solo puede ser 0 o 1, el error toma únicamente dos valores posibles:
- Si \(y_i = 1\): \(u_i = 1 - \mathbf{x}_i'\boldsymbol{\beta}\)
- Si \(y_i = 0\): \(u_i = 0 - \mathbf{x}_i'\boldsymbol{\beta} = -\mathbf{x}_i'\boldsymbol{\beta}\)
Derivación de la heteroscedasticidad
Sea \(p_i = \mathbf{x}_i'\boldsymbol{\beta}\) la probabilidad predicha para la observación \(i\). La varianza del error es:
$$\text{Var}(u_i) = E[u_i^2] - (E[u_i])^2$$
Como \(E[u_i] = 0\) por construcción:
$$\text{Var}(u_i) = E[u_i^2] = p_i(1-p_i)^2 + (1-p_i)(-p_i)^2 = p_i(1-p_i)$$
Esta expresión \(p_i(1-p_i)\) revela tres características fundamentales:
-
Heteroscedasticidad inevitable:
La varianza depende de \(p_i\), que a su vez depende de \(\mathbf{x}_i\). No es homocedástica salvo en el caso trivial donde todas las probabilidades predichas son idénticas.
-
Máximo en p = 0.5:
La función \(p(1-p)\) alcanza su máximo cuando \(p = 0.5\), con \(\text{Var}(u) = 0.25\).
-
Mínimo en los extremos:
Cuando \(p \to 0\) o \(p \to 1\), la varianza tiende a cero.
Consecuencias econométricas
La heteroscedasticidad del MPL tiene tres implicaciones importantes:
-
Errores estándar incorrectos:
Los errores estándar de MCO subestiman la verdadera variabilidad, invalidando los contrastes t y F.
-
Ineficiencia:
Aunque los estimadores MCO siguen siendo insesgados, no son eficientes. Existe un estimador con menor varianza.
-
Intervalos de confianza incorrectos:
Los intervalos basados en errores estándar de MCO tienen cobertura incorrecta.
Soluciones
La solución estándar es usar
errores estándar robustos a la heteroscedasticidad
(errores de White), que corrigen la matriz de covarianzas sin cambiar los coeficientes estimados. Alternativamente, se pueden usar modelos Probit o Logit que modelan correctamente la naturaleza binaria de la variable dependiente.