Heteroscedasticidad en el MPL

Heteroscedasticidad en el Modelo de Probabilidad Lineal

El Modelo de Probabilidad Lineal (MPL) es simplemente MCO aplicado a una variable dependiente binaria. Aunque su simplicidad lo hace atractivo, presenta un problema fundamental: los errores son heterocedásticos por construcción, no por casualidad o mala especificación.

El modelo y su estructura de errores

El MPL se especifica como:

$$P(y_i = 1 | \mathbf{x}_i) = \mathbf{x}_i'\boldsymbol{\beta} + u_i$$

donde $P(y_i = 1 | \mathbf{x}_i)$ es la probabilidad de que la variable dependiente tome el valor 1, $\mathbf{x}_i$ es el vector de covariables, $\boldsymbol{\beta}$ son los parámetros a estimar, y $u_i$ es el término de error.

Como $y_i$ solo puede ser 0 o 1, el error toma únicamente dos valores posibles:

Si $y_i = 1$: $u_i = 1 - \mathbf{x}_i'\boldsymbol{\beta}$
Si $y_i = 0$: $u_i = 0 - \mathbf{x}_i'\boldsymbol{\beta} = -\mathbf{x}_i'\boldsymbol{\beta}$

Derivación de la heteroscedasticidad

Sea $p_i = \mathbf{x}_i'\boldsymbol{\beta}$ la probabilidad predicha para la observación $i$. La varianza del error es:

$$\text{Var}(u_i) = E[u_i^2] - (E[u_i])^2$$

Como $E[u_i] = 0$ por construcción:

$$\text{Var}(u_i) = E[u_i^2] = p_i(1-p_i)^2 + (1-p_i)(-p_i)^2 = p_i(1-p_i)$$

Esta expresión $p_i(1-p_i)$ revela tres características fundamentales:

Heteroscedasticidad inevitable: La varianza depende de $p_i$, que a su vez depende de $\mathbf{x}_i$. No es homocedástica salvo en el caso trivial donde todas las probabilidades predichas son idénticas.
Máximo en p = 0.5: La función $p(1-p)$ alcanza su máximo cuando $p = 0.5$, con $\text{Var}(u) = 0.25$.
Mínimo en los extremos: Cuando $p \to 0$ o $p \to 1$, la varianza tiende a cero.

Consecuencias econométricas

La heteroscedasticidad del MPL tiene tres implicaciones importantes:

Errores estándar incorrectos: Los errores estándar de MCO subestiman la verdadera variabilidad, invalidando los contrastes t y F.
Ineficiencia: Aunque los estimadores MCO siguen siendo insesgados, no son eficientes. Existe un estimador con menor varianza.
Intervalos de confianza incorrectos: Los intervalos basados en errores estándar de MCO tienen cobertura incorrecta.

Soluciones

La solución estándar es usar errores estándar robustos a la heteroscedasticidad (errores de White), que corrigen la matriz de covarianzas sin cambiar los coeficientes estimados. Alternativamente, se pueden usar modelos Probit o Logit que modelan correctamente la naturaleza binaria de la variable dependiente.

Heteroscedasticidad en el Modelo de Probabilidad Lineal

El modelo y su estructura de errores

Derivación de la heteroscedasticidad

Consecuencias econométricas

Soluciones

Parámetros de simulación

Datos simulados y ajuste MPL

Varianza de los errores: Var(u) = p(1-p)

Distribución de residuos por cuartiles de probabilidad predicha

Estimación MCO estándar

Estimación con errores robustos

Contraste de heteroscedasticidad

Interpretación econométrica