Problemas de MCO con variables binarias
  • Teoría
  • Simulación interactiva
  • Resultados e interpretación

¿Por qué MCO falla con variables dependientes binarias?

Cuando la variable dependiente solo puede tomar valores 0 o 1 (trabajar/no trabajar, comprar/no comprar, aprobar/suspender), el modelo de regresión lineal clásico genera tres problemas fundamentales que hacen inválida la inferencia estadística.

El modelo lineal de probabilidad

Si aplicamos MCO directamente a una variable binaria \(y_i \in \{0,1\}\), estamos estimando:

$$y_i = \beta_0 + \beta_1 x_i + u_i$$

donde \(\beta_0\) es la constante, \(\beta_1\) mide el cambio en la probabilidad cuando \(x_i\) aumenta una unidad, y \(u_i\) es el término de error.

Los tres problemas irremediables

  1. Predicciones incoherentes: Las predicciones \(\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i\) pueden ser negativas o mayores que 1, violando la naturaleza probabilística de la variable dependiente.
  2. Heterocedasticidad por construcción: Si \(p_i = P(y_i = 1 | x_i)\), entonces \(\text{Var}(u_i) = p_i(1-p_i)\), que depende de \(x_i\), violando sistemáticamente la homocedasticidad.
  3. Contrastes inválidos: Los estadísticos t y F no siguen sus distribuciones teóricas, haciendo incorrectos los p-valores y intervalos de confianza.

Las alternativas correctas: Probit y Logit

Los modelos Probit y Logit resuelven estos problemas usando funciones de distribución acumulada que garantizan predicciones en [0,1]:

$$P(y_i = 1 | x_i) = F(\beta_0 + \beta_1 x_i)$$

donde \(F\) es la función de distribución normal estándar (Probit) o logística estándar (Logit). Ambas funciones transforman cualquier valor real en una probabilidad válida entre 0 y 1.

Parámetros de simulación

Estimaciones MCO

Comparación con Probit

Interpretación econométrica