Problemas de MCO con variables binarias

¿Por qué MCO falla con variables dependientes binarias?

Cuando la variable dependiente solo puede tomar valores 0 o 1 (trabajar/no trabajar, comprar/no comprar, aprobar/suspender), el modelo de regresión lineal clásico genera tres problemas fundamentales que hacen inválida la inferencia estadística.

El modelo lineal de probabilidad

Si aplicamos MCO directamente a una variable binaria $y_i \in \{0,1\}$, estamos estimando:

$$y_i = \beta_0 + \beta_1 x_i + u_i$$

donde $\beta_0$ es la constante, $\beta_1$ mide el cambio en la probabilidad cuando $x_i$ aumenta una unidad, y $u_i$ es el término de error.

Los tres problemas irremediables

Predicciones incoherentes: Las predicciones $\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i$ pueden ser negativas o mayores que 1, violando la naturaleza probabilística de la variable dependiente.
Heterocedasticidad por construcción: Si $p_i = P(y_i = 1 | x_i)$, entonces $\text{Var}(u_i) = p_i(1-p_i)$, que depende de $x_i$, violando sistemáticamente la homocedasticidad.
Contrastes inválidos: Los estadísticos t y F no siguen sus distribuciones teóricas, haciendo incorrectos los p-valores y intervalos de confianza.

Las alternativas correctas: Probit y Logit

Los modelos Probit y Logit resuelven estos problemas usando funciones de distribución acumulada que garantizan predicciones en [0,1]:

$$P(y_i = 1 | x_i) = F(\beta_0 + \beta_1 x_i)$$

donde $F$ es la función de distribución normal estándar (Probit) o logística estándar (Logit). Ambas funciones transforman cualquier valor real en una probabilidad válida entre 0 y 1.

¿Por qué MCO falla con variables dependientes binarias?

El modelo lineal de probabilidad

Los tres problemas irremediables

Las alternativas correctas: Probit y Logit

Parámetros de simulación

Estimaciones MCO

Comparación con Probit

Interpretación econométrica