Cuando la variable dependiente solo puede tomar valores 0 o 1 (trabajar/no trabajar, comprar/no comprar, aprobar/suspender), el modelo de regresión lineal clásico genera tres problemas fundamentales que hacen inválida la inferencia estadística.
Si aplicamos MCO directamente a una variable binaria \(y_i \in \{0,1\}\), estamos estimando:
donde \(\beta_0\) es la constante, \(\beta_1\) mide el cambio en la probabilidad cuando \(x_i\) aumenta una unidad, y \(u_i\) es el término de error.
Los modelos Probit y Logit resuelven estos problemas usando funciones de distribución acumulada que garantizan predicciones en [0,1]:
donde \(F\) es la función de distribución normal estándar (Probit) o logística estándar (Logit). Ambas funciones transforman cualquier valor real en una probabilidad válida entre 0 y 1.