Modelo lineal de probabilidad vs Probit/Logit
  • Teoría
  • Simulación interactiva
  • Resultados e interpretación

Modelos de Elección Discreta: MPL, Probit y Logit

Cuando la variable dependiente es binaria (toma valores 0 o 1), modelamos la probabilidad de observar el resultado 1 dado un conjunto de covariables. Los tres enfoques principales son el Modelo Lineal de Probabilidad (MPL), el modelo Probit y el modelo Logit.

Modelo Lineal de Probabilidad (MPL)

El MPL aplica MCO directamente a la variable binaria:

$$P(y_i = 1 | \mathbf{x}_i) = \mathbf{x}_i'\boldsymbol{\beta}$$

donde \(P(y_i = 1 | \mathbf{x}_i)\) es la probabilidad de que la variable dependiente tome el valor 1, \(\mathbf{x}_i\) es el vector de covariables para la observación \(i\), y \(\boldsymbol{\beta}\) es el vector de parámetros a estimar.

Ventajas del MPL:
  • Interpretación directa: \(\beta_j\) es el cambio en la probabilidad ante un incremento unitario de \(x_j\)
  • Estimación sencilla con MCO
  • Resultados similares a Probit/Logit cuando las predicciones están en (0.2, 0.8)
Problemas del MPL:
  • Predicciones pueden salir del intervalo [0,1]
  • Heterocedasticidad por construcción: \(\text{Var}(u_i) = p_i(1-p_i)\)
  • Relación lineal poco realista en los extremos

Modelo Probit

El Probit utiliza la función de distribución acumulada de la Normal estándar:

$$P(y_i = 1 | \mathbf{x}_i) = \Phi(\mathbf{x}_i'\boldsymbol{\beta})$$

donde \(\Phi(\cdot)\) es la CDF de la Normal estándar. Garantiza predicciones en [0,1] y produce una curva en forma de S.

Modelo Logit

El Logit utiliza la función de distribución logística:

$$P(y_i = 1 | \mathbf{x}_i) = \frac{e^{\mathbf{x}_i'\boldsymbol{\beta}}}{1 + e^{\mathbf{x}_i'\boldsymbol{\beta}}}$$

donde la probabilidad se relaciona con los log-odds: \(\ln\left(\frac{P}{1-P}\right) = \mathbf{x}_i'\boldsymbol{\beta}\).

Supuestos clave

  • **Independencia**: Las observaciones son independientes entre sí
  • **Especificación correcta**: La relación funcional está bien especificada
  • **No multicolinealidad perfecta**: Las covariables no son combinaciones lineales exactas
  • **Muestra suficientemente grande**: Para la validez asintótica de los estimadores MLE
  • **Distribución del error**: Normal (Probit) o Logística (Logit) en el modelo latente

Parámetros de simulación


La simulación genera datos binarios y compara las predicciones de los tres modelos.


Comparación de modelos


Interpretación econométrica