Regresión de Poisson vs Binomial Negativa

Los modelos de regresión para datos de recuento están diseñados para analizar variables dependientes que toman valores enteros no negativos (0, 1, 2, ...). Ejemplos típicos incluyen el número de visitas al médico, accidentes de tráfico, publicaciones académicas o delitos registrados. Estos datos presentan características que hacen inapropiada la regresión lineal ordinaria: solo pueden ser no negativos, tienen distribución asimétricamente positiva y frecuentemente muestran sobredispersión (varianza mayor que la media).

El Modelo de Regresión de Poisson

La distribución de Poisson con parámetro λ > 0 asigna a cada entero k ≥ 0 la probabilidad:

$$P(Y = k \mid \lambda) = \frac{e^{-\lambda}\lambda^k}{k!}, \quad k = 0, 1, 2, \ldots$$

donde λ es el parámetro de intensidad o tasa, k es el número de eventos observados, y e es la base del logaritmo natural. Su característica definitoria es la equidispersión: E[Y] = Var[Y] = λ.

En el modelo de regresión, el parámetro λ depende de las covariables a través de la función de enlace logarítmica:

$$\lambda_i = E[Y_i \mid \mathbf{x}_i] = e^{\mathbf{x}_i'\boldsymbol{\beta}}$$

donde λᵢ es la tasa esperada para la observación i, xᵢ es el vector de covariables, y β es el vector de coeficientes. Esta especificación garantiza que λᵢ > 0 y hace que los efectos sean multiplicativos sobre la tasa esperada.

El Problema de la Sobredispersión

En la práctica, los datos de recuento presentan casi siempre varianza mayor que la media (sobredispersión). Esto tiene dos consecuencias graves: los errores estándar están sesgados hacia abajo (produciendo estadísticos z inflados y p-valores demasiado pequeños) y las predicciones de la cola derecha son sistemáticamente incorrectas.

El Modelo Quasi-Poisson

El modelo quasi-Poisson relaja el supuesto de equidispersión permitiendo que la varianza sea proporcional a la media mediante un parámetro de dispersión φ:

$$\text{Var}[Y_i] = \phi \cdot E[Y_i] = \phi \lambda_i$$

donde φ es el parámetro de dispersión. Si φ = 1, recuperamos el modelo Poisson. Si φ > 1, hay sobredispersión. Los coeficientes estimados son idénticos al modelo Poisson, pero los errores estándar se ajustan multiplicándolos por √φ.

El Modelo Binomial Negativa

La distribución Binomial Negativa generaliza la Poisson añadiendo un parámetro de dispersión θ > 0. Sus momentos son E[Y] = μ y Var[Y] = μ + μ²/θ. El ratio varianza-media es:

$$\text{VMR} = 1 + \frac{\mu}{\theta}$$

donde VMR es el ratio varianza-media, μ es la media, y θ es el parámetro de dispersión. Cuando θ → ∞, VMR → 1 y la Binomial Negativa converge a la Poisson. Cuanto menor es θ, mayor es la sobredispersión.

Supuestos de los Modelos

Independencia: Las observaciones son independientes entre sí
Especificación correcta: La función de enlace logarítmica es apropiada
Ausencia de valores extremos que distorsionen las estimaciones
Para Poisson: Equidispersión (Var[Y] = E[Y])
Para Quasi-Poisson: Dispersión constante (Var[Y] = φ·E[Y])
Para Binomial Negativa: Sobredispersión cuadrática (Var[Y] = μ + μ²/θ)

Modelos de Regresión para Datos de Recuento

El Modelo de Regresión de Poisson

El Problema de la Sobredispersión

El Modelo Quasi-Poisson

El Modelo Binomial Negativa

Supuestos de los Modelos

Parámetros de Simulación

Estimaciones de los Modelos

Interpretación Econométrica