Los modelos de regresión para datos de recuento están diseñados para analizar variables dependientes que toman valores enteros no negativos (0, 1, 2, ...). Ejemplos típicos incluyen el número de visitas al médico, accidentes de tráfico, publicaciones académicas o delitos registrados. Estos datos presentan características que hacen inapropiada la regresión lineal ordinaria: solo pueden ser no negativos, tienen distribución asimétricamente positiva y frecuentemente muestran sobredispersión (varianza mayor que la media).
La distribución de Poisson con parámetro λ > 0 asigna a cada entero k ≥ 0 la probabilidad:
donde λ es el parámetro de intensidad o tasa, k es el número de eventos observados, y e es la base del logaritmo natural. Su característica definitoria es la equidispersión: E[Y] = Var[Y] = λ.
En el modelo de regresión, el parámetro λ depende de las covariables a través de la función de enlace logarítmica:
donde λᵢ es la tasa esperada para la observación i, xᵢ es el vector de covariables, y β es el vector de coeficientes. Esta especificación garantiza que λᵢ > 0 y hace que los efectos sean multiplicativos sobre la tasa esperada.
En la práctica, los datos de recuento presentan casi siempre varianza mayor que la media (sobredispersión). Esto tiene dos consecuencias graves: los errores estándar están sesgados hacia abajo (produciendo estadísticos z inflados y p-valores demasiado pequeños) y las predicciones de la cola derecha son sistemáticamente incorrectas.
El modelo quasi-Poisson relaja el supuesto de equidispersión permitiendo que la varianza sea proporcional a la media mediante un parámetro de dispersión φ:
donde φ es el parámetro de dispersión. Si φ = 1, recuperamos el modelo Poisson. Si φ > 1, hay sobredispersión. Los coeficientes estimados son idénticos al modelo Poisson, pero los errores estándar se ajustan multiplicándolos por √φ.
La distribución Binomial Negativa generaliza la Poisson añadiendo un parámetro de dispersión θ > 0. Sus momentos son E[Y] = μ y Var[Y] = μ + μ²/θ. El ratio varianza-media es:
donde VMR es el ratio varianza-media, μ es la media, y θ es el parámetro de dispersión. Cuando θ → ∞, VMR → 1 y la Binomial Negativa converge a la Poisson. Cuanto menor es θ, mayor es la sobredispersión.