Los datos de recuento (número de visitas al médico, accidentes, publicaciones académicas) presentan características especiales que hacen inadecuada la regresión lineal ordinaria. Solo pueden tomar valores enteros no negativos, siguen distribuciones asimétricamente positivas y, crucialmente, su varianza suele crecer con la media.
La distribución de Poisson con parámetro λ > 0 asigna probabilidades a cada entero k ≥ 0:
Donde λ es la intensidad o tasa del proceso, e es la base del logaritmo natural, y k! es el factorial de k. Su característica definitoria es la equidispersión: E[Y] = Var[Y] = λ.
En la práctica, los datos de recuento presentan casi siempre varianza mayor que la media. El ratio varianza-media (VMR) es superior a 1. Esto tiene dos consecuencias graves si se ignora: los errores estándar están sesgados hacia abajo (produciendo estadísticos z inflados y p-valores demasiado pequeños) y las predicciones de valores extremos son sistemáticamente incorrectas.
La distribución Binomial Negativa generaliza la Poisson añadiendo un parámetro de dispersión θ > 0. Sus momentos son E[Y] = μ y Var[Y] = μ + μ²/θ. El ratio varianza-media es:
Donde μ es la media y θ es el parámetro de dispersión. Cuando θ → ∞, VMR → 1 y la Binomial Negativa converge a la Poisson. Cuanto más pequeño es θ, mayor es la sobredispersión.