Sobredispersión en datos de recuento
  • Teoría
  • Simulación interactiva
  • Resultados e interpretación

Sobredispersión en datos de recuento

Los datos de recuento (número de visitas al médico, accidentes, publicaciones académicas) presentan características especiales que hacen inadecuada la regresión lineal ordinaria. Solo pueden tomar valores enteros no negativos, siguen distribuciones asimétricamente positivas y, crucialmente, su varianza suele crecer con la media.

La distribución de Poisson

La distribución de Poisson con parámetro λ > 0 asigna probabilidades a cada entero k ≥ 0:

$$P(Y = k \mid \lambda) = \frac{e^{-\lambda}\lambda^k}{k!}, \quad k = 0, 1, 2, \ldots$$

Donde λ es la intensidad o tasa del proceso, e es la base del logaritmo natural, y k! es el factorial de k. Su característica definitoria es la equidispersión: E[Y] = Var[Y] = λ.

El problema de la sobredispersión

En la práctica, los datos de recuento presentan casi siempre varianza mayor que la media. El ratio varianza-media (VMR) es superior a 1. Esto tiene dos consecuencias graves si se ignora: los errores estándar están sesgados hacia abajo (produciendo estadísticos z inflados y p-valores demasiado pequeños) y las predicciones de valores extremos son sistemáticamente incorrectas.

La distribución Binomial Negativa

La distribución Binomial Negativa generaliza la Poisson añadiendo un parámetro de dispersión θ > 0. Sus momentos son E[Y] = μ y Var[Y] = μ + μ²/θ. El ratio varianza-media es:

$$\text{VMR} = 1 + \frac{\mu}{\theta}$$

Donde μ es la media y θ es el parámetro de dispersión. Cuando θ → ∞, VMR → 1 y la Binomial Negativa converge a la Poisson. Cuanto más pequeño es θ, mayor es la sobredispersión.

Supuestos del modelo

  • Los datos son enteros no negativos (recuentos)
  • Las observaciones son independientes entre sí
  • La función de enlace logarítmica es apropiada: ln(μᵢ) = xᵢ'β
  • Para Poisson: Var[Y] = E[Y] (equidispersión)
  • Para Binomial Negativa: Var[Y] = μ + μ²/θ (permite sobredispersión)

Parámetros de simulación


Estadísticos descriptivos

Comparación de modelos


Interpretación econométrica