Efectos de la censura en la estimación
  • Teoría
  • Simulación interactiva
  • Resultados e interpretación

Censura por la derecha y sesgo en la estimación

En el análisis de duración, la censura por la derecha ocurre cuando el evento de interés no se ha producido al final del período de observación. Por ejemplo, en un estudio sobre duración del desempleo que termina en diciembre de 2023, algunos individuos seguirán desempleados en esa fecha. Para estos casos, solo sabemos que su duración es al menos la observada, pero desconocemos la duración total.

La censura presenta un desafío fundamental para la estimación. Si simplemente descartamos las observaciones censuradas o les asignamos una duración arbitraria, introducimos un sesgo sistemático que subestima la duración verdadera. Esto ocurre porque excluimos precisamente a los individuos con las duraciones más largas.

Estimadores ingenuos vs. Kaplan-Meier

Los estimadores ingenuos ignoran completamente la censura y calculan la media y mediana usando solo las observaciones completas (no censuradas). Si \(t_1, t_2, \ldots, t_k\) son las duraciones observadas sin censura, el estimador ingenuo de la media es:

$$\hat{\mu}_{ingenuo} = \frac{1}{k} \sum_{i=1}^k t_i$$

donde \(k\) es el número de observaciones no censuradas y se ignoran completamente las \(n-k\) observaciones censuradas.

El estimador de Kaplan-Meier incorpora la información parcial de las observaciones censuradas. La función de supervivencia estimada es:

$$\hat{S}(t) = \prod_{t_j \leq t} \left(1 - \frac{d_j}{n_j}\right)$$

donde \(t_j\) son los tiempos de evento, \(d_j\) es el número de eventos en \(t_j\), y \(n_j\) es el número de individuos en riesgo justo antes de \(t_j\). Las observaciones censuradas contribuyen a \(n_j\) hasta el momento de censura, pero no generan eventos.

Supuestos del análisis

  1. Censura no informativa: El mecanismo de censura es independiente del tiempo de supervivencia. La probabilidad de ser censurado no depende de características no observadas que afecten la duración.
  2. Observaciones independientes: Las duraciones de diferentes individuos son independientes entre sí.
  3. Mismo proceso generador: Todos los individuos siguen el mismo proceso estocástico de duración (homogeneidad poblacional).

Estos supuestos son cruciales para la validez de Kaplan-Meier. Si la censura es informativa (por ejemplo, los individuos con peores perspectivas abandonan el estudio), el estimador será sesgado.

Parámetros de simulación



Estimaciones de duración

Estadísticos de sesgo


Interpretación econométrica