En el análisis de duración, la censura por la derecha ocurre cuando el evento de interés no se ha producido al final del período de observación. Por ejemplo, en un estudio sobre duración del desempleo que termina en diciembre de 2023, algunos individuos seguirán desempleados en esa fecha. Para estos casos, solo sabemos que su duración es al menos la observada, pero desconocemos la duración total.
La censura presenta un desafío fundamental para la estimación. Si simplemente descartamos las observaciones censuradas o les asignamos una duración arbitraria, introducimos un sesgo sistemático que subestima la duración verdadera. Esto ocurre porque excluimos precisamente a los individuos con las duraciones más largas.
Los estimadores ingenuos ignoran completamente la censura y calculan la media y mediana usando solo las observaciones completas (no censuradas). Si \(t_1, t_2, \ldots, t_k\) son las duraciones observadas sin censura, el estimador ingenuo de la media es:
donde \(k\) es el número de observaciones no censuradas y se ignoran completamente las \(n-k\) observaciones censuradas.
El estimador de Kaplan-Meier incorpora la información parcial de las observaciones censuradas. La función de supervivencia estimada es:
donde \(t_j\) son los tiempos de evento, \(d_j\) es el número de eventos en \(t_j\), y \(n_j\) es el número de individuos en riesgo justo antes de \(t_j\). Las observaciones censuradas contribuyen a \(n_j\) hasta el momento de censura, pero no generan eventos.
Estos supuestos son cruciales para la validez de Kaplan-Meier. Si la censura es informativa (por ejemplo, los individuos con peores perspectivas abandonan el estudio), el estimador será sesgado.