ANOVA: comparación de medias entre grupos

Análisis de la Varianza (ANOVA)

El Análisis de la Varianza (ANOVA) es una técnica estadística que permite comparar las medias de tres o más grupos simultáneamente. A diferencia de las pruebas t que comparan solo dos grupos, ANOVA evalúa si existe evidencia estadística de que al menos un grupo tiene una media poblacional diferente a las demás.

En econometría, ANOVA es fundamental para analizar diferencias entre categorías: ¿difieren los salarios entre sectores económicos? ¿Varía la productividad entre regiones? ¿Es distinto el consumo según el nivel educativo? Estas preguntas requieren comparar múltiples grupos, no solo dos.

El modelo ANOVA de una vía

El modelo estadístico para ANOVA de una vía con $K$ grupos es:

$$y_{ij} = \mu + \alpha_k + \varepsilon_{ij}$$

donde:

$y_{ij}$ es la observación $j$ del grupo $k$
$\mu$ es la media global de toda la población
$\alpha_k$ es el efecto específico del grupo $k$
$\varepsilon_{ij} \sim N(0, \sigma^2)$ es el error aleatorio

Descomposición de la varianza

ANOVA descompone la variación total de los datos en dos componentes:

$$SCT = SCE + SCR$$

donde:

$SCT$ = Suma de Cuadrados Total (variación total)
$SCE$ = Suma de Cuadrados Explicada (variación entre grupos)
$SCR$ = Suma de Cuadrados Residual (variación dentro de grupos)

El estadístico F

El contraste de hipótesis es:

$H_0: \alpha_1 = \alpha_2 = \cdots = \alpha_K = 0$ (todas las medias grupales son iguales)

$H_1:$ Al menos un $\alpha_k \neq 0$ (al menos una media difiere)

El estadístico de prueba es:

$$F = \frac{SCE/(K-1)}{SCR/(n-K)} = \frac{\text{Varianza entre grupos}}{\text{Varianza dentro de grupos}}$$

Bajo $H_0$, este estadístico sigue una distribución $F_{K-1, n-K}$.

Supuestos del modelo ANOVA

Normalidad: Los errores $\varepsilon_{ij}$ siguen una distribución normal. Violaciones moderadas no afectan gravemente la validez del test F cuando las muestras son grandes.
Homocedasticidad: La varianza $\sigma^2$ es constante entre grupos. Si las varianzas difieren sustancialmente, el test F pierde validez.
Independencia: Las observaciones son independientes entre sí. La violación de este supuesto (correlación serial, efectos de cluster) invalida los resultados.
Aditividad: Los efectos grupales son aditivos, sin interacciones complejas.

Análisis de la Varianza (ANOVA)

El modelo ANOVA de una vía

Descomposición de la varianza

El estadístico F

Supuestos del modelo ANOVA

Parámetros de simulación

Tabla ANOVA

Estadísticas descriptivas

Interpretación econométrica