Variables dummy y efectos sobre la regresión

Las variables dummy (o ficticias) son variables binarias que toman el valor 1 si el individuo pertenece a una categoría específica y 0 en caso contrario. Permiten incorporar información cualitativa en modelos de regresión cuantitativos, siendo fundamentales para analizar diferencias entre grupos en econometría aplicada.

Consideremos el modelo más simple con una variable dummy para el sexo:

$$\text{salario}_i = \beta_0 + \beta_1 D_{mujer,i} + \beta_2 \text{experiencia}_i + u_i$$

donde $D_{mujer,i} = 1$ si el individuo es mujer y $D_{mujer,i} = 0$ si es hombre. Los parámetros se interpretan como:

$\beta_0$: salario medio de los hombres (categoría de referencia) con experiencia cero
$\beta_1$: diferencia salarial entre mujeres y hombres, manteniendo constante la experiencia
$\beta_2$: incremento salarial por año adicional de experiencia, igual para ambos sexos

Este modelo asume que la experiencia tiene el mismo efecto sobre el salario para hombres y mujeres (líneas paralelas). Para permitir que el efecto de la experiencia difiera entre grupos, se incluye una interacción:

$$\text{salario}_i = \beta_0 + \beta_1 D_{mujer,i} + \beta_2 \text{experiencia}_i + \beta_3 (D_{mujer,i} \times \text{experiencia}_i) + u_i$$

donde $\beta_3$ mide la diferencia en el rendimiento de la experiencia entre mujeres y hombres. Si $\beta_3 \neq 0$, existe cambio estructural: el efecto marginal de la experiencia no es el mismo para ambos grupos.

Supuestos del modelo

Linealidad condicional: La relación entre la variable dependiente y los regresores es lineal en los parámetros, permitiendo cambios discretos en el intercepto (y opcionalmente en la pendiente) entre categorías.
Categoría de referencia: Para evitar multicolinealidad perfecta, se omite una categoría como base. Todos los efectos se interpretan relativos a esta categoría.
Exogeneidad estricta: $E[u_i|D_i, X_i] = 0$. La pertenencia al grupo debe ser exógena o, al menos, no correlacionada con factores no observados que afecten la variable dependiente.
Homocedasticidad: $\text{Var}(u_i|D_i, X_i) = \sigma^2$. La varianza del error es constante entre grupos, aunque esto puede relajarse con errores robustos.
No autocorrelación: Los errores son independientes entre observaciones, especialmente relevante en datos de panel o series temporales.

La violación del supuesto de exogeneidad es particularmente preocupante en aplicaciones como diferencias salariales por sexo, donde factores no observados (motivación, discriminación, autoselección ocupacional) pueden correlacionarse tanto con el sexo como con el salario, sesgando la estimación de $\beta_1$.

Variables dummy y efectos sobre la regresión

Supuestos del modelo

Parámetros de simulación

Regresión con variables dummy

Distribución de residuos

Coeficientes estimados

Estadísticos del modelo

Interpretación econométrica