Variable latente y regla de decisión

En muchos problemas econométricos, la variable que realmente determina el comportamiento del individuo no es directamente observable. Cuando una persona decide si participar en el mercado laboral, lo que determina esa decisión es la utilidad neta de trabajar: la diferencia entre el beneficio percibido (salario, realización personal) y el coste (esfuerzo, desplazamiento, cuidado de hijos). Esa utilidad neta no la observamos, pero sí observamos la decisión que toma.

El enfoque de variable latente formaliza esta idea econométricamente. Definimos la variable no observable como una función lineal de características observables más un término de error aleatorio. A partir de esta variable latente, establecemos una regla de decisión que genera la variable binaria que sí podemos observar.

Modelo de variable latente

La variable latente (no observable) se define como:

$$y_i^* = \beta_0 + \beta_1 x_i + u_i$$

donde $y_i^*$ es la utilidad neta o propensión latente del individuo $i$, $x_i$ es una característica observable (como la educación), $\beta_0$ y $\beta_1$ son parámetros desconocidos, y $u_i$ es un término de error aleatorio.

La regla de decisión establece:

$$y_i = \begin{cases} 1 & \text{si } y_i^* > 0 \\ 0 & \text{si } y_i^* \leq 0 \end{cases}$$

donde $y_i$ es la decisión observable (1 = sí participa, 0 = no participa).

Probabilidad de decisión

A partir de la regla de decisión, la probabilidad de observar $y_i = 1$ es:

$$P(y_i = 1 | x_i) = P(y_i^* > 0 | x_i) = P(u_i > -\beta_0 - \beta_1 x_i)$$

Si asumimos que $u_i \sim N(0,1)$, entonces:

$$P(y_i = 1 | x_i) = \Phi(\beta_0 + \beta_1 x_i)$$

donde $\Phi$ es la función de distribución acumulada de la normal estándar. Este es el modelo Probit.

Supuestos del modelo

Linealidad de la variable latente: La utilidad neta es una función lineal de las características observables.
Normalidad del error: El término de error sigue una distribución normal estándar, lo que justifica el uso de la función Φ.
Independencia: Las decisiones de diferentes individuos son independientes entre sí.
Umbral fijo: El umbral de decisión está normalizado a cero. Esto es una normalización necesaria para la identificación del modelo.
Exogeneidad: Las variables explicativas no están correlacionadas con el término de error, E(u|x) = 0.

Estos supuestos son fundamentales porque permiten interpretar los coeficientes estimados como efectos marginales sobre la utilidad latente y, a través de la función Φ, sobre la probabilidad de decisión. La violación de cualquiera de ellos puede llevar a estimaciones sesgadas o inconsistentes.