Author: Marcos Bujosa
En esta lección veremos algunos transformaciones de los datos para "hacerlos estacionarios". Daremos interpretación a los datos transformados.
Proceso estocástico: es una secuencia de variables aleatorias, $X_t$ donde el índice $t$ recorre el conjunto de números enteros $(\mathbb{Z})$. $$\boldsymbol{X}\;=\; (\ldots,X_{-2},X_{-1},X_0,X_1,\ldots)\;=\; (X_t \mid t\in\mathbb{Z});$$
Serie temporal: es una secuencia finita de datos tomados a lo largo del tiempo
$$\boldsymbol{x} = (x_1, x_2,\ldots x_n)$$
Consideraremos cada dato $x_t$ como una realización de $X_t$.
Consecuentemente, consideraremos que una serie temporal es una realización de un tramo finito de un proceso estocástico:
$$(x_1, x_2,\ldots x_n) \text{ es una realización de }(X_t \mid t=1:n).$$
Sección cruzada: el índice NO es cronológico. La numeración (la indexación) de cada dato es solo una asignación arbitraria de etiquetas que identifican a cada individuo, empresa, objeto, etc. que ha sido medido. Consecuentemente:
el orden en el que aparecen los datos en la muestra es irrelevante.
es decir, conocer únicamente el índice de un dato no permite deducir nada respecto de cualquier otro dato.
Series temporales: Corresponden a mediciones de un mismo objeto a lo largo del tiempo. El índice indica el instante de cada medición. Es habitual que el orden cronológico de los datos sea importante para explicar cada uno de ellos.
con frecuencia la medición en un instante de tiempo está relacionada con otras mediciones próximas en el tiempo. En tal caso…
no debemos asumir que las variables aleatorias del proceso estocástico subyacente, $\boldsymbol{X}=(X_t \mid t\in\mathbb{Z})$, sean independientes entre sí.
El análisis de series temporales trata sobre la inferencia estadística de muestras que frecuentemente NO podemos asumir que sean realizaciones de variables aleatorias i.i.d. (independientes e idénticamente distribuidas).
Además,
Aunque el marco ideal es que la serie temporal analizada "sea estacionaria"
(abuso del lenguaje que expresa que podemos asumir que la serie es una realización de un proceso estocástico estacionario, es decir, cuyos momentos no dependen del índice $t$)
El desafío para el analista es
y después: transformar los datos estacionarios en "ruido blanco"
(nuevo abuso del lenguaje que expresa que podemos asumir dichos datos transformados son realizaciones de un proceso de ruido blanco, i.e. de media cero e incorrelado.)
El mayor objetivo del análisis de series temporales es inferir la distribución de $\boldsymbol{X}=(X_t \mid t\in\mathbb{Z})$ usando una muestra finita (serie temporal) $\boldsymbol{x}=(x_t \mid t=1:n)$.
Así podremos
Pero esto es casi imposible si los datos son inestables o caóticos a lo largo del tiempo
Por tanto, algún tipo de estabilidad o estacionariedad es necesaria.
Un proceso estocástico $\boldsymbol{X}$ se dice estacionario (en sentido débil) si para todo $t,k\in\mathbb{Z}$
\begin{equation} \label{org707ee60} E(X_t) = \mu \end{equation}\begin{equation} \label{orgee349fe} Cov(X_t,X_{t-k}) = \gamma_k \end{equation}(1) sugiere que las realizaciones de $\boldsymbol{X}$ generalmente oscilan entorno a $\mu$.
(2) sugiere que la variabilidad de las realizaciones de $\boldsymbol{X}$ entorno a $\mu$ es constante, pues para el caso particular $k=0$
$$Cov(X_t,X_{t-0})=Var(X_t) = \gamma_0\quad\text{ para todo } t$$
Es decir, $\gamma_0$ es la varianza común a todas las variables aleatorias del proceso.
Es más, la desigualdad de Chebyshev $$P\left(|X_t-\mu|\geq c\sigma\right)\leq\frac{1}{c^2},\quad\text{ donde } \sigma=\sqrt{\gamma_0}$$ sugiere que para cualquier proceso estacionario (y un $c$ grande), al pintar una realización, tan solo un pequeño porcentaje de los datos caerán fuera de la franja $\left(\mu-c\sigma, \mu+c\sigma\right)$.
Cuando $\boldsymbol{X}$ es un proceso estocástico (débilmente) estacionario
Debido a la estacionariedad, la correlación entre $X_t$ y $X_{t+k}$ no depende de $t$; tan solo depende de la distancia temporal $k$ entre ambas variables.
Un proceso estocástico $\boldsymbol{X}=(X_t \mid t\in\mathbb{Z})$ puede ser
NO estacionario en media: porque $E(X_t)$ depende de $t$.
NO estacionario en covarianza: porque $Cov(X_t,X_{t-k})$ depende de $t$.
Separar o distinguir ambos tipos de no estacionariedad no es sencillo.
Veamos un ejemplo de serie temporal para la que
y algunos intentos de transformación para obtener datos "estacionarios" (*)
(recuerde que esta expresión, aunque extendida, es un abuso del lenguaje).
Serie "no estacionaria" (*):
Al aplicar la función logarítmica transformamos monótonamente los datos estabilizando la varianza cuando los valores son mayores que 0.567 (aprox.)
Pero ocurre lo contrario cuando los valores son pequeños (aumenta el valor absoluto de aquellos entre 0 y 0.567 aprox.). De hecho, $\lim\limits_{x\to0} \ln(x)=-\infty$.
Además, el logaritmo no está definido para valores negativos.
Ésta tampoco parece la realización de un proceso estocástico estacionario
Esta serie tampoco parece "estacionaria" (*)
Esta serie se aproxima más al aspecto de la realización de un proceso estacionario
La tasa logarítmica de variación de $\boldsymbol{y}$ se define como $z_t=\ln{y_t}-\ln{y_{t-1}};$ es decir
$$\boldsymbol{z}=\nabla\ln\boldsymbol{y} = \Big(\big[\ln(y_2)-\ln(y_1)\big],\ldots\; \big[\ln(y_{n})-\ln(y_{n-1})\big]\Big)$$y se aproxima a la tasa de crecimiento (en tanto por uno) si el incremento es pequeño.
Transformación de la serie temporal $\displaystyle \boldsymbol{y}=\{y_t\},\; t=1:n$ | Comentario |
---|---|
$\boldsymbol{z}=\ln\boldsymbol{y}=\{\ln y_t\}$ | A veces independiza la volatilidad del nivel e induce normalidad. |
$\boldsymbol{z}=\nabla\boldsymbol{y}=\{y_t-y_{t-1}\}$ | Indica al crecimiento absoluto entre periodos consecutivos. |
$\boldsymbol{z}=\nabla\ln\boldsymbol{y}$ $=$ $\{\ln{y_t}-\ln{y_{t-1}}\}$ | Tasa logarítmica de crecimiento. Aproximación del crecimiento relativo entre periodos consecutivos. |
$\boldsymbol{z}=\nabla\nabla\ln\boldsymbol{y}=\nabla^2\ln\boldsymbol{y}$ | Cambio en la tasa log. de crecimiento. Indica la “aceleración” en el crecimiento relativo. |
$\boldsymbol{z}=\nabla_{s}\ln\boldsymbol{y}$ $=$ $\{\ln{y_t}-\ln{y_{t-s}}\}$ | Tasa log. de crecimiento acumulada en un ciclo estacional completo ($s$ períodos). Cuando el período estacional es de un año, se conoce como “tasa anual” o “tasa interanual” de crecimiento. |
$\boldsymbol{z}=\nabla\nabla_{s}\ln\boldsymbol{y}$ | Cambio en la tasa log. de crecimiento acumulada en un ciclo estacional completo. Es un indicador de aceleración en el crecimiento acumulado. |