Lección 3. Modelos lineales¶
Author: Marcos Bujosa
Analizaremos las dificultades que plantea la correlación serial y veremos cómo la estacionariedad en sentido débil los simplifica. Nos centraremos en los procesos lineales, estudiando su valor esperado, su función de autocovarianza, las covarianzas cruzadas entre ellos.
Series temporales vs datos de sección cruzada¶
Corresponden a observaciones de un mismo objeto a lo largo del tiempo. El índice indica el instante de cada medición. El orden cronológico puede ser crucial al modelar los datos.
El motivo es que frecuentemente el valor medido en un instante de tiempo está relacionado con otras mediciones próximas en el tiempo (correlación serial).
Si es así, ya no deberíamos asumir que las variables aleatorias del proceso estocástico subyacente, $\boldsymbol{X}=(X_t\mid t\in\mathbb{Z})$, son independientes entre sí.
Esto tiene importantes implicaciones en las técnicas de análisis y los modelos a utilizar.
Veamos algunos ejemplos de series temporales…
Población en Australia¶
PIB UEM¶
Temperatura media en el Parque del Retiro. Madrid¶
Rendimiento porcentual diario del IBEX 35 (std)¶
Producción de cemento¶
Correlación serial vs muestreo aleatorio simple¶
Generalmente cuando disponemos de datos de
sección cruzada: asumimos que proceden de un el muestreo es aleatorio simple
- i.e., los datos son realizaciones de variables aleatorias i.i.d.
series temporales: dicha asunción resulta errónea
- con frecuencia el nivel esperado (o la volatilidad) parece cambiar con $t$
- con frecuencia hay dependencia temporal (correlación serial).
Ejemplo: no parece aceptable asumir que $ProdCemento_{1960M01}$ se distribuye igual que $ProdCemento_{2000M04}$ (ni que sea independiente de $ProdCemento_{1959M01}$).
Veamos por qué esto genera dificultades en su tratamiento estadístico…
Consideremos el proceso estocástico $$ \boldsymbol{X}=(X_t \mid t=0,\pm1,\pm2,\ldots). $$ Caracterizar su distribución conjunta (sus infinitos momentos) resulta ser demasiado ambicioso. Limitemos a los dos primeros momentos (esperanzas y covarianzas):
$$ E(X_t)=\mu_{\color{Blue}{t}} \quad\text{ y }\quad Cov(X_t,X_k)=E\big[(X_t-\mu_t)(X_k-\mu_k)\big]=\gamma_{{\color{Blue}{t}},{\color{OliveGreen}{k}}};\quad t,k\in\mathbb{Z} $$
(donde si $\;k=t\;$, entonces $\;\gamma_{\color{Blue}{{t,t}}}=Var(X_t)=\sigma^2_{\color{Blue}{t}}$).
Si el proceso $\boldsymbol{X}$ fuera gaussiano, estos parámetros bastarían para caracterizar la distribución conjunta completamente. No obstante…
Necesitaríamos una muestra suficiente de cada $X_t$ para estimar los parámetros;
A cada $X_t$ le corresponden infinitos parámetros ($\mu_{t}$, $\;\sigma^2_{t}$, $\;\gamma_{t,{\color{OliveGreen}{k}}};\;\text{ donde } k\in\mathbb{Z}$);
Pero en una serie temporal $\boldsymbol{x}$ solo disponemos de una realización para cada $X_t$.
Simplificación del escenario¶
Cuando $\boldsymbol{X}$ es débilmente estacionario se reduce drásticamente el número de parámetros (aunque siga habiendo infinitos):
\begin{eqnarray} E(X_t) = & \mu \\ Cov(X_t,X_{t-k}) = & \gamma_k\quad k\in\mathbb{Z} \end{eqnarray}
El desafío para el analista es (y nótese el abuso de lenguaje)
- primero: transformar los datos para lograr que sean "débilmente estacionarios".
- (Algo vimos en la lección 1)
- después: transformar los datos estacionarios en "ruido blanco"
- (Es lo que veremos en esta lección y las siguientes)
Este proceso constituye la especificación y ajuste de un modelo ARIMA a los datos.
Antes de atacar los temas de especificación y ajuste de modelos, debemos estudiar las propiedades de la familia de procesos estocásticos débilmente estacionarios.
Procesos estocásticos (débilmente) estacionarios y la ACF¶
Un proceso estocástico de segundo orden $\boldsymbol{X}$ se dice que es débilmente estacionario si:
- $E(X_t)=\mu$ para todo $t$ y
- la covarianza entre $X_s$ y $X_t$ solo depende de la diferencia $s-t$.
En tal caso, llamamos función de autocovarianzas a la siguiente secuencia: $$ \boldsymbol{\gamma} \; = \; (\gamma_{k}\mid k\in\mathbb{Z}) \; = \; (\ldots,\,\gamma_{-1},\,{\color{blue}{\gamma_{0}}},\,\gamma_{1},\,\gamma_{2},\ldots) \;=\; \sum_{-\infty}^{\infty} \gamma_k z^k. $$
Propiedades de la función de autocovarianzas $\boldsymbol{\gamma}$ (ACF):
- $\gamma_0\geq0$
- la secuencia $\boldsymbol{\gamma}$ es definida positiva; y por tanto,
- $\boldsymbol{\gamma}$ es simétrica: $\gamma_k=\gamma_{-k}$
- $\boldsymbol{\gamma}$ es acotada: $|\gamma_k|\leq\gamma_0$
Y llamamos función de autocorrelación (ACF) a la secuencia: $\;\boldsymbol{\rho}=\frac{1}{\gamma_0}(\boldsymbol{\gamma}) =\sum\limits_{k\in\mathbb{Z}}\frac{\gamma_k}{\gamma_0}z^k$.
Notación: convolución y el operador retardo¶
SI $\boldsymbol{a}$ es una secuencia de números y $\boldsymbol{X}$ un proceso estocástico tales que, para todo $t$, $$ \text{la suma }\quad \sum\limits_{k=-\infty}^{\infty}a_kX_{t-k}\quad \text{ converge}; $$ definimos el producto convolución ($*$) de $\boldsymbol{a}$ con $\boldsymbol{X}$ como el proceso estocástico: $$ \boldsymbol{a}*\boldsymbol{X}=\left(\left.\sum_{k+s=t} a_k X_s \right| t\in\mathbb{Z}\right) $$ es decir $$ (\boldsymbol{a}*\boldsymbol{X})_t=\sum_{k+s=t} a_k X_s,\quad \text{para } t\in\mathbb{Z}. $$ Por tanto, cada elemento de $ (\boldsymbol{a}*\boldsymbol{X}) $ es una combinación de variables aleatorias de $\boldsymbol{X}$.
Si aplicamos el operador $\mathsf{B}$ sobre un elemento de $\boldsymbol{X}$ obtenemos el anterior: $$ \mathsf{B} X_t = X_{t−1},\quad \text{para } t\in\mathbb{Z}. $$ Por tanto, aplicando el operador retardo $\mathsf{B}$ repetidamente tenemos $$ \mathsf{B}^k X_t = X_{t−k},\quad \text{para } t,z\in\mathbb{Z}. $$
Así, para el polinomio $\boldsymbol{a}(z)=a_0+a_1z+a_2z^2+a_3z^3$, y el proceso estocástico $\boldsymbol{Y}$:
\begin{align*} \boldsymbol{a}(\mathsf{B})Y_t & = (a_0+a_1\mathsf{B}+a_2\mathsf{B}^2+a_3\mathsf{B}^3) Y_t \\ % & = a_0 Y_t + a_1 \mathsf{B}^1 Y_t + a_2 \mathsf{B}^2 Y_t + a_3 \mathsf{B}^3 Y_t \\ & = a_0Y_t+a_1Y_{t-1}+a_2Y_{t-2}+a_3Y_{t-3} \\ % \quad = \quad \sum\nolimits_{k=0}^{3}a_kY_{t-k} \\ % & =\sum\nolimits_{r=0}^3 a_r Y_{t-r} \\ & =(\boldsymbol{a}*\boldsymbol{Y})_t,\quad \text{para } t\in\mathbb{Z} \end{align*}
Y en general, si la suma $\sum\nolimits_{k=-\infty}^{\infty}a_kY_{t-k}$ converge para todo $t$, entonces
\begin{align*} \boldsymbol{a}(\mathsf{B})Y_t & = (\cdots+a_{-2}\mathsf{B}^{-2}+a_{-1}\mathsf{B}^{-1}+a_0+a_1\mathsf{B}+a_2\mathsf{B}^2+\cdots) Y_t \\ % & = a_0 Y_t + a_1 \mathsf{B}^1 Y_t + a_2 \mathsf{B}^2 Y_t + a_3 \mathsf{B}^3 Y_t \\ & = \cdots+a_{-1}Y_{t+1}+a_0Y_t+a_1Y_{t-1}+a_2Y_{t-2}+\cdots \; = \; \sum\limits_{k=-\infty}^{\infty}a_kY_{t-k} \\ % & =\sum\nolimits_{r=0}^3 a_r Y_{t-r} \\ & =(\boldsymbol{a}*\boldsymbol{Y})_t,\quad \text{para } t\in\mathbb{Z} \end{align*}
Ejemplos de procesos (débilmente) estacionarios¶
Proceso de ruido blanco¶
Una secuencia $\boldsymbol{U}=(U_t\mid t\in\mathbb{Z})$ de variables aleatorias incorreladas y tales que $$E(U_t)=0\quad\text{ y }\quad Var(U_t)=E(U_t^2)=\sigma^2$$ para $\;t\in\mathbb{Z}\;$ y $\;0<\sigma^2<\infty\;$ se llama proceso de ruido blanco. $\quad\boldsymbol{U}\sim WN(0,\sigma^2)$.
Al ser variables aleatorias incorreladas, su función de autocovarianzas es $$\boldsymbol{\gamma}(z)\;=\;\sigma^2 z^0\;=\;(\ldots,0,0,\sigma^2,0,0,\ldots)$$
- Es el proceso estacionario (no trivial) más sencillo.
- Este proceso es el pilar sobre el que definiremos el resto de ejemplos.
Procesos lineales¶
Sea $\boldsymbol{U}\sim WN(0,\sigma^2)$ y $\boldsymbol{b}\in \ell^2$; una secuencia de cuadrado sumable $\;\sum\limits_{j\in\mathbb{Z}}{b}_j^2<\infty$.
Denominamos proceso lineal al proceso estocástico $\boldsymbol{X}=\boldsymbol{b}*\boldsymbol{U}$ cuyos elementos son $$X_t \;=\;(\boldsymbol{b}*\boldsymbol{U})_t \;=\;\boldsymbol{b}(B)U_t \;=\;\sum_{j=-\infty}^\infty {b}_j U_{t-j},\quad\text{con } t\in\mathbb{Z}.$$
Este proceso es estacionario (véase la demo en los apuntes en pdf)
El proceso lineal es ``causal'' si además $\boldsymbol{b}$ es una serie formal (i.e., $cogrado(\boldsymbol{b})\geq{\color{blue}{0}}$) $$X_t=\sum_{j=0}^\infty {b}_j U_{t-j};\qquad t\in\mathbb{Z}$$ (pues cada $X_t$ es una suma de variables "del presente y/o el pasado").
La clase de procesos lineales causales incluye muchas e importantes subclases de procesos, algunas de las cuales son objeto principal de estudio de este curso.
Media móvil infinita. MA($\infty$)¶
Sea $\;\boldsymbol{U}\sim WN(0,\sigma^2)\;$ y sea $\;\boldsymbol{\psi}\in \ell^2\;$ una serie formal con infinitos términos NO nulos; entonces el proceso estocástico $\boldsymbol{\psi}*\boldsymbol{U}$, cuyos elementos son $$X_t \;=\;(\boldsymbol{\psi}*\boldsymbol{U})_t \;=\;\boldsymbol{\psi}(B)U_t \;=\;\sum_{j=0}^\infty \psi_j U_{t-j};\qquad t\in\mathbb{Z}$$ se denomina proceso de media móvil infinita MA($\infty$).
Algunas clases de procesos lineales causales poseen una representación parsimoniosa, pues basta un número finito de parámetros para describirlos completamente. Por ejemplo, cuando $\boldsymbol{\psi}$ tiene un número finito de términos no nulos…
Proceso de media móvil de orden $q$. MA($q$)¶
Sea $\;\boldsymbol{U}\sim WN(0,\sigma^2)\;$ y sea $\;\boldsymbol{\theta}\;$ un polinomio de grado $(q)$ con ${\color{#008000}{\theta_{0}=1}}$; entonces el proceso estocástico $\;\boldsymbol{\theta}*\boldsymbol{U},\;$ cuyos elementos son $$ X_t \;=\; (\boldsymbol{\theta}*\boldsymbol{U})_t \;=\; \boldsymbol{\theta}(B)U_t \;=\; \sum_{j=0}^q\theta_j U_{t-j}; \qquad t\in\mathbb{Z} $$ se denomina proceso de media móvil MA($q$).
Es decir, si $\;\boldsymbol{\theta} \;=\; 1-\theta_1z-\cdots-\theta_qz^q,\;$ tenemos que $$ X_t = U_t - \theta_1 U_{t-1} - \cdots - \theta_q U_{t-q}. $$
Hay otros procesos lineales con representación parsimoniosa.
Proceso autorregresivo de orden $p$. AR($p$)¶
Sea $\;\boldsymbol{U}\sim WN(0,\sigma^2)\;$, se denomina proceso autorregresivo de orden $p$ a aquel proceso estocástico estacionario $\;\boldsymbol{X}\;$ que es solución de la siguiente ecuación $$ \boldsymbol{\phi}*\boldsymbol{X}=\boldsymbol{U} $$ donde $\;\boldsymbol{\phi}\;$ un polinomio de grado $(p)$ con ${\color{#008000}{\phi_{0}=1}}$.
Por tanto, $$ (\boldsymbol{\phi}*\boldsymbol{X})_t \;=\; \boldsymbol{\phi}(\mathsf{B})X_t \;=\; \sum_{j=0}^p \phi_j X_{t-j} \;=\; U_t. $$
Si $\;\boldsymbol{\phi}=1-\phi_1z-\cdots-\phi_pz^p,\;$ entonces $\boldsymbol{X}=(X_t\mid t\in\mathbb{Z})$ es solución de la ecuación en diferencias: $$ X_t - \phi_1 X_{t-1} - \cdots -\phi_q X_{t-q} = U_t. $$
El problema con la anterior definición es que la ecuación $\boldsymbol{\phi}*\boldsymbol{X}=\boldsymbol{U}$ no tiene solución única (y en algunos casos ninguna solución es estacionaria). Despejemos $\boldsymbol{X}$ para verlo.
Multiplicando ambos lados de la ecuación por una inversa de $\boldsymbol{\phi}$ tenemos $$ \boldsymbol{X}=inversa(\boldsymbol{\phi})*\boldsymbol{U}. $$ Y si denotamos la secuencia $inversa(\boldsymbol{\phi})$ con $\boldsymbol{a}$ entonces $$ X_t=\boldsymbol{a}(\mathsf{B})U_t=\sum_{j\in\mathbb{Z}} a_j U_{t-j}. $$
Pero… ¿qué secuencia $\boldsymbol{a}$ usamos como inversa de $\boldsymbol{\phi}$? Recuerde que hay infinitas y la mayoría no son sumables (si el polinomio $\boldsymbol{\phi}$ tiene raíces unitarias ninguna lo es).
En tal caso la expresión $\;\boldsymbol{a}(\mathsf{B})U_t=\sum\limits_{j=-\infty}^\infty a_j U_{t-j}\;$ carece de sentido (pues la suma no converge).
Requisitos sobre el polinomio autorregresivo $\boldsymbol{\phi}:\;$ para que el proceso AR exista y sea
lineal y estacionario, exigiremos que $\boldsymbol{\phi}$ no tenga raíces de módulo 1.
Entonces existe una única inversa absolutamente sumable: $\boldsymbol{\phi}^{-1} \in \ell^1\subset\ell^2$.
La inversa $\boldsymbol{\phi}^{-1}$ corresponde a la única solución estacionaria de $\boldsymbol{\phi}*\boldsymbol{X}=\boldsymbol{U}$. (Si $\boldsymbol{\phi}$ tuviera raíces de módulo 1 no existiría ni $\boldsymbol{\phi}^{-1}\in\ell^1$, ni solución estacionaria).
$$X_t=\boldsymbol{\phi}^{-1}(\mathsf{B})U_t=\sum_{j=-\infty}^\infty a_j U_{t-j}$$
causal, exigiremos que las raíces de $\boldsymbol{\phi}$ sean mayores que 1 en valor absoluto (raíces fuera del círculo unidad): $\boldsymbol{\phi}^{-1}=\boldsymbol{\phi}^{-\triangleright}\;$ (serie formal $\in\ell^1\subset\ell^2$).
$$X_t=\boldsymbol{\phi}^{-1}(\mathsf{B})U_t=\sum_{j=0}^\infty a_j U_{t-j};\quad\text{donde } \boldsymbol{a}=\boldsymbol{\phi}^{-1}.$$
(¡de nuevo un proceso lineal causal!)
El siguiente modelo lineal es una generalización de los dos anteriores.
Proceso autorregresivo de media móvil. ARMA($p,q$)¶
Sea $\;\boldsymbol{U}\sim WN(0,\sigma^2)\;$, se denomina proceso autorregresivo de media móvil $(p,q)$ al proceso estocástico estacionario $\;\boldsymbol{X}\;$ que es solución de la ecuación en diferencias: $$ \boldsymbol{\phi}*\boldsymbol{X}=\boldsymbol{\theta}*\boldsymbol{U} $$ donde el polinomio autorregresivo $\;\boldsymbol{\phi}\;$ tiene grado $p$ con ${\color{#008000}{\phi_{0}=1}}$ y con todas sus raíces fuera del círculo unidad (por los motivos anteriormente vistos); y el polinomio de media móvil $\;\boldsymbol{\theta}\;$ es de grado $q$ con ${\color{#008000}{\theta_{0}=1}}$;
$$ \text{es decir,}\qquad \boldsymbol{X}=\frac{\boldsymbol{\theta}}{\boldsymbol{\phi}}*\boldsymbol{U}; \qquad\text{donde }\; \frac{\boldsymbol{\theta}}{\boldsymbol{\phi}}\equiv\boldsymbol{\phi}^{-1}*\boldsymbol{\theta} $$
Tanto $\boldsymbol{\phi}^{-1}$ como $\boldsymbol{\theta}$ son series formales absolutamente sumables. Dado que tanto $\ell^1$ como las series formales son anillos: $\;\boldsymbol{\phi}^{-1} * \boldsymbol{\theta}$ es otra una serie formal absolutamente sumable (y, por lo tanto, de cuadrado sumable). Consecuentemente, $\boldsymbol{X}$ es, nuevamente, un proceso estocástico lineal causal. $$ X_t \;=\; \frac{\boldsymbol{\theta}}{\boldsymbol{\phi}}(\mathsf{B})U_t \;=\; \sum_{j=0}^\infty a_j U_{t-j}; \quad\text{donde } \boldsymbol{a}=\frac{\boldsymbol{\theta}}{\boldsymbol{\phi}}. $$
Esperanza y autocovarianzas de un proceso lineal causal¶
Sea $\;\boldsymbol{X}=\boldsymbol{\psi}*\boldsymbol{U},\;$ donde $\boldsymbol{\psi}$ es una serie formal de cuadrado sumable y donde $\;\boldsymbol{U}\sim WN(0,\sigma^2).\quad$ Recordando que la convolución es una operación lineal: $$ E(\boldsymbol{X}) =E(\boldsymbol{\psi}*\boldsymbol{U}) =\boldsymbol{\psi}*E(\boldsymbol{U}) =\boldsymbol{\psi}*\boldsymbol{0}=\boldsymbol{0}. $$ Así, la covarianza de orden $k$ para cada $X_t$ es (demo en el pdf): $$ \gamma_{_{k,t}} \;=\; E\Big[\big(\boldsymbol{\psi}(\mathsf{B})X_t\big)\cdot \big(\boldsymbol{\psi}(\mathsf{B}) X_{t-k}\big)\Big] % \;=\; % \sigma^2\sum\nolimits_{j\in\mathbb{Z}}\psi_{j+k}\psi_j \;=\; \sigma^2 \big(\boldsymbol{\psi}(z)*\boldsymbol{\psi}(z^{-1})\big)_k $$ que no depende de $t$ ($\boldsymbol{X}$ es estacionario), es decir, $\gamma_{_{k,t}}=\gamma_{k}$. Y, por tanto
\begin{equation} \label{eqAutoCovarianzaProcesoLineal} \boldsymbol{\gamma}=\sigma^2\boldsymbol{\psi}(z)*\boldsymbol{\psi}(z^{-1}). \end{equation}
con grado igual al grado de $\boldsymbol{\theta}$ y cogrado igual a menos el grado de $\boldsymbol{\theta}$.
Covarianza cruzada entre dos procesos lineales causales¶
Sean $\;\boldsymbol{W}=\boldsymbol{\theta}*\boldsymbol{U}\quad$ e $\quad\boldsymbol{Y}=\boldsymbol{\psi}*\boldsymbol{U},\quad$ donde $\boldsymbol{\theta}$ y $\boldsymbol{\psi}$ son series formales de cuadrado sumable y donde $\;\boldsymbol{U}\sim WN(0,\sigma^2)$.
Repitiendo los mismos pasos que en el caso de la autocovarianza, llegamos a que la función de covarianzas cruzadas es la secuencia
\begin{equation} \label{eqCovarianzaCruzadaProcesosLineales} \boldsymbol{\gamma_{_{\boldsymbol{W},\boldsymbol{Y}}}} = \sigma^2 \boldsymbol{\theta}(z)*\boldsymbol{\psi}(z^{-1}) \end{equation}
con grado igual al grado de $\boldsymbol{\theta}$ y cogrado igual a menos el grado de $\boldsymbol{\psi}$.