Author: Marcos Bujosa
En esta lección veremos la estructura de la ACF, la PACF y la densidad espectral de procesos ARMA. Después indicaremos algunas herramientas estadísticas que usaremos para tratar de identificar un modelo que se ajuste adecuadamente a los datos de una serie temporal: gráficos, contrastes de raíz unitaria, ACF y PACF muestrales, estadísticos descriptivos y contrastes de normalidad.
$ \newcommand{\lag}{\mathsf{B}} \newcommand{\Sec}[1]{\boldsymbol{#1}} \newcommand{\Pol}[1]{\boldsymbol{#1}} $
Sea $\;\boldsymbol{X}\;$ el proceso estocástico estacionario solución de la ecuación en diferencias: $$\boldsymbol{\phi}*\boldsymbol{X}=\boldsymbol{\theta}*\boldsymbol{U}$$ donde $\;\boldsymbol{U}\sim WN(0,\sigma^2);\;$ el polinomio autorregresivo $\;\boldsymbol{\phi}\;$ tiene grado $p$ con ${\color{#008000}{\phi_{0}=1}}$ (y raíces fuera del círculo unidad), y el polinomio de media móvil $\;\boldsymbol{\theta}\;$ es de grado $q$ con ${\color{#008000}{\theta_{0}=1}};\;$ y donde $\boldsymbol{\phi}$ y $\boldsymbol{\theta}$ no tienen raíces comunes.
Si $\;\;\boldsymbol{\phi}(z)=1-\phi_1z-\cdots-\phi_p z^p\;\;$ y $\;\;\boldsymbol{\theta}(z)=1-\theta_1z-\cdots-\theta_q z^q,\;\;$ entonces
\begin{align*} (1-\phi_1\mathsf{B}-\cdots-\phi_p\mathsf{B}^p)X_t = & (1-\theta_1\mathsf{B}-\cdots-\theta_q\mathsf{B}^q)U_t; \end{align*}y por tanto $$X_t= U_t + \sum_{j=1}^p\phi_j X_{t-j} + \sum_{j=1}^q-\theta_j U_{t-j}.$$
Como las raíces de $\boldsymbol{\phi}$ están fuera del círculo unidad, es decir, como el polinomio AR es ``invertible'' $\;(\boldsymbol{\phi}^{-\triangleright}=\boldsymbol{\phi}^{-1}\in\ell^1)\;$ entonces $\boldsymbol{X}$ tiene una representación como MA($\infty$): $$\boldsymbol{\phi}*\boldsymbol{X}=\boldsymbol{\theta}*\boldsymbol{U} \quad\Rightarrow\quad \boldsymbol{X}=\frac{\boldsymbol{\theta}}{\boldsymbol{\phi}}*\boldsymbol{U} \quad\Rightarrow\quad X_t = U_t + \sum_{j=1}^\infty-\psi_j U_{t-j};$$ donde $\;\boldsymbol{\psi}=\boldsymbol{\phi}^{-1}*\boldsymbol{\theta}=({\color{blue}1},\ -\psi_1,\ -\psi_2,\ -\psi_3,\ldots)\;$ tiene grado $\infty$.
Y como las raíces de $\boldsymbol{\theta}$ están fuera del círculo unidad, es decir, como el polinomio MA es ``invertible'' $\;(\boldsymbol{\theta}^{-\triangleright}=\boldsymbol{\theta}^{-1}\in\ell^1)\;$ entonces $\boldsymbol{X}$ tiene una representación como AR($\infty$): $$\boldsymbol{\phi}*\boldsymbol{X}=\boldsymbol{\theta}*\boldsymbol{U} \quad\Rightarrow\quad \frac{\boldsymbol{\phi}}{\boldsymbol{\theta}}*\boldsymbol{X}=\boldsymbol{U} \quad\Rightarrow\quad X_t = U_t + \sum_{j=1}^\infty\varphi_j X_{t-j};$$ donde $\;\boldsymbol{\varphi}=\boldsymbol{\theta}^{-1}*\boldsymbol{\phi}=({\color{blue}1},\ -\varphi_1,\ -\varphi_2,\ -\varphi_3,\ldots)\;$ tiene grado $\infty$.
En un ARMA($p,q$), por tener representación MA($\infty$):
$E(X_t)=0$ para todo $t\in\mathbb{Z}$ y
$\boldsymbol{\gamma} \;=\; \sigma^2 \frac{\boldsymbol{\theta}(z)}{\boldsymbol{\phi}(z)}*\frac{\boldsymbol{\theta}(z^{-1})}{\boldsymbol{\phi}(z^{-1})} = \sigma^2 \boldsymbol{\psi}(z)*\boldsymbol{\psi}(z^{-1})\;$ donde $\;\boldsymbol{\psi}=\frac{\boldsymbol{\theta}}{\boldsymbol{\phi}}$;
es decir, $\;\gamma_k = \sigma^2 \sum\nolimits_{j=0}^\infty \psi_{j+|k|}\psi_j;\quad k\in\mathbb{Z}\;$ (grado $\infty$ y cogrado $-\infty$).
$\boldsymbol{\rho} \;=\; \frac{1}{\gamma_0}\boldsymbol{\gamma}$
$f(\omega) = \frac{\sigma^2}{2\pi}\frac{\boldsymbol{\theta}(e^{-i\omega})\cdot\boldsymbol{\theta}(e^{i\omega})}{\boldsymbol{\phi}(e^{-i\omega})\cdot\boldsymbol{\phi}(e^{i\omega})} \;=\; \frac{1}{2\pi}\sum\limits_{h=0}^\infty \gamma_h \cos(h\omega);\quad$ donde $\omega\in[-\pi,\pi]$.
(suma infinita de cosenos)
En un ARMA($p,q$), por tener representación AR($\infty$):
su PACF, $\;\boldsymbol{\pi},\;$ también es una secuencia con grado $\infty$ y cogrado $-\infty$.
Así, en cuanto a la ACF $\boldsymbol{\rho}$:
En cuanto a la PACF $\boldsymbol{\pi}$:
Sea $\;(1-\phi z)*\boldsymbol{X}=(1-\theta z)*\boldsymbol{U}\;$ con $|\phi|<1$ y $|\theta|<1$ y con $\;\boldsymbol{U}\sim WN(0,\sigma^2):$
$$X_t=\phi X_{t-1}-\theta U_{t-1} + U_t.$$$\boldsymbol{\gamma} \;=\; \sigma^2 \frac{(1-\theta z)*(1-\theta z^{-1})}{(1-\phi z)*(1-\phi z^{-1})}\; \text{ por tanto... }$
$\gamma_0 = \sigma^2\left(1+\frac{(\theta+\phi)^2}{1+\phi^2}\right);\quad \gamma_1 = \sigma^2\left(\phi+\theta+\frac{(\theta+\phi)^2\phi}{1+\phi^2}\right);\; \text{ y }\;\gamma_k =\phi\gamma_{k-1}\;\;\text{si } k>1$
$\boldsymbol{\rho} \;=\; \frac{1}{\gamma_0}\boldsymbol{\gamma}$
$f(\omega) \;=\; \;=\; \frac{\sigma^2}{2\pi}\frac{1+\theta^2-2\theta\cos(\omega)}{1+\phi^2-2\phi\cos(\omega)};\quad \omega\in[-\pi,\pi]$
$\boldsymbol{\pi} \text{ decae geométricamente con } \theta^k$
¿Es la serie
¿Están sus valores correlados con su historia pasada (autocorrelados)?
¿Qué correlación tienen los datos con los datos $k$ periodos atrás una vez descontado el efecto de los datos intermedios?
Veamos algunas herramientas estadísticas para poder desvelar estas características.
Representa sus valores en el eje vertical ($y$) frente a una escala temporal en el horizontal ($x$). Es útil para detectar visualmente:
valores atípicos (outliers)
la probabilidad de que una variable normal genere un valor fuera de las bandas de $\mu\pm3\sigma$ es $0.0023$
Es importante escalar y rotular adecuadamente los ejes y asegurar la comparabilidad entre series y gráficos distintos (si los hubiere).
Cambios de variabilidad de una serie pueden evidenciarse en su gráfico temporal.
Pero también suelen verse bien en un gráfico rango-media, donde se representa:
en eje $x$: nivel de la serie (normalmente la media de submuestras no solapadas).
en eje $y$: dispersión de la serie (normalmente el rango de dichas submuestras).
Si los puntos se sitúan alrededor de una recta de pendiente positiva, tomar logaritmos.
Un proceso estocástico sin componentes deterministas es $I(0)$ si tiene una representación ARMA estacionaria e invertible
El orden de integración de un proceso estocástico $\boldsymbol{Y}$ es el número de diferencias necesarias para transformarlo en un proceso $I(0)$.
Decidir adecuadamente el orden de integración es crucial en el análisis de series temporales.
Las herramientas utilizadas para tomar la decisión son
Sea el siguiente modelo donde $\phi$ es un parámetro autorregresivo y $U_{t}$ es ruido blanco $$Y_{t}=\phi Y_{t-1}+U_{t},$$
Habrá una raíz unitaria (será no-estacionario) si $\phi =1.\;$ Restando $Y_{t-1}$ a ambos lados
$$\nabla Y_{t}\;=\;(\phi -1)Y_{t-1}+U_{t}\;=\;\delta Y_{t-1}+U_{t}$$donde $\delta=\phi -1$ y, por tanto, la $H_0$ se reduce a $\delta=0$.
Pasos del contraste:
Una variante habitual del test DF es el test de Dickey-Fuller aumentado (ADF), que consiste en estimar por MCO el modelo: $$\nabla Y_t = c + \delta Y_{t-1} + \pi_1 \nabla Y_{t-1} + \pi_2 \nabla Y_{t-2} + \cdots + \pi_p \nabla Y_{t-p} + U_t$$ que añade $p$ retardos del regresando como regresores para permitir autocorrelación. Por lo demás, el test se calcula de la forma habitual (comparando de ratio $t$ de $\widehat{\delta}$ con las tablas del test ADF).
Otra variante consiste en incluir una tendencia temporal determinista: $$\nabla Y_t = \underbrace{c + \beta t} + \delta Y_{t-1} + \pi_1 \nabla Y_{t-1} + \pi_2 \nabla Y_{t-2} + \cdots + \pi_p \nabla Y_{t-p} + U_t$$
El contraste KPSS es un contraste alternativo (y complementario) al test DF/ADF
Las hipótesis del test KPSS están invertidas respecto a las del Test DF
DF/ADF y KPSS se complementan. Si la serie es:
Estos test son poco potentes y son frágiles ante incumplimientos (heterocedasticidad o no-normalidad); por ello debemos complementarlos con el análisis gráfico.
La k-ésima autocorrelación muestral simple ($\widehat{\rho_k}$) se define como: $$\widehat{\rho_k}=\frac{\widehat{\gamma_k}}{\widehat{\gamma_0}};\qquad \widehat{\gamma_k}=\frac{1}{n}\sum_{t=k+1}^n \widetilde{X_t}\widetilde{X_{t-k}},\quad\text{para }\;k=1,2,\ldots$$ donde $\widetilde{X_t}=X_t-\bar{X}$.
Para valorar la significatividad individual de estas autocorrelaciones puede usarse el error estándar asintótico: $s.e.(\widehat{\rho_k})=1/\sqrt{n}$.
Para contrastar la $H_0:$ los $k$ primeros retardos son conjuntamente no significativos (es decir, para contrastar si el proceso es ruido blanco) se emplea el test de Ljung-Box $$Q = n\left(n+2\right)\sum_{k=1}^h\frac{\hat{\rho}^2_k}{n-k}$$ (usaremos el test de Ljung-Box para evaluar los modelos).
La k-ésima autocorrelación muestral $\widehat{\pi_k}$ se puede estimar mediante el algoritmo Levinson-Durbin sustituyendo las autocorrelaciones teóricas por las muestrales.
O bien, calculando el k-ésimo coeficiente MCO de una autorregresión de orden $k$ $$\widetilde{X}_t = \widehat{\phi_{k1}}\widetilde{X}_{t-1} + \widehat{\phi_{k2}}\widetilde{X}_{t-2} + \cdots + \widehat{\phi_{kk}}\widetilde{X}_{t-k} + U_t;\qquad k = 1, 2,\ldots$$ donde $\widetilde{X}_t=X_t-\bar{X}\;$ y donde $\;\widehat{\pi_k}=\widehat{\phi_{kk}}$
También es frecuente contrastar si la media es significativa ( $H_0: \mu = 0$) $$\frac{\widehat{\mu}}{\widehat{dt(\widehat{\mu})}}\underset{H_0}{\sim}t_{n-1};\qquad \widehat{dt(\widehat{\mu})}=\frac{\widehat{\sigma}}{\sqrt{n}}.$$
Si los datos son mayores que cero: a menudo la transformación logarítmica ayuda a conseguir normalidad
Si hay valores atípicos: el mejor tratamiento es intervenirlos.