Tasa de fumadores vs tasa de incendios
Índice
- Datos
- Contrastes de raiz unitaria y de estacionariedad
- Regresión en niveles:
Tasa_Incendios
sobreTasa_Fumadores
- Regresión en primeras diferencias:
d_Tasa_Incendios
sobred_Tasa_Fumadores
- Contrastes de raíz unitaria y de estacionariedad para los residuos
uhat
del modelo de regresión en niveles - Preguntas
- Respuestas
Datos
Analizamos 20 observaciones anuales, recopiladas entre 2001 y 2021, correspondientes a:
Tasa_Fumadores
- Porcentaje de fumadores entre residentes adultos en USA (Fuente: CDC).
Tasa_Incendios
- Número de incendios por cada 100.000 residentes en los USA (Fuente: FBI).
El objetivo es evaluar si existe soporte estadístico para la hipótesis de que la reducción progresiva en el porcentaje de fumadores incide directamente en la disminución del número de incendios.
- Ficheros:
- Versión del ejercicio en pdf
- Datos: FumadoresVsIncendios.gdt
- Guión de gretl: FumadoresVsIncendios.inp
Gráfico de las series y diagrama de dispersión
open FumadoresVsIncendios.gdt gnuplot Tasa_Fumadores Tasa_Incendios --time-series --with-lines --output="Tasa_FumadoresyTasa_Incendios.png" gnuplot Tasa_Incendios Tasa_Fumadores --output="Tasa_IncendiosVsTasa_Fumadores.png"
Contrastes de raiz unitaria y de estacionariedad
Tasa_Fumadores
Contraste aumentado de Dickey Fuller para Tasa_Fumadores
adf 4 Tasa_Fumadores --c --test-down
Contraste aumentado de Dickey-Fuller para Tasa_Fumadores contrastar hacia abajo desde 4 retardos, con el criterio AIC tamaño muestral 18 la hipótesis nula de raíz unitaria es: [a = 1] contraste con constante incluyendo 2 retardos de (1-L)Tasa_Fumadores modelo: (1-L)y = b0 + (a-1)*y(-1) + ... + e valor estimado de (a - 1): 0,0822928 estadístico de contraste: tau_c(1) = 1,41073 valor p asintótico 0,9991 Coef. de autocorrelación de primer orden de e: 0,049 diferencias retardadas: F(2, 14) = 2,476 [0,1200]
Conteste KPSS de estacionariedad para Tasa_Fumadores
kpss 4 Tasa_Fumadores
Contraste KPSS para Tasa_Fumadores T = 21 Parámetro de truncamiento de los retardos = 4 Estadístico de contraste = 0,534078 10% 5% 1% Valores críticos: 0,357 0,462 0,697 Valor p interpolado 0,038
Tasa_Incendios
Contraste aumentado de Dickey Fuller para Tasa_Incendios
adf 4 Tasa_Incendios --c --test-down
Contraste aumentado de Dickey-Fuller para Tasa_Incendios contrastar hacia abajo desde 4 retardos, con el criterio AIC tamaño muestral 19 la hipótesis nula de raíz unitaria es: [a = 1] contraste con constante incluyendo un retardo de (1-L)Tasa_Incendios modelo: (1-L)y = b0 + (a-1)*y(-1) + ... + e valor estimado de (a - 1): -0,0782544 estadístico de contraste: tau_c(1) = -1,15001 valor p asintótico 0,698 Coef. de autocorrelación de primer orden de e: -0,097
Conteste KPSS de estacionariedad para Tasa_Incendios
kpss 4 Tasa_Incendios
Contraste KPSS para Tasa_Incendios T = 21 Parámetro de truncamiento de los retardos = 4 Estadístico de contraste = 0,539254 10% 5% 1% Valores críticos: 0,357 0,462 0,697 Valor p interpolado 0,037
Regresión en niveles: Tasa_Incendios
sobre Tasa_Fumadores
MCOIncendiosSobreFumadores <- ols Tasa_Incendios 0 Tasa_Fumadores
modtest --normality --quiet
modtest --white --quiet
modtest --autocorr 4 --quiet
Modelo 2: MCO, usando las observaciones 2001-2021 (T = 21) Variable dependiente: Tasa_Incendios coeficiente Desv. típica Estadístico t valor p ------------------------------------------------------------------ const -9,01379 2,21156 -4,076 0,0006 *** Tasa_Fumadores 1,51665 0,120819 12,55 1,21e-10 *** Media de la vble. dep. 18,27143 D.T. de la vble. dep. 5,555731 Suma de cuad. residuos 66,42434 D.T. de la regresión 1,869764 R-cuadrado 0,892399 R-cuadrado corregido 0,886736 F(1, 19) 157,5789 Valor p (de F) 1,21e-10 Log-verosimilitud -41,88889 Criterio de Akaike 87,77778 Criterio de Schwarz 89,86683 Crit. de Hannan-Quinn 88,23116 rho 0,455882 Durbin-Watson 1,019367 Contraste de la hipótesis nula de distribución Normal: Chi-cuadrado(2) = 0,054 con valor p 0,97334 Contraste de heterocedasticidad de White Estadístico de contraste: TR^2 = 0,140140, con valor p = P(Chi-cuadrado(2) > 0,140140) = 0,932328 Contraste de Breusch-Godfrey para autocorrelación hasta el orden 4 Estadístico de contraste: LMF = 1,281174, con valor p = P(F(4,15) > 1,28117) = 0,321 Estadístico alternativo: TR^2 = 5,347590, con valor p = P(Chi-cuadrado(4) > 5,34759) = 0,253 Ljung-Box Q' = 9,19766, con valor p = P(Chi-cuadrado(4) > 9,19766) = 0,0563
Regresión en primeras diferencias: d_Tasa_Incendios
sobre d_Tasa_Fumadores
diff Tasa_Incendios Tasa_Fumadores
MCOIncendiosSobreFumadores_en_Diff <- ols d_Tasa_Incendios 0 d_Tasa_Fumadores
modtest --normality --quiet
modtest --white --quiet
modtest --autocorr 4 --quiet
Modelo 4: MCO, usando las observaciones 2002-2021 (T = 20) Variable dependiente: d_Tasa_Incendios coeficiente Desv. típica Estadístico t valor p ------------------------------------------------------------------- const -0,951343 0,467488 -2,035 0,0568 * d_Tasa_Fumadores -0,0200761 0,531889 -0,03774 0,9703 Media de la vble. dep. -0,940000 D.T. de la vble. dep. 1,558812 Suma de cuad. residuos 46,16435 D.T. de la regresión 1,601464 R-cuadrado 0,000079 R-cuadrado corregido -0,055472 F(1, 18) 0,001425 Valor p (de F) 0,970307 Log-verosimilitud -36,74353 Criterio de Akaike 77,48705 Criterio de Schwarz 79,47852 Crit. de Hannan-Quinn 77,87581 rho -0,614047 Durbin-Watson 2,429053 Contraste de la hipótesis nula de distribución Normal: Chi-cuadrado(2) = 12,244 con valor p 0,00219 Contraste de heterocedasticidad de White Estadístico de contraste: TR^2 = 1,380003, con valor p = P(Chi-cuadrado(2) > 1,380003) = 0,501575 Contraste de Breusch-Godfrey para autocorrelación hasta el orden 4 Estadístico de contraste: LMF = 2,023163, con valor p = P(F(4,14) > 2,02316) = 0,146 Estadístico alternativo: TR^2 = 7,326102, con valor p = P(Chi-cuadrado(4) > 7,3261) = 0,12 Ljung-Box Q' = 4,62915, con valor p = P(Chi-cuadrado(4) > 4,62915) = 0,328
Contrastes de raíz unitaria y de estacionariedad para los residuos uhat
del modelo de regresión en niveles
Contraste aumentado de Dickey Fuller sobre la existencia de una raíz unitaria para uhat
series uhat = MCOIncendiosSobreFumadores.$uhat adf 4 uhat --c --test-down
Contraste aumentado de Dickey-Fuller para uhat contrastar hacia abajo desde 4 retardos, con el criterio AIC tamaño muestral 20 la hipótesis nula de raíz unitaria es: [a = 1] contraste con constante incluyendo 0 retardos de (1-L)uhat modelo: (1-L)y = b0 + (a-1)*y(-1) + e valor estimado de (a - 1): -0,544803 estadístico de contraste: tau_c(1) = -2,71633 valor p asintótico 0,07119 Coef. de autocorrelación de primer orden de e: -0,105
Conteste KPSS de estacionariedad para uhat
kpss 4 uhat
Contraste KPSS para uhat T = 21 Parámetro de truncamiento de los retardos = 4 Estadístico de contraste = 0,165232 10% 5% 1% Valores críticos: 0,357 0,462 0,697 Valor p > .10
Preguntas
Pregunta 1
(1 pts.) Utilice la información disponible en la sección Datos y en la sección Contrastes de raiz unitaria y de estacionariedad para discutir exhaustivamente si las series Tasa_Fumadores
y Tasa_Incendios
son realizaciones de procesos estacionarios en media o no.
Pregunta 2
(1 pts.) Discuta exhaustivamente la información que se muestra en la sección Regresión en niveles: Tasa_Incendios
sobre Tasa_Fumadores
. Concretamente, comente
- la interpretación de los coeficientes de la regresión (constante y pendiente).
- interpretación de los estadísticos de ajuste
- evidencias sobre el cumplimiento o incumplimiento de los supuestos estándar del modelo de regresión lineal además de cualquier otro resultado que considere de interés.
Pregunta 3
(1 pts.) Compare de todas las formas posibles la regresión en niveles con la regresión en primeras diferencias ¿Cuál de los dos modelos es más adecuado? ¿Qué se puede concluir sobre la relación entre ambas series?
Pregunta 4
(0.5 pts.) Indique cuáles de las siguientes expresiones son correctas respecto del modelo correspondiente a la regresión en niveles ajustada a los datos de Tasa_Incendios
(con un redondeo a tres decimales).
- Expresión 1
- \(\widehat{I_t} = -9.014 + 1.517\, (F_t)\)
- Expresión 2
- \({I_t} = -9.014 + 1.517\, (F_t) + \widehat{\varepsilon_t}\)
- Expresión 3
- \({I_t} = -9.014 + 1.517\, (F_t)\)
- Expresión 4
- \(\widehat{I_t} = -9.014 + 1.517\, (F_t) + \widehat{\varepsilon_t}\)
donde \(I_t\) denota la serie Tasa_Incendios
, \(F_t\) denota la serie Tasa_Fumadores
y \(\widehat{\varepsilon_t}\) es el residuo de la regresión correspondiente a la observación t-ésima.
Pregunta 5
(0.5 pts.) Respecto al resultado del test aumentado de Dickey-Fuller (ADF) para Tasa_Fumadores
, discuta sobre la veracidad o falsedad de la siguiente afirmación:
No se rechaza la hipótesis nula de estacionariedad con un 5% de significación.
Pregunta 6
(0.5 pts.) Respecto al resultado del test KPSS para Tasa_Fumadores
, discuta brevemente sobre la veracidad o falsedad de la siguiente afirmación:
Se rechaza la hipótesis nula de estacionariedad con un 5% de significación.
Pregunta 7
(0.5 pts.) Respecto al resultado del test ADF para Tasa_Incendios
, discuta brevemente sobre la veracidad o falsedad de la siguiente afirmación:
No se rechaza la hipótesis nula de NO estacionariedad con un 5% de significación.
Pregunta 8
(0.5 pts.) Respecto al resultado del test KPSS para Tasa_Incendios
, discuta brevemente sobre la veracidad o falsedad de la siguiente afirmación:
Se rechaza la hipótesis nula de NO estacionariedad con un 5% de significación.
Pregunta 9
(0.5 pts.) En referencia al ``diagrama de dispersión'' entre ambas tasas, discuta brevemente sobre la veracidad o falsedad de la siguiente afirmación:
Muestra que existe una relación causal entre las variables
Tasa_Fumadores
yTasa_Incendios
.
Pregunta 10
(1 pts.) Observe los contrastes de hipótesis que aparecen tras la regresión en niveles y discuta brevemente sobre el cumplimiento de las hipótesis del modelo lineal general (MLG) en dicha regresión.
Pregunta 11
(1 pts.) Con un nivel de significación del 5%, discuta si:
- los resultados que se muestran respecto a los Contrastes de raiz unitaria y de estacionariedad
- las regresiones en niveles
- y los Contrastes de raíz unitaria y de estacionariedad para los residuos
uhat
del modelo de regresión en niveles
sugieren conjuntamente que las series analizadas podrían estar cointegradas.
Pregunta 12
(0.5 pts.) Discuta brevemente sobre la veracidad o falsedad de la siguiente afirmación respecto a los Contrastes de raíz unitaria y de estacionariedad para los residuos uhat
del modelo de regresión en niveles:
Con un nivel de significación del 10%, los resultados de los test ADF y KPSS son contradictorios.
Pregunta 13
(0.5 pts.) Discuta brevemente sobre la veracidad o falsedad de la siguiente afirmación:
La comparación de los resultados de la regresión en niveles con la regresión en primeras diferencias sugiere que la relación entre
Tasa_Incendios
yTasa_Fumadores
podría ser espúria.
Pregunta 14
(1 pts.) Discuta brevemente sobre la veracidad o falsedad de la siguiente afirmación:
La estimación del término constante del modelo correspondiente a la regresión en primeras diferencias sugiere que, por cada año que pasa, cabe esperar que la incidencia de incendios se reduzca en aproximadamente
1
incendio menos por cada 100.000 residentes.
Respuestas
Respuesta 1
- La primera figura muestra con claridad que ambas series temporales tienen una tendencia decreciente y que, por tanto, no podemos asumir que estas series sean realizaciones de procesos estocásticos estacionarios en media.
- En cuanto a los resultados de la sección Contrastes de raiz unitaria y de estacionariedad, los test ADF para las series
Tasa_Fumadores
yTasa_Incendios
no rechazan la hipótesis nula (\(H_0:\) la serie es integrada al menos de primer orden) para los niveles de significación habituales (10%, 5% 0 1%), pues arrojan p-valores de0,991
y0,698
, respectivamente. - Los resultados del test KPSS no son tan contundentes, ya que los p-valores interpolados son de
0,038
paraTasa_Fumadores
y de0,037
paraTasa_Incendios
. Por tanto, la hipótesis nula (\(H_0:\) la serie es estacionaria en media) se rechazaría al 5% de significación, aunque no se rechazaría al 1%.
En conjunto, podemos asumir que estos datos no son realizaciones de procesos estocásticos estacionarios (lo que coloquialmente se expresa diciendo que "estas series no son estacionarias en media").
Respuesta 2
- Interpretación de los coeficientes de la regresión
- Ambos coeficientes estimados resultan ser estadísticamente significativos a los niveles de significación habituales (10%, 5% ó 1%).
- El término constante NO admite una interpretación coherente. Intentar interpretarlo implicaría suponer que si
Tasa_Fumadores
fuera 0 (caso que no se observa en la muestra) la tasa de incendios por cada 100.000 habitantes sería negativa. En este modelo la constante es un parámetro no interpretable. - La pendiente indica que si la tasa de fumadores aumentase en un punto porcentual, el valor esperado estimado para la tasa de incendios crecería en 1,52 incendios por cada 100.000 residentes.
- El término constante NO admite una interpretación coherente. Intentar interpretarlo implicaría suponer que si
- Interpretación de los indicadores de ajuste
La desviación típica residual es de 1,87 incendios/100.000 residentes. Es una medida de la dispersión de los residuos.
El R-cuadrado es
0,89
. Como el \(R^2\) es un ratio entre la varianza muestral de los datos ajustados y la varianza muestral de los datos del regresando, el \(R^2\) se interpreta como una medida de la bondad del ajuste de los datos (el modelo ajustado capta el 89% de la varianza muestral del regresando).El R-cuadrado corregido es un ratio de las correspondientes cuasivarianza que sirve para comparar el ajuste de distintos modelos anidados (i.e., modelos con el mismo regresando y donde los regresores de uno de los modelos son un subconjunto de los regresores del otro).
Los criterios de información de Akaike, Schwarz y Hannan Quinn toman los valores
87,78
,89,87
y88,23
, respectivamente. Se trata de otros medidas de ajuste que permiten comparar modelos con el mismo regresando, por lo que, sin otro modelo con el compararlos, no nos dan mucha información.- Evidencia sobre sobre el cumplimiento de los supuestos del modelo clásico de regresión lineal
- Los contrastes de normalidad, homoscedasticidad y ausencia de autocorrelación no rechazan a los niveles de significación habituales sus respectivas hipótesis nulas (\(H_0\): los datos provienen de una distribución normal; \(H_0\): los datos son realizaciones de variables aleatorias con la misma varianza; y \(H_0\): los datos provienen de variables aleatorias que no muestran correlación serial).
Respuesta 3
Al comparar modelos, lo habitual es fijarse tanto en estadísticos de ajuste, como en el cumplimiento de las hipótesis del MLG y la consistencia de los resultados.
- Estadísticos de ajuste
En este caso, en el que estos modelos ajustan variables distintas (
Tasa_Incendios
en el primer caso yd_Tasa_Incendios
en el segundo), por tanto los estadísticos de ajuste no son comparables.No obstante, es evidente que la primera regresión muestra un elevado \(R^2\) (el ajuste reproduce un elevado porcentaje de la varianza muestral de la
Tasa_Incendios
) y que, sin embargo, la segunda regresión muestra un bajísimo \(R^2\) (un paupérrimo ajuste de los datos). Aunque no cabe comparar los R-cuadrado corregidos ya que estos modelos no están anidados (como se apuntaba más arriba).- Cumplimiento de hipótesis
Todos los parámetros del modelo de la primera regresión son significativos. Los test residuales no rechazan las hipótesis nulas de normalidad, homoscedasticidad y ausencia de autocorrelación.
El ajuste del segundo modelo tiene un parámetro no significativo y sus residuos rechazan la hipótesis nula de normalidad.
- Consistencia de los resultados de la primera regresión en niveles
- Si la relación entre las variables fuera como la que implica la primera regresión (que aparentemente es la muestra un buen ajuste de los datos y no evidencia incumplimientos del los supuestos clásicos), es decir, si realmente \[\boldsymbol{y}=\beta_1\boldsymbol{1}+\beta_2\boldsymbol{x}+\boldsymbol{u}.\] Entonces también debería ser cierto que \[\nabla\boldsymbol{y}=\beta_2\nabla\boldsymbol{x}+\nabla\boldsymbol{u}.\]
Sin embargo, en la Regresión en primeras diferencias: d_Tasa_Incendios
sobre d_Tasa_Fumadores
la única variable estadísticamente significtiva la constante (que debería ser cero).
Es decir, la Regresión en primeras diferencias: d_Tasa_Incendios
sobre d_Tasa_Fumadores
contradice la posibilidad de que ambas variables estén relacionadas. Es decir, los resultados de la primera regresión no son consistentes con los de la segunda. Dicho de otro modo, los resultados de la segunda estimación indican que estamos ante un caso de correlación espúria, ya que la relación entre ambas variables se vuelve no significativa al diferenciarlas.
A este respecto, podemos argumentar que, pese a los estadísticos de significación y los de ajuste, el segundo modelo es mejor que el primero; ya que refleja que ambas variables no están relacionadas, es decir, que fumar menos no afecta significativamente en la incidencia de incendios.
Respuesta 4
Dado que \(\widehat{\varepsilon_t}\) es el residuo de la regresión correspondiente a la observación t-ésima; es decir, que \(\widehat{\varepsilon_t}={I_t}-\widehat{I_t}\), sólo las dos primeras expresiones son correctas. La primera corresponde a los valores ajustados \(\widehat{I_t}\) y, por tanto, la segunda expresión resulta ser \({I_t}=\widehat{I_t}+\widehat{\varepsilon_t}\): es decir, la regresión descompone los datos observados en datos ajustados más el error cometido por dicho ajuste.
Respuesta 5
La afirmación es FALSA. La hipótesis nula del test es \(H_0:\) la serie es NO estacionaria.
Respuesta 6
La afirmación es VERDADERA. La hipótesis nula del test KPSS es \(H_0:\) la serie es estacionaria; y el p valor interpolado (3,8%) da lugar a un rechazo al 5% de significación.
Respuesta 7
La afirmación es VERDADERA. La hipótesis nula del test es \(H_0:\) la serie es NO estacionaria y el p valor (69,8%) da lugar a un no rechazo al 5% de significación.
Respuesta 8
La afirmación es FALSA. La hipótesis nula del test es \(H_0:\) la serie es estacionaria.
Respuesta 9
La afirmación es FALSA. Dos variables pueden estar fuertemente correladas sin que exista una relación causal entre ellas. Esto sucede, por ejemplo, si la correlación entre ambas es espúria.
Respuesta 10
En primer lugar, independientemente de los resultados que arrojen los test, los contrastes de hipótesis no pueden dar una garantía plena sobre el cumplimiento de las hipótesis. Además, no se incluyen contrastes para todas las hipótesis; por ejemplo, no se muestra un test de linealidad.
Pese a todo ello, los test mostrados NO inducen a rechazar las correspondientes hipótesis nulas a los niveles de significación habituales (\(H_0\): distribución normal, \(H_0\): homocedasticidad y \(H_0\): ausencia de autocorrelación).
Respuesta 11
A un 5% de significación
- a) los Contrastes de raiz unitaria y de estacionariedad realizados sugieren que ambas series son no estacionarias.
- b) la regresion en niveles indica que existe una relación significativa entre ambas variables, y
- c) por otra parte, los Contrastes de raíz unitaria y de estacionariedad para los residuos
uhat
del modelo de regresión en niveles no se refuerzan, ya que el ADF no rechaza su hipótesis nula (no estacionariedad) por un margen pequeño (7,1% frente a 5%) y el KPSS tampoco rechaza la suya (estacionariedad).
Consecuentemente, a la luz de estos resultados, las series podrían estar cointegradas, aunque la conclusión de la etapa 4 es dudosa, ya que según el ADF no habría cointegración al 5%, mientras que el KPSS no la descarta.
Respuesta 12
La afirmación es FALSA. A un 10% de significación el test ADF rechaza la hipótesis nula (no estacionariedad) y el KPSS no rechaza su hipótesis nula (estacionariedad). Por tanto, ambos contraste no se contradicen a este nivel de significación.
Respuesta 13
Efectivamente la afirmación es VERDADERA. La regresión en niveles es muy significativa. En primeras diferencias no hay relación. Por tanto, la apariencia de relación se debe, sencillamente, a que ambas series son realizaciones de procesos no estacionarios.
Respuesta 14
La afirmación es VERDADERA. El valor estimado del término constante (-0,951
) está muy próximo a -1
y puede interpretarse como el valor esperado del cambio en Tasa_Incendios
, en ausencia de efectos de la variable explicativa (que en cualquier caso no afecta significativamente a la endógena).