Caso práctico

El propietario de una red de gasolineras repartidas por todo el territorio nacional está considerando la posibilidad de redimensionar su empresa pero, antes de tomar una decisión, quiere saber cuáles son las previsiones que hay en relación al consumo de gasolina en España. Se pone en contacto con una investigadora que ha especificado y estimado un modelo que relaciona el consumo de gasolina para automoción en España (CGA, expresado en miles de toneladas métricas), con el índice de precios al consumo (IPC, base 2011 = 100) y con un índice de renta salarial (IRS, base 2011 = 100).

Estimación MCO con EViews

Para estimar el modelo se han utilizado datos mensuales del período comprendido entre febrero del 2002 y abril del 2015. La función de regresión estimada se adapta bien a los datos (R^2 = 0.98 y %RECM = 2,74%), las estimaciones de los parámetros son coherentes con los supuestos teóricos, ya que indican la existencia de una relación directa entre el consumo de gasolina y la renta e inversa entre entre los precios y el consumo de este combustible y las dos variables explicativas son relevantes prácticamente a cualquier nivel de significación. 

Pero para responder a la cuestión planteada por el empresario, la investigadora ha de comprobar si esta relación estimada es válida para efectuar predicciones porque para que el pronóstico sea fiable, además, es necesario que la relación existente entre las variables sea estable, es decir, que los parámetros \beta_i tomen los mismos valores en el período muestral y en el de predicción. 

Finalmente, antes de aventurarse a efectuar pronósticos, ha de valorarse la capacidad predictiva del modelo y con este objetivo se han reservado las observaciones correspondientes al período comprendido entre mayo del 2015 y diciembre de este mismo año que se emplearán para comparar los valores reales que tomó la variable ‘Consumo de gasolina para automoción’ con los que el modelo prevé.

Predicción en el MRLNC

Aunque generalmente la palabra predicción se asocia con problemas de series temporales en los que se trata de anticipar el futuro en función de la información disponible sobre el pasado, en Econometría este tipo de análisis también es aplicable a modelos de corte transversal. Además, es importante señalar que no es necesario conocer una relación causal para realizar una buena predicción, si bien este tipo de predicciones requieren del manejo de otros procedimientos que aquí no se contemplan. 

Para valorar la capacidad predictiva de un modelo econométrico, se efectúan predicciones a pasado o a posteriori, conocidas como predicciones ex-post.

    • Se realizan una vez que el período al que se refieren ya ha transcurrido por lo que no requieren la anticipación de los valores de las variables explicativas en el período de predicción, porque ya son conocidos.
      Evitan, por tanto, los errores derivados de una anticipación incorrecta de los valores de los regresores.
    • Son las más adecuadas para comparar los valores reales y previstos del regresando a fin de valorar la capacidad predictiva del modelo.
  •  

Predecir con un modelo econométrico consiste en estimar el valor del regresando para alguna observación extramuestral, a las que denotaremos por la letra griega \tau.

\widehat y_{\tau} = b_0 + b_1 x_{1\tau} + ··· + b_k x_{k\tau}

Para obtener los valores previstos de la variable explicada es necesario disponer de los valores que toman las explicativas en el período de predicción.

\widehat y_{\tau} es un estimador lineal, insesgado y óptimo de E( y_{\tau}) = \beta_0 + \beta_1 x_{1 \tau} + ··· + \beta_{k} x_{k \tau} dado que, en el MRLNC, el EMCO es un estimador lineal, insesgado y óptimo de \beta.

Es la diferencia entre el valor observado del regresando y su valor previsto

e_{\tau} = y_{\tau} – \widehat{y}_{\tau}

e_{\tau} =(\beta_0+\beta_1 x_{1 \tau}+ ··· + \beta_k x_{k \tau} + \varepsilon_{\tau})-(b_0+b_1 x_{1 \tau}+ ··· + b_k x_{k \tau} )

e_{\tau}= \varepsilon_{\tau} +[(\beta_0 – b_0)+(\beta_1-b_1)x_{1 \tau} + ··· + (\beta_k-b_k) x_{k \tau}]

El error de predicción es aleatorio y —aunque el modelo sea estable y los valores de los regresores en el período de predicción se conozcan con certeza— no es nulo debido a que depende de:

    • El valor del término perturbación que no es nulo.
    • La diferencia entre los valores de los parámetros y los de sus estimadores que tampoco es nula.

Si en una serie de errores se detecta un predominio claro de un determinado signo debe revisarse la especificación del modelo porque, aunque puede ser debido a diferentes causas —forma funcional incorrecta, inestabilidad, etcétera— con frecuencia es consecuencia de la omisión de una variable explicativa relevante.

Características del error de predicción: esperanza y varianza

    • E(e_{\tau})=E( \varepsilon_{\tau}) +[(\beta_0 -E( b_0))+(\beta_1-E(b_1))x_{1 \tau} + ··· + (\beta_k-E(b_k)) x_{k \tau}] = 0
    • \sigma^2_{e_{\tau}}=\sigma^2+X^{\prime}_{\tau} V(b) X_{\tau}
      Donde \sigma^2 es la varianza de las perturbaciones, X_{\tau} un vector cuyos elementos son las observaciones de los regresores en el período de predicción \tau y {V}(b) la matriz de varianzas-covarianzas de los estimadores.

Varianza estimada del error de predicción:

La varianza del error de predicción es desconocida. Para estimarla se utiliza la expresión:

S^2_{e_{\tau}}=S^2+X^{\prime}_{\tau} \widehat{ V}(b) X_{\tau}

    • S^2=\frac{SCE}{T-k-1} es el estimador de la varianza de la perturbación.
    • X_{\tau} es un vector columna cuyos elementos son las observaciones de los regresores en el período de predicción \tau.
    • \widehat {V}(b) es la matriz de varianzas-covarianzas estimada de los estimadores.

Bajo las hipótesis del MRLNC pueden obtenerse los intervalos de confianza para el valor puntual de la variable explicada a través de la expresión:

( \widehat {y}_{\tau} – S_{e_{\tau}}t^{\alpha/2}_{T-k-1}; \widehat {y}_{\tau} + S_{e_{\tau}}t^{\alpha/2}_{T-k-1})

La amplitud del intervalo es proporcional a la desviación típica estimada del error de predicción. Cuanto mayor sea S_{e_{\tau}} más amplio es el intervalo y, por tanto, mayor la incertidumbre respecto al verdadero valor de la variable explicada en el período de predicción.

Estos intervalos de confianza proporcionan el conjunto de valores previstos de la variable explicada que son compatibles con los datos que contiene la muestra.

Caso práctico: modelo consumo de gasolina para automoción

Con los datos de las variables ‘Consumo de gasolina para automoción‘, ‘Índice de precios al consumo’ e ‘Índice de renta salarial‘ para el período comprendido entre mayo y diciembre de 2015, se calcula los valores previstos para la variable explicada.

\begin{array}{c} \widehat {CGA}_{20015M05} = 1518,79 -12,10773 \times 104,109 +1,331995 \times 97,49040 = 388,483\\ ·························\\ \widehat {CGA}_{20015M12} = 1518,79 -12,10773 \times 103,490 +1,331995 \times 97,98135 = 396,271\end{array}

Los resultados obtenidos para todo el período de predicción se recogen en la siguiente tabla

Cálculo del intervalo de confianza del 95% para el valor puntual de la variable ‘Consumo de gasolina para automoción’ en el primer período de predicción: mayo de 2015.

( \widehat {CGA}_{\tau} – S_{e_{\tau}}t^{\alpha/2}_{T-k-1}; \widehat {CGA}_{\tau} + S_{e_{\tau}}t^{\alpha/2}_{T-k-1})

S_{e_{2015M05}} = \sqrt{S^2+ X^{\prime}_{2015M05} \widehat {V}(b)X_{2015M05}} = 14,56

S^2= \frac{32526,88}{159-2-1}=208,51

X^{\prime}_{2015M05} \widehat {V}(b)X_{2015M05} = \begin{pmatrix} 1 & 104,11 & 97,49 \end{pmatrix}\begin{pmatrix} 413,1599 & -1,5318 & -2,7289 \\ -1,5318 & 0,0189 & -0,0024 \\ -2,7289 & -0,0024 & 0,0299 \end{pmatrix} \begin{pmatrix} 1 \\ 104,11 \\ 97,49\end{pmatrix} = 3,61

t^{0,025}_{156}=1,97

(388,48 – 14,56 \times 1,97; 388,48 + 14,56 \times 1,97) = (359,7145;417,2513)

Intervalos de confianza del 95% para los valores puntuales de la variable ‘Consumo de gasolina para automoción’ para todos los períodos de predicción.

Estabilidad del modelo en el período de predicción

Para que un modelo pueda proporcionar predicciones correctas es necesario que su estructura paramétrica que, en el modelo de regresión lineal normal clásico se supone única y válida a lo largo del período muestral ( t = 1, 2, ···, T), se mantenga válida en el período de predicción( \tau = T+1, T+2, ···, T+n) .

Si el modelo especificado por la ecuación:

y_t = \beta_0 + \beta_1 x_{1t} + \beta_2 x_{2t }+ ··· + \beta_k x_{kt} + \varepsilon_t

se mantiene estable en el período de predicción:

y_{\tau} = \beta_{0\tau} + \beta_{1\tau} x_{1\tau}+ \beta_{2\tau} x_{2\tau} + ··· + \beta_{k\tau} x_{k\tau} +\varepsilon_{\tau}

entonces \beta_{i \tau} = \beta_i \: \forall i= 0,1, ···, k \: \forall \tau = 1,2, ···,n

Para contrastar la hipótesis nula

H_0: \beta_{i \tau} = \beta_i \: \forall i= 0,1, ···, k \: \forall \tau = 1,2, ···,n

se pueden emplear diferentes estadísticos.

Este contraste es válido para el conjunto de períodos de predicción y es aplicable a cualquier tamaño muestral. 

Formulación hipótesis

H_0: \beta_{i \tau} = \beta_i \: \forall i= 0,1, ···, k \: \forall \tau = 1,2, ···,n
H_1: \beta_{i \tau} \neq\beta_i \: \forall i= 0,1, ···, k \: \forall \tau = 1,2, ···,n

El estadístico de prueba, bajo la hipótesis de estabilidad paramétrica, sigue una distribución F de Snedecor con n —número de períodos para los que se realiza la predicción— grados de libertad en el numerador y T-k-1 en el denominador. 

F =\large  \frac{(SCE_{T+n} – SCE_T)/n}{SCE_T/(T-k-1)} \sim F_{n, T-k-1}

donde SCE_{T+n} es la suma de cuadrados de errores que se obtiene al estimar el modelo con todos los datos disponibles: muestrales —T— y extramuestrales —n— y SCE_{T} la que se obtiene al estimarlo solo con los datos muestrales.

Regla de decisión e interpretación

F > F^{\alpha}_{n, T-k-1} \rightarrow RH_{0}
F < F^{\alpha}_{n, T-k-1} \rightarrow NRH_{0}

En general, si el incremento que se produce en la suma de cuadrados de errores al utilizar para la estimación todo el conjunto de datos disponibles —muestrales y extramuestrales— no es significativo, puede asumirse la estabilidad postmuestral de los parámetros \beta y si, por el contrario, este incremento es importante, los parámetros no son estables. En este último caso, a priori, el modelo no es adecuado para efectuar predicciones.

Con muestras pequeñas es preferible contrastar la estabilidad de los parámetros en cada uno de los períodos de predicción.

Formulación hipótesis

H_0: \beta_{i \tau} = \beta_i \thinspace \forall i= 0,1, ···, k
H_1: \beta_{i \tau} \neq \beta_i \thinspace \forall i= 0,1, ···, k

El estadístico de prueba, bajo la hipótesis nula, sigue una distribución t-Stundent con T – k -1 grados de libertad.

t_{\tau} = \frac{e_\tau}{S_{e_{\tau}}} \sim t_{T-k-1}

donde e_{\tau} es el error de predicción ( e_{\tau} = y_{\tau} – \widehat y_{\tau} ) y S_{e_{\tau}} la desviación típica estimada del error de predicción:

S_{e_{\tau}} =\sqrt{ S^2 + X^{\prime}_{\tau} \widehat {V}(b) X_{\tau}}

los elementos del vector X_{\tau}  son las observaciones de los regresores en el período de predicción \tau y los de la matriz \widehat {V}(b) , las varianzas y las covarianzas estimadas de los estimadores.

Regla de decisión e interpretación:

|t_{\tau} |> t^{\alpha/2}_{T-k-1} \rightarrow RH_{0}
|t_{\tau} |< t^{\alpha/2}_{T-k-1} \rightarrow NRH_{0}

Si la hipótesis nula no se rechaza, no hay evidencia en contra de la estabilidad paramétrica y, en el período de predicción considerado, el modelo puede utilizarse para predecir.

Caso práctico: modelo consumo de gasolina de automoción

    • Período de estimación: febrero 2002 —abril 2015 ( T=159 )
    • Período de predicción: mayo 2015 — diciembre 2015 ( n=8 )

H_0: \beta_{i \tau} = \beta_i \: \forall i= 0,1, 2 \: \forall \tau = 1,2, ···,8
H_1: \beta_{i \tau} \neq\beta_i \: \forall i= 0,1, 2 \: \forall \tau = 1,2, ···,8

Valor del estadístico en la muestra:

F =\large  \frac{(33567,14 – 32526,88)/8}{32526,88/(159-2-1)} \normalsize {= 0,6236}

Regla de decisión e interpretación:

F = 0,6236 <  F^{0,05}_{(8,156)} = 1,9982 \rightarrow NRH_{0}

Al nivel de significación del 5%, no hay evidencia en contra de la estabilidad paramétrica. El modelo se considera apropiado para predecir.

Con EViews

Para hacer el contraste de estabilidad paramétrica, se estima el modelo para las 167 observaciones  —T  = 159 + n = 8— y en la cinta de opciones «View» se selecciona «Stability Diagnostics — Chow Forecast Test» . A continuación, se indica el primer período de predicción: mayo de 2015.

Regla de decisión e interpretación:
La probabilidad asociada al estadístico F (0,7571) es muy alta. A los niveles de significación habituales, la hipótesis de estabilidad paramétrica no se rechaza.

El modelo se considera apropiado para predecir.

Contraste de estabilidad de los parámetros para el primer período de predicción: mayo de 2015

H_0: \beta_{i 2015M05} = \beta_i \thinspace \forall i= 0,1, 2
H_1: \beta_{i2015M05} \neq \beta_i \thinspace \forall i= 0,1, 2

Para obtener el valor del estadístico en la muestra, ha de calcularse el error de predicción y el de su desviación típica estimada para esta observación.

e_{2015M05} = CGA_{2015M05} – \widehat {CGA}_{2015M05} = 382,6156 – 388,4829 = -5,8673

S_{e_{2015M05}} = \sqrt{S^2+ X^{\prime}_{2015M05} \widehat {V}(b)X_{2015M05}} = 14,56

t_{2015M05} = \frac{-5,8673}{14,56}=-0,40

Regla de decisión e interpretación:

|t_{2015M05} |=0,40< t^{0,025}_{156} = 1,97 \rightarrow NRH_{0}

En mayo de 2015, al nivel de significación del 5%, no hay evidencia en contra de la hipótesis de estabilidad paramétrica. 

Contraste para los restantes períodos de predicción

Valores de los estadísticos de prueba en la muestra:

Regla de decisión e interpretación:

En todos los casos:

|t_{\tau} | < t^{0,025}_{156} = 1,97 \rightarrow NRH_{0}

Para todos los períodos, al nivel de significación del 5%, la muestra no contradice la hipótesis de estabilidad paramétrica. El modelo puede utilizarse para predecir el consumo de gasolina para automoción en todos los periodos de predicción.

EViews y Gretl no calculan los valores de los estadísticos t para cada período de predicción pero sí proporcionan los previstos para la variable explicada y los de las desviaciones típicas estimadas de los errores de predicción.
Para obtener estos valores con Gretl, se estima el modelo para las observaciones muestrales —T = 159— y en la cinta de opciones «Análisis» se selecciona «Predicciones».
A continuación, ha de señalarse el período de predicción — de mayo a diciembre de 2015— y el nivel de confianza.

Medidas evaluadoras de la capacidad predictiva

La forma más directa y sencilla de valorar las predicciones que proporciona el modelo es el análisis de los errores de predicción.

    • El modelo tiene buena capacidad predictiva si, mayoritariamente, los errores relativos en términos absolutos son inferiores al 5%

\rvert \frac{e_{\tau}}{y_{\tau}} \rvert \times 100

PEAM_{p} = \frac{\sum_{\tau =1}^{n} \rvert \frac{e_{\tau}}{y_{\tau}}\rvert}{n} \times 100

Esta medida indica el porcentaje de error que, por término medio, se comete al predecir los valores de la variable explicada.
Es una media adimensional que permite:

    • Evaluar la capacidad predictiva de un modelo:
      A efectos prácticos, suele considerarse una buena capacidad predictiva si PEAM_{p} < 5%.
    • Comparar la capacidad predictiva de diferentes modelos.
      Proporciona mejores predicciones el modelo en el que PEAM_{p} es menor.

Caso práctico: modelo consumo de gasolina de automoción

Obs. e_{\tau} \lvert \frac {e_{\tau}}{CGA_{\tau}} \lvert \times 100
2015M05
-5,8673
1,53
2015M06
7,0384
1,80
2015M07
3,7114
0,93
2015M08
-21,0041
5,54
2015M09
-17,7791
4,59
2015M10
-9,4725
2,44
2015M11
-11,4162
3,00
2015M12
-3,3462
0,85
    • Mayoritariamente los errores relativos de predicción son inferiores al 5% lo que indica que el modelo tiene una buena capacidad predictiva.
    • PEAM_{p} = \frac{20,68}{8} = 2,58% < 5% indicativo de una buena capacidad predictiva

Medidas evaluadoras de la capacidad predictiva con EViews y con Gretl

Una vez estimado el modelo con las T observaciones muestrales, se selecciona en el menú «Procs» la opción «Forecast«

En la parte izquierda de la salida de la predicción se representa gráficamente la serie de las predicciones de la variable ‘Consumo de gasolina para automoción‘ (CGAF) —línea continua— y los límites inferior y superior de los intervalos de confianza para las predicciones —líneas discontinuas— al nivel de confianza del 95% para el período de predicción —Forecast Sample—.

En el lado derecho, EViews proporciona información sobre diferentes medidas evaluadoras de la capacidad predictiva que calcula de forma automática:

    • Los valores de las dos primeras, Raíz del Error Cuadrático Medio de la predicciónRoot Mean Squared Error— y Error Absoluto Medio de la predicciónMean absolute Error— dependen de las unidades de medida del regresando por lo que no es posible determinar un valor de referencia para valorar la calidad de las predicciones. Cuanto menor es su valor, mejor predice el modelo.
    • El Porcentaje del Error Absoluto de la predicción —Mean Abs. Percent Error (MAPE)— mide el error en términos porcentuales, es adimensional. Toma valores entre cero e infinito y, en la práctica, habitualmente, se considera una buena capacidad predictiva cuando es inferior al 5%. 
      Dado que la distribución de los porcentajes de valores absolutos es frecuentemente asimétrica con sesgo a la derecha, EViews también calcula el Porcentaje del Error Absoluto medio simétricoSymmetric MAPE— 
      sMAPE =(\frac{1}{n}  \sum_{\tau=1}^{n} \frac{\lvert y_{\tau} – \widehat {y}_{\tau} \lvert}{(y_{\tau}+\widehat{y}_{\tau})/2 })\times 100
    • Finalmente, se muestran los valores de dos medidas propuestas por Theil. El primero —Theil Inequality Coef.— es una medida de exactitud, mientras que el segundo —Theil U2 Coefficient— es una medida de la calidad del pronóstico. 
      Theil Inequality Coef. toma valores entre cero y uno. Cuanto más se aproxime a uno, peor es el pronóstico. Para establecer el origen de la desigualdad entre los valores reales y previstos del regresando, EViews también proporciona la descomposición del error cuadrático medio en las proporciones del sesgo —Bias Proportion—, de la varianza —Variance Proportion— y de la covarianza — Covariance Proportion—. La suma de las tres es igual a la unidad y cada una de ellas varía entre cero y uno. Si el modelo predice bien, las proporciones del sesgo y de la varianza están próximas a cero y la de la covarianza a uno. 
      El estadístico U2 de Theil permite comparar la calidad del pronóstico realizado con el modelo propuesto con la correspondiente a un modelo ingenuo o «naive» —por ejemplo \widehat {y}_{\tau} = y_{\tau-1}—. U2 toma valores entre cero e infinito. Si el modelo propuesto predice mejor que el ingenuo, U2 toma un valor menor que 1. Cuando toma el valor 1 es indicativo de que la calidad del pronóstico es idéntica en ambos modelos.

Una vez estimado el modelo con las T observaciones muestrales, se selecciona en el menú «Análisis» la opción «Predicciones«

A diferencia de EViews, Gretl proporciona el valor del Error Medio de la predicción que no sirve para valorar el tamaño de los errores.