Flores Santillan Salvador 2008 1

Análisis de Series de Tiempo

i

ÍNDICE GENERAL

ÍNDICE DE CUADROS ............................................................................................................. i

ÍNDICE DE GRÁFICAS Y FIGURAS .....................................................................................ii

RESUMEN ................................................................................................................................. iv

SUMMARY ................................................................................................................................. v

1. INTRODUCCIÓN GENERAL .............................................................................................. 1

2. OBJETIVOS ........................................................................................................................... 2

2.1. Objetivo General ......................................................................................................................... 2

2.2. Objetivos Particulares ................................................................................................................ 2

3. METODOLOGÍA ................................................................................................................... 2

4. ANÁLISIS DE SERIES DE TIEMPO .................................................................................. 3

5. CONCLUSIONES .............................................................................................................. 196

6. BIBLIOGRAFÍA ................................................................................................................ 197

7. ANEXO ............................................................................................................................... 198

ÍNDICE DE CUADROS

Cuadro1. Resumen de las características del proceso AR(1) .................................................. 35

Cuadro2. Resumen de las propiedades del proceso MA(1) ..................................................... 39

Cuadro3. Resumen del ejemplo regresión con errores ARMA. ............................................ 121

Cuadro4. Valores críticos de Dicky-Fuller. ........................................................................... 124

Cuadro5. Parámetros estimados de la regresión de tX sobre Xt-1. ................................... 125

Cuadro6. Parámetros estimados de la regresión de tX sobre Xt-1 y 1tX . ..................... 125

Cuadro7. Valores críticos de la estadística Cα. ...................................................................... 126

Cuadro8. Autocovarianzas de algunos modelos estacionales. .............................................. 128

Cuadro9. Estimación de valores “perdidos” de la serie del Índice Dow Jones ................... 172


ii

ÍNDICE DE GRÁFICAS Y FIGURAS

Gráfica1. Tasa de desempleo nacional enero-1998 a febrero-2004. ........................................ 8

Gráfica2. Tipo de cambio peso-dólar Enero 1998 a Marzo 2004. ............................................ 9

Figura1. Estacionaridad Estricta. ............................................................................................ 11

Gráfica3. Serie tipo de cambio diferenciada a distancia 1...................................................... 21

Gráfica4. Desempleo con ajuste de tendencia cuadrático. ..................................................... 22

Gráfica5. Residuales después de ajustar modelo cuadrático a la serie de desempleo. .......... 23

Gráfica6. Precipitación mensual para la Rep. Mexicana Ene-1990 a Feb-2004. ................. 23

Gráfica7. Serie precipitación diferenciada a distancia 12. ..................................................... 24

Gráfica8. Viajeros internacionales mensuales Ene-1980 a Feb-2004. .................................. 25

Gráfica9. Logaritmo de la serie viajeros. ................................................................................. 26

Gráfica10. Logaritmo de viajeros diferenciado a distancia 12. .............................................. 26

Gráfica11. Logaritmo de viajeros diferenciado a distancia 12 y a distancia 1. ..................... 27

Gráfica12. Función de autocorrelación AR(1): phi=0.8 ........................................................ 34

Gráfica13. Función de autocorrelación AR(1): phi= -0.8 ...................................................... 35

Gráfica 14. tX v.s 1tX de la serie de desempleo nacional. ................................................... 36

Gráfica15. Función de Autocorrelación MA(1): theta=0.8 .................................................... 38

Gráfica16. Función de Autocorrelación MA(1): theta=-0.8 ................................................... 39

Figura2. Región de estacionaridad del modelo AR(2). ........................................................... 48

Gráfica17. Alguna formas de la ACF de un modelo AR(2). ................................................... 49

Gráfica18. Algunas formas de la ACF de un modelo MA(2). ................................................ 53

Figura3. Ajuste de un proceso ARMA(p,q) ............................................................................. 83

Gráfica19. Serie índice de utilidad Dow Jones Ago-28 a Dic-28 de 1972. ............................. 86

Gráfica20. Serie índice de utilidad Dow Jones diferenciada a distancia 1. ........................... 86

Gráfica21. ACF y PACF Serie del índice de utilidad Dow Jones diferenciada a distancia 1.

................................................................................................................................................... 87

Gráfica22. Serie nivel del lago Hurón años 1875-1972. ......................................................... 89

Gráfica23. ACF y PACF de la serie nivel del lago Hurón años 1875-1972. ......................... 89

Gráfica24. ACF y PACF de los residuales después de ajustar un modelo ARMA(1,1) a la

serie nivel del lago Hurón. ..................................................................................................... 101

Gráfica25. Valores simulados de la serie X(t)=cos(t) +N(t), t=0.1,0.2,…,20, donde N(t) es

WN(0,0.25). ............................................................................................................................. 103

Gráfica26. ACF de la serie X(t)=cos(t) + N(t), t=0.1,0.2,…,20, donde N(t) es WN(0,0.25). 103


iii

Gráfica27. Serie Muertes mensuales causadas por accidentes en USA de 1973-1978........ 110

Gráfica28. Serie tXB )1( 12, donde Xt es la serie de muertes causadas por accidentes. .... 110

Gráfica29. Serie tXBB )1)(1( 12, donde Xt es la serie de muertes causadas por accidentes.

................................................................................................................................................. 111

Gráfica30. ACF y PACF de la Serie tXBB )1)(1( 12, donde Xt es la serie muertes. ....... 111

Gráfica31. Serie tXBB )1)(1( 12, donde Xt es la serie de viajeros. .................................. 113

Gráfica32. ACF y PACF de tXBB )1)(1( 12, donde Xt es la serie de viajeros. ................ 113

Figura4. Proceso de ajuste de un modelo de regresión con errores siguiendo un proceso

ARMA(p,q). ............................................................................................................................. 120

Gráfica33. Serie bivariada: ventas e indicador de ventas. .................................................... 132

Gráfica34. Serie tXB)1( , donde tX es la serie bivariada: ventas e indicador de ventas.

................................................................................................................................................. 132

Gráfica35. ACF y PACF de la serie tXB)1( , donde tX es la serie bivariada: ventas e

indicador de ventas. ................................................................................................................ 133

Gráfica36. Serie bivariada: Índice Dow Jones y otro alternativo. ....................................... 146

Gráfica37. ACF y PACF de los residuales después de ajustar un modelo multivariado AR(5)

a la serie diferenciada de ventas. ........................................................................................... 149


iv

“ANÁLISIS DE SERIES DE TIEMPO”

Flores, S.S ([email protected]).

Terrazas, G.G.H([email protected]).

RESUMEN

En la actualidad podemos encontrar un sinfín de material bibliográfico para el análisis

de series de tiempo, llámense artículos científicos, libros, revistas, etc. Sin embargo, la

mayoría de estos trabajos se encuentran escritos en idiomas como el inglés, francés o alemán,

fundamentalmente. Esta situación justifica la importancia de contar con material en español

que incluya la teoría básica de series de tiempo.

En el presente trabajo se incluye un resumen de libros clásicos de series de tiempo, así

como ejemplos con datos reales que dejan en claro de qué se trata el análisis de series de

tiempo. En el presente se usaron diferentes paquetes estadísticos ITSM2000, S-PLUS, R y

Eviews5. Sin embargo, en mayor medida se usó el paquete S-PLUS como una alternativa al

libro de texto de Brockwell y Davis.

Debemos enfatizar que para llevar a cabo un “buen” pronóstico, en el sentido de

minimizar los errores, no basta con aplicar al pie de la letra la teoría, sino que se deben

emplear elementos de juicio y sentido común. Sólo en esta forma se puede llevar a cabo un

pronóstico inteligente.

Palabras Clave: series de tiempo, análisis de series de tiempo, ITSM2000, S-PLUS, R,

Eviews5, pronóstico.


v

“TIME SERIES ANALYSIS”

Flores, S.S ([email protected]).

Terrazas, G.G.H([email protected]).

SUMMARY

Currently we can find a large quantity of bibliographic material for the time series

analysis, be called scientific articles, books, magazines, etc. However, the majority of these

jobs are founded in languages as the English, French or German, fundamentally. This

situation justifies the importance of count on material in Spanish that includes the basic theory

of series of time.

In the present job a summary of classical books of series of time is included, as well as

examples with real data that leave in clear of what treats the time series analysis. In the present

different statistical packages were used: ITSM2000, S-PLUS, R and Eviews5. However, in

greater measurement the package S-PLUS, as an alternative to the book of text of Brockwell

and Davis, was used.

We stand out that to carry out a "good" forecasting, in the sense of minimizing the

errors, does not suffice with applying the theory, but elements of judgment they should be

employed and common sense. Only in this form an intelligent forecasting can be carried out.

Key words: series of time, time series analysis, ITSM2000, S-PLUS, R, Eviews5, forecasting.


1

1. INTRODUCCIÓN GENERAL

Toda institución, ya sea la familia, la empresa o el mismo gobierno, tiene que hacer

planes para el futuro si ha de sobrevivir y progresar. Hoy en día diversas instituciones

requieren conocer el comportamiento futuro de ciertos fenómenos con el fin de planificar sus

recursos.

La planificación racional exige anticipar sucesos que probablemente vayan a ocurrir en

el futuro. La previsión, a su vez, se suele basar en lo que ha ocurrido en el pasado, es decir, en

hechos históricos. Se tiene pues un tipo de inferencia estadística que se hace acerca del futuro

de alguna variable o conjunto de variables basándose en sucesos pasados. Una de las técnicas

más importantes para hacer inferencias sobre el futuro con base en lo ocurrido en el pasado, es

el análisis de series de tiempo.

Llamamos Serie de Tiempo a un conjunto de mediciones registradas secuencialmente

en el tiempo. Las series temporales, que se manejan en Economía y en otras áreas en donde se

utiliza el análisis de series de tiempo, están constituidas por observaciones históricas, es decir,

no proceden de la experimentación y por tanto, son irrepetibles. Una serie temporal puede

contemplarse como una sola prueba de un experimento aleatorio multivariado y constituye lo

que se denomina una realización del proceso.

Son innumerables las aplicaciones que se pueden citar, en distintas áreas del

conocimiento, tales como, en Economía, Física, Geofísica, Demografía, en Mercadotecnia, en

telecomunicaciones, en transporte, etc. Algunos ejemplos son:

1. Series de tiempo Económicas:

a) Precios de un artículo.

b) Tasas de desempleo.

c) Tasa de inflación

d) Índice de precios

2. Series de tiempo Físicas:

e) Cantidad de agua precipitada

f) Temperatura.

g) Velocidad del viento.

h) Energía solar.

3. Series de tiempo Demográficas:

i) Tasas de crecimiento de la población

j) Tasas de mortalidad

k) Censos poblacionales

4. Series de tiempo de Mercadotecnia:

l) Oferta y demanda

m) Gastos.

Uno de los problemas que intenta resolver el análisis de series de tiempo es el de

predicción. Esto es, dada una serie {x(t1),...,x(tn)} nuestro objetivo es describir el

comportamiento de la serie buscando posibles patrones temporales que permitan encontrar

procesos de ajuste de los datos observados y así poder predecir a futuro.


2

En la presente tesis se estudia cómo construir un modelo para explicar la estructura y

prever la evolución de una variable que observamos a lo largo del tiempo. Las variables de

interés pueden ser de diferente naturaleza, pero nos enfocaremos a algunas económicas y

financieras, principalmente.

Cabe mencionar que los periodos de tiempo en los que se observa la variable depende

de qué variable estemos midiendo. Estos periodos pueden ser: por hora, diarios, mensuales,

trimestrales, semestrales o anuales. Aunque existen técnicas para datos continuos, estas no se

consideran en este trabajo.

2. OBJETIVOS

2.1. Objetivo General

Elaborar material de apoyo para las materias Series de Tiempo I y II que se imparten

en la Licenciatura en Estadística de la Universidad Autónoma Chapingo.

2.2. Objetivos Particulares

1. Resumir la teoría del Análisis de Series de Tiempo univariado y multivariado en forma

detallada y comprensible.

2. Contribuir con una alternativa bibliográfica para los estudiantes de la Licenciatura en

Estadística y en general, a la gente interesada en pronóstico.

3. Ejemplificar el uso de los programas S-PLUS e ITSM2000 en el ajuste de series de

tiempo.

3. METODOLOGÍA

La naturaleza de la tesis (apuntes) no exige experimentos prácticos ni análisis de datos,

salvo los ejemplos que se desarrollaron. De aquí que la metodología consistió, básicamente, en

revisión bibliográfica.

Se revisó la mayor cantidad posible de libros enfocados al tema de análisis de series de

tiempo, artículos en Internet y algunos manuales para el programa S-PLUS. El contenido del

trabajo está basado principalmente en el libro Introduction To Time Series and Forecasting de

Peter J. Brockwell y Richard A. Davis (2002), que es el libro guía de las materias de Series de

Tiempo en la Licenciatura en Estadística de la UACh; Sin embargo, tiene temas que requieren

mayor explicación para una mejor comprensión de la materia. Por ejemplo, el texto

mencionado, no discute con detalle el tema de Cointegración, por lo que se debe ampliar la

discusión. El paquete estadístico que utiliza Brockwell y Davis es el ITSM2000. En la

presente se da una alternativa con el paquete S-PLUS.

Los conjuntos de datos que se utilizaron para ejemplificar la teoría vienen junto con el

paquete ITSM-2000. Además de ellos, utilizamos datos del Banco de Información Económica

(BIE) de INEGI, de la Asociación Automotriz de México y del Banco de México.


3

4. ANÁLISIS DE SERIES DE TIEMPO

CAPÍTUL0 I. INTRODUCCIÓN _______________________________________________ 6

CAPITULO II. CONCEPTOS BÁSICOS Y EL MODELO CLÁSICO _________________ 7

II.1. CONCEPTOS BÁSICOS ____________________________________________________ 7

II.2. DISTRIBUCIÓN NORMAL MULTIVARIADA Y SUS PROPIEDADES BÁSICAS __ 14

II.3. EL MODELO CLÁSICO ___________________________________________________ 18 II.3.1. Modelo con componente de tendencia _______________________________________________ 20 II.3.2. Modelo con componente estacional _________________________________________________ 23 II.3.3. Modelo con componentes de tendencia y estacional _____________________________________ 24

CAPITULO III. PROCESOS ESTACIONARIOS Y MODELOS BÁSICOS DE SERIES DE

TIEMPO __________________________________________________________________ 28

III.1 PROPIEDADES BÁSICAS _________________________________________________ 28 III.1.1. Propiedades de las Funciones de Auto-covarianza y Auto-correlación ______________________ 28

III.2. PROCESOS LINEALES ___________________________________________________ 30

III.3. MODELOS AUTORREGRESIVOS: MODELO AR(1) _________________________ 32

III.4. MODELOS DE PROMEDIO MÓVIL: MA(1) _________________________________ 36

III.5. MODELO AR(p) _________________________________________________________ 39 III.5.1. Causalidad ____________________________________________________________________ 40 III.5.2. Método de Yule-Walker __________________________________________________________ 41 III.5.3. El Modelo AR(2) _______________________________________________________________ 44

III.6. MODELO MA(q) _________________________________________________________ 50 III.6.1. Invertibilidad __________________________________________________________________ 51 III.6.2. El Modelo MA(2) ______________________________________________________________ 52

CAPITULO IV. MODELOS ARMA(p,q) ________________________________________ 54

IV.1. DEFINICIÓN Y PROPIEDADES ___________________________________________ 54

IV.2. MODELO ARMA(1,1) _____________________________________________________ 55

IV.3. PROPIEDADES DE ˆ Y )(ˆ h _____________________________________________ 56

IV.4. PREDICCIÓN EN PROCESOS ESTACIONARIOS (El mejor Predictor Lineal) ____ 59 IV.4.1. Propiedades del operador Pn ______________________________________________________ 61 IV.4.2. Algoritmo de Durbin-Levinson ____________________________________________________ 64 IV.4.3. Algoritmo de Innovaciones _______________________________________________________ 70

IV.5. PRONÓSTICO DE PROCESOS ARMA(p,q) __________________________________ 75

CAPITULO V. MODELACIÓN CON MODELOS ARMA(p,q) ______________________ 82

V.1. ESTIMACIÓN PRELIMINAR ______________________________________________ 84 V.1.1. Estimación de Yule-Walker _______________________________________________________ 84 V.1.2. Algoritmo de Burg ______________________________________________________________ 88 V.1.3. Algoritmo de Innovaciones ________________________________________________________ 90 V.1.4. Algoritmo de Hannan-Rissanen ____________________________________________________ 93

V.2. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD _____________________________ 95

V.3. PRUEBAS DE BONDAD DE AJUSTE _______________________________________ 100


4

V.3.1. La función de autocorrelación de residuales __________________________________________ 100 V.3.2. Prueba de puntos cambiantes (turning points) ________________________________________ 101 V.3.3. Prueba de signo (difference-sign) __________________________________________________ 102

CAPITULO VI. MODELOS NO-ESTACIONARIOS _____________________________ 105

VI.1. MODELOS ARIMA PARA SERIES NO-ESTACIONARIAS ___________________ 105 VI.1.1 Identificación y estimación de modelos _____________________________________________ 108

VI.2. MODELOS SARIMA ____________________________________________________ 109 VI.2.1 Predicción con Modelos SARIMA _________________________________________________ 114

VI.3. REGRESIÓN CON ERRORES ARMA(p,q) _________________________________ 116 VI.3.1 Mínimos Cuadrados Ordinarios (MCO) _____________________________________________ 117 VI.3.2 Mínimos Cuadrados Generalizados (MCG) __________________________________________ 117

VI.4. RAICES UNITARIAS EN SERIES DE TIEMPO _____________________________ 122 VI.4.1 Raíces Unitarias en el polinomio Autorregresivo ______________________________________ 122 VI.4.2 Raíces Unitarias en el polinomio de Promedio Móvil __________________________________ 126

CAPITULO VII. SERIES DE TIEMPO MULTIVARIADAS ______________________ 131

VII.1. PROPIEDADES DE LA FUNCIÓN DE AUTOCOVARIANZAS, )(h __________ 133

VII.2. ESTIMACIÓN DEL VECTOR PROMEDIO Y LA FUNCIÓN DE COVARIANZAS136

VII.2.1. Estimación del vector promedio, ______________________________________________ 137

VII.2.2. Estimación de la función de Covarianzas, )(h _____________________________________ 137

VII.3. PROCESOS ARMA MULTIVARIADOS ___________________________________ 139 VII.3.1. Función de Covarianzas de un proceso ARMA causal, )(h ___________________________ 141

VII.4. EL MEJOR PREDICTOR LINEAL _______________________________________ 142

VII.5. MODELACIÓN Y PRONÓSTICO CON MODELOS AR MULTIVARIADOS ____ 144 VII.5.1. Estimación Preliminar de Whittle (Yule-Walker multivariado) __________________________ 144 VII.5.2. Máxima Verosimilitud _________________________________________________________ 145 VII.5.3. Pronóstico con modelos Autoregresivos Multivariados ________________________________ 149

CAPITULO VIII. MODELOS ESPACIO-ESTADO ______________________________ 153

VIII.1. REPRESENTACIÓN DE LOS MODELOS ESPACIO-ESTADO ______________ 153

VIII.2. EL MODELO ESTRUCTURAL BÁSICO __________________________________ 155

VIII.3. REPRESENTACIÓN ESPACIO-ESTADO DE MODELOS ARMA ____________ 158

VIII.4. RECURSIONES KALMAN ______________________________________________ 159

VIII.5. EL ALGORITMO EM __________________________________________________ 168

CAPITULO IX. COINTEGRACIÓN __________________________________________ 173

IX.1. DEFINICIONES Y PROPIEDADES ________________________________________ 173

IX.2. representación DEL Mecanismo de CORRECCIÓN DE ERROR (mCE) __________ 176

IX.3. ESTIMACIÓN Y CONTRASTE DE RELACIONES DE COINTEGRACIÓN _____ 179 IX.3.1. Estimación en dos etapas de Engle y Granger ________________________________________ 179 IX.3.1a. Estimación Directa de la Relación de Cointegración __________________________________ 181 IX.3.1b. Estimación del Mecanismo de Corrección de Error (MCE) ____________________________ 182 IX.3.2. Estimación de Johansen _________________________________________________________ 182 IX.3.3. Contrastes de Cointegración sobre los Residuales _____________________________________ 185


5

IX.3.3a. Contraste Durbin-Watson sobre los Residuales de Cointegración (DWRC) ________________ 185 IX.3.3b. Contraste Dickey-Fuller sobre los Residuales de Cointegración (DFRC) __________________ 186

IX.4. PRONÓSTICO EN SISTEMAS COINTEGRADOS ___________________________ 186


6

CAPÍTUL0 I. INTRODUCCIÓN

En la vida real, la mayoría de los fenómenos que se estudian secuencialmente, deben

tomar en cuenta la dinámica de los proceso con la finalidad de entenderlos de la mejor manera

posible. Una herramienta muy útil en dicho objetivo es el Análisis de Series de Tiempo. Se

pueden presentar casos de series de tiempo en una multitud de disciplinas como ingeniería,

sociología, economía, finanzas por solo mencionar algunas de ellas.

El propósito fundamental es mostrar las técnicas que nos permitan hacer inferencias del

proceso en estudio incluyendo su predicción. Esto se logra estableciendo modelos

probabilísticos hipotéticos que representen a los datos; y en consecuencia, se lleva a cabo el

proceso de ajuste que incluye desde la estimación hasta la predicción una vez que se determina

un modelo satisfactorio.

Los modelos de series deben considerar la naturaleza del fenómeno y determinar los

factores que pueden ser incluidos en los modelos; por ejemplo, en muchas series económicas

es indispensable considerar los efectos estacionales de la serie. Si esto no se toma en cuanta,

los modelos no serán apropiados.

Así como en los métodos estadísticos tradicionales existen supuestos y conceptos

básicos como la independencia de los errores aleatorios, en series de tiempo también se tiene

una serie de conceptos y supuestos que se usan como base fundamental de la teoría. El

concepto quizá más importante en este caso es la Estacionaridad, la cual existe en sentido

débil y fuerte; y el supuesto más común es el de que los errores aleatorios forman un proceso

de Ruido Blanco, el cual no requiere que sean independientes. Aunque estos son, quizá, los

conceptos más importantes, no son tampoco los únicos. Estos conceptos y otros adicionales

son el tema inicial del documento en el capítulo 1.

Muchas de las técnicas tanto de ajuste como de pronóstico que se utilizan actualmente

y que se exponen en este trabajo se desarrollaron en el siglo XIX; un ejemplo de ello es el

análisis de regresión. Con el desarrollo de técnicas de pronóstico más complejas, junto con el

advenimiento de las computadoras, los pronósticos recibieron más atención durante los años

recientes. Este desarrollo es en especial cierto desde la proliferación de la pequeña

computadora personal.

En la presente Tesis presentamos en el proceso de predicción para series de tiempo los

modelos Auto-regresivos (AR), de Promedios Móviles (MA) y modelos mixtos auto-

regresivos de promedios móviles (ARMA); los cuales a su vez, son casos particulares de los

modelos ARIMA- Autorregresive, Integrated and Moving Average, lo que se traduce como

Modelos Integrados Auto-regresivos y de Promedios Móviles. La metodología de ajuste e

inferencia de estos modelos fue formalizada por Box y Jenkins en 1976, (por lo que también

se les denomina modelos Box-Jenkins). Además se presentan capítulos adicionales como

bases de modelos Espacio Estado, y Series de Tiempo Multivariadas incluyendo el tema de

Cointegración.


7

CAPITULO II. CONCEPTOS BÁSICOS Y EL MODELO CLÁSICO

II.1. CONCEPTOS BÁSICOS

Para poder entender las bases de series de tiempo es necesario tener un fundamento

claro sobre las definiciones y conceptos que se acostumbran en esta área de la Estadística. Esta

sección está dedicada a presentar dichos conceptos y la definición de modelos básicos en serie

de tiempo. También se presenta una revisión básica de la distribución normal multi-variada y

sus propiedades.

Definición II.1.1. (Proceso estocástico).- Un proceso estocástico es una colección de

variables aleatorias }{ tX , referidas a un conjunto índice T, el cual puede ser discreto o

continuo con una distribución común XF .

Note que la definición no menciona si las variables aleatorias a las que se refiere el

proceso son independientes o no. Un aspecto importante es que el proceso debe estar referido

al mismo espacio de probabilidad ),,( PB . Detalles más avanzados sobre definiciones y

conceptos de probabilidad y estadística en series de tiempo se pueden consultar en [Brockwell

y Davis (1991)].

Definición II.1.2. (Serie de tiempo).- Una serie de tiempo es una realización de las

variables aleatorias de un proceso estocástico referidas a un conjunto índice T. En el contexto

de series de tiempo, el conjunto índice es el tiempo. Aunque el conjunto T puede ser discreto o

continuo, en el presente trabajo se considera el caso discreto y las observaciones igualmente

espaciadas.

Nótese que, mientras un proceso estocástico es la colección de las variables aleatorias,

una serie de tiempo es una realización finita de un proceso estocástico. Es decir, la serie de

tiempo es el resultado de observar la colección de las variables aleatorias. De esta manera,

existe un número infinito de realizaciones (series de tiempo) de un mismo proceso estocástico

(ver ejemplo II.1.4).

Aunque es importante la distinción entre procesos estocásticos y series de tiempo, a

partir de esta sección ambos conceptos se usan como sinónimos lo cuál es muy común en

textos de series de tiempo y solamente se estudian los modelos donde el conjunto índice T es

discreto. Los ejemplos II.1.1, II.1.2 y II.1.3 muestran las definiciones de algunos de los

procesos estocásticos sencillos.

Las gráficas 1 y 2 son ejemplos de series de tiempo reales. La gráfica1 se refiere a la

tasa de desempleo mensual nacional de enero de 1998 a febrero del 2004; mientras que la

gráfica 2 es sobre el tipo de cambio peso-dólar mensual promedio desde enero de 1998 a

marzo del 2004 [fuente: www.banxico.org.mx].

Ejemplo II.1.1. (Proceso Binario). Sea }{ tX una colección de variables aleatorias Bernoulli

(p) para Xt=0,1. Entonces a {Xt} se denomina proceso binario.


8

Ejemplo II.1.2. (Caminata Aleatoria). Sea }{ tX una colección de variables aleatorias

independientes con media y varianza 2. Sea

n

i

in XS1

, con 00S , por definición.

Entonces, la colección de variables aleatorias S0, S1, S2,... se le denomina caminata aleatoria.

Debe notarse que la definición no supone la forma de la distribución, sino que solo supone la

existencia de la media y la varianza de la variable aleatoria.

Ejemplo II.1.3. (Ruido Blanco). Sea }{ tZ una colección de variables aleatorias no-

correlacionadas con media cero y varianza 2. A la colección Z0, Z1, Z2,..., se le conoce como

proceso de ruido blanco.

Es importante comentar que el proceso de ruido blanco no requiere que las variables

aleatorias sean independientes, ya que como es sabido, correlación cero no implica

independencia de variables aleatorias, excepto cuando las variables aleatorias tienen

distribución normal. Con este razonamiento, entonces, cualquier colección de av. iid ~ ),0( 2

es un proceso de ruido blanco, pero lo contrario no es necesariamente cierto.

Ejemplo II.1.4. (Serie de tiempo). Las colecciones de datos

{0,1,1,1,0,0,1,0,1,0,0,0,1,1,1}

y {1,0,0,1,0,0,1,1,0,0,0,1,1,0,1},

son realizaciones (series de tiempo) del proceso binario del ejemplo II.1.1.

Gráfica1. Tasa de desempleo nacional enero-1998 a febrero-2004.

0

1.5

3

4.5

1998

/01

1998

/06

1998

/11

1999

/04

1999

/09

2000

/02

2000

/07

2000

/12

2001

/05

2001

/10

2002

/03

2002

/08

2003

/01

2003

/06

2003

/11

2004

/04

2004

/09

En S-PLUS se puede graficar creando un nuevo dataset y elegir alguna de las opciones

de la opción Graph de la barra de herramientas. Para el caso de la serie del tipo de cambio, la

gráfica se genera como sigue: Guardamos nuestra serie en un Dataset llamado Tcambio y la

variable como pesoxdolar. Seleccionamos la opción Graph> 2D Plot y el tipo de gráfica Y

series line. Obteniendo:


9

Gráfica2. Tipo de cambio peso-dólar Enero 1998 a Marzo 2004.

10 30 50 70 90

8

9

10

11

peso

xdola

r

Definición II.1.3. (Función de auto-covarianza).- La función de auto-covarianza de

una serie de tiempo }{ tX , (t1, t2), está dada por:

),(),( 2121 tt XXCovtt

Sin perder generalidad se supone que t1 t2; también se puede suponer t2= t1+h.

Cuando 21 tt la auto-covarianza ),( 21 tt es la varianza de la variable aleatoria en

cuestión. Es decir, dependiendo si 1t se iguala a 2t o si 2t se iguala a 1t . La distinción en este

caso es porque no es necesario que las variables aleatorias tengan la misma varianza con

respecto a t . Algunos avances recientes en series de tiempo han propuesto modelos cuyo

objetivo es estimar la medida de dispersión de los datos (modelos ARCH y GARCH). Estos

modelos no se discuten en el presente texto.

Definición II.1.3a. (Función de auto-correlación, ACF).- La función de auto-

correlación de una serie de tiempo está definida como:

2/1

21

21

21)()(

),(),(

tt

tt

XVarXVar

XXCovtt

En el capítulo III se darán las propiedades básicas de la función de auto-covarianzas

(auto-correlaciones) y su caracterización para proceso estacionarios.

Definición II.1.4. (Función promedio).- La función promedio de una serie de tiempo

}{ tX , para t=0,1,2,3,..., denotada por t , está definida por

),( tt XE

para t=0,1,2,...

El subíndice t en la definición anterior implica que t es una función de t (en este

caso, del tiempo). De aquí que a la función se le denomine función promedio.


10

Ejemplo II.1.5. (Caminata Aleatoria). Sea }{ tX una colección de variables aleatorias

independientes con media y varianza2. Sea

n

i

in XS1

, con 00S , por definición. La

función de auto-covarianza y la función promedio del proceso }{ tS están dadas por:

t

j

jt tXE1

.)(

y

),(),( 2121 tt SSCovtt

),(),(11

11

11

ht

j

j

t

j

j XXCovhtt

)......,...(),(111 212111 httt XXXXXXXCovhtt

),min(...),( 11

22

1

2222

11

1

httthttVecest

.

Ejemplo II.1.6. (Ruido Blanco). Sea }{ tZ un proceso de Ruido Blanco. Las funciones

promedio y de auto-covarianzas del proceso }{ tZ están dadas por:

0)( tt ZE

y

),(),(2121 tt ZZCovtt

),(),(1111 htt ZZCovhtt

00

0

),(),(

2

11 11 hsi

hsi

ZZCovhtt htt

A continuación se dan las definiciones de las dos versiones de Estacionaridad:

Estacionaridad estricta y Estacionaridad débil.

Definición II.1.5. (Estacionaridad Estricta).- Una serie de tiempo }{ tX , con

t=0,1,2,3,... se dice que es estrictamente estacionaria si para cualquier colección finita de

variables aleatorias sobre el proceso se cumple que,

hXhXhXXXX kkFF ,...,,,...,, 2121

La definición anterior nos dice que, si seleccionamos k variables aleatorias y estas las

desplazamos h unidades de tiempo, la distribución conjunta de las variables aleatorias no

cambia. La definición la podemos representar en la siguiente figura:


11

Figura1. Estacionaridad Estricta.

Definición II.1.6. (Estacionaridad débil).- Una serie de tiempo }{ tX , para t=0,1,2,...

es estacionaria en sentido débil si para cualquier colección finita de variables aleatorias sobre

el proceso aleatorio, cumple con las siguientes condiciones:

1. t la función promedio no depende de t.

2. )(),(),( 1121 hhtttt la función de auto-covarianza no depende de t sino de

la diferencia (distancia) entre t1 y t2=t1+h.

La definición de estacionaridad débil asume que, para que una serie de tiempo sea

estacionaria en sentido débil, debe de satisfacer forzosamente las dos condiciones expuestas;

de otra manera, la serie de tiempo no será estacionaria en sentido débil. Existen procesos que

pueden cumplir solo una de las condiciones por lo que en estos casos los procesos no serán

estacionarios (ver ejemplo II.1.7).

La relación que existe entre estacionaridad débil y estacionaridad estricta es sencilla,

ya que cualquier proceso que sea estrictamente estacionario también lo es en sentido débil

(con momento de segundo orden finito). Esto sucede porque, al mantener la misma

distribución en el tiempo, también se mantienen los mismos momentos (lo que implica que los

momentos no dependen del tiempo). Lo contrario no es necesariamente cierto; es decir, un

proceso estocástico que sea estacionario en sentido débil, no es necesariamente estrictamente

estacionario (el único caso donde esto se cumple es cuando el proceso es Gaussiano).

Es importante la interpretación de la definición ya que esta permite darnos una idea de

cómo debe lucir una serie de tiempo estacionaria. La primera condición implica que el

promedio no debe cambiar con el tiempo, lo que quiere decir que la gráfica de la serie debe

fluctuar alrededor de una constante (que se supone es el valor esperado de la serie). Por otro

lado, la segunda condición quiere decir que a medida que avanza el tiempo, la función de auto-

covarianzas tampoco debe cambiar. Es decir, para una serie suficientemente grande tomando

como indicador, por ejemplo la )0( , debe mantenerse en un rango más o menos constante. El

sentido común es, muchas veces, un ingrediente importante para decidir si una serie es o no

estacionaria. Los ejemplos que se muestran en la discusión del modelo clásico ayudarán a

tener una idea más clara de lo que significa que una serie sea estacionaria.


12

El desarrollo de la teoría de series de tiempo descansa en la estacionaridad de la serie.

Como se verá después, la estrategia de ajuste de un modelo de series de tiempo, primero debe

satisfacer la condición de estacionaridad y después procede el ajuste del modelo.

Cuando una serie de tiempo no es estacionaria, se deben aplicar transformaciones que

permitan transformarla en una serie estacionaria (como transformaciones de Box y Cox y las

diferenciaciones).

A continuación se resaltan algunas notas importantes deducidas de las definiciones

anteriores:

NOTA1: Otra manera de llamar a la estacionaridad débil es estacionaridad de segundo orden

o estacionaridad en sentido amplio. En este texto se identificará como estacionaridad en

sentido débil o simplemente estacionaridad. En el texto, cuando se suponga estacionaridad de

un proceso, se asumirá que es sentido débil si no se indica lo contrario.

NOTA2: La segunda condición de estacionaridad débil es equivalente a la condición

).(),(),( 1121 hhtttt

NOTA3: Cuando una serie de tiempo es estacionaria, la función de auto-correlación )(h

estará dada por )0(

)()(

hh .

Un resultado importante sobre estacionaridad se da a continuación. Este resultado

establece que cualquier transformación de una colección de variables aleatorias estacionaria,

es estacionaria.

RESULTADO II.1.- Una combinación lineal de 2 o más series de tiempo estacionarias no

correlacionadas, es estacionaria. Es decir, si }{ tX y }{ tY son 2 series estacionarias, entonces

la serie definida por ttt bYaXW es estacionaria.

Demostración.

Dado que }{ tX y }{ tY son estacionarias, podemos suponer que XtXE )( , YtYE )( ,

)(),( hXXCov Xhtt y )(),( hYYCov Yhtt . Así,

YXttttt baYbEXaEbYaXEWE )()()()(

Claramente, la función promedio no depende de t. Veamos que pasa con la función de

autocovarianzas.


13

)()(

),(),(2),(

),(),(),(),(

),(),(),(

22

22

hbha

YYCovbYXabCovXXCova

bYbYCovaXbYCovbYaXCovaXaXCov

bYaXbYaXCovWWCovhtt

XX

htthtthtt

htthtthtthtt

hthttthttW

La identidad resulta del supuesto de que las series están no correlacionadas. También,

podemos ver que la función de autocovarianzas de la combinación lineal {Wt} no depende del

tiempo, sino de la distancia h. De esta forma queda demostrado que la combinación lineal de

series estacionarias es estacionaria.

///

El último concepto que se presenta en este capítulo es el Error Cuadrado Medio (ECM)

de un estimador. La idea de este concepto es evaluar la precisión con la que se lleva a cabo

una estimación, ya sea predicción o estimación de parámetros de un modelo.

Definición II.1.7. (Error Cuadrado Medio).- El error cuadrado medio de un

estimador ˆ del parámetro de dimensión k. se define como

)´]ˆ)(ˆ[()ˆ( EECM

Cabe destacar que la definición del ECM no supone que el estimador ˆ sea insesgado

para ; Sin embargo, cuando el estimador es insesgado, el ECM se transforma en la varianza

del estimador. No es difícil demostrar que el ECM, en general, es igual a la varianza del

estimador más el sesgo del estimador al cuadrado. Es decir,

2)]ˆ([)ˆ()ˆ( SesgVarECM

Ejemplo II.1.7. (Estacionaridad débil y estricta). Sea }{ tX , tal que )( tXE , un proceso

aleatorio con distribución exponencial si t es un número non con 1)( tXE ; y con

distribución normal (1,1) si t es un número par. Es fácil verificar que para todo t , el valor

esperado y la varianza del proceso son iguales (ambas iguales a 1) y por lo tanto no dependen

del tiempo; Es decir, el proceso es estacionario en sentido débil. Sin embargo, para distintos

valores de t la distribución cambia en el tiempo (en este ejemplo es exponencial para nones y

normal para pares), por lo tanto el proceso no es estacionario en sentido estricto.

Ejemplo II.1.8. Sea }{ tX una colección de variables aleatorias independientes con media

y varianza 2. Sea

n

i

in XS1

, con 00S . De acuerdo al ejemplo II.1.5,

t

j

jt tXE1

.)(

y

),min(),( 2 htthtt .


14

En este ejemplo, tanto la función promedio como la función de auto-covarianza

dependen de t, por lo tanto, la caminata aleatoria no es un proceso estacionario. Si se supone

media igual a cero, 0t , la función promedio no depende del tiempo; Sin embargo el

proceso sigue siendo no estacionario ya que la función de auto-covarianza si depende del

tiempo, pues sigue siendo igual a ),min(2 htt ; por lo que se cumple la primera condición

de estacionaridad débil, pero no la segunda. Por tanto el proceso no es estacionario.

II.2. DISTRIBUCIÓN NORMAL MULTIVARIADA Y SUS PROPIEDADES BÁSICAS

La inferencia estadística básica y, en general, los métodos estadísticos, se basan

fundamentalmente en la distribución de los datos, y dependiendo del caso, es la distribución

que se asume. La distribución más comúnmente usada con este propósito es la distribución

normal, la cual ha probado ser un modelo adecuado para varios fenómenos reales. Esta

sección está dedicada a presentar la distribución normal multi-variada y sus propiedades

básicas. Para mayor detalle sobre la distribución normal puede consultar [Mood, et. al (1974)].

Definición II.2.1. (Distribución Normal multivariada).- Sea X un vector aleatorio

de dimensión n. Entonces, se dice que X tiene una distribución normal multivariada,

denotado como X ~ ),(NMV , si su función de densidad está dada por:

,)()´(exp2

1 1

)2/1(2/XXf

nX

donde nX , n y , la matriz de covarianzas, es positiva definida, abreviada como

p.d.

Cada componente del vector aleatorio es una variable aleatoria; por lo tanto es el

vector de los valores esperados de cada uno de los componentes del vector aleatorio;

Es decir,

]',...,,[]}'[],...,[],[{][ 2121 nnXEXEXEXE

Las propiedades más importantes de esta distribución se listan enseguida sin

demostración. La demostración de ellas puede consultarse en trabajos como los de [Mood, et.

al (1974)], [Graybill,F.A(1983)], entre otros.

Propiedad1. (Distribución de una combinación lineal). Sea X un vector aleatorio de

dimensión m con distribución ),(NMV . Si a es un vector de constantes de dimensión k y

B una matriz de constantes de dimensión mk , entonces Y = a + XB se distribuye como

Normal Multivariada con media E[Y = a + XB ]= a + B y matriz de covarianzas 'BB .

Es decir:


15

Y ~ )',( BBBaNMV

Propiedad2. (Transformación a una normal Estándar). Sea X un vector aleatorio de

dimensión m con distribución ),(NMV . Entonces la transformación )(2/1 XW se

distribuye ),0( INMV .

La matriz 2/1 se puede construir usando la descomposición espectral de o

aplicando la descomposición de Cholesky. Esta propiedad es la generalización de la de

estandarización que se tiene en la normal univariado.

Propiedad3. (Distribuciones marginales 1). Sea X un vector aleatorio de dimensión m con

distribución ),(NMV . Entonces iX (el i-ésimo componente de X ) tiene distribución

normal con media i y varianza i2

, donde i es el i-ésimo componente de y i2

es el i-

ésimo componente de la diagonal de .

El resultado anterior se puede generalizar para cuando la distribución buscada es un

vector de dimensión nk cuyos componentes son un subconjunto de los componentes del

vector aleatorio X .

Propiedad4. (Distribuciones marginales 2). Sea ]',[)2()1(

XXX un vector aleatorio de

dimensión m con distribución ),(NMV ; y sean )1(

X y

)2(X una partición de X , tal que

)1(X

es de dimensión 1k y

)2(X de 2k con mkk 21 . Sean ]',[

)2()1( y

2221

1211 las particiones correspondientes de y . Entonces, la distribución de

)(iX

es ),()(

ii

iNMV para i=1,2., donde )(

)()( iiXE contiene los valores esperados de los

componentes que forman a )(i

X y ])')([()()()()( iiii

ii XXE es la matriz de

covarianzas de los componentes de )(i

X . Adicionalmente, )1(

X y )2(

X son vectores aleatorios

independientes si y solo si 0'

2112 .

Propiedad5. (Distribuciones condicionales). Sea ]',[)2()1(

XXX un vector aleatorio con

media ]',[)2()1(

y matriz de co-varianzas 2221

1211. Entonces la distribución

condicional de )|( 2)2()1(

xXX es ),( )2|1()2|1(NMV donde

)()2()2(

221

12

)1()2|1(x

y

.21221

1211

)2|1(


16

Esta propiedad, se conoce como función de regresión y está íntimamente relacionada

con la predicción en series de tiempo.

Enseguida se presenta un ejercicio que muestra la aplicación de la distribución Normal

y del principio del error cuadrado medio para llevar a cabo la predicción a un paso en una serie

de tiempo estacionaria. El problema básico se reduce a encontrar el mejor predictor lineal de

.

Ejemplo II.2.1. Sea }{ tX para ,...3,2,1t una serie de tiempo estacionaria con media y

varianza 2. Defina el vector aleatorio,

1n

n

X

XX con media y matriz de co-

varianzas )0()1(

)1()0(. Sea, nnn XaaXPX 1011

ˆ , el mejor predictor lineal de 1nX

en función de nX . Encuentre:

1. Los coeficientes a0 y a1, tal que el )ˆ( 1nXECM sea mínimo.

2. La distribución condicional de ]|[ 1 nnn xXX suponiendo que el vector tiene

distribución normal.

Solución1.

Aplicando la definición del ECM, tenemos:

2

101

2

111 )]([]ˆ[)ˆ( nnnnn XaaXEXXEXECM

El proceso de minimización, como es sabido, consiste en igualar ambas derivadas

(resultantes de derivar con respecto a a1 y a2) con cero. Es decir,

Derivando con respecto a a0:

2

101

0

1

0

)()ˆ( nnn XaaXEa

XECMa

=0

)1()(2 101 nn XaaXE =0

10 aa =0

01

0

)1(. aaa

=0

Derivando con respecto a a1:

2

101

1

1

1

)()ˆ( nnn XaaXEa

XECMa

=0


17

)()(2 101 nnn XXaaXE =0

))(][ 101 nnnnn XXaXaXXE =0

2

110

2

1

)0()1(. aaaa

=0

Con las dos igualdades anteriores (derivadas igual a cero) se obtiene un sistema de

ecuaciones. De la primera ecuación se obtiene 01)1( aa . Sustituyendo esta igualdad en la

segunda ecuación obtenemos:

0)0()1()1( 2

111

22 aaa

)0()1( 1a

)1()0(

)1(1a .

Sustituyendo la solución )1(1a en la primera ecuación encontramos:

0)]1(1[ a .

Por lo que el mejor predictor lineal deseado es

))(1()1()]1(1[ˆ1 nnn XXX .

El ECM del estimador se obtiene sustituyendo la solución en la expresión general del

ECM. Así,

,)])(1([)(2

1

2

101 nnnn XXEXaaXE

},)])(1([)])(1([2{ 2

112

nnnn XXXXE

]},)()1())(1(2[)])(1([2{ 222

112

nnnnn XXXXXE

,)()1()()1(2)()1(22)0( 222

11

2

nnnnn XEXEXXEEX

,)()1()()1(2)1()1(22)0( 22222

nn XEXE

])1(1)[0()0()1()0()1()1(2)0( 22

Es decir,

).0(])1(1[)ˆ( 2

1nXECM

En la última ecuación es importante mencionar que 2)0( es la varianza de la serie

de tiempo. El comentario se debe a que, en general, 2 es la varianza del proceso de ruido

blanco en el proceso de análisis de series de tiempo.


18

Solución2 (suponiendo normalidad).

Suponiendo normalidad, podemos aplicar el resultado correspondiente a las

distribuciones condicionales de distribuciones normales. El ejercicio requiere encontrar la

distribución condicional de ]|[ 1 nnn xXX , la cual es normal con media:

,ˆ))(1()()0(

)1(1

)2|1(

nnn Xxx

y varianza

.)0(

)1()0(

2)2|1(

).ˆ(])1(1)[0( 1

2)2|1(

nXECM

Note que comparando las estrategias resulta que ambas llegan al mismo resultado.

Así, la estrategia de predicción sería usar resultados de la distribución normal si se tiene (o se

supone) normalidad de los datos, de otra manera se puede aplicar el principio de mínimos

cuadrados. Otra posible interpretación del ejercicio es que la función de regresión, en efecto,

produce el estimador de mínimos cuadrados.

II.3. EL MODELO CLÁSICO

La teoría clásica de series de tiempo tiene como base el representar a una serie de

tiempo con una serie de componentes que describen su comportamiento. Lo más común es la

inclusión de componentes de tendencia, estacional y aleatorio. Es decir, una serie de tiempo

}{ tX se puede representar como:

tttt YsmX

donde: mt es una función que describe la tendencia de los datos;

ts es un componente estacional determinada por un periodo d, y

tY es el componente aleatorio de la serie (usualmente se refiere a un proceso

estacionario). Las formas funcionales más comunes }{ tm son:

btamt función de tendencia lineal 2ctbtamt función de tendencia cuadrática

o, en general n

j

j

jt tam1

función de tendencia polinomial de grado n.

Con respecto al componente estacional, ts con periodo d, se supone que cada d

observaciones el componente estacional se repite. Es decir, se cumple:


19

dtdtt sss

Si se clasifican a las series de tiempo de acuerdo a la presencia y o ausencia de los

componentes de tendencia y estacional, las series pueden ser:

tttt YsmX Estacional con tendencia.

ttt YsX Estacional sin tendencia.

ttt YmX Sin estacionalidad con tendencia, y

tt YX Sin estacionalidad y sin tendencia.

Tanto el componente de tendencia, como el componente estacional, son

matemáticamente funciones determinísticas (no aleatorias) que forman parte de la estructura

del modelo. Es claro que cuando una serie de tiempo muestra tendencia y o estacionalidad, la

serie no es estacionaria. Por esta razón, se deben tener las herramientas necesarias para poder

estimar y o eliminar dichos componentes de una serie de tiempo con el fin de transformarla en

estacionaria. Las estrategias más comunes incluyen la aplicación de diferenciaciones a los

datos, ajustando funciones que describen a los componentes (usando mínimos cuadrados) y

aplicando filtros. Se describen solamente las diferenciaciones para estacionalidad y tendencia,

y el ajuste polinomial al componente de tendencia. La descripción de los filtros y técnicas más

sofisticadas para tratar estos componentes se encuentran en [Brockwell y Davis (1998)].

A continuación se da el álgebra de los operadores B y incluyendo la relación entre

ellos para poder mostrar la utilidad de las diferenciaciones en la transformación de las series

de tiempo.

1tt XBX

tttt XBXXX )1(1

Potencias de B y son consistentes con el álgebra común. Así,

ktt

k XXB

t

k

t

k XBX )1(

kttt

k

tk XXXBX )1(

Es importante destacar que diferenciar k veces una serie no es igual a tomar una

diferencia a distancia k . La razón es muy simple debido a que estaríamos comparando a

t

k XB)1( contra t

k XB )1( , las cuales son totalmente diferentes.

Nótese que las propiedades descritas sobre el operador B implican que B es un

operador lineal, es decir,

ntntttt

n

n XaXaXaXXBaBaBa ...)...1( 2211

2

2 .


20

Conociendo los operadores B y , procede al análisis de diferentes modelos

generales de series para eliminar y o estimar los componentes de estacionalidad y tendencia.

II.3.1. Modelo con componente de tendencia

Supongamos primeramente un modelo de la forma ttt YmX , donde btamt .

Diferenciando una vez el modelo, se obtiene:

,111 tttttt YYmmXX

,)]1([)( tt YtbabtaX

,YbYbbtabtaX tt

la cual sería una serie sin tendencia, ya que tt YbX incluye solo un polinomio de

grado cero como término de tendencia (constante).

Con la finalidad de mostrar más detalles de las diferenciaciones en la función de

tendencia, considérese 2ctbtamt . Aplicando diferenciación se obtiene:

,])1()1([)( 22

tt YtctbactbtaX

,)12( 22

tt YttcbbtactbtaX

,222

tt YcctctbbtactbtaX

.2)( tt YctcbX

Es claro que después de aplicar una diferenciación al modelo propuesto, se obtiene

como componente de tendencia, un polinomio de primer grado. Ahora, por el caso anterior, si

aplicamos nuevamente la diferenciación al nuevo modelo, obtendremos un modelo sin

tendencia; es decir con un polinomio de grado cero. Así,

,)1(2)(2)( tt YtccbctcbX

tt YcX 22 2 .

Por lo tanto, tX2 es un modelo sin tendencia.

Con estos ejercicios, puede deducirse que si se tiene una serie de tiempo con un

componente de tendencia n

j

j

jt tam0

, aplicando n diferenciaciones a distancia uno se

obtendrá una serie sin componente de tendencia. Es decir,

.t

n

t

n YCX


21

La gráfica3 muestra la serie del tipo de cambio mensual diferenciada a distancia 1. En

la gráfica2 es claro que la serie original no es estacionaria. Por lo tanto se recurre a

diferenciarla. En la gráfica3 se nota a simple vista que la serie diferenciada es estacionaria.

Gráfica3. Serie tipo de cambio diferenciada a distancia 1.

10 30 50 70 90

-0.5

0.0

0.5

1.0

peso

xdola

r

Las instrucciones en S-PLUS para llevar a cabo la gráfica3 son:

tcamb.dif<-diff(Tcambio,1,1)

guiPlot(PlotType="Y Series Lines", Columns=1, DataSet="tcamb.dif")

Para llevar a cabo la diferenciación y gráfica de la serie diferenciada en ITSM-2000,

una vez que se tiene en pantalla la gráfica de la serie original, se sigue la secuencia de

opciones Transform>Difference y se especifica la distancia a la que se desea diferenciar, en

este ejemplo es 1. La gráfica de la serie diferenciada aparece automáticamente.

Una manera de modelar la tendencia es ajustando un polinomio de grado k usando

mínimos cuadrados. Es decir, se ajustaría una regresión usando a tX como variable

dependiente y a t como variable independiente. Entonces, el problema se reduce a estimar las

constantes del polinomio usando

2

1 0,...,,

)ˆ(min10

n

t

k

i

k

ktaaa

taXk

Es conocido que la solución de mínimos cuadrados para el vector a está dada por:

,´)´(ˆ1 XWWWa

donde:

k

k

ttt

W

...1

.........

.........

2...421

1...111

2

,

tX

X

X

X

.

.

2

1

y

ka

a

a

a

ˆ

.

.

ˆ

ˆ

ˆ

1

0


22

Esta solución se usa para obtener el estimador del componente de tendencia, que a su

vez se puede restar de la serie original para obtener una serie estacionaria. La estrategia,

entonces, se reduce a obtener:

,ˆˆ0

t

k

j

j

jttt YtaXmX

y dado que se asumió a }{ tY como proceso estacionario, restando de la serie original el

componente de tendencia estimado, se obtiene una nueva serie estacionaria.

La gráfica4 muestra el efecto de la eliminación de tendencia aplicando regresión lineal

con un modelo cuadrático. Los datos son de la serie de desempleo presentados en la gráfica1.

Con esta estrategia, los parámetros del modelo ajustados toman los valores:

5621.30a , 0737.01a y 00105.02a

Gráfica4. Desempleo con ajuste de tendencia cuadrático.

0

1.5

3

4.5

1998

/01

1998

/06

1998

/11

1999

/04

1999

/09

2000

/02

2000

/07

2000

/12

2001

/05

2001

/10

2002

/03

2002

/08

2003

/01

2003

/06

2003

/11

2004

/04

2004

/09

La gráfica4 está hecha en Microsoft Excel. Para agregar la línea de tendencia en la

gráfica se selecciona la secuencia de la barra de herramientas superior Gráfico>Agregar línea

de tendencia y seleccionar la opción que uno desee (lineal, logarítmica, polinomial, etc.). En

este caso, se eligió un polinomio de segundo grado. También existe la opción de mostrar los

valores de los coeficientes de la línea ajustada.

La gráfica de los residuales (la diferencia entre el valor observado y el valor calculado

por el modelo ajustado), después de ajustar el modelo cuadrático, se presenta en la gráfica5. A

simple vista se puede observar que la serie ya es estacionaria.

Es importante mencionar que la aplicación de estrategias diferentes para controlar

la tendencia, da como resultado series estacionarias diferentes. Es decir, la serie resultante

con diferenciaciones no es igual a la serie resultante con polinomios.


23

Gráfica5. Residuales después de ajustar modelo cuadrático a la serie de

desempleo.

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81

II.3.2. Modelo con componente estacional

Supóngase el modelo ttt YsX con ts un componente estacional con periodo d.

Aplicando diferenciaciones a distancia d y del hecho de que dtdtt sss , el modelo se

transforma en:

,dttdttdtt YYssXX

,tdtd YX

el cual es un nuevo modelo sin componente estacional; solo contiene la parte estacionaria.

La gráfica6 muestra la precipitación promedio mensual de la República Mexicana

desde enero de 1990 a febrero del 2004 [fuente: www.inegi.org.mx]. Claramente se observa

un componente estacional cuya magnitud es muy similar de ciclo a ciclo. Por lo tanto, la serie

no es estacionaria. Además, por la naturaleza de la serie (datos mensuales), se tiene una serie

estacional con periodo d=12 lo que sugiere una diferenciación a distancia 12. Esta nueva serie

se muestra en la gráfica7 y se puede observar que la nueva serie ya es estacionaria.

Gráfica6. Precipitación mensual para la Rep. Mexicana Ene-1990 a Feb-2004.


24

Gráfica7. Serie precipitación diferenciada a distancia 12.

Existen casos donde por la naturaleza de la serie, los ciclos no tienen la misma

magnitud (regularmente cada vez es mayor). Cuando esto ocurre, el primer paso para volver la

serie estacionaria es transformarla con las transformaciones de Box y Cox. Esto se realiza con

la finalidad de estandarizar la variabilidad del proceso. La expresión general de estas

transformaciones está dada por:

0)ln(

01

´

paraX

paraX

X

La importancia de estas transformaciones radica en que diferentes valores de son

casos particulares de las transformaciones más comunes. La transformación con logaritmos es

quizás la más común para estabilizar la varianza de un conjunto de datos lo cuál corresponde

un valor de 0 . Ver [Box y Cox (1964)]. Por ello, si se tiene una serie de tiempo cuyo ciclo

no sea homogéneo, cada vez de mayor magnitud, lo más recomendable es en primer lugar,

transformar los datos con logaritmos y posteriormente aplicar las diferenciaciones para lograr

la estacionaridad de la serie. Un ejemplo de este tipo se presenta en la siguiente sección.

II.3.3. Modelo con componentes de tendencia y estacional

Considérese el modelo dado por tttt YsmX con k

j

j

jt tam1

y dtt ss . El

objetivo es transformar la serie en una nueva serie estacionaria. Apliquemos una

diferenciación a distancia d con el fin de eliminar el componente estacional. Es decir:

,)()( dttdttdttdtt YYmmssXX

,)( tddtttd YmmX

Como puede observarse, el resultado de la diferenciación es una serie nueva sin

estacionalidad pero con tendencia (polinomio de grado k). Por lo discutido en párrafos


25

anteriores, si esta nueva serie se diferencia k veces a distancia uno, se obtendrá una serie

estacionaria. Así,

,td

k

td

k YCX .

Es común llevar a cabo el análisis de una serie con ambos componentes usando tanto la

estrategia de mínimos cuadrados para el componente de tendencia y la diferenciación en el

componente estacional. Si se adopta una estrategia como esta, el primer paso podría ser el

ajuste del polinomio de tendencia. Así, la nueva serie estacional sería:

,ˆtttt YsmX

donde tm̂ es el componente de tendencia estimado por mínimos cuadrados.

El siguiente paso sería llevar a cabo la diferenciación para eliminar el componente de

tendencia, por lo que diferenciando a distancia d, la serie final sería:

,**

dttdttdtt YYssXX

ttt

tt

mXX

donde

YX

ˆ

,

*

*

que finalmente es una serie estacionaria.

La estrategia a seguir en la transformación de una serie para que sea estacionaria no es

única, por lo tanto no existe una estrategia mejor que la otra. Más bien, la estrategia se debe

seleccionar de acuerdo al objetivo que se persiga. Por ejemplo, si es necesario tener

estimaciones del componente de tendencia se recurre a la segunda estrategia; mientras que si

no se requiere la estimación del componente de tendencia se podría optar por la primera.

La gráfica8 muestra el número de viajeros internacionales de enero de 1980 a febrero

del 2004 por vía aérea en México (Fuente: www.banxico.org.mx). En la gráfica puede

observarse una serie estacional con tendencia lineal donde la magnitud el ciclo estacional

aumenta conforme pasa el tiempo.

Gráfica8. Viajeros internacionales mensuales Ene-1980 a Feb-2004.


26

Dada la variabilidad de la serie, es recomendable tomar logaritmos con el fin de

estabilizar la varianza de la serie antes de proceder a eliminar la tendencia o la estacionalidad.

La gráfica9 muestra el efecto de haber eliminado la variabilidad con los logaritmos. La

estabilidad de la variabilidad se logró ya que la nueva serie tiene ciclos prácticamente

homogéneos.

Por la naturaleza de la serie, el periodo del ciclo es 12 con una tendencia lineal. Con

este razonamiento, la serie se diferencia a distancia 12 y después a distancia 1. Las gráficas 10

y 11 muestran las series diferenciadas a distancia 12 y posteriormente a distancia 1. En la

gráfica10 se ve como la diferenciación a distancia 12 eliminó el componente estacional

dejando irregularidades que muestran que la serie no es estacionaria. Una nueva diferenciación

a distancia 1 se hace con le fin de volver a la serie estacionaria. En la gráfica11 se observa que

la serie final ya es estacionaria.

Gráfica9. Logaritmo de la serie viajeros.

Gráfica10. Logaritmo de viajeros diferenciado a distancia 12.


27

Gráfica11. Logaritmo de viajeros diferenciado a distancia 12 y a distancia 1.

Las gráficas anteriores están hechas con Microsoft Excel. Las gráficas 9 y 10 se

consiguen tomando logaritmo natural en las observaciones originales y se grafican contra el

tiempo. En ITSM-2000 el procedimiento consiste en seleccionar las opciones Transform >

Box – Cox y especificar el valor cero en el cuadro de diálogo (Enter Parameter), esto

equivale a obtener los logaritmos de las observaciones. La gráfica de los logaritmos de las

observaciones aparece automáticamente. La gráfica 10 (en ITSM-2000) se hace como en la

gráfica3.

Las estrategias presentadas en el presente capítulo para volver una serie estacionaria

son de gran utilidad, ya que esta etapa es el primer paso en el proceso de ajuste de un modelo

de series de tiempo a datos reales.


28

CAPITULO III. PROCESOS ESTACIONARIOS Y MODELOS BÁSICOS DE SERIES DE

TIEMPO

En este capítulo se estudian temas relacionados a los procesos estacionarios y

resultados relativos, ya que dichos procesos son la base fundamental de la teoría de series de

tiempo. Puede decirse que el manejar datos estacionarios es una manera de generalizar una

colección de datos que no provienen de una muestra aleatoria; Es decir, no son independientes

e idénticamente distribuidas, por lo tanto se debe asumir un tipo de dependencia entre ellas.

Además, esto implica que las covarianzas entre las variables aleatorias consideradas son

diferentes de cero; lo cual a se vez sugiere que tanto las funciones de autocovarianza y

autocorrelación serán la parte esencial en el proceso de análisis de las series de tiempo.

III.1 PROPIEDADES BÁSICAS

Esta sección presentará las herramientas fundamentales de análisis e inferencia para

llevar a cabo el análisis de series de datos reales.

III.1.1. Propiedades de las Funciones de Auto-covarianza y Auto-correlación

La manera más importante de explicar la estacionaridad de un conjunto de datos es a

través de la función de auto-covarianza, )(h , o de la función de auto-correlación, )(h .

El siguiente resultado da las propiedades que una función cualquiera )(h debe

satisfacer para que pueda ser una función autocovarianzas.

RESULTADO III.1.- Sea )(h la función de auto-covarianza de un proceso estacionario.

Entonces )(h tiene las siguientes propiedades:

1. 0)0(

2. )0(|)(| h

3. )()( hh

y

4. n

ji

ji ajia1,

0)( para todos los vectores )',...,,( 21 naaaa de dimensión n.

Demostración.

La propiedad (1) es muy sencilla de probar ya que )0( es una varianza, por lo tanto debe ser

mayor o igual a cero.

Para demostrar la propiedad dada en (2) partimos del hecho de que 1|)(| h , dado que es una

correlación. Entonces:

1|)(| h


29

1)0(

)(h

Como )0( es no-negativa (por la propiedad 1), su valor absoluto es igual al valor real.

1)0(

)(h

)0()(h

La propiedad (3) establece que la función de auto-covarianzas debe ser una función par, lo

cual se observa porque

)(),(),(),()( hXXCovXXCovXXCovh httththtt

La igualdad se da debido a la suposición de estacionaridad del proceso.

La última propiedad, se cumple porque si )',...,,( 21 naaaa , con componentes en los números

reales. Entonces, la varianza de Xa' debe ser no-negativa; Es decir,

.0)(

0')´(

1,

n

ji

ji ajia

aaXaVar

Esta es la expresión de una función no-negativa definida, porque la matriz es la matriz de

covarianzas del vector )',...,( 1 nXXX , la cual por definición debe ser no-negativa definida.

///

También existe el resultado que garantiza que cualquier función de valor real que sea

una función par y no-negativa definida es la función de autocovarianzas de una serie de

tiempo estacionaria. A continuación se da el resultado sin demostración. Para su demostración

ver [Brockwell y Davis (1991)].

RESULTADO III.2.- Una función de variable real )(h definida en los enteros ( Zh ) es la

función de auto-covarianzas de un proceso estacionario si y solo si es una función par y no-

negativa definida.

En consecuencia de la definición de la función de auto-correlación, )(h , esta tiene las

mismas propiedades de )(h , además del conocido resultado de que está acotada entre -1 y 1.


30

III.2. PROCESOS LINEALES

La clase de procesos estacionarios más comunes para estudiar series de tiempo son los

procesos lineales. Estos procesos son el punto de referencia para el estudio de los modelos más

conocidos en las series de tiempo estacionarias.

Definición III.2.1. (Proceso Lineal).- Una serie de tiempo }{ tX es un proceso lineal

si tiene como expresión,

j

jtjt ZX

para toda t, donde }{ tZ ),0( 2WN y }{ j es una sucesión tal que .||j

j

Usando el operador B definido en el capítulo anterior, el proceso }{ tX se puede re-

escribir como

tt ZBX )( , donde j

j

j BB)( .

Se puede probar que la condición de convergencia de la seriej

j || asegura la

convergencia del procesoj

jtjt ZX . La razón se demuestra usando teoremas de

convergencia. Para mayor información sobre el tema ver [Brockwell y Davis (1991)].

El siguiente resultado da una estrategia para calcular la función de auto-covarianza de

un proceso }{ tX definido en función de otro proceso estacionario }{ tY . El resultado es uno de

los más importantes que se debe tener presente en la teoría de las series de tiempo ya que

cuando el proceso }{ tY es un proceso de ruido blanco, define la estrategia de cálculo de la

función de auto-covarianza de un proceso lineal. En las siguientes secciones, se discuten los

modelos clásicos de series de tiempo, los cuales pueden representarse como procesos lineales.

RESULTADO III.3.- Sea }{ tY un proceso estacionario con media cero y función de auto-

covarianzas )(hY . Entonces el proceso }{ tX definido por j

jtjt YX , donde

j

j || , es estacionario con media cero y función de auto-covarianzas

kj

ykjx jhkh,

|)(|)(

Si además, el proceso }{ tY es un proceso de ruido blanco, la función de auto-covarianzas se

transforma a:


31

k

hkkx h 2)( .

Demostración.

La manera obvia de demostrar el resultado es mediante la aplicación de la definición de

covarianzas. Sabemos que por las propiedades del operador covarianza:

j

jhtj

k

ktkhttx YYCovXXCovh ),(),()(

),()( jht

k

ktjk

j

x YYCovh

k

yrk

j

x jhkh |)(|)(

por lo tanto

k

yjk

j

x jhkh |)(|)( .

Ahora, si }{}{ tt ZY es un proceso de ruido blanco, j

jtjt ZX . Sustituyendo en la

expresión de covarianzas, obtenemos que

jk

jkx h,

2)(

Ahora, suponiendo que hjk , la expresión se transforma a:

k

hkkx h 2)( .

La primera parte del resultado dice que la convergencia absoluta de las series en filtros de la

forma

j

j

j BB)( y j

j

j BB)(

con coeficientes absolutamente convergentes, se pueden aplicar sucesivamente a una serie

estacionaria }{ tY para generar una nueva serie estacionaria dada por

j

tjtjt ZBYW )( ,


32

donde, k k

kjkkjkj .

NOTA1: La condición j

j || implica que cualquier transformación que se haga a la

serie original con filtros que cumplan con esta condición, generará una nueva serie

estacionaria.

Definición III.2.2. (Proceso de promedio móvil).- Sea }{ tX un proceso lineal. Si

0j para toda j < 0, entonces al proceso }{ tX se le llama proceso de promedio móvil o

)(MA . Es decir, un proceso de promedio móvil tiene como expresión:

0

)(j

tjtjt ZBZX

donde 0

)(j

j

j BB .

La definición anterior es muy importante en el estudio de los modelos clásicos de

series de tiempo, ya que si los procesos de series de tiempo satisfacen ciertas condiciones, se

pueden expresar como procesos de promedio móvil.

III.3. MODELOS AUTORREGRESIVOS: MODELO AR(1)

Los modelos más comunes en series de tiempo son los modelos auto-regresivos. Estos

modelos se caracterizan por tener una forma funcional donde el valor de la variable a tiempo t

depende de valores pasados de la misma variable a tiempos )1(t , )2(t , ..., )( pt . Es decir,

si }{ tX es un proceso estacionario, el valor que toma la variable tX depende de 1tX , 2tX ,...

y .ptX Para empezar el estudio de estos modelos, comenzaremos con el proceso auto-

regresivo de primer orden.

Definición III.3.1 (AR(1)).- Un proceso estocástico }{ tX , sigue un proceso AR(1) si

tiene como expresión a:

ttt ZXX 1 ………………………………. (1)

donde }{ tZ es un proceso de ruido blanco con media 0 y varianza 2 y 1 . [Notación:

}{ tZ ~ ),0( 2WN ].

Alternativamente, usando el operador B, el proceso puede escribirse como

tt ZXB)( , donde BB 1)( .


33

Buscaremos una expresión del modelo como proceso lineal para poder estudiar a

detalle su función de auto-correlación. Si hacemos sustituciones recursivas de }{ tX en )1( ,

obtenemos:

ttt ZXX 1

ttt ZZX ][ 12

ttt ZZX 12

2

tttt ZZZX 123

2 ][

tttt ZZZX 12

2

3

3

ttttt ZZZZX 12

2

34

3 ][

ttttt ZZZZX 12

2

3

3

4

4

tttkt

k

kt

k

kt

k

t ZZZZZXX 12

2

2

2

1

1 ...

Repitiendo este proceso un número infinito de veces (cuando k ), la expresión

anterior se transforma en:

0

)(j

tjt

j

t ZBZX , ………………… (2)

donde 0

)(j

jj BB .

Debemos notar que con las sustituciones recursivas se expresó al modelo AR(1) como

proceso lineal donde j

j ; y dado que debemos asegurar que la serie

0 0

||||j j

j

j , se debe imponer la restricción 1|| . Es decir, el modelo AR(1) es

estacionario si y solo si 1|| .

NOTA2: Una expresión más general del modelo AR(1) es ttt ZXX )()( 1 , el

cual es un proceso AR(1) con media . En el presente texto se asumirán los procesos con

media cero al menos que se especifique lo contrario. Como veremos posteriormente, al

imponer media igual a cero en el proceso, no se pierde generalidad en el estudio de cualquier

modelo.

Si aplicamos el resultado III.3 a la expresión )2( , podemos encontrar la función de

auto-covarianzas del proceso AR(1) ya que se expresó como proceso lineal. Así,

0

2

0

2)(j

hjj

j

hjjh


34

0

22)(j

jhh

por lo tanto,

2

2

1)(

h

h

Usando la expresión de )(h , la )(h se obtiene aplicando su definición. Es decir,

)(h está dada por: hh)(

La expresión de la función de auto-correlación para este proceso es muy sencilla.

Además, recordemos que se impuso la condición de estacionaridad en el modelo AR(1) de que

1|| . Es claro que dado que 1|| , la función converge a cero de manera decreciente o de

manera alternante con los valores de h. O sea, dependiendo del valor de , la función de auto-

correlación puede mostrar diferentes formas; si 0 , la función es decreciente y si 0 la

función es alternante. Las gráficas 12 y 13 muestran las funciones de auto-correlación de un

proceso AR(1) , cuando toma valores de 0.8 y -0.8, respectivamente.

En las gráficas se puede observar como las funciones convergen a cero para una h

moderadamente pequeña. Dependiendo del valor de , la convergencia hacia cero puede ser

más o menos rápida; a mayor valor de , menos rápido será la convergencia a cero.

Gráfica12. Función de autocorrelación AR(1): phi=0.8

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

h

0.0

0.2

0.4

0.6

0.8

1.0

ACF


35

Gráfica13. Función de autocorrelación AR(1): phi= -0.8

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

h

-1.0

-0.5

0.0

0.5

1.0

ACF

Ambas gráficas (12 y 13) están hechas con S-PLUS. La primera, como ya se

mencionó, corresponde a la función hh 8.0)( y la segunda a hh )8.0()( . Las

instrucciones para hacerlas son: Crear un dataset con dos columnas: en una el valor de h y en

la otra el valor de la ACF. Seleccionar Graph > 2D Plot y la opción Bar Y min Base. Más

adelante aparecen gráficas de la ACF para otros modelos. La forma de hacerlas es la misma

que en este caso.

La aplicación del resultado III.3 no es el único método para calcular la función de

auto-covarianzas (auto-correlación). Existen métodos adicionales que, dependiendo del caso a

analizar, pueden ser más sencillos de aplicar. Un ejemplo sería para modelos auto-regresivos

AR(p), donde es más sencillo aplicar el método de Yule-Walker. Este método se describe en la

generalización de los modelos auto-regresivos.

A continuación se da un cuadro resumen de las propiedades fundamentales del proceso

AR(1):

Cuadro1. Resumen de las características del proceso AR(1)

Modelo AR(1) ttt ZXX 1

Función de Auto-covarianzas (h) 2

2

1)(

h

h

Función de Auto-correlación (h) hh)(

Condición de Estacionaridad 1||

Un ejercicio interesante para una serie de tiempo estacionaria resulta de la

visualización de la gráfica entre tX y 1tX . Así, si se nota una relación lineal entre ambas

variables, es una señal de que se podría ajustar un modelo autorregresivo a la colección de

datos. Para la colección de datos de desempleo vista en el capítulo anterior, presentamos la

gráfica hecha en S-PLUS. El procedimiento es crear un Dataset con una columna con tX y

otra con 1tX , dar clic en el botón 2D Plots de la barra superior y elegir la opción Linear Fit.


36

Gráfica 14. tX v.s 1tX de la serie de desempleo nacional.

1.7 2.2 2.7 3.2 3.7 4.2

Xt1

2.0

2.5

3.0

3.5

4.0Xt

Claramente se observa la relación entre datos consecutivos de la serie. Esto sugiere que

el modelo debe incluir a 1tX como una variable independiente.

III.4. MODELOS DE PROMEDIO MÓVIL: MA(1)

La segunda clase de modelos de series de tiempo son los modelos de promedios

móviles (Moving Average). A diferencia de los modelos auto-regresivos, los modelos de

promedios móviles dependen de las realizaciones pasadas de los errores (proceso de ruido

blanco) también llamadas innovaciones. El modelo de promedio móvil más sencillo es el

modelo MA(1). A continuación se da su definición.

Definición III.4.1. (MA(1)).- Un proceso estocástico }{ tX sigue un proceso de

promedio móvil de primer orden, MA(1), si tiene como expresión a:

ttt ZZX 1

donde }{ tZ es un proceso de ruido blanco con media 0, varianza 2 y 1.

Alternativamente, el modelo puede expresarse usando el operador B como:

tt ZBX )( , donde BB 1)( .

Dado que el polinomio )(B es finito, el modelo es proceso lineal y por lo tanto

estacionario (esto ocurre con cualquier modelo de promedios móviles). Por lo tanto podemos

aplicar el resultado III.3 para obtener su función de auto-covarianzas (y auto-correlaciones).

Escribiendo el modelo como un proceso lineal, tenemos:

jt

j

jt ZX0

,


37

donde 10 , 1 y 0j para todo j > 1.

La función de auto-covarianzas es entonces:

0

2)(j

hjjh

...)()( 110

2

hhh

)()( 1

2

hhh

La última expresión se cumple ya que 10 y 1 son los únicos valores de la

serie distintos de cero. De aquí que la función de auto-covarianzas tenga solo valores distintos

de cero para 0h y 1h . Con base en este comentario obtenemos:

1||0

1||

0)1(

)( 2

22

hsi

hsi

hsi

h

La función de auto-correlación, por lo tanto, está dada por:

1||0

1||1

01

)(2

hsi

hsi

hsi

h

Para que )1( sea una correlación, debe cumplirse que 1|1

|2

. Esta

condición genera condiciones para . Entonces, si 21

21

2

02

Resolviendo para , encontramos que:

2

411 2

,

por lo que es real si y solo si 041 2 . Entonces,


38

041 2

241

4

12

2

1||

Por lo tanto, la restricción para que el modelo sea un modelo “válido” debe de

satisfacer que 5.0)1( , ya que esto garantiza que sea un número real. Para saber qué

valores puede tomar , bajo esta condición, podemos sustituir los valores en frontera de )1( .

Así, se tiene que con 2/1)1( ,

2

1

1 2 021 2 1

y con 2/1)1(

2

1

1 2 021 2 1

Por lo que se concluye que para que se tenga un proceso MA(1) válido se debe cumplir

que 1|| . Es decir, congruente con una auto-correlación entre -1 y 1.

Es importante destacar que si definimos el proceso MA(1) ttt ZZX 1

* con

/1* y 1, la función de autocovarianzas es invariante. La diferencia entre ambos

modelos es que con el modelo es invertible, mientras que con /1* el modelo es no

invertible. El concepto de invertibilidad es muy importante en las series de tiempo, como se

verá en el próximo capítulo.

Las formas de la función de auto-correlación para un MA(1), dependiendo del valor de

, se dan en las gráficas 15 y 16 con valores de 0.8 y –0.8 para , respectivamente.

Gráfica15. Función de Autocorrelación MA(1): theta=0.8

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

h

0.0

0.2

0.4

0.6

0.8

1.0

ACF


39

Gráfica16. Función de Autocorrelación MA(1): theta=-0.8

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

h

-0.5

-0.1

0.3

0.7

1.1

ACF

Con este análisis, podemos concluir que dado que la función de auto-correlación del

modelo MA(1) se trunca en h=1, una manera de identificar un modelo MA(1) es usando )(h .

Si una colección de datos muestra a )1(ˆ como la única auto-correlación diferente de cero,

entonces un modelo apropiado para los datos sería un MA(1). En la siguiente sección

demostraremos que la característica que identifica a un modelo MA(q) es que tiene q auto-

correlaciones diferentes de cero. A continuación se da un cuadro resumen de las propiedades

estudiadas del proceso MA(1):

Cuadro2. Resumen de las propiedades del proceso MA(1)

Modelo MA(1) ttt ZZX 1

Función de Auto-covarianzas (h)

1||

1

0

..0

)1(

)( 2

22

h

h

h

fod

si

si

h

Función de Auto-correlación (h)

1||

1

0

..01

1

)(2

h

h

h

fod

si

si

h

Condición de Validez del

modelo

2

1)1( 1

III.5. MODELO AR(p)

En esta sección se va a generalizar el modelo auto-regresivos considerando a p mayor

que 1. Se darán primeramente aspectos generales del modelo y después se analizará el caso

para el modelo AR(2).

Definición III.5.1.- [Modelo AR(p)].- Un proceso estacionario }{ tX sigue un modelo

AR(p) si obedece a la expresión dada por:

tptpttt ZXXXX ...2211 ,


40

donde }{ tZ ~ ),0( 2WN .

Usando el operador B, el modelo puede re-escribirse como:

tt ZXB)( ,

donde p

p BBBB ...1)( 2

21 . A )(B se le denomina polinomio auto-regresivo.

III.5.1. Causalidad

Supongamos el modelo definido por


con }{ tZ ~ ),0( 2WN .

Definición III.5.2.- [Causalidad del proceso AR(p)].- Se dice que el modelo AR(p) es

causal si las soluciones pzzz ,...,, 21 del polinomio ,0)(z tienen por módulo 1|| jz , para

pj ,...,2,1 . O también, si

,0...1)(2

21

p

jpjjj zzzz

para toda 1|| z y z elemento del conjunto de los números complejos.

La definición establece que toda solución del polinomio auto-regresivo debe ser

diferente de cero y debe tener módulo mayor a uno. La región determinada por z tal que

1|| z , se denomina círculo unitario. El concepto también se aplica a modelos más generales;

pero por el momento sólo lo aplicaremos a los modelos auto-regresivos.

De acuerdo con [Brockwell y Davis (2002)], el concepto de causalidad es equivalente a

la existencia de constantes }{ j tal que 0

||j

j y 0j

jtjt ZX . Es decir, se puede

representar como un proceso lineal y por lo tanto estacionario.

Si aplicamos el concepto al modelo AR(1) podemos notar que el polinomio auto-

regresivo es zz 1)( . El cual igualado a cero, nos da como solución 1

z . Ahora, si

queremos que 1|| z , entonces 1|| ; por lo tanto, existe su representación como

0j

jt

j

t ZX y el proceso es estacionario. Esto se analizó en la sección pasada donde se

estudió el modelo AR(1). En términos de ecuaciones en diferencias con elemento aleatorio,


41

esto quiere decir que 0j

jt

j

t ZX es la única solución estacionaria al proceso estocástico

dado por la ecuación ttt ZXX 1 .

Una posible pregunta que surge es: ¿con 1|| existe solución estacionaria del

modelo? Lo primero que podemos decir es que el modelo no es causal; sin embargo, la

respuesta a la pregunta anterior es sí; sólo que se debe aplicar una transformación. Sea el

modelo:

ttt ZXX 1

con 1|| y }{ tZ ~ ),0( 2WN .

Si el modelo se divide entre , encontramos que

ttt ZXX11

1 ,

ttt ZXX **

1 .

Iterando el modelo, llegamos a la solución estacionaria:

0

1

1

j

jt

j

t ZX

Un detalle que debemos aclarar en este caso es que el valor de 1tX ¡¡¡ depende de tX

!!! . Lo cual quiere decir que ¡¡¡ el presente depende del futuro !!!. Esta es la consecuencia de

que el modelo no sea causal. .

III.5.2. Método de Yule-Walker

A pesar de que un modelo AR(p) puede expresarse, bajo ciertas condiciones, como un

proceso lineal, procederemos a calcular la función de auto-covarianzas usando el método de

Yule-Walker. La razón fundamental de usar esta alternativa es que la expresión de un modelo

AR(p) como proceso lineal no tienen una expresión sencilla de manejar. Consideraremos que

el proceso causal estacionario y en su momento estudiaremos las condiciones de

estacionaridad del modelo AR(2) [ver discusión del modelo AR(2)]. La causalidad de un

modelo asegura que se pueda expresar como

0j

jtjt ZX ,

donde }{ tZ ~ ),0( 2WN .

El método de Yule-Walker para calcular la función de auto-covarianza, )(h , consiste

en llevar a cabo los siguientes pasos:


42

Se multiplica ambos lados del modelo por }{ ktX .

Suponiendo media cero, se toma el valor esperado de la expresión resultante para

k=0,1,2,..p.

Se divide el sistema entre )0( . El sistema resultante tiene por incógnitas a )0( ,

)1( , . . . , )( p y la primera ecuación es la única que depende de )0( , la cual

corresponde al valor de k=0.

Usando las p ecuaciones resultantes con los valores de k=1,2,..p, se resuelve el

sistema para )1( , . . . )( p .

Sustituyendo los valores de )1( , . . . )( p en la primera ecuación se obtiene una

ecuación cuya única incógnita es )0( .

Con el valor de )0( y )1( , . . . )( p , se calculan la auto-covarianzas

correspondientes a h=1, h=2,..., h=p.

Las autocovarianzas para h > p se obtienen calculando las ecuaciones de

autocovarianzas con k=p+1, p+2, ..., equivalentes a las del punto 2. La expresión

resultante para )(h con h>p depende funcionalmente de ),1(h ),2(h ...,

),( ph por lo que el cálculo es recursivo.

A continuación se mostrará el proceso descrito para el cálculo de la función de auto-

covarianzas para el modelo AR(p).

Sea el modelo AR(p) causal, definido por:


donde }{ tZ ~ ),0( 2WN .

1.- Multiplicando ambos lados del modelo por }{ ktX se obtiene:

kttktptpkttkttktt XZXXXXXXXX ...2211

2.- Tomando valor esperado se obtiene:

)()(...)()()( 2211 kttktptpkttkttktt XZEXXEXXXXEXXE

)()(...)2()1()(0

21 jkt

j

jtp ZZEpkkkk

0k 2

21 )(...)2()1()0( pp

1k )1(...)1()0()1( 21 pp

2k )2(...)0()1()2( 21 pp

pk )0(...)2()1()( 21 pppp


43

3.- Dividiendo entre )0(

0k )0(

)(...)2()1(12

21 pp

1k )1(...)1()1( 21 pp

2k )2(...)1()2( 21 pp

pk pppp ...)2()1()( 21

4.- Tomando las ecuaciones desde pk ,...,2,1 se obtiene la solución para )1( ,...,

)( p .

5.- Sustituyendo )1( ,..., )( p en la primera ecuación nos queda una expresión que

solo depende de )0( . De aquí la solución de )0( está dada por

)(...)2()1(1)0(

21

2

pp

6.- Una vez conocidas )1( ,..., )( p , las auto-covarianzas están dadas por

)0()()( hh para h=1,2, . . . , p.

7.- Para h > p las autocovarianzas se calculan primero obteniendo la ecuación

resultante de tomar el valor esperado de la expresión dada en 2 con ,...2,1 ppk etcétera.

Así,

1pk )1(...)1()()1( 21 pppp .

Como en el punto 6 se obtuvieron )0()()( hh para h=1,2,...,p, la )1( p se

obtiene por sustitución recursiva. De la misma manera, para k=p+2, k=p+3,... el cálculo de las

auto-covarianzas se obtiene de manera recursiva como sigue:

1pk )1(...)1()()1( 21 pppp

2pk )2(...)()1()2( 21 pppp

3pk )3(...)1()2()3( 21 pppp

phk )(...)2()1()( 21 phhhh p .

NOTA3: El proceso descrito del método de Yule-Walker para calcular la función de auto-

covarianzas también puede ser aplicado al cálculo de la función de auto-correlación. En este

caso, las ecuaciones para ...2,1 ppk etcétera, pueden establecerse como auto-

correlaciones en vez de auto-covarianzas, sin que se afecte el resultado del proceso. Por

ejemplo, para 2,1 ppk , las ecuaciones en función de auto-correlaciones serían;


44

1pk )1(...)1()()1( 21 pppp

2pk )2(...)()1()2( 21 pppp

las cuales muestran el proceso recursivo, ya que la primera ecuación dependen de las auto-

correlaciones obtenidas en el paso 4 y la segunda de la auto-correlación anterior y anteriores.

III.5.3. El Modelo AR(2)

EL modelo AR(2) tiene por expresión

tttt ZXXX 2211 ,

donde }{ tZ ~ ),0( 2WN .

El cual es equivalente al modelo

tt ZXB)( ,

con 2

211)( BBB .

Usando el concepto de causalidad, podemos caracterizar si un modelo AR(2) es causal

y por lo tanto estacionario. Así, se presenta el siguiente resultado.

RESULTADO III.4.- (Estacionaridad del modelo AR(2)).- El modelo AR(2) definido por

tttt ZXXX 2211 , con }{ tZ ~ WN(0, 2 ) es causal si:

121 ,

112

y

1|| 2

Demostración.

La demostración consiste en resolver la ecuación del polinomio auto-regresivo garantizando

que la solución sea de un proceso causal; es decir 1|| z . Así, la ecuación a resolver es:

01 2

21 zz ,

cuya solución está dada por:

2

212

1

2

4z ,

y debemos garantizar que 1|| z .

Ahora, sean


45

2

212

1

12

4z y

2

212

1

22

4z ,

las soluciones de la ecuación de segundo grado. Se desea que

12

4

2

212

1.

Si tomamos 1z , sabemos que si 1|| 1z ,

1|1

|1z

.

Entonces:

212

1

212

1

212

1

2

212

1

21

1

4

4

4

2

4

2)(z

2

212

12

212

12

212

12

4

42

)4(

42

2

4)(

212

11

1z

Similarmente, tomando 1

2 )(z , se obtiene,

2

4)(

212

11

2z

La demostración debe dividirse cuando las soluciones 1z y 2z son reales o complejas.

Caso Real

Cuando las soluciones son reales se sabe que 04 212 y se desea que 1|)(| 1

iz .

Entonces,

1|)(| 1

iz , para i=1,2

12

4

2

41

212

1212

1, ya que 04 21

2

2442 212

1212

1

Considerando el lado izquierdo de la desigualdad, obtenemos:


46

212

1 42

24 1212

2

1212 )2(4

444 112

212

4)(4 12

112

Con el lado derecho se obtiene:

24 212

1

1212 24

2

1212 )2(4

)44(4 12

1212

4)(4 12

112

Ahora, combinando ambos resultados, 112 y 112 con la condición de solución

real 04 212 , podemos encontrar los puntos de intersección de la solución (en los reales)

con 04 212 . Esto es,

04 212 y 112 ,

112

12 1

Entonces, sustituyendo 12 1 en la primera desigualdad,

04)1(4 212

112 , ya que 12 1

044 112

0)2( 2

1

0|2| 1

por lo tanto 21

Si consideramos la igualdad en vez de desigualdad, podemos encontrar el punto

correspondiente de 2 cuando 21 (recordemos que estamos buscando los puntos de

intersección). Entonces, sustituyendo esta solución encontramos que 112 , 122 y

por lo tanto 11 .


47

Por otro lado,

04 212 , y 112 ,

112

21 1 .

Entonces sustituyendo 21 1 en la primera desigualdad,

044)1( 212

2

2

2 , ya que 2

212 )1( ,

04)1( 2

2

2 .

04)1( 2

2

2 0421 222

2

0)1( 2

2 0|1| 2

12 .

Aplicando la misma estrategia que en líneas arriba, el punto correspondiente de 1 cuando

12 , es 21 .

Con este análisis podemos concluir que cuando las soluciones son reales, la región definida

por 22 1 , 11 1 y 04 212 es la que garantiza un modelo AR(2) causal.

En la figura1 se muestran las gráficas de esta región la cual corresponde a la que está por

arriba de la parábola. La región por debajo de la parábola corresponde al caso complejo el cual

se da a continuación.

Caso Complejo

Para este caso, sabemos que por ser raíces complejas tenemos que:

04 212 y 2

2

212

1

2

212

1

12

4

2

4z

iiz ,

y por lo tanto 1

2

1

1 zz

Este razonamiento, sugiere que solo tomando una raíz se cumple la condición de módulo

menor a 1 para ambas raíces simultáneamente. Tomando 1

1z , encontramos que:

14

)4( 2

2

1

2

11

1z

12 .


48

Esta solución junto con la condición 04 212 , definen la región de estacionaridad cuando

las raíces del polinomio son complejas.

///

Figura2. Región de estacionaridad del modelo AR(2).

Para continuar con el estudio del modelo AR(2), procederemos a calcular su función de

auto-covarianzas (auto-correlaciones) usando el método de Yule-Walker. La razón de usar este

método es debido a que es más sencillo que aplicar el Resultado III.3, ya que la expresión del

modelo como proceso lineal no es muy sencilla de encontrar. Sea el modelo definido por:

tttt ZXXX 2211 ,

donde }{ tZ ~ ),0( 2WN .

Entonces las ecuaciones de Yule-Walker, usando auto-correlaciones, son:

0k )0(

)2()1(12

21

1k )1()1( 21

2k 21 )1()2(

Las ecuaciones para 2,1k , tienen por solución:

2

1

1)1( y 2

2

12

1)2(

Usando está solución, el valor que toma )0( es:

)2()1(1

)0(21

2

Ahora, las auto-covarianzas están dadas por )0()()( hh , para .2,1h

Caso Real

Caso Complejo


49

Para ,...4,3k se tienen las ecuaciones (en función de auto-correlaciones pasadas); Es decir,

3k )1()2()3( 21

4k )2()3()4( 21

hk )2()1()( 21 hhh .

Dependiendo de los valores de 1 y 2 , la función de auto-correlación puede adquirir

diferentes formas. A continuación se muestran las posibles formas de la función de auto-

correlación del modelo.

Gráfica17. Alguna formas de la ACF de un modelo AR(2).

5.0 , 8.0 21 5.0 , 8.0 21

0 1 2 3 4 5 6 7 8 9 10

h

0.2

0.4

0.6

0.8

1.0

AC

F

0 1 2 3 4 5 6 7 8 9 10

h

-0.5

0.0

0.5

1.0

AC

F

5.0 , 8.0 21 5.0 , 8.0 21

0 1 2 3 4 5 6 7 8 9 10

h

-0.5

0.0

0.5

1.0

AC

F

0 1 2 3 4 5 6 7 8 9 10

h

-0.5

0.0

0.5

1.0

AC

F

De las gráficas podemos observar las formas típicas de la función de auto-correlación

para valores positivos y negativos de los parámetros; y si estos valores corresponden al caso

real o complejo de las soluciones del polinomio auto-regresivo. Como puede verse, sería

complicado identificar un modelo AR(2) usando simplemente al función de auto-correlación.


50

Como veremos posteriormente, la identificación de modelos auto-regresivos es mucho más

fácil de hacer usando la función de auto-correlación parcial.

III.6. MODELO MA(q)

La sección anterior se dedicó al estudio de los modelos AR(p) y en particular al modelo

AR(2). Esta generaliza el modelo MA(1) considerando a q mayor que 1. El estudio se hará de

forma similar al caso autorregresivo; es decir, se darán primeramente aspectos generales del

modelo y después se analizará el caso para el modelo MA(2).

Definición III.6.1.- [Modelo MA(q)]. Un proceso estacionario }{ tX sigue un modelo

MA(q) si obedece la expresión dada por:

tqtpttt ZZZZX ...2211

donde }{ tZ ~ ),0( 2WN

Usando el operador B, el modelo puede re-escribirse como:

tt ZBX )( ,

donde p

p BBBB ...1)( 2

21 . A )(B se le denomina polinomio de promedio

móvil.

Debe notarse que por definición, el modelo MA(q) es un proceso lineal, por lo que la

estimación de su función de auto-covarianzas (o auto-correlaciones), puede hacerse aplicando

el resultado III.1 directamente. Supondremos que el proceso es estacionario y en su momento

estudiaremos las condiciones de estacionaridad del modelo.

Dado que el modelo es un proceso lineal, podemos caracterizar la representación como

jj para qj ,...,2,1,0 y 0j para qj . De aquí que

0j

jtjt ZX .

Usando esta representación, tenemos que:

0

2)(j

hjjh .

Ahora, variando h, se obtienen las correspondiente auto-covarianzas. Entonces:

)...1()0( 22

21

22

0

22q

j

j


51

)...()1( 132211

2

0

1

2

qq

j

jj

)...()2( 242312

2

0

2

2

qq

j

jj

)()1( 11

2

0

1

2

qq

j

qjjq

q

j

qjjq 2

0

2)(

Y, finalmente 0)(h para .qh

Aplicando la definición de auto-correlación, obtenemos:

)...1(

)...()1(

22

21

2

132211

q

qq

)...1(

)...()2(

22

21

2

242312

q

qq

)...1(

)()1(

22

21

2

11

q

qqq

)...1()(

22

21

2q

qq

y 0)(h para .qh

III.6.1. Invertibilidad

De la misma forma que la causalidad de un modelo ARMA(p,q), en la que expresamos

a }{ tX en términos de }{ tZ , podemos expresar a }{ tZ en términos de }{ tX . Esta expresión se

conoce como invertibilidad.

Definición III.6.2. [Invertibilidad de un modelo ARMA(p,q)].- Un proceso }{ tX

ARMA(p,q) es invertible si existen constantes }{ j tales que 0j j y:

0j

jtjt XZ para todo t.

La definición de invertibilidad es equivalente a la condición:

01)( 1

q

q zzz para todo 1z


52

Los coeficientes }{ j se calculan a partir de las ecuaciones:

j

k

kjkj

1

para j=0,1,…

definiendo 0;10 j para j > p y 0j para j<0.

III.6.2. El Modelo MA(2)

El modelo MA(2) está dado por:

tttt ZZZX 2211

con }{ tZ ~ ),0( 2WN .

Cuando revisamos el modelo MA(1), analizamos los valores posibles de y para

que el modelo fuera un modelo válido (estacionario). Una propiedad que se analiza en los

modelos de promedio móvil, equivalente a la causalidad en los modelos de auto-regresivos, es

la invertibilidad. Mientras la causalidad garantiza que un modelo – por el momento auto-

regresivo- puede escribirse como proceso lineal, la invertibilidad garantiza que el proceso de

ruido blanco puede expresarse como un modelo auto-regresivo de orden infinito. Es decir:

0j

jtjt XZ ,

donde 0

||j

j .

La idea detrás de la invertibilidad, es que si las soluciones del polinomio de promedio

móvil quedan fuera del círculo unitario, entonces el modelo es invertible. Puede demostrarse –

por ejemplo para el modelo MA(1) - que bajo la condición de invertibilidad, se cumple la

condición 1|| . Por lo tanto es un modelo válido y estacionario.

La condición de invertibilidad del modelo MA(2) consiste en plantear el polinomio de

promedio móvil, resolver la ecuación de segundo grado resultante y garantizar que las

soluciones queden fuera del círculo unitario. El ejercicio es muy parecido al presentado para el

modelo AR(2) por lo que se deja como ejercicio par el lector. El siguiente resultado muestra

las condiciones de invertibilidad del modelo MA(2).

RESULTADO III.5.- (Estacionaridad del modelo MA(2)). El modelo MA(2) definido por

tttt ZZZX 2211 , con }{ tZ ~ ),0( 2WN es causal y estacionario si

121

112

y 1|| 2 .


53

La función de auto-correlación del modelo en cuestión está dada por:

20

2)1(

1)1(

)(

)(2

21

2

2

22

12

211

hsi

hsi

hsi

h

Dependiendo de los valores de los parámetros 1 y 2 , la gráfica de la función de auto-

correlación puede adquirir diferentes formas. Las siguientes figuras muestran la variabilidad

de la función de auto-correlación para un modelo MA(2), para diferentes valores de los

parámetros.

Gráfica18. Algunas formas de la ACF de un modelo MA(2).

5.0 , 8.0 21 5.0 , 8.0 21

0 1 2 3 4 5 6 7 8 9 10

h

0.0

0.2

0.4

0.6

0.8

1.0

AC

F

0 1 2 3 4 5 6 7 8 9 10

h

-0.5

-0.1

0.3

0.7

1.1

AC

F

5.0 , 8.0 21 5.0 , 8.0 21

0 1 2 3 4 5 6 7 8 9 10

h

-0.5

-0.1

0.3

0.7

1.1

AC

F

0 1 2 3 4 5 6 7 8 9 10

h

-0.5

-0.1

0.3

0.7

1.1

AC

F

Las gráficas muestran las formas típicas de la función de auto-correlación para los

casos donde los parámetros toman valores positivos y negativos. También podemos ver que la

gráfica se trunca en el valor de q, en este caso, igual a 2.


54

CAPITULO IV. MODELOS ARMA(p,q)

Hasta ahora hemos presentado los modelos clásicos de series de tiempo, los procesos

AR(p) y MA(q). En este capítulo introduciremos una familia de series de tiempo estacionarias

conocida como procesos de promedio móvil autorregresivo o simplemente, modelos ARMA.

En 1970, Box y Jenkins desarrollaron un cuerpo metodológico destinado a identificar,

estimar y diagnosticar modelos dinámicos de series temporales en los que la variable tiempo

juega un papel fundamental. Una parte importante de esta metodología está pensada para

liberar al investigador de la tarea de especificación de los modelos dejando que los propios

datos temporales de la variable a estudiar nos indiquen las características de la estructura

probabilística subyacente.

En ocasiones pretendemos predecir el comportamiento de una variable “ ty ” en un

momento futuro t, a partir del comportamiento que la variable tuvo en un momento pasado,

por ejemplo, en el período anterior, 1ty . Formalmente notaríamos que )( 1tt yfy , es decir,

que el valor de la variable y en el momento t es función del valor tomado en el período t-1.

IV.1. DEFINICIÓN Y PROPIEDADES

En esta sección extenderemos el concepto de causalidad, así como la existencia y

unicidad de soluciones estacionarias, discutidos en la sección anterior, a los procesos ARMA.

Los modelos ARMA integran a los modelos AR y a los modelos MA en una única

expresión. Por tanto, la variable ty queda explicada en función de los valores tomados por la

variable en períodos anteriores, y los errores incurridos en la estimación. Una expresión

general de un modelo ARMA (p, q) viene dada por lo siguiente:

Definición IV.1.1. [Modelo ARMA(p,q)].- }{ tX es un proceso ARMA(p,q) si es

estacionario y tiene como expresión:

qtqttptptt ZZZXXX ...... 1111

donde }{ tZ ~ ),0( 2WN .

Una solución }{ tX de la ecuación anterior existe (y es la única solución estacionaria)

si y sólo si:

1 todopara 0...1)( 1 zzzz p

p

Un proceso ARMA(p,q) es causal si existen constantes j tales que 0j

j y

0j

jtjt ZX para todo t.


55

Obviamente, los modelos AR (p) corresponden al modelo ARMA (p,0), mientras que

los modelos MA (q) corresponden al modelo ARMA (0,q).

Para ejemplificar las propiedades de los modelos ARMA(p,q), en la siguiente sección

estudiaremos el modelo ARMA(1,1).

IV.2. MODELO ARMA(1,1)

}{ tX es un proceso ARMA(1,1) estacionario si satisface la siguiente ecuación:

11 tttt ZZXX

donde }{ tZ ~ ),0( 2WN , 1 y 1.

Usando el operador B, el modelo ARMA(1,1) puede ser escrito como:

tt ZBXB )1()1(

Para encontrar la función de autocovarianzas del proceso ARMA(1,1) haremos uso del

resultado sobre procesos lineales (resultado III.3) del capítulo anterior. Para ello debemos

encontrar los términos j de la ecuación: 0j

jtjt ZX .

Haciendo sustituciones recursivas de las tX , tenemos:

1212

2

1212

11

][

ttttt

ttttt

tttt

ZZZZX

ZZZZX

ZZXX

1con )( 0

1

1

j

jt

j

tt ZZX

Usando el resultado III.3, que establece k

hkkx h 2)( , tenemos:

Para h=0,

]1

1[)(

...]1[)(

...))()()(1()0(

2

222

42222

2422222


56

Para h=1,

]}1

)([){(

...]1[)()(

...))()()()(()1(

2

22

42222

252322

En general,

)1()( 1hh

)1()0(

)1()( 1

1h

h

h

Antes de discutir más detalles y propiedades de los modelos ARMA(p,q), daremos las

bases para llevar a cabo inferencia sobre y )(h y consideraremos el proceso de predicción

en procesos estacionarios.

IV.3. PROPIEDADES DE ˆ Y )(ˆ h

Un proceso estacionario es caracterizado por su media, μ, y su función de

autocorrelación, ρ(h). La estimación de μ y de la función de autocorrelación de las

observaciones, digamos X1,…,Xn, juega un papel muy importante en problemas de inferencia y

en particular, en el problema de ajuste de un modelo apropiado para las observaciones.

En esta parte del capítulo se presenta la estrategia de estimación del parámetro y de

)(h , cada una con sus propiedades distribucionales con el fin de llevar acabo inferencias.

Cabe destacar que el obtener la distribución del estimador de )(h es muy complicado, por lo

que en la práctica se recurre a aproximaciones y o resultados asintóticos.

Con respecto a , dado que es una medida de tendencia central, la media

muestral, nX , es un estimador insesgado de . Lo que debe esperarse respecto a la

distribución de nX es que, bajo la suposición de que los datos provienen de un proceso

estacionario, debe tener sus diferencias respecto al caso de cuando se tiene una muestra

aleatoria (caso iid). El siguiente resultado da las propiedades de nX bajo las condiciones de

una muestra estacionaria.

RESULTADO IV.1.- Sea }{ tX una serie de tiempo estacionaria con media y función de

auto-covarianzas )(h para ,...,2,1h entonces, conforme n ,

0)(||

11

)()( 2n

nj

nn jn

j

nXEXVar , si 0)(n ,

y


57

h

n hXnVar )()( si h

h |)(|

donde n

t

tn Xn

X1

1

Demostración.

La demostración del resultado es, primeramente, una aplicación de la varianza de una suma de

variables aleatorias. Como es sabido, la varianza de una suma de variables aleatorias es la

suma de las covarianzas: n

i

in XCovn

XVar1

2)(

1)(

n

i

ji

n

j

n XXCovn

XVar1 1

2)],([

1)(

n

i

ji

n

j

n XXCovnn

XVar1 1

)],(1

[1

)(

El detalle importante a tomar en cuenta en este caso, es que se refiere a un proceso

estacionario, lo que implica que las variables son, en general, correlacionadas. Para facilitar el

proceso podemos definir una matriz de covarianzas. Es decir,

1X 2X . nX

nX

X

X

.

2

1

)0(.))2(())1((

....

)2(.)0()1(

)1(.)1()0(

nn

n

n

Sumando todos los componentes de la matriz podemos notar que la suma va desde

1)1( nnh hasta )1(nh . Conforme se va avanzando en los valores de h , el

número de auto-covarianzas aumenta en uno hasta llegar a 0h y después disminuye en 1

hasta que llega a )1(n . Bajo este comentario y considerando la división entre n de la suma

de covarianzas, la suma queda como:

0

1

1

1

])()()(

[1

)(nh

n

h

n hn

hh

n

hn

nXVar .

Finalmente, la expresión de la varianza queda como:

].)(||

1[1

)()1(

1

n

nh

n hn

h

nXVar


58

Ahora, cuando 0)(n y n , el término de la derecha converge a cero; por lo tanto, X

converge en error cuadrado medio a y por lo tanto es un estimador consistente, lo cual se

quería demostrar.

///

Con respecto a )(h , el estimador )(ˆ h está dado por

hn

t

nhtnt XXXXn

h1

))((1

)(ˆ

De aquí que, el estimador de la función de autocorrelación sea:

)0(ˆ

)(ˆ)(ˆ

hh

Ambos estimadores son sesgados; y aún con denominador )( hn , los estimadores

siguen siendo sesgados. La razón fundamental de usar n es para evitar estimaciones negativas

de varianzas. Detalles sobre el tema se pueden consultar en [Brockwell y Davis (1991)].

Como se mencionó en párrafos anteriores, la inferencia sobre )(h se lleva a cabo

usando la distribución asintótica del estimador. Barttlet (1966) fue el primero en encontrar la

distribución asintótica del vector )](ˆ),...,2(ˆ),1(ˆ[ˆ hh

, el cuál se conoce como fórmula de

Barttlet. A continuación se enuncia el teorema de Barttlet (Fórmula de Barttlet).

RESULTADO IV.2.- (TEOREMA DE BARTTLET). Si }{ tX es un proceso estacionario tal

que

j

jtjt ZX con ),0(~}{ 2IIDZ t

donde j

j || y )( tZE . Entonces para ,...}2,1{h el vector

)](ˆ),...,2(ˆ),1(ˆ[ˆ hh

se distribuye asintóticamente ),(n

WAN

h , donde el ),( ji - ésimo

elemento de W está dado por:

})()(2)()()}{()(2)()({1k

ij kjjkjkkiikikw

Demostración.

La demostración se puede consultar en el capítulo VII de [Brockwell y Davis (1991)].

///


59

Ejemplo IV.3.1. Supongamos el proceso AR(1): ttt ZXX 1 con }{ tZ ~ ),0( 2WN y

1 .

Sabemos, del capítulo anterior, que hh)( . Aplicando el resultado anterior,

tenemos que:

2i1222i

1 1

2222

2))(1)(1-(1

)()(

i

wi

k ik

iikkki

ii

Ahora, si queremos establecer bandas de confianza para ρ(h), basta aplicar la siguiente

ecuación:

n

wh ii96.1)(ˆ

donde wii está dado por la expresión anterior.

IV.4. PREDICCIÓN EN PROCESOS ESTACIONARIOS (El mejor Predictor Lineal)

El problema es predecir los valores de hnX , h>0, de una serie estacionaria con media

conocida μ y función de autocovarianzas )(h , en términos de los valores {Xn,…, X1}.

La idea central de la predicción radica en dos puntos fundamentales:

La forma del predictor es lineal

El criterio básico para definir el “mejor predictor” es el error cuadrado medio, ECM.

El mejor predictor lineal lo denotaremos como hnn XP , y tendrá la forma:

11210 ... XaXaXaaXP nnnhnn

De aquí, el ECM está dado por:

2

11210

2 ]...[)( XaXaXaaXEXPECM nnnhnhnn

Nuestro objetivo será encontrar los valores de {a0, a1, a2,…,an} tales que ECM(PnXn+h)

sea mínimo. Por otro lado, tenemos que el ECM es una función cuadrática de a0, a1, a2,…,an,

por tanto tendrá al menos un valor de {a0, a1, a2,…,an} que la minimiza y que satisface la

ecuación:

.,...,1,0,0)(

nja

XPECM

j

hnn


60

Derivando e igualando con cero, tenemos:

n

i

i

n

nnnhn

hnn

aa

aaaa

XaXaXaaXEa

XPECM

1

0

210

11210

0

1

0-

0][2)(

)1()1()0()(

0)1()1()0(-)(

0])[(2)(

210

210

11210

1

naaaah

naaaah

XXaXaXaaXEa

XPECM

n

n

nnnnhn

hnn

)2()0()1()1(

0)2()0()1(-)1(

0])[(2)(

210

210

111210

2

naaaah

naaaah

XXaXaXaaXEa

XPECM

n

n

nnnnhn

hnn

)0()2(n)1()1(

0)0()2()1(-)1(

0])[(2)(

210

210

111210

n

n

nnnhn

n

hnn

aanaanh

ananaanh

XXaXaXaaXEa

XPECM

Tales derivadas igualadas con cero dan origen al sistema de ecuaciones siguiente:

)]'1(),...,1(),([

:

11

0

nhhh

donde

a

aa

n

nnn

n

i

i

'

21

1,

],...,,[

)]([

nn

n

jin

aaaa

ji

La solución estará dada por nnna 1.

Dependiendo de la estructura de la matriz Γn, podremos o no resolver el problema de

predicción. Suponiendo que la solución existe, el mejor predictor lineal está dado por:


61

n

i

ini

in

n

i

i

n

i

i

nnn

n

i

i

nnhnn

Xa

Xaa

Xa

XaaXP

1

1

1

11

1

1

'

0

)(

)'(-1

Es decir,

)( 1 inihnn XaXP

A partir del predictor, podemos obtener el ECM:

n

ji

ji

n

i

i

n

i

ini

n

i

ini

n

i

i

n

i

ini

n

i

ini

n

i

i

n

i

inihn

n

i

inihnhn

n

i

inihnhnnhn

ajiaiha

XaEXEaiha

XaXaEiha

XaEXXaXEXE

XaXEXPXE

1,1

2

1

1

1

1

2

1

22

2

1

1

1

1

2

1

22

2

1

1

1

1

2

2

1

1

2

)()1(2-(0)

)()(2)1(2-2-(0)

)()(2)1(2-2-(0)

)(])[(2][

)])(([][

nnhnnhn aXPXE'2

)0(

donde n y Γn están definidas como antes.

IV.4.1. Propiedades del operador Pn

A continuación se enuncian las propiedades más importantes del predictor lineal

1nn XP :

1. 0][ 11 nnn XPXE

2. 0])[( 11 jnnn XXPXE

3. nnn XXP

4. 00 nXP


62

Note que las propiedades uno y dos son equivalentes al sistema de ecuaciones que se

obtienen al derivar el ECM, es decir las ecuaciones que se usan para encontrar la solución del

vector na .

Ejemplo IV.4.1. Considere el proceso estacionario AR(1) dado por: ttt ZXX 1 con

}{ tZ ~ ),0( 2WN . Encontrar el predictor lineal de Xn+1, es decir, encontrar Pn Xn+1.

Solución.

Dado que el proceso es un AR(1), del capítulo anterior tenemos que :

2

2

1)(

h

h

Por otro lado, de acuerdo al resultado anterior, tenemos por resolver el sistema

nnna . Explícitamente:

nn

nn

n

n

a

a

a

2

2

22

1

21

2

1

2

2

1

1

1

1

1

Claramente, una solución del sistema es: ')0,...,0,(na . Aplicando el resultado

anterior, el predictor lineal es:

)(1 nnn XXP

Dado que el proceso tiene media cero, se tiene:

nnn XXP 1

Para obtener el ECM, aplicamos el resultado del mejor predictor lineal. Obteniendo:

2

2

22

2

2'

111

)1()0()0()( nnnn aXPECM

Se puede mostrar que para un proceso AR(1) y para h 1:

2

22

1

)1()(

h

hnn

n

h

hnn

XPECM

XXP


63

Muchas veces se tiene interés en estimar datos perdidos o, simplemente, datos

intermedios. El procedimiento de predicción de este tipo se desarrolla enseguida.

Supongamos las variables Y y 1,...,WWn con ][YE , iiWE ][ , momentos de

segundo orden finitos y ),(),,(),( jii WWCovWYCovYCov conocidas.

Definamos los siguientes vectores y matriz de covarianzas:

n

jijnin

n

nW

n

WWCovWWCov

WYCovWYCovWYCov

WWW

1,11

1

1

1

),(),(

)]',(),...,,([),(

)',...,(

)',...,(

Entonces, el mejor predictor lineal de Y en términos de },...,,1{ 1WWn está dado por:

)(')|(W

WaWYP

donde el vector a es una solución del sistema a .

Y el correspondiente error cuadrado medio del predictor:

')())|(( 2 aYVarWYPYE

El predictor tiene las propiedades de un operador y otras que se enuncian aquí.

Supongamos dos variables U y V con momentos de segundo orden finitos, el vector de

variables independientes )',...,( 1WWW n con matriz de covarianzas ),( WWCovW y las

constantes n,...,, 1 . Entonces, se tienen las siguientes propiedades:

))((')()|(.1 WEWaUEWUP donde a es una solución de ),( WUCova

n

i

ii

n

i

ii WWWP

WVPWUPWVUP

WUCovaUVarWUPUE

WWUPUE

11

2121

2

|.5

)|()|(|.4

),(')()]|([3.

0)]W|P(U-E[Uy 0])|([.2

Ejemplo IV.4.2. Considere el proceso estacionario AR(1) dado por: ttt ZXX 1 con

}{ tZ ~ ),0( 2WN . Suponga que tenemos las observaciones 1 y 3, )',( 13 XXW , y a partir de

ellas queremos estimar la observación 2, 2XY .


64

Solución.

El vector de coeficientes a que queremos encontrar es el que resuelve el sistema dado

por: a donde:

)0()2(

)2()0()]([

))1(),1(()]',(),,([

3,1,

'

1232

jiji

XXCovXXCov

Dado que el proceso es un AR(1), la función de autocovarianzas es la misma que en el

ejemplo anterior. Es decir, tenemos el sistema:

1

1

11 2

2

2

2

2

2

a21

1a

Aplicando el resultado de predicción y usando la condición de media cero, el mejor

estimador lineal de 2XY dado )',( 13 XXW , está dado por:

)(1

')/( 312

3

1

2 XXX

XaWXP

Con error cuadrado medio:

2

2

2

2

2

2

2

22

22

1

1

2

11')0(]))|([( aWXPXE

Como podemos ver, el procedimiento es el mismo que se sigue cuando se predicen

valores futuros en función de observaciones pasadas. Sin embargo, se debe tener cuidado al

momento de especificar el vector y matriz de autocovarianzas involucrados en el sistema de

ecuaciones.

IV.4.2. Algoritmo de Durbin-Levinson

En casos donde el proceso es definido por un sistema de ecuaciones lineales (como el

ejemplo anterior) hemos visto cómo la linealidad del operador Pn puede usarse como una gran

ventaja. Para procesos estacionarios más generales, esta “ventaja” nos sirve para predecir en

un paso, es decir, PnXn+1 basado en n observaciones previas, Pn+1Xn+2 en función de n+1

observaciones previas y así sucesivamente. Los algoritmos de predicción que se basan esta

idea son llamados recursivos. Dos algoritmos recursivos importantes en series de tiempo son

el algoritmo de Durbin-Levinson (discutido en esta sección) y el algoritmo de Innovaciones

(se discutirá en la siguiente sección).


65

De acuerdo a Durbin-Levinson, el algoritmo dado por el resultado siguiente resuelve el

proceso de predicción de Xn+1 en función de X1,…,Xn:

nnnnnnnnnn XXXXXP 11211 ...

Con su respectivo error cuadrado medio, definido por:

nnnnnn XPXE'2

11 )0(][

donde:

)',...,(

))'(),...,2(),1((

1 nnnn

nn

Recordemos que el sistema por resolver es:

nnnnnn

1 decir, es

RESULTADO IV.3.- (Algoritmo de Durbin-Levinson). Si }{ nX es un proceso estacionario

con media cero y función de autocovarianzas igual a )(h . Entonces, los coeficientes

nnnn ,...,, 21 del predictor hnn XP se pueden calcular recursivamente por medio de:

)0(y )0(

)1(

]1[

...(iv.2)..........

...(iv.1).......... )()(

011

2

1

1,1-n

1-n1,-n

1-n1,-n

1,1-n

1-nn,

n1

1

1

1

1

,1

donde

con

jnn

nnnn

nn

n

n

j

jnnn

Demostración.

La igualdad )0(/)1(11 garantiza que, para n=1, se cumple: nnnR , donde Rn es la

matriz de autocorrelaciones, ))'(),...,2(),1((,)',...,,( 21 nnnnnnn

.

La prueba consiste en probar que n, definido como en el algoritmo de D-L (recursivamente),

satisface la ecuación nnnR para toda n. La prueba se lleva a cabo por el método de


66

inducción matemática. Ya hemos visto que para n=1 se satisface; Supongamos que se

cumple para n=k y probaremos que se cumple para n=k+1. Definamos:

]',...,,[:

)]'1(),...,1(),([:

11,

)(

)(

kkkkk

r

k

r

kkk

Entonces, de acuerdo a (iv.2) y haciendo la partición adecuada de Rn, tenemos:

1,1

)(

1,1

)(

)(

1,1

11,1

1,1,12

1,11

)(

)(

1,1

2,1

1,1

)(

)(

11

1'

1'1'

kk

r

kkkk

r

k

r

kk

kk

kkkkk

kkkkk

kkkkk

r

k

r

kk

kk

k

k

r

k

r

kk

kk

R

RRR

Sabiendo que para n=k se cumple nnnR , obtenemos:

1,1

)()(

1,1

)(

)(

1,1

)(

1,1

1,1

)(

1,1

)(

)(

11''1' kk

r

k

r

kkkk

r

k

r

kkk

r

kkkk

kk

r

kkkk

r

k

r

kk

kk

RR

11,1

)()(

1,1

)(11)1('' k

k

kk

r

k

r

kkkk

r

k

k

kkk

R

La igualdad anterior significa que nnnR se cumple para k+1. Así, por el principio de

Inducción Matemática, las ecuaciones recursivas de D-L se cumplen para todo n.

En cuanto al ECM, sabemos que el mejor predictor lineal satisface: nnn ')0( . Ahora,

por la ecuación (iv.2), tenemos que:

)('')0(')0(1

)(

111nnnn

r

nnnnnnnn

Aplicando, nuevamente, la ecuación del ECM del mejor predictor lineal y agrupando términos,

obtenemos:

]')([)(']')0([1

)(

111

)(

111 n

r

nnnnnnn

r

nnnnnn nn

Finalmente, por la ecuación (iv.1), concluimos que:

]1[]')0([ 2

11

2

11

)(

1

2

1 nnnnnnnn

r

nnnnn


67

De esta forma, queda demostrado el Algoritmo de Durbin-Levinson.

///

Definición IV.4.1. [Función de Autocorrelación parcial (PACF)]. Bajo las

condiciones del resultado anterior, la función de autocorrelación parcial se define como:

hhh)(

1)0(

donde hh es el último componente del vector hhh

1,

')](),...,2(),1([ hh

y

h

jih ji 1,)]([

La estimación de la PACF se obtiene sustituyendo las estimaciones de las

autocovarianzas en la expresión hhh

1.

NOTA1: La función α(h) tiene la propiedad de que en procesos AR(p) se trunca en el valor de

p, es decir:

pn

pnh

hh

si 0

si )(

NOTA2: Se puede mostrar que hh mide la correlación entre los errores de predicción

),...,/( 11 hhh XXXPX y ),...,/( 1100 hXXXPX . Es decir, entre Zh y Z0, y en general,

entre Zt-h y Zt. Para más detalles ver [Box, Jenkins y Reinsel (1994)].

NOTA3: La expresión de la PACF de un modelo ARMA es demasiado extensa del hecho de

la expansión del polinomio de promedio móvil. Sin embargo, su gráfica se comporta como la

de un modelo puro de promedio móvil, dominada por un exponente mixto que depende de los

parámetros y del orden del modelo. Para dejar clara la nota, consideremos el modelo MA(1),

con )1/( 2

111 y 0k para k>1 en la ecuación nnnR . Haciendo un poco de

álgebra se puede llegar a la expresión de la PACF:

)1(2

1

2

11

1

)1(k

k

kk

Note que, el signo de la PACF depende del exponente, k, y del valor del coeficiente, θ1.

Veamos algunas consecuencias:

Si 1>0, entonces θ1<0 y la PACF alterna el signo dependiendo de k.

Si 1<0, entonces θ1>0 y la PACF es negativa para todo k.

Ejemplo IV.4.3. Consideremos el proceso AR(2) y apliquemos el algoritmo de Durbin-

Levinson para encontrar el mejor predictor.


68

Solución.

El proceso está dado por: tttt ZXXX 2211 con }{ tZ ~ ),0( 2WN . Nuestro

objetivo es encontrar el mejor predictor lineal de Xt+1 para el proceso AR(2). Es decir:

111 ... XXXP tttttt

Aplicando el algoritmo D-L, tenemos que:

)1()0(/)1()]1([

ˆ

,1

1

011

1112 XX

t

])1(1)[0(]1[ 22

1101

]1[

])1(1)[0(

)1()1()2(1)1(

]])1(1)[0()][1()1()2([

)]1()2([

ˆ

,2

2

2212

2

11221121

12

1

11122

1222213 XXX

t

0

)]1()2()1()2([

)]1()2()3([

ˆ

,3

1

222212221

1

2222133

1332323314 XXXX

t

El resultado resulta de que para el proceso AR(2) y con t=3, se tiene la igualdad

)1()2()3( 21 .

]1[ 2

2223

2122332131

2221332232

En el método de D-L, se cumple n cuando jnj . Es decir,

. , 1122 nn Y así sucesivamente para todo .3t


69

De este modo, el predictor para una AR(2) queda como:

.ˆ1211 ttttt XXX

Por ejemplo, si se tiene X1 y X2 y se desea predecir X4, se procede como sigue:

0 que dado ˆ

ˆ

33232331

1332323314

XX

XXXX

Note que antes de predecir X4, se debe predecir X3, pues X4 depende de ella.

Box y Jenkins desarrollan un método recursivo para el cálculo de la PACF usando las

ecuaciones de Yule-Walker. Este método fue propuesto por [Durbin (1960)]. Para mostrar

este método, consideremos las ecuaciones de Yule-Walker para un proceso AR(2) y un AR(3).

AR(2)

)1()1(

)1()2(

2221

2221

22

21

)1(1

1)1(

)1(

)2(

)1(

)2(

)1(1

1)1(1

22

21

AR(3)

)2()1()1(

)1()1()2(

)1()2()3(

333231

333231

333231

Los coeficientes 3231ˆy ˆ se pueden expresar en función de 33 usando las dos últimas

ecuaciones del AR(3). Es decir,

213322

223321

32

31

21

22

33

22

21

1

33

1

32

31

33

32

31

333231333231

333231333231

)2(

)1(

)1(1

1)1(

)1(

)2(

)1(1

1)1(

)2(

)1(

)1(

)2(

)1(1

1)1(

)2()1()1( )2()1()1(

)1()2()1( )1()1()2(


70

Así, usando la primera ecuación del AR(3) para 33 , tenemos:

)1()2(1

)1()2()3(

)1()2()3()]1()2(1[

)1()1()2()2()3(

)1(][)2(][)3(

)1()2()3( )1()2()3(

2122

222133

2221212233

213322332221

21332233222133

323133333231

De la misma forma, se puede deducir kk , la cual está dada por:

1

1

,1

1

1

,1

)(1

)()(

k

j

jk

k

j

jk

kk

j

jkk

Como mencionamos antes, este procedimiento fue desarrollado por [Durbin (1960)].

IV.4.3. Algoritmo de Innovaciones

El algoritmo de innovaciones se caracteriza por ser un algoritmo recursivo, al igual que

el algoritmo de Durbin- Levinson.

Este algoritmo es aplicable a todos los procesos con segundo momento finito, sin

importar si el proceso es estacionario o no.

Sea }{ tX un proceso con media cero y segundo momento finito, 2)( tXE ,

defínase:

2

11

1

][

2,3,... si ,

1 si ,0ˆ

),(][

nnnn

nn

n

ji

XPXE

nXP

nX

jiXXE

Así mismo, se introduce el concepto de Innovación, o predicción en un paso, como:

nnn XXU ˆ


71

El proceso de innovaciones para un proceso estacionario, para toda n, procede como

sigue:

)...(ˆ

)(ˆ

)(ˆ

0ˆ

112211

22113333

112222

11111

nnnnnn XaXaXaXXXu

XaXaXXXu

XaXXXu

XXXXu

Matricialmente, tenemos:

nn

nnn

X

X

X

X

aaa

aa

a

u

u

u

u

elícitament

XAU

3

2

1

321

21

1

3

2

1

1

0

0 1

0 0 1

0 0 0 1

exp

Como se puede ver, la matriz An es no singular, por tanto existe su inversa. Sea Cn la

inversa de An:

1

0

0 1

0 0 1

0 0 0 1

3,12,11,1

2122

11

nnnnnn

nC

De esta forma,

nnn UCX

Por otro lado, el vector de predictores en un paso está dado por: '

1211 ),...,,(ˆnnn XPXPXX . Se puede ver que:


72

n

nn

nnnnnn

nnn

U

UC

UUCUXX

XXU

n

I)-(

ˆ

ˆ

donde

0

0

0 0

0 0 0

0 0 0 0

3,12,11,1

2122

11

nnnnnn

nn IC

Tal expresión nos da una representación del mejor predictor lineal de Xn en función de

las Innovaciones.

Si observamos el proceso de Innovaciones, podemos ver que estas son una estimación

del proceso de Ruido Blanco {Zt}. Por lo tanto, las Innovaciones deben satisfacer las

condiciones de tal proceso. Es decir, tienen media cero y son no correlacionadas. Esta

característica se toma como una ventaja del Algoritmo de Innovaciones sobre el de Durbin-

Levinson.

Por otro lado, podemos usar la última expresión de nX̂ y deducir que:

n

j

jnjnnj

n

j

jnnj

n

j

jjnn

nnnnnnn

XX

uu

uuuX

1

11

1

1

1

1,

121,11

)ˆ(

...ˆ

Lo anterior se resume en el siguiente resultado.

RESULTADO IV.4.- (Algoritmo de Innovaciones). Sea Sea }{ tX un proceso con media

cero y segundo momento finito, 2)( tXE . Entonces, los coeficientes nnn ,...,1 del mejor

predictor de 1ˆ

nX , así como el error cuadrado medio, se pueden calcular recursivamente de las

ecuaciones siguientes:


73

][)(

)1,1(][

,0 , )1,1(

)1,1(

1

0

2

,

2

11

1

0

,,

1

,

0

ji

n

j

jjnnnnnn

k

j

jjnnjkkkknn

XXEi,j

donde

nnXPXE

y

nkkn

Por estructura, el Algoritmo de Innovaciones es útil para los procesos MA(q) y

ARMA(p,q). Esto lo veremos con el ejemplo siguiente.

Ejemplo IV.4.3. Considere el proceso MA(1): ttt ZZX 1 ,donde }{ tZ ~ WN(0, 2 ).

Apliquemos el A.I para encontrar el mejor predictor de Xn+1.

Solución.

Antes, recordemos que para el proceso MA(1) se tiene que:

1||0

1||

0)1(

)( 2

22

hsi

hsi

hsi

h

, 1||0

1||)1(

01

)(2

hsi

hsi

hsi

h

Entonces, si

)1(

)1)(0()1()2,2(

)1(

)0(/)1()1(

definida está no (.)(.) que ya )1,2((.)(.))1,2( ,0

,1

221

0

22

2

11

2

110

0

0

j

2

1,11

1

0

1

0

1

0

1

0

1

011

j

j

jj

k

n


74

0

)2(

)0(/)2()2(

)1,3((.)(.))1,3( ,0

,2

1

0

1

0

1

0

1

022

j

k

n

)1(

)1()0()3,3(

)1(0)1()1(

)2,3( ,1

221

1

22

242

11

22

1

2

211

2

210

2

220

1

0

j

2

2,22

21

1

1

1

1

102211

1

1

0

0

2,21,1

1

121

j

j

j

jjjk

0 ,1

0 ,0

,3

32

33

k

k

n

)1(

)1()0()3,3(

)1(0)1()()1(

)3,4( ,2

221

2

22

242

22

22

2

2

312

2

311

2

320

2

330

2

0

j

2

3,33

21

2

1

2

1

20322103322

1

2

1

0

3,32,2

1

231

j

j

j

jjjk

En general, para el proceso MA(1), se tiene:

221

1

22

21

1

,

1

2,3,..., , 0

nn

n

jn

nj


75

IV.5. PRONÓSTICO DE PROCESOS ARMA(p,q)

La manera de llevar a cabo el pronóstico de los procesos ARMA(p,q) es a través del

Algoritmo de Innovaciones. Para esto, el A.I se aplica a un modelo transformado el cual hace

que el cálculo sea relativamente más sencillo.

Sea }{ tX el proceso ARMA(p,q) dado por:

tt ZBXB )()( con }{ tZ ~ ),0( 2WN

El proceso transformado (sugerido por Ansley-1979) es:

),max(

si )(

1,..., si

1

1

qpm

donde

mtXB

mtXW

t

t

t

Las autocovarianzas )(),( jiWWEji se obtienen a partir de la siguiente expresión:

modo. otro de 0

min

2maxmin )()(

1 )(

),(

0

1

2

2

m(i,j)

m(i,j)m(i,j)jirji

mi, jji

jiq

rjirr

p

r

XrX

X

…….(IV.5.1)

Aplicando el A.I al proceso }{ tW se obtiene:

mnWW

mnWW

Wq

j

jnjnnj

n

j

jnjnnj

n

si )ˆ(

1 si )ˆ(

ˆ

1

11

1

11

1

Donde los coeficientes nj y los errores cuadrados medios 2

11 )ˆ( nnn WWEr se

encuentran recursivamente del A.I visto en la sección IV.4.2.

Por otra parte, observe que de la transformación hecha, cada Xn puede ser escrito como

un a combinación lineal de Wj, j=1,…,n, y viceversa. Esto significa que el mejor predictor

lineal de alguna variable Y en términos de {1, X1,…, Xn} es el mismo para la variable Y en

términos de {1, W1,…, Wn}. Denotemos a ese predictor como Pn.


76

Usando la linealidad de Pn podemos ver que:

mtXXX

,...,mtXW

ptptt

t

t si ...ˆ

1 si ˆˆ

11

1

1

No olvidemos que nuestro objetivo es encontrar una expresión para calcular 1ˆ

nX .

Entonces:

)ˆ( )ˆ-(

ˆˆ

1 Si

11

1

11

1

1

1

1

1

1

nnnn

nn

nn

XXWW

XW

XW

m n

Sustituyendo, tenemos que:

n

j

jnjnnjn

n

j

jnjnnj

n

j

jnjnnjn

XXW

XXWWW

1

111

1

11

1

1

111

)ˆ(ˆ

)ˆ()ˆ(ˆ

n

j

jnjnnjn XXX1

111 )ˆ(ˆ

q

j

jnjnnjpnpnn

q

j

jnjnnjpnpnn

q

j

jnjnnj

q

j

jnjnnj

pnpnnn

XXXXX

XXXXX

XX

WW

XXXW

mn

1

11111

1

11111

1

11

1

1

11

111

1

1

)ˆ(...ˆ

)ˆ(...ˆ

)ˆ(

)ˆ(

...ˆˆ

Si

En resumen:

(p,q)mrWWEXXE

mnXXXX

mnXX

X

nnnnn

q

j

jnjnnjpnpn

n

j

jnjnnj

n

max , ˆˆ

si )ˆ(...

1 si )ˆ(

ˆ

2

11

22

11

1

1111

1

11

1


77

Los coeficientes nj y los errores cuadrados medios 2

11 )ˆ( nnn WWEr se

encuentran recursivamente aplicando el A.I, visto en la sección IV.4.2, al proceso {Wt}.

Una vez calculados los valores nXX ˆ,...,ˆ1 , podemos calcular el predictor lineal a

distancia h>1 como sigue:

(p,q)m

m-nhXXXP

m-nhXX

XPhn

hj

jhnjhnjhn

p

i

ihnj

hn

hj

jhnjhnjhn

hnn

max

si )ˆ()(

1 si )ˆ(

1

,1

1

1

,1

En la práctica, generalmente, se tiene n>m; por lo que generalmente se usa la

expresión: q

hj

jhnjhnjhn

p

i

ihnihnn hXXXPXP 1 todopara )ˆ()( ,1

1

…..(IV.5.2)

Para calcular el error cuadrado medio de predicción utilizaremos una aproximación

para muestras grandes, la cual usa como base la causalidad del modelo. Supongamos que el

modelo ARMA(p,q) es causal e invertible, entonces de acuerdo al capítulo III y

específicamente a las definiciones de causalidad e invertibilidad, tenemos que:

jhn

j

jhn ZX0

y jhn

j

jhnhnjhn

j

jhnhn XZXXXZ11

Sea YPn

~la mejor aproximación a Y. Aplicando este operador, nP

~, a las expresiones

anteriores, obtenemos:

jhn

hj

jjhnn

j

jhnn ZZPXP~~

0

y

jhn

j

njjhn

j

njhnnhnn XPXPZPXP11

~~)(

~~

De esta forma, el error cuadrado medio (aproximado) está dado por:

21

0

2

0

22

)~

()(~

jhn

h

j

j

jhn

hj

jjhn

j

j

hnnhn

ZE

ZZE

XPXEh


78

De esta igualdad y del hecho de que {Zt} sigue un proceso de Ruido Blanco, se tiene:

1

0

222 )(~h

j

jh

Ejemplo IV.5.1. Ilustraremos los pasos que se siguen en la predicción de un proceso

ARMA(1,2), dado por: 211 4.04.0 ttttt ZZZXX donde )1,0(}{ WNZ t .

Claramente el proceso es causal, dado que el polinomio autorregresivo 04.01 z

tiene por solución 15.2z . El primer paso es calcular la función de autocovarianzas usando

las ecuaciones de Yule-Walker y la secuencia }{ j que encontramos de la igualdad:

22

210 4.01)4.01...)(( zzzzz

96.0 4.00.4(1.4)- 4.04.0

4.1 1)1(4.0 14.0

1

4.01...4.0)4.0()4.0(

4.01...4.04.04.0

2221

1110

0

23

2

2

21100

23

2

2

2

2

1100

zzzzz

zzzzzzz

Las ecuaciones de Yule-Walker están dadas por:

0

2

1 ),max(0 para )()1()(j

jjkp qpmkpkkk

Para nuestro ejemplo, m=2, p=1 y 12. Así, tenemos las ecuaciones:

56.1)4.1)(4.0(1)0(4.0)1( ...))(1()0()1(

1

784.2)96.0)(4.0()4.1)(1(1)1(4.0)0( ...))(1()1()0(

0

2312011

2211001

k

k

La solución del sistema de ecuaciones anterior es: 0571.4)0( y 1828.3)1( . El

resto de autocovarianzas se calcula recursivamente de:

),max( para 0)()1()( 1 qpmkpkkk p

Así,

6692.0)2( )6731.1(4.0)3( 0)2(4.0)3(

6731.1)2( 4.0)1828.3(4.0)2( 4.0)1(4.0)2(


79

De acuerdo a la expresión en (IV.5.1), podemos construir la matriz ,...2,1,)],([ jiji

como sigue:

4.0)4,2()1,3()1(4.0)2()21(4.0)2()3,1( 3,1

1828.3)1,2()1()21()2,1( 2,1

0571.4)2,2()0()11()1,1( 1,1

ji

ji

ji

4,2 , 2con , ),(4.0)5,3( 5,3

3,2 , 1con , ),(4.14.01)4,3( 4,3

2 , ),(16.24.011)3,3( 3,3

56.1)0(4.0)1()11(4.0)1()3,2( 3,2

2

jijijiji

jijijiji

iiiji

ji

En resumen,

.4.14.00

4.116.24.14.00

4.04.116.256.14.0

04.056.10571.41828.3

04.01828.30571.4

El siguiente paso es encontrar los coeficientes knn, usando el algoritmo de

Innovaciones dado por:

1

0

2

,

2

11

1

0

,,

1

,

)1,1(][

,0 , )1,1(

n

j

jjnnnnnn

k

j

jjnnjkkkknn

nnXPXE

con

nkkn

1252.1)3,3(

7987.0)2,3( 5602.1)0571.4(7845.00571.4)2,2(

0986.00571.4/4.0)1,3( 7845.00571.4/1828.3)1,2(

1,0,2 0,1

1

2

210

2

222

02211

1

121

2

0

2

111

1

022

1

011

knkn


80

006.1)5,5(

0.9961)4,5( 0198.1)4,4(

3555.0)3,5( 9603.0)3,4(

0)2,5( 2564.0562.1/4.0)2,4(

00571.4/0)1,5( 00571.4/0)1,4(

3,2,1,0,4 2,1,0,3

3

2

412

2

421

2

430

2

444

242311433204433

1

3412

2

311

2

320

2

333

1432104422

1

2421322103322

1

231

04411

1

14303311

1

132

1

044

1

033

knkn

Note como a medida que n crece, 1n y jnj . Las predicciones con el A.I están

dadas por:

q

j

jnjnnjn

n

j

jnjnnj

n

mnXXX

mnXX

X

1

11

1

11

1

si )ˆ(4.0

1 si )ˆ(

ˆ

Supongamos 8 observaciones simuladas del proceso: 0.42, 0.63, 0.52, 0.82, 0.7, 1.12,

1.14, 1.09. Las predicciones quedan como:

56.0)ˆ()ˆ(4.0ˆ ,7

0294.0)ˆ()ˆ(4.0ˆ ,2

3295.0)42.0(7845.0)ˆ(ˆ ,1

0ˆ ,0

6672777178

1122222123

11112

1

XXXXXXn

XXXXXXn

XXXn

Xn

Para la predicción con 1h usamos la expresión (IV.5.2), quedando:

2 todopara 4.0

2,1 todopara )ˆ(4.0

78

2

,178

hXPXP

hXXXPXP

hhnn

hj

jhnjhnjhnhhnn

Así, para h=1,2,3 se tiene:

10118

88988929108

7788877828881898

ˆ4.0 ,3

23.1)ˆ(4.04.0)ˆ(ˆ4.0 ,2

87.0)ˆ(4.0)ˆ(4.0)ˆ()ˆ(4.0 ,1

XXPh

XXXXXXXPh

XXXXXXXXXXXPh

Para calcular el ECM de las predicciones, usamos la aproximación:


81

1

0

222 )(~h

j

jh

De esta forma,

6852.5)96.094.11)(1()3(~ ,3

7636.4)94.11)(1()2(~ ,2

1)1)(1()1(~ ,1

2222

222

22

h

h

h

Con lo que queda concluido el ejemplo del Algoritmo de Innovaciones.


82

CAPITULO V. MODELACIÓN CON MODELOS ARMA(p,q)

En capítulos anteriores asumimos conocer tanto el modelo, como la forma del proceso.

A partir de ahora, lo único que tenemos son datos y estamos interesados en saber qué procesos

son adecuados para explicarlos.

La determinación de un modelo ARMA(p,q) apropiado involucra varios aspectos, tales

como el orden, es decir, los valores de p y q, los coeficientes pii ,...,1, y qjj ,...,1, , y la

varianza del ruido blanco. También, la elección de un modelo depende de la bondad de ajuste.

El proceso de ajuste de un modelo de series de tiempo consiste en, primeramente,

graficar y si es necesario, se transforman los datos a un proceso estacionario mediante

diferenciación. Una vez que se tiene un proceso estacionario, debemos tener herramientas para

identificar posibles modelos. Por ejemplo:

Función de autocorrelación: para modelos MA(q)

Función de autocorrelación parcial : para modelos AR(p)

Criterio del AICC: todos los posibles modelos.

Como se mencionó antes, si algún modelo cumple con ser un “buen modelo”, debemos

tener estrategias para decidir qué modelo es mejor que otros. Para ello se llevan pruebas de

bondad de ajuste, las cuales incluyen, fundamentalmente, pruebas sobre los residuales.

Algunas de las pruebas que se llevan a cabo son:

Probar que los residuales forman un proceso de Ruido Blanco mediante:

Gráfica de autocorrelación de los residuales.

Pruebas de hipótesis (basadas en autocorrelación).

Probar que los residuales forman una muestra aleatoria mediante:

Prueba de Signo ordinario.

Prueba de Racha (Run test)

Prueba de puntos alternantes.

En este capítulo, el objetivo principal es estimar los parámetros )',...,( 1 p ,

)',...,( 1 q y 2 cuando se asume que p y q que son conocidos. También, se asume que

los datos han sido corregidos por la media, es decir, si el modelo ajustado es:

tt ZBXB )()(

entonces el correspondiente modelo para la serie estacionaria original {Yt} se encuentra

reemplazando Xt por yYt , donde y es la media muestral de los datos originales.

Cuando p y q son conocidos, “buenos” estimadores de y pueden ser encontrados

tomando en cuenta los datos como observaciones de una serie de tiempo estacionaria

Gaussiana y maximizando la verosimilitud con respecto a los p+q+1 parámetros. Estos

estimadores son conocidos como estimadores de máxima verosimilitud. Estos estimadores

se encuentran usando la opción de ITSM Model> Estimation>Autofit. S-PLUS ajusta


83

modelos por Máxima Verosimilitud por default y las instrucciones son Statistics> Time

Series> ARIMA Models y elegir las opciones que se deseen en el cuadro de diálogo.

Obviamente, para llegar a un modelo, debemos tener las herramientas necesarias de

estimación. Dado que este proceso requiere métodos numéricos, primero debemos tener

valores iniciales (una estimación previa) y después llevar a cabo la optimización. Dependiendo

del proceso, podemos usar los algoritmos de Yule-Walker o de Burg para modelos AR(p); y

el Algoritmo de Innovaciones o de Hannan-Rissanen para modelos MA(q) y ARMA(p,q).

En resumen, para llevar a cabo el ajuste de un proceso (datos) se tienen que seguir los

siguientes pasos:

1. Verificar si el proceso es estacionario. Si no lo es, entonces se deben trasformar los

datos para lograr estacionaridad (diferenciación, logaritmos, etc.).

2. Identificar posibles modelos mediante la función de autocorrelación, la función de

autocorrelación parcial o el AICC.

3. Seleccionar p y q mediante la estimación preliminar (Algoritmos de Yule-Walker,

Burg, Innovaciones o Hannan-Rissanen).

4. Llevar a cabo la prueba de bondad de ajuste.

5. Si el modelo elegido aprueba la prueba de bondad de ajuste, el proceso se termina. En

caso contrario, se regresa al paso 2.

Figura3. Ajuste de un proceso ARMA(p,q)

¿Es estacionaria la serie? No Diferenciar la serie

Si

Identificar posibles modelos

Estimación preliminar

Realizar pruebas de bondad de ajuste

¿Se cumplen las pruebas de bondad de ajuste? No

Si

Fin


84

V.1. ESTIMACIÓN PRELIMINAR

En esta sección consideraremos las cuatro técnicas de estimación preliminar que se

mencionaron arriba.

V.1.1. Estimación de Yule-Walker

Considere el proceso AR(p) causal. Dada esta propiedad, podemos escribir:

j

jtjt ZX ………………(5.1)

En este momento, supondremos que a través de alguna técnica construimos el valor de

p. El método de Yule-Walker consiste en encontrar los valores de las ’s tales que las

ecuaciones de Yule-Walker cumplan con las autocovarianzas. Es decir, multiplicando ambos

lados de la ecuación 5.1 por jtX para j=0,1,…,p y tomando valor esperado, obtenemos las

ecuaciones de Yule-Walker:

p

pp

y

')0(2

donde

)]'(),...,2(),1([

)',....,,(

)]([

21

1,

p

ji

p

p

p

jip

Por otra parte, si reemplazamos las covarianzas )( j por las correspondientes

covarianzas muestrales )(ˆ j , obtenemos:

p

pp

y

ˆ')0(ˆˆ

ˆˆ

2

Note que, bajo los supuestos iniciales, en este momento el vector de incógnitas es el

vector . Ahora, si 0)0(ˆ , entonces mˆ es no singular para m=1,2,…. De esta forma,

podemos escribir las ecuaciones muestrales de Yule-Walker:

)0(ˆ/ˆ)]'(ˆ),...,2(ˆ),1(ˆ[ˆ

:donde

],ˆˆ'ˆ1)[0(ˆˆ

ˆˆˆˆˆ

12

11

pp

ppp

pppp

p

R

R


85

Según Brockwell y Davis, ˆ es un estimador consistente de . Ver [Brockwell y Davis

(2002), pp. 140].

Si deseamos hacer inferencia sobre podemos usar el hecho de que:

),(ˆ 121

pnN

En la práctica no conocemos el verdadero orden del modelo generado por los datos. De

hecho, puede suceder que el modelo AR(p) no sea apropiado. Suponiendo que el modelo

AR(p) es adecuado, resta encontrar el orden de tal modelo, es decir, el valor de p. Dos técnicas

que se usan en esta parte del proceso de modelación son: aplicando intervalos de confianza

para los componentes del modelo y otra, minimizando el AICC.

El programa ITSM grafica la función de autocorrelación muestral junto con las bandas

de confianza usando aproximación Normal. De esta gráfica es fácil encontrar el valor de p. S-

PLUS también grafica las bandas de confianza en cuestión siguiendo Statistics> Time Series>

Autocorrelations.

Si queremos aplicar el criterio del AICC, se considera el valor:

)2/()1(2)/)(,(ln2 pnnpnSLAICCpp

donde L es la verosimilitud. Note que mientras más grande sea L, más pequeño será el valor

del AICC, y por lo tanto el modelo es mejor. Para seleccionar p, se ajustan modelos para

diferentes valores de p* y aquella p

* que minimice el AICC será el estimador de p.

NOTA1: No todos los criterios de selección darán el mismo valor de p.

En resumen, tenemos que el modelo AR(p) ajustado por Yule-Walker es:

]ˆˆ'ˆ1)[0(ˆˆ

ˆˆ)'ˆ,...,ˆ(ˆ

),ˆ,0(

:donde

ˆ...ˆ

1

1

1

11

pppp

pppppp

pt

tptpptpt

R

R

WNZ

ZXXX

Para n grande, los intervalos de confianza al 95% para los componentes de son:

2/12/1

ˆ96.1ˆjjpj n

Para probar la hipótesis 0:0 pjH , consideramos el intervalo anterior, si el valor

cero se encuentra en tal intervalo no se rechaza H0, de otro modo, se rechaza.


86

Ejemplo V.1.1. Consideremos los datos del índice de Utilidad Dow Jones de Agosto 28 a

Diciembre 28 de 1972. El archivo es DOWJ.TXT.

Solución.

Los datos presentan el siguiente comportamiento:

Número de observaciones = 78

Media muestral = .1157E+03

Gráfica19. Serie índice de utilidad Dow Jones Ago-28 a Dic-28 de 1972.

10 30 50 70

105

110

115

120

125

DJ

Note que es necesario diferenciar la serie para obtener un proceso estacionario. Es

decir, tendremos un nuevo modelo: 1ttt DDY . Por tanto, ajustaremos un proceso AR a

esta nueva serie mediante Yule-Walker. La serie diferenciada es:

Gráfica20. Serie índice de utilidad Dow Jones diferenciada a distancia 1.

10 30 50 70

-1.0

-0.5

0.0

0.5

1.0

1.5

DJ

Las instrucciones para llevar a cabo lo anterior en S-PLUS son las siguientes:

dif.DJ<-diff(DOWJ,1,1)

guiPlot(PlotType="Y Series Lines", Columns=1, DataSet="DOWJ")

guiPlot(PlotType="Y Series Lines", Columns=1, DataSet="dif.DJ")

donde DOWJ es el nombre del Dataset con los datos del Índice de utilidad Dow Jones.

Las autocorrelaciones muestrales de la serie diferenciada, así como la gráfica de estas,

las obtenemos siguiendo Statistics > Time Series> Autocorrelations en el Dataset dif.DJ,


87

entonces aparecerá un cuadro de diálogo en el que seleccionamos Autocorrelation en la

opción Estimate Type. Los resultados se presentan enseguida:

Autocorrelation matrix:

lag dif.DJ

1 0 1.0000

2 1 0.4219

3 2 0.2715

4 3 0.1617

5 4 0.2270

6 5 0.1490

7 6 0.2006

8 7 0.1721

9 8 0.0262

10 9 0.0400

11 10 0.0545

12 11 0.1767

13 12 0.0142

14 13 0.1947

15 14 0.0578

16 15 -0.0758

17 16 -0.1796

18 17 0.0760

19 18 0.0159

Gráfica21. ACF y PACF Serie del índice de utilidad Dow Jones diferenciada a

distancia 1.

Lag

AC

F

0 5 10 15

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

Series : dif.DJ[,"difDJ"]

Lag

Pa

rtia

l A

CF

0 5 10 15

-0.2

-0.1

0.0

0.1

0.2

0.3

0.4

Series : dif.DJ[,"difDJ"]

La gráfica de la PACF (derecha) sugiere ajustar un modelo AR(1), puesto que las

demás autocorrelaciones son estadísticamente iguales a cero. Para obtener la estimación

preliminar por Yule-Walker y con mínimo AICC, agregamos las instrucciones siguientes (en

S-PLUS): yw.dif.DJ<-ar.yw(dif.DJ, aic=T)

yw.dif.DJ

El modelo obtenido es:

$order:

[1] 1

[,1]

[1,] 0.4218786

$var.pred:

[,1]

[1,] 0.1518409


88

Así, el correspondiente modelo para Yt, la serie original, es:

8)WN(0,0.151}{Z , )1157.0(4219.01157.0 t1 ttt ZYY

El intervalo de confianza para el coeficiente autorregresivo es:

)6244.0,2194.0(77)1799.0(

)1518)(.96.1(4219.0

Cabe notar que el intervalo de confianza no contiene al cero, por lo que se concluye

que 01 con 05.0 de significancia.

V.1.2. Algoritmo de Burg

El Algoritmo de Burg estima la función de autocorrelación parcial ,...},{ 2211

minimizando sucesivamente la suma de cuadrados de los predictores un paso adelante y un

paso atrás con respecto a los coeficientes ii .

Dadas las observaciones },...,,{ 21 nxxx de un proceso estacionario con media cero,

definiremos:

)1()()(

)()1()(

)()(

11

11

100

tutvtv

tvtutu

xtvtu

iiiii

iiiii

tn

Entonces, el estimador de 11 usando el algoritmo de Burg, )(

11

B , se encuentra

minimizando la siguiente expresión:

n

t

tvtun 2

2

1

2

1

2

1 )]()([)1(2

1

con respecto a 11. La solución nos dará los valores de )(),( 11 tvtu y 2

1 , que se usarán para

encontrar el estimador de 22 y los valores de )(),( 22 tvtu y 2

2 . Esto sucede minimizando la

nueva expresión: n

t

tvtun 3

2

2

2

2

2

2 )]()([)2(2

1

El proceso de estimación continua de la misma forma hasta obtener el estimador )(B

pp y

los correspondientes valores mínimos de 2)(B

p .

El cálculo de los estimadores de ii y 2

i descritos arriba es equivalente a resolver las

siguientes ecuaciones recursivas:


89

Algoritmo de burg

)](2/[)(1

)()1()(1)1(

)]1()([)(

2

)]()1([)1(

2)(2)(

222)(

1

11

)(

2

2

0

2

0

inid

nuividid

tutvid

tvtud

B

ii

B

i

ii

B

ii

n

it

ii

B

ii

n

t

La distribución de los coeficientes estimados por el Algoritmo de Burg, para muestras

grandes, es la misma que la de los estimadores de Yule-Walker. Sin embargo, no se asegura

que las estimaciones (valores) sean “iguales”.

Ejemplo V.1.2. Consideremos los datos del nivel del Lago Hurón (en pies) en los años 1875-

1972. El archivo es LAKE.TXT.

Solución.

Esta serie tiene 98 datos }98,...,1,{ tYt . Ajustaremos un modelo AR a los datos sin

eliminar algún componente de tendencia, es decir no se diferenciará la serie. Los datos, las

funciones de autocorrelación y autocorrelación parcial se muestran en las gráficas siguientes:

Gráfica22. Serie nivel del lago Hurón años 1875-1972.

10 30 50 70 90

5

7

9

11

lake

Gráfica23. ACF y PACF de la serie nivel del lago Hurón años 1875-1972.

Lag

AC

F

0 5 10 15

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

Series : Lake$lake

Lag

Pa

rtia

l A

CF

0 5 10 15

-0.2

0.0

0.2

0.4

0.6

0.8

Series : Lake$lake


90

Las gráficas anteriores las obtenemos mediante las instrucciones:

guiPlot(PlotType="Y Series Lines", Columns=1, DataSet="Lake")

acf(x = Lake$lake, type = "correlation")

acf(x = Lake$lake, type = "partial")

donde “Lake” es el nombre del Dataset con la serie en cuestión.

La gráfica de la PACF (arriba a la derecha) sugiere ajustar un modelo AR de orden p=2

a los datos corregidos por la media, 0041.9tt YX .

Para obtener la estimación preliminar del modelo autorregresivo por el Algoritmo de

Burg en para los datos corregidos, agregamos las líneas siguientes en nuestro Script File:

Lake.corr<-Lake-mean(t(Lake)) /corrige los datos por la media/

burg.lake<-ar.burg(Lake.corr, aic=T)

burg.lake

La opción aic=T asegura que se obtendrá el modelo con mínimo AICC. Los resultados

son:

$order:

[1] 2

$ar:

[,1]

[1,] 1.0450438

[2,] -0.2457325

$var.pred:

[,1]

[1,] 0.4788279

Así, nuestra estimación preliminar queda como:

8)WN(0,0.478}{Z , )0041.9(2457.0)0041.9(0450.10041.9 t21 tttt ZYYY

V.1.3. Algoritmo de Innovaciones

Al igual que el método de Yule-Walker, el Algoritmo de Innovaciones puede usarse

como método de estimación preliminar, pero en este caso, para modelos MA(q) y ARMA(p,q).

La idea de aplicar este método radica en que las ecuaciones del Algoritmo de

Innovaciones, tanto de las knn, , como de las n , se plantean con las autocovarianzas

muestrales, quedando como incógnitas las knn, .

Para aplicar el método es necesario tener un valor inicial de q. A continuación se

enuncian algunas formas de obtener un valor preliminar de q:


91

1. Sabemos que para un proceso MA(q), las autocorrelaciones )(m son cero para m > q.

Por otro lado, sabemos de la fórmula de Barttlet (Resultado IV.2) que )(ˆ m se

distribuye asintóticamente Normal, )/)()1(21(,0( 22 nqN . Así, podemos

usar la gráfica de )(ˆ m para obtener una estimación preliminar del orden q como el

valor más pequeño de m, tal que )(ˆ m sea cero para m > q.

2. Se puede mostrar que si {Xt} sigue un proceso MA(q) invertible tt ZBX )( donde

)IID(0,}{Z 2

t con las condiciones 1,)( 0

4

tZE y 0j para j > q, entonces

los estimadores de Innovaciones tienen la propiedad: Si n , m(n) una sucesión de

enteros tal que )(nm , pero 0/)( 3 nnm , entonces para cada entero positivo k,

se tiene que:

),0()ˆ,...,ˆ,ˆ( 2211 ANMVn kmkmm

donde la matriz de covarianzas A tiene como componente (i,j) al elemento:

),min(

1

ji

r rjriija

Este resultado nos permite construir intervalos de confianza para los coeficientes y

decidir cuales de ellos son estadísticamente diferentes de cero y así decidir el orden q.

3. Al igual que para los procesos AR(p), una aproximación más sistemática para

seleccionar el orden de los modelos MA(q) es encontrar el valor de q y

)'ˆ,...,ˆ,ˆ(ˆ21 mqmmq que minimice el valor AICC, dado por:

)2/()1(2)/)(,(ln2 qnnqnSLAICC qq

De esta forma, el modelo MA(m) ajustado por Innovaciones es:

mtmmtmtt ZZZX ˆ...ˆ11 con )ˆ(}{ mt WNZ

Asintóticamente (muestras grandes), un intervalo de confianza para mj al 95% de

confianza se puede obtener como sigue:

2/1

1

0

22/1 ˆ96.1ˆj

i

mimj n

Hasta ahora, en el desarrollo del Algoritmo de Innovaciones hemos supuesto que p=0 y

q>0. Pero el Algoritmo se puede llevar a casos más generales, es decir, cuando p>0 y q>0.


92

Recordemos que la causalidad de un proceso ARMA(p,q) garantiza la expresión:

0j

jtjt ZX

donde los coeficientes }{ j se encuentran de las ecuaciones:

p

k

kjkjj

1

j=0,1,…

Con 10 y 0j para j > q.

Para estimar la secuencia }{ j , j=1,2,…,p+q, se pueden usar los estimadores del A.I

qpmmm ,21ˆ,...,ˆ,ˆ , ya que el modelo se supone causal. Así, sustituyendo las mj

ˆ por los j ,

obtenemos el sistema de ecuaciones:

qmppqmpqm

pqmpqmqm

pqmpqmqmq

mm

m

,1,1,

1,,11,

,1,1

1122

11

ˆˆˆ

ˆˆˆ

ˆˆˆˆ

ˆˆˆ

ˆˆ

Empezamos por resolver las últimas p ecuaciones para encontrar )'ˆ,...,ˆ,ˆ(ˆ21 p . Es

decir, resolvemos:

pqmpqmpqm

pqmqmqm

pqmqmqm

pqm

qm

qm

2

1

,2,1,

2,,1,

1,1,,

,

2,

1,

ˆˆˆ

ˆˆˆ

ˆˆˆ

ˆ

ˆ

ˆ

Una vez que tenemos )'ˆ,...,ˆ,ˆ(ˆ21 p , podemos determinar la estimación de

)',...,,.( 21 q mediante:

),min(

1

,ˆˆˆ

pj

k

kjmkmjj j=1,2,…,q


93

El estimador de la varianza del proceso de Ruido Blanco está dado por:

n

t

tt

t

XXnr 1

2

1

2 )ˆ(1

ˆ

donde tX̂ es el valor de la predicción a un paso usando los coeficientes encontrados

anteriormente y 2

11 )ˆ( nnn WWEr como en la sección IV.5.

Ejemplo V.1.3. Consideremos los datos del nivel del Lago Hurón (ver ejemplo anterior).

Solución.

El paquete S-PLUS no trae la opción de estimación preliminar por Innovaciones, por lo

que usaremos ITSM-2000.

En el ejemplo V.1.2 ajustamos un modelo AR(2) a los datos corregidos por la media

usando el Algoritmo de Burg. Si ahora queremos ajustar un modelo ARMA(1,1) usando el

Algoritmo de Innovaciones, en ITSM tenemos que seguir los pasos: 1) Dar clic en el botón

superior de estimación preliminar y seleccionar yes para corregir los datos por la media; 2)

Especificar 1 en el orden de AR y 1 en MA y estimación por algoritmo de Innovaciones; y 3)

Clic en OK para obtener el modelo estimado:

ARMA Model:

X(t) - .7234 X(t-1) = Z(t) + .3596 Z(t-1)

WN Variance = .475680

AICC = .212894E+03

para los datos corregidos por la media, 0041.9tt YX .

Es interesante notar que el valor de AICC ajustando el modelo ARMA(1,1) es 212.89,

el cual es más pequeño al correspondiente valor de AICC (213.57) ajustando un modelo AR(2)

por cualquier método. Esto sugiere que el modelo ARMA(1,1) es mejor que el AR(2). Sin

embargo, se deben llevar a cabo pruebas de bondad de ajuste de los modelos para poder elegir

a uno de ellos.

V.1.4. Algoritmo de Hannan-Rissanen

Recordemos que la secuencia de errores {Zt} es no-observable; no obstante, podemos

usar los residuales como una estimación de ella.

El Algoritmo de Hannan-Rissanen consiste en realizar la regresión por mínimos

cuadrados de la serie {Xt} sobre los residuales qtt ZZ ˆ,...,ˆ1 resultantes del ajuste de un modelo

autorregresivo. En seguida se describe el procedimiento.


94

1. Estimar un modelo AR(m) con m “grande” usando el Algoritmo de Yule-Walker de la

sección V.1.1. Sea )'ˆ,...,ˆ(ˆ1 mmm el vector de coeficientes estimados. Entonces calculamos

los residuales como la diferencia entre el valor de la observación y la estimación:

mtmmtmtt XXXZ ˆˆˆ11 , t=m+1,…,n

2. Ahora, podemos llevar a cabo la regresión de Xt sobre qttptt ZZXX ˆ,...,ˆ,,..., 11

y encontrar

el vector de parámetros )'ˆ,...,ˆ,ˆ,...,ˆ( 11 qp minimizando con respecto a la cantidad

(mínimos cuadrados):

n

qmt

qtqtptptt ZZXXXS1

1111ˆˆ)(

Así, obtenemos el estimador de Hannan-Rissanen como:

nXZZZ '1' )(ˆ

donde )',...,( 1 nqmn XXX es un vector de orden n-m-q y la matriz Z es de orden (n-m-q) x

(p+q) dados por:

qnnnpnnn

mqmqmpqmqmqm

mqmqmpqmqmqm

nqmn

ZZZXXX

ZZZXXX

ZZZXXX

Z

XXX

ˆˆˆ

ˆˆˆ

ˆˆˆ

),....,(

2121

2121

1111

'

1

Claramente, si el modelo AR ajustado en el paso1 es de orden 0, la matriz Z sólo

contendrá las últimas q columnas.

El estimador de la varianza del Ruido Blanco por este método está dado por:

qmn

SHR

)ˆ(ˆ

2

donde )(S está definida como la suma de errores de estimación al cuadrado.

La estimación preliminar en ITSM por el Algoritmo de Hannan-Rissanen consiste en

seleccionar Model>Estimation> Preliminary y seleccionar la opción Hannan-Rissanen del

cuadro de diálogo. El programa restringe valores de q entre 0 y 27.


95

El algoritmo de Hannan-Rissanen incluye un tercer paso, que consiste en llevar a cabo

una regresión más.

Definamos las variables:

(p,q)tZXX

(p,q)t

Z q

j

jtj

p

j

jtjt

tmax si ,

~ˆˆ

max si ,0~

11

y para t=1,…,n,

(p,q)tZV

(p,q)t

Vt

p

j

jtj

tmax si ,

~ˆ

max si ,0

1

(p,q)tZW

(p,q)t

Wjt

q

j

tj

tmax si ,

~ˆ

max si ,0

1

Minimizando la cantidad:

n

qpt

q

k

ktpk

p

j

jtjt WVZS1)max(

2

11

* ~)(

encontraremos el vector *. Entonces el estimador mejorado de , dado por

*ˆ~,

tiene la misma eficiencia (asintótica) que el estimador de máxima verosimilitud, que se

muestra enseguida.

V.2. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD

Suponga un proceso {Xt} estacionario ARMA(p,q) y deseamos estimar los parámetros

, y 2 (p y q conocidos).

Para aplicar el método de máxima verosimilitud debemos suponer una distribución del

proceso, digamos una distribución Normal con media cero y función de autocovarianzas )(h .

Si disponemos de n observaciones de esta distribución, podemos plantear la función de

distribución conjunta de )',...,( 1 nn XXX como sigue:

}2

1exp{)2()( 1'2/12/

nnnn

n

n XXL

donde n es la matriz de covarianzas, )( '

nnn XXE .

Flores Santillan Salvador 2008 1

Documents

Transcript of Flores Santillan Salvador 2008 1