Econometria Financeira - Arquivo Escolar

Econometria Financeira 

João Nicolau 

ISEG/UTL e CEMAPRE 

Abril 2011 

(Versão preliminar e incompleta)

Notas Prévias 

Comentários são bem vindos (nicolau@iseg.utl.pt). Neste documento abordam-se métodos 

econométricos relevantes para finanças. Veremos algumas aplicações financeiras, mas a ên- 

fase deste documento está na componente econométrica. A leitura deste documento supõe 

conhecimentos sobre inferência estatística e o modelo de regressão linear múltiplo, no que 

diz respeito à estimação e à inferência estatísticas sob as hipóteses clássicas. 

Notação e Convenções 

Escreve-se f (x) para designar a função densidade de probabilidade (fdp) de uma variável 

aleatória X. Quando estão em causa duas variáveis aleatórias X e Y, escreve-se, geralmente, 

fx e fy para designar, respectivamente, as fdp de X e Y (f (x) e f (y) é, em princípio, 

incorrecto). O uso simultâneo das notações f (x) (fdp de X) e f (x, y) (fdp conjunta de 

(X, Y )) é conflituoso, pois f ou é uma aplicação de R em R + ou é uma aplicação de R 2 

em R + (e, portanto, f não poderá designar simultaneamente ambas as aplicações). A rigor 

deverá escrever-se fx e fx,y. No entanto, se não existir perigo de confusão, opta-se pela 

notação mais simples e habitual f (x) e f (x, y). Escreve-se também f (y| x) ou fy|x para 

designar a fdp condicionada de Y dado X = x. Em suma, nesta versão do documento, 

adoptam-se as notações que se entendem necessárias e convenientes de forma a não causar 

confusão. Por exemplo, num certo contexto, pode escrever-se f (x, y) e, noutro diferente, 

pode escrever-se fy,x. 

O processo estocástico {yt, t = 1, 2, ...} escreve-se indiferentemente como {yt} ou y. 

a := b significa, a é igual a b por definição. Por exemplo, se quisermos identificar a letra 

µ como a média de X, escrevemos µ := E (X). Para este tipo de relações, certos autores 

usam µ ≡ E (X) . 

Em séries temporais usamos os termos “amostra grande” (ou “amostra pequena”) para 

identificar séries temporais longas (ou curtas). 

3

Acrónimos e Siglas Frequentemente Usados 

An 

a 

d 

∼ N - An tem distribuição aproximadamente normal (usamos −→ para a convergên- 

cia em distribuição). 

EE - Estritamente estacionário. 

EDF - Equação às diferenças Finitas. 

EQM - Erro Quadrático Médio. 

ESO - Estacionário de segunda ordem ou Estacionaridade de Segunda Ordem. 

FAC - Função de Autocorrelação. 

FACP - Função de Autocorrelação Parcial. 

fdp - Função Densidade de Probabilidade. 

HC- Heterocedasticidade Condicional. 

IC - Intervalo de Confiânça (ou de previsão, consoante o contexto). 

i.i.d. - Independente e Identicamente Distribuído. 

RB - Ruído Branco. 

v.a. - Variável Aleatória. 

4

Conteúdo 

I Introdução 13 

1 Objecto e Método da Econometria Financeira 15 

2 Preços e Retornos 17 

2.1 Retornos Discretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 

2.1.1 Retorno Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 

2.1.2 Retorno Multi-Períodos . . . . . . . . . . . . . . . . . . . . . . . 19 

2.1.3 Retornos de Portfolios . . . . . . . . . . . . . . . . . . . . . . . . 20 

2.1.4 Retornos Ajustados aos Dividendos . . . . . . . . . . . . . . . . . 22 

2.1.5 Retornos Ajustados à Inflação . . . . . . . . . . . . . . . . . . . . 22 

2.1.6 Retornos Anualizados . . . . . . . . . . . . . . . . . . . . . . . . 23 

2.2 Retornos Contínuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 

2.2.1 Retorno Multi-Períodos . . . . . . . . . . . . . . . . . . . . . . . 26 

2.2.2 Retornos de Portfolio . . . . . . . . . . . . . . . . . . . . . . . . . 27 

2.2.3 Retornos Ajustados aos Dividendos . . . . . . . . . . . . . . . . . 27 

2.2.4 Retornos Ajustados à Inflação . . . . . . . . . . . . . . . . . . . . 27 

2.2.5 Retornos Anualizados . . . . . . . . . . . . . . . . . . . . . . . . 28 

2.3 Retornos Contínuos vs. Retornos Discretos . . . . . . . . . . . . . . . . . 30 

2.A Outra Interpretação de rt . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 

2.B Notas Técnicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 

2.B.1 Retorno Multi-Períodos como Função dos Retornos Simples . . . . 32 

2.B.2 r e R: Série de Taylor . . . . . . . . . . . . . . . . . . . . . . . . 32 

3 Factos Empíricos Estilizados de Séries Temporais Financeiras 33 

3.1 Regularidade Empíricas relacionadas com a Distribuição Marginal . . . . . 33 

3.1.1 Prémio de Risco Positivo . . . . . . . . . . . . . . . . . . . . . . . 34 

5

3.1.2 Desvios Padrão Diferentes Consoante os Activos . . . . . . . . . . 35 

3.1.3 Retornos de Acções e de Índices tendem a Apresentar Assimetria 

Negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 

3.1.4 Retornos Apresentam Distribuições Leptocúrticas . . . . . . . . . . 37 

3.1.5 Aumento da Frequência das Observações Acentua a Não Normali- 

dade das Distribuições . . . . . . . . . . . . . . . . . . . . . . . . 43 

3.1.6 Efeitos de Calendário . . . . . . . . . . . . . . . . . . . . . . . . . 44 

3.1.7 Distribuições Teóricas para os Retornos . . . . . . . . . . . . . . . 47 

3.1.8 Estimação Não Paramétrica da Função Densidade de Probabilidade 54 

3.2 Regularidade Empíricas relacionadas com a Distribuição Condicional . . . 55 

3.2.1 Autocorrelações Lineares Baixas entre os Retornos . . . . . . . . . 55 

3.2.2 Volatility Clustering . . . . . . . . . . . . . . . . . . . . . . . . . 58 

3.2.3 Forte Dependência Temporal da Volatilidade . . . . . . . . . . . . 60 

3.2.4 Efeito Assimétrico . . . . . . . . . . . . . . . . . . . . . . . . . . 62 

3.2.5 Aumento da Frequência das Observações Acentua a Não Linearidade 64 

3.2.6 Co-Movimentos de Rendibilidade e Volatilidade . . . . . . . . . . 64 

4 Processos Estocásticos: Revisões 67 

4.1 Processo Estocástico e Filtração . . . . . . . . . . . . . . . . . . . . . . . 67 

4.2 Valores Esperados Condicionais: Principais Resultados . . . . . . . . . . . 68 

4.3 Distribuição Condicional versus Distribuição Marginal . . . . . . . . . . . 72 

4.4 Processos Estocásticos Elementares, Estacionaridade e Fraca Dependência . 77 

4.4.1 Processos Estocásticos Elementares . . . . . . . . . . . . . . . . . 77 

4.4.2 Estacionaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 

4.4.3 Fraca Dependência . . . . . . . . . . . . . . . . . . . . . . . . . . 83 

4.5 Processos Ergódicos e Estritamente Estacionários . . . . . . . . . . . . . . 87 

4.5.1 Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 

4.5.2 Modelos Não Lineares do tipo yt = g (yt−1, yt−2, ..., yt−p) + ut . . . 96 

4.5.3 Estabilidade em EDF . . . . . . . . . . . . . . . . . . . . . . . . . 99 

4.5.4 Modelos Não Lineares do tipo yt = Atyt−1+Bt . . . . . . . . . . 100 

4.5.5 Modelos Não Lineares do tipo yt = g (yt−1, u t) . . . . . . . . . . . 104 

4.A Demonstrações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 

6

II Modelos 109 

5 O Problema da Especificação 111 

5.1 O Axioma da Correcta Especificação do Modelo . . . . . . . . . . . . . . . 111 

5.2 Modelação da Média Condicional e Modelos Dinamicamente Completos . . 113 

5.2.1 Modelos Dinamicamente Completos . . . . . . . . . . . . . . . . . 113 

5.2.2 Média Condicional Não Linear . . . . . . . . . . . . . . . . . . . . 115 

5.3 Modelação da Variância Condicional . . . . . . . . . . . . . . . . . . . . . 116 

5.4 Distribuição de Condicional . . . . . . . . . . . . . . . . . . . . . . . . . 116 

6 Modelação da Média: Abordagem Linear 119 

6.1 Definições Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 

6.1.1 Autocorrelação de Ordem s (FAC) . . . . . . . . . . . . . . . . . . 120 

6.1.2 Autocorrelação Parcial de Ordem s (FACP) . . . . . . . . . . . . . 120 

6.1.3 Operador de Diferença e de Atraso . . . . . . . . . . . . . . . . . . 122 

6.2 Processos Lineares Estacionários . . . . . . . . . . . . . . . . . . . . . . . 123 

6.2.1 Processos Média Móvel . . . . . . . . . . . . . . . . . . . . . . . 123 

6.2.2 Processos Autoregressivos . . . . . . . . . . . . . . . . . . . . . . 127 

6.2.3 Processos ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 

6.3 Processos Lineares Não Estacionários . . . . . . . . . . . . . . . . . . . . 139 

6.3.1 Não Estacionaridade na Média . . . . . . . . . . . . . . . . . . . . 139 

6.3.2 Não Estacionaridade na Variância . . . . . . . . . . . . . . . . . . 146 

6.4 Modelação ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 

6.5 Variáveis Impulse-Dummy em Modelos de Regressão: Cuidados a Observar 154 

6.5.1 Inconsistência do Estimador . . . . . . . . . . . . . . . . . . . . . 154 

6.5.2 Inconsistência do Teste-t . . . . . . . . . . . . . . . . . . . . . . . 156 

6.5.3 Uma Solução para ensaiar H0 : γ = 0 . . . . . . . . . . . . . . . . 156 

6.5.4 Impulse-dummies e a matriz de White . . . . . . . . . . . . . . . . 157 

6.5.5 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 

6.6 Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 

6.6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 

6.6.2 Previsão Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 

6.6.3 Intervalos de Previsão I . . . . . . . . . . . . . . . . . . . . . . . . 168 

7

6.6.4 Intervalos de Previsão II - Variância do Erro de Previsão no modelo 

ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 

6.6.5 Previsão de (muito) Longo Prazo . . . . . . . . . . . . . . . . . . 177 

6.6.6 Qualidade da Previsão . . . . . . . . . . . . . . . . . . . . . . . . 180 

6.6.7 Outros Métodos de Previsão Lineares . . . . . . . . . . . . . . . . 188 

6.A Método para Obter a FACP . . . . . . . . . . . . . . . . . . . . . . . . . . 190 

6.B Transformação de um Processo MA(1) Não Invertível num Invertível . . . 191 

6.C Invertibilidade de Processos MA (exemplos) . . . . . . . . . . . . . . . . . 192 

6.D Estacionaridade de 2 a Ordem do Processo AR(1) . . . . . . . . . . . . . . 195 

6.E Estacionaridade de 2 a Ordem do Processo AR(p) . . . . . . . . . . . . . . 198 

6.F Processos ARMA Sazonais . . . . . . . . . . . . . . . . . . . . . . . . . . 199 

6.G Demonstração da Proposição 6.5.1 . . . . . . . . . . . . . . . . . . . . . . 203 

6.H Uma Nota sobre Intervalos de Confiança . . . . . . . . . . . . . . . . . . . 204 

6.I U E + U V + U C = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 

7 Modelação da Média: Abordagem Não Linear 207 

7.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 

7.2 Estabilidade em Equações às Diferenças Finitas Determinísticas . . . . . . 210 

7.2.1 Pontos Fixos e Estabilidade de Sistemas Lineares . . . . . . . . . . 211 

7.2.2 Estabilidade de Sistemas Não Lineares . . . . . . . . . . . . . . . 217 

7.2.3 Pontos Periódicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 

7.3 Modelo Limiar Autoregressivo (Threshold AR - TAR) . . . . . . . . . . . 234 

7.3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234 

7.3.2 Soluções Periódicas . . . . . . . . . . . . . . . . . . . . . . . . . 236 


7.3.4 Exemplo (Bounded Random Walk) . . . . . . . . . . . . . . . . . . 241 

7.3.5 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 

7.3.6 Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 

7.4 Modelo Markov-Switching . . . . . . . . . . . . . . . . . . . . . . . . . . 248 

7.4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248 

7.4.2 Cadeias de Markov em tempo discreto com espaço de estados dis- 

cretos finito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 

7.4.3 Modelos Markov-Switching . . . . . . . . . . . . . . . . . . . . . 254 

8

7.4.4 Função densidade de probabilidade de y . . . . . . . . . . . . . . . 255 

7.4.5 Probabilidades Associadas aos Regimes . . . . . . . . . . . . . . . 256 


7.4.7 Estimação e Inferência . . . . . . . . . . . . . . . . . . . . . . . . 263 

7.4.8 Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 

7.4.9 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266 

8 Modelação da Heterocedasticidade Condicionada - Caso Univariado 269 

8.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 

8.1.1 Por que razão a volatilidade não é constante? . . . . . . . . . . . . 269 

8.1.2 Processos Multiplicativos . . . . . . . . . . . . . . . . . . . . . . 272 

8.1.3 Distribuições de Caudas Pesada . . . . . . . . . . . . . . . . . . . 273 

8.1.4 O papel da Média Condicional e o Modelo de Heterocedasticidade 

Condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274 

8.1.5 Vantagens dos modelos de Heterocedasticidade Condicionada . . . 274 

8.2 Modelo ARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 

8.2.1 Dois Primeiros Momentos de ut . . . . . . . . . . . . . . . . . . . 277 

8.2.2 Representação AR de um ARCH . . . . . . . . . . . . . . . . . . . 277 

8.2.3 Estacionaridade de Segunda Ordem do ARCH(q) . . . . . . . . . . 278 

8.2.4 FAC e FACP de um u 2 t e Identificação do Processo ARCH(q) . . . . 279 

8.2.5 Características da Distribuição Marginal de ut . . . . . . . . . . . . 280 

8.2.6 Momentos e Distribuição de y . . . . . . . . . . . . . . . . . . . . 282 

8.2.7 Volatilidade: Definições . . . . . . . . . . . . . . . . . . . . . . . 283 

8.3 Modelo GARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284 

8.3.1 GARCH(p,q) representa um ARCH(∞) . . . . . . . . . . . . . . . 284 

8.3.2 Representação ARMA de um GARCH . . . . . . . . . . . . . . . 286 

8.4 Modelo IGARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288 

8.4.1 Persistência na Variância . . . . . . . . . . . . . . . . . . . . . . . 290 

8.4.2 Alterações de Estrutura e o IGARCH . . . . . . . . . . . . . . . . 293 

8.4.3 EWMA (Exponential Weighted Moving Averages) . . . . . . . . . 294 

8.5 Modelo CGARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 

8.6 Modelo GJR-GARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 

8.7 Modelo GARCH-M . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300 

9

8.8 Modelo de Heterocedasticidade Condicionada com Variáveis Explicativas . 301 

8.9 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303 

8.9.1 Estimador de Máxima Verosimilhança . . . . . . . . . . . . . . . . 304 

8.9.2 Estimador de Pseudo Máxima Verosimilhança . . . . . . . . . . . . 309 

8.9.3 Método da Máxima Verosimilhança com Distribuições Não Normais 310 

8.10 Ensaios Estatísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312 

8.10.1 Ensaios Pré-Estimação . . . . . . . . . . . . . . . . . . . . . . . . 313 

8.10.2 Ensaios Pós-Estimação . . . . . . . . . . . . . . . . . . . . . . . . 316 

8.11 Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320 

8.11.1 Previsão da Variância Condicional . . . . . . . . . . . . . . . . . . 321 

8.11.2 A Previsão da Variável Dependente y . . . . . . . . . . . . . . . . 324 

8.11.3 Intervalos de Confiança para y e para a Volatilidade baseados em 

Boostrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327 

8.12 Problema dos Erros de Especificação na Média Condicional . . . . . . . . 329 

8.13 Modelos Não Lineares na Média combinados com o GARCH . . . . . . . . 331 

8.13.1 Modelo Limiar Autoregressivo com Heterocedasticidade Condicionada331 

8.13.2 Modelo Markov-Switching com Heterocedasticidade Condicionada 333 

8.A Estabilidade de EDF e a Estacionaridade (Caso modelo ARCH) . . . . . . 335 

9 Modelação da Heterocedasticidade Condicionada - Caso Multivariado 339 

9.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339 

9.2 Densidade e Verosimilhança . . . . . . . . . . . . . . . . . . . . . . . . . 341 

9.3 Modelo VECH (ou VEC) . . . . . . . . . . . . . . . . . . . . . . . . . . . 342 

9.4 Modelo Diagonal VECH . . . . . . . . . . . . . . . . . . . . . . . . . . . 346 

9.5 Modelo BEKK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348 

9.6 Modelo de Correlações Condicionais Constantes . . . . . . . . . . . . . . 349 

9.7 Modelo DCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 

9.8 Modelo “Triangular” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352 

9.8.1 Introdução e Formalização do Modelo . . . . . . . . . . . . . . . . 352 

9.8.2 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357 

9.8.3 Testes e Rácios de Variância . . . . . . . . . . . . . . . . . . . . . 359 

9.8.4 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360 

9.9 GARCH Ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362 

10

9.10 Testes de Diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368 

10 Regressão Não Paramétrica 371 

10.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371 

10.2 Estimação Não Paramétrica da Função Densidade de Probabilidade . . . . 371 

10.2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371 

10.2.2 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373 

10.2.3 Escolha de h . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374 

10.2.4 Estimação localmente linear da Média Condicional . . . . . . . . . 376 

10.2.5 Estimação localmente linear da Variância Condicional . . . . . . . 382 

10.A Demonstrações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382 

III Aplicações 389 

11 Eficiência do Mercado de Capitais 391 

11.1 Introdução e Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391 

11.2 Teste à Eficiência Fraca de Mercado . . . . . . . . . . . . . . . . . . . . . 392 

11.2.1 Testes de Autocorrelação . . . . . . . . . . . . . . . . . . . . . . . 394 

11.2.2 Regras de Compra e Venda e a Análise Técnica . . . . . . . . . . . 395 

11.3 Teste à Eficiência Semi-Forte de Mercado . . . . . . . . . . . . . . . . . . 400 

11.3.1 Reacção do Mercado à Chegada de Informação . . . . . . . . . . . 401 

12 Selecção de Portfolios 405 

12.1 Portfolio Baseado em Momentos Marginais . . . . . . . . . . . . . . . . . 405 

12.1.1 Todos os Activos Envolvem Risco . . . . . . . . . . . . . . . . . . 406 

12.1.2 Modelo com Activo Sem Risco . . . . . . . . . . . . . . . . . . . 411 

12.2 Portfolio Baseado em Momentos Condicionais . . . . . . . . . . . . . . . 413 

13 Risco de Mercado e o Valor em Risco 417 

13.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417 

13.2 Abordagem Não Paramétrica . . . . . . . . . . . . . . . . . . . . . . . . . 419 

13.3 Abordagem Paramétrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 422 

13.3.1 Modelo Gaussiano Simples . . . . . . . . . . . . . . . . . . . . . 424 

13.3.2 Modelo RiskMetrics . . . . . . . . . . . . . . . . . . . . . . . . . 425 

11

13.3.3 Modelo ARMA-GARCH . . . . . . . . . . . . . . . . . . . . . . . 426 

13.4 Generalização: Portfolio com m Activos . . . . . . . . . . . . . . . . . . . 431 

13.5 Abordagem pela Teoria dos valores Extremos . . . . . . . . . . . . . . . . 432 

13.5.1 Introdução à Teoria e Estimação. VaR Marginal . . . . . . . . . . . 433 

13.5.2 VaR Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . 437 

13.6 Avaliação do VaR (Backtesting) . . . . . . . . . . . . . . . . . . . . . . . 438 

12

Parte I 

Introdução 

13

Página em branco 

14

Capítulo 1 

Objecto e Método da Econometria 

Financeira 

(Última actualização: 11/2009) 

Entende-se que “Financial econometrics is simply the application of econometric tools to 

financial data” (Engle, 2001). A econometria financeira é, portanto, uma disciplina econométrica 

(baseada em métodos estatísticos e matemáticos) vocacionada para analisar dados finan- 

ceiros. Esta análise serve de suporte a variadíssimos estudos como por exemplo, 

• avaliação do risco (por exemplo, através do Value at Risk); 

• avaliação de obrigações, opções, etc.; 

• previsão da volatilidade; 

• gestão de portfolios; 

• análise da previsibilidade e eficiência dos mercados, etc. 

Sendo a econometria financeira a aplicação de métodos econométricos adequados a da- 

dos financeiros, todos os métodos estatísticos que de uma forma ou outra se apliquem a dados 

financeiros, interessam à econometria financeira. De todo o modo, a área proeminente em 

econometria financeira é a das séries temporais. Estuda-se, por exemplo, a evolução tempo- 

ral das cotações, taxas de câmbio, taxas de juro, etc. Por esta razão, este documento analisa 

essencialmente métodos econométricos para séries temporais, sobretudo os métodos que de 

alguma forma se adequam às característica próprias das séries financeiras (como sejam, a 

não linearidade e a não normalidade). 

15

É conveniente distinguir séries temporais de natureza macroeconómica das de natureza 

financeira. As principais diferenças são as seguintes: 

• dados de natureza macroeconómica (consumo, produto, taxa de desemprego) podem 

ser observados mensalmente, trimestralmente ou anualmente; dados financeiros, como 

por exemplo, retornos de acções ou taxas de câmbio podem ser observados com uma 

frequência muito superior; nalguns casos, com intervalos de minutos ou segundos entre 

duas observações consecutivas; 

• como consequência do ponto anterior, o número de observações disponíveis de dados 

financeiros situa-se na ordem das centenas de milhares. Normalmente, prefere-se tra- 

balhar com dados diários (evitando-se os problemas das microestruturas de mercado); 

nestes casos trabalham-se com algumas unidades de milhares de observações. Com 

as séries macroeconómicas raramente se passam das poucas centenas de observações 

(quando, na melhor das hipóteses, se têm observações mensais); 

• os dados macroeconómicos são menos fiáveis, i.e., estão mais sujeitos a erros de 

medição. Com efeito, os valores apurados não resultam de valores efectivamente ob- 

servados no mercado, como sucede com a generalidade das séries financeiras, mas 

antes de valores apurados de acordo com certa metodologia e decorrentes de inquéri- 

tos preliminares; 

• todavia, a principal diferença qualitativa decorre das propriedades estatísticas dos dois 

tipos de séries. Ao contrário das séries macroeconómicas, as séries financeiras exibem 

habitualmente fortes efeitos não lineares e distribuições não normais. As propriedades 

estatísticas das séries financeiras serão estudadas no capítulo 3. 

16

Capítulo 2 

Preços e Retornos 


O ponto de partida para a análise estatística é normalmente uma série de preços (por 

exemplo, a série das cotações de fecho do Banco XYZ num certo intervalo de tempo). De 

uma forma geral, o preço pode ser, por exemplo, o valor a que um intermediário financeiro 

informa estar disposto a pagar pela compra de um determinado activo, opção ou futuro (bid 

price), o valor a que um intermediário financeiro informa estar disposto a receber pela venda 

de um determinado activo, opção ou futuro (ask price), o valor final da transacção, o valor 

definido num mercado de futuros, entre outros. 

O intervalo de tempo entre dois preços consecutivos é uma variável aleatória com valores 

em R + . Isto significa que se poderia considerar uma sucessão de preços {Pt1, Pt2, ..., Ptn} 

com δi = ti − ti−1 não constante. Não obstante, prefere-se normalmente trabalhar com 

uma periodicidade fixa. Por exemplo, se análise empírica de certo fenómeno aconselha o 

tratamento diário dos preços, a sucessão pertinente passará a ser {P1, P2, ..., Pn} onde Pt 

representa habitualmente o valor de fecho no dia t. O tratamento estatístico do caso em que 

δi = ti − ti−1 é encarado como uma variável aleatória, é um pouco mais delicada, e insere-se 

na área dos modelos de muita alta-frequência. 

Depois de coligidos os preços, calculam-se os retornos associados (veremos nos pon- 

tos seguintes duas fórmulas alternativas de cálculo). Na figura 2-1 apresentam-se preços e 

retornos da Microsoft no período Janeiro de 1988 a Fevereiro de 2006. 

Prefere-se geralmente a sucessão dos retornos ou das rendibilidades à sucessão dos preços. 

Por um lado, a sucessão dos retornos fornece tanta informação sobre a oportunidades de in- 

vestimento quanto a sucessão dos preços. Deste ponto de vista é indiferente trabalhar-se 

17

60 

50 

40 

30 

20 

10 

0 

Jan88 

0.2 

0.15 

0.1 

0.05 

0 

0.05 

0.1 

0.15 

0.2 

Jan88 

Jan90 

Jan90 

Jan92 

Jan92 

Jan94 

Preços Microsoft 

Jan96 

Jan98 

Retornos Microsoft 

Jan94 

Jan96 

Figura 2-1: Preços e Retornos diários da Microsoft no período Jan 88 a Fev 06 

com qualquer das sequências. Há, todavia, uma razão de peso para se preferir a sucessão 

dos retornos: esta é mais fácil de modelar. Veremos adiante, com mais pormenor, que a 

sucessão dos preços é quase sempre não estacionária, ao passo que a sucessão dos retornos 

é tendencialmente estacionária (facilitando, por isso, a aplicação de resultados essenciais, 

como sejam, a lei dos grande números e o teorema do limite central) 1 . 

Há duas formas de obtermos o retorno associado ao preço que descreveremos a seguir. 

2.1 Retornos Discretos 

Seja Pt a cotação de um certo activo no momento t. Suponhamos que P é observado nos 

momentos t = 1, 2, ..., n (podemos supor que temos n observações diárias). 

1 Taxas de câmbio real e taxas de juro podem ser analisadas nos níveis e não nas primeiras diferenças, se 

existir evidência de estacionaridade. 

18 

Jan98 

Jan00 

Jan00 

Jan02 

Jan02 

Jan04 

Jan04 

Jan06 

Jan06

2.1.1 Retorno Simples 

O retorno simples em tempo discreto de um certo investimento no momento t (retorno do 

dia t − 1 para o dia t) é definido como 

Rt = Pt − Pt−1 

Pt−1 

= Pt 

− 1 (2.1) 

Pt−1 

(na literatura anglo-saxónica Rt é designado por simple net return e 1 + Rt = Pt/Pt−1 como 

simple gross return). Naturalmente, também se tem 

Pt = Pt−1 (1 + Rt) . 

Esta última expressão mostra que Rt representa, efectivamente, a taxa de rendibilidade de um 

certo investimento, adquirido por Pt−1 e vendido por Pt. Se Pt−1 representa o preço unitário 

de um activo financeiro e K o número de acções adquiridas em t − 1, a taxa de rendibilidade 

do investimento de valor KPt−1 é também, naturalmente, Rt, pois Pt = Pt−1 (1 + Rt) ⇔ 

PtK = Pt−1K (1 + Rt). 

2.1.2 Retorno Multi-Períodos 

Suponha-se que {P1, P2, ..., Pn} é a sucessão de preços diários. Podemos estar interessados, 

por exemplo, no retorno semanal e, para o efeito, basta considerar 

Rt (5) = Pt − Pt−5 

Pt−5 

(admitindo que se observam cinco preços por semana). De uma forma geral, 

Rt (m) = Pt − Pt−m 

Pt−m 

= Pt 

− 1. (2.2) 

Pt−m 

Para calcular Rt (m) basta atender à expressão (2.2). Suponhamos, no entanto, que Pt e 

Pt−m não são conhecidos. A questão é, como calcular Rt (m) a partir dos retornos simples 

em t = 1, 2, ...? Pode-se provar (ver apêndice 2.B.1) 


Pt−m 

= 

19 

t 

j=t−m+1 

(1 + Rj) − 1.

2.1.3 Retornos de Portfolios 

Admita-se que o capital em t − 1 é igual K (unidades monetárias) e existem dois activos 

A e B, cujas taxas de rendibilidade são, respectivamente, RA,t e RB,t. Um certa fracção do 

capital, ωA, é investido em A e, a parte restante, ωB = 1 − ωA, é investido em B. Desta 

forma, o valor do investimento no período seguinte, t, é igual a 

e o retorno do portfolio é 

K (ωA (1 + RA,t) + ωB (1 + RB,t)) 

Rp,t = K (ωA (1 + RA,t) + ωB (1 + RB,t)) − K 

K 

= ωA (1 + RA,t) + ωB (1 + RB,t) − 1 

= ωARA,t + ωBRB,t. 

Com m activos, tem-se ω1 + ... + ωm = 1 e 

Rp,t = ω1R1,t + ω2R2,t + ... + ωmRm,t 

m 

= ωiRi,t. (2.3) 

i=1 

Conclui-se portanto que o retorno de um portfolio é igual a uma média ponderada dos vários 

retornos do portfolio. 

A variância do retorno de um portfolio tende a ser inferior à variância dos retornos do 

portfolio. Para analisar esta questão, considere-se 

Var (Rp,t) = Var 

= ω 2 i 

m 

m 

i=1 

i=1 

ωiRi,t 

 

= 

m 

i=1 

m−1 

Var (Ri,t) + 2 

m−1 

Var (ωiRi,t) + 2 

m 

j=1 i=j+1 

m 

j=1 i=j+1 

ωiωi−j Cov (Ri,t, Ri−j,t) . 

Cov (ωiRi,t, ωi−jRi−j,t) 

Simplifique-se esta expressão. Admita-se que os retornos têm variância igual, Var (Ri,t) = 

σ 2 e que os pesos são iguais, ωi = 1/m (estas hipóteses significam que se tomam títulos com 

idêntica variabilidade e com o mesmo peso na carteira). Seja 

ˆγ = 

m−1 m j=1 i=j+1 Cov (Ri,t, Ri−j,t) 

m(m−1) 

2 

20

a “covariância média”, isto é, a média aritmética dos valores de todas as covariâncias distintas 

(que são em número de m (m − 1) /2). Sob estas hipóteses, vem 

Var (Rp,t) = σ2 

m 

1 

+ 2 

m2 ˆγN (m − 1) 

2 

= σ2 

m 

ˆγ (m − 1) 

+ 

m 

. 

Nestas circunstâncias, é fácil verificar que Var (Rp,t) < Var (Ri,t) é equivalente a σ 2 > ˆγ. 

Assim, se a variabilidade dos activos (tomados isoladamente) for superior à média aritmética 

dos valores de todas as covariâncias distintas, o retorno do portfolio apresenta menor variân- 

cia do que a dos activos que a constituem. A desigualdade σ 2 > ˆγ verifica-se trivialmente 

se os retornos forem independentes (ˆγ = 0) ou se as covariâncias forem negativas (ˆγ < 0). 

A desigualdade σ 2 > ˆγ tende a verificar-se quando as covariâncias são baixas e/ou existem 

várias covariâncias negativas. Deve notar-se que a hipótese de independência é inverosímil, 

pois os activos partilham aspectos comuns relacionados com o comportamento geral do mer- 

cado (risco de mercado). 

Uma forma mais convincente de sugerir Var (Rp,t) < Var (Ri,t) é a seguinte. Assuma- 

se: (i) os retornos têm variância igual, Var (Ri,t) = σ 2 , (ii) os pesos são iguais, ωi = 1/m e 

(iii) as covariâncias são iguais. Resulta por construção que a Var (Rp,t) < Var (Ri,t) . Com 

efeito, comece-se por observar que Cov (Ri,t, Ri−j,t) = ρσ 2 (ρ é o coeficiente de correlação). 

Nestas condições vem m−1 

j=1 

m 

i=j+1 ρσ2 = ρσ 2 m (m − 1) /2 e, portanto, 

Var (Rp,t) = σ2 

m 

+ 2 1 

m 2 

ρσ2m (m − 1) 

. 

2 

Verifica-se agora que Var (Rp,t) < Var (Ri,t) é equivalente a ρ < 1. Como, por definição ρ é 

menor do que 1, a desigualdade Var (Rp,t) < Var (Ri,t) verifica-se sempre, sob as hipóteses 

assumidas. Claro que, na prática, nenhuma das hipóteses (i), (ii) e (iii) se verifica de forma 

exacta, mas é seguro dizer-se que, em condições gerais, a diversificação (i.e. m > 1) baixa a 

variabilidade do portfolio. 

21

2.1.4 Retornos Ajustados aos Dividendos 

Se no período t (ou se algures entre t−1 e t) há lugar ao pagamento de dividendos, o retorno 

deve reflectir esse acréscimo de rendimento. O retorno total vem 

Rt = Pt + Dt − Pt−1 

Pt−1 

= Pt − Pt−1 

Pt−1 

+ Dt 

Pt−1 

onde (Pt − Pt−1) /Pt−1 é, por vezes, referido como capital gain e Dt/Pt−1 como dividend 

yield. 

2.1.5 Retornos Ajustados à Inflação 

Até agora considerámos retornos nominais. Em certos estudos, sobretudo de carácter macro- 

económico, tem interesse analisar o retorno real. Para obtermos este retorno, é necessário 

expurgar do ganho de capital o “efeito do crescimento geral de preços”. Suponhamos que 

a inflação foi de 4% e o retorno (anualizado) foi de 3%. Houve ganho real no investimento 

realizado? Se atendermos ao efeito “crescimento geral de preços” a resposta é negativa. É 

tentador dizer que a perda real é de 1%. Efectivamente é quase 1%, mas não chega, como 

se mostra a seguir. Para obtermos o retorno real, R real 

t 

considera-se 

R real 

t 

= P real 

t 

− P real 

t−1 

P real 

t−1 

, P real 

t = Pt 

IP Ct 

(ajustado, portanto, da inflação), 

sendo IP Ct o índice de preços ao consumidor (índice construído pelo INE, Instituto Na- 

cional de Estatística). Observe-se que P real 

t 

real do activo. Simples álgebra, permite concluir que 

R real 

t 

= P real 

t 

− P real 

t−1 

P real 

t−1 

é o preço deflacionado ou simplesmente o preço 

= Pt IP Ct−1 

− 1 = 

Pt−1 IP Ct 

Rt − πt 

πt + 1 

onde πt = (IP Ct − IP Ct−1) /IP Ct−1. Retomemos o exemplo acima, com Rt = 0.03 e 

πt = 0.04; logo, 

R real 

t 

= 0.03 − 0.04 

0.04 + 1 

= −0.0096 

isto é, os retornos reais caiem aproximadamente 1%, para sermos mais exactos, caiem 0.96%. 

Quando a inflação é relativamente baixa (por exemplo, se R real 

t 

22 

são retornos reais mensais) é

válida a aproximação, 

R real 

t 

Rt − πt. 

Como o IPC está, no máximo, disponível mensalmente, não é possível calcular-se retornos 

reais diários. 

2.1.6 Retornos Anualizados 

Para compararmos, por exemplo, o retorno diário do investimento A com o retorno mensal 

do investimento B, é necessário converter as diferentes taxas de rendibilidades a um mesmo 

período. Toma-se normalmente como período de referência o ano pelo que, as taxas de 

rendibilidade depois de convertidas em rendibilidades anuais dizem-se anualizadas. Supon- 

hamos que um certo investimento de valor P0 foi realizado no momento 0. Ao fim de T anos 

(T pode ser por exemplo 0.5, isto é, 6 meses) o mesmo investimento vale Pn. A questão que 

deveremos colocar é a seguinte: qual é a taxa de rendibilidade anual, RA, tal que, aplicada 

a um investimento P0 permite ao fim de T anos obter o investimento Pn? Ou seja, qual é o 

valor RA que resolve a equação 

P0 (1 + RA) T = Pn ? 

Tomando RA como incógnita, facilmente se obtém 

1 

Pn 

T 

RA = 

P0 

− 1. (2.4) 

Se os preços P0, P1, ...Pn são diários e se admitirmos que num ano se observam 250 preços, 

então T = n/250 (por exemplo, com n = 500 observações diárias, o período de investimento 

corresponde a dois anos, T = 500/250 = 2). Nestas condições, a fórmula (2.4) pode-se 

reescrever na forma 

250 

Pn 

n 

RA = 

P0 

Em termos gerais, se num ano se observam N preços (por exemplo, N = 12 se as obser- 

− 1. 

vações são mensais) e dispomos de n observações sobre os preços, então T = n/N e 

N 

Pn 

n 

RA = 

P0 

23 

− 1. (2.5)

Exemplo 2.1.1 Queremos comparar os seguintes investimentos: 

• O investimento 1 foi adquirido ao preço 1.5. Ao fim de 800 dias (isto é, 800/250 = 3.2 

anos) valia 1.9. 

• O investimento 2 foi adquirido ao preço 105. Ao fim de 50 meses (isto é, 50/12 = 4.17 

anos) valia 121. 

Questão: qual dos investimento foi preferível? Para os investimento 1 e 2, as taxa de 

rendibilidade anualizadas foram respectivamente de 

e, 

RA,1 = 

RA,2 = 

250 

1.9 800 

− 1 = 0.0766 

1.5 

12 

121 50 

− 1 = 0.034, 

105 

ou seja de 7.66% para o investimento 1 e 3.4% para o investimento 2. O investimento 1 foi, 

portanto, preferível. 

Quando o período de observação dos preços é relativamente curto as taxas de rendibili- 

dade anualizadas podem fornecer valores aberrantes. Por exemplo, se numa semana, devido 

à variabilidade dos preços, se observar P0 = 1 e P5 = 1.1, a taxa anualizada é de 1046.7%. 

2.2 Retornos Contínuos 

Sejam P0 e P1, respectivamente o capital inicial e o capital ao fim de um período. Se o 

capital se valorizou continuamente nesse período, qual é a taxa de rendibilidade instantânea 

associada? Para discutirmos esta questão, admita-se, para simplificar, que o período é o ano. 

Se a capitalização fosse anual, a taxa de rendibilidade Ra resultaria da resolução da equação 

P1 = P0 (1 + Ra) em ordem a Ra. Se a capitalização fosse semestral, a taxa de rendibilidade 

(semestral) Rs resultaria da resolução da equação 

P1 = P0 

 

1 + Rs 

 

1 + 

2 

Rs 

 

= P0 1 + 

2 

Rs 

2 2 

em ordem a Rs. De igual forma, numa capitalização trimestral, ter-se-ia P1 = P0 (1 + Rtr/4) 4 . 

Se a capitalização é contínua (capitalização minuto a minuto, segundo a segundo, etc.) então 

24

0.4 

0.3 

0.2 

0.1 

0 

0.1 

0.2 

0.3 

Jan00 

Jul00 

Jan01 

Jul01 

Jan02 

Jul02 

Jan03 

Jul03 

Jan04 

Jul04 

Jan05 

Jul05 

Figura 2-2: Retornos mensais da IBM 

o capital P1 pode interpretar-se como o limite de 

Como limn→∞ 

 

P1 = lim P0 

n→∞ 

1 + r 

n 

n 

. 

 

r n r 1 + = e , a taxa de rendibilidade instantânea r resulta da resolução da 

n 

equação P1 = P0e r em ordem a r (pode-se obter P1 = P0e r resolvendo a equação diferencial 

P ′ 

t = rPt - veja-se o apêndice 2.A). Logaritmizando a equação e resolvendo em ordem a r, 

obtém-se 

r = log P1 − log P0. 

Considere-se agora uma sucessão de preços {P1, P2, ..., Pn} . Define-se a taxa de rendibili- 

dade instantânea ou simplesmente o retorno contínuo de um certo investimento no momento 

t como 

Naturalmente esta expressão é equivalente a 

rt = log Pt − log Pt−1 = log Pt 

rt = log Pt − log Pt−1. 

Pt−1 

 

= log 1 + Pt 

 

− 1 = log (1 + Rt) . 

Pt−1 

Para dados diários, semanais ou mensais pode assumir-se rt Rt (ver apêndice 2.B.2). Na 

figura 2-2 as diferenças entre Rt e rt são relativamente pequenas. Se os dados fossem diários 

as diferenças seriam ainda mais pequenas. 

25 

R 

r

2.2.1 Retorno Multi-Períodos 

Suponha-se que {P1, P2, ..., Pn} é a sucessão de preços diários. Podemos estar interessados, 

por exemplo, no retorno semanal e, para o efeito, basta considerar 

 

Pt 

rt (5) = log 

Pt−5 

(admitindo que se observam cinco preços por semana). De uma forma geral, 

 

Pt 

rt (m) = log = log (Pt) − log (Pt−m) . 

Pt−m 

Seguindo o mesmo raciocínio que vimos atrás, suponhamos, no entanto, que Pt e Pt−m 

não são conhecidos. A questão é, como calcular rt (m) a partir dos retornos contínuos em 

t = 1, 2, ...? Para exemplificar, suponha-se que se têm retornos diários e procura-se o retorno 

semanal, i.e., admita-se o seguinte: 

retorno 2 a feira r1 = log P1 − log P0 





retorno da semana log P5 − log P0 = r1 + r2 + ... + r5 

A tabela anterior sugere que o retorno da semana é igual à soma dos retornos da semana. 

Com efeito, 

log P5 − log P0 = log P5 − log P4 

 

r5 

+log P2 − log P1 

 

r2 

+ log P4 − log P3 

 

r4 


 


 

(observe-se que no lado direito da expressão anterior, apenas os termos log P5 e P0 não 

cancelam). Em termos gerais, 

rt (m) = rt + rt−1 + ... + rt−m+1. 

26 

r1 

r3

2.2.2 Retornos de Portfolio 

Pode imaginar-se o retorno contínuo do portfolio como sendo o valor rp,t tal que, aplicado 

ao capital inicial K (i.e., Ke rp,t ) permite obter o valor do portfolio calculado através dos m 

retornos (i.e., K m 

i=1 ωie ri,t ). Assim, rp,t é tal que K m 

i=1 ωie ri,t = Ke rp,t . Resolvendo 

esta equação em função de rp,t obtém-se rp,t = log ( m 

i=1 ωie ri,t ) . Tendo em conta que 

ri,t = log (1 + Ri,t) e m 

i=1 ωi = 1, podemos ainda escrever 

 

m 

rp,t = log ωie ri,t 

 

m 

 

= log ωi (1 + Ri,t) = log 1 + 

i=1 

i=1 

m 

i=1 

ωiRi,t 

 

= log (1 + Rp,t) . 

Ao contrário dos retornos discretos, o retorno contínuo do portfolio não é igual à soma 

ponderada dos retornos contínuos dos vários activos, i.e., rp,t = n 

i=1 ωiri,t. Este facto 

constitui uma desvantagem da versão contínua dos retornos. No entanto, quando Rp,t não é 

muito alto, rp,t ≈ Rp,t. 

2.2.3 Retornos Ajustados aos Dividendos 

O retorno contínuo ajustado aos dividendos é definido como 

Note-se também: 

 

Pt + Dt 

rt = log 

= log (Pt + Dt) − log (Pt−1) . 

Pt−1 

rt = log (1 + Rt) , Rt = Pt + Dt − Pt−1 

. 

2.2.4 Retornos Ajustados à Inflação 

O retorno contínuo ajustado à inflação é definido como 

r real 

t 

Pt−1 

 

Pt/IP Ct 

Pt 

IP Ct 

= log 

= log − log 

= rt − πt 

Pt−1/IP Ct−1 Pt−1 IP Ct−1 

onde agora a taxa de inflação πt é definida como πt = log (IP Ct/IP Ct−1). Note-se também: 

r real 

t 

= log 1 + R real 

t . 

27

2.2.5 Retornos Anualizados 

Tal como no caso dos retornos discretos, também no caso dos retornos contínuos é possível 

obter uma taxa de rendibilidade (agora instantânea) anualizada ou simplesmente retorno an- 

ualizado, rA. Pode começar-se por perguntar: qual é a taxa de rendibilidade anual, rA, tal 

que, aplicada a um investimento P0 permite ao fim de T anos (de valorização contínua) obter 

o investimento Pn? Ou seja, qual é o valor rA que resolve a equação 

P0e rAT = Pn ? 

Tomando rA como incógnita, facilmente se obtém 

rA = 1 

T log 

Pn 

P0 

 

. (2.6) 

Também se chega a esta expressão a partir da definição habitual rA = log (1 + RA) . 

Com efeito, 

rA = log (1 + RA) = log 

 

1 + 

Pn 

P0 

1 

T 

− 1 

(T representa o número de anos do investimento). 

 

= log 

Pn 

P0 

1 

T 

= 1 

T log 

Pn 

Se os preços P0, P1, ...Pn são diários e se admitirmos que num ano se observam 250 

preços, então deduz-se a relação T = n/250. Nestas condições, a fórmula (2.6) pode-se 

reescrever na forma 

rA = 250 

n log 

Pn 

Em termos gerais, se num ano se observam N preços (por exemplo, N = 12 se as obser- 

vações são mensais) e dispomos de n observações sobre os preços, então T = n/N e 

rA = N 

n log 

P0 

Pn 

Em muitas aplicações estuda-se uma sucessão de retornos {r1, r2, ..., rn} e obtém-se de 

seguida um conjuntos de estatísticas, como por exemplo a média empírica dos retornos, 

¯r = 1 

n 

28 

P0 

n 

ri. 

i=1 

 

. 

 

. 

P0

Uma questão interessante consiste em obter rA como função de ¯r. Tendo em conta que 

log (Pn/P0) = n 

i=1 ri tem-se 

rA = N 

n log 

Pn 

P0 

 

= N 

n 

n 

ri = N ¯r. 

Uma forma alternativa de obtermos rA = N ¯r e que tem a vantagem de fornecer também 

uma medida para o valor da volatilidade anualizada é a seguinte. Suponha-se, tal como 

anteriormente, que num ano é possível observar N preços. Então, a variável aleatória que 

representa o retorno anual é dado por 

i=1 

X = log PN − log P0 = 

N 

rt. 

Supondo E (r1) = E (r2) = ... = E (rN) , tem-se que o retorno médio anual é dado por 

E (X) = N E (rt) . 

Logo, uma estimativa de E (X) é, precisamente, rA = N ¯r . Por outro lado, suponha-se que 

a sucessão {rt} é não autocorrelacionada e que Var (rt) = σ 2 . Nestas condições, a variância 

anual (i.e., a variância associada a rt (N)) é dada por 

Var (X) = Var 

N 

t=1 

rt 

 

t=1 

= Nσ 2 . (2.7) 

Resulta da equação (2.7) a famosa square root of time rule segundo a qual, a volatilidade 

anual de um activo, obtém-se a partir da regra √ Nσ onde σ é o desvio padrão associado 

a um medida intra anual (assume-se o desvio padrão como medida da volatilidade). Por 

exemplo, se os dados são diários, a regra estabelece √ 250σd (σd é o desvio padrão associado 

aos dados diários); se os dados são mensais, vem √ 12σm (σm é o desvio padrão associado 

aos dados mensais). A informação anualizada pode ser dada em percentagem: 

N ¯r × 100%, 

√ Nσ × 100%. 

Com efeito o retorno anual em percentagem é X × 100 pelo que E (X × 100) = N E (rt) × 

100 e Var (X × 100) = Nσ 2 100 2 ⇒ Var (X × 100) = √ Nσ100. 

Note-se, finalmente, que o retorno anualizado na versão discreta é uma função do retorno 

29

anualizado na versão contínua, dada pela expressão RA = e rA − 1 (veja a equação (2.5)). 

2.3 Retornos Contínuos vs. Retornos Discretos 

Neste documento dá-se preferência à análise dos retornos contínuos. Por várias razões: 

• A esmagadora maioria dos investigadores usa rt. Se queremos que os nossos resultados 

sejam comparáveis devemos usar rt. 

• Como vimos, os retornos contínuos multi-períodos são aditivos (por exemplo, o re- 

torno contínuo entre o período 5 e 0 é igual à soma dos retornos contínuos entre o 

período 5 e 0). Já os retornos discretos multi-períodos não são. Em certas aplicações é 

necessário modelar retornos multi-períodos a partir do conhecimento das distribuições 

de r ou R. Neste caso, prefere-se interpretar o retorno na sua versão contínua, pois a 

modelação de uma soma 

log Pt − log P0 = 

t 

i=1 

é bem mais fácil do que a modelação de um produto 

Pt − P0 

P0 

= 

ri 

t 

(1 + Rj) − 1. 

j=1 

Além disso, a soma t 

i=1 ri preserva propriedades que podem ser interessantes. Por 

exemplo, se {ri} é uma sucessão de v.a. i.i.d. com distribuição N (µ, σ 2 ), segue-se 

imediatamente que log Pt−log P0 = t 

i=1 ri tem ainda distribuição normal N (tµ, tσ 2 ) . 

Já no caso discreto, se {Ri} é uma sucessão de v.a. i.i.d. com distribuição normal, a 

t 

v.a. (Pt − P0) /P0 = (1 + Rj) − 1 não tem distribuição normal. 

j=1 

O facto dos retornos discretos não ser aditivos pode conduzir a conclusões erradas. 

Considere-se o seguinte exemplo (veja-se a tabela 2.1). No momento t = 0 um certo 

activo vale 100, depois em t = 1 vale 110 e, finalmente, em t = 2 volta a valer 100. 

Obviamente que o retorno de t = 0 para t = 2 é zero, quer se considere a fórmula 

(P2 − P0)/P0 ou log P2 − log P0. No entanto, a média empírica dos retornos discretos 

é positiva, podendo sugerir, incorrectamente, que o activo se valorizou entre o período 

t = 0 e t = 2. Já a média empírica dos retornos contínuos traduz correctamente a 

valorização do activo. 

30

t Pt Rt = Pt−Pt−1 

Pt−1 

rt = log Pt − log Pt−1 

0 100 

1 110 0.10 (10%) 0.0953 

2 100 -0.0909 (-9.09%) -0.0953 

média > 0 = 0 

Tabela 2.1: Retornos discretos não são aditivos - mais um exemplo 

• O retorno discreto aplicado a um investimento inicial pode sugerir que o investimento 

possa vir negativo. Isto é uma impossibilidade. Suponha-se P0 = 100. O pior cenário 

no período 1 é P1 = 0 (perde-se todo o investimento). Mas, aplicando o retorno 

discreto pode-se obter P1 < 0 se R1 < −1. Por exemplo, se R1 = −1.05 tem-se 

P1 = (1 − 1.05) P0 = −0.05 × 100 = −5. 

É um impossibilidade obter-se P1 < 0 e, este facto, traduz uma fraqueza teórica do 

modelo de retorno discreto. No caso do retorno contínuo, não há possibilidade de P1 

ser negativo, pois, r1 = log (P1) − log (P0) implica P1 = P0e r > 0, por definição. 

O retorno discreto conserva, no entanto, uma vantagem apreciável: o retorno discreto 

do portfolio é igual à soma ponderada dos retornos discretos dos vários activos e, esta pro- 

priedade, não é partilhada, como vimos, pelo retorno contínuo do portfolio. 

2.A Outra Interpretação de rt 

Seja Pt o valor de um certo capital no momento t (podemos convencionar: t = 1 representa 

um ano). Se o capital se valoriza em tempo discreto, a variação do capital Pt num certo 

intervalo de tempo ∆ > 0 pode ser traduzida pela igualdade (Pt+∆ − Pt) /Pt = r∆ (r é a 

taxa de retorno) ou seja 

Pt+∆ − Pt 

∆ 

= rPt 

Se o capital se valoriza continuamente, i.e., se assumirmos ∆ → 0, o lado esquerdo da 

equação anterior é a derivada de P em ordem a t, i.e., P ′ . Desta forma tem-se a equação 

diferencial linear de primeira ordem (determinística) 

P ′ 

t = rPt 

31 

(2.8)

que estabelece a forma como Pt evolui em tempo contínuo. Pode-se provar que a solução 

geral de (2.8) é 

Pt = ce rt , c ∈ R 

(c depende do capital inicial). Com o capital inicial P0, a solução particular é Pt = P0e rt . 

Ao fim de um período t = 1 o capital vale P1 = P0e r . Resolvendo esta equação em ordem a 

r vem r = log (P1/P0) = log P1 − log P0. 

2.B Notas Técnicas 

2.B.1 Retorno Multi-Períodos como Função dos Retornos Simples 

Como calcular Rt (m) a partir dos retornos simples em t = 1, 2, ...? Basta considerar 


Pt−m 

= Pt Pt−1 

... 

Pt−1 Pt−2 

Pt−m+1 

Pt−m 

= 

 

1 + 

− 1 

Pt 

Pt−1 

 

− 1 1 + Pt−1 

 

− 1 ... 1 + 

Pt−2 

Pt−m+1 

Pt−m 

 

− 1 − 1 

= (1 + Rt) (1 + Rt−1) ... (1 + Rt−m+1) − 1 

t 

= (1 + Rj) − 1. 

j=t−m+1 

2.B.2 r e R: Série de Taylor 

A série de Taylor da função log (1 + Rt) em torno de Rt = 0 é, como se sabe, 

rt = log (1 + Rt) = Rt − 1 

2 R2 t + 1 

3 R3 t − ... (−1) n−1 Rn t 

n 

Este desenvolvimento em série de potência de Rt é válido para todo o Rt tal que |Rt| < 

1. Quando Rt é relativamente pequeno, os termos R 2 t , R 3 t , etc., são ainda mais pequenos 

(por exemplo, Rt = 0.005 implica R 2 t = 2.5 × 10 −5 , R 3 t = 1.25 × 10 −7 , etc.) pelo que, 

nestas circunstâncias, R 2 t 0, R 3 t 0, etc., e, assim, rt Rt. Se os dados são diários, 

semanais ou mensais as rendibilidades R são geralmente pequenas (quando comparadas com 

as rendibilidades anuais). Assim, para este tipo de rendibilidades, pode assumir-se rt Rt. 

32 

+ ...

Capítulo 3 

Factos Empíricos Estilizados de Séries 

Temporais Financeiras 


Vários estudos empíricos têm documentado que há um conjunto de regularidades em- 

píricas que são partilhadas por um leque grande de séries temporais financeiras observadas 

com frequência elevada (diária ou semanal). Essas regularidades têm a ver com caracterís- 

ticas das distribuições marginais e condicionais que são comuns a muitas séries temporais 

financeiras. 

3.1 Regularidade Empíricas relacionadas com a Distribuição 

Marginal 

Comece-se por considerar a fdp marginal 1 f de um certo retorno rt. Estamos interessados 

em saber algo sobre f (que é geralmente desconhecida). Obtém-se alguma informação sobre 

f calculando vários momentos da amostra. É este o procedimento que começaremos por 

seguir. Pelo método dos momentos, os parâmetros populacionais desconhecidos, 

µ = E (r) , σ = Var (r), sk = E (r − µ) 3 

σ 3 

, k = E (r − µ) 4 

σ 4 

1 Para simplificar, admite-se que f é homogénea com respeito ao tempo, i.e., não depende de t. Desta forma, 

f (rt) = f (rt−1) = ... = f (r1). Como consequência é indiferente escrever f (rt) ou simplesmente f (r) (e, 

por um raciocínio similar, é indiferente escrever E (rt) ou simplesmente E (r)). 

33

podem ser estimados de forma consistente (sob certas condições de regularidade), respecti- 

vamente, pelos estimadores 

¯r = 

n t=1 rt 

 

n 

, ˆσ = 

n 

sk = n−1 n t=1 (rt − ¯r) 3 

ˆσ 3 

t=1 (rt − ¯r) 2 

, 

n 

, ˆ k = n−1 n 

t=1 (rt − ¯r) 4 

ˆσ 4 . 

Os factos empíricos estilizados que descreveremos a seguir envolvem explicitamente estes 

momentos. Concretamente, mostraremos a seguir que 

• ¯r tende a ser maior do que o retorno do investimento sem risco; 

• ˆσ depende da natureza do activo financeiro; 

• sk tende a ser negativo; 

• ˆ k tende a ser superior a 3. 

3.1.1 Prémio de Risco Positivo 

De acordo com a teoria financeira o valor esperado do retorno de um investimento no mer- 

cado de capitais deve exceder, no longo prazo, o retorno do investimento sem risco. A essa 

diferença designa-se prémio de risco (Equity Risk Premia). Este prémio deve ser positivo 

pois, caso contrário, não haveria motivação para aceitar um investimento com retornos in- 

certos, quando a alternativa é um retorno garantido. 

A estimação do prémio de risco deve envolver um período relativamente longo (o retorno 

de um investimento no mercado de capitais é estável no médio/longo prazo, mas instável 

no curto prazo - pode até ser fortemente negativo em curtos períodos de tempo). Dim- 

son, Marsh e Staunton (2002) fizeram o seguinte exercício, com base em dados financeiros 

norte-americanos: se tivesse sido investido 1 dólar em acções norte americanas (digamos, 

num índice representativo do mercado de acções norte-americano) e 1 dólar em bilhetes do 

tesouro (investimento sem risco), ambos no início do ano 1900, quais seriam os retornos 

desses investimentos ao fim de 101 anos (i.e. se fossem levantados no final do ano 2000). 

Os resultados apurados mostram que o investimento de 1 dólar em acções seria vendido 

por 16797 dólares em 2000 (apesar das inúmeras crises económicas e financeiras durante 

o século, como por exemplo, as duas guerras mundiais, a grande depressão, os choques 

34

A% ˆσA% sk ˆ k 

ˆP (|rt−¯r|>3ˆσ) 

P (|Z|>3) 

Cotações de Acções 

Microsoft (01-88 a 7-05) 23.9% 36.3% -.097 6.8 3.85 

Coca-Cola (11-86 a 12-05) 7.2% 33.2% -0.97 18.1 4.53 

PT (6-95 a 12-05) 12.3% 33.2% -0.06 6.39 5.02 

Índices Bolsistas 

Dax (11-90 a 11-05) 8.4% 22.1% -0.196 6.66 5.79 

CAC40 (03-90 a 11-05) 5.7% 20.5% -0.101 5.77 5.61 

Nikkei225 (01-84 a 11-05) 1.6% 20.5% -0.116 10.77 3.71 

FTSE100 (04-84 a 11-05) 7.3% 15.8% -0.545 11.12 2.44 

PSI20 (01-93 a 03-06) 8.6% 15.8% -0.61 10.9 5.99 

Taxas de Câmbio 

USD/EUR(12-98 a 11-05) 0.1% 7.9% -0.05 4.86 4.55 

YEN/USD (1-71 a 7-05) -3.4% 9.4% -0.78 14.2 1.67 

Na última coluna assume-se que Z ∼ N (0, 1) ; ˆσA% = √ 250ˆσ100% 

Tabela 3.1: Estatísticas Descritas de Algumas Acções, índices e Taxas de Câmbio 

petrolíferos, etc.), enquanto os bilhetes de tesouro seriam vendidos por 119 dólares. Os 

retornos anualizados (usando a fórmula RA) seriam de 10.1% para as acções, i.e. 

RA100% = 

 

(16797) 1 

101 − 1 100% = 10.1% 

e de 4.8% para os bilhetes do tesouro (valores nominais, i.e. não descontando a inflação). 

Ver Taylor (2005) para mais detalhes sobre o prémio de risco. 

3.1.2 Desvios Padrão Diferentes Consoante os Activos 

A tabela 3.1 mostra que os activos com maior variabilidade (e, portanto com maior risco 

associado) são os títulos de empresas, seguidos dos índices bolsistas e taxas de câmbio (bil- 

hetes do tesouro - resultados não apresentados - apresentam a menor variabilidade). No 

âmbito dos títulos de acções, vários estudos indicam (ver por exemplo, Taylor, 2005) que a 

variabilidade dos retornos tende a diminuir à medida que a dimensão das empresas aumenta 

(títulos de empresas pequenas apresentam maior variabilidade). 

3.1.3 Retornos de Acções e de Índices tendem a Apresentar Assimetria 

Negativa 

A assimetria de uma distribuição é normalmente aferida através do coeficiente de assimetria 

sk anteriormente definido. Diz-se que a distribuição de r é assimétrica negativa (positiva) se 

35

sk < 0 (> 0). Se sk = 0 a distribuição é simétrica (em relação à média populacional). 

Podemos ter uma estimativa sk negativa se as variações negativas fortes forem mais 

acentuadas do que as variações positivas fortes. Quando assim sucede, os desvios negativos 

(rt − ¯r) 3 < 0 tendem a dominar os desvios positivos (rt − ¯r) 3 > 0 na soma (rt − ¯r) 3 e, 

por isso, a estimativa sk é negativa. Observe-se ainda que os desvios cúbicos são divididos 

por ˆσ 3 ; desta forma, elimina-se a possibilidade do coeficiente depender das unidades em que 

a variável é observada (por exemplo, se multiplicarmos r por 100, para termos uma medida 

em percentagem, sk não sofre alteração). 

A tabela 3.1 mostra que as distribuições empíricas das rendibilidades de acções e índice 

bolsistas em análise são assimétricas negativas. Existe, portanto, evidência empírica de que 

as fortes variações dos preços são maioritariamente de sinal negativo. Estas variações são 

obviamente crashes bolsistas. Sublinhe-se, no entanto, que alguns retornos de títulos, por 

registarem episódios de fortes variações positivas, apresentam distribuições assimétricas pos- 

itiva. A assimetria negativa não é, portanto, uma característica universal das distribuições de 

retornos, embora, geralmente, tendam a apresentar assimetria negativa. 

Sob certas hipóteses, incluindo {rt} é uma sucessão de v.a. homocedásticas com dis- 

tribuição normal, a estatística de teste 

Z1 = √ n sk 

√6 

tem distribuição assimptótica N (0, 1) . A hipótese nula H0: sk = 0 pode ser testada a par- 

tir deste resultado 2 . Mas as hipóteses de partida, normalidade e homocedasticidade, são 

relativamente severas. Na prática, isto significa que a rejeição de H0 pode dever-se à ausên- 

cia de normalidade e/ou homocedasticidade e não necessariamente à falha de simetria da 

distribuição. Desta forma, é necessário ter algum cuidado na interpretação dos resultados 

quando H0 é rejeitada. 

O estimador sk é por vezes criticado por não ser robusto face à presença de valores 

extremos. Na verdade, em certos casos, a ocorrência de apenas uma única variação negativa 

excepcionalmente forte pode resultar num valor negativo para sk (os títulos que incluem na 

sua amostra o crash do dia 19 de Outubro de 1987 tendem a apresentar um valor estimado 

para sk negativo). Por esta razão, é aconselhável usar-se medidas de assimetria robustas 

2 A única hipótese nula possível é H0 : sk = 0. Por exemplo, não faria sentido testar H0 : sk = 1 porque 

a estatística de teste é obtida sob a hipótese de normalidade e sk = 1 é claramente incompatível com essa 

hipótese. 

36

contra a presença de outliers. Uma medida nestas condições é proposta por Groeneveld and 

Meeden (1984) 

skGM = E (r) − q0.5 

E (|r − q0.5|) 

onde q0.5 é o quantil de ordem 0.5, o que significa que q0.5 é a mediana. O parâmetro 

E (|r − q0.5|) fornece uma medida de dispersão dos dados. Esta medida tem a vantagem 

de variar entre -1 e 1, i.e. −1 < skGM < 1. Sob certas condições, skGM pode ser estimado 

de forma consistente através da estatística 

skGM = 

¯r − m 

n −1 n 

t=1 |rt − m| 

sendo m a mediana empírica. Outra medida robusta é o coeficiente de assimetria de Pearson, 

skP = E (r) − q0.5 

. 

σ 

Note-se, finalmente, que para as taxas de câmbio não há razão especial para esperar 

sk > 0 ou sk < 0. Com efeito, suponha-se que St é a taxa de câmbio do Dólar/Euro e 

rt = log (St/St−1) . Se a distribuição de rt é assimétrica negativa então a distribuição dos 

retornos associados à taxa de câmbio do Euro/Dólar, 1/St (seja ˜rt esse retorno) é assimétrica 

positiva, pois 

 

1/St 

St 

˜rt = log = − log = −rt 

1/St−1 

St−1 

(note-se: se x tem distribuição com assimetria negativa, −x tem distribuição com assimetria 

positiva). Assim a assimetria positiva ou negativa nas taxas de câmbio depende da forma 

como a taxa de câmbio está definida (não podendo, portanto, inferir-se qualquer regularidade 

empírica). 

3.1.4 Retornos Apresentam Distribuições Leptocúrticas 

O achatamento de uma distribuição é normalmente aferida através do coeficiente de achata- 

mento k (também designado por kurtosis ou curtose). Diz-se que a distribuição f é mesocúr- 

tica se k = 3, platicúrtica se k < 3 e leptocúrtica se k > 3. O valor de referência 3 é o 

que resulta da distribuição normal (assim, a distribuição normal ou Gaussiana é mesocúr- 

tica). Valores altos de ˆ k (acima de 3) indicam que certos valores da amostra se encontram 

muitos afastados da média, comparativamente aos demais valores da amostra. Observe-se 

37

1.5 

1.0 

0.5 

0.0 

0.5 

1.0 

1.5 

2.0 

1 2 3 4 5 6 7 8 9 

Y1 Y2 

Figura 3-1: Qual das duas séries tem kurtosis estimada mais alta? 

que os desvios (rt − ¯r) 4 são muito sensíveis aos valores extremos da amostra. Por exemplo, 

a existência de outliers faz aumentar a estatística ˆ k. Para ilustrar o impacto dos outliers no 

valor da estatística ˆ k, considere-se a figura 3-1. Pode-se observar que variância da série y1 

é menor do que a da série y2. No entanto, o valor ˆ k da série y2 é de apenas 1.5, ao passo 

que o da série y1 é de 5.5. Os valores da série y2 não se encontram, em termos relativos, 

muitos afastados da sua média. Já na série y1 há um valor que se destaca dos demais e que 

é responsável pelo valor alto de ˆ k. Para compararmos graficamente duas séries é necessário 

estandardizá-las (isto é transformá-las em séries de média zero e variância 1). Continuando 

o exemplo, considere-se agora as mesmas variáveis estandardizadas: 

z1 = y1 − ¯y1 

, z2 = 

ˆσy1 

y2 − ¯y2 

. 

ˆσy2 

Na figura 3-2 ambas as séries possuem a mesma variância, mas agora é claro o valor extremo 

da série y1 

Observa-se para a generalidade das séries financeiras que os retornos muitos altos e muito 

baixos ocorrem com maior frequência do que seria de esperar se os retornos seguissem uma 

distribuição normal. Uma forma de confirmar esta ideia consiste em comparar a estimativa 

do coeficiente de kurtosis (curtose) dos retornos com o valor 3, que é o valor de kurtosis da 

distribuição normal. 

Na generalidade dos casos o coeficiente k estimado vem quase sempre (bastante) acima 

de 3, o que sugere que a distribuição dos retornos (de cotações, índice, taxas de câmbio e 

mesmo taxas de juro) é leptocúrtica. Nas figuras 3-3 e 3-4 (esta última é uma ampliação 

da figura 3-3) mostra-se a diferença entre uma distribuição mesocúrtica (k = 3) e uma 

38

3 

2 

1 

0 

1 

2 

1 2 3 4 5 6 7 8 9 

Z1 Z2 

Figura 3-2: Séries y1 e y2 estandardizadas (ver figura 3-1) 

distribuição leptocúrtica (k > 3). A figura 3-4 mostra claramente por que razão a distribuição 

leptocúrtica é também designada de “distribuição de caudas pesadas”. O ensaio H0: k = 

3 [y ∼ Normal & y é i.i.d] pode ser conduzido pela estatística de teste 

Z1 = √ n 

 

ˆk − 3 

√ 24 

d 

−→ N (0, 1) . 

Por exemplo, para a Microsoft (tabela 3.1) e sabendo que no período considerado se obser- 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

7 4.5 2 0.5 3 5.5 

Normal 

Leptoc. 

Figura 3-3: Comparação de duas densidades (normal vs. leptocúrtica) 

varam 4415 dados diários (n = 4415) tem-se 

z1 = √ (6.8 − 3) 

4415 √ = 51.54. 

24 

O valor-p é P (|Z1| > 51.54) ≈ 0. Existe forte evidência contra H0. 

39

0.01 

0.008 

0.006 

0.004 

0.002 

0 

7 4.5 2 0.5 3 5.5 

Figura 3-4: Ampliação da figura 3-3 

Normal 

Leptoc. 

Podemos também confirmar a existência de caudas pesadas calculando o rácio 

ˆP (|rt − ¯r| > 3ˆσ) 

. (3.1) 

P (|Z| > 3) 

Se Z ∼ N (0, 1) então P (|Z| > 3) = 0.0027. Esta é, aproximadamente, a probabilidade 

associada a eventos extremos quando Z tem distribuição N (0, 1). Se a distribuição de rt 

possuísse caudas normais deveríamos esperar que 

P (|rt − E (rt)| /σ > 3) P (|Z| > 3) 

(observe-se que (rt − ¯r) /ˆσ são os retornos estandardizados) e, portanto, o rácio (3.1) deveria 

ser aproximadamente igual a um. No entanto, a tabela 3.1 mostra que esse rácio tende a ser 

significativamente superior a um. Isto sugere que os retornos muitos altos e muito baixos 

tendem a ocorrer com maior frequência do que seria de esperar se a variável seguisse uma 

distribuição normal. 

Observação 3.1.1 Como estimar a probabilidade P (|rt − E (rt)| /σ > 3)? Primeiro sub- 

stituímos E (rt) e σ = Var (rt) pelas respectivas estimativas consistentes, ¯r e ¯σ. Depois, 

calculamos a proporção de vezes (na amostra) em que ocorre |rt − ¯r| /¯σ > 3. Obtém-se 

assim uma estimativa para P (|rt − E (rt)| /σ > 3) . Em termos analíticos: 

ˆP (|rt − ¯r| /¯σ > 3) = 1 

n 

n 

t=1 

I{|rt−¯r|/¯σ>3} 

onde I{|rt−¯r|/¯σ>3} = 1 se ocorre |rt − ¯r| /¯σ > 3 e zero no caso contrário. 

40

.2 

.1 

.0 

.1 

.2 

R 

.3 

30 

30 40 50 60 70 80 90 00 10 30 40 50 60 70 80 90 00 10 

20 

10 

0 

10 

20 

Z 

Bandas (3,3) 

Figura 3-5: Painel Esquerdo: retornos diários do Dow Jones no período 02/10/1928 a 

3/02/2011 (20678 observações). Painel direito retornos estandardizados, zt = (rt − ¯r) /ˆσ 

Apresenta-se a seguir mais um exemplo envolvendo o rácio (3.1). No painel esquerdo 

da figura 3-5 apresentam-se os retornos diários do Dow Jones no período 02/10/1928 a 

3/02/2011 (20678 observações). No painel direito da mesma figura apresentam-se os re- 

tornos estandardizados juntamente com as rectas -3 e 3. Se os retornos seguissem uma 

distribuição normal seria de esperar que zt = (rt − ¯r) /ˆσ excedesse os limiares 3 e −3 em 

cerca de 0.27% das vezes, tendo em conta, como já vimos, que P (|Z| > 3) = 0.0027, 

supondo Z ∼ N (0, 1). Ora, na verdade zt excede os limiares 3 e -3 em cerca de 1.73% das 

observações (zt excede os limiares 359 vezes, em 20678 observações). 

Tem-se assim 

ˆP (|rt − ¯r| > 3ˆσ) 

P (|Z| > 3) 

0.017 

= = 6.29 

0.0027 

Finalmente, podemos ainda testar a hipótese conjunta H0: k = 3 & sk = 0 [assumindo 

r ∼ Normal & r é i.i.d] através da estatística de Bera-Jarque 

Gráfico QQ-Plot 

Z 2 1 + Z 2 2 = n 

⎛ 

⎜ 

⎝ 

2 ˆk − 3 

24 

+ sk 2 

⎞ 

⎟ 

⎠ 

6 

d 

−→ χ 2 (2) 

Outra forma de compararmos a distribuição normal com a distribuição dos retornos consiste 

em analisar o gráfico QQ-plot. O gráfico QQ-plot é o gráfico dos pares ordenados 

{(qα, ˜qα) , α ∈ (0, 1)} 

41

Quantis Normal 

8 

4 

0 

4 

8 

12 

12 8 4 0 4 8 

Quantis retornos PSI20 

Figura 3-6: QQ Plot (retornos do PSI20 normalizados) 

onde qα é o quantil de ordem α da distribuição Z ∼ N (0, 1) (eventualmente outra) e ˜qα é o 

quantil da distribuição empírica associada à variável estandardizada 

isto é 

xt = rt − ¯r 

¯σ , 

qα : P (Z < qα) = α, Z ∼ N (0, 1) 

˜qα : ˜ P (xt < ˜qα) = α, xt. 

Assim, se xt tem a mesma distribuição de Z, então qα ≈ ˜qα e o gráfico {(qα, ˜qα) , α ∈ (0, 1)} 

é uma recta de 45 o . Se, pelo contrário, as distribuições de xt e Z são diferentes o grá- 

fico afasta-se da recta de 45 o (poderíamos também comparar a distribuição de xt com outra 

qualquer). A figura 3-6 permite concluir que a distribuição dos retornos é leptocúrtica e as- 

simétrica. O gráfico sugere, por exemplo, que P (Z < −3.9) P (xt < −8). A distribuição 

é leptocúrtica pois o gráfico tem a forma de um “S” sobre a recta de 45 o . A distribuição é 

assimétrica porque o “S” não é simétrico sobre a recta de 45 o . 

42

¯r ˆσ sk kˆ 

Retornos Diários 

Frankfurt 0.00035 0.0123 -0.946 15.0 

Hong Kong 0.00057 0.0169 -5.0 119.24 

Londres 0.00041 0.0092 -1.59 27.4 

Nova York 0.00049 0.0099 -4.30 99.68 

Paris 0.00026 0.0120 -0.53 10.56 

Tóquio 

Retornos Semanais 

0.00005 0.0136 -0.213 14.798 

Frankfurt 0.00169 0.0264 -1.06 8.09 

Hong Kong 0.00283 0.0370 -2.19 18.25 

Londres 0.00207 0.0215 -1.478 15.54 

Nova York 0.00246 0.0206 -1.37 11.25 

Paris 0.0028 0.0284 -0.995 9.16 

Tóquio 0.00025 0.0288 -0.398 4.897 

Tabela 3.2: Índices Bolsistas (6-Jan-86 a 31-Dez-97) 

3.1.5 Aumento da Frequência das Observações Acentua a Não Normal- 

idade das Distribuições 

Diz-se que a frequência das observações aumenta quando, se passa, por exemplo, de obser- 

vações mensais para observações semanais ou destas para diárias. A tabela 3.2 mostra que o 

coeficiente de kurtosis aumenta quando se passa de observações semanais para observações 

diárias. Assim, a distribuição marginal dos retornos diários apresenta um maior afastamento 

face à distribuição normal. É possível fazer um raciocínio inverso: a diminuição da frequên- 

cia das observações (por exemplo, quando se passa de observações diárias para observações 

semanais ou mensais) atenua o afastamento da distribuição dos retornos relativamente à dis- 

tribuição normal. Uma possível explicação teórica para este facto é descrita a seguir. 

Sejam P0, P1, P2, ... os preços diários. Se a frequência de observações baixa, passamos 

a observar P0, Ph, P2h, ... sendo h um inteiro maior do que 1. Por exemplo, se passarmos 

para dados semanais (h = 5) passamos a observar P0, P5, P10, ... (imagine-se que t = 0 é 

uma segunda-feira; passados 5 dias observa-se a segunda-feira seguinte que corresponde a 

t = 5). Neste caso, os retornos semanais são: 

log Ph − log P0 

 

retorno 1a , log P2h − log Ph 

 

semana retorno 2a , ... com h = 5 

semana 

Para h geral, o primeiro retorno observado é ˜r1 = log Ph − log P0. Como os retornos contín- 

43

uos são time-additive, resulta 

˜r1 (h) = log Ph − log P0 = r1 + r2 + ... + rh = 

(ri são os retornos diários). Mesmo que ri não tenha distribuição normal, o retorno associa- 

dos a uma frequência de observação mais baixa, ˜r (h) , tenderá a ter distribuição normal pelo 

teorema do limite central. Com efeito, sob certas condições (relacionadas com a variância 

de ri e a memória temporal de r) tem-se 

h i=1 ri 

h − E i=1 ri 

h Var i=1 ri 

 

quando h → ∞ 3 . Para h suficientemente alto resulta 4 

h 

i=1 

ri 

a 

∼ N 

 

E 

h 

i=1 

ri 

 

 

d 

−→ N (0, 1) 

, Var 

h 

Assim, espera-se que a diminuição da frequência amostral atenue a não normalidade obser- 

vada nas séries de retornos de alta frequência. 

3.1.6 Efeitos de Calendário 

Designamos “efeitos de calendário” quando a rendibilidade e/ou a volatilidade varia com 

o calendário. Por exemplo, se certo título regista maior rendibilidade e/ou volatilidade às 

segundas-feiras, temos um efeito de calendário (efeito dia da semana). Tem-se estudado a 

forma como a rendibilidade e a volatilidade varia com o dia da semana, dia do mês, com o 

mês do ano e com a proximidade dos feriados. Certos autores qualificam estes efeitos de 

calendário como “anomalias”. Com efeito, se o mercado é “eficiente” todas as “anomalias” 

depois de detectadas são rapidamente incorporadas nas decisões dos investidores e, tendem, 

por isso, a desaparecer. Para ilustrar a ideia, suponha-se, por exemplo, que a rendibilidade 

do título ABC tende a aumentar às 14h de todas as terças-feiras. Todos os investidores que 

h 3Se for possível garantir que E i=1 ri 

 

h = n E (ri) e Var i=1 ri 

 

= hσ2 então este resultado pode 

i=1 

ri 

 

escrever-se na forma habitual √ h (¯r − E (ri)) /σ d 

−→ N (0, 1) (quando h → ∞). 

4 d 

Observe-se: zn 

razoavelmente alto, zn tem distribuição aproximadamente normal, i.e. zn 

−→ N (0, 1) se no limite, quando n → ∞, z∞ tem distribuição N (0, 1) . Assim, para n 

a 

∼ N (0, 1) . 

44 

h 

i=1 

. 

ri

detectem essa anomalia vendem o título da empresa ABC às terças-feiras às 14h. Como 

resultado o preço da empresa ABC tenderia a cair por volta dessa hora e a anomalia desa- 

parecia. De uma forma geral, se os investidores são racionais e dispõem de toda a informação 

passada sobre o mercado, as anomalias relacionadas com as rendibilidades dependentes do 

calendário, tendem a desaparecer, logo que sejam detectadas. Na prática, subsistem certas 

anomalias que não desaparecem mas que, em geral, não permitem obter rendibilidades anor- 

mais, depois de deduzidos os custos de informação e transacção. Podem assim permanecer 

no mercado “anomalias” ou “ineficiências” para as quais o benefício de explorar essas inefi- 

ciências não compensa os custos adicionais associados. 

Dia da Semana 

À partida espera-se que os retornos à segunda-feira sejam um pouco mais altos face aos 

demais dias da semana, pois a posse de títulos à segunda-feira representa um investimento 

de 72 horas face à última sexta-feira, tendo em conta que o mercado fecha aos fins-de- 

semana. Analiticamente observe-se que se o retorno diário rt tem média µ então, para um 

investimento de 3 dias (de sexta a segunda-feira) o retorno associado, rt + rt+1 + rt+2, 

deverá ter média 3µ. Assim, o retorno à segunda feira deveria ser, em média, três vezes 

superior ao retorno dos demais dias da semana. Taylor (2005) reporta vários estudos com 

conclusões contraditórias (para certos títulos e para determinados períodos é possível que o 

retorno à segunda-feira seja mais elevado, mas não se pode concluir em geral que o retorno 

às segundas seja necessariamente superior ao dos demais dias da semana). 

Por outro lado, um investimento a 3 dias deve ser mais volátil do que um investimento 

a um dia. Se rt tem variância σ 2 e {rt} é uma sucessão de v.a. não autocorrelacionadas, 

rt + rt+1 + rt+2, tem variância igual a 3σ 2 . Portanto, espera-se que às segundas feiras o 

retorno apresente maior variabilidade. No entanto, argumenta-se que a (verdadeira) variância 

associada aos retornos de segunda-feira não pode ser tão alta como o valor 3σ 2 sugere, pois 

durante o fim-de-semana as notícias que movimentam o mercado (e produzem volatilidade) 

são, em geral, escassas e pouco relevantes. De todo o modo, regista-se, para um número 

considerável de activos, um aumento de volatilidade à segunda-feira. 

A melhor forma de testar estes efeitos passa pela modelação ARCH (cap. 8). Uma forma 

menos eficiente de testar estes efeitos consiste em calcular a média e a variância dos retornos 

nos vários dias da semana. Por exemplo, para analisar se as médias dos retornos são iguais 

45

nos vários dias da semana, faz-se a regressão, 

rt = β + δ1tert + δ2quat + δ3quit + δ4sext + ut 

(3.2) 

onde ter, qua, etc. são variáveis dummy que assumem o valor um se t corresponde, respec- 

tivamente, a uma terça-feira, quarta-feira, etc. (note-se que o “grupo base” é a segunda- 

feira). Sendo o “grupo base” a segunda-feira, β é a média do retorno à segunda feira 

(E (rt| segt = 1) = β). Por outro lado, δi, para i = 1, ..., 4 representam as diferenças da 

média do retorno dos outros dias face à segunda-feira (por exemplo, se δ3 = −0.01 então o 

retorno médio à quinta-feira é igual a β − 0.01 e δ3 representa a diferença face à segunda- 

feira). 

O ensaio H0: δ1 = δ2 = ... = δ4 = 0 corresponde a testar a não existência de diferenças 

nas médias dos retornos dos vários dias da semana. A estatística habitual para o caso em 

análise (em que H0 estabelece a nulidade de todos os parâmetros com excepção do termo 

constante) é 

F = 

R 2 / (k − 1) 

(1 − R 2 ) /(n − k) 

onde k é o número de regressores (incluindo o termo constante) e R 2 é o coeficiente de de- 

terminação. Sob H0 (homocedasticidade e ausência de autocorrelação) a estatística F tem 

distribuição F (k − 1, n − k). Na presença de heterocedasticidade, os teste t e F habitu- 

ais são inválidos. Uma solução para este problema consiste na estimação da equação (3.2) 

através dos modelos da família ARCH (veremos este aspecto no capítulo 8). Outra solução 

passa pela utilização de erros padrão robustos (ou da estatística F robusta) contra a presença 

de heterocedasticidade 5 . 

Em Taylor (2005) descrevem-se outras “anomalias” associadas ao calendário. 

 

5Erros padrão (de White) robustos contra heterocedasticidade obtêm-se a partir da matrix Var ˆβ = 

(X ′ X) −1 X ′ WX (X ′ X) −1 onde W é uma matriz diagonal com elementos û2 1, ..., û2 

n . A estatística ro- 

′ 

busta, na versão do teste de Wald, para ensaiar H0 : Rβ = r, é Rˆβ − r R 

Var ˆβ R ′ 

−1 

Rˆβ − r , e 

tem distribuição assimptótica χ2 (q) onde q é o numero de restrições. Nota sobre o programa EVIEWS (versão 6 

e 7): a opção “White” em “Heteroskedasticity consistent coefficient covariance” que aparece depois de se seleccionar 

Quick/Estimate/Options fornece no output erros padrão robustos, mas não, infelizmente, a estatística 

F robusta. É possível obter esta estatística robusta fazendo o seguinte: escolhe-se a opção “White” em “Heteroskedasticity 

consistent coefficient covariance” e estima-se o modelo. Em seguida realiza-se o teste Wald 

seleccionando View/Coefficient Tests/Wald, introduzindo-se depois as restrições a ensaiar. 

46

3.1.7 Distribuições Teóricas para os Retornos 

Distribuição t-Student 

É bem conhecida a distribuição t-Student com v graus de liberdade, t (v) . A fdp é 

f (x) = Γ 

v+1 

2 

√ 

v vπΓ 2 

 

1 + x2 

v+1 

− 2 

. 

v 

Como se sabe, se X ∼ t (v) , então E (X) = 0, Var (X) = v/ (v − 2), sk = 0 e k = 

3 + 6/ (v − 4) . Como k > 3 conclui-se que a distribuição t (v) tem caudas pesadas. Por 

vezes tem interesse trabalhar com uma variável aleatória ε com distribuição t-Student de 

média zero mas variância igual a um. Se X ∼ t (v) a solução passa pela transformação 

ε = X (v − 2) /v. 

É fácil constatar que Var (ε) = 1, kε = kx = 3 + 6 . Note-se que a fdp de ε é 

v−4 

g (x) = 

1 Γ 

 

π (v − 2) 

 

v+1 

2 

Γ 

1 + v 

2 

x2 

v+1 

− 2 

. 

v − 2 

Quando mais baixo for o número de graus de liberdade mais pesadas são as caudas. No 

caso v = 4 o momento de ordem 4 não existe e, portanto, também não existe o coeficiente 

de kurtosis (quer dizer, neste caso, o integral impróprio 

R x4 g (x) dx não é finito porque a 

expressão x 4 g (x) não tende para zero com suficiente rapidez). 

Mistura de Normais 

Considere-se uma distribuição mistura de normais: α100% de N (µ 1, σ 2 1) e (1 − α) % de 

N (µ 2, σ 2 2) . Por exemplo, imagine-se que se faz uma extracção de números aleatórios da 

seguinte forma: atira-se uma moeda ao ar. Se cair caras simula-se uma variável X1 com 

distribuição N (µ 1, σ 2 1) ; se cair coroas, simula-se X2 com distribuição N (µ 2, σ 2 2) . De uma 

forma geral, a variável X, que representa a mistura de normais, pode escrever-se da seguinte 

forma: 

X = UX1 + (1 − U) X2, 

onde U tem distribuição de Bernoulli. Sejam f, fu e fx|u respectivamente a fdp de X, a 

função de probabilidade de U e a fdp condicional de X dado U = u. Para obter a fdp 

47

f(x) 

0.010 

0.009 

0.008 

0.007 

0.006 

0.005 

0.004 

0.003 

0.002 

0.001 

8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 

Figura 3-7: Abas da t-Student (– v = 4.1, - - v = 5, · · · v = 30) 

de X usa-se a expressão bem conhecida da estatística: f (x) = 1 

u=0 fx|u (x|u) fu (u). A 

distribuição de X dado U = u é imediata, tendo em conta que uma soma de normais é ainda 

uma normal: 

onde 

X|U = u ∼ N (E (X|U = u) , Var (X|U = u)) , 

E (X|U = u) = uµ 1 + (1 − u) µ 2 

Var (X|U = u) = u 2 σ 2 1 + (1 − u) 2 σ 2 1 + 2u (1 − u) Cov (X1, X2) 

Assim, fx|u (x|u) é a função de densidade da normal de média E (X|U = u) e variância 

Var (X|U = u). Desta forma, 

f (x) = αfx|u (x|0) + (1 − α) fx|u (x|1) , 0 ≤ α ≤ 1 

sendo fx|u (x|0) a fdp da distribuição N (µ 1, σ 2 1) e fx|u (x|1) a fdp da distribuição N (µ 2, σ 2 2). 

No exemplo da “moeda ao ar”, α é 0.5. É interessante observar que uma mistura de normais 

conduz a uma distribuição não normal. Em particular a mistura pode ser assimétrica e lep- 

tocúrtica. Com efeito, pode-se mostrar que, 

• E (X) = αµ 1 + (1 − α) µ 2; 

• Var (X) = ασ 2 1 + (1 − α) σ 2 2 + α (1 − α) (µ 1 − µ 2) 2 ; 

48 

x

f(x) 

1.0 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

5 4 3 2 1 0 1 2 3 4 5 

Figura 3-8: Mistura de Normais 

• E (X − E (X)) 3 = α (1 − α) (µ 1 − µ 2) (1 − 2α) (µ 1 − µ 2) 2 + 3 (σ 2 1 + σ 2 2) ; 

• k = 3 + 3α(1−α)(σ2 1 −σ2 2) 2 

(ασ 2 1 +(1−α)σ2 2) 2 > 3 supondo, para simplificar, que µ 1 = µ 2 = 0. 

Na figura 3-8 representa-se f (x) para α = 0.5, µ 1 = −1, µ 2 = 1, σ1 = 1/5, σ2 = 5. A 

fdp traçada é assimétrica e leptocúrtica. 

Distribuição com Caudas de Pareto 

A fdp de Pareto é 

g (y) = αc α y −(α+1) , y > c. 

À primeira vista pode parecer que esta distribuição não serve pois o nosso objectivo é mod- 

elar os retornos e o espaço de estados desta variável é claramente R (os retornos podem as- 

sumir qualquer valor em R). Ora, sucede que g apenas está definida para y > c (e, portanto, 

não atribui probabilidades quando y < c). No entanto, o que procuramos neste momento 

é caracterizar probabilisticamente os eventos extremos, i.e. os eventos que se encontram 

bem afastados da média. Estamos, portanto, concentrados nas abas da distribuição e, para o 

efeito, o que é relevante é o que se passa para y > c. 

Diz-se que uma fdp f (y) tem distribuição com caudas de Pareto (mesmo que não seja 

uma distribuição de Pareto) se 

f (y) ∼ Cy −(α+1) , α > 0 

49 

x

fdp 

0.07 

0.06 

0.05 

0.04 

0.03 

0.02 

0.01 

0.00 

2.0 2.5 3.0 3.5 4.0 4.5 5.0 

Figura 3-9: Cauda de Pareto vs. Cauda Gaussiana 

(C é uma constante). O sinal “∼” significa aqui que 

lim 

y→∞ f (y) /Cy−(α+1) = 1. 

Esta última equação diz-nos que para valores grandes de y, f (y) é “praticamente igual” a 

Cy −(α+1) (no limite é igual). Para valores “pequenos” de y, f (y) pode ser completamente 

diferente de Cy −(α+1) . A similaridade está nas caudas, quando y → ∞ (existem definições 

mais gerais, baseadas em funções slowly varying at ∞). Pode-se concluir que f (y) tem um 

decaimento polinomial para zero (decaimento lento para zero) e, portanto, caudas pesadas. Já 

a distribuição normal tem um decaimento exponencial (recorde-se que no caso Gaussiano, 

f (y) = C exp {−y 2 /2}) e a fdp tende para zero muito rapidamente quando y tende para 

±∞. A figura 3-9 compara uma cauda Gaussiana com uma cauda de Pareto. 

Uma vez que a fdp com caudas pesadas do tipo f (y) ∼ Cy −(α+1) não tende rapidamente 

para zero, certos valores esperados podem não existir. De facto, se α < k então os momentos 

de ordem igual ou superior a k não existem. Com efeito, seja D o espaço de estados de yt 

50 

y

(valores que y pode assumir). Para um certo c ∈ D e c > 0, vem: 

 

E |yt| k 

= 

≥ 

= 

 

= C 

D ∞ 

c ∞ 

|y| k f (y) dy 

c 

∞ 

c 

|y| k f (y) dy 

|y| k Cy −(α+1) dy 

|y| −α−1+k dy = ∞ 

se −α − 1 + k > −1, ou seja, se α < k. Por exemplo, Var (yt) não existe se α < 2. 

Estimador de Hill Suponha-se f (y) ∼ Cy −(α+1) . Como estimar α? Antes de propormos 

um estimador para α, admita-se um cenário mais simples: f (y) tem distribuição (exacta) de 

Pareto, y ∼ P areto (c, α) , ou seja 

f (y) = αcα 

, y > c. 

yα+1 Assuma-se que {yt; t = 1, 2, ..., n} é uma sucessão de v.a. i.i.d. com distribuição de P areto (α, c) . 

A função de log-verosimilhança corresponde à expressão 

log L (α, c) = 

n 

log f (yt) = n log (α) + n log (c) − (α + 1) 

t=1 

Diferenciando log L com respeito a α e igualando a zero obtém-se 

ˆα = 

n 

t=1 

n 

log (yt) . 

t=1 

n 

. (3.3) 

log (yt/c) 

ˆαn é maximizante, pois ∂ 2 log L/∂ 2 α = −n/α 2 < 0. Tem-se ainda √ n (ˆαn − α) 

N 0, I (α) −1 onde 

I (α0) = − E 

 

2 ∂ log f (yt) 

∂α 2 

= 1 

. 

α2 O estimador de máxima verosimilhança de c é ĉ = mint=1,...,n {yt} 6 

d 

−→ 

Retome-se agora a hipótese f (y) ∼ Cy −(α+1) . Se uma distribuição tem caudas de Pareto, 

mas não é uma distribuição de Pareto, então o estimador para α acima apresentado não pode 

6 Embora a derivada da função log L (c, α) com respeito a c não se anule (verifique), pode-se concluir que no 

intervalo de valores admissíveis de c, isto é, c ≤ mint=1,...,n {yt} , a função log L (fixado α) atinge o máximo 

em ĉ = mint=1,...,n {yt} . 

51

ser utilizado. Nestas circunstâncias, se estamos apenas interessados em estimar o índice 

de cauda α (supondo que y tem distribuição com caudas de Pareto, mas não segue essa dis- 

tribuição), devemos aparar a amostra {yt; t = 1, 2, ..., n} , por exemplo, considerando apenas 

os dados yt tais que yt > q (onde q pode ser interpretado como um quantil de y, geralmente 

um quantil de ordem superior a 0.95). Analisa-se, portanto, o comportamento de y apenas 

para os valores muitos altos (ou muito baixos) de y. 

O estimador de α, designado por estimador de Hill, para a aba direita da distribuição é 

ˆα (q) = 

n (q) 

n t=1 log (yt/q) 

, n (q) = 

I{yt>q} 

n 

t=1 

I{yt>q} 

(3.4) 

onde I{yt>q} = 1 se yt > q e I{yt>q} = 0 no caso contrário. Pode-se pensar neste estimador 

como se fosse o estimador (3.3), mas aplicado apenas aos valores da amostra que verificam 

yt > q. 

O estimador de α para a aba esquerda da distribuição é o que resulta da equação (3.4) de- 

pois de se substituir I{yt>q} por I{yt0.01} log (yt/0.01) I{yt>0.01} 

-0.110 0 0 

0.090 1 2.197 

0.100 1 2.303 

-0.100 0 0 

0.020 1 0.693 

0.005 0 0 

 

3 5.193 

Qual é o valor do threshold q que devemos escolher? Temos um dilema de enviesamento 

52

versus variância: 

• se q é alto a estimação de ˆα (q) é baseada em poucas observações, i.e., n (q) é baixo, 

pelo que a variância de ˆα (q) é alta (observe-se Var (ˆα (q)) = α 2 /n (q)); 

• se q é baixo, perde-se a hipótese f (y) ∼ Cy −(α+1) e, como consequência, o estimador 

ˆα (q) é enviesado e mesmo inconsistente (recorde-se que ˆα (q) é baseado na hipótese 

f (y) ∼ Cy −(α+1) ). 

Exemplo 3.1.2 Na tabela seguinte apresentam-se estimativas do índice da cauda de re- 

tornos bolsistas sectoriais do mercado norte-americano no período 03/1/1994 a 21/01/2011 

(4292 observações). 

Aba Esquerda Aba Direita 

ˆα (q0.0.025) ˆα (q0.975) Retorno Volat. Skew. Kurt. 

n o obs. efect. usadas: 108 108 Anualiz. Anualiz. 

Petróleo e Gás 2.29 3.16 9.45% 25.79% -0.25 13.98 

Matérias-Primas 2.81 3.15 6.77% 25.90% -0.29 10.32 

Indústria 2.91 3.00 7.42% 21.90% -0.25 8.441 

Consumo (bens) 3.37 2.93 2.34% 19.82% -0.15 9.025 

Saúde 2.90 3.52 7.12% 17.29% -0.08 11.44 

Comunicações 3.10 3.26 1.37% 22.31% 0.09 9.962 

Utilities 3.06 2.78 1.86% 19.10% 0.04 14.19 

Financeiras 2.68 2.37 5.02% 29.02% -0.10 15.58 

Tecnologia 3.77 3.07 9.42% 30.44% 0.16 7.065 

Fonte: Datastream 

Algumas conclusões podem ser retiradas: 

• Em todos os casos é razoável admitir que a variância existe. Os momentos de ordem 

4 podem não existir. 

• Os índices de cauda estimados são relativamente baixos o que sugere que existe uma 

massa de probabilidade considerável associada a valores extremos na amostra. 

53

Figura 3-10: Estimativa da fdp dos retornos do DowJones no período Out/1988-Jan/2010 e 

fdp normal de média e variância estimadas a partir dos retornos 

3.1.8 Estimação Não Paramétrica da Função Densidade de Probabili- 

dade 

A forma mais simples de estimar f (x) consiste em obter o histograma das frequências relati- 

vas. Existem, no entanto, estimadores preferíveis. Uma estimativa não paramétrica de f (x) 

pode ser dada por 

ˆf (x) = 1 

nh 

n 

 

x − xi 

K 

h 

i=1 

onde K (u) é uma fdp (ver detalhes no ponto 10.2). Sob certas condições, incluindo h → 

0, n → ∞, nh → ∞ pode-se provar ˆ f (x) 

p 

−→ f (x) . Na figura 3-10 apresenta-se uma es- 

timativa não paramétrica da fdp marginal dos retornos do Dow Jones no período Out/1988- 

Jan/2010 (na verdade, estão representadas várias estimativas: f (x1) , f (x2) , ..., f (xk) , 

sendo {xk} uma sucessão de valores igualmente espaçado no intervalo (−0.07; 0.06) - vejase 

o eixo das abcissas da figura 3-10). Na figura representa-se também a fdp da N ¯r, ˆσ 2 

onde ¯r e ˆσ 2 são as estimativas dos dois primeiros momentos dos retornos do Dow Jones no 

período considerado. 

Comparando ˆ f com a densidade normal, conclui-se que ˆ f atribui maior massa de prob- 

abilidade na vizinhança da média empírica e nos intervalos associados aos valores extremos 

da amostra, e atribui reduzida massa de probabilidade no intervalo dos valores moderados da 

54

amostra, digamos no intervalo (−0.03, −0.01) e (0.01, 0.03). 

3.2 Regularidade Empíricas relacionadas com a Distribuição 

Condicional 

Neste ponto discutimos regularidades que envolvem especificações dinâmicas relacionadas 

com a distribuição condicional dos retornos ou de uma função dos retornos (por exemplo, 

veremos como o retorno depende dos seus valores passados, ou como o quadrado dos re- 

tornos depende do quadrado dos retornos passados, entre outras especificações). 

3.2.1 Autocorrelações Lineares Baixas entre os Retornos 

A correlação entre as variáveis X e Y é dada por 

ρ = 

Cov (X, Y ) 

Var (X) Var (Y ) , −1 ≤ ρ ≤ 1. 

O coeficiente ρ mede o grau de associação linear entre Y e X. Quanto mais alto for |ρ| maior 

é a relação entre X e Y. Podemos também medir a associação linear entre yt e yt−1 ou entre 

yt e yt−2 etc. 

ρ s = 

Cov (yt, yt−s) 

Var (yt) Var (yt−s) 

Como ρ s pode ser visto como uma função de s, ρ s é designado por função de autocorrelação 

(FAC) (ou ACF em inglês). Se assumirmos Var (yt) = Var (yt−s) vem 

ρ s = 

Cov (yt, yt−s) 

 

Var (yt) Var (yt−s) = Cov (yt, yt−s) 

 

(Var (yt)) 2 

= Cov (yt, yt−s) 

. 

Var (yt) 

Pelo método dos momentos, a estimação de ρ s pode fazer-se através do estimador 

ˆρ s = 

1 n 

n−s 

t=s+1 (yt − ¯y) (yt−s − ¯y) 

n t=1 (yt − ¯y) 2 . 

1 

n 

O coeficiente ρ s pode ser também obtido no contexto do modelo de (auto)regressão 

yt = c + ρ syt−s + ut 

55

Figura 3-11: Funções de autocorrelação dos retornos diários (Microsoft 1986-2006) 

onde se admite que {ut} é uma sucessão de v.a. independentes e E (ut| yt−s) = 0. O rácio-t 

associado à estimativa de ρ s permite ensaiar H0: ρ s = 0. Em alternativa temos os seguintes 

testes standard válidos sob a hipótese i.i.d. 

Teste Kendal e Stuart H0: ρ k = 0 

 

√ d 

n (ˆρk + 1/n) −→ N (0, 1) , ˆρ k ≈ N − 1 

 

1 

, √ 

n n 

Rejeita-se H0 ao n.s. de (aprox.) 5% se |ˆρ k| > 2/ √ n (supondo 1/n ≈ 0). 

Teste Ljung-Box H0: ρ 1 = ... = ρ m = 0 

Qm = n (n + 2) 

m 

k=1 

1 

n − k ˆρ2 

k 

d 

−→ χ 2 (m) 

Em geral os coeficientes de autocorrelação dos retornos são baixos. Na figura 3-11 as 

estimativas da FAC dos retornos diários da Microsoft 1986 a 2006 são relativamente baixas. 

Imagine-se uma situação hipotética em que se tem um coeficiente de correlação nega- 

tivo e alto (em módulo), por exemplo, ρ 1 = −0.9, para dados diários. Suponha-se ainda, 

para simplificar a análise, que E (rt) = 0. Se o retorno hoje é positivo, amanhã o retorno 

tenderá a ser negativo e vice-versa. Nestas circunstâncias, se o retorno hoje é alto vende-se 

56

hoje e compra-se amanhã. Existe, portanto, uma forte possibilidade de ganho (arbitragem) 

com base na observação passada dos preços. Se outros participantes do mercado compram 

e vendem com base neste padrão de autocorrelação, o processo de arbitragem reduzirá rapi- 

damente a correlação (se o retorno hoje é alto e positivo muitos participantes vendem hoje e 

compram amanhã; como consequência o preço tenderá a diminuir hoje e aumentar amanhã 

e a correlação tenderá a esbater-se). Portanto, não é credível, supor-se ρ 1 = −0.9. 

Retome-se a figura 3-11. A coluna Q-Stat fornece os valores de Qm para m = 1, ..., 20. 

Fixe-se por exemplo, m = 20. Tem-se Q20 = 36.613. O valor-p associado é zero, isto é, 

P (Q20 > 36.613) = 0.013. Logo existe evidência contra a hipótese nula H0: ρ 1 = ... = 

ρ 20 = 0. Esta conclusão parece contraditória com a ideia de baixas autocorrelações dos 

retornos. No entanto, é preciso observar o seguinte: 

• em amostras muito grandes, como é aquela que analisamos, qualquer pequeno desvio 

face à hipótese nula implica a sua rejeição; 

• os coeficientes estimados embora (pareçam) estatisticamente significativos estão, ainda 

assim, muito perto de zero e não oferecem informação suficiente para realizar mais- 

valias anormais (depois de deduzidos os custos de transacção e informação); 

• os testes foram utilizados sob a hipótese irrealista de os retornos serem i.i.d. Esta su- 

posição não é válida sobretudo devido à presença de heterocedasticidade condicionada. 

Uma forma de mitigar a presença de heterocedasticidade consiste em estandardizar os 

retornos, 

r ∗ t = rt − ¯r 

onde ˆσt é uma estimativa da volatilidade no momento t (r ∗ t pode ser encarado como os “re- 

tornos” expurgados de heterocedasticidade). Como obter ˆσt? Discutiremos esta questão com 

alguma profundidade no capítulo 8. É suficiente agora usar uma especificação relativamente 

simples (mas “subóptima”): 

ˆσt 

ˆσ 2 

t = (1 − λ) r 2 t−1 + λˆσ 2 

t−1, λ = 0.96 

Na figura 3-12 apresentam-se os coeficientes de autocorrelação de r ∗ t . Observa-se que os co- 

eficientes de autocorrelação continuam muitos baixos mas agora não existe evidência contra 

a a hipótese ρ 1 = ... = ρ 20 = 0. 

57

Figura 3-12: Funções de autocorrelação dos retornos diários estandardizados (Microsoft 

1986-2006) 

Séries macroeconómicas geralmente exibem moderada ou forte autocorrelação. Veja-se, 

por exemplo, a figura 3-13 onde se representa a FAC de yt = log (GNPt/GNPt−1) sendo 

GNP (Gross National Product) o PIB dos EUA (dados trimestrais de 1947 a 2003). 

3.2.2 Volatility Clustering 

Já vimos que valores muitos altos e muito baixos ocorrem frequentemente (com maior fre- 

quência do que seria de esperar se as variáveis seguissem uma distribuição normal). Este 

valores extremos não ocorrem isoladamente: tendem a ocorrer de forma seguida (volatility 

clustering). Na figura 3-14 representam-se os retornos diários associados ao índice Dow 

Jones (1926-2006). Na figura 3-15 apresentam-se os mesmos retornos mas agora dispostos 

por ordem aleatória no tempo. Algumas estatísticas destas duas sucessões são obviamente 

iguais (média, desvio padrão, coeficientes de assimetria e de achatamento). No entanto ex- 

istem diferenças significativas. Só no verdadeiro cronograma (figura 3-14) aparece uma 

das propriedades mais importantes dos retornos: fortes (baixas) variações são normalmente 

seguidas de fortes (baixas) variações em ambos os sentidos (volatility clustering) 

Se fortes (baixas) variações são normalmente seguidas de fortes (baixas) variações em 

58

Figura 3-13: Funções de autocorrelação de yt = log (GNPt/GNPt−1) onde GNP é o PIB 

dos EUA (dados trimestrais de 1947 a 2003). 

0.2 

0.15 

0.1 

0.05 

0 

0.05 

0.1 

0.15 

0.2 

0.25 

0.3 

Oct28 

May32 

Dec35 

Jul39 

Feb43 

Sep46 

Apr50 

Nov53 

Jun57 

Jan61 

Aug64 

Mar68 

Oct71 

May75 

Dec78 

Jul82 

Feb86 

Sep89 

Apr93 

Nov96 

Jun00 

Jan04 

Figura 3-14: Retornos diários do Dow Jones (1928-2006) 

0.2 

0.15 

0.1 

0.05 

0 

0.05 

0.1 

0.15 

0.2 

0.25 

0.3 

Figura 3-15: Retornos diários do Dow Jones dispostos por ordem aleatória 

59

Figura 3-16: Funções de autocorrelação dos quadrados dos retornos (Dow JOnes) 

ambos os sentidos, então r 2 t deve estar correlacionado 7 com r 2 t−i (i = 1, 2, ...). 

A figura 3-16, onde se apresentam as funções de autocorrelação de r 2 t , onde r é o retorno 

associado ao índice Dow Jones, confirma esta ideia. 

Nesta secção identifica-se o quadrado do retorno com a volatilidade. Não é inteiramente 

correcta esta analogia, embora seja admissível associar-se momentos de grande (baixa) volatil- 

idade a valores altos (baixos) de r 2 t . De qualquer forma, a principal conclusão mantém-se: 

fortes (baixas) variações são normalmente seguidas de fortes (baixas) variações em ambos 

os sentidos e identificamos este fenómeno como volatility clustering. 

3.2.3 Forte Dependência Temporal da Volatilidade 

Nos pontos precedentes observámos o seguinte: (1) valores muitos altos e muito baixos 

ocorrem frequentemente e (2) estes valores extremos aparecem de forma seguida (volatility 

clustering). Neste ponto reforça-se a ideia de volatility clustering: não só os valores extremos 

tendem a aparecer de forma seguida como também há alguma persistência neste fenómeno. 

7Esta correlação poderia, em princípio, dever-se à presença de uma média condicional não constante. Por 

exemplo, se rt seguisse um MA(1), rt = φrt−1 + ut, onde ut é um ruído branco, então, por construção, 

ter-se-ia Corr r2 t , r2 

t−1 > 0. Se fosse este o caso, a melhor forma de continuarmos com o nosso argumento 

seria centrar rt, usando a média condicional, i.e. tomaríamos ˜rt = rt − µ t. Viria agora Corr ˜r 2 t , ˜r 2 

t−1 = 0 se 

rt fosse genuinamente um MA(1); no caso contrário, se Corr ˜r 2 t , ˜r 2 

t−1 > 0, teríamos evidência em favor do 

nosso argumento. Todavia, a centragem ˜rt = rt − µ t é desnecessária, pois em séries financeiras de acções ou 

de índices de acções a média condicional é, geralmente, aproximadamente igual a uma constante. 

60

0.2 

0.15 

0.1 

0.05 

0 

0.05 

0.1 

0.15 

Oct28 

Apr31 

Oct33 

Apr36 

Oct38 

Apr41 

Oct43 

Apr46 

Oct48 

Apr51 

Oct53 

Apr56 

Oct58 

Apr61 

Oct63 

Apr66 

Oct68 

Apr71 

Oct73 

Apr76 

Oct78 

Apr81 

Oct83 

Apr86 

Oct88 

Apr91 

Oct93 

Apr96 

Oct98 

Apr01 

Oct03 

Figura 3-17: Retornos diários do Dow Jones (Jan-1928 a Fev-2006) 

Isto é, se a volatilidade é alta (baixa), então é razoável esperar que a volatilidade se mantenha 

alta (baixa) durante bastante tempo. Na figura 3-17 apresentam-se os retornos diários do Dow 

Jones no período Janeiro de 1928 a Fevereiro de 2006. Estão identificados alguns períodos 

de grande volatilidade. Estes períodos prolongam-se por vários anos! 

Para confirmarmos a ideia de forte dependência temporal da volatilidade deveríamos 

calcular a FAC da volatilidade. Como a estimação da volatilidade cabe num capítulo poste- 

rior, tomamos agora como proxy da volatilidade o valor absoluto dos retornos |rt| (também 

poderíamos considerar r 2 t , como fizemos no ponto precedente). Calcule-se, assim, a FAC 

associado aos valores absolutos dos retornos do Dow Jones no período acima considerado. 

A figura 3-18 mostra que a FAC de |rt| apresenta um decaimento lento para zero, sugerindo 

forte dependência temporal da volatilidade. É interessante observar que a autocorrelação en- 

tre, por exemplo, |rt| e |rt−500| se situe ainda próximo de 0.1 (observe-se que o desfasamento 

corresponde aproximadamente a dois anos). 

Para processos ARMA e processos de Markov em geral, o decaimento da FAC é do tipo 

|ρ k| ≤ Ca k , 0 < C < ∞, 0 < a < 1. 

Tem-se, portanto, um decaimento exponencial 8 . A figura 3-18 não sugere um decaimento 

exponencial; sugere antes um decaimento hiperbólico da FAC que é uma característica de 

8 k Pode parecer estranho dizer-se que a função Ca apresenta um decaimento exponencial para 0 < C < ∞ e 

0 < a < 1. Mas observe-se, para C = 1 (simplificando), que ak log ak = e = ek log a e tem-se assim um 

decaimento exponencial, em função de k, dado que log a < 0. 

61

0.35 

0.3 

0.25 

0.2 

0.15 

0.1 

0.05 

0 

1 76 151 226 301 376 451 526 601 676 751 826 901 976 

Figura 3-18: FAC de |rt| onde rt é o retorno diário do Dow Jones (Jan. 1928 a Fev. 2006) 

Rho 

1.0 

0.8 

0.6 

0.4 

0.2 

0.0 

0 10 20 30 40 50 60 70 80 90 100 

Figura 3-19: Decaimento Exponencial (0.9 k ) vs. Hiperbólico (k −0.5 ) 

processos de memória longa. Concretamente, um decaimento hiperbólico da FAC é do tipo 

|ρ k| ≈ C |k| −β , β > 0 

Por exemplo, com ρ k = 1/k (β = 1) tem-se um decaimento hiperbólico (veja-se a figura 

3-19). 

3.2.4 Efeito Assimétrico 

Tem-se observado existir alguma correlação entre a volatilidade e a ocorrência de perdas 

significativas nos mercados de capitais. Designa-se esta relação por efeito assimétrico (ou 

leverage effect). 

Concretamente, quando rt−1 < 0 espera-se, em média, um aumento de volatilidade para 

o período seguinte. Se tomarmos como proxy da volatilidade a variável |rt| ou r 2 t devemos 

62 

k

Índices Bolsistas Corr (rt−1, r 2 t ) 

Amesterdão -0.049 

Frankfurt -0.095 

Hong Kong -0.081 

Nova York -0.199 

Taxas de Câmbio 

Libra Britânica 0.074 

Dólar Canadiano 0.041 

Yen -0.008 

Franco Suíço 0.014 

Tabela 3.3: Efeito Assimétrico 

esperar que Corr (rt−1, |rt|) < 0 ou Corr (rt−1, r 2 t ) < 0. A tabela 3.3 parece confirmar a 

existência de um efeito assimétrico apenas para índices bolsistas (e, por extensão, também 

para cotações de acções) mas não para taxas de câmbio (a justificação pode ver-se no ponto 

3.1.3). 

Veremos no capítulo 8 uma forma bastante mais eficiente de estimar o efeito assimétrico 

e de testar se os coeficientes são ou não estatisticamente significativos. Não obstante, uma 

forma expedita de verificar se os coeficientes são estatisticamente significativos consiste em 

fazer a regressão de r 2 t sobre rt−1, 

r 2 t = β 0 + β 1rt−1 + ut 

(3.5) 

e depois ensaiar H0: β 1 = 0 contra H1:β 1 < 0. Com efeito, na equação anterior, β 1 

representa β 1 = Cov (rt−1, r 2 t ) / Var (rt−1) . Desta forma, β 1 < 0 implica Corr (rt−1, r 2 t ) < 

0. 

Como a heterocedasticidade está invariavelmente presente nas séries temporais finan- 

ceiras, convém empregar erros padrão robustos contra heterocedasticidade (uma possibili- 

dade neste sentido é a utilização da matriz de White). Recorda-se que, sob condições gerais, 

a heterocedasticidade não afecta a consistência do estimador OLS (afecta sim, como vimos, 

os erros padrão). 

O efeito assimétrico é, por vezes identificado como leverage effect depois de Black em 

1976 ter notado que a volatilidade aumenta quando o mercado cai e o rácio de endividamento 

(leverage ratio) aumenta. No entanto, vários autores têm salientado que o leverage é muito 

reduzido quando comparado com o efeito assimétrico. Várias explicações têm sido propostas 

para o efeito assimétrico. 

63

• Uma explicação designada por volatility feedback effect baseia-se na seguinte ideia. 

Quando a volatilidade de uma activo aumenta, o risco agrava-se, e a rendibilidade 

exigida para esse activo aumenta. Isto significa que o activo é menos atractivo e, 

portanto, a sua procura diminui, fazendo cair o respectivo preço. Esta explicação pres- 

supõe que o aumento da volatilidade precede a queda do preço (isto é, esquematica- 

mente, ↑ σ 2 t−1 ⇒↓ Pt, podendo t aqui ter uma interpretação intra-diária). Contudo, o 

facto estilizado envolve a implicação contrária, ↓ Pt−1 ⇒↑ σ 2 t (a diminuição do preço 

é que precede o aumento da volatilidade). 

• Outra explicação sustenta que o efeito assimétrico deve-se à existência de investidores 

naives (uninformed traders) que vendem os seus títulos quando o mercado está cair. 

Este comportamento conduz não só a uma queda mais acentuada do preço como tam- 

bém a um aumento de volatilidade. 

• Outra possibilidade é a seguinte. A diminuição do preço aumenta o risco de mercado 

(dado que o centro de gravidade da distribuição condicional dos retornos de desloca 

para a esquerda). O aumento do risco obriga a ajustamentos imediatos no portfolio 

(através de compras e vendas de activos que façam a cobertura do risco perdido). Este 

acréscimo da actividade nos mercados financeiros aumenta a volatilidade. Já variações 

positivas nos preços não têm o mesmo impacto sobre o risco e, como tal, ajustamentos 

no portfolio não são prementes. 

3.2.5 Aumento da Frequência das Observações Acentua a Não Lineari- 

dade 

Vários estudos indicam que os coeficientes de autocorrelações de r 2 t e de |rt| tendem a au- 

mentar com o aumento da frequência das observações. 

3.2.6 Co-Movimentos de Rendibilidade e Volatilidade 

Ao se analisarem duas ou mais séries financeiras de retornos ao longo do tempo, geralmente 

observam-se co-movimentos de rendibilidade e volatilidade, isto é, quando a rendibilidade 

e a volatilidade de uma série aumenta (diminui), a rendibilidade e a volatilidade das outras 

tende, em geral, a aumentar (diminuir). Estas características são relativamente evidentes nas 

figuras 3-20 e 3-21. A figura 3-20 mostra que os índices sobem e descem em sintonia (co- 

64

7000 

6000 

5000 

4000 

3000 

2000 

CAC 

1000 

1990 1992 1994 1996 1998 2000 2002 2004 2006 

6000 

5000 

4000 

3000 

2000 

1000 

16000 

14000 

12000 

10000 

8000 

6000 

4000 

DJ EURO STOXX 50 

0 

1990 1992 1994 1996 1998 2000 2002 2004 2006 

PSI20 

2000 

1990 1992 1994 1996 1998 2000 2002 2004 2006 

9000 

8000 

7000 

6000 

5000 

4000 

3000 

2000 

DAX 

1000 

1990 1992 1994 1996 1998 2000 2002 2004 2006 

7000 

6000 

5000 

4000 

3000 

2000 

FTSE 100 

1000 

1990 1992 1994 1996 1998 2000 2002 2004 2006 

1600 

1400 

1200 

1000 

800 

600 

400 

S&P 500 

200 

1990 1992 1994 1996 1998 2000 2002 2004 2006 

Figura 3-20: Índices Bolsistas 

CAC DAX DJ EURO 50 FTSE 100 PSI 20 S&P 500 

CAC 1 

DAX 0.78 1 

DJ EURO 50 0.92 0.89 1 

FTSE 100 0.79 0.70 0.81 1 

PSI 20 0.52 0.50 0.57 0.47 1 

S&P 500 0.43 0.47 0.46 0.41 0.25 1 

Tabela 3.4: Matriz de correlações dos retornos diários (Jan 90-Nov 06) 

movimento de rendibilidade). A tabela 3.4, onde se apresentam os coeficientes de correlação 

(marginal) dos retornos diários, corrobora o co-movimento de rendibilidade. A figura 3-21 

mostra que os períodos de alta e baixa volatilidade são aproximadamente coincidentes (co- 

movimento de volatilidade). A tabela 3.5, onde se apresentam os coeficientes de correlação 

(marginal) dos retornos ao quadrado, corrobora o co-movimento de volatilidade. 

65

.08 

.04 

.00 

.04 

CAC 

.08 

1990 1992 1994 1996 1998 2000 2002 2004 2006 

.08 

.04 

.00 

.04 

.08 

1990 1992 1994 1996 1998 2000 2002 2004 2006 

.08 

.04 

.00 

.04 

.08 

DJ EURO STOXX 50 

PSI20 

.12 

1990 1992 1994 1996 1998 2000 2002 2004 2006 

.08 

.04 

.00 

.04 

.08 

DAX 

.12 

1990 1992 1994 1996 1998 2000 2002 2004 2006 

.06 

.04 

.02 

.00 

.02 

.04 

FTSE 100 

.06 

1990 1992 1994 1996 1998 2000 2002 2004 2006 

.06 

.04 

.02 

.00 

.02 

.04 

.06 

S&P 500 

.08 

1990 1992 1994 1996 1998 2000 2002 2004 2006 

Figura 3-21: Retornos de Índices 

CAC DAX DJ EURO 50 FTSE 100 PSI 20 S&P 500 

CAC 1 

DAX 0.74 1 

DJ EURO 50 0.91 0.85 1 

FTSE 100 0.77 0.66 0.78 1 

PSI 20 0.39 0.39 0.43 0.30 1 

S&P 500 0.38 0.44 0.41 0.35 0.21 1 

Tabela 3.5: Matriz de correlações dos retornos diários ao quadrado (Jan 90-Nov 06) 

66

Capítulo 4 

Processos Estocásticos: Revisões 


4.1 Processo Estocástico e Filtração 

Um processo estocástico é um modelo matemático para descrever, em cada momento, de- 

pois de um instante inicial, um fenómeno aleatório. Este fenómeno é definido num es- 

paço de probabilidade (Ω, F, P ), onde, Ω é o conjunto de todos os estados da natureza 

(ou cenários de mercado), F é uma σ-álgebra de subconjuntos de Ω e P é uma proba- 

bilidade sobre F. Um processo estocástico é então uma colecção de variáveis aleatórias 

y = {yt (ω) , t ∈ Z, ω ∈ Ω} , definidas sobre um espaço de probabilidade (Ω, F, P ) . Para 

cada t, yt (·) é uma variável aleatória. Para cada ω ∈ Ω (cenário) fixo, y• (ω) é uma tra- 

jectória ou realização do processo. Para simplificar escreve-se yt em lugar de yt (ω). A 

observação de um fenómeno ao longo do tempo conduz normalmente à observação de uma 

particular trajectória do processo. Uma sucessão cronológica é apenas uma trajectória entre 

as infinitas possíveis. 

F tem estrutura de σ-álgebra no seguinte sentido: (i) se A ∈ F ⇒ Ac ∈ F; (ii) se 

Ai ∈ F ⇒ 

A ∈ F; (iii) Ω, ∅ ∈ F. O estudo dos processos estocásticos faz-se, usual- 

i 

mente, incluindo o conceito de σ-álgebra. Por um lado, as probabilidades são definidas so- 

bre σ-álgebras e as variáveis aleatórias, assume-se, são mensuráveis com respeito a essas 

σ-álgebras. 

Existe, no entanto, uma razão não técnica para incluir o estudo das σ-álgebras no estudo 

dos processos estocásticos: os processos estocásticos, ao descreverem a evolução estocástica 

de um fenómeno ao longo do tempo, sugerem que, em cada momento t ≧ 0, é possível 

67

falar de um ”passado”, ”presente” e ”futuro”. Um observador do fenómeno, pode falar da 

”história” do processo, daquilo que observa no presente e daquilo que poderá observar no 

futuro. Com vista, a caracterizar o quanto se sabe sobre o processo, é usual, equipar o 

espaço (Ω, F, P ) com uma filtração, i.e., uma família {Ft; t ≧ 0} de sub σ-álgebras de F: 

Fs ⊆ Ft ⊆ F para 0 ≦ s < t < ∞. 

Ft = σ (ys; s ≤ t) pode ser identificado como a “história” do processo y até ao momento 

t. Certos autores, para simplificar, escrevem 

Ft = {yt, yt−1, ..., y1} ou Ft = {yt, yt−1, ...} . 

4.2 Valores Esperados Condicionais: Principais Resulta- 

dos 

Começamos com um resultado trivial: E (yt| Ft) = yt. Com efeito, yt pertence ao conjunto 

Ft 1 (também se diz, yt é mensurável com respeito a Ft), logo yt pode ser tratado como uma 

constante dado Ft. 

Proposição 4.2.1 Suponha-se que Y é uma v.a. tal que E (|Y |) < ∞, Z é uma v.a. mensu- 

rável com respeito a G e E (|ZY |) < ∞ então com probabilidade um tem-se 

E (ZY | G) = Z E (Y | G) . 

Exemplo 4.2.1 Considere-se yt = xtyt−1+ut, onde {ut} é uma sucessão v.a. i.i.d. de média 

nula. Suponha-se Ft = σ (xs, ys; s ≤ t) . Então 

E (yt| Ft−1) = E (xtyt−1| Ft−1) = yt−1 E (xt| Ft−1) . 

Note-se que yt−1 é mensurável com respeito a Ft−1 mas xt não (Ft−1 “desconhece” os 

acontecimentos ocorridos em t). 

Exemplo 4.2.2 No âmbito da estatística clássica também se sabe que 

E (XY | X = x) = x E (Y | X = x) . 

1 Em termos técnicos, o evento (ou cenário de mercado) ω ∈ Ω que determinou yt é que pertence a Ft. 

Para simplificar, assume-se Ft = {yt, yt−1, ..., y1} ou Ft = {yt, yt−1, ...} e, neste caso, já pode-se dizer “yt 

pertence a Ft”. 

68

Com efeito, 

 

E (XY | X = x) = 

 

xyfy|x (y| x) dy = x 

yfy|x (y| x) dy = x E (Y | X = x) . 

Proposição 4.2.2 Seja g : R → R uma função convexa num intervalo B ⊂ R e Y uma v.a. 

tal que P (Y ∈ B) = 1. Se E (|Y |) < ∞ e E (|g (Y )|) < ∞ então 

Se g é côncava então 

E (g (y)| G) ≥ g (E (y| G)) . 

E (g (Y )| G) ≤ g (E (Y | G)) . (4.1) 

Dem. (esboço) Prove-se E (g (y)) ≥ g (E (y)) e suponha-se (para simplificar) que g ′ é 

continua em B. Como g é convexa e g ′ é continua, tem-se 

g (x) ≥ g (a) + g ′ (a) (x − a) , ∀x, a ∈ B. 

Escolha-se para a a constante E (Y ) , onde Y uma v.a. tal que P (Y ∈ B) = 1. Resulta, 

ou 

g (x) ≥ g (E (Y )) + g ′ (E (Y )) (x − E (Y )) 

g (Y ) ≥ g (E (Y )) + g ′ (E (Y )) (Y − E (Y )) . 

Como o lado direito da desigualdade é uma função linear em Y (g (E (Y )), g ′ (E (Y )) e 

E (Y ) são constantes), tem-se, aplicando o operador de valor esperado a ambos os termos da 

desigualdade, 

E (g (Y )) ≥ E (g (E (Y )) + g ′ (E (Y )) (Y − E (Y ))) = g (E (Y )) . 

Observação 4.2.1 Nas condições da proposição 4.2.2 tem-se: 

g é convexa ⇒ E (g (Y )) ≥ g (E (Y )) ; 

g é côncava ⇒ E (g (Y )) ≤ g (E (Y )) . 

Exemplo 4.2.3 Atendendo à observação anterior conclui-se: 

69

g (x) Conc./Conv. Desigualdade 

x 2 convexa E (Y 2 ) ≥ (E (Y )) 2 

1 

x , x > 0 convexa E 1 

Y 

≥ 1 

E(Y ) 

log x, x > 0 côncava E (log (Y )) ≤ log (E (Y )) 

Também se conclui E (Y 2 ) ≥ (E (Y )) 2 a partir da igualdade Var (Y ) = E (Y 2 ) − 

(E (Y )) 2 pois, por definição, Var (Y ) ≥ 0. 

Proposição 4.2.3 (Lei do Valor Esperado Iterado I) Suponha-se E (|Y |) < ∞. Então 

Também se tem 

E (Y ) = E (E (Y | G)) . 

E (Y ) = E (E (Y | X)) . 

Com efeito, identificando fx, fy, fy|x e fy,x como as funções de densidade de probabilidade, 

respectivamente de X, Y , Y |X e (Y, X) , tem-se, 

E (E (Y | X)) = 

= 

= 

= 

 

 

yfy|x (y| x) dy fx (x) dx 

 

 

y fy|x (y| x) fx (x) dx dy 

 

 

y fy,x (y, x) dx dy 

 

yfy (y) dy 

= E (Y ) . 

Exemplo 4.2.4 Suponha-se que Y dado X tem distribuição condicional de Poisson de parâmetro 

λ = θX. Suponha-se ainda que X tem distribuição do Qui-Quadrado com um grau de liber- 

dade. Logo, pela proposição 4.2.3, vem 

E (Y ) = E (E (Y | X)) = E (θX) = θ. 

Exemplo 4.2.5 Considere-se o modelo yt = βxt + ut. Seja F X t = {xt, xt−1, ...} . Suponha- 

70

se E ut| F X t 

= 0. Como se sabe E yt| F X t 

= βxt. Logo 

E (yt) = E E βxt + ut| F X t 

= E E βxt| F X t + E E ut| F X t 

= β E (xt) . 

Neste exemplo, também se obtém esta expressão considerando E (yt) = E (βxt + ut) = 

β E (xt) . 

Exemplo 4.2.6 Considere-se yt = a + xtyt−1 + ut . Suponha-se que E (ut| Ft−1) = 0, 

E (xt| Ft−1) = µ x e E (yt) = E (yt−1) . Obtenha-se E (yt). Tem-se, pela lei do valor esper- 

ado iterado, 

E (yt) = E (E (yt| Ft−1)) 

= E (E (a + xtyt−1 + ut| Ft−1)) 

= E (a + E (xtyt−1| Ft−1) + E (ut| Ft−1)) 

= E (a + yt−1 E (xt| Ft−1) + 0) 

= E (a + yt−1µ x) 

= a + µ x E (yt−1) = a + µ x E (yt) 

Logo E (yt) = a + µ x E (yt) ⇒ E (yt) = a/ (1 − µ x) . 

Um resultado mais geral é dado pela proposição seguinte. 

Proposição 4.2.4 (Lei do Valor Esperado Iterado II) Suponha-se E (|Y |) < ∞ e G ⊂ H. 

Então 

E (Y | G) = E (E (Y | H)| G) . 

Exemplo 4.2.7 Considere-se yt = a + φyt−1 + ut, |φ| < 1 onde {ut} é uma sucessão v.a. 

71

i.i.d. de média nula. Obtenha-se E (yt| Ft−2) . Como Ft−2 ⊂ Ft−1 , tem-se 

E (yt| Ft−2) = E (E (yt| Ft−1)| Ft−2) 

= E (a + φyt−1| Ft−2) 

= a + φ E (yt−1| Ft−2) (note-se agora yt−1 = a + φyt−2 + ut−1) 

= a + φ E (a + φyt−2 + ut−1| Ft−2) 

= a + φ (a + φ E (yt−2| Ft−2)) 

= a + φ (a + φyt−2) 

= a + φa + φ 2 yt−2 . 

Facilmente se conclui serem válidas relações do tipo 

E (yt| Ft−3) = E (E (yt| Ft−2)| Ft−3) 

= E (E (E (yt| Ft−1)| Ft−2)| Ft−3) 

E (yt| F−∞) = E (E (E (E (yt| Ft−1)| Ft−2)| Ft−3) ...) . 

4.3 Distribuição Condicional versus Distribuição Marginal 

Seja f (yt| Ft−1) a fdp condicionada 2 de yt dada toda informação até ao momento t − 1. 

Comparativamente à fdp marginal (ou não condicional), f (yt), a fdp f (yt| Ft−1) é bastante 

mais “informativa”, pois esta última usa toda a informação disponível Ft−1, ao passo que a 

distribuição marginal, por definição, ignora a informação Ft−1. A fdp f (yt| Ft−1) pode ser 

entendida como uma reavaliação de f (yt) perante a evidência Ft−1. 

Considere-se a amostra {y1, ..., yn} . Um elemento da amostra escolhido ao acaso tem 

fdp f (y) . Mas observando Ft−1, a v.a. yt tem fdp f (yt| Ft−1) . 

Na figura 4-1 traçam-se duas hipotéticas fdp condicionadas. Para se discutir a figura, 

suponha-se que y é governado genericamente por dois atributos: (1) yt−1 e yt, para todo o 

t, tendem a estar “próximos”; por exemplo, se yt−1 é “alto”, yt tenderá também a ser “alto” 

(trata-se de uma forma de dependência temporal) e (2) yt “reverte” para zero, E (yt) = 0. 

Suponha-se ainda que y é estacionário. A fdp marginal é constante ao longo do tempo. 

No entanto, as densidades condicionais variam. Considere-se a fdp f (y2| F1) traçada na 

2 Certos autores identificam f (yt| Ft−1) como f (yt| yt−1, yt−2, ..., y1). 

72

8 

6 

4 

2 

0 

2 

4 

6 

f 

( y ) 

2 F1 

( y ) 

6 F5 

1 2 3 4 5 6 

Figura 4-1: A fdp f (yt| Ft−1) varia ao longo do tempo 

figura 4-1. Esta função atribui probabilidades associadas à variável y2 dado F1. Perante a 

observação y1 (e ainda sem se conhecer a realização y2), a fdp f (y2| F1) tem moda aprox- 

imadamente igual a y1: é natural esperar que o valor de y2 venha “próximo” de y1 - dada 

a hipótese (1); a fdp f (y6| F5) usa a informação disponível no momento t = 5. Como, 

y5 > 0, a densidade desloca-se um pouco na direcção de y5, pois y6 tenderá a estar “próx- 

imo” de y5. Todavia, como y reverte para zero, é mais provável o evento {y6 < y5| y5} do 

que {y6 > y5| y5} , i.e., y6 deverá em princípio aproximar-se do valor para o qual y reverte, 

E (yt) = 0. Nestas condições, a fdp f (y6| F5) embora se desloque na direcção de y5, con- 

tinua a atribuir massa de probabilidade significativa a intervalos próximos de zero. 

Dois parâmetros fundamentais de f (yt| Ft−1) são 

µ t = E (yt| Ft−1) = 

σ 2 t = Var (yt| Ft−1) = 

Valem as seguintes propriedades. 

 

ytf (yt| Ft−1) dyt 

 

(yt − µ t) 2 f (yt| Ft−1) dyt. 

Proposição 4.3.1 A melhor previsão de yn+1 dado Fn, de acordo com Erro Quadrático 

Médio, é E (yn+1| Fn) , i.e. 

E (yn − E (yn+1| Fn)) 2 ≤ E (yn − g (Fn)) 2 

onde g (Fn) é um qualquer outro previsor Fn mensurável (i.e. que usa também toda a 

informação disponível até ao momento n). 

73 

f

Dem. Tem-se 

E (yn − g (Fn)) 2 = E (yn − E (yn+1| Fn) + E (yn+1| Fn) − g (Fn)) 2 

= E (yn − E (yn+1| Fn)) 2 + E (E (yn+1| Fn) − g (Fn)) 2 

+ E [(yn − E (yn+1| Fn)) (E (yn+1| Fn) − g (Fn))] 

Como o terceiro termo é zero (deixa-se como exercício essa demonstração) vem 

E (yn − g (Fn)) 2 = E (yn − E (yn+1| Fn)) 2 + E (E (yn+1| Fn) − g (Fn)) 2 

≥ E (yn − E (yn+1| Fn)) 2 . 

O valor E (yn+1) é também um previsor não enviesado de yn+1 mas, como não usa a infor- 

mação disponível Ft−1, pode demonstrar-se que é bastante menos preciso do que o previsor 

E (yn+1| Fn). 

Pode-se também provar 

E (yn+h − E (yn+h| G)) 2 ≤ E (yn+h − E (yn+h| H)) 2 , H ⊆ G. 

Esta desigualdade resulta do facto de em G existir mais informação. É natural esperar que 

um previsor que use mais informação face a um outro, tenha um EQM inferior. Têm-se ainda 

os seguintes casos limites quando o previsor é um valor esperado condicionado. 

e 

G = F = F ∞ ⇒ E (yn+h − E (yn+h| G)) 2 = E (yn+h − yn+h) 2 = 0 

H =∅ ⇒ E (yn+h − E (yn+h| H)) 2 = E (yn+h − E (yn+h)) 2 . 

Exemplo 4.3.1 Considere: A) Tem-se uma sucessão de retornos do PSI20 e retira-se aleato- 

riamente um elemento da sucessão. Suponha-se que a média e a variância desse retorno são 

conhecidas. B) Suponha que os retornos do PSI20 registaram “hoje” uma forte quebra e 

uma forte volatilidade. Q1: Qual é a informação mais relevante se o objectivo é prever os 

retornos do PSI20 e a volatilidade para o dia de amanhã? A ou B? Q2: Neste caso, qual é 

a fdp que interessa estudar? f (yt| Ft−1) ou f (yt)? Q3: Qual é a informação relevante se o 

objectivo é conhecer as características gerais da série dos retornos (ou prever os retornos e 

74

a volatilidade para um horizonte de vários anos)? Q4: Neste caso, qual é a fdp que interessa 

estudar? f (yt| Ft−1) ou f (yt)? 

Considere o modelo de séries temporais, 

yt = c + φyt−1 + ut, |φ| < 1 

onde {ut} é uma sucessão de v.a. i.i.d. com distribuição N (0, σ 2 ) . Determine-se a dis- 

tribuição de yt| Ft−1. Dado Ft−1, yt−1 pode ser tratado como uma constante. Logo yt| Ft−1 

tem distribuição normal, 

onde 

Assim, 

yt| Ft−1 ∼ N (E (yt| Ft−1) , Var (yt| Ft−1)) 

E (yt| Ft−1) = c + φyt−1 

Var (yt| Ft−1) = E (yt − E (yt| Ft−1)) 2 

Ft−1 = E u 2 

t 

Ft−1 

= σ 2 . 

yt| Ft−1 ∼ N c + φyt−1, σ 2 . (4.2) 

Determine-se a distribuição marginal. No modelo em análise verifica-se E (yt) = E (yt−1) . 

Logo 

e, seguindo um raciocínio similar, 

E (yt) = c + φ E (yt) ⇒ E (yt) = c 

1 − φ 

Var (yt) = σ2 

2 . 

1 − φ 

Atendendo à representação MA(∞) do processo AR(1) 3 , 

yt = c 

1 − φ + ut + φut−1 + φ 2 ut−2 + ... 

imediatamente se conclui que y tem distribuição marginal normal (uma soma de v.a. nor- 

mais tem distribuição normal). Também se conclui, a partir da representação MA(∞), que 

3 A forma mais intuitiva de obter este resultado, consiste em aplicar o método recursivo (iterando yt ad 

infinitum). Por exemplo, yt = c + φyt−1 + ut = c + φ (c + φyt−2 + ut−1) + ut, e assim sucessivamente. 

75

E (yt) = c/ (1 − φ) e Var (yt) = σ 2 / 1 − φ 2 . Assim, a distribuição marginal de y é 

yt ∼ N 

 

c 

1 − φ , 

σ2 1 − φ 2 

 

. (4.3) 

Exemplo 4.3.2 Considere-se yt = 0.9yt−1 + ut, onde ut ∼ N (0, 1) . Sabendo que no 

período t − 1 se observou yt−1 = −2 e tendo em conta (4.2) e (4.3) tem-se 

yt ∼ N (0, 5.26) 

yt| Ft−1 ∼ N (−1.8, 1) . 

Procura-se avaliar a probabilidade de yt assumir um valor positivo. Assim, 

P (yt > 0) = 0.5 

P (yt > 0| Ft−1) = P (yt > 0| yt−1 = −2) = 0.0359. 

As probabilidade são bem diferentes. Com efeito, no período t − 1 registou-se yt−1 = −2. 

Como a autocorrelação é forte (φ é alto) é natural esperar que no período t o valor de yt 

ainda se encontre abaixo de zero. Por esta razão, a probabilidade condicional confere pouca 

evidência ao evento {yt > 0} . Pelo contrário, a probabilidade marginal, ignora o aconteci- 

mento {yt−1 = −2} e, por isso, atribui uma probabilidade razoável ao evento {yt > 0} . 

Exemplo 4.3.3 Retome-se o exemplo 4.3.2 e suponha-se que se têm n observações e se pre- 

tende obter uma previsão para o período n + 1. Podemos usar uma infinidade de previsores, 

mas analisem-se apenas os seguintes: 

E (yn+1| Fn) = 0.9yn 

E (yn+1) = 0. 

De acordo com a discussão anterior, o previsor E (yn+1| Fn) é mais “preciso” do que 

E (yn+1) . A precisão é aqui aferida através do erro quadrático médio (EQM) e, com efeito, 

observa-se que 

E (yn+1 − E (yn+1| Fn)) 2 = σ 2 = 1 < E (yn+1 − E (yn+1)) 2 = σ2 

2 = 5.263 

1 − φ 

76

A 

40 

30 

20 

10 

0 

10 

20 

30 

40 

50 

1 26 51 76 101 126 151 176 

30 

25 

20 

15 

10 

5 

0 

5 

1 26 51 76 101 126 151 176 

C 

5 

3 

1 

1 

3 

B 

5 

1 26 51 76 101 126 151 176 

15 

10 

5 

0 

5 

10 

15 

1 26 51 76 101 126 151 176 

Figura 4-2: Qual é a trajectória do processo ruído branco? 

4.4 Processos Estocásticos Elementares, Estacionaridade e 

Fraca Dependência 

4.4.1 Processos Estocásticos Elementares 

Definição 4.4.1 u é um processo 4 ruído branco (RB) se 

E (ut) = 0 

Var (ut) = E u 2 2 

t = σ 

E (utus) = 0, ∀s = t 

Procure identificar o processo ruído branco na figura 4-2. 

4 Recorde-se a notação u = {ut} = {ut; t = 1, 2, ...} . 

77 

D

Definição 4.4.2 u é um processo ruído branco independente se 

E (ut) = 0, 

E u 2 2 

t = σ , 

ut e us são independentes ∀s = t 

Se adicionalmente ut ∼ N (0, σ 2 ) então ut um ruído branco Gaussiano. 

O processo {ut} pode ser não autocorrelacionado, i.e., Corr (ut, us) = 0, ∀s = t e, 

mesmo assim, ut e us não serem independentes. Por exemplo, pode suceder Corr (u 2 t , u 2 s) = 

0 e, neste caso, existe uma óbvia ligação entre os valores u 2 t e u 2 s. Contudo, existe um caso 

notável onde E (utus) = 0, ∀s = t implica independência. É o caso de ruídos brancos com 

distribuição Gaussiana. 

Definição 4.4.3 u é um processo diferença de martingala se 

E (|ut|) < ∞, 

E (ut| Ft−1) = 0. 

Proposição 4.4.1 Se u é uma diferença de martingala, então E (ut) = 0 e E (utus) = 0, 

∀s = t. 

Dem. Deixa-se como exercício concluir que E (ut) = 0. Suponha-se, sem perda de 

generalidade que s < t. Tem-se 

E (utus) = E (E (utus| Fs)) (pela proposição 4.2.3) 

= E (us E (ut| Fs)) 

= E (us E (E (ut| Ft−1)| Fs)) (pela proposição 4.2.4) 

= E (us E (0| Fs)) = 0. 

Definição 4.4.4 u é um processo passeio aleatório (random walk ou RW) se 

yt = yt−1 + ut 

e ut é um RB. yt diz-se um processo passeio aleatório com deriva (random walk with drift) 

78

se 

120 

100 

80 

60 

40 

20 

0 

1 

20 

101 201 301 401 501 601 701 801 901 

40 

1200 

1000 

Figura 4-3: Processo RW e Var (yt) = t 

i=1 (yi − ¯yt) 2 /t 

yt = yt−1 + δ + ut, δ = 0. 

Pode-se provar (veja o apêndice 6.D) que um random walk verifica: 

E (yt| Ft−1) = yt−1, 

E (yt) = E (y0) , E y 2 t = E y 2 2 

0 + σ t, E (ytyt−k) = σ 2 (t − k) . 

Na figura 4-3 apresenta-se um processo RW e Var (yt) = t 

i=1 (yi − ¯yt) 2 /t. 

4.4.2 Estacionaridade 

Definição 4.4.5 y é um processo estacionário de segunda ordem (ESO) se 

E (yt) = µ, (não depende de t) 

Var (yt) = σ 2 , (não depende de t) 

Cov (yt, yt±h) = γ (h) (não depende de t). 

Na definição de processo ESO está implícito não só que os momentos não dependem de 

t como também são finitos. Por exemplo, se Var (yt) = ∞, então yt não é ESO. Um RB, 

RB independente ou um RB Gaussiano são processos estacionários de segunda ordem. Uma 

diferença de martingala pode ser ou não um processo ESO. É um processo ESO se o segundo 

momento for finito e não depender de t. Identifique na figura 4-2 as trajectórias de processos 

79 

800 

600 

400 

200 

0 

RW 

Var

f(x) 

0.3 

0.2 

0.1 

4 3 2 1 0 1 2 3 4 

aparentemente não estacionários. 

Figura 4-4: Função densidade de probabilidade de Cauchy 

Naturalmente o processo passeio aleatório não é ESO. 

Geralmente entende-se que um processo não é ESO quando a média, a variância ou as 

covariâncias dependem de t. Mas a estacionaridade de segunda ordem (ESO) pode também 

falhar se não existir a média e/ou a variância. Por exemplo, considere o processo yt = 10+ut, 

onde {ut} é uma sucessão de v.a. i.i.d. com distribuição de Chauchy. A função densidade 

de probabilidade (fdp) de Cauchy é 

f (x) = 

1 

π (1 + x 2 ) . 

y não é um processo ESO porque E (|ut|) não existe. Com efeito, 

 

E (|ut|) = 

R 

 

|x| f (x) dx = 

R 

|x| 

1 

π (1 + x 2 ) dx 

não converge e, portanto, E (|ut|) não está definido (i.e. não existe). Na figura 4-4 traça-se 

a função f (x) . Como a fdp tem abas muitos pesadas atribui uma massa de probabilidade 

considerável para valores muito afastados da média. Isto significa que embora o centro de 

gravidade da fdp seja zero, valores muito afastados de zero podem ocorrer com probabilidade 

não nula (veja-se a figura 4-5). 

Definição 4.4.6 y é um processo estritamente estacionário (EE) se a distribuição conjunta 

de (y1, y2, ..., ys) é igual à distribuição conjunta de (yk+1, yk+2, ..., yk+s) , para qualquer 

s ∈ N e k ∈ Z. 

80 

x

800 

600 

400 

200 

0 

200 

400 

600 

800 

1000 

1200 

1400 

1 101 201 301 401 501 601 701 801 901 1001 1101 1201 1301 1401 

Figura 4-5: Uma trajectória simulada do processo yt = 10 + ut, onde {ut} é uma sucessão 

de v.a. i.i.d. com distribuição de Chauchy 

Na secção 4.5 discute-se com maior profundidade este conceito. 

Observação 4.4.1 Um processo estritamente estacionário deve verificar, em particular, a 

seguinte condição: 

fy1 (x) = fy2 (x) = ... = fyn (x) = f (x) (4.4) 

(as densidade marginais de y1, y2,..., yn são iguais para todo o t). Esta condição decorre da 

aplicação da definição anterior para s = 1. Resulta de (4.4) que se E (|g (yt)|) < ∞, então 

E (|g (yt)|) é constante e não depende de t, pois 

 

E (|g (yt)|) = 

 

|g (x)| fyt (x) dx = 

|g (x)| f (x) dx, ∀t. 

Ambas as definições de estacionaridade basicamente exigem que a estrutura probabilís- 

tica se mantenha constante ao longo do tempo. No entanto, enquanto a estacionaridade estrita 

exige que toda a estrutura probabilística se mantenha constante ao longo do tempo, a ESO 

apenas faz essa exigência para os dois primeiros momentos e para a autocovariância. 

Exemplo 4.4.1 Considere-se o processo, 

onde 

yt = 0.2yt−1 + ut, |φ| < 1 (4.5) 

ut = 

⎧ 

⎨ 

⎩ 

ξt se t ≤ 2000 

 

k−2 

k ζt se t > 2000 

81 

(4.6)

sendo ξ t e ζ s independentes para todo o t e s e ξ t 

tem-se 

e para t > 2000, 

E (ut) = E (ξ t) = 0, 

Var (ut) = Var (ξ t) = 1 

iid 

∼ N (0, 1) e ζs 

 

k − 2 

E (ut) = E 

k ζ 

t = 0, 

 

k − 2 

Var (ut) = Var 

k ζ 

t = k − 2 k 

= 1. 

k k − 2 

iid 

∼ t(k). Para t ≤ 2000 

Como a autocovariância de ut não depende de t (na verdade é zero, para qualquer t) e E (ut) 

e Var (ut) são constantes, para todo o t, conclui-se que {ut} é um processo ESO. No entanto, 

não é EE, pois a distribuição marginal de ut para t ≤ 2000 não coincide com a distribuição 

marginal de ut para t > 2000 (no primeiro caso é normal; no segundo é t-Student). Não se 

cumpre assim a condição (4.4). A mesma conclusão se aplica a y: é ESO mas não EE. Na 

figura 4-6 representa-se uma trajectória simulada a partir das equações (4.5) e (4.6), com 

k = 3 (graus de liberdade). Observe-se que a partir de t = 2000 começam a aparecem 

valores muito altos e muitos baixos (“outliers”) já que os erros passam a ter distribuição 

t-Student com 3 graus de liberdade (embora a variância dos erros se mantenha sempre igual 

a 1). Observa-se, portanto, uma alteração da estrutura probabilística do processo a partir 

de t > 2000 que implica a não estacionaridade estrita do processo. 

Alguns factos: 

• Se E (y 2 t ) < ∞ e y é estritamente estacionário (EE), então y é ESO. 

Com efeito, tem-se fyt (y) = f (y) , ∀t (por hipótese) e, portanto, 

E (yt) = 

Var (yt) = 

 

 

 

xfyt (x) dx = 

(x − E (yt)) 2 fyt (x) dx = 

xf (x) dx = E (y) , 

 

(x − E (y)) 2 f (x) dx = Var (y) . 

Por outro lado, fyt,yt+h (x, y) = fys,ys+h (x, y) , ∀t, s (por hipótese) e, portanto, a ex- 

82

Figura 4-6: Uma trajectória simulada a partir de um processo estacionário de segunda 

ordem mas não estritamente estacionário - confiram-se as equações (4.5) e (4.6) 

pressão 

E (ytyt+h) = 

= 

não depende de t (nem de s). 

 

 

xyfyt,yt+h 

(x, y) dxdy 

• Se y é ESO e tem distribuição normal, então y é EE. 

xyfys,ys+h (x, y) dxdy = E (ysys+h) . 

• A estacionaridade estrita é geralmente uma condição mais forte do que a ESO, mas 

não implica necessariamente ESO. Por exemplo, se yt = 10 + ut onde {ut} é uma 

sucessão de v.a. com distribuição de Cauchy, y não é, como vimos, ESO; no entanto, 

pode-se provar que y é EE: a estrutura probabilística mantém-se imutável ao longo do 

tempo. 

4.4.3 Fraca Dependência 

A propriedade “fraca dependência” é crucial para se invocar resultados limites como sejam 

a lei dos grandes números e o teorema do limite central. Considere-se, por exemplo, a média 

empírica ¯yn = n−1 n t=1 yt. Sob certas condições, a lei fraca dos grandes números estabelece 

p 

¯yn −→ E (y) . Este resultado pode ser provado da seguinte forma: se limn E (¯yn) = E (y) e 

83

limn Var (¯yn) = 0 então ¯yn 

p 

−→ E (y) . Exigir que a variância de ¯yn convirja para zero (no 

limite ¯yn reduz-se a uma constante) envolve a suposição de que a sucessão {yt} é fracamente 

dependente num sentido que precisaremos a seguir. Com efeito, 

Var (¯yn) = 1 

 

n 

Var 

n2 = 1 

n 2 

t=1 

yt 

 

 

n 

n−1 

Var (yt) + 2 

t=1 

n 

j=1 i=j+1 

Cov (yi, yi−j) 

Sem hipóteses adicionais não é garantido que estas duas somas convirjam. Comece-se por 

assumir que {yt} é ESO. Nestas condições a covariância Cov (yi, yi−j) só depende de j = 

i−(i − j) e não de i (veja a definição 4.4.5). Assim, pode-se escrever, Cov (yi, yi−j) = γ (j). 

Vem, 

Var (¯yn) = 1 

n2 

nσ 2 n−1 

+ 2 

= σ2 

n 

= σ2 

n 

= σ2 

n 

2 

+ 

n2 n−1 

j=1 

2 

+ 

n2 n−1 

j=1 

2 n−1 

+ 

n 

n 

j=1 i=j+1 

 

γ (j) 

n 

i=j+1 

γ (j) 

 

γ (j) (n − j) 

j=1 

γ (j) 

 

1 − j 

 

. 

n 

 

 

1 (γ (j) não depende de i) 

O primeiro termo σ 2 /n converge para zero, mas o segundo termo pode convergir ou não. É 

necessário não só que γ (j) convirja para zero, mas também que essa convergência seja rela- 

tivamente rápida. Note-se de passagem que a estacionaridade não garante fraca dependência. 

As condições de aplicação do teorema do limite central são ainda mais exigentes. Sob 

certas condições tem-se, como se sabe, √ n (¯yn − E (y)) 

d 

−→ N (0, η 2 ) , onde η 2 uma con- 

stante finita, definida como η 2 = limn Var ( √ n (¯yn − E (y))) = limn Var ( √ n¯yn) . Se {yt} 

é estacionário, tem-se 

Var √ n−1 

 

2 

n¯yn = σ + 2 γ (j) 1 − j 

 

n 

e, agora, comparativamente ao caso anterior, γ (j) tem de convergir ainda mais rapidamente 

para zero para que a soma Sn = n−1 j=1 γ (j) 1 − j 

convirja. Por exemplo, uma função de 

n 

84 

j=1 

.

autocorrelação do tipo γ (j) = 1/j resulta numa soma Sn divergente. A soma converge se a 

função de autocorrelação for, por exemplo, do tipo γ (j) = a j , com |a| < 1. 

Existem várias definições de processos fracamente dependentes envolvendo os chama- 

dos mixing coefficients (α-mixing, β-mixing, ρ-mixing entre outros) que permitem avaliar 

e medir o grau de dependência recorrendo a diferentes interpretações do conceito de in- 

dependência. Vamos adoptar uma definição alternativa para caracterizarmos um processo 

fracamente dependente baseada na definição de Wooldridge (1994): 

Definição 4.4.7 y é um processo fracamente dependente se limn Var ( √ n¯yn) = c > 0. 

Infelizmente esta definição tem a seguinte desvantagem: se y é fracamente dependente 

no sentido da definição 4.4.7, e g é uma função com “boas propriedades”, não é possível 

concluir, em termos gerais, que zt = g (yt) é ainda um processo fracamente dependente. Já 

se yt é β-mixing é possível inferir, sob certas condições gerais, que zt = g (yt) é ainda 

β-mixing (digamos, a transformação g preserva a propriedade de fraca dependência do 

processo quando baseada no conceito dos mixing coefficients). 

Comentários Finais 

Por que razão é importante o estudo da estacionaridade e da fraca dependência (em séries 

temporais)? Apontam-se algumas razões: 

• A aplicação do teorema central e a lei dos grandes números são dois pilares da infer- 

ência estatística. Considere-se, por exemplo, 

¯yn = 1 

n 

n 

yt. 

Sob certas condições, a aplicação da lei dos grandes números e do teorema do limite 

central, permite obter, respectivamente 

¯yn 

p 

−→ E (y) , 

t=1 

¯yn − E (y) 

Var (¯yn) 

d 

−→ N (0, 1) . 

No entanto, se y não é estacionário e fracamente dependente não é possível invocar 

estes resultados clássicos (e a inferência assimptótica habitual não pode ser utilizada). 

• De uma forma geral, se a estrutura probabilística se altera ao longo do tempo (i.e., se y 

não é estacionário), todas as conclusões que se retirem para um certo período não são 

“extrapoláveis” para o futuro. 

85

• A estacionaridade também é relevante no âmbito da previsão: processos estacionários 

são limitados em probabilidade e a amplitude dos intervalos de previsão não diverge 

quando o horizonte de previsão tende para mais infinito. Pelo contrário, processos não 

estacionários, por exemplo, I (1) , são extremamente difíceis de prever no longo prazo, 

dado que a amplitude dos intervalos de previsão aumenta com o horizonte de previsão. 

• Em termos de política económica é também relevante saber se um processo é esta- 

cionário ou não. Medidas de política económica que tenham como objectivo alterar 

a trajectória de processos estacionários, estão em geral condenadas ao fracasso, pelo 

menos no médio/longo prazo, pois choques induzidos em processos dessa natureza 

tendem a se autocorrigir ao longo do tempo (e a “reverterem” para a uma medida de 

tendência central). 

Convém sublinhar o seguinte. Embora muitas séries temporais sejam não estacionárias, 

é possível, na maior parte dos casos, estacionarizá-las, mediante transformações apropriadas 

do processo. 

* * * 

Para terminar esta secção, tecem-se algumas considerações críticas aos modelos de séries 

temporais baseados em pressupostos estacionários. 

Serão as séries temporais financeiras e económicas verdadeiramente estacionárias? Como 

já argumentámos, a estacionaridade envolve uma determinada hipótese de estabilidade da 

estrutura probabilística do processo. Esta estrutura depende de uma miríade de factores, 

como por exemplo, dos agentes económicos (privados e públicos) e das suas relações, da 

tecnologia, da informação, do puro acaso (entre outros factores). Apenas o puro acaso 

pode ser considerado imutável ao longo do tempo; tudo o resto evolui ao longo do tempo, 

pelo que é um mito supor-se que a estrutura probabilística de uma série temporal finan- 

ceira ou económica permanece constante ou aproximadamente constante ao longo do(s) 

tempo(s). Suponha-se que se estuda a taxa de variação relativa anual do PIB português 

(yt = log (P IBt) − log (P IBt−1)). Aparentemente, y é estacionário se o período de referên- 

cia forem alguns dezenas de anos (isto é, praticamente todos os testes estatísticos disponíveis, 

apontariam nessa direcção). Mas, se alargarmos a amostra para várias centenas de anos 

(supondo que tal era possível), é extremamente implausível y ser estacionário (a história 

86

diz-nos que as condições e os factores de produção evoluem ou sofrem rupturas ao longo 

do tempo). Sob esta perspectiva, não existem processos de natureza económica e financeira 

estacionários. Poderemos então concluir que a análise da estacionaridade acaba por ser in- 

útil? Embora, em termos rigorosos, o conceito de estacionaridade envolva o passado e o 

futuro distante (o “−∞” e o “+∞”), normalmente limitamos o período de análise. Para esse 

período, assume-se que a série apresenta características estacionárias e a previsão relevante 

que estabelecemos aplica-se, supostamente, a um futuro próximo, governado, no essencial, 

pelas mesmas leis que determinaram o processo no período amostral. Com esta ressalva, a 

estacionaridade é importante, porque assegura uma forma de estabilidade probabilística que 

é essencial na inferência estatística. 

4.5 Processos Ergódicos e Estritamente Estacionários 

Nesta secção, retomam-se alguns conceitos já abordados, relacionados com a estacionar- 

idade, e exploram-se novas definições que serão úteis no estudo dos processos não lin- 

eares. Concretamente, é objectivo deste ponto estabelecer condições suficientes para que 

um processo de Markov não linear seja ergódico e EE. 

4.5.1 Definições 

O ponto de partida baseia-se na definição de processo de Markov: se y é um processo de 

Markov então, para estabelecer, no momento s, probabilidades sobre a evolução futura do 

processo, toda a informação anterior a s é desnecessária se o estado do processo no momento 

s for conhecido 5 . Formalmente, 

Definição 4.5.1 y é um processo de Markov se 

onde Ft−1 = {y1, ..., yt−1} . 

P (yt < ξ| Ft−1) = P (yt < ξ| yt−1) 

5 Considere-se, por exemplo, uma partícula suspensa num meio homogéneo. Se no momento s, a posição 

e a velocidade da partícula forem conhecidas, torna-se desnecessário considerar toda a trajectória anterior da 

partícula com vista a estabelecer a sua evolução provável a partir do momento s. Observe-se que não basta 

conhecer só a posição ou só a velocidade. Por vezes sucede que determinado processo não é de Markov, mas 

esse processo juntamente com outro pode definir um processo de Markov. O exemplo que se apresenta a seguir 

(AR(2)) também mostra que é possível obter a propriedade Markoviana através da “expansão” do espaço de 

estados. 

87

(O caso multivariado y adapta-se facilmente). O processo AR(2), yt = φ 1yt−1 +φ 2yt−2 + 

ut, não é de Markov pois 

P (yt < ξ| y1, ..., yt−1) = P (yt < ξ| yt−2, yt−1) = P (yt < ξ| yt−1) . 

No entanto, é possível representá-lo na forma Markoviana. Considerem-se as mudanças de 

variável 

Assim, 

ou ainda 

⎛ 

⎝ y1,t 

y2,t 

⎞ 

⎠ 

 

yt 

y1,t = yt, y2,t = yt−1. 

y1,t = φ 1y1,t−1 + φ 2y2,t−1 + ut 

y2,t = y1,t−1 

= 

⎛ 

⎞⎛ 

⎝ φ1 φ2 ⎠ ⎠ + ⎠, 

 

1 0 

 

y2,t−1 

 

0 

 

φ 

yt = φy t−1 + ut. 

⎝ y1,t−1 

yt−1 

⎞ 

⎛ 

⎝ ut 

O processo vectorial {yt} é agora de Markov. Este procedimento generaliza-se facil- 

mente para o caso AR(p). 

Também o processo não linear do tipo 

yt = g (yt−1, yt−2, ..., yt−p) + ut 

onde {ut} é uma sucessão de v.a. i.i.d. e independentes de yt−k, k ≥ 1, admite uma repre- 

sentação Markoviana. Com efeito, defina-se 

e 

yt = (yt, yt−1, ..., yt−p+1) ′ , ut = (ut, 0, ..., 0) ′ 

x = (x1, x2, ..., xp) ′ , g (x) = (g (x) , x1, ..., xp−1) ′ . 

88 

ut 

⎞

Segue-se que {y} é um processo de Markov definido por 

Por exemplo, seja 

Tem-se 

yt 

yt = g (yt−1) + ut. 

yt = α cos (yt−1) + β sen (yt−2) + ut. 

yt = 

⎛ 

⎝ yt 

yt−1 

⎞ 

⎠ := 

⎛ 

⎝ y1,t 

e ⎛ 

⎝ y1,t 

⎞ ⎛ 

⎠ = ⎝ 

 

y2,t 

 

α cos (y1,t−1) 

⎞ ⎛ 

+ β sen (y2,t−1) 

⎠ + ⎝ 

 

y1,t−1 

 

g(yt−1) 

 

ut 

⎞ 

⎠. 

 

0 

 

Para simplificar, na discussão que se segue trabalha-se com processos estocásticos uni- 

variados Markovianos; contudo, está subjacente que se o processo y não de Markov será 

sempre possível representá-lo na forma multivariada como um processo de Markov. 

A função de distribuição condicional a n passos de um processo de Markov é 

P (yn+k < y| yk) 

(observe-se que é desnecessário escrever P (yn+k < y| Fk) , pois y é um processo de Markov). 

Por seu lado, a função densidade condicional (também designada por densidade de tran- 

sição), caso exista, é dada por 

y2,t 

⎞ 

⎠ 

fn (y| x) = ∂P (yn+k < y| yk) 

. 

∂y 

Definição 4.5.2 y é um processo homogéneo se 

para todo o k e s ∈ Z. 

P (yn+k < ξ| yk = x) = P (yn+s < ξ| ys = x) , (n ∈ N) 

Se y é um processo homogéneo, para avaliar probabilidades condicionadas do processo, 

não interessa o momento em que essas probabilidades são calculadas. Por exemplo, no caso 

P (yn+k < ξ| yk = x) as probabilidades são calculadas no momento no k (ou com base na 

89 

ut

informação do momento k) e dizem respeito ao intervalo de valores que y pode assumir no 

momento n + k. Se y é homogéneo, o momento ou instante k é irrelevante; apenas interessa 

conhecer o hiato de tempo n + k − k = n (para processos estacionários de segunda ordem, 

exige-se a mesma propriedade para a covariância: Cov (yn+k, yk) = γ (n) apenas deverá 

depender de n = n + k − k). Nestas circunstâncias, tem-se por exemplo, 

P (y10 < ξ| y0 = x) = P (y100 < ξ| y90 = x) = P (y1250 < ξ| y1240 = x) . 

Se o processo y é homogéneo, toma-se para a função de distribuição condicional a n passos 

a expressão 6 

com o 

Fn (y| x) := P (yn+k < y| yk = x) . 

O exemplo 4.5.2 ilustra o conceito de homogeneidade. Convém, no entanto, começar 

Exemplo 4.5.1 Considere-se 

yt = φyt−1 + ut, |φ| < 1 

onde ut é um ruído branco N (0, σ 2 ) . Vamos obter ft (y| x) (função de densidade condi- 

cional a t passos) e Ft (y| x) (função de distribuição condicional a t passos). Comece-se 

por obter f1 (y| x) (esta função é habitualmente escrita simplesmente na forma f (y| x)) e 

F1 (y| x). Tem-se, 

E (yt| yt−1) = E (φyt−1 + ut| yt−1) = φyt−1 

Var (yt| yt−1) = E (yt − φyt−1) 2 

yt−1 = E u 2 

t 

Como yt| yt−1 ∼ N (φyt−1, σ 2 ) resulta 

f1 (y| yt−1) = 

F1 (y| yt−1) = 

yt−1 

1 

√ 

2πσ2 exp 

 

− 1 

 

2 

(y − φyt−1) , 

2σ2 y 

f1 (u| yt−1) du. 

−∞ 

= σ 2 

6 A notação usada para Fn (y| x) , sublinha que se tem uma função de transição a n passo (daí o índice n), 

que a condição inicial apenas depende de x, e que o processo é homogéneo (caso contrário Fn (y| x) deveria 

depender também do momento em que é calculada). 

90

Para obter E (yt| y0) , Var (yt| y0) e ft (y| y0) é necessário representar yt como função de 

y0. Tem-se 

yt = φyt−1 + ut 

= φ (φyt−2 + ut−1) + ut = φ 2 yt−2 + φut−1 + ut 

= ... 

= φ t y0 + φ t−1 u1 + φ t−2 u2 + ... + φut−1 + ut. 

Tendo em conta as propriedades de u, conclui-se que yt, dada a condição y0, tem distribuição 

condicional normal de parâmetros 

e 

Isto é, 

E (yt| y0) = φ t y0 

Var (yt| y0) = 

yt E − φ t = 

 

2 y0 y0 

φt−1 E u1 + φ t−2 

2 u2 + ... + φut−1 + ut y0 

= σ 2 

 

1 + φ 2 + ... + φ 2(t−1) 

 

(soma geométrica) 

= σ 2 

2t 

1 − φ 

1 − φ 2 

 

. 

ft (y| y0) = 

 

yt| y0 ∼ N φ t y0, σ 2 

1 

 

2π Var (yt| y0) exp 

 

− 

Ft (y| y0) = 

y 

1 − φ 2t 

 

, 

1 − φ 2 

1 

2 Var (yt| y0) (y − E (yt| y0)) 2 

 

, 

ft (u| y0) du. 

−∞ 

Para processos não lineares, conhece-se geralmente f1 (y| y0) (uma vez especificada a 

distribuição dos erros), mas não ft (y| y0), para t > 1. 

91

Exemplo 4.5.2 Retome-se o exemplo 4.5.1. Facilmente se constata que 

e, assim, o processo y é homogéneo. 

 

yn+k| yk = x ∼ N φ n x, σ 2 

2n 

1 − φ 

1 − φ 2 

 

 

yn+s| ys = x ∼ N φ n x, σ 2 

2n 

1 − φ 

1 − φ 2 

 

Um processo em que pelo menos um dos momentos condicionais depende do momento 

em que é calculado (por exemplo, E (yt| yt−1) = yt−1/t) não pode ser certamente um 

processo homogéneo. A homogeneidade é uma condição necessária, mas não suficiente 

para garantir estacionaridade (estrita ou de segunda ordem). O exemplo seguinte esclarece 

este ponto. 

Exemplo 4.5.3 Seja yt = yt−1 + ut, onde ut é um ruído branco N (0, σ 2 ) . Tem-se, 

yn+k = yk + 

yt+s = ys + 

n+k 

i=k+1 

n+s 

i=s+1 

ui 

ui 

 

 

 

 

yk = x ∼ N x, σ 2 n 

 

 

 

 

ys = x ∼ N x, σ 2 n . 

Logo o processo passeio aleatório é homogéneo. No entanto, sabe-se que não é estacionário. 

Para processos de Markov homogéneos, a equação de Chapman-Kolmogorov (numa das 

suas várias versões) é 

 

Fn (y| x) = 

F1 (y| u) Fn−1 (du| x) . 

Caso exista a fdp condicionada, a equação de Chapman-Kolmogorov pode também ser es- 

crita na forma 

 

fn (y| x) = 

f1 (y| u) fn−1 (u| x) du. (4.7) 

A definição de ergodicidade (à “Harris”) 7 que se apresenta a seguir envolve um conceito de 

proximidade entre duas funções de distribuição, H e G, baseada na norma de variação total 

. que, caso existam as funções densidades associadas a H e G, é dada por 

 

H − G = 

|h (x) − g (x)| dx. 

7 A definição de ergodicidade varia bastante na literatura. Usaremos a definição que se designa por “ergodicidade 

à Harris”. Veja-se, por exemplo, Fan e Yao (2005). 

92

Exemplo 4.5.4 Seja g a fdp associada à distribuição N (0, 1) e hn a fdp associada à dis- 

tribuição t (n) (t-Student, com n graus de liberdade). Para n fixo, a variação total Hn − G 

é positiva, mas Hn − G → 0 quando n → ∞. A demonstração é a seguinte. Em primeiro 

lugar, faça-se 

ξ n (x) = |hn (x) − g (x)| . 

Como hn (x) converge uniformemente em R para g (x), i.e., limn→∞ sup x∈R ξ n (x) = 0 (este 

resultado é bem conhecido da estatística e, normalmente, é apresentado numa forma mais 

fraca, limn→∞ hn (x) = g (x) , para cada x ∈ R), então ξ n (x) converge uniformemente 

em R para zero, pelo que, o operador de limite pode trocar com o operador de integração. 

Assim, 

lim 

n→∞ H − Gn = 

 

lim 

n→∞ 

 

|hn (x) − g (x)| dx 

≤ lim 

n→∞ 

 

sup |hn (x) − g (x)| dx 

x 

= lim 

n→∞ sup |hn (x) − g (x)| dx 

= 0. 

Considere-se o processo estocástico y com função de distribuição condicional a n passos 

dada por Fn (y| x). 

Definição 4.5.3 Se existir uma função de distribuição F e uma constante ρ ∈ (0, 1) tal que 

x 

ρ −n Fn (y| x) − F (y) → 0 (4.8) 

para todo o y e o x, então y é ergódico se ρ = 1 e geometricamente ergódico se ρ < 1. F é 

a função de distribuição estacionária. 

Se a densidade fn (y| x) existe, a definição acima pode ser apresentada da seguinte forma: 

se existir uma função de densidade f e uma constante ρ ∈ (0, 1) tal que 

ρ −n 

 

|fn (y| x) − f (y)| dy → 0 (4.9) 

para todo o x, então y é ergódico se ρ = 1 e geometricamente ergódico se ρ < 1. f é a 

função de densidade estacionária. 

93

A definição adoptada de ergodicidade à Harris, permite efectivamente relacionar a ergod- 

icidade com estacionaridade estrita (Chan 1990, 1993), tal como consta da 

Proposição 4.5.1 Suponha-se que y é ergódico. Então existe uma distribuição estacionária 

F tal que o processo y, inicializado com a distribuição F, é EE. 

Dem. Apêndice 4.A. 

Para processos nas condições da proposição anterior, a lei forte dos grandes números 

verifica-se sempre: 

Proposição 4.5.2 Suponha-se E (|h (y)|) < ∞. Nas condições da proposição 4.5.1 verifica- 

se 

1 

n 

n 

t=1 

h (yt) qc 

−→ E (h (y)) , 

(qc: convergência quase certa ou com probabilidade 1) qualquer que seja o valor inicial do 

processo y. 

Por exemplo, se y é ergódico e EE e se E (e yt ) < ∞, então 

1 

n 

n 

e yt 

t=1 

qc 

−→ E (e y ) 

(naturalmente também se tem convergência em probabilidade). Note-se que o processo pode 

não ser fracamente dependente no sentido da definição 4.4.7 - i.e., verificando-se a lei dos 

grandes números de acordo com a proposição anterior, pode não se garantir, ainda assim, a 

aplicação do teorema do limite central. 

Outra propriedade interessante para processos estritamente estacionários é a seguinte: 

Proposição 4.5.3 Seja g uma função com domínio no espaço de estados de y. Se {yt} é EE 

então {zt} , definido por zt = g (yt, yt−1, ...) , é também EE. 

A proposição anterior permite concluir, por exemplo, que se {yt} é EE, então os proces- 

sos {y 2 t } , {yt + e yt−1 } , etc., são também estritamente estacionários. A proposição ante- 

rior não se aplica naturalmente a processos estacionários de segunda ordem. Para ilustrar, 

suponha-se que y é um processo ESO sem 4 o momento. Resulta que {zt} , onde z é definido 

por zt = y 2 t , não é um processo ESO, pois Var (zt) não existe. 

Em geral, é difícil verificar directamente as equações (4.8) e (4.9), a não ser para casos 

relativamente simples, como o do exemplo que se apresenta a seguir. Iremos ver, no entanto, 

94

que é possível, em certas circunstâncias, provar-se (4.8) ou (4.9) de forma indirecta, através 

de resultados auxiliares. Antes de entramos nesta questão no ponto seguinte, veja-se um caso 

em que a aplicação directa de (4.9) é relativamente simples. 

Exemplo 4.5.5 Retome-se o exemplo 4.5.1, mas use-se agora a densidade condicional a n 

passos (poderia ser também a t passos). Concluímos que 

Note-se que 

fn (y| x) = 

yn| y0 = x ∼ N 

 

φ n x, σ 2 

1 

2π Var (yn| x) exp 

lim 

n→∞ E (yn| x) = lim 

n→∞ φ n x = 0, 

lim 

n→∞ Var (yn| x) = lim σ 

n→∞ 2 

lim 

n→∞ fn (y| x) = 

 

2π 

1 

2n 

1 − φ 

 

2n 

1 − φ 

σ 2 

1−φ 2 

1 − φ 2 

− (yn − E (yn| x)) 2 

2 Var (yn| x) 

= σ2 

σ 2 

1−φ 2 

 

1 − φ 2 

2 , 

1 − φ 

exp 

⎧ 

⎨ 

⎩ − 

y2 

⎫ 

⎬ 

= f (y) . 

2 ⎭ 

É razoável admitir que f (y) verifica o limite ρ −n |fn (y| x) − f (y)| dy → 0. Efectiva- 

mente, pode mostrar-se esse resultado e, nessas condições, y é um processo EE, com dis- 

tribuição estacionária dada por f (y) e momentos estacionários E (y) = 0 e Var (y) = 

σ 2 / 1 − φ 2 . 

Para exemplificar, considere-se x = 2, σ 2 = 0.7 e φ = 0.8. A distribuição estacionária é 

dada por 

y ∼ N 

 

0.7 

0, 

1 − 0.82 

= N (0, 1.944) . 

Se o processo for inicializado no valor x = 2, ao fim de alguns períodos (digamos n = 10), 

yt comporta-se como um processo y ∼ N (0, 1.944) . Por outras palavras, um elemento re- 

tirado ao acaso da sucessão {y10, y11, ...} , por exemplo y100, tem distribuição estacionária 

N (0, 1.944) . Naturalmente, se o valor anterior y99 for observado e usarmos essa infor- 

mação para prever y100, a distribuição pertinente passa a ser a distribuição condicional 

habitual (a um passo). Na figura 4-7 mostra-se a convergência da sucessão de funções 

{fn (y| x = 2) , n = 1, 2, 3, 8} para a distribuição estacionária f (y) . A distribuição esta- 

cionária, que coincide com a distribuição marginal do processo, é relevante porque mostra 

95 

.

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

5.0 4.0 3.0 2.0 1.0 0.0 1.0 2.0 3.0 4.0 5.0 

Dist. Est n = 1 n = 2 n = 3 n = 8 

Figura 4-7: Sucessão de funções {fn (y| x = 2) , n = 1, 2, 3, 8} e distribuição estacionária 

f (y) 

o comportamento “geral” do processo. Dá ainda uma medida do tempo de permanência do 

processo em cada um dos subintervalos do espaço de estados. Para os valores fixados para 

σ e φ, ficamos a saber a partir da inspecção da distribuição estacionária que, por exemplo, 

y dificilmente sairá do intervalo (−5, 5) e que, durante a maior parte do tempo, estará no 

intervalo (digamos) (−2, 2) . 

Termina-se esta secção notando que a densidade estacionária (caso exista) coincide com 

a densidade marginal (quando o processo é inicializado em condições estacionárias). 

4.5.2 Modelos Não Lineares do tipo yt = g (yt−1, yt−2, ..., yt−p) + ut 

Proposição 4.5.4 Considere-se o processo {y} definido por 

yt = g (yt−1, ..., yt−p) + ut 

onde g : R p → R, {ut} é uma sucessão de v.a. i.i.d. e independentes de yt−k, k ≥ 1, com 

função de densidade positiva e E (ut) = 0. O processo {y} é geometricamente ergódico se 

qualquer uma das seguintes condições se verificar: 

(a) g é uma função limitada em conjuntos limitados, 

|g (x) − (b1x1 + ... + bpxp)| 

lim 

x→∞ 

x 

= 0 

e as raízes do polinómio 1 − b1z − ... − bpz p estão fora do circulo unitário. 

96

(b) Existe uma constante λ ∈ (0, 1) e c tal que 

|g (x)| ≤ λ max {|x1| , ..., |xp|} + c. 

(c) Existe uma constante ρ ∈ (0, 1) , c e ai ≥ 0 e a1 + ... + ap = 1 tal que 

|g (x)| ≤ ρ (a1 |x1| + ... + ap |xp|) + c. 

Exemplo 4.5.6 Considere-se o processo AR(2), 

yt = φ 1yt−1 + φ 2yt−2 + ut 

onde u é um ruído branco Gaussiano. A função g é naturalmente 

g (x1, x2) = φ 1x1 + φ 2x2. 

A condição (a) da proposição 4.5.4 verifica-se se, com b1 = φ 1 e b2 = φ 2, as raízes de 

1−b1z−b2z 2 estiverem fora do circulo unitário. Esta é, como se sabe, a condição necessária 

e suficiente para que o processo AR(2) seja ESO. A proposição anterior vai mais longe: sob 

as condições estabelecidas, y é EE. 

Exemplo 4.5.7 Considere-se o processo 

onde u é um ruído branco Gaussiano. Tem-se 

yt = φ y2 t−1 

1 + y2 + ut 

t−1 

g (x) = φx2 

1 + x 2 

Como g (x) é uma função limitada em R, mais concretamente, |g (x)| ≤ φ < ˜ φ < ∞, 

conclui-se 

|g (x)| ≤ ρ |x| + ˜ φ 

para ρ ∈ (0, 1) . Verificam-se as condições (b) e (c) e, assim, y é um processo ergódico. 

97

Exemplo 4.5.8 Considere-se o processo 

yt = 

⎧ 

⎨ 

⎩ 

−0.5yt−1 + ut se yt−1 < 0 

0.5yt−1 + ut se yt−1 ≥ 0. 

onde u é um ruído branco Gaussiano. Este modelo pode ser reescrito na forma: 

yt = φ tyt−1 + εt, 

onde φt = 

−0.5I{yt−1

4.5.3 Estabilidade em EDF 

Chamamos equação às diferenças finitas (não estocásticas) EDF (de primeira ordem, para 

simplificar) à equação 

yt = g (yt−1) , y0 = ξ (condição inicial). (4.10) 

A solução desta equação não tem componente aleatória e a sua dinâmica é completamente 

determinada pela condição inicial e pela função g. Tong (1990) chama a g o esqueleto do 

processo estocástico. O estudo qualitativo da EDF envolve, por exemplo, a análise do com- 

portamento assimptótico de yt. 

Seja 

g (t) (x) = g(...g(g(x))) 

 

t vezes 

(por exemplo, g (2) (x) = g (g (x))). O estudo da função g (t) (x) é essencial na análise quali- 

tativa das soluções. Concretamente, yt = g (t) (y0) fornece o valor de y no momento t como 

função do valor inicial y0. Sabendo g (t) podemos, por exemplo, estudar a sensibilidade da 

solução face aos valores iniciais; permite também estudar o comportamento assimptótico 

da solução quando t → ∞. Em certos casos, a estacionaridade e ergodicidade podem ser 

deduzidas a partir da análise qualitativa das equações às diferenças finitas determinísticas 

(EDFs). Por exemplo, considere-se a proposição 4.5.4 condição (c), no caso univariado 

(g : R → R), posta na forma |g (x)| < ρ |x| (com c = 0). Resulta, 

|g (y0)| ≤ ρ |y0| 

 

(2) 

g (y0) = |g (g (y0))| ≤ ρ |g (y0)| ≤ ρ 2 |y0| 

 

(t) 

g (y0) 

... 

≤ 

t 

ρ |y0| 

e, portanto, yt = g (t) (y0) → 0 quando t → ∞, independentemente do valor inicial. Diz- 

se nestes casos que o valor 0 é um ponto assimptoticamente estável 8 . Observe-se que a 

mesma condição que assegura a estacionaridade estrita no âmbito dos processos estocásticos, 

assegura também a estabilidade assimptótica do ponto zero no âmbito das EDF (veja-se o 

8 Na verdade, a definição é menos exigente: o valor zero é um ponto fixo assimptoticamente estável se existir 

um δ0 > 0 tal que a desigualdade |y0| ≤ δ0 implica g (t) (y0) → 0 quando t → +∞. 

99

ponto 7.2). 

4.5.4 Modelos Não Lineares do tipo yt = Atyt−1+Bt 

Suponha-se que se analisa o modelo AR com coeficiente aleatório, 

yt = φ (ξ t) yt−1 + ut 

(4.11) 

onde ξ t é uma variável aleatória. Os principais resultados apresentados na secção anterior 

não se aplicam, pois a equação (4.11) não pode ser representada na forma yt = g (yt−1, yt−2, ..., yt−p)+ 

ut. A teoria assimptótica está especialmente desenvolvida para a seguinte classe de modelos 

AR com coeficientes aleatórios: 

Definição 4.5.4 Uma equação vectorial autoregressiva de dimensão d com coeficientes aleatórios 

i.i.d. não negativos é uma equação da forma 

yt = Atyt−1 + Bt 

onde {(At, Bt) , t ∈ Z} é uma sucessão i.i.d. com valores em M + 

d×d × (R+ ) d . 

(4.12) 

Observe-se que M + 

d×d é o espaço das matrizes quadradas de ordem d de elementos todos 

positivos. 

o 

Inúmeros processos não lineares podem ser representados na forma (4.12), como mostra 

Exemplo 4.5.10 Considere-se o processo ut com heterocedasticidade condicionada de or- 

dem (2, 1) , (GARCH(2,1)) 

ut = σtεt 

σ 2 t = ω + α1u 2 t−1 + α2u 2 t−2 + β 1σ 2 t−1 + β 2σ 2 t−2, ω, αi, β i > 0. 

Procure-se representar este processo na forma (4.12). Para o efeito, observe-se que 

σ 2 t = ω + α1σ 2 t−1ε 2 t−1 + α2σ 2 t−2ε 2 t−2 + β1σ 2 t−1 + β2σ 2 t−2 

= ω + α1ε 2 2 

t−1 + β1 σt−1 + α2u 2 t−2 + β2σ 2 t−2. 

100

Tem-se ⎛ 

⎜ 

⎝ 

σ2 t 

σ2 t−1 

u2 ⎞ ⎛ 

α1ε 

⎟ ⎜ 

⎟ ⎜ 

⎟ = ⎜ 

⎠ ⎝ 

 

t−1 

 

2 t−1 + β1 1 

β2 0 

α2 

0 

ε2 ⎞⎛ 

σ 

⎟⎜ 

⎟⎜ 

⎟⎜ 

⎠⎝ 

 

t−1 

 

0 0 

 

2 t−1 

σ2 t−2 

u2 ⎞ ⎛ ⎞ 

ω 

⎟ ⎜ ⎟ 

⎟ ⎜ ⎟ 

⎟ + ⎜ 0 ⎟. 

⎠ ⎝ ⎠ 

 

t−2 

 

0 

 

yt 

A matriz aleatória At e o vector Bt estão nas condições da definição 4.5.4. 

At 

A estacionaridade do processo (4.12) está discutida, por exemplo, em Basrak et al. 

(2002). O resultado principal é dado pela 

Proposição 4.5.5 Assuma-se, no âmbito da definição 4.5.4, E (log A1) < 0 e E log + B1 < 

∞ (log + x = max (log x, 0)). Então o processo definido por (4.12) converge (com probabil- 

idade um) e a sua solução é estritamente estacionária. 

Na proposição anterior, as condições de estacionaridade apenas envolvem A1 e B1, e 

não toda a sucessão {At} e {Bt} , porque se admite que {At} e {Bt} são sequências i.i.d. 

e, portanto, a avaliação de um elemento qualquer da sucessão é suficiente para estabelecer o 

resultado desejado. 

Uma versão (ligeiramente) mais geral da proposição anterior é apresentada Basrak et al. 

yt−1 

(2002). Como habitualmente, A é a norma da matriz ou vector A. 

Corolário 4.5.1 No caso escalar, d = 1, 

yt = Atyt−1 + Bt, 

assuma-se −∞ ≤ E (log |A1|) < 0 e E log + |B1| < ∞. Então y converge (com probabili- 

dade um) e a sua solução é estritamente estacionária. 

Exemplo 4.5.11 Discuta-se a estacionaridade do processo 

yt = |φ| yt−1 + |ut| , 

onde u é ruído branco Gaussiano. No contexto do corolário 4.5.1 tem-se 

At = |φ| , Bt = |ut| . 

101 

Bt

A condição E log + |B1| < ∞ verifica-se imediatamente, tendo em conta a distribuição 

assumida para u. 9 Relativamente à outra condição, vem 

Se log |φ| < 0, i.e., |φ| < 1 o processo é EE. 

E (log |A1|) = E (log |φ|) = log |φ| . 

Exemplo 4.5.12 Discuta-se a estacionaridade do processo 

yt = e µ+et yt−1 + |ut| (4.13) 

onde µ é uma constante e et e ut são ruídos brancos Gaussianos com variância igual a 1, e 

independentes entre si. No contexto do corolário 4.5.1 tem-se 

At = e µ+et , Bt = |ut| . 

Como {At} é uma sucessão positiva de v.a. i.i.d., a equação (4.13) respeita a definição 

4.5.4 (e, assim, o corolário 4.5.1 é aplicável). A condição E log + |B1| < ∞ verifica- 

se imediatamente, tendo em conta a distribuição assumida para u. Relativamente à outra 

condição, vem 

Se µ < 0 então o processo y é EE. 

E (log |A1|) = E log e µ+e1 = E (µ + σe1) = µ. 

Exemplo 4.5.13 Considere-se o processo ut com heterocedasticidade condicionada de or- 

dem (1, 1) , (GARCH(1,1)) 

ut = σtεt 

σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1 ω, α1, β 1 > 0. 

onde ε é um ruído branco EE e independente de ut−k, k ∈ N. O processo σ 2 t pode escrever-se 

na forma 

σ 2 t = ω + α1σ 2 t−1ε 2 t−1 + β1σ 2 t−1 = ω + α1ε 2 2 

t−1 + β1 σt−1. 9 Se u ∼ N (0, 1) , então E (log |u|) = −0.635. Pode mostrar-se que log |u| função densidade de probabil- 

e2y − idade 2e 2 +y / √ 2π. 

102

Tem-se assim 

At = α1ε 2 

t−1 + β1 , Bt ≡ B = ω. 

Verifica-se que (At, B) é uma sucessão de v.a. positivas i.i.d. Para que σ 2 t admita uma 

solução estritamente estacionária é suficiente (pode mostrar-se que é também necessário) 

que se verifiquem as condições do corolário 4.5.1, −∞ ≤ E (log |A1|) < 0 e E log + |B1| < 

∞. A segunda condição verifica-se imediatamente; a primeira estabelece 

E (log |A1|) = E log α1ε 2 

0 + β1 < 0. (4.14) 

Nelson (1990) obteve esta condição 10 , mas sem recorrer à proposição 4.5.5. Tem-se assim 

que σ 2 t é um processo EE. E quanto a ut? Felizmente, não é necessário estudar directamente 

ut, pois sabe-se que se o processo {(ξ 1t, ξ 2t)} é EE, uma qualquer função (mensurável) de 

ξ 1t e ξ 2t é ainda estritamente estacionária. Assim, se {(σ 2 t , εt)} é EE, então o processo u 

definido por ut = σtεt é também EE. 

Exemplo 4.5.14 Retome-se o exemplo 4.5.10. Suponha-se que ε é um ruído branco com 

distribuição N (0, 1) . Considerando a norma 

tem-se 

A = max 

1≤i≤n 

n 

j=1 

|aij| 

⎛⎛ 

 

α1ε 

⎜⎜ 

⎜⎜ 

log A1 = log ⎜⎜ 

⎝⎝ 

 

 

2 0 + β1 β2 α2 

1 0 0 

ε2 ⎞ 

⎞ 

 

 

⎟ 

⎟ 

⎟ 

⎟ 

⎟ 

⎟ 

⎠ 

⎠ 

 

0 0 0 

∞ 

= log max α1ε 2 

0 + β 

1 + |α2| + |β2| , 1, |ε0| 2 

= max log α1ε 2 

0 + β 

1 + |α2| + |β2| , 0, log |ε0| 2 . 

 

10O valor esperado E log α1ε2 

0 + β1 tem expressão conhecida, por exemplo, quando ε0 ∼ N (0, 1) . O 

programa Mathematica permite obter 

E log α1ε 2 

0 + β1 = π erfi 

 

β 

+ log 

2α 

 

HypergeometricPFQ 

−β 

A explicação destas funções pode ver-se no programa Mathematica. 

103 

, 

 

α 

 

− EulerGamma 

2 

 

{1, 1} , 3 

2 , 2 , β 

 

2α 

α 

.

Como E log |ε0| 2 = −1.27036 < 0 e todos os parâmetros são positivos, a condição 

E (log A1) < 0 resume-se a 

E log α1ε 2 

0 + α2 + β1 + β2 < 0. 

No caso α2 = β 2 = 0, obtém-se a condição já estabelecida (4.14). 

4.5.5 Modelos Não Lineares do tipo yt = g (yt−1, u t) 

Os modelos mais gerais são do tipo yt = g (yt−1, u t) . No ponto anterior, a função g 

decompõe-se na forma Atyt−1 (fixando At, g é linear no seu argumento) e no caso yt = 

g (yt−1)+ut, anteriormente tratado, g, dado yt−1, não depende de uma componente aleatória. 

O próximo resultado envolve os conceitos de aperiodicidade e irredutibilidade. Suponha- 

se que o espaço de estados de y é {1, 2, 3}. Imagine-se que o processo tem início no estado 

1. Se y retorna ao estado 1 sempre em dois passos (por exemplo, visita 2 e volta a 1, ou visita 

3 e volta a 1) o processo não é aperiódico. Irredutibilidade significa, grosso modo, que um 

processo pode visitar qualquer estado qualquer que seja o estado em que se encontre. 

Para processos com espaço de estados contínuo, a seguinte proposição assegura a irre- 

dutibilidade (Mokkadem, 1985): 

Proposição 4.5.6 Suponha-se que para qualquer conjunto A ⊂ R N com medida de Lebesgue 

não nulo e qualquer conjunto compacto B, existe um inteiro t > 0 tal que 

Então o processo y é irredutível. 

Defina-se yt q := E (yt q ) 1 

q . 

inf 

x∈B P (yt ∈ A| y0 = x) > 0. (4.15) 

Proposição 4.5.7 Considere-se o processo multivariado {y} definido por 

yt = g (yt−1, u t) 

onde {ut} é uma sucessão de vectores i.i.d.. Suponha-se que y é um processo aperiódico e 

irredutível. Suponha que existem escalares K > 0, δ ∈ (0, 1) e q > 0 tal que g está bem 

104

definida e é contínua com respeito ao primeiro argumento e 

g (x, u 1) q < δ x , x > K. 

Então {yt} é geometricamente ergódico e EE. 

Exemplo 4.5.15 Retome-se o exemplo 4.5.13, 

σ 2 t = ω + α1ε 2 2 

t−1 + β1 σt−1 supondo ε é um ruído branco Gaussiano com variância igual a 1. A proposição 4.5.5 é 

a mais adequada para tratar este caso. No entanto, também 4.5.7 pode ser invocada. O 

processo é obviamente aperiódico, tendo em conta a distribuição de ε. Não é fácil verificar- 

se (4.15), pois as probabilidades de transição a n passos não são conhecidas. É no entanto 

pacífico assumir-se que σ 2 t , para algum t > 0, pode atingir qualquer conjunto A, qualquer 

que seja a condição inicial. Assuma-se, assim, que σ 2 t é irredutível. Tem-se, 

g (x, u1) = ω + α1ε 2 

1 + β1 x 

e escolha-se, no contexto da proposição 4.5.7, q = 1. Assim, 

Em que circunstâncias se verifica 

g (x,ε1)1 = E 

ω + α1ε 2 1 + β1 x . 

E 

ω + α1ε 2 1 + β1 x < δ |x| , |x| > K ? 

Para |x| suficientemente grande, tal que |x| > K, o valor de ω é irrelevante 11 . Assuma-se 

assim ω = 0. Vem 

E α1ε 2 1 + β1 x = E α1ε 2 

1 + β 

1 

x < δ |x| , |x| > K 

se e só se E (|α1ε 2 1 + β 1|) < δ ∈ (0, 1) . A condição de estacionaridade estrita está encon- 

11 Considere-se, por exemplo, |ω + 0.98x| < 0.99 |x| . Esta desigualdade não se verifica para todo o x ∈ R. 

No entanto, para qualquer valor de ω, existe certamente um K tal que |x| > K ⇒ |ω + 0.98x| < 0.99 |x| . 

105

trada: 

E α1ε 2 

1 + β 

1 

< 1. 

Atendendo a α1ε 2 1 + β 1 > 0 e E (ε 2 1) = 1, a condição pode reescrever-se na forma 

E α1ε 2 

1 + β 

1 

= α1 + β1 < 1. (4.16) 

Esta condição não é equivalente à obtida no exemplo 4.5.13, E (log (α1ε 2 0 + β 1)) < 0 (as 

proposições 4.5.5 e 4.5.7, em geral, conduzem a condições suficientes, mas não necessárias). 

Estas duas condições são discutidas no ponto 8.4. 

4.A Demonstrações 

Demonstração da proposição 4.5.1 

Para simplificar, suponha-se que existe a densidade fn (y| x) = ∂ 

∂y Fn (y| x) . Considere- 

se n → ∞ em ambos os lados da equação (4.7). Como fn (y| x) − f (y) converge para zero 

na norma , a equação (4.7) com n → ∞ é 

 

f (y) = 

f1 (y| u) f (u) du. (4.17) 

Por hipótese, y0 (valor inicial) tem densidade estacionária fy0 = f. Resulta de (4.17) que y1 

também tem densidade estacionária f, pois 

 

fy1 (y) = 

 

f1 (y| u) fy0 (u) du = 

f1 (y| u) f (u) du = f (y) . 

Por indução, conclui-se que fyt (y) = f (y) qualquer que seja t. Por outro lado, devido à 

homogeneidade e à propriedade de Markov, a densidade conjunta de (yn, yn−1, ..., y1, y0) 

fyn,yn−1,...,y1,y0 (xn, xn−1, ..., x1, x0) = f1 (xt| xt−1) f1 (xt−1| xt−2) ...fy0 (x0) 

é igual à densidade conjunta de (yn+k, yn+k−1, ..., yk+1, yk) 

fyn+k,yn+k−1,...,yk+1,yk (xn, xn−1, ..., x1, x0) = f1 (xt| xt−1) f1 (xt−1| xt−2) ...fyk (x0) , 

pois f1 (y| x) não depende do momento em que é calculada (apenas depende dos argumentos 

106

y e x) e fy0 (x0) = fyk (x0) = f (x0). 

107


108

Parte II 

Modelos 

109


110

Capítulo 5 

O Problema da Especificação 


5.1 O Axioma da Correcta Especificação do Modelo 

Seja yt o valor de uma variável económica no momento t. Em termos abstractos temos 

a sucessão (ou colecção) de variáveis aleatórias {yt, t ∈ Z} ou {yt, t ∈ N0} . Uma série 

económica é apenas uma subsucessão de {yt, t ∈ N0} . A série económica depende de in- 

úmeros factores: leis económicas, choques externos, puro acaso, etc. 

O verdadeiro comportamento de yt é desconhecido. Pode ser caracterizado por aquilo 

a que se chama data generation process (DGP) e é definido como a lei de probabilidade 

conjunta de {yt, yt−1, ...}: 

F 0 

t (yt, yt−1, ...) ou f 0 t (yt, yt−1, ...) . 

A distribuição conjunta ou a densidade conjunta (que se admite existir) descrevem comple- 

tamente a sucessão em termos probabilísticos (incorpora tudo o que influencia yt). Note-se 

que as funções F 0 

t ou f 0 t são desconhecidas. Além disso, dependem de t, porque se admite 

a possibilidade de y ser não estacionário. O DGP pode ser equivalentemente descrito pelas 

densidades condicionais (supondo que existem) 

f 0 t (yt| Ft−1) , t = ..., −1, 0, 1, ... 

111

Com efeito (usando a propriedade P (A ∩ B) = P (A| B) P (B)), 

f 0 t (yt, yt−1, ...) = f 0 t (yt| yt−1, ...) f 0 t−1 (yt−1, yt−2...) (5.1) 

= f 0 t (yt| yt−1, ...) f 0 t−1 (yt−1| yt−2, ...) f 0 t−2 (yt−2, yt−3...) 

= ... 

= f 0 t (yt| yt−1, ...) f 0 t−1 (yt−1| yt−2, ...) ...f 0 1 (y1| y0, ...) ... 

Logo a sucessão {f 0 t (yt| Ft−1)} fornece a mesma informação que f 0 (yt, yt−1, ...). Por ex- 

emplo, suponha-se que se simula o seguinte modelo: 

y1 ∼ N (0, 1) 

yt = 0.5yt−1 + εt, εt é um ruído branco N (0, 1) , t = 2, 3 

Logo, o DGP da simulação é 

f 0 (y3, y2, y1) = f 0 (y3| y2, y1) f 0 (y2, y1) 

= f 0 (y3| y2, y1) f 0 (y2| y1) f 0 (y1) 

= f 0 (y3| F2) f 0 (y2| F1) f 0 (y1) , 

e, portanto, pode ser completamente caracterizado pela distribuição condicional yt| Ft−1 ∼ 

N (0.5yt−1, 1) e pela distribuição do valor inicial (se o processo fosse iniciado em t = −∞ 

o DGP seria caracterizado apenas pela distribuição condicional). 

Um modelo econométrico é definido pelo investigador e procura aproximar o melhor 

possível o DGP através de um modelo 

M (yt, yt−1, ...; dt; θ) 

onde θ é um vector de parâmetros e dt inclui variáveis não aleatórias que procuram modelar 

alterações no DGP ao longo do tempo (como por exemplo, variáveis artificiais determinísti- 

cas, tendências, etc.). 

Este modelo encerra uma hipótese quanto à fdp condicional, ft (yt| dt, Ft−1, θ) e, por- 

tanto, quanto aos momentos condicionais, como por exemplo E (yt| dt, Ft−1, θ) e Var (yt| dt, Ft−1, θ) . 

O axioma da correcta especificação do modelo M traduz-se da seguinte forma: existe um θ0 

112

tal que 

ft (yt| dt, Ft−1, θ0) = f 0 t (yt| Ft−1) . 

De forma análoga, os dois primeiros momentos condicionais estão correctamente especifi- 

cados se existir um θ0 tal que 

E (yt| dt, Ft−1, θ) = 

Var (yt| dt, Ft−1, θ) = 

 

 

yf 0 t (y| Ft−1) dy 

y 2 f 0 

t (y| Ft−1) dy − 

yf 0 2 t (y| Ft−1) dy . 

Na prática, a hipótese da correcta especificação é implausível, embora seja geralmente 

conveniente invocá-la como forma de estruturar e interpretar os resultados estatísticos. De 

todo o modo, o objectivo é claro: devemos procurar uma fdp ft (yt| dt, Ft−1, θ0) que esteja 

o mais próximo possível da verdadeira mas desconhecida densidade f 0 (yt| Ft−1). 

5.2 Modelação da Média Condicional e Modelos Dinami- 

camente Completos 

5.2.1 Modelos Dinamicamente Completos 

Generalize-se a análise e admita-se que a yt depende dos valores correntes e passados de 

xt. Seja It = Ft−1 ∪ F X t onde F X t é o conjunto de informação contendo todas as variáveis 

explicativas até ao período t. Assim, It = {yt−1, yt−2, ...; xt, xt−1, ...}. O primeiro passo na 

construção do modelo M é o da definição da média condicional, o que significa que devemos 

identificar todas as variáveis explicativas de yt. Por exemplo, suponha-se que as variáveis 

relevantes para explicar um certo fenómeno yt são xt e yt−1. Normalmente expressamos esta 

nossa convicção sobre o poder explicativo xt e yt−1 escrevendo yt = β 1 + β 2xt + φyt−1 + ut, 

sendo ut é o termo de erro. É importante sublinhar que nada de relevante é dito sobre 

o modelo se não adiantarmos uma hipótese sobre o comportamento de ut. Se dissermos 

que E (ut) = 0 apenas podemos concluir que E (yt) = β 1 + β 1 E (xt) + φ E (yt−1) . Se 

adicionalmente dissermos que Cov (ut, xt) = Cov (ut, yt−1) = 0 então (pode-se provar que) 

β 1 + β 2xt + φyt−1 é o melhor previsor linear de yt. Se a nossa hipótese é E (ut| It) = 0 

acrescentamos bastante mais informação: de facto, reclamamos que a média condicional é 

E (yt| It) = β 1 + β 2xt + φyt−1. Todavia, nenhuma suposição é feita quanto a distribuição 

113

condicional de yt. 

Seja xt o vector das variáveis explicativas. No exemplo anterior tem-se xt = (xt, yt−1) , 

e pode-se verificar que E (yt| xt) = E (yt| It) . De uma forma geral, quando é válida a 

igualdade E (yt| xt) = E (yt| It) diz-se que o modelo é dinamicamente completo. Veja um 

caso onde o modelo não é dinamicamente completo. Considere-se, 

yt = β 1 + β 2xt + β 3yt−1 + ut, ut = φ 2ut−2 + εt (5.2) 

sendo {εt} um RB. Este modelo não é dinamicamente completo, pois 

não coincide com 

E (yt| It) = β 1 + β 2xt + β 3yt−1 + φut−2 

E (yt| xt) = E (yt| xt, yt−1) = β 1 + β 2xt + β 3yt−1. 

No entanto, é fácil obter um modelo dinamicamente completo a partir de (5.2). Como 

tem-se, a partir da representação (5.2), 

yt = β 1 + β 2xt + β 3yt−1 + ut 

ut = yt − (β 1 + β 2xt + β 3yt−1) ⇒ 

ut−2 = yt−2 − (β 1 + β 2xt−2 + β 3yt−3) 

= β 1 + β 2xt + β 3yt−1 + φ 2ut−2 + εt 

= β 1 + β 2xt + β 3yt−1 + φ 2 (yt−2 − (β 1 + β 2xt−2 + β 3yt−3)) + εt 

= β 1 − β 1φ 2 + β 2xt + β 3yt−1 + φ 2yt−2 − β 2φ 2xt−2 − β 3φ 2yt−3 + εt. 

A equação anterior pode ainda escrever-se na forma 

yt = γ 1 + γ 2xt + γ 3yt−1 + γ 4yt−2 + γ 5xt−2 + γ 6yt−3 + εt. (5.3) 

O vector xt passa agora a ser xt = (xt, yt−1, yt−2, xt−2, yt−3) e o modelo (5.3) é dinamica- 

114

mente completo pois 

E (yt| It) = E (yt| xt) = γ 1 + γ 2xt + γ 3yt−1 + γ 4yt−2 + γ 5xt−2 + γ 6yt−3. 

Num modelo dinamicamente completo, o conjunto das variáveis explicativas xt capta toda 

a dinâmica do processo, de tal forma que os erros não são autocorrelacionados (vale a pena 

acrescentar que um modelo dinamicamente completo não pode ter erros autocorrelaciona- 

dos). 

Que diferenças existem entre os modelos (5.2) e (5.3)? O estimador OLS aplicado a 

(5.3) é consistente; mas aplicado a (5.2) é inconsistente, pois o regressor yt−1 está correla- 

cionado com os erros ut (E (ut| xt) = 0). Claro que no modelo (5.2) deve usar-se um 

método de estimação consistente, como por exemplo, o método FGLS ou o método da máx- 

ima verosimilhança. Quando são usados métodos de estimação apropriados, do ponto de 

vista estatístico - por exemplo, previsão ou ajustamento - os modelos acima discutidos são 

(quase) equivalentes (e, portanto, é indiferente usar-se um ou o outro). Do ponto de vista da 

interpretação económica o modelo (5.3) pode ser preferível, pois identifica claramente todos 

os regressores “influentes” na explicação das variações de y. Mas, também pode suceder 

o contrário! Suponha-se que a teoria económica postula para certo fenómeno a relação 

yt = β 1 + β 2xt + ut. É esta a relação que queremos estimar, mesmo que ut possa exibir 

autocorrelação. 

5.2.2 Média Condicional Não Linear 

Suponha-se que a média condicional é dada por 

E (yt| Ft−1) = g (yt−1, yt−2, .., yt−p; ut−1, ut−2, ...ut−q) 

(não estando presente a variável explicativa xt, a σ-algebra relevante é Ft e não It, como no 

exemplo anterior). Diz-se que o modelo yt = g (yt−1, yt−2, .., yt−p; ut−1, ut−2, ...ut−q) + ut 

é não linear na média se g é uma função não linear dos seus argumentos. Vejamos alguns 

exemplos. No caso 

yt = φyt−1 + log 1 + y 2 t−1 

+ ut, E (ut| Ft−1) = 0, 

115

tem-se um modelo não linear na média, pois, E (yt| Ft−1) = φyt−1 + log 1 + y2 

t−1 é uma 

função não linear de yt−1. Também 

yt = ξut−1ut−2 + ut, E (ut| Ft−1) = 0 

é um modelo não linear, pois E (yt| Ft−1) = ξut−1ut−2 é não linear nos valores passados de 

ut. Outro exemplo é Modelo Threshold 

yt = 

⎧ 

⎨ 

⎩ 

φ 1yt−1 + ut se yt−1 > k 

φ 2yt−1 + ut se yt−1 ≤ k. 

com E (ut| Ft−1) = 0. Desenvolveremos modelos não lineares com algum detalhe no ponto 

7. 

5.3 Modelação da Variância Condicional 

Definida a média condicional, pode haver interesse em explicar a variabilidade de yt ao longo 

do tempo. No modelo clássico de séries temporais assume-se que a variância condicional é 

constante ao longo do tempo. Essa hipótese não é credível em séries temporais financeiras. 

No ponto 8 discutiremos esta questão em detalhe. Uma forma de introduzir um modelo 

de variância condicional não constante consiste em definir o termo de erro da equação yt = 

E (yt| Ft−1)+ut da seguinte forma ut = σtεt, onde εt é um ruído branco de variância igual a 

1 ou, mais geralmente, uma diferença de martingala (com variância finita igual a 1). Resulta 

Var (yt| Ft−1) = Var (ut| Ft−1) = Var (σtεt| Ft−1) = σ 2 t . 

A tarefa do investigador é a de definir uma função adequada para σ 2 t . No ponto 8 aborda-se 

de forma detalhada esta questão. 

5.4 Distribuição de Condicional 

Definida a média condicional e a variância condicional e, eventualmente, outros momentos 

condicionais de ordem superior, pode haver interesse em modelar toda a estrutura probabilís- 

tica do processo. Para o efeito é necessário no contexto da equação yt = E (yt| Ft−1) + ut 

116

com ut = σtεt, especificar uma distribuição para εt. Por exemplo, se a proposta do investi- 

gador é εt ∼ N (0, 1) , resulta que distribuição condicional de yt é 

yt| Ft−1 ∼ N (E (yt| Ft−1) , Var (yt| Ft−1)) , 

e toda a estrutura probabilística fica definida. No contexto do ponto 5.1, a densidade definida 

para yt| Ft−1 representa a função ft (yt| dt, Ft−1, θ). 

117


118

Capítulo 6 

Modelação da Média: Abordagem Linear 


Neste capítulo vamos focar modelos lineares na média. Considere-se o modelo 

yt = µ t + ut 

(6.1) 

onde ut são os erros e µ t = g (yt−1, yt−2, .., yt−p; ut−1, ut−2, ...ut−q) é a média condicional. 

De acordo com a regra adoptada adiante, entende-se que o modelo (6.1) é linear na média se 

a função g é linear nos seus argumentos. Por exemplo, a especificação µ t = φyt−1 + θut−1 

é linear (a função g é g (x1, x2) = φx1 + θx2) ao passo que µ t = φy 2 t−1(g (x) = φx 2 ) é não 

linear. 

Toma-se como variável dependente y (pode ser um retorno de um título, a variação 

da taxa de câmbio, uma taxa de juro, etc.). Começaremos por admitir que a única infor- 

mação que dispomos sobre y é a própria série. Como explicar yt a partir da informação 

Ft−1 = {yt−1, yt−2, ...}? Se yt não está correlacionado de alguma forma com os seus valores 

passados yt−1, yt−2, ... a abordagem de séries temporais é inútil. Pelo contrário, se existe ev- 

idência de autocorrelação, então os valores passados da série podem explicar parcialmente o 

movimento de y e um modelo linear na média pode ser apropriado. Na prática, teremos de es- 

colher um modelo concreto. Por exemplo, yt = c+φyt−1+ut ou yt = c+φ 1yt−1+φ 2yt−2+ut 

ou yt = c + θ1ut−1 + ut entre muitos outros. Como seleccionar o modelo apropriado? A au- 

tocorrelação (total) e autocorrelação parcial são dois conceitos chave na fase da identificação 

do modelo. Iremos analisá-los de seguida. 

119

6.1 Definições Preliminares 

6.1.1 Autocorrelação de Ordem s (FAC) 

Suponha-se que y é um processo ESO. Para medir a associação linear entre yt e yt−s já vimos 

que se toma o coeficiente de autocorrelação de ordem s, 

onde 

ρ s = 

Cov(yt, yt−s) 

Var (yt) Var (yt−s) 

Cov(yt, yt−s) = E ((yt − E (yt)) (yt−s − E (yt−s))) 

= E (ytyt−s) − E (yt) E (yt−s) . 

Convencione-se chamar γ s a Cov (yt, yt−s) e γ 0 a Var (yt) 1 . Como Var (yt) = Var (yt−s) 

vem 

ρ s = 

Cov(yt, yt−s) 

Var (yt) Var (yt−s) = γ s 

γ 2 0 

= γs . 

γ0 Naturalmente, devido à desigualdade de Chaucy-Schwarz 2 , tem-se 

|ρ s| ≤ 1. 

6.1.2 Autocorrelação Parcial de Ordem s (FACP) 

Quando se calcula a correlação entre, por exemplo, yt e yt−2, por vezes sucede que a cor- 

relação detectada se deve ao facto de yt estar correlacionado com yt−1, e yt−1, por sua vez, 

estar correlacionado com yt−2. Com a autocorrelação parcial procura-se medir a correlação 

entre yt e yt−s eliminando o efeito das variáveis intermédias, yt−1, ..., yt−s+1. A análise desta 

forma de autocorrelação é importante na medida em que permite, juntamente com a FAC, 

identificar o processo linear subjacente. 

No âmbito do modelo de regressão linear, sabe-se que uma forma de medir a associação 

parcial ceteris paribus entre, por exemplo, y e x1 consiste em considerar a regressão y = 

β 0+β 1x1+β 2x2+...+β kxk+u. Com este procedimento β 1 representa o efeito ceteris paribus 

1 Na verdade, adoptando a convenção γs = E ((yt − E (yt)) (yt−s − E (yt−s))) resulta, por definição, γ 0 = 

E ((yt − E (yt)) (yt − E (yt))) = Var (yt) . 

2 Suponha-se que E 

 

|X| 2 

< ∞ e E 

 

|Y | 2 

< ∞. Então E (|XY |) ≤ E 

120 

 

|X| 21/2 

E |Y | 21/2 .

de uma variação unitária de x1 sobre y. Mede-se, portanto, o impacto de x1 sobre y depois 

do efeito das variáveis x2, ..., xk ter sido removido ou fixo. Para obtermos as autocorrelações 

parciais seguimos um procedimento similar. 

Considere-se: 

yt = c + φ 11yt−1 + ξ t 

yt = c + φ 21yt−1 + φ 22yt−2 + ξ t 

yt = c + φ 31yt−1 + φ 32yt−2 + φ 33yt−3 + ξ t 

... 

yt = c + φ s1yt−1 + φ s2yt−2 + ... + φ ssyt−s + ξ t 

A autocorrelação parcial de ordem i é dada pelo coeficiente φ ii. Por exemplo, a autocorre- 

lação parcial de ordem 2 é dada pelo coeficiente φ 22 na regressão 

yt = c + φ 21yt−1 + φ 22yt−2 + ξ t. (6.2) 

Podemos usar o OLS para obter ˆ φ 22. Este coeficiente mede a relação entre yt e yt−2 depois 

do efeito de yt−1 ter sido removido. φ kk também pode ser estimado através da expressão 

ˆφ kk = 

 

t rt,kyt 

 

t r2 t,k 

onde rt,k é o resíduo da regressão linear de yt−k sobre um termo constante e (yt−1, ..., yt−k+1) . 

Os resíduos rt,k podem ser interpretados como a variável yt−k depois dos efeitos das variáveis 

(yt−1, ..., yt−k+1) terem sido removidos. Donde ˆ φ kk mede o efeito entre yt e yt−k depois do 

efeito das variáveis intermédias ter sido removido. 

Uma outra forma alternativa de obter φ ii (como função dos ρ ′ s) está descrita no apêndice 

6.A. Sob H0: φ kk = 0 

Z = √ n ˆ φ kk 

d 

−→ N (0, 1) . 

121

6.1.3 Operador de Diferença e de Atraso 

O operador diferença ∆ é bem conhecido: 

∆yt = yt − yt−1, 

∆ 2 yt = ∆ (∆yt) = ∆ (yt − yt−1) = ∆yt − ∆yt−1 

= yt − yt−1 − (yt−1 − yt−2) = yt − 2yt−1 + yt−2. 

O operador de atraso ou de desfasamento L (lag) define-se como 

Resulta da definição, 

Lyt = yt−1. 

L 2 yt = L (Lyt) = Lyt−1 = yt−2, 

L p yt = yt−p, 

L p ut = ut−p. 

Naturalmente, podemos combinar os operadores. Por exemplo, 

L∆yt = L (yt − yt−1) = yt−1 − yt−2. 

Com o operador L podemos escrever, por exemplo, 

na forma, 

yt − φ 1yt−1 − φ 2yt−2 = µ + θ1ut−1 + ut 

yt − φ 1Lyt − φ 2L 2 yt = µ + θ1Lut + ut 

1 − φ1L − φ 2L 2 yt = µ + (1 + θ1L) ut 

φ 2 (L) yt = µ + θ1 (L) ut. 

Obs.: φ 2 (L) = 1 − φ 1L − φ 2L 2 e θ1 (L) = 1 + θ1L são polinómios em L. Certos autores, 

sobretudo da área das sucessões cronológicas, preferem a letra B (backshift) para designar o 

mesmo operador de atraso. 

122

6.2 Processos Lineares Estacionários 

A decomposição de Wold fornece uma motivação para os modelos de médias móveis (ver a 

seguir). Wold mostrou que um processo y ESO pode escrever-se na forma 

yt = Vt + ut + ψ 1ut−1 + ψ 2ut−2 + ... (6.3) 

onde ut é um RB, Vt é um processo determinístico e ∞ 

i=1 ψ2 

i < ∞. 

A decomposição destaca que qualquer processo ESO (linear ou não linear) tem uma 

representação linear nos erros de regressão (podemos também dizer, nos erros de previsão) 

ocorridos no passado. No entanto, o modelo (6.3) não pode ser implementado porque exis- 

tem infinitos parâmetros para estimar. 

Vamos procurar representações lineares parcimoniosas, inspiradas em (6.3). 

Exemplos: 

yt = ut + θ1ut−1 (ψ 1 = θ1, ψ 2 = ψ 3 = ... = 0) 

yt = ut + θ1ut−1 + θ2ut−2 (ψ 1 = θ1, ψ 2 = θ2, ψ 3 = ψ 4 = ... = 0) 

Veremos que os processos do tipo 

yt = c + φyt−1 + ut 

podem também escrever-se na forma (6.3) (com restrições sobre os ψ i). Veremos tam- 

bém que a melhor aproximação linear parcimoniosa que podemos efectuar à estrutura (6.3), 

supondo Vt = 0, baseia-se no chamado modelo ARMA. 

6.2.1 Processos Média Móvel 

Processo MA (1) 

O processo MA(1) é dado por 

yt = µ + θut−1 + ut = µ + (1 + θL) ut 

onde ut é um ruído branco. Este modelo representa yt como uma combinação linear de 

choques aleatórios (ut−1 e ut). Outra forma de interpretarmos o modelo consiste em imaginar 

123

que yt resulta de um mecanismo de correcção: podemos utilizar o erro cometido no período 

anterior, ut−1, como regressor (i.e., como variável explicativa) do modelo (por exemplo, 

veremos que a previsão de y baseia-se, em parte, no erro de previsão cometido no período 

anterior). Este modelo é indicado para modelar fenómenos de memória muito curta pois a 

autocorrelação de y extingue-se muito rapidamente, como veremos a seguir. 

Momentos Marginais 

Os primeiros momentos marginais (ou não condicionais) são 

Covariâncias e Autocorrelações 

Pode-se provar 

E (yt) = E (µ + θut−1 + ut) = µ 

Var (yt) = Var (µ + θut−1 + ut) = θ 2 σ 2 + σ 2 . 

γ 1 = Cov (yt, yt−1) = E ((yt − µ) (yt−1 − µ)) 

= E ((θut−1 + ut) (θut−2 + ut−1)) 

= E θ 2 ut−1ut−2 + θu 2 t−1 + θutut−2 + utut−1 

= 0 + θσ 2 + 0 + 0 

γ s = 0 para s > 1. 

O processo yt é ESO pois E (yt) e Var (yt) são constantes e γ s não depende de t. Conclui- 

se agora que as autocorrelações são dadas por 

ρ1 = γ1 γ0 = 

θσ2 ρs = 0 para s > 1. 

Relativamente às autocorrelações parciais tem-se 

e (pode-se provar) 

Momentos Condicionais 

θ 2 σ2 θ 

= 

+ σ2 θ 2 + 1 . 

φ 11 = ρ 1 = θ 

θ 2 + 1 , 

φss = θs 1 − θ 2 

. 2(s+1) 

1 − θ 

124

Os momentos condicionais são imediatos: 

E (yt| Ft−1) = E (µ + θut−1 + ut| Ft−1) = µ + θut−1. 

Var (yt| Ft−1) = E (yt − E (yt| Ft−1)) 2 

Ft−1 = E u 2 

t 

Se ut é um ruído branco Gaussiano então 

Invertibilidade 

yt| Ft−1 ∼ N µ + θut−1, σ 2 . 

Ft−1 

= σ 2 . 

Considere-se um processo MA(1) (sem perda de generalidade) de média nula, yt = 

θut−1 + ut, onde ut é um ruído branco. Naturalmente, y pode escrever-se na forma 

yt = (1 + θL) ut ou yt (1 + θL) −1 = ut 

Atendendo ao desenvolvimento em série de potência de (1 + θL) −1 , 

tem-se, para |θ| < 1, 

1 

1 + θL = 1 − θL + θ2 L 2 − ..., |θ| < 1 

yt (1 + θL) −1 = ut 

2 2 

yt 1 − θL + θ L − ... = ut 

yt = θyt−1 − θ 2 yt−2 + ... + ut. (6.4) 

Diz-se neste caso, com |θ| < 1 que yt é invertível, isto é, tem representação autoregressiva 3 . 

O facto do processo MA(1) (e, mais geralmente, o processo MA(q)) ter representação do 

tipo (6.4) explica por que razão a função de autocorrelação parcial φ ii é não nula para todo o 

i (porquê?). 

A invertibilidade é uma propriedade exigível na previsão: garante que a informação re- 

mota sobre o processo é irrelevante. Imagine-se o caso contrário, i.e. o processo não in- 

vertível. Isto significa que |θ| > 1 e, pela equação (6.4), a informação mais atrasada tem 

mais peso na previsão y (a rigor a representação (6.4) não está bem definida no caso |θ| > 1; 

3 No caso yt = µ+θut−1+ut, |θ| < 1, a representação autoregressiva é yt = µ 

1+θ +θyt−1−θ 2 yt−2+...+ut. 

125

no entanto, a ideia essencial mantém-se). 

Um processo não invertível pode transformar-se num processo invertível com funções de 

autocorrelação e autocorrelações parciais iguais (ver apêndice 6.B). 

Processo MA (q) 

O processo MA(q) é dado por 

yt = µ + θ1ut−1 + θ2ut−2 + ... + θqut−q + ut, 

= µ + (1 + θ1L + ... + θqL q ) ut 

= µ + θq (L) ut. 

O processo yt continua a representar-se como uma combinação linear de choques aleatórios, 

desta vez, em função de ut−q, ... ut. Pode-se provar: 

Pode-se provar ainda: 

E (yt) = µ 

Var (yt) = σ 2 1 + θ 2 

1 + ... + θ 2 

ρk = 

 

q 

⎧ 

⎨ = 0 se k = 1, 2, ..., q 

⎩ 0 se k = q + 1, q + 2, ... 

φ kk = 0, mas φ kk → 0, quando k → ∞. 

Proposição 6.2.1 yt é invertível se as raízes de θq (L) (i.e. as soluções de θq (L) = 0) são em 

módulo superiores a um (ou fora do circulo unitário no plano complexo). Equivalentemente, 

yt é invertível se as raízes inversas de θq (L) (i.e. 1/L onde L são as soluções de θq (L) = 0) 

são em módulo inferiores a um (ou dentro do circulo unitário no plano complexo). 

No caso MA(1) a proposição 6.2.1 é equivalente a exigir |θ1| < 1 (ou |1/θ1| > 1). 

Observe-se que −1/θ1 é solução de 1 + θ1L = 0. No caso MA(2) 

yt = µ + θ1ut−1 + θ2ut−2 + ut = µ + 1 + θ1L + θ2L 2 ut 

126

a proposição 6.2.1 traduz-se da seguinte forma: yt é invertível se 

θ1 + θ2 > −1, θ1 − θ2 < 1, −1 < θ2 < 1. 

No caso MA(q), q > 2 é necessário calcular as raízes de θq (L) . 

O apêndice 6.C fornece alguns exemplos e refere-se ao programa EVIEWS. 

6.2.2 Processos Autoregressivos 

Processo AR(1) 

O processo AR(1) é dado por 


(6.5) 

onde ut é ruído branco independente de yt−1. Este modelo é muito importante porque repro- 

duz razoavelmente a dinâmica de muitas séries económicas e financeiras. 

Momentos Marginais 

Comece-se por calcular a média marginal 

E (yt) = E (c + φyt−1 + ut) = c + φ E (yt−1) . 

(temos uma equação recorrente em E (yt): este valor esperado depende de E (yt−1) que, por 

sua vez, depende de E (yt−2) e assim sucessivamente). Se assumirmos à partida a condição 

de ESO (implicando E (yt) = E (yt−1) = E (y)) vem 

Seguindo um raciocínio idêntico vem: 

E (y) = c + φ E (y) ⇒ E (y) = c 

1 − φ 

Var (yt) = Var (c + φyt−1 + ut) = φ 2 Var (yt−1) + Var (ut) 

= φ 2 Var (yt−1) + σ 2 

Sob a hipótese de ESO, tem-se Var (yt) = Var (yt−1) = Var (y) e, portanto, 

Var (yt) = φ 2 Var (y) + σ 2 ⇒ Var (y) = σ2 

2 . 

1 − φ 

127

Covariâncias e Autocorrelações 

Calcule-se agora as covariâncias. Como estas não dependem da média de yt, simplifique- 

se fazendo c = 0. Suponha-se |φ| < 1. A covariância γ 1 é dada por 

A covariância de ordem k é 

γ 1 = Cov (yt, yt−1) = E (ytyt−1) 

= E (E (ytyt−1 |Ft−1 )) = E (yt−1 E (yt |Ft−1 )) 

= E (yt−1 E (φyt−1 + ut |Ft−1 )) = E φy 2 t−1 

= φ σ2 

2 . 

1 − φ 

γ k = E (ytyt−k) = E (E (ytyt−k |Ft−k )) = E (yt−k E (yt |Ft−k )) 

Para desenvolvermos a expressão precisamos de calcular primeiro E (yt |Ft−k ) . Ora 

pelo que 


= φ (φyt−2 + ut−1) + ut 

= φ 2 yt−2 + φut−1 + ut 

= ... = yt−kφ k + ut−k+1φ k−1 + ut−k+2φ k−2 + ... + ut−1φ + ut 

E (yt| Ft−1) = yt−kφ k 

(todos os outros termos são nulos). Tem-se assim, 

γk = E yt−kyt−kφ k = φ k E y 2 k σ 

t−k = φ 2 

1 − φ 2 = φkγ 0. 

Uma forma alternativa de obter este valor é a seguinte. Multiplique-se ambos os termos da 

equação (6.5) por yt−k (sem perda de generalidade, considere-se c = 0). Resulta 

ytyt−k = φyt−1yt−k + utyt−k. 

128

Tomando o valor esperado e tendo em conta que E (utyt−k) = 0, obtém-se 

Logo, 

Finalmente, 

Assim, 

γ k = φγ k−1. 

γ 1 = φγ 0, 

γ 2 = φγ 1 = φ 2 γ 0 

... 

γ k = φ k γ 0. 

ρ k = γ k 

γ 0 

= φk γ 0 

γ 0 

= φ k . 

Tendo em conta a definição de autocorrelação parcial, tem-se: 

yt = c + φ 11yt−1 + ξ t ⇒ φ 11 = ρ 1 

yt = c + φ 21yt−1 + φ 22yt−2 + ξ t ⇒ φ 22 = 0 

⎧ 

⎨ ρ1 se k = 1 

φkk = 

⎩ 0 se k > 1 

Os dois primeiros momentos condicionais são 

E (yt| Ft−1) = E (yt| yt−1) = E (φyt−1 + ut| yt−1) = φyt−1, 

Var (yt| Ft−1) = E (yt − φyt−1) 2 

yt−1 = E u 2 

t 

Se ut é um ruído branco Gaussiano então 

6.D) 

yt| Ft−1 ∼ N φyt−1, σ 2 . 

yt−1 

= σ 2 . 

Pode-se provar que a condição de estacionaridade do processo AR(1) é (ver apêndice 

|φ| < 1. 

129

Invertibilidade 

O processo AR é sempre invertível (por definição já tem representação autoregressiva). 

Reversão para a Média 

Processos estacionários com média finita são, por vezes, designados por processos com 

reversão para a média. Exemplifique-se com o processo AR(1) 

yt = c + φyt−1 + ut, |φ| < 1. 

Como µ = c 

1−φ ⇒ c = µ (1 − φ) (note-se que µ é a média de y, E (yt)) podemos reescrever 

o AR(1) na seguinte forma: 

yt = µ (1 − φ) + φyt−1 + ut 

∆yt = µ (1 − φ) + (φ − 1) yt−1 + ut 

= (φ − 1) (yt−1 − µ) + ut 

Esta última equação permite estabelecer as seguintes relações: 

(yt−1 − µ) > 0 ⇒ E (∆yt| Ft−1) < 0 

(yt−1 − µ) < 0 ⇒ E (∆yt| Ft−1) > 0. 

Por exemplo, se num certo período (digamos t − 1) o valor de y está acima da sua média 

de longo prazo µ (i.e. y está relativamente alto) no período seguinte y tenderá a diminuir de 

valor pois E (∆yt| Ft−1) < 0. Quando φ é positivo (esta é a situação habitual em aplicações), 

é possível concluir que quanto mais alto for φ (sem, contudo ultrapassar o valor 1) mais 

lenta é a velocidade de ajustamento de y em direcção à sua média de longo prazo. Suponha 

que o processo y sofre um choque aleatório considerável (ou que é inicializado num valor 

afastado da sua média de longo prazo). Como é que y evolui nos períodos seguintes? Tende a 

aproximar-se rapidamente ou lentamente de µ? (pode mesmo suceder que não haja qualquer 

efeito de reversão para uma medida de tendência central se, no limite, φ = 1). Na figura 6-1 

estão representados quatro processos AR(1) simulados de acordo com o modelo 

yt = 100 (1 − φ) + φyt−1 + ut, ut ruído branco Gaussiano σ 2 = 1 

Em todos os casos, o valor de inicialização é y0 = 0 e usam-se os mesmos erros u. Quanto 

130

y 

120 

100 

80 

60 

40 

20 

0 

20 

1 26 51 76 101 126 151 176 

t 

fhi=0.1 

fhi=0.8 

fhi=0.98 

Figura 6-1: Simulação de quatro processos AR(1) (choques aleatórios ut iguais e valor de 

inicialização y0 = 0) 

mais alto é o valor φ mais lento é o ajustamento de y face à média de longo prazo y. No caso 

φ = 1 não existe reversão para µ, embora o processo possa cruzar µ = 100 (assim como 

qualquer outro valor do espaço de estado de y) algures no tempo. 

Representação MA(∞) 

fhi=1 

Um processo AR(1) (ou mais geralmente um AR(p)) estacionário pode representar-se 

como um MA(∞). Já vimos 


Podemos continuar o procedimento recursivo: 

= φ t y0 + φ t−1 u1 + φ t−2 u2 + ... + φut−1 + ut 

yt = φ t (φy−1 + u0) + φ t−1 u1 + φ t−2 u2 + ... + φut−1 + ut 

= φ t+1 y−1 + φ t u0 + φ t−1 u1 + φ t−2 u2 + ... + φut−1 + ut 

= ...φ 2 ut−2 + φut−1 + ut. 

Para obtermos este resultado podemos tomar um caminho alternativo. Considere-se 

yt = φyt−1 + ut ⇔ yt (1 − φL) = ut ⇔ yt = 

131 

1 

1 − φL ut.

Supondo |φ| < 1 tem-se 

Logo 

Processo AR(p) 

yt = 

1 

1 − φL = 1 + φL + φ2 L 2 + ... 

1 

1 − φL ut = 1 + φL + φ 2 L 2 + ... ut 

= ut + φut−1 + φ 2 ut−2 + ... 

Um processo AR(p) é uma simples generalização do AR(1): 

yt = c + φ 1yt−1 + ... + φ pyt−p + ut. 

Este modelo pode ainda representar-se nas seguintes formas alternativas: 

1 − φ1L − ... − φ pL p yt = c + ut, ou 

φ p (L) yt = c + ut. 

Momentos Marginais (ou não condicionais) 

Assumindo a condição de ESO, vem 

E (yt) = E 

c + φ1yt−1 + ... + φpyt−p + ut = c + φ1 E (yt−1) + ... + φp E (yt−p) 

E (y) = c + φ 1 E (y) + ... + φ p E (y) ⇒ E (y) = 

c 

. 

1 − φ1 − ... − φp Para obtermos a variância é útil considerar (sem perda de generalidade faça-se c = 0 ⇒ 

E (y) = 0): 

yt = φ 1yt−1 + ... + φ pyt−p + ut 

y 2 t = φ1yt−1yt + ... + φpyt−pyt + utyt 

 

= φ1 E (yt−1yt) + ... + φp E (yt−pyt) + E (utyt) 

E y 2 t 

E y 2 t = φ1γ1 + ... + φpγp + σ 2 

γ 0 = φ 1γ 1 + ... + φ pγ p + σ 2 . 

132

As covariâncias são obtidas de forma similar (sem perda de generalidade faça-se c = 0 ⇒ 

E (y) = 0): 

yt = φ 1yt−1 + ... + φ pyt−p + ut 

ytyt−k = φ 1yt−1yt−k + ... + φ pyt−pyt−k + utyt−k 

E (ytyt−k) = φ 1 E (yt−1yt−k) + ... + φ p E (yt−pyt−k) + E (utyt−k) 

γ k = φ 1γ k−1 + ... + φ pγ k−p 

γ k 

γ 0 

= φ 1 

γ k−1 

γ 0 

+ ... + φ p 

γ k−p 

γ 0 

ρ k = φ 1ρ k−1 + ... + φ pρ k−p 

k ≥ 1. 

Pode-se provar que a solução geral da equação às diferenças finitas (determinística) 4 é da 

forma 

ρ k = c1r k 1 + ... + cpr k p, 

onde ci constante arbitrárias e ri = 1/zi e zi são raízes do polinómio φ p (L). Pode-se provar 

que sob a condição de ESO os coeficientes de autocorrelação ρ k não se anulam mas tendem 

para zero quando k → 0. 

Estacionaridade 

Proposição 6.2.2 O processo AR(p) é estacionário sse as raízes da equação φ p (L) = 0 são 

em módulo superiores a um (ou fora do circulo unitário no plano complexo) (apêndice 6.E). 

No caso AR(1) a raiz de φ (L) = 0 é fácil de obter: 

(1 − φL) = 0 ⇒ L = 1 

φ 

Devemos exigir 

1 

 

φ 

> 1 ⇒ |φ| < 1. 

No caso AR(2) pode-se provar que a condição de ESO é: 

φ 1 + φ 2 < 1, φ 2 − φ 1 < 1, −1 < φ 2 < 1 

4 Quase diríamos que esta equação é um processo AR(p) não fosse o facto de não possuir termo aleatório. 

De forma rigorosa, podemos dizer que é uma equação (linear) às diferenças finitas, de ordem p (de coeficientes 

constantes). Esta terminologia é usada na área dos sistemas dinâmicos em tempo discreto. 

133

1 

0.5 

0 

0.5 

1 

1 

0.5 

0 

0.5 

1 

1 

0.5 

0 

0.5 

1 

1 

0.5 

0 

0.5 

1 

FAC 

1 3 5 7 9 11 13 15 17 19 

FAC 

1 3 5 7 9 11 13 15 17 19 

FAC 

1 3 5 7 9 11 13 15 17 19 

FAC 

1 3 5 7 9 11 13 15 17 19 

1 

0.5 

0 

0.5 

1 

1 

0.5 

0 

0.5 

1 

1 

0.5 

0 

0.5 

1 

1 

0.5 

0 

0.5 

1 

FACP 

1 3 5 7 9 11 13 15 17 19 

FACP 

1 3 5 7 9 11 13 15 17 19 

FACP 

1 3 5 7 9 11 13 15 17 19 

FACP 

1 3 5 7 9 11 13 15 17 19 

Figura 6-2: FAC e FACP teóricas associadas aos seguintes cenários (de cima para baixo): (a) 

φ 1 > 0, φ 2 > 0; (b) φ 1 < 0, φ 2 > 0; (c) φ 1 > 0, φ 2 < 0; (d) φ 1 < 0, φ 2 < 0. 

(estas condições baseiam-se evidentemente na proposição anterior). 

No caso AR(p) com p > 2 não temos outra alternativa senão calcular (por exemplo, 

através do programa Mathematica) as raízes de φ p (L) = 0. 

Suponha-se que y é ESO. Nestas condições, pode-se provar: 

ρ k = φ 1ρ k−1 + φ 2ρ k−2 + ... + φ pρ k−p, k ≥ 1 

ρk não se anulam mas ρk → 0 quando k → ∞. 

⎧ 

⎨ = 0 se k = 1, 2, ..., p 

φkk = 

⎩ 0 se k = p + 1, p + 2, ... 

É óbvio que φ kk = 0 se k > p. Por exemplo φ p+1,p+1 = 0 porque 

yt = φ 1yt−1 + ... + φ pyt−p + 0yt−p−1 + ut 

134

6.2.3 Processos ARMA 

Por que não combinar os dois processos AR e MA? É isso que se propõe com o modelo 

ARMA. No caso geral ARMA(p,q) (i.e. AR(p) + MA(q)) o modelo representa-se em qual- 

quer uma das seguintes formas alternativas: 

yt = φ 1yt−1 + ... + φ pyt−p + θ1ut−1 + ... + θqut−q + ut 

yt − φ 1yt−1 − ... − φ pyt−p = ut + θ1ut−1 + ... + θqut−q 

1 − φ1L − ... − φ pL p yt = (1 + θ1L + ... + θqL q ) ut 

φ p (L) yt = θq (L) ut 

yt = θq (L) 

φ p (L) ut. 

Ainda outra alternativa baseia-se no desenvolvimento em série de potências de L da função 

racional θq (L) /φ p (L). Obtém-se 

yt = ut + ψ 1ut−1 + ψ 2ut−2 + ... 

Esta expressão não corresponde à decomposição de Wold (porque estes ψ ′ s estão sujeitos 

a restrições), mas constitui a melhor aproximação linear à decomposição, baseada numa 

estrutura linear (a qualidade da aproximação aumenta quando p e q aumentam). 

A estacionaridade depende da estrutura AR. Concretamente, o processo ARMA(p,q) é 

estacionário sse as raízes da equação φ p (L) = 0 estão todas fora do círculo unitário no plano 

complexo. A invertibilidade depende da estrutura MA. Concretamente, o processo ARMA é 

invertível sse as raízes de θq (L) estão todas fora do circulo unitário no plano complexo. Na 

tabela 6.1 apresenta-se um quadro resumo das principais propriedades do modelos AR, MA 

e ARMA. 

Nas figuras 6-3 e 6-4 encontram-se as FAC e FACP de vários processos lineares simula- 

dos (n = 50000). Procure identificá-los 5 . 

A tabela 6.2 identifica os processos simulados nas figuras 6-3 e 6-4. 

5 Observe que as FAC e FACP são obtidas a partir dos processos simulados e, portanto, não correspondem 

às funções teóricas; por esta razão, embora alguns coeficientes populacionais sejam zero, os respectivos coeficientes 

estimados podem não ser iguais a zero (de facto, é uma impossibilidade virem exactamente iguais a 

zero). Assuma que os coeficientes estimados muito baixos não são estatisticamente significativos. 

135

AR(p) MA(q) ARMA(p,q) 

Modelo φp (L) yt = ut θ −1 

p (L) yt = ut θ −1 

em yt Série finita em yt Série infinita em yt 

p (L) φp (L) yt = ut 

Série infinita em yt 

Modelo yt = φ −1 

p (L) ut yt = θp (L) ut yt = φ −1 

em ut Série infinita em ut Série finita em ut 

p (L) θp (L) ut 

Série infinita em ut 

Estac. Raízes φp (L) = 0 

fora do círc. unitár. 

Sempre 

estacionários 

Raízes φp (L) = 0 

fora do círc. unitár. 

Invertib. Sempre Raízes θp (L) = 0 Raízes θp (L) = 0 

invertíveis fora do círc. unitár. fora do círc. unitár. 

FAC Decaimento expo- Decaimento brusco Decaimento exponencial 

e/ou sinu- para zero a partir de nencial e/ou sinusoidal 

para zero k = q + 1 soidal para zero 

FACP Decaimento brusco Decaimento expo- Decaimento expopara 

zero a partir de nencial e/ou sinu- nencial e/ou sinuk 

= p + 1 soidal para zero soidal para zero 

Fonte: Murteira et al. (1993), pág. 69 

Tabela 6.1: Resumo das principais propriedades dos modelos AR, MA e ARMA 

MA AR 

θ1 θ2 θ3 θ4 φ 1 φ 2 φ 3 φ 4 Modelo 

Figura 6-3 

1 −.4 −.4 −.1 0 0 0 0 0 MA(3) 

2 0 0 0 0 .4 .2 0 0 AR(2) 

3 −.4 0 −.4 0 0 0 0 0 MA(3) 

4 0 0 0 0 .4 .2 −.2 0 AR(3) 

5 0 0 0 0 1 0 0 0 AR(1) 

6 1 0 0 0 0 0 0 0 MA(1) 

7 0 0 .5 0 0 0 0 0 MA(3) 

Figura 6-4 

1 0 0 0 0 0 0 0 .9 AR(4) 

2 .8 0 0 0 .8 0 0 0 ARMA(1,1) 

3 0 0 0 .8 0 0 0 .8 ARMA(4,4) 

4 0 0 0 0 .4 .2 .1 .1 AR(4) 

5 0 0 0 0 0 0 0 0 RBranco 

6 −.5 0 0 0 .5 0 0 0 RBranco 

Tabela 6.2: Soluções das questões colocadas nas duas figuras anteriores 

136

0.1 

0 

0.1 

0.2 

0.3 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

0.2 

0.1 

0 

0.1 

0.2 

0.3 

0.4 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

0.1 

0.9998 

0.9996 

0.9994 

0.9992 

0.999 

0.9988 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

0.1 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

0.1 

1 

FAC 

1 2 3 4 5 6 7 8 9 10 

FAC 

1 2 3 4 5 6 7 8 9 10 

FAC 

1 2 3 4 5 6 7 8 9 10 

FAC 

1 2 3 4 5 6 7 8 9 10 

FAC 

1 2 3 4 5 6 7 8 9 10 

FAC 

1 2 3 4 5 6 7 8 9 10 

FAC 

1 2 3 4 5 6 7 8 9 10 

0.1 

0 

0.1 

0.2 

0.3 

0.4 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

0.1 

0.1 

0 

0.1 

0.2 

0.3 

0.4 

0.6 

0.4 

0.2 

0 

0.2 

0.4 

1.2 

1 

0.8 

0.6 

0.4 

0.2 

0 

0.2 

0.6 

0.4 

0.2 

0 

0.2 

0.4 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

0.1 

0.2 

0.3 

FACP 

1 2 3 4 5 6 7 8 9 10 

FACP 

1 2 3 4 5 6 7 8 9 10 

FACP 

1 2 3 4 5 6 7 8 9 10 

FACP 

1 2 3 4 5 6 7 8 9 10 

FACP 

1 2 3 4 5 6 7 8 9 10 

FACP 

1 2 3 4 5 6 7 8 9 10 

FACP 

1 2 3 4 5 6 7 8 9 10 

Figura 6-3: FAC e FACP de 7 processos simulados a partir de n = 50000 observações. Qual 

é a ordem p e q dos processos? (A resposta a esta questão encontra-se na tabela 6.2) 

137

0.8 

0.6 

0.4 

0.2 

0 

0.2 

1 

0.8 

0.6 

0.4 

0.2 

0 

1 

0.8 

0.6 

0.4 

0.2 

0 

1 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

0.4 

0.2 

0 

0.2 

0.4 

0.4 

0.2 

0 

0.2 

0.4 

FAC 

1 2 3 4 5 6 7 8 9 10 

FAC 

1 2 3 4 5 6 7 8 9 10 

FAC 

1 2 3 4 5 6 7 8 9 10 

FAC 

1 2 3 4 5 6 7 8 9 10 

FAC 

1 2 3 4 5 6 7 8 9 10 

FAC 

1 2 3 4 5 6 7 8 9 10 

1 

0.8 

0.6 

0.4 

0.2 

0 

0.2 

1 

0.5 

0 

0.5 

1 

1 

0.5 

0 

0.5 

1 

0.8 

0.6 

0.4 

0.2 

0 

0.2 

0.4 

0.2 

0 

0.2 

0.4 

0.4 

0.2 

0 

0.2 

0.4 

FACP 

1 2 3 4 5 6 7 8 9 10 

FACP 

1 2 3 4 5 6 7 8 9 10 

FACP 

1 2 3 4 5 6 7 8 9 10 

FACP 

1 2 3 4 5 6 7 8 9 10 

FACP 

1 2 3 4 5 6 7 8 9 10 

FACP 

1 2 3 4 5 6 7 8 9 10 

Figura 6-4: Continuação da figura anterior 

138

6.3 Processos Lineares Não Estacionários 

No âmbito dos processos lineares é usual identificar dois tipos de não estacionaridade: 

• não estacionaridade na média: E (yt) não é constante ou E (yt) = ∞; 

• não estacionaridade na variância: Var (yt) não é constante ou Var (yt) = ∞. 

6.3.1 Não Estacionaridade na Média 

Seja yt um processo não estacionário linear. A ‘estacionarização da média’ faz-se usualmente 

a partir do operador diferença 

onde d é um inteiro positivo. 

Este procedimento sugere que: 

∆ d yt = ∆∆...∆yt 

 

d vezes 

• se o logaritmo do PIB não é estacionário (na média) então a taxa de variação do PIB 

(d = 1) poderá ser estacionária; 

• se a taxa de desemprego não é estacionária então a variação da taxa de desemprego 

(d = 1) poderá ser estacionária; 

• se o logaritmo do IPC (dados anuais, para simplificar) não é estacionário e se a inflação 

não é estacionária (d = 1) então a variação da inflação (d = 2) poderá ser estacionária. 

Normalmente uma diferenciação (d = 1) é suficiente e raramente se considera d = 2 (a 

não ser para certos índices de preços). 

Definição 6.3.1 Um processo yt diz-se um ARIMA(p,d,q) se 

onde p, d e q são inteiros positivos. 

φ p (L) ∆ d yt = c + θq (L) ut 

Assim, se yt ∼ ARIMA(p,d,q), então yt é um processo não estacionário que depois de 

diferenciado d vezes é um processo ARMA(p,q), isto é, 

∆ d yt ∼ ARMA (p, q) . 

139

A letra I em “ARIMA” designa integrated. Diz-se que um processo y é integrado de ordem 

d se o polinómio autoregressivo de y possui d raízes (múltiplas) iguais a um. Por exemplo, o 

polinómio autoregressivo associado ao processo passeio aleatório, yt = yt−1 + ut, φ (L) = 

1 − L, possui uma raiz unitária, pois a solução de 1 − L = 0 é obviamente L = 1. 


yt = (1 + φ) yt−1 − φyt−2 + ut 

φ 1 = 1 + φ, φ 2 = − φ, 0 < φ < 1 

Não se tem um processo ESO pois uma das condições seguintes não é satisfeita 

Considere-se ∆yt = yt − yt−1. Tem-se 

φ 1 + φ 2 < 1, φ 2 − φ 1 < 1, −1 < φ 2 < 1 

yt = (1 + φ) yt−1 − φyt−2 + ut 

yt − yt−1 = φyt−1 − φyt−2 + ut 

∆yt = φ∆yt−1 + ut. 

Logo ∆yt é um processo estacionário (AR(1) com |φ| < 1). De forma equivalente, yt é um 

ARIMA(1,1,0). 

Este exemplo indica o caminho a seguir quando y é não estacionário. Em lugar de se anal- 

isar y, analisa-se ∆yt. Esta transformação envolve a perda de uma observação na amostra, 

mas vários resultados para y (como por exemplo a previsão) podem ser facilmente recuper- 

ados a partir da especificação e estimação do modelo para ∆yt. 

Exemplo 6.3.2 No caso, 

yt = 2yt−1 − yt−2 + ut, ut RB 

y não é estacionário. Porquê? Uma diferenciação produz: 

∆yt = ∆yt−1 + ut. 

140

Logo ∆yt é um processo AR(1) com φ = 1. Assim d = 1 não é suficiente para estacionarizar 

o processo. Uma nova diferenciação produz: 

∆yt − ∆yt−1 = ut 

∆ 2 yt = ut. 

Assim ∆ 2 yt é um processo estacionário (neste caso é um RB). (Recorde-se: ∆ 2 yt = yt − 

2yt−1 + yt−2 ). De forma equivalente, yt é um ARIMA(0,2,0). 

Exemplo 6.3.3 O processo ARIMA(1,1,1) escreve-se nas seguintes formas equivalentes: 

(1 − φL) (1 − L) yt = c + (1 + θL) ut 

 

∆ 

(1 − φL) (yt − yt−1) = c + ut + θut−1 

yt − yt−1 − φyt−1 + φyt−2 = c + ut + θut−1 

yt = yt−1 + φyt−1 − φyt−2 + c + ut + θut−1. 

Processos com tendência determinística 

Considere-se, por exemplo, 

yt = α + βt + ut, ut ruído branco. 

Este processo não é estacionário pois E (yt) = α + βt depende de t. A não estacionari- 

dade nestes casos não é tão ‘grave’ como no caso anterior (por exemplo, a variância de y é 

constante). A literatura por vezes designa estes processos como estacionários em tendência, 

pois removendo a tendência o processo resulta estacionário. O operador diferença também 

estacionariza o processo. Com efeito, 

∆yt = α + βt + ut − (α + β (t − 1) + ut−1) = β + ut − ut−1. 

Esta transformação envolve um custo: cria-se artificialmente um erro MA(1) não invertível. 

A solução preferível foi já sugerida no parágrafo anterior: basta remover a tendência e, para 

o efeito, estima-se o modelo pelo método dos mínimos quadrados. Claro que a estimação 

não é feita no quadro clássico (porque falha a hipótese de estacionaridade) mas, neste caso 

141

20 

10 

0 

10 

20 

30 

40 

500 1000 1500 2000 

Figura 6-5: Passeio Aleatório 

muito concreto, pode-se provar que o estimador dos mínimos quadrados é consistente 6 . 

Na prática, como detectamos a existência de um processo não estacionário na média? 7 

• O gráfico da série pode sugerir a presença de um processo não estacionário. Na 

figura 6-5 traça-se uma trajectória de um processo passeio aleatório. Observe-se que o 

processo parece “vaguear” sem rumo no intervalo (−40, 20) . Não é nítido a existência 

de um efeito de reversão para qualquer medida de tendência central. Além disso, a 

ocorrência de choques mais fortes parece fazer deslocar o processo para outro nível 

(“os choques são persistentes”). 

• Como se sabe a FAC do processo yt = yt−1 + ut é 

ρ t,k = 1 − k 

t 

1. 

Assim, se FAC (estimada) de um certo processo, apresentar, nos primeiros lags, val- 

6Na verdade é mais do que isso: o estimador é superconsistente (converge para o verdadeiro parâmetro a 

uma taxa mais alta do que o habitual). Por exemplo, o estimador OLS para β verifica 

 

p 

n ˆβ 3/2 

− β −→ 0, n 

βˆ d 

− β −→ Normal. 

Enquanto a variância do estimador OLS habitual é proporcional a 1/n a do estimador superconsistente acima 

referido, é proporcional a 1/n 3 . 

7 Por que não estimar logo o modelo e verificar depois se as raízes do polinómio φ (L) = 0 satisfazem a 

proposição 6.2.2? Este procedimento não é aconselhável. Como as raízes são estimativas, devemos ensaiar a 

hipótese subjacente à proposição 6.2.2 (as raízes devem ser em modulo maiores do que um para o processo 

ser estacionário). Todavia, sob H0 o processo é não estacionário e as distribuições assimptóticas habituais não 

são válidas. Felizmente, existem testes adequados como, por exemplo, o teste Dickey-Fuller. Para concluir: 

é preferível, na fase da estimação, termos um processo já estacionário (ou, por outras palavras, a análise da 

estacionaridade precede a estimação do modelo). 

142

Figura 6-6: FAC (e FACP) estimada do processo passeio aleatório representado na figura 

6-5. 

ores muito altos (próximos de um), poderemos suspeitar que o processo não é esta- 

cionário. A figura 6-20 ilustra a ideia: apresenta-se a FAC estimada associada ao 

passeio aleatório representado na figura 6-5 

• Faz-se um teste de raiz unitária (por exemplo o teste ADF). 

Teste ADF (Augmented Dickey-Fuller) 

Faz-se um breve resumo dos principais procedimentos. 

(1) Teste DF for random walk without drift 

Considere-se yt = yt−1 + ut onde ut é um RB. Já se sabe que este processo (passeio 

aleatório) não é estacionário. Assim faria sentido testar H0: φ = 1 vs. H1: |φ| < 1 na 

especificação yt = φyt−1 + ut (se existisse evidência a favor de H0 concluiríamos, ao nível 

de significância fixado, que o processo não é estacionário). Como yt = φyt−1 + ut se pode 

escrever na forma 

∆yt = γyt−1 + ut 

com γ = φ − 1, ensaiar H0: φ = 1 é equivalente a ensaiar H0: γ = 0. Observe-se ainda 

que, sob H0, o processo y possui uma raiz unitária. Isso é óbvio, tendo em conta que a raiz 

do polinómio AR, φ (L) = 1 − L, é igual a 1. 

143

Parece óbvio a construção do teste estatístico: calcula-se o rácio-t ˆγ/ˆσγ e depois consulta- 

se a tabela da t-Student. Este procedimento é incorrecto. Com efeito, sob H0, y não é 

estacionário pelo que o rácio-t ˆγ/ˆσγ não tem distribuição t-Student nem mesmo distribuição 

assimptoticamente normal. A hipótese de estacionaridade é aqui crucial. Se o processo não 

é estacionário as distribuições assimptóticas habituais não são válidas 8 . 

Como devemos proceder? Temos de consultar os valores críticos nas tabelas apropriadas 

(são construídas a partir da distribuição da estatística de teste sob H0 que, por ser descon- 

hecida para n finito, tem de ser obtida através de simulações de Monte Carlo 9 ). A maioria das 

tabelas está preparada para fornecer o valor crítico da distribuição de ˆγ/ˆσγ (daí trabalhar-se 

sobretudo com a especificação ∆yt = γyt−1 + ut e não com yt = φyt−1 + ut). A maioria 

dos programas de estatística calcula o valor-p aproximado associado à hipótese nula (y não 

é estacionário). Assim, se o valor-p for superior ao nível de significância previamente estab- 

elecido (normalmente 0.05) não se rejeita H0 e conclui-se que o processo é não estacionário. 

Existem outras variantes: 

(2) Teste DF for random walk with drift H0: γ = 0 

∆yt = α + γyt−1 + ut. 

(3) Teste DF for random walk with drift and trend H0: γ = 0 

∆yt = α + βt + γyt−1 + ut. 

Na prática, só muito raramente ut é um RB. Quando ut exibe autocorrelação os testes DF 

não são válidos. Nestes casos deve-se ‘branquear’ ut, adicionando à regressão, a componente 

α1∆yt−1 +...+αp∆yt−p, com valor p adequado de forma que ut se apresente como um ruído 

branco. Assim, 

(1) Teste ADF for random walk without drift H0: γ = 0 

∆yt = γyt−1 + α1∆yt−1 + ... + αp∆yt−p + ut. 

8 De facto, pode-se provar que, sob H0, nˆγ tem distribuição assimptótica igual à distribuição da variável 

 

(1/2) 

W (1) 2 

− 1 

, 

1 

0 W (u)2 du 

onde W é um processo de Wiener padrão ou movimento Browniano. 

9 Para n infinito, a distribuição é conhecida. Ver o pé-de-página anterior. 

144

(2) Teste ADF for random walk with drift H0: γ = 0 

∆yt = α + γyt−1 + α1∆yt−1 + ... + αp∆yt−p + ut. 

(3) Teste ADF for random walk with drift and trend H0: γ = 0 

∆yt = α + βt + γyt−1 + α1∆yt−1 + ... + αp∆yt−p + ut. 

Sobre a escolha do parâmetro p veja o exemplo 6.3.5. 

Exemplo 6.3.4 Seja 

∆yt = 0.1 − 0.01 

(0.004) yt−1, n = 50 

H0: γ = 0 vs. H1 : γ < 0. Uma tabela apropriada deverá fornecer como valor crítico ao 

n.s. de 5% aproximadamente o valor -2.92. Como ˆγ/ˆσγ = −0.01/0.004 = −2.5 > vc = 

−2.92 não se rejeita H0 ao n.s. de 5%. 

Exemplo 6.3.5 Seja lnp = log P onde P é o índice PSI20. Neste exemplo recorre-se ao 

programa EVIEWS (versão 5) para analisar a estacionaridade de lnp. Os resultados estão 

apresentados na figura 6-7. Tendo em conta a regressão efectuada 

∆ log pt = α + γ log pt−1 + α1∆ log pt−1 + ut, (p = 1) 

pode-se concluir que se escolheu a opção “(2) Teste ADF for random walk with drift H0: 

γ = 0” 

∆yt = α + γyt−1 + α1∆yt−1 + ut, (p = 1) 

(note-se que a regressão envolve a constante C, equivalente ao nosso α). Deixámos o pro- 

grama escolher a ordem p. Esta ordem é escolhida automaticamente e baseia-se no valor 

do critério de informação SIC seguindo o princípio ‘general-to-specific’. O programa es- 

colheu p = 1. Interessa o valor-p associado à hipótese nula que é 0.3078. Sendo este valor 

superior a 0.05, não se pode rejeitar a hipótese γ = 0, ao nível de significância de 5%. 

Existe, portanto, forte evidência empírica a favor da hipótese nula (não estacionaridade). É 

aconselhável diferenciar-se o processo. A diferenciação conduz ao processo {rt} , onde 

rt = log Pt − log Pt−1. 

145

Null Hypothesis: LNP has a unit root 

Exogenous: Constant 

Lag Length: 1 (Automatic based on SIC, MAXLAG=27) 

tStatistic Prob.* 

Augmented DickeyFuller test statistic 1.953504 0.3078 

Test critical values: 1% level 3.432388 

5% level 2.862326 

10% level 2.567233 

*MacKinnon (1996) onesided pvalues. 

Augmented DickeyFuller Test Equation 

Dependent Variable: D(LNP) 

Method: Least Squares 

Sample (adjusted): 3 2936 

Included observations: 2934 after adjustments 

Variable Coefficient Std. Error tStatistic Prob. 

LNP(1) 0.000919 0.000470 1.953504 0.0509 

D(LNP(1)) 0.156283 0.018227 8.574451 0.0000 

C 0.008356 0.004143 2.016704 0.0438 

Rsquared 0.025826 Mean dependent var 0.000320 

Adjusted Rsquared 0.025161 S.D. dependent var 0.010694 

S.E. of regression 0.010559 Akaike info criterion 6.262717 

Sum squared resid 0.326764 Schwarz criterion 6.256598 

Log likelihood 9190.406 Fstatistic 38.85062 

DurbinWatson stat 1.991441 Prob(Fstatistic) 0.000000 

Figura 6-7: Análise da estacionaridade do logaritmo do PSI20 

6.3.2 Não Estacionaridade na Variância 

Se yt é um processo passeio aleatório então Var (yt) é proporcional a t (veja-se o apêndice 

6.D). A diferenciação de yt produz um processo estacionário com variância constante, e o 

problema da não estacionaridade fica resolvido com a referida transformação. A diferenci- 

ação normalmente resolve o problema da não estacionaridade na média e, em certos casos, 

também da não estacionaridade da variância. Supomos agora que a diferenciação apenas 

resolve a não estacionaridade da média; supomos, assim, que a variância, mesmo depois da 

diferenciação, continua a ser uma função de t. Admita-se: 

• yt é não estacionário na média, i.e., η t = E (yt) varia ao longo do tempo; 

• Var (yt) = h (η t) (a variância é uma função da média). 

146

Var (yt) ∝ ηt Var (yt) ∝ η2 t 

Var (yt) ∝ η4 t 

h (x) T (x) 

 

1 x √xdx = 2 √ x 

x2 

1dx 

= log x 

x 

x4 

1 

x2 dx = − 1 

x 

Tabela 6.3: Algumas transformações habituais 

O objectivo consiste em encontrar uma transformação sobre yt, T (yt) tal que Var (T (yt)) 

seja constante. Pode-se provar que a transformação apropriada 10 é 

 

T (x) = 

Alguns exemplos são fornecidos na tabela 6.3 

1 

h (x) dx. 

Para concretizar, suponha-se que Var (yt) é proporcional ao quadrado da média (e escreve- 

se neste caso, Var (yt) ∝ η 2 t ). A transformação que permite tornar (aproximadamente) con- 

stante a variância é T (x) = log x e, assim, os dados devem ser logaritmizados. Como a 

transformação só está definida, em geral, para certos valores de x (por exemplo, no caso 

log x tem de se assumir x > 0) é preciso primeiro aplicar T (x) e só depois se verifica 

se é necessário diferenciar (já que uma prévia diferenciação impossibilitaria a aplicação da 

transformação (veja-se o exemplo a seguir). 

Na figura 6-8 representa-se a série de preços do Dow Jones de 1969 a 2004. A variância 

(assim como a média) não é constante. 

Se se começasse por diferenciar P, a variância continuaria a ser uma função de t. Veja- 

se, com efeito, o gráfico de {∆Pt} (∆Pt = Pt − Pt−1) representado na figura 6-9. A figura 

mostra claramente que a variância aumenta com t. Assim, antes de se diferenciar o processo, 

10 Pela fórmula de Taylor, tem-se T (yt) ≈ T (η t) + T ′ (η t) (yt − η t). Assim, 

T (yt) − T (η t) ≈ T ′ (η t) (yt − η t) 

(T (yt) − T (η t)) 2 ≈ (T ′ (η t)) 2 (yt − η t) 2 

Var (T (yt)) ≈ (T ′ (η t)) 2 Var (yt) = (T ′ (η t)) 2 h (η t) 

Imponha-se Var (T (yt)) = c, i.e, (T ′ (η t)) 2 h (η t) = c ou 

Esta equação diferencial tem solução imediata: 

 

T (x) = 

T ′ (η t) = 

c 

h (ηt) . 

1 

h (x) dx (c = 1). 

147

14005 

12005 

10005 

8005 

6005 

4005 

2005 

P (preços) 

5 

Sep69 Sep74 Sep79 Sep84 Sep89 Sep94 Sep99 Sep04 

Figura 6-8: Série de Preços do Dow Jones (1969-2004) 

600 

400 

200 

0 

200 

400 

600 

Preços Diferenciados 

800 

Jan69 May73 Sep77 Jan82 May86 Sep90 Jan95 May99 Sep03 

Figura 6-9: Série de preços diferenciados, {∆Pt} , onde ∆Pt = Pt − Pt−1, do Dow Jones 

(1969-2004) 

148

4000 

3500 

3000 

2500 

2000 

1500 

1000 

500 

0 

Sep69 Aug77 Jul85 Jun93 May01 

1.40E+07 

1.20E+07 

1.00E+07 

8.00E+06 

6.00E+06 

4.00E+06 

2.00E+06 

0.00E+00 

Figura 6-10: Média e Variância estimada ao longo do tempo da séries diária do Dow Jones 

(1969 a 2004) 

10 

9.5 

9 

8.5 

8 

7.5 

7 

6.5 

6 

5.5 

log(P) 

5 


media(t) 

var(t) 

Figura 6-11: Série de log-Preços do Dow Jones (1969-2004) 

estacionarize-se primeiro a variância. Na figura 6-10 apresenta-se 

E (yt) = 1 

t 

t 

i=1 

Pi, Var (yt) = 1 

t 

t 

Pi − E (yt) 2 ao longo do tempo, onde E (yt) e Var (yt) são estimativas para a média e a variância de y no 

momento t. A figura sugere que a variância de yt é proporcional ao quadrado da média, i.e., 

Var (yt) ∝ η 2 t . De acordo com a tabela 6.3 deve-se usar a transformação logarítmica para 

estacionarizar a variância. 

A figura 6-11 sugere que a variância é constante ao longo do tempo, mas não a média. 

Faça-se então a diferenciação da variável log Pt: 

i=1 

rt = log (Pt) − log (Pt−1) 

cuja representação gráfica é dada na figura 6-12. É interessante verificar que a série dos 

retornos deve ser estudada não só devido às razões invocadas no ponto 2.3 mas também 

149

0.15 

0.1 

0.05 

0 

0.05 

0.1 

0.15 

0.2 

0.25 

0.3 


Figura 6-12: Série dos retornos do Dow Jones 

Utilização do 

modelo 

Etapa 1: Identificação 

Etapa 2: Estimação 

Etapa 3: Avaliação do 

diagnóstico 

SIM 

Escolha de um 

modelo 

Estimação dos 

parâmetros 

Adequação do 

modelo escolhido 

Modelo 

satisfatório 

Figura 6-13: Metodologia de Box-Jenkins 

porque as transformações estacionarizantes discutidas neste ponto conduzem precisamente à 

variável rt = log (Pt) − log (Pt−1) . 

6.4 Modelação ARMA 

O objectivo fundamental da modelação ARMA é o de definir um modelo parcimonioso (em 

termos de parâmetros) que exiba boas propriedades estatísticas e descreva bem a série em 

estudo. Para alcançarmos esse objectivo podemos seguir a metodologia de Box-Jenkins. 

Propõe três etapas: identificação, estimação e avaliação do diagnóstico (veja-se a figura 6- 

13). 

150 

NÃO

Etapa 1: Identificação 

• Estacionarização da série; 

• Identificação da ordem p e q através da FAC e FACP. 

Etapa 2: Estimação 

Uma vez seleccionado, na primeira etapa, o modelo ARMA(p,q), é necessário estimar os 

parâmetros desconhecidos (pelo método da máxima verosimilhança 11 ). 

Etapa 3: Avaliação do Diagnóstico 

É necessário analisar os seguintes aspectos: 

• significância estatística dos parâmetros; 

• invertibilidade e estacionaridade (dispensa-se este último aspecto se y for um processo 

estacionário); 

• análise da matriz de correlação dos estimadores; 

• redundância entre as estimativas; 

• branqueamento dos resíduos; 

• se existir mais do que um modelo que cumpra as condições anteriores é necessário 

seleccionar o melhor (à luz de determinado critério). 

Remete-se a questão da análise da matriz de correlação dos estimadores para Murteira et 

al. (1993). A significância estatística dos parâmetros é óbvia e a questão da invertibilidade 

foi já tratada. 

O problema da redundância ocorre quando φ (L) e θ (L) partilham raízes comuns. Por 

exemplo, no caso 

(1 − 0.8L) yt = (1 − 0.8L) ut 

(6.6) 

ambos os polinómio possuem a mesma raiz (1/0.8). Observe-se que os polinómios cancelam 

um com o outro: 

(1 − 0.8L) yt = (1 − 0.8L) ut ⇔ yt = ut 

11 Veja-se, no ponto 8.9, a aplicação do método a um modelo mais geral. 

151

e, portanto, o processo y definido por (6.6) é, de facto, um ruído branco e não um ARMA(1,1), 

como se poderia pensar. Na presença de redundância pode provar-se que a matriz de infor- 

mação de Fisher é singular. Em aplicações, é uma impossibilidade as raízes dos polinómios 

AR e MA estimados (respectivamente, ˆ φ (L) e ˆ θ (L)) virem exactamente iguais. De qualquer 

forma, se existirem raízes do polinómio AR aproximadamente iguais às do polinómio MA, 

surge um problema de quase redundância, e a matriz de Fisher embora invertível, apresenta 

um determinante próximo de zero. Como consequência, os erros padrão das estimativas 

vêm muitos baixos, as estatísticas-t muito altas e o determinante da matriz de variâncias- 

covariâncias (estimada) aproximadamente de zero. É fácil cair-se em problemas de (quase) 

redundância que, naturalmente, devem ser evitados. 

Veja-se agora a questão do “branqueamento dos resíduos”. Considere-se o ARMA(1,1) 

yt = φyt−1 + θ1ut−1 + ut. 

Suponha-se que se estima (por engano) o AR(1) 

yt = φyt−1 + η t 

onde η t representa o erro da equação anterior. Como detectar o erro de especificação? Como 

η t = θ1ut−1 + ut é natural esperar que os resíduos ˆη t venham autocorrelacionados. 

É muito importante que os resíduos venham branqueados, i.e. não exibam autocorre- 

lações; caso contrário, parte da média condicional não foi modelada. 

Apresentam-se de seguida, sem comentários, os ensaios habituais os testes de significân- 

cia dos coeficientes de autocorrelação dos resíduos: 

Teste Kendal e Stuart H0: ρ k (û) = 0 

√ n (ˆρk (û) + 1/n) 

 

d 

−→ N (0, 1) , ˆρ k (û) ≈ N − 1 1 

, 

n 

Rejeita-se H0 ao n.s. de (aprox.) 5% se |ˆρ k (û)| > 2/ √ n (supondo 1/n ≈ 0) 

Teste Ljung-Box H0: ρ 1 (û) = ... = ρ m (û) = 0 

Q = n (n + 2) 

m 

k=1 

1 

n − k ˆρ2 

d 

k (û) −→ χ 2 (m−p−q). 

152 

√ n 

 

.

Teste Jenkis e Daniels H0: φ kk (û) = 0 

√ n ˆ φkk (û) 

d 

−→ N (0, 1) , 

ˆ φkk (û) ≈ N 

 

 

Rejeita-se H0 ao n.s. de (aprox.) 5% se ˆ 

 

φkk (û) > 2/ √ n 

 

0, 1 

 

√ . 

n 

Finalmente, discuta-se a última questão. Pode suceder que dois ou mais modelos cumpram 

as condições anteriores. Como seleccionar o ‘melhor’? Se o objectivo da modelação é 

a previsão, pode-se avaliar a qualidade preditiva dos vários modelos concorrentes e de- 

pois selecciona-se o que apresentar melhores resultados (discutiremos esta questão no ponto 

6.6.6). Outra abordagem consiste em escolher o modelo mais preciso (melhor ajustamento) 

com o menor n o de parâmetros (parcimónia). Há certamente um trade-off a resolver: maior 

precisão implica menor parcimónia. 

O coeficiente de determinação ajustado é, provavelmente, o indicador mais utilizado. É 

um bom indicador no âmbito do modelo de regressão linear clássico, com distribuição nor- 

mal. Mais gerais são os critérios de informação de Akaike e de Schwarz porque se baseiam 

no valor da função de verosimilhança. 

Seja 

log Ln = 

n 

log f (yt| Ft−1) 

t 

o valor (máximo) da função log-verosimilhança e k o número de parâmetros estimados. O 

critério de informação de Akaike (AIC) é dado pela expressão 

O critério de Schwarz é dado pela expressão 

log Ln 2k 

AIC = −2 + 

n n . 

log Ln k 

SC = −2 + log n. 

n n 

Tendo em conta que o modelo é tanto mais preciso quanto mais alto for log Ln, e tanto 

mais parcimonioso quanto menor for o número de parâmetros, k, conclui-se que deve dar-se 

preferência ao modelo que minimiza as estatísticas AIC e SC (note que os modelos só são 

comparáveis se as variáveis se encontrarem na mesma unidade - por exemplo, não devemos 

comparar um modelo em y e outro em log y). 

Em certos casos, um modelo pode minimizar apenas um dos critérios (por exemplo, um 

153

modelo A minimiza o AIC e o modelo B minimiza o SC). Como proceder nestes casos? 

Vários estudos têm revelado o seguinte: 

• o critério SC, em grandes amostras tende a escolher o modelo correcto; em peque- 

nas/médias amostras pode seleccionar um modelo muito afastado do modelo correcto; 

• o critério AIC, mesmo em grandes amostras tende a seleccionar o modelo errado, 

embora não seleccione modelos muito afastados do correcto. 

Como consequência, para grandes amostras o SC pode ser preferível. 

Naturalmente, estes critérios podem clarificar a identificação da ordem p e q do modelo 

ARMA. Por exemplo, suponha-se que os modelos ARMA(1,1) e AR(3) são bons à luz de 

vários critérios. Os critérios de informação, podem contudo sugerir o ARMA(1,1) e, desta 

forma, p = 1, q = 1. 

6.5 Variáveis Impulse-Dummy em Modelos de Regressão: 

Cuidados a Observar 

As variáveis dummy ou variáveis artificiais são, como temos visto, bastante úteis pois per- 

mitem estimar o impacto de certas variáveis qualitativas ou de eventos sobre a variável de- 

pendente. No entanto, há cuidados a ter no uso destas variáveis. 

Num modelo de previsão o uso de variáveis artificiais (VA) estocásticas associados a 

eventos que podem ocorrer no futuro deve ser evitado se as probabilidades condicionais da 

VA forem desconhecidas. Com efeito, que sentido faz especificar yt = α + γdt + ut (d é 

uma VA) se depois, no período de previsão, o comportamento probabilístico da variável d é 

completamente desconhecido? 

Um caso especialmente delicado ocorre com as chamadas impulse-dummies no âmbito 

da inferência estatística 12 . 

12 Algumas das conclusões que seguem foram-me transmitidas pelo Prof. João Santos Silva em comunicação 

privada. Veja-se também Hendry e Santos (2005). 

154

6.5.1 Inconsistência do Estimador 

Impulse-dummies são VAs que assumem o valor 1 apenas uma vez na amostra. Para ilustrar 

a situação considere-se o modelo 

onde ut 

Seja 

yt = α + γdt + ut, t = 1, 2, ..., n 

i.i.d. 

∼ N (0, σ 2 ) e dt é uma impulse-dummy 

dt = 

⎧ 

⎨ 

⎩ 

1 t = t∗ 

0 t = t∗. 

⎡ ⎤ 

1 

⎢ 1 

⎢ . 

⎢ 1 

⎢ 

X = ⎢ 1 

⎢ 1 

⎢ . 

⎢ 1 

⎣ 

0 

⎥ 

0 ⎥ 

. ⎥ 

0 ⎥ 

1 ⎥ , 

⎥ 

0 ⎥ 

. ⎥ 

0 ⎥ 

⎦ 

X 

1 0 

′ ⎡ 

n 

X = ⎣ 

1 

⎤ 

1 

⎦ , 

1 

X ′ ⎡ 

y = ⎣ 

É fácil observar que o estimador OLS é 

Tem-se 

 

E ˆβ 

 

Var ˆβ 

ˆβ = 

= 

⎡ 

⎣ ˆα 

⎤ ⎡ ⎤ 

n 

⎦ = ⎣ 

1 

⎦ 

ˆγ 

⎡ 

1 1 

⎣ 

−1 

n−1 

n 

t=1 yt 

n−1 

− yt∗ 

n−1 

−1 ⎡ 

⎣ 

n 

t=1 yt + n 

n−1 yt∗ 

 

= E (X ′ X) −1 X ′ 

y 

= σ 2 (X ′ X) −1 = σ 2 

 

= E 

⎡ 

⎣ 1 

n−1 

−1 

n−1 

n 

t=1 yt 

⎤ 

yt∗ 

⎡ 

⎦ = ⎣ 

⎤ 

⎦ = 

⎡ 

⎣ 1 

n−1 

−1 

n−1 

n t=1,t=t∗ yt 

n−1 

− n (¯y − yt∗) 

n−1 

(X ′ X) −1 X ′ 

(Xβ + u) 

⎤ 

−1 

n−1 

n 

n−1 

⎦ . 

155 

−1 

n−1 

n 

n−1 

⎤ 

n 

t=1 yt 

yt∗ 

⎤ ⎡ 

⎦ ⎣ 

⎤ 

⎦ 

n 

t=1 yt 

yt∗ 

⎤ 

⎦ 

⎦ . (6.7) 

 

= β E (X ′ X) −1 X ′ 

u = β

Não se verifica ˆγ p 

−→ γ porque 

n 

lim Var [ˆγ] = lim σ2 

n→∞ n→∞ n − 1 

= σ2 

ou seja, ˆγ é centrado mas não é consistente (a precisão de ˆγ não melhora quando n aumenta 

e depende da variância do ruído). Este resultado deve-se ao facto de ser usada apenas uma 

observação para estimar γ. A propriedades do estimador para ˆα não são afectadas. 

6.5.2 Inconsistência do Teste-t 

O rácio-t associado a ˆγ (supondo σ conhecido) é 

τ ˆγ = 

= 

ˆγ 

Var [ˆγ] = 

 

n yt∗ − ¯y 

n − 1 σ 

n − (¯y − yt∗) 

n−1 

σ n 

n−1 

yt∗ − ¯y 

. 

σ 

Ora a distribuição de yt∗−¯y 

depende da distribuição dos erros. No caso do modelo de re- 

σ 

gressão habitual, mesmo que os erros não tenham distribuição normal, o rácio-t para grandes 

amostras tem distribuição aproximadamente normal, pelo teorema do limite central, e a in- 

ferência habitual pode fazer-se sem problemas. No entanto, o rácio-t associado a variáveis 

impulse-dummies depende da distribuição dos erros. Assim, se a distribuição dos erros é 

desconhecida não é possível usar-se os testes t habituais. Mesmo que se possa usar o rácio-t 

(por exemplo, se houver garantias que ut 

sentido: para qualquer valor crítico com nível de significância α, 

i.i.d. 

∼ N (0, σ 2 )) o teste-t é inconsistente no seguinte 

P (|τ ˆγ| > cα| H1 : γ = 0) não tende para 1 

quando n → ∞. A situação habitual (por exemplo, no âmbito do modelo de regressão linear 

clássico) é a seguinte: quando n → ∞ a probabilidade de rejeitar H0 quando H1 é verdadeira 

tende para 1 (se H1 é verdadeira, um teste consistente acaba sempre, para amostras suficien- 

temente grandes, por decidir correctamente a favor de H1). Mas, com impulse-dummies isto 

não sucede. 

156

6.5.3 Uma Solução para ensaiar H0 : γ = 0 

Uma forma de testar H0 : γ = 0 no caso em que a distribuição dos erros é desconhecida 

envolve a aplicação de procedimentos bootstrap. Quando a amostra é grande o ensaio H0 : 

γ = 0 vs. por exemplo H1 : γ > 0 pode ser conduzido da seguinte forma, muito simples 

(equivalente ao bootstrap): estima-se o modelo de regressão 

yt = x ′ tβ + εt 

(onde x ′ t é um vector linha das variáveis explicativas) sem dummy e obtém-se o resíduo ˆεt∗ 

associado ao momento t = t∗. Se este resíduo é elevado (em módulo) então é provável que 

no momento t∗ tenha ocorrido uma “quebra de estrutura”; neste caso a variável dummy d 

será, em princípio, importante na explicação de y (no momento t∗). Para grandes amostras 

não só a estimativa ˆγ associada ao modelo 

yt = x ′ tβ + γdt + ut 

é (aproximadamente) igual ˆεt∗ como também, sob H0 : γ = 0, a distribuição do estimador 

ˆγ é (aproximadamente) igual à distribuição de εt; assim, a avaliação da significância de 

γ ao nível de α100%, equivale a verificar se ˆεt∗ está acima do quantil de ordem 1 − α da 

distribuição de εt (recorde-se que H1 : γ > 0). Como a distribuição de εt é desconhecida usa- 

se a distribuição empírica dos resíduos ˆεt - este é o princípio do bootstrap. Concretamente, 

rejeita-se H0 : γ = 0 em favor de H1 : γ > 0 ao nível de significância de α100% se ˆεt∗ for 

maior do que o quantil de ordem 1 − α da distribuição empírica dos resíduos. A proposição 

seguinte fundamenta o procedimento. 

Proposição 6.5.1 Considerem-se os modelo de regressão em notação matricial 

y = Xβ 1 + γd + u, y = Xβ 0 + ε 

onde d = (dt) , dt∗ = 1, dt = 0 para t = t∗ e X é a matriz das variáveis explicativas 

fortemente exógena. Suponha-se 

X ′ X 

n 

Então a) ˆγ p 

−→ γ + ut∗ e b) ˆγ/ˆεt∗ 

p 

−→ Q (definida positiva). 

p 

−→ 1. 

157

Dem. Apêndice 6.G. 

6.5.4 Impulse-dummies e a matriz de White 

Um caso que conduz a conclusões incorrectas ocorre quando se usa simultaneamente impulse- 

dummies com a matriz de White. 

Para simplificar considere-se novamente o modelo 

onde ut 

yt = α + γdt + ut, t = 1, 2, ..., n 

i.i.d. 

∼ N (0, σ 2 ) e dt é uma impulse-dummy 

dt = 

⎧ 

⎨ 

⎩ 

1 t = t∗ 

0 t = t∗. 

Se é razoável assumir normalidade e ausência mas não heterocedasticidade pode argumentar- 

se que a significância estatística de γ pode ser avaliada usando o rácio-t baseado na matriz 

de White. Esta suposição é incorrecta e traduz provavelmente o caso mais grave dos vários 

que analisámos. Como se sabe a matriz de White tem a forma 

 

Var ˆβ = (X ′ X) −1 X ′ WX (X ′ X) −1 

onde W é uma matriz diagonal com elementos {û 2 1, ..., û 2 n} . No caso mais simples que 

analisamos a matriz de White correspondente a ˆγ é 

Var [ˆγ] = 

Deixa-se como exercício verificar que 

Var [ˆγ] = 

n t=1 

n t=1 

n t=1 

n t=1 

 

di − ¯ d û2 t 

 

di − ¯ d 2 = 

Assim, atendendo a (6.7) o rácio-t associado a ˆγ é 

τ ˆγ = 

= 

ˆγ 

= 

Var [ˆγ] 

n √ yt∗ − ¯y 

n 

n − 1 ˆσ 

 

di − ¯ d û2 t 

 

di − ¯ d 2 . 

n 

n−1 (yt∗ − ¯y) 

1 

n(n−1) 

1 

n (n − 1) 

n 

t=1 û2 t 

= 

√ n yt∗ − ¯y 

. 

ˆσ 

158 

n 

t=1 

û 2 t . 

n 

n−1 (yt∗ − ¯y) 

 

2 ˆσ 

n

Embora (yt∗ − ¯y) /ˆσ possa ter distribuição aproximadamente N (0, 1) para amostras grandes 

√ n (yt∗ − ¯y) /ˆσ não têm certamente distribuição N (0, 1) . Se (yt∗ − ¯y) /ˆσ tem distribuição 

aproximadamente normal então √ n (yt∗ − ¯y) /ˆσ terá distribuição N (0, n) . Este resultado 

sugere que se for usada a matriz de White numa amostra razoavelmente grande, qualquer 

impulse-dummy é sempre interpretada como significativa à luz da distribuição habitual do 

rácio-t (observe-se √ n (yt∗ − ¯y) /ˆσ → ∞ quando n → ∞). 

6.5.5 Conclusão 

O uso de impulse-dummies envolve vários problemas (inconsistência do estimador, incon- 

sistência do teste t, e quando usado simultaneamente com a matriz de White, os rácio-t são 

inflacionados). Quer isto dizer que o uso de impulse-dummies é inapropriado? A resposta 

é negativa. Vimos que o estimador OLS do parâmetro da impulse-dummy é centrado. Por 

outro lado, existem procedimentos válidos que poderão ser usados para testar a significân- 

cia do parâmetro da impulse-dummy. Finalmente, o uso impulse-dummy em modelos de 

regressão é importante quando se pretende estimar o efeito de um acontecimento isolado, 

mantendo todas as demais variáveis explicativas constantes. 

Exemplo 6.5.1 Suponha-se que se pretende analisar o efeito de um anúncio público no dia 

t∗ sobre as cotações da empresa ABC. Suspeita-se que o efeito é positivo sobre a empresa 

ABC e nulo ou irrelevante para o mercado. Pretende-se, assim, verificar se o valor esperado 

do retorno da empresa ABC no dia t∗ é positivo. Suponha-se ainda que, nesse dia t∗, o 

mercado em geral observou uma forte queda. Para testar esse efeito uma possibilidade 

consiste em considerar a regressão 

rt = β 0 + γdt + ut 

onde rt é o retorno da empresa ABC e dt é uma impulse-dummy 

dt = 

⎧ 

⎨ 

⎩ 

1 t = t∗ 

0 t = t∗. 

Contudo, poderá suceder, atendendo à quebra do mercado, que γ venha negativo ou não 

significativo. Concluir-se-ía que o anúncio teve um impacto negativo ou nulo sobre o retorno 

da empresa ABC. Mas esta conclusão pode ser errónea porque o efeito do mercado não é 

159

levado em conta. Assim, é necessário controlar ou fixar o efeito do mercado através da 

regressão 

rt = β 0 + β 1rt,m + γdt + ut 

onde rt,m é o retorno do mercado (retorno associado a um índice abrangente de cotações do 

mercado). 

6.6 Previsão 

6.6.1 Introdução 

Temos um modelo M (yt, yt−1, ...; θ) para y baseado em n observações {y1, y2, ..., yn} . O 

objectivo agora é: 

• prever y para n + 1, n + 2, ...; 

• estabelecer intervalos de confiança para as previsões. 

Que propriedades devemos exigir a um previsor para yn+h? Seja ˜µ n+h,n um previsor para 

yn+h. Devemos exigir: 

• E 

˜µ n+h,n = E (yn+h) (propriedade do não enviesamento). 

• Var 

˜µ n+h,n = Var (yn+h) (˜µ n+h,n deve reproduzir a variabilidade de yn+h); 

• forte correlação entre ˜µ n+h,n e yn+h. 

Para não haver “batota” o previsor ˜µ n+h,n para yn+h deve ser Fn-mensurável, isto é, se 

prevemos y para o instante n+h e o momento em que efectuamos a previsão é n, só podemos 

utilizar informação até n. 

Em certos casos podemos permitir algum enviesamento do estimador desde que outras 

propriedades mais do que compensem esse enviesamento. Na figura 6-14, qual é o previsor 

preferível? O previsor 1 é enviesado; o previsor 2 não é. No entanto, o previsor 1 parece 

preferível pois os erros de previsão são, na maior parte das vezes, inferiores. 

Seja ˜e (h) = yn+h − ˜µ n+h,n o erro de previsão. O erro quadrático médio (EQM) de 

previsão E ˜e (h) 2 pondera os três aspectos acima expostos: enviesamento, variabilidade e 

160

12 

10 

8 

6 

4 

2 

0 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 

Figura 6-14: Qual dos dois previsores é preferível? 

Observado 

Previsor 1 

Previsor 2 

correlação. Com efeito, prova-se a seguinte decomposição do EQM de previsão E ˜e (h) 2 = 

yn+h 

2 

E − ˜µ n+h,n : 

E ˜e (h) 2 = E (yn+h) − E 2 ˜µ n+h,n + (σy − σ˜µ) 2 

+ 2σyσµ 1 − ρy,˜µ . (6.8) 

O primeiro termo do lado direito mede o enviesamento, o segundo, compara a variabili- 

dade entre y e ˜µ e o terceiro mede a correlação entre yn+h e ˜µ n+h,n (quanto mais baixa a 

correlação maior é o EQM). Na figura 6-14, o previsor 1, embora apresente um enviesamento 

elevado (i.e., E (yn+h) − E 2 ˜µ n+h,n é alto), os valores dos termos (σy − σ˜µ) 2 e 

 

2σyσµ 1 − ρy,˜µ são relativamente baixos. O previsor 2 apresenta um valor baixo na componente 

E (yn+h) − E 2 ˜µ n+h,n (enviesamento reduzido ou nulo) mas valores altos em 

(σy − σ˜µ) 2 

e 2σyσµ 1 − ρy,˜µ . Graficamente parece que o estimador 1 é preferível, isto é, 

ponderando todos os aspectos, o gráfico sugere que o EQM do previsor 1 é inferior ao EQM 

do previsor 2. 

Será possível definir um previsor óptimo, à luz do EQM, qualquer que seja o modelo em 

análise? A resposta é afirmativa. 

Proposição 6.6.1 O previsor com EQM mínimo é 

i.e., verifica-se 

E (yn+h| Fn) 

E (yn+h − E (yn+h| Fn)) 2 yn+h 

2 

≤ E − ˜µ n+h,n 

161

onde ˜µ n+h,n ∈ Fn é um outro qualquer previsor Fn-mensurável. 

(A demonstração é similar à da proposição 4.3.1). Usaremos também a notação µ n+h,n 

para E (yn+h| Fn) . A proposição 6.6.1 permite concluir que o previsor E (yn+h| Fn) min- 

imiza os três termos do lado direito da equação (6.8), no conjunto de todos os previsores 

Fn-mensuráveis; em particular, o primeiro termo é zero. 

Recorda-se do capítulo 4 que 

E (yn+h − E (yn+h| G)) 2 ≤ E (yn+h − E (yn+h| H)) 2 , H ⊆ G. 

Como referimos, esta desigualdade resulta do facto de em G existir mais informação. É 

natural esperar que um previsor que use mais informação face a um outro, tenha um EQM 

inferior. 

6.6.2 Previsão Pontual 

Tendo em conta a proposição 6.6.1, vamos utilizar como previsor para yn+h a expressão 

E (yn+h| Fn) . O procedimento geral para obter a previsão pontual de yn+h é: 

1. Definir o modelo yn+h (com base no modelo especificado). 

2. Calcular E (yn+h| Fn) . 

Vamos ver alguns exemplos. 

MA(2) 

Tem-se 

Previsão a um passo h = 1 

Previsão a dois passos h = 2 

yn+1 = µ + θ1un + θ2un−1 + un+1 

E (yn+1| Fn) = µ + θ1un + θ2un−1 

yn+2 = µ + θ1un+1 + θ2un + un+2 

162

Tem-se 

Tem-se 

Previsão a h passos (h > 2) 

MA(q) 

Deixa-se como exercício verificar: 

E (yn+2| Fn) = µ + θ2un. 

yn+h = µ + θ1un+h−1 + θ2un+h−2 + un+h 

E (yn+h| Fn) = µ 

⎧ 

⎨ µ + 

E (yn+h| Fn) = 

⎩ 

q i=h θiun+h−i para h = 1, ..., q 

µ para h = q + 1, ... 

Sugestão: comece por verificar que, para h = q + 1, q + 2, ... tem-se E (yn+h| Fn) = µ. 

AR(1) 

Na previsão dos processos AR, é útil considerar-se a previsão já realizada nos passos 

intermédios. Considere-se novamente a notação µ n+h,n (igual por definição a E (yn+h| Fn)). 


yn+1 = c + φ 1yn + un+1 

µ n+1,n = E (yn+1| Fn) = E (c + φ 1yn + un+1| Fn) = c + φ 1yn. 


yn+2 = c + φ 1yn+1 + un+2 

µ n+2,n = E (yn+2| Fn) = E (c + φ 1yn+1 + un+2| Fn) = c + φ 1 E (yn+1| Fn) 

= c + φ 1µ n+1,n 

Previsão a h passos 

yn+h = c + φ 1yn+h−1 + un+h 

163

µ n+h,n = E (yn+h| Fn) 

= E (c + φ 1yn+h−1 + un+2| Fn) = c + φ 1µ n+h−1,n 

Conclui-se que o modelo de previsão no modelo AR(1) (h > 1) é 

µ n+h,n = c + φ 1µ n+h−1,n 

(6.9) 

Observação 6.6.1 Podemos reescrever a equação (6.9) como função do valor observado em 

n. Por exemplo, a previsão a dois passos (h = 2) é 

µ n+2,n = c + φ 1µ n+1,n. (6.10) 

Como, por sua vez, a previsão a um passo é µ n+1,n = c + φ 1µ n,n = c + φ 1yn podemos 

substituir µ n+1,n = c + φ 1yn na equação (6.10). Assim a previsão a dois passos pode ser 

escrita na forma 

De igual forma, a previsão a três passos é 

Seguindo este raciocínio conclui-se que 

µ n+2,n = c + φ 1µ n+1,n 

= c + φ 1 (c + φ 1yn) 

= c + cφ 1 + φ 2 

1yn. 

µ n+3,n = c + φ1µ n+2,n 

= 

 

c + φ1 c + cφ1 + φ 2 

1yn 

= c + cφ 1 + cφ 2 

1 + φ 2 

1yn. 

µ n+h,n = c + cφ1 + cφ 2 

1 + ... + cφ h−1 

1 + φ h 

1yn. (6.11) 

Do ponto de vista prático é irrelevante prever o modelo com base no modelo (6.9) ou com 

base em (6.11), pois as expressões são equivalentes. No âmbito dos modelos dinâmicos, 

a equação (6.9) designa-se por equação às diferenças finitas linear de primeira ordem (a 

equação de juros compostos é também uma equação do tipo) cuja solução, dada a condição 

164

inicial µ n,n = yn, é precisamente a equação (6.11). Atendendo a que 

1 + φ1 + φ 2 

1 + ... + φ h−1 

1 = 1 − φh 

1 − φ 

podemos dar um novo aspecto às equação (6.11): 

(soma de uma progressão geométrica) 

µ n+h,n = c 1 + φ1 + φ 2 

1 + ... + φ h−1 

h 

1 + φ1yn = 

1 − φh 

c + φh 

1 − φ 

1yn. (6.12) 

Em suma, para obter µ n+h,n é indiferente considerar (6.9), (6.11) ou (6.12). 

AR(2) 


µ n+1,n = E (yn+1| Fn) 


yn+1 = c + φ 1yn + φ 2yn−1 + un+1 

= E (c + φ 1yn + φ 2yn−1 + un+1| Fn) = c + φ 1yn + φ 2yn−1 

µ n+2,n = E (yn+2| Fn) 

yn+2 = c + φ 1yn+1 + φ 2yn + un+2 

= E (c + φ 1yn+1 + φ 2yn + un+2| Fn) = c + φ 1 E (yn+1| Fn) + φ 2yn 

= c + φ 1µ n+1,n + φ 2yn 


yn+h = c + φ 1yn+h−1 + φ 2yn+h−2 + un+h 

165

Dependent Variable: Y 

Sample: 3 1000 

Included observations: 998 


C 10.81186 1.196611 9.035402 0.0000 

Y(1) 0.469309 0.030095 15.59406 0.0000 

Y(2) 0.314900 0.030098 10.46238 0.0000 







Figura 6-15: Estimação de um AR(2) 


= E (c + φ 1yn+h−1 + φ 2yn+h−2 + un+2| Fn) 

= c + φ 1µ n+h−1,n + φ 2µ n+h−2,n 

Conclui-se que o modelo de previsão no modelo AR(2) (para h > 2) é 

µ n+h,n = c + φ 1µ n+h−1,n + φ 2yn+h−2,n. 

Exemplo 6.6.1 Estimou-se um processo AR(2), cujos resultados estão apresentados na figura 

6-15. 

Tem-se n = 1000 e sabe-se que yn−1 =50.4360, yn =50.0207. Pretende-se obter uma 

previsão para y para os período 1001, 1002 e 1003 (previsão a um passo, a dois passos e a 

três passos). 

Previsão a um passo: 

µ n+1,n = c + φ 1yn + φ 2yn−1 

ˆµ n+1,n = 10.81186 + 0.469309 × 50.0207 + 0.3149 × 50.436 = 50.169. 

Previsão a dois passos: 

µ n+2,n = c + φ 1µ n+1,n + φ 2yn 

ˆµ n+2,n = 10.81186 + 0.469309 × 50.169 + 0.3149 × 50.0207 = 50.108. 

166

Previsão a três passos: 

AR(p) 

µ n+3,n = c + φ 1µ n+2,n + φ 2µ n+1,n 

ˆµ n+2,n = 10.81186 + 0.469309 × 50.108 + 0.3149 × 50.169 = 50.126. 


yn+1 = c + φ 1yn + ... + φ pyn+1−p + un+1 

E (yn+1| Fn) = E 

c + φ1yn + ... + φpyn+1−p + un+1 

Fn 


= c + φ 1yn + ... + φ pyn+1−p 

yn+2 = c + φ 1yn+1 + ... + φ pyn+2−p + un+2 

E (yn+1| Fn) = E 

c + φ1yn+1 + ... + φpyn+1−p + un+2 

Fn 

Previsão a h passos (h > p) 

ARMA(1, 1) 

= c + φ 1 E (yn+1| Fn) + ... + φ pyn+1−p 

= c + φ 1µ n+1,n... + φ pyn+1−p 

yn+h = c + φ 1yn+h−1 + ... + φ pyn+h−p + un+h 


= E c + φ1yn+h−1 + ... + φpyn+h−p + un+h 

Fn 

= c + φ 1µ n+h−1,n + φ 2yn+h−2,n + ... + φ pµ n+h−p,n 

167




yn+1 = c + φ 1yn + un+1 + θ1un 

µ n+1,n = E (yn+1| Fn) 

= E (c + φ 1yn + un+1 + θ1un| Fn) 

= c + φ 1yn + θ1un 

yn+2 = c + φ 1yn+1 + un+2 + θ1un+1 

µ n+2,n = E (yn+2| Fn) 

= E (c + φ 1yn+1 + un+2 + θ1un+1| Fn) 

= c + φ 1µ n+1,n 

yn+h = c + φ 1yn+h−1 + un+h + θ1un+h−1 


= E (c + φ 1yn+h−1 + un+h + θ1un+h−1| Fn) 

= c + φ 1µ n+h−1,n 

6.6.3 Intervalos de Previsão I 

Vimos até agora a chamada previsão pontual. Vamos agora estabelecer um intervalo de 

confiança, IC, (ou de previsão) para yn+h. Um IC para yn+h a 95% baseia-se na probabilidade 

P (l1 < yn+h < l2| Fn) = 0.95. 

168

O intervalo de confiança é portanto (l1, l2) , ou seja, yn+h estará no intervalo (l1, l2) com 0.95 

de probabilidade dado Fn. Como determinar l1 e l2? Assuma-se que 

ou seja, 

Tem-se assim, 

yn+n| Fn ∼ N (E (yn+h| Fn) , Var (yn+h| Fn)) 

Z = yn+h − E (yn+h| Fn) 

Var (yn+h| Fn) 

 

 

 

 

Fn ∼ N (0, 1) . 

P (l1 < yn+h < l2| Fn) = 0.95 

 

l1 − E (yn+h| Fn) 

⇔ P 

Var (yn+h| Fn) < yn+h − E (yn+h| Fn) 

 

Var (yn+h| Fn) < l2 

 

− E (yn+h| Fn) 

 

 

 


e, portanto, 

Fn 

l1 − E (yn+h| Fn) 

Var (yn+h| Fn) = −1.96 ⇒ l1 = E (yn+h| Fn) − 1.96 Var (yn+h| Fn) 

l2 − E (yn+h| Fn) 

Var (yn+h| Fn) = 1.96 ⇒ l2 = E (yn+h| Fn) + 1.96 Var (yn+h| Fn) 

Assim, um IC a 95% para yn+h é 

Em termos gerais, um IC a (1 − α) 100% é 

E (yn+h| Fn) ± 1.96 Var (yn+h| Fn). 

 

E (yn+h| Fn) ± z1−α/2 Var (yn+h| Fn) 

 

= 0.95 

onde z1−α/2 é tal que P 

Z ≤ z1−α/2 = 1 − α/2 e Z ∼ N (0, 1) . É também habit- 

ual apresentar-se o IC a partir da variável erro de previsão a h passos, en (h) = yn+h − 

E (yn+h| Fn). Como Var (en (h)) = Var (yn+h| Fn) e usando a notação µ n+h,n = E (yn+h| Fn) , 

o IC a 95% para yn+h pode apresentar-se também na forma 

µ n+h,n ± 1.96 Var (e (h)). (6.13) 

169

Na prática µ n+h,n é desconhecido, pois envolve parâmetros desconhecidos. Em lugar de 

µ n+h,n devemos usar ˆµ n+h,n (por exemplo, na previsão a um passo do modelo AR(1), em 

lugar de µ n+1,n = c + φ 1yn deve-se considerar ˆµ n+1,n = ĉ + ˆ φ 1yn). A substituição de 

µ n+h,n por ˆµ n+h,n aumenta a variância do erro de previsão numa quantidade proporcional 

a 1/n (no apêndice 6.H discute-se esta questão). Para amostra grandes pode-se assumir 

1/n 0 e, assim, podemos continuar a usar a expressão (6.13), substituindo os parâmetros 

desconhecidos pela respectivas estimativas consistentes. Vamos ver alguns exemplos. 

MA(2) 

Tem-se 


yn+1 = µ + θ1un + θ2un−1 + un+1 

E (yn+1| Fn) = µ + θ1un + θ2un−1 

en (1) = yn+1 − E (yn+1| Fn) = un+1 ∼ N 0, σ 2 . 

Logo Var (en (1)) = σ 2 e, assim, um IC a 95% é 

Tem-se 


µ + θ1un + θ2un−1 ± 1.96 Var (en (1)) i.e., 

µ + θ1un + θ2un−1 ± 1.96σ 

yn+2 = µ + θ1un+1 + θ2un + un+2 

E (yn+2| Fn) = µ + θ2un 

yn+2 − E (yn+2| Fn) = θ1un+1 + un+2 ∼ N 0, θ 2 

1 + 1 σ 2 

Logo Var (en (2)) = θ 2 

1 + 1 σ 2 e, assim, um IC a 95% é 

θ2 µ + θ2un ± 1.96 1 + 1 σ2 170



Sample(adjusted): 1950:04 2005:05 

Included observations: 662 after adjusting endpoints 


C 10.01857 0.042397 236.3054 0.0000 

MA(1) 0.373267 0.037900 9.848702 0.0000 

MA(2) 0.231256 0.037917 6.099047 0.0000 







Inverted MA Roots .33 .70 

Figura 6-16: Estimação de um MA(2) 

Exemplo 6.6.2 Estimou-se um MA(2) (dados mensais), cujos resultados estão apresentados 

na figura 6-16. A última observação, yn, reporta-se ao período 2005:05 (Maio de 2005, na 

notação do EVIEWS). Tem-se ainda a seguinte informação: ûn−1 = −0.655 e ûn = 0.055. 

As estimativas dos parâmetros são 13 : 

ˆ θ1 = 0.37326, 

ˆ θ2 = −0.231256. 

Pretende-se um intervalo de previsão para 2005:6 (yn+1) e 2005:7 (yn+2) a 95%, supondo 

inovações (erros) normais. Previsão a um passo: 

µ n+1,n = µ + θ1un + θ2un−1 

ˆµ n+1,n = ˆµ + ˆ θ1ûn + ˆ θ2ûn−1 

= 10.01857 + 0.37326 × 0.055 − 0.231256 × (−0.655) 

= 10.191 

13 O output do EVIEWS apresenta as raízes invertidas do polinómio MA. Desta forma, o modelo é invertível 

sse as raízes invertidas são em módulo inferiores a um. Como as raízes são em módulo inferiores a um concluise 

que o processo é invertível. Outra forma de chegarmos a esta conclusão consiste em verificar se as seguintes 

condições são válidas: 

θ1 + θ2 > −1, θ1 − θ2 < 1, −1 < θ2 < 1. 

Também por aqui se conclui que o modelo é invertível verificando as desigualdades: 

ˆ θ1 + ˆ θ2 = 0.37326 − 0.231256 > −1, 

ˆ θ1 − ˆ θ2 = 0.37326 + 0.231256 < 1, 

−1 < −0.231256 < 1. 

171

IC para yn+1 a 95%: 

13 

12 

11 

10 

Previsão a dois passos: 

IC para yn+2 a 95%: 

9 

8 

7 

2005:06 2005:07 

YF ± 2 S.E. 

Figura 6-17: Previsão do modelo MA(2) fornecida pelo EVIEWS 

µ + θ1un + θ2un−1 ± 1.96σ 

10.191 ± 1.96 × 0.955072 ou (8.32, 12.06) . 

µ n+2,n = µ + θ2un 

ˆµ n+2,n = ˆµ + ˆ θ2un 

= 10.01857 − 0.231256 × 0.055 

= 10.005 

θ2 µ + θ2un ± 1.96 1 + 1 σ2 10.005 ± 1.96 (0.37326 2 + 1) × 0.955072 2 ou (8.01, 12.00) . 

No EVIEWS o gráfico da previsão a dois passos é dada pela figura 6-17 (há uma ligeira 

diferença entre os IC acima calculados e os IC fornecidos pelo EVIEWS. Porquê?) 

MA(q) 

172

Deixa-se como exercício verificar: 

Tem-se 

⎧ 

⎨ µ + 

E (yn+h| Fn) = 

⎩ 

q i=h θiun+h−i para h = 1, ..., q 

µ para h = q + 1, ... 

h−1 

en (h) = yn+h − E (yn+h| Fn) = θiun+h−i , (θ0 = 1) 

e, assumindo normalidade, o IC a 95% é 

AR(1) 

µ + 

i=0 

E e 2 n (h) = σ 2 

h−1 

i=0 

θ 2 

i 

 

q 

 

h−1 

θiun+h−i ± 1.96σ2 

i=h 

i=0 

θ 2 

i 

(6.14) 

A determinação dos intervalos de previsão não é imediata nos processos AR e ARMA 

em geral. 


yn+1 = c + φ 1yn + un+1 

µ n+1,n = E (yn+1| Fn) 

= E (c + φ 1yn + un+1| Fn) = c + φ 1yn 

en (1) = un+1 


µ n+2,n = E (yn+2| Fn) 

yn+2 = c + φ 1yn+1 + un+2 

= E (c + φ 1yn+1 + un+2| Fn) = c + φ 1 E (yn+1| Fn) 

= c + φ 1µ n+1,n 

173

en (2) =? 

Para determinar en (h) e consequentemente os IC a ideia consiste em representar yn+h 

na forma MA. Precisamos, portanto, de uma fórmula geral que forneça en (h) e Var (en (h)) 

(veremos isso a seguir). 

6.6.4 Intervalos de Previsão II - Variância do Erro de Previsão no mod- 

elo ARMA 

Para determinarmos en (h) considere-se o ARMA(p, q) 

φ p (L) yn+h = θq (L) un+h 

yn+h = φ −1 

= 

p 

∞ 

(L) θq (L) un+h (6.15) 

j=0 

ψ jun+h−j (ψ 0 = 1). 

A expressão E (yn+h| Fn) pode ser obtida recursivamente como vimos no caso AR(p) com 

h = 2 . Agora interessa-nos representar E (yn+h| Fn) numa outra forma equivalente para 

que possamos obter en (h) . 

tem-se 

Como 

E (yn+h| Fn) 

 

∞ 

 

= E ψjun+h−j 

j=0 

Fn 

 

yn+h = 

∞ 

ψjun+h−j j=0 

= E ψ0un+h + ψ1un+h−1 + ... + ψh−1un+1 + ψhun + ψh+1un−1 + ... 

Fn 

= ψ hun + ψ h+1un−1 + .. . 

174

Logo 

Portanto, 

en (h) = yn+h − E (yn+h| Fn) 

= ψ 0un+h + ψ 1un+h−1 + ... + ψ h−1un+1 + ψ hun + ψ h+1un−1 + ... 

−ψ hun − ψ h+1un−1 − ... 

= ψ 0un+h + ψ 1un+h−1 + ... + ψ h−1un+1 

= 

h−1 

ψjun+h−j. j=0 

E (en (h)) = 0 

Var (en (h)) = E e 2 n (h) = σ 2 

h−1 

j=0 

ψ 2 

j, ψ 0 = 1 (6.16) 

No processo MA(q) tem-se θi = ψ i e, com esta igualdade, confirma-se a equação (6.14). 

Exemplo 6.6.3 Retome-se o exemplo 6.6.1: 


Sample: 3 1000 

Included observations: 998 


C 10.81186 1.196611 9.035402 0.0000 

Y(1) 0.469309 0.030095 15.59406 0.0000 

Y(2) 0.314900 0.030098 10.46238 0.0000 







Vimos: 

Sabendo que 

ˆµ n+1,n = 50.169, ˆµ n+2,n = 50.108, ˆµ n+3,n = 50.126. 

1 

1 − 0.469309L − 0.31490L 2 = 1 + 0.469L + 0.535L2 + 0.399L 3 + ... 

determine um IC a 95% para as previsões em n + 1, n + 2 e n + 3. Vimos que a expressão 

175

geral do IC a 95% (com erros Gaussianos) é dada pela expressão 

ou 

ou 

E (yn+h| Fn) ± 1.96 Var (en (h)) 

µ n+h,n ± 1.96 Var (en (h)) 

 

ˆµ n+h,n ± 1.96 Var (en (h)) 

No caso dos modelos MA a expressão Var (en (h)) determina-se facilmente, como vimos 

atrás. No caso dos modelos AR (ou ARMA) temos de usar a expressão (6.16) 

Var (en (h)) = σ 2 

h−1 

ψ 2 

j ou Var (en (h)) = ˆσ 2 

h−1 

j=0 

Um IC a 95% para a previsão yn+1 (h = 1) é 

Ora ˆµ n+1,n = 50.169 e 

Assim 

Var (en (1)) = ˆσ 2 

1−1 

 

ˆµ n+1,n ± 1.96 Var (en (1)) 

j=0 

ˆψ 2 

j = ˆσ 2 

0 

j=0 

 

ˆµ n+1,n ± 1.96 ˆσ 2 


50.169 ± 1.96 × 0.499762. 

 

ˆµ n+2,n ± 1.96 Var (en (2)). 

176 

j=0 

ˆψ 2 

j 

ˆψ 2 

j = ˆσ 2 ˆ ψ 2 

0 = ˆσ 2 .

Ora ˆµ n+2,n = 50.108 e 

Assim 

Var (en (2)) = ˆσ 2 

2−1 

j=0 


Ora ˆµ n+2,n = 50.126 e 

Assim 

Var (en (2)) = ˆσ 2 

3−1 

ˆψ 2 

j = ˆσ 2 

 

1 + ˆ ψ 2 

1 

= 0.499762 2 × 1 + 0.469 2 = 0.30470. 

 

 

ˆµ n+2,n ± 1.96 Var (en (2)) 

50.108 ± 1.96 √ 0.30470. 

 

ˆµ n+3,n ± 1.96 Var (en (3)). 

j=0 

ˆψ 2 

j = ˆσ 2 

 

1 + ˆ ψ 2 

1 + ˆ ψ 2 

 

2 

= 0.499762 2 × 1 + 0.469 2 + 0.535 2 

= 0.37619. 

 

ˆµ n+3,n ± 1.96 Var (en (3)) 

50.126 ± 1.96 √ 0.37619. 

6.6.5 Previsão de (muito) Longo Prazo 

Previsão de longo prazo significa tomar h muito alto. Qual é a previsão de yn+h quando 

h → ∞? Isto é, qual o valor de 

lim 

h→∞ E (yn+h| Fn)? 

Quando n + h é muito alto, quando comparado com n, a informação Fn é praticamente 

irrelevante (é qualquer coisa como prever o retorno do PSI20 para daqui a 20 anos, tendo 

177

disponível apenas a informação do retorno de hoje). Assim, nestas condições, E (yn+h| Fn) 

é praticamente igual a E (yn+h) (quer dizer, podemos dispensar Fn). Tudo isto é verdade se, 

obviamente, o processo for estacionário. 

Assim, se o processo for estacionário tem-se 

lim 

h→∞ E (yn+h| Fn) = E (yn+h) = E (y) . 

Outra questão tem a ver com os intervalos de previsão. Vimos que os intervalos de previsão 

dependem da variância do erro de previsão 

Var (en (h)) = σ 2 

h−1 

onde ψ i são os coeficientes que se obtêm da relação φ −1 

p (L) θq (L) , Recorde-se, 

yt = φ −1 

p (L) θq (L) ut = 

j=0 

ψ 2 

j 

∞ 

ψjut−j. Qual é o valor da expressão Var (en (h)) = σ 2 h−1 

j=0 ψ2 

j quando h tende para ∞? Temos de 

avaliar 

 

lim 

h→∞ σ2 

h−1 

j=0 

Se o processo y é ESO pode-se provar que ∞ 

j=0 ψ2 

j é finito 14 e, portanto, Var (en (∞)) é 

14 Vimos em que condições se estabelece a estacionaridade. Outra forma alternativa consiste em considerar 

a representação MA(∞) do ARMA. Vimos 

Tem-se 

yt = φ −1 

p (L) θq (L) ut = 

j=0 

ψ 2 

j. 

j=0 

∞ 

ψjut−j. j=0 

E (yt) = 0 

⎛ ⎞ 

Var (yt) = 

∞ 

Var ⎝ ψ ⎠ 

jut−j = σ 2 

∞ 

Assim se y é E2O devemos ter Var (yt) = σ2 ∞ j=0 ψ2j < ∞. Logo devemos exigir ∞ j=0 ψ2j < ∞ e, portanto, 

∞ j=0 ψ2j < ∞ é condição necessária para que y seja estacionário. Nestas condições 

 

j=0 

Var (en (h)) = E e 2 n (h) = σ 2 

h−1 

ψ 2 j → Var (yt) . 

178 

j=0 

ψ 2 j

finito. Para que valor tende? Pode-se provar (veja-se o último pé-de-página) que 

Var (en (∞)) = Var (y) . 

Assim, se y é estacionário e Gaussiano, um intervalo de confiança a 95% para yn+h com h 

muito alto (ou h → ∞) é 

O que acontece se y não é estacionário? 

E (y) ± 1.96 Var (y) 

Exemplo 6.6.4 Considere-se o ARIMA(0, 1, 1) 

A previsão a um passo é 

A dois passos é 

A h passos é 

yt = yt−1 + ut + θ1ut−1. 

µ n+1,n = E (yn+1| Fn) = yn + θ1un. 

µ n+2,n = E (yn+2| Fn) = E (yn+1 + un+2 + θ1un+1| Fn) 

= E (yn+1| Fn) = yn + θ1un 

µ n+h,n = yn + θ1un. 

Calcule-se agora a variância do erro de previsão Var (en (h)) = σ 2 h−1 

j=0 ψ2 

j. Temos de 

calcular os ψ i e, para o efeito, começamos por reescrever o processo na forma 

(1 − L) yt = (1 + θ1L) ut ou 

yt = 

(1 + θ1L) 

1 − L ut 

179

Para determinar ψ i: 

Resulta: ⎧⎪ ⎨ 

(1 + θ1L) 

= 1 + ψ 

1 − L 

1L + ψ2L 2 + ... 

1 + θ1L = 1 + ψ1L + ψ2L 2 + ... (1 − L) 

⎪⎩ 

= 1 − L + ψ 1L − ψ 1L 2 + ψ 2L 2 − ψ 2L 3 + ... 

= 1 + (ψ 1 − 1) L + (ψ 2 − ψ 1) L 2 + ... 

θ1 = ψ 1 − 1 

0 = ψ 2 − ψ 1 

0 = ψ 3 − ψ 2 

... 

⎧ 

⎪⎨ 

⇔ 

⎪⎩ 

ψ 1 = 1 + θ1 

ψ 2 = 1 + θ1 

ψ 3 = 1 + θ1 

(alternativa: série de Taylor ou melhor fórmula de Taylor...). 

Logo 

e, portanto, 

(1 + θ1L) 

1 − L 

Var (en (h)) = σ 2 

h−1 

... 

= 1 + (1 + θ1) L + (1 + θ1) L 

 

ψ1 ψ2 2 + ... 

j=0 

ψ 2 

j 

= σ 2 1 + (1 + θ1) 2 + ... + (1 + θ1) 2 

= σ 2 1 + (h − 1) (1 + θ1) 2 

Quando h → ∞ ⇒ Var (en (h)) → ∞ (a amplitude dos IC aumenta com h). 

6.6.6 Qualidade da Previsão 

Podemos comparar a qualidade de previsão de dois modelos diferentes (por exemplo um AR 

versus um MA) comparando a variância do erro de previsão Var (en (h)) dos dois modelos. 

Esta é a abordagem paramétrica. Temos uma outra forma, mais eficaz, de avaliarmos a 

previsão de um (ou mais) modelo(s) e que é descrita a seguir. 

O período de observação da série é dividido em dois sub-períodos: o primeiro é des- 

ignado por in-sample estimation period e o segundo por out-of sample forecast. Fixe-se o 

período de estimação, por exemplo, de 1 a t1 (veja-se a figura 6-18). Embora as observações 

180

Insample estimation period 

Outof sample 

forecast 

evaluation period 

1 t1 

n 

Figura 6-18: In-Samples Estimation Period vs. Out-of Sample Forecast Period 

disponíveis sejam y1, ..., yt1, ..., yn o modelo é estimado apenas para o período de 1 a t1. 

Com base no modelo estimado no período in-sample estimation, geram-se depois as pre- 

visões para o período out-of sample forecast e, finalmente comparam-se as previsões com 

os valores observados mas não utilizados na estimação. O esforço de previsão no período 

pós-estimação é equivalente ao de uma previsão verdadeira 15 . 

Seja 

(com t1 + h = n). 

Avaliação da Previsão I 

e (h) = et1 (h) = yt1+h − E (yt1+h| Ft1) 

y p 

h = E (yt1+h| Ft1) 

y o h = yt1+h 

Tendo-se calculado os erros e (1) , e (2) , ..., e (h) , podemos agora avaliá-los através das 

seguintes medidas: 

Erro Médio de Previsão 

EMP = 1 

h 

h 

i=1 

(y o i − y p 1 

i ) = 

h 

h 

e (h) 

15 Também se definem as previsões in-sample forecast. Tratam-se de previsões geradas no período de estimação 

do modelo. Por exemplo, previsões a h-passos 

i=1 

E (yt+h| Ft) , t + h ≤ t1. 

O esforço de previsão é baixo porque o modelo de previsão usa estimativas ˆθ baseadas nas observações 

y1, ..., yt1 (a qualidade da previsão a um passo, h = 1, pode ser avaliada através dos critérios habituais de 

ajustamento R2 , ˆσ, etc.). 

A avaliação da qualidade da previsão deve basear-se nas previsões out-of-sample. 

181

Raiz do Erro Quadrático Médio (REQM ou RMSE) 

 

 

 

REQM = 1 

h 

h 

i=1 

Erro Absoluto Médio (EAM ou MAE) 

EAM = 1 

h 

h 

i=1 

(y o i 

− yp 

i )2 = 

|y o i − y p 1 

i | = 

h 

Erro Percentual Absoluto Médio (EPAM ou MAPE) 

Coeficiente de Theil 

U = 

EP AM = 1 

h 

h 

 

 

 

y 

 

o i − y p 

i 

yo 

 

 

 

i 

i=1 

REQM 

 

1 h 

h i=1 (yp i )2 + 

1 

h 

= 1 

h 

 

 

 

1 

h 

h 

e (h) 2 

i=1 

h 

|e (h)| 

i=1 

h 

 

 

 

 

i=1 

e (h) 

y o i 

 

 

 

 

h i=1 (yo i )2 

, 0 ≤ U ≤ 1 

EQM penaliza fortemente os erros maiores. A grande maioria das previsões pode ser ex- 

celente mas o EQM pode ser alto se existir uma previsão má ou muito má. O EAM não 

é tão severo neste aspecto. Se a grande maioria das previsões for boa então o EAM vem 

relativamente baixo. 

Relativamente ao coeficiente de Theil, quanto mais baixo U melhor é a previsão. O 

caso U = 1 é o pior cenário (por exemplo, prever sistematicamente zero quando os valores 

observados são diferentes de zero, ou prever sempre valores positivos quando os valores 

observados são sempre negativos, etc.). 

As estatísticas anteriores avaliam a magnitude do erro de previsão e, com excepção do 

EMP, não levam em conta se o erro de previsão é positivo ou negativo. Em certos casos, o 

sinal do erro de previsão é importante. Para ilustrar esta situação, considere-se o seguinte 

exemplo. Seja y a hora de partida do avião, y p a previsão da hora de chegada ao aeroporto 

(para embarcar) e e = y − y p o erro de previsão. Se e > 0, ele ou ela chega adiantado; se 

e < 0 chega atrasado e perde o avião. Como poderemos avaliar o erro de previsão? Função 

quadrática do tipo EQM? (penalizar de igual forma chegar cedo ou tarde?). Uma função de 

182

avaliação poderia ser 

⎧ 

⎨ 999 e < 0 

L (e) = 

⎩ ke e > 0, k > 0. 

(6.17) 

Assim, chegar atrasado envolveria uma “perca” de 999 (valor que supomos muito alto), ao 

passo que chegar adiantado e unidades de tempo, envolveria uma “perca” proporcional a e 

(supondo 999 > ke). Uma estatística de avaliação da qualidade da previsão baseada em 

(6.17) é 

1 

h 

h 

i=1 

Escolhe-se o modelo que minimiza (6.18). 

 

999I{e(i)0} . (6.18) 

Outro caso em que a função perca L (e) é não simétrica aplica-se a modelos de previsão 

que visam definir regras de compra e venda. Seja y p 

h a previsão do retorno a h passos e yo h o 

correspondente valor observado. Considera-se uma previsão correcta quando y p 

h apresenta o 

mesmo sinal que yo h . A função perca é 

⎧ 

⎨ 

L (e) = 

⎩ 

1 y p 

hyo h < 0 

0 y p 

hyo h > 0. 

(6.19) 

Observe-se: se a previsão é correcta y p 

h e yo h apresentam o mesmo sinal e, portanto, o produto 

y p 

hyo h é positivo. Uma estatística de avaliação da qualidade da previsão baseada em (6.19) é 

1 

h 

h 

i=1 

I {y p 

i yo i 0}. 

Os erros de previsão podem devem-se, basicamente, às seguinte razões: 

• As previsões estão quase sempre acima ou abaixo dos valores observados (exemplo: 

valores observado: 10, 11, 9, 12; previsões: 15, 16, 13, 16); 

• A variabilidade das previsões é diferente da variabilidade dos valores previstos (exem- 

183

plo: valores observados: 10, 11, 9, 12; previsões: 2, 18, 5, 20). 

• As previsões estão pouco correlacionadas com os valores observados. 

Na metodologia que se segue procura-se identificar estas várias fontes de erro. 

Considere-se 

e defina-se 

s 2 o = 1 

h 

h 

(y o i − ¯y o ) 2 , s 2 p = 1 

h 

(y 

h 

i=1 

p 

i − ¯yp ) 2 

1 h 

h i=1 

r = 

(yo i − ¯y o ) (y p 

i − ¯yp ) 

i=1 

s0sp 

U E = (¯yo − ¯y p ) 2 

EQM , U V = (so − sp) 2 

EQM , U C = 

2 (1 − r) s0sp 

EQM 

, 

respectivamente a proporção do enviesamento, da variância e da covariância. Note-se EQM = 

1 

h 

h 

i=1 (yo i − y p 

i )2 . A estatística U E mede o erro sistemático, U V mede a capacidade de y p 

reproduzir a variabilidade de y o e U C mede o erro não sistemático. A situação ideal (y o i = y p 

i ) 

é U V = U E = 0 e U C = 1. Note-se que U V + U E + U C = 1 (demonstração no apêndice 

6.I). 

Ao contrário do EMP, da REQM e do EAM as estatísticas EPAM, U de Theil, U V , U E e 

U C não dependem da escala da variável. Por exemplo, se a variável em estudo for “entrada de 

turistas na fronteira (unidade: n o de indivíduos)” e depois resolvermos passar para “entrada 

de turistas na fronteira (unidade: milhares de indivíduos)”, as estatísticas EPAM, U de Theil, 

U V , U E e U C não sofrem alteração (porque não dependem da escala da variável). 

Exemplo 6.6.5 Na figura seguinte apresentam-se estatísticas referentes a três modelos de 

previsão. Analise a qualidade das previsões com base nas estatísticas REQM, U de Theil, 

U E , U V , U C e Corr (entre os valores observados e previstos). 

Recursive Forecasting vs. Rolling Window 

Suponha-se que estamos incumbidos de criar um modelo de previsão a 5 passos. Por 

exemplo, podemos estar a trabalhar com dados diários e o nosso objectivo é definir um 

modelo de previsão semanal. A qualidade da previsão a h passos, com h = 5 não nos 

interessa (só nos interessa a qualidade da previsão a 5 passos). A avaliação da previsão 

184

Observado Modelos de Previsão erro quadráticos de previsão 

h y yp1 yp2 yp3 modelo1 modelo2 modelo3 

1 1 2 2 1 1 1 0 

2 2 3 3 3 1 1 1 

3 3 2 3 4 1 0 1 

4 2 4 4 4 4 4 4 

5 4 4 5 7 0 1 9 

6 5 5 6 2 0 1 9 

7 6 5 7 9 1 1 9 

8 7 7 8 3 0 1 16 

9 5 4 9 9 1 16 16 

10 9 10 10 11 1 1 4 

Média 4.4 4.6 5.7 5.3 1 2.7 6.9 

Variância 5.64 5.24 6.81 10.61 1.2 20.61 31.29 

corr(y,ypi) 0.9124 0.9230 0.6567 

UE 0.0400 0.6259 0.1174 

UV 0.0074 0.0204 0.1129 

UC 0.9526 0.3537 0.7698 

U 0.0986 0.1458 0.2341 

12 

10 

8 

6 

4 

2 

0 

1 2 3 4 5 6 7 8 9 10 

Figura 6-19: Três modelos em confronto 

feita nos pontos anteriores não serve porque as estatísticas REQM, Coeficiente de Theil, 

etc., avaliam a qualidade da previsão a vários passos, ponderando de igual forma esses erros. 

Como fazer? Para avaliar a qualidade da previsão a 5 passos fazemos variar t1 (veja-se a 

figura 6-18). Podemos ainda ter a chamada “previsão recursiva” (recursive forecasting) ou a 

“janela móvel” (rolling window). Exemplifica-se a seguir. 

Recursive forecasting 

• Estima-se o modelo entre as observações 1 a 1000 e prevê-se para 1005; 


• Estima-se o modelo entre as observações 1 a 1002 e prevê-se para 1007; etc. 

Rolling window 



• Estima-se o modelo entre as observações 3 a 1002 e prevê-se para 1007; etc. 

185 

y 

yp1 

yp2 

yp3

Em ambos os casos, em cada iteração, faz-se sempre uma previsão a 5 passos. Todavia, 

com o método rolling window, o período de estimação contém sempre 1000 observações (o 

esforço de estimação é constante). Na primeira hipótese o esforço de estimação vai dimin- 

uindo à media que se acrescentam mais observações no período da estimação. Ao fim de 

várias iterações temos uma amostra de valores observados e valores previstos a 5 passos, 

que podemos comparar usando as estatísticas já estudadas (EQM, EAM, etc.). Em termos 

formais, seja,Yi k = {yk, yk+1, ..., yi} , yre h,i := E (yi+h| Yi 1) a previsão a h passos usando o 

método recursive forecasting, yro h,i := E yi+h| Yi 

i−k , i > k, a previsão a h passos usando 

o método rolling window e y o i := yi+h os valores observados. Com base em s previsões 

out-of-sample, podemos calcular, por exemplo, 

EQM re (h) = 1 

s 

EQM ro (h) = 1 

s 

s 

i=1 

s 

i=1 

Em geral, devemos esperar 

Previsão no EVIEWS 

o 

yi − y re 2 re 1 

h,i , EAM (h) = 

s 

o 

yi − y ro 2 re 1 

h,i , EAM (h) = 

s 

s 

y o i − y re 

 

 

i=1 

h,i 

s 

o 

yi − y ro 

 

. 

i=1 

REQM re (1) ≤ REQM re (2) ≤ ... ≤ REQM re (h) 

EAM re (1) ≤ EAM re (2) ≤ ... ≤ EAM re (h) 

A previsão no EVIEWS é definida na janela “forecast”. Para obter previsões out-of- 

sample é necessário, em primeiro lugar, encurtar a amostra na fase da estimação. Para 

concretizar, suponha-se que estão disponíveis 1100 observações da série y. Se o período 

out-of-sample forecast for 1001-1100, o período de estimação é obviamente 1-1000. Assim, 

na opção de estimação deve-se escrever na caixa “sample” 1 1000 (veja-se a figura 6.6.6). 

Depois de estimado o modelo, escolhe-se a opção “forecast” e na caixa “Forecast sample” 

escreve-se 1001 1100 (veja-se a figura 6-20). 

A opção “Dynamic forecast” faz a previsão de y ignorando os valores observados de y no 

período 1001-1100 (segue a metodologia exposta em “Avaliação da Previsão I”). Por exem- 

plo, no caso da previsão AR(1) usa-se a fórmula ˆµ n+h,n = ĉ + ˆ φ 1ˆµ n+h−1,n. A opção “Static 

forecast” segue o espírito da metodologia “Recursive Forecasting vs. Rolling Window” para 

h = 1 com a seguinte diferença: o período de estimação mantém sempre fixo. No exem- 

186 

h,i

Figura 6-20: Previsão no EVIEWS 

187

plo em análise o período de estimação é sempre 1-1000. A previsão AR(1) para o período 

1001 é ĉ + ˆ φ 1y1000; para o período 1002 é ĉ + ˆ φ 1y1001, etc. Os parâmetros estimados ĉ e ˆ φ 1 

baseiam-se sempre na amostra 1-1000. Em qualquer destas opções o EVIEWS calcula várias 

estatísticas a partir dos erros de previsão e (i) , i = 1, 2, ... Por razões óbvias a previsão para 

além do período de observação da variável (no exemplo em estudo, 1101-) só pode fazer-se 

usando a opção “Dynamic forecast”. 

6.6.7 Outros Métodos de Previsão Lineares 

Médias Móveis 

Para “tendências localmente constantes” a previsão de y, para o período n + 1, n + 2, ..., 

baseada na informação {y1, ..., yn} é 

y p 

n+h = yn + yn−1 + ... + yn−N+1 

N 

, h = 1, 2, ... 

onde N é o n o de obs. incluídas em cada média (período da média móvel). A previsão é 

constante. 

Para “tendência localmente lineares” pode-se usar o método das “médias móveis duplas” 

(médias móveis de médias móveis usadas depois numa estrutura linear ...). Estes métodos 

podem ser replicados através dos métodos de alisamento exponencial. 

Alisamento Exponencial 

Para “tendências localmente constantes” a previsão de y, para o período n + 1, n + 2, ... 

, baseada na informação {y1, ..., yn} é 

y p 

n+h = Sn, h = 1, 2, ... 

Sn = αyn + (1 − α) Sn−1, 0 < α < 1 

188

Pode-se provar que o alisamento exponencial é uma média ponderada de y1, ..., yn e S0 16 : 

Sn = αyn +α (1 − α) yn−1 +α (1 − α) 2 yn−2 +...+α (1 − α) n−1 y1 +(1 − α) n S0. (6.21) 

Para “tendências localmente lineares” pode-se usar o método de Holt. 

Estes métodos podem ser encarados como casos particulares dos modelos ARIMA. Por 

exemplo, a previsão do modelo ARIMA(0,1,1) é equivalente à previsão do modelo 

Sn = αyn + (1 − α) Sn−1. 

Dem. Uma forma de provar esta afirmação consiste em mostrar que, se yt segue um 

ARIMA(0,1,1) 

yt = yt−1 − θut−1 + ut, µ t = yt−1 − θut−1 

então, a previsão para yn+1 pode-se escrever na forma da equação (6.21) 17 . Uma demon- 

stração alternativa é a seguinte. No modelo ARIMA(0,1,1) a previsão para yn+1 é E (yn+1| Fn) = 

16 Com efeito, 

Sn = αyn + (1 − α) Sn−1 

= αyn + (1 − α) (αyn−1 + (1 − α) Sn−2) 

= αyn + (1 − α) αyn−1 + (1 − α) 2 Sn−2 

= αyn + (1 − α) αyn−1 + (1 − α) 2 (αyn−2 + (1 − α) Sn−3) 

= αyn + (1 − α) αyn−1 + (1 − α) 2 αyn−2 + (1 − α) 3 Sn−3 

= ... 

= αyn + α (1 − α) yn−1 + α (1 − α) 2 yn−2 + ... + α (1 − α) n−1 y1 + (1 − α) n S0. 

O alisamento exponencial é uma média ponderada de y1, ..., yn e S0. 

17 Com efeito, a previsão para yn+1, µ n+1,n, é 

µ n+1,n = yn − θun 

= yn − θ (yn − µ n) 

= yn − θyn + θµ n 

= (1 − θ) yn + θ (yn−1 − θun−2) 

= (1 − θ) yn + θyn−1 − θ 2 un−2 

= (1 − θ) yn + θyn−1 − θ 2 (yn−2 − θun−3) 

= (1 − θ) yn + (1 − θ) θyn−1 + θun−3 

= ... 

= (1 − θ) yn + (1 − θ) θyn−1 + (1 − θ) θ 2 yn−2 + ... + (1 − θ) θ n−1 y1 + θ n y0. 

Para verificar que a previsão do modelo ARIMA(0,1,1) é equivalente à previsão do modelo Sn = αyn + 

(1 − α) Sn−1 basta comparar a expressão obtida para µ n+1,n com (6.21). Estas expressões são iguais para 

α = (1 − θ) (admitindo que S0 = y0). É fácil observar que a previsão para yn+h, h ≥ 1, em ambos os 

modelos, é Sn = µ n+1,n. 

189

µ n+1,n. Verifique-se agora que 

µ t = yt−1 − θut−1 

Logo, no modelo ARIMA(0,1,1), tem-se 

= yt−1 − θ 

yt−1 − µ t−1 

= (1 − θ) yt−1 + θµ t−1. 

µ n+1,n = (1 − θ) yn + θµ n 

ou, redefinindo, Sn = µ n+1,n e α = 1 − θ, vem 

Sn = αyn + (1 − α) Sn−1, 

que é precisamente a expressão do alisamento exponencial. 

Como conclusão: os modelos ARIMA são (muito) mais gerais do que modelos concor- 

rentes vistos neste ponto. 

6.A Método para Obter a FACP 

Considere a regressão linear 

yt+s = φ s1yt+s−1 + φ s2yt+s−2 + ... + φ ssyt + ξ t+s 

e suponha-se que Var (yt) = 1 e E (yt) = 0 (a correlação parcial e total é independente da 

origem e da escala das variáveis). Multiplicando ambos os termos por yt+s−j, j = 1, 2, ..., s, 

tomando os valores esperados e dividindo por γ 0 obtém-se o sistema, 

ρ j = φ s1ρ j−1 + ... + φ ssρ j−s j = 1, 2, ..., s. (6.22) 

Para obter φ 11 considera-se a equação (6.22) para s = 1, 

ρ 1 = φ 11ρ 0 

190 

(ρ 0 = 1).

Donde, 

φ 11 = ρ 1. 

Para obter φ 22 considera-se o sistema (6.22) com s = 2, 

⎧ 

⎨ 

⎩ 

ρ 1 = φ 21 + φ 22ρ 1 

ρ 2 = φ 21ρ 1 + φ 22 

e resolve-se em ordem a φ 22 (e em ordem a φ 21). Aplicando, por exemplo, a regra de Cramer 

obtém-se 

 

 

1 ρ 

1 

 

 

ρ1 ρ2 

φ22 = 

 

1 ρ 

1 

 

 

ρ1 1 

= ρ2 − ρ2 1 

1 − ρ2 . 

1 

Utilizando o mesmo procedimento pode-se concluir que 

φ 33 = 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 ρ 1 ρ 1 

ρ 1 1 ρ 2 

ρ 2 ρ 1 ρ 3 

1 ρ 1 ρ 2 

ρ 1 1 ρ 1 

ρ 2 ρ 1 1 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= ρ3 − 2ρ1ρ2 + ρ3 1 + ρ1ρ2 2 − ρ2 1ρ3 2ρ2 1ρ2 − ρ2 2 − 2ρ2 . 

1 + 1 

6.B Transformação de um Processo MA(1) Não Invertível 

num Invertível 

Mostra-se a seguir que um processo não invertível pode transformar-se num processo in- 

vertível com funções de autocorrelação e autocorrelações parciais iguais. 

Associado a um processo MA(1) não invertível existe sempre um outro processo MA(1) 

invertível com a mesma FAC e FACP. Por exemplo, considere-se o processo MA(1) não 

invertível. 

yt = 4ut−1 + ut, θ = 4. (6.23) 

Este modelo não serve para previsão pois a representação autoregressiva não está bem definida. 

191

O processo (6.23) verifica: 

e 

Ora o processo 

ρ1 = 

θ 

θ 2 4 

= 

+ 1 42 + 1 

ρs = 0 para s > 1 

φ 11 = ρ 1 = θ 

θ 2 + 1 

φ ss = θs 1 − θ 2 

1 − θ 

˜yt = 1 

4 ũt−1 + ũt, 

= 4 

17 

= 4 

17 

4 

= 15 

2(s+1) s 

1 − 42s+2 tem a mesma FAC e FACP do processo y. Com efeito, 

˜ρ 1 = ˜ φ 11 = ˜ θ 

˜φ ss = 

1 

θ 

1 − 1 

θ 

1 

θ 

˜ θ = 1 

4 

2 = 

˜ 1 2 = 

θ + 1 + 1 θ 

θ 

θ 2 + 1 

 

s 

1 − 

1 2 

θ 

4 

= 15 

2(s+1) 

s 

. 

1 − 42s+2 = 4 

17 

Na prática, qual é o alcance deste resultado? Se não ocorrer invertibilidade na fase da es- 

timação devemos definir outros valores iniciais para os parâmetros. Por exemplo, se o pro- 

grama fornece como estimativa ˆ θ = 4 devemos definir outros valores iniciais até que o 

software encontre a estimativa 1/4 para o parâmetro do processo MA. Convém lembrar que 

a estimação de processos MA envolve problemas de optimização não linear. Por vezes, a 

solução do problema de optimização é um extremante local (e não global, como é dese- 

jável). Poderão existir outros extremantes que serão detectados se definirmos outros valores 

de inicialização. 

6.C Invertibilidade de Processos MA (exemplos) 

Observação 6.C.1 Se uma raiz r é complexa, i.e. r = a + bi, o módulo é |r| = √ a 2 + b 2 . 

Exemplo 6.C.1 yt = (1 − 0.5L + 0.1L 2 − 0.5L 3 ) ut é invertível? 

θ3 (L) = 1 − 0.5L + 0.1L 2 − 0.5L 3 . 

192

Resolvendo θ3 (L) = 0 em ordem a L (através de um qualquer software) obtêm-se as 

seguintes raízes 

Como 

−0.42 + 1.3i, −0.42 − 1.3i, 1.05 

|−0.42 + 1.3i| = √ .42 2 + 1.3 2 > 1 , |1.05| > 1 

conclui-se que o processo yt = (1 − 0.5L + 0.1L 2 − 0.5L 3 ) ut é invertível. O método dos 

coeficientes indeterminados permite determinar os parâmetros φ i que figuram do lado direito 

da expressão 

1 

1 − 0.5L + 0.1L 2 − 0.5L 3 = 1 + φ 1L + φ 2L 2 + ... 

Multiplicando ambos os termos por (1 − 0.5L + 0.1L 2 − 0.5L 3 ) tem-se 

1 = 1 − 0.5L + 0.1L 2 − 0.5L 3 1 + φ 1L + φ 2L 2 + ... . 

Depois de se multiplicarem e reordenarem todos os termos do lado direito da expressão 

anterior vem, 

Desta equação resulta: ⎧⎪ ⎨ 

1 = 1 + (φ 1 − 0.5) L + (0.1 − 0.5φ 1 + φ 2) L 2 + ... 

⎪⎩ 

φ 1 − 0.5 = 0 

0.1 − 0.5φ 1 + φ 2 = 0 

Da primeira equação sai φ 1 = 0.5; da primeira e da segunda sai, φ 2 = 0.15, etc. Em suma 

e, portanto, 

1 − 0.5L + 0.1L 2 − 0.5L 3 −1 = 1 + 0.5L + 0.15L 2 + 0.52 L 3 

... 

+0.49L 4 + 0.27L 5 + ... 

yt = −0.5yt−1 − 0.15yt−2 − 0.52yt−3 − 0.49yt−4 − 0.27yt−5 − ... 

Nota final: o programa Mathematica (entre outros) calcula facilmente os parâmetros φ i. A 

instrução é 

1 

Series[ 

1 − 0.5L + 0.1L2 ,{L,0,5}]. 

− 0.5L3 193

O programa EVIEWS apresenta as raízes invertidas do polinómio θq (L). Nestas condições, 

o processo y é invertível se as raízes invertidas θq (L) forem em módulo inferiores a um (ou 

dentro do circulo unitário no plano complexo). Segue-se a explicação. Suponha-se que o 

polinómio MA é θ (L) = (1 − 0.2L + 0.4L 2 ) . As raízes de θ (L): 

θ (L) = 0 ⇒ L1 = 0.25 − 1.56i, L2 = 0.25 + 1.56i 

As raízes estão fora do círculo unitário, pois 

|L1| = 

 

0.25 2 + (−1.56) 2 = 1.58 > 1, |L2| = ... = 1.58 > 1. 

Logo o processo yt = θ (L) ut é invertível. O programa EVIEWS apresenta as raízes inver- 

tidas. No exemplo em análise, φ (L) = (1 − 0.2L + 0.4L 2 ) , o EVIEWS não apresenta L1 e 

L2 mas sim 

1 

L1 

e 1 

. 

L2 

Quando as raízes são reais é óbvio que |L| > 1 implica |1/L| < 1. Quando as raízes são 

complexas pode-se provar que |L| > 1 ⇔ |1/L| < 1. Com efeito, suponha-se que uma raiz 

de φ (L) é a + bi. Esta raiz está fora do círculo unitário se |a + bi| = √ a 2 + b 2 > 1. Se a 

raiz a + bi é invertida, tem-se 

e 

 

 

 

1 

 

a 

+ bi 

= 

Conclui-se, portanto, que 

1 

a + bi = 

a 

a2 − 

+ b2 b 

a2 i 

+ b2 

 

a 

a2 + b2 2 

b 

+ 

a2 + b2 2 = 

|a + bi| = √ a2 + b2 

 

> 1 ⇔ 

1 

 

a 

+ bi 

= 

1 

√ a 2 + b 2 . 

1 

√ a 2 + b 2 

< 1. 

Retomando o exemplo φ (L) = (1 − 0.2L + 0.4L 2 ) o EVIEWS apresenta 

1 

0.25 − 1.56i 

1 

0.25 + 1.56i 

= 0.100 16 + 0.624 97i 

= 0.100 16 − 0.624 97i. 

194

Como √ 0.100 16 2 + 0.624 97 2 = 0.632 95 < 1 o processo yt = θ (L) ut é invertível. Em 

suma, no programa EVIEWS as raízes invertidas θq (L) devem ser em módulo inferiores a 

um (ou dentro do circulo unitário no plano complexo). Veremos ainda que as raízes invertidas 

do polinómio AR φ (L) devem também ser em módulo inferiores a um (ou dentro do circulo 

unitário no plano complexo) para que o processo seja ESO. 

Exemplo 6.C.2 Retome-se o exemplo 6.C.1. O programa EVIEWS em lugar de fornecer as 

raízes 

−0.42 + 1.3i, −0.42 − 1.3i, 1.05 

fornece as raízes invertidas, i.e., o lado direito das seguintes expressões: 

1 

−0.42 + 1.3i 

1 

= −0.225 + 0.696i, 

−0.42 − 1.3i 

= −0.225 − 0.696i, 

1 

1.05 

= 0.952. 

Assim, no programa EVIEWS as raízes invertidas de θq (L) devem ser em módulo inferiores 

a um (ou dentro do circulo unitário no plano complexo). Verifique que |−0.225 − 0.696i| < 

1, |−0.225 + 0.696i| < 1, |0.952| < 1. 

6.D Estacionaridade de 2 a Ordem do Processo AR(1) 

A ESO pode ser discutida a partir de vários conceitos. Para processos lineares é relativamente 

fácil estudar a ESO. Considere-se (com c = 0) o processo AR(1) 

yt = φyt−1 + ut = φ t y0 + φ t−1 u1 + φ t−2 u2 + ... + φut−1 + ut 

(6.24) 

(tendo-se admitido que o processo teve início em t0). Questão: para que valores de φ a 

média, a variância e a covariância não dependem de t? A média é 

E (yt) = E (E (yt| F0)) = φ t E (y0) . 

Claramente, se |φ| > 1 então E (yt) → ∞ e o processo não é ESO. Se φ = 1 vem 

E (yt) = φ t E (y0) = E (y0) . 

195

Nada se pode dizer, por enquanto. Se |φ| < 1 vem E (yt) = φ t E (y0) → 0 quando t → ∞. 

Para simplificar admite-se que o processo y é inicializado em condições estacionárias i.e., 

admite-se E (y0) = 0. Nestas condições 

Por outro lado, o segundo momento é 

E (yt) = φ t E (y0) = 0. 

E y 2 t = E E y 2 = 

 

 

t F0 

φt E E y0 + φ t−1 u1 + φ t−2 

2 u2 + ... + φut−1 + ut F0 

 

= E E 

 

= E φ 2t y 2 0 + φ 2(t−1) σ 2 + φ 2(t−2) σ 2 + ... + φ 2 σ 2 + σ 2 

 

= φ 2t E y 2 

2 

0 + σ φ 2(t−1) + φ 2(t−2) + ... + φ 2 

+ 1 . 

φ 2t y 2 0 + φ 2(t−1) u 2 1 + φ 2(t−2) u 2 2 + ... + φ 2 u 2 t−1 + u 2 t + ... 

F0 

Se φ = 1 vem E (y2 t ) = E (y2 0)+σ 2t → ∞. Se |φ| > 1 vem E (y2 t ) = φ 2t E (y2 2 1−φ2t 

0)+σ 1−φ2 → 

∞. Se |φ| < 1 vem E (y2 t ) = φ 2t E (y2 2 1−φ2t 

0) + σ 1−φ2 → σ2 

1−φ2 . 

Teoricamente pode-se definir E (y 2 0) = σ2 

1−φ 2 e, neste caso, com |φ| < 1, o processo é 

apenas ESO assimptoticamente. Se o processo é inicializado em “condições estacionárias” 

i.e. E (y 2 0) = σ2 

1−φ 2 , então, no caso |φ| < 1, resulta imediato que 

E y 2 2t σ 

t = φ 2 

1 − φ 

1 − φ2t σ2 

2 + σ2 

2 = 

1 − φ 

2 (constante ∀t). 

1 − φ 

Relativamente às covariâncias. Suponha-se y0 = 0 (para simplificar). No caso |φ| < 1 já 

vimos que γ k = φ k γ 0 e ρ k = φ k . Suponha-se agora φ = 1. Tem-se, a partir de (6.24), 

yt = u1 + u2 + ... + ut−1 + ut 

196

e, assim, 

E (ytyt−k) = E (E (ytyt−k |Ft−k )) = E (yt−k E (yt |Ft−k )) 

= E ((u1 + u2 + ... + ut−k) E (yt |Ft−k )) 

= E ((u1 + u2 + ... + ut−k) (u1 + u2 + ... + ut−k)) 

= E u 2 1 + u 2 2 + ... + u 2 

t−k + E (termos cruzados) 

= σ 2 (t − k) (depende de t) 

= γ t,k 

Correlações (ainda o caso φ = 1): 

γ t,k 

γ 0,k 

= σ2 (t − k) 

σ 2 t 

= t − k 

t 

= 1 − k 

t = ρ t,k 

(depende de t). Coligindo todos resultados conclui-se que a média, a variância e a covariân- 

cia não dependem de t se |φ| < 1. Em suma, 

|φ| < 1 ⇔ yt é ESO 

(supondo que a condição inicial tem distribuição estacionária ou que o processo foi iniciado 

num passado remoto). 

AR(1) 

Outra forma de analisar a questão em estudo é a seguinte 18 . Considere-se novamente o 


O esqueleto da equação anterior é a equação às diferenças finitas 

˜yt = f (˜yt−1) = c + φ˜yt−1, f (x) = c + φx 

Satisfeitas outras condições (ver Tong, 1990) o processo y é EE se o ponto fixo ¯y da EDF 

˜yt = c + φ˜yt−1 é assimptoticamente estável. O ponto fixo ¯y da equação às diferenças finitas 

18 Apenas para o leitor que tenha estudado o problema da estabilidade no âmbito das equações às diferenças 

finitas determinísticas. 

197

(determinística) é o que resulta de 

¯y = f (¯y) 

¯y = c + φ¯y ⇒ ¯y = c 

1 − φ . 

Como se sabe, a condição |f ′ (¯y)| < 1 implica que ¯y é assimptoticamente estável. Ora 

f ′ (x) = φ. Portanto, se |φ| < 1, ¯y é assimptoticamente estável e y é EE. 

Pode-se também recorrer às proposições 4.5.1 e 4.5.4 notando que, no caso AR(1) a 

função g é g (x) = φx e imediatamente se verifica que |g (x)| < |x| se |φ| < 1. Nas 

condições das proposições referidas, o processo é EE. É ESO se o momento de segunda 

ordem existir. Facilmente se verifica que existe. Nestas condições, o processo AR(1), com 

|φ| < 1, é EE e ESO. 

6.E Estacionaridade de 2 a Ordem do Processo AR(p) 

A ESO pode ser analisada convertendo a equação yt = φ 1yt−1+...+φ pyt−p+ut num sistema 

de equações lineares mediante as seguintes mudanças de variáveis: 

Tem-se 

y1,t = yt, y2,t = yt−1, ..., yp,t = yt−p+1. 

y1,t = c + φ 1yt−1 + ... + φ pyt−p + ut 

y2,t = y1,t−1 

yp,t = yp−1,t. 

. 

198

De forma compacta, tem-se uma estrutura de um processo vectorial AR(1), habitualmente 

designado por VAR(1) (vector AR), yt= c + Ay t−1+g t, i.e. 

⎛ ⎞ ⎛ 

⎞⎛ 

⎞ ⎛ ⎞ 

y1,t φ 

⎜ ⎟ ⎜ 1 

⎜ ⎟ ⎜ 

⎜ y2,t ⎟ ⎜ 1 

⎜ ⎟ 

⎜ ⎟ = ⎜ 

⎜ . ⎟ ⎜ . 

⎝ ⎠ ⎝ 

φ2 0 

. 

· · · 

· · · 

.. . 

φn−1 0 

. 

φn y1,t−1 ut 

⎟⎜ 

⎟ ⎜ ⎟ 

⎟⎜ 

⎟ ⎜ ⎟ 

0 ⎟⎜ 

y2,t−1 ⎟ ⎜ 0 ⎟ 

⎟⎜ 

⎟ 

⎟⎜ 

⎟ + ⎜ ⎟ 

⎜ ⎟ 

. ⎟⎜ 

. ⎟ ⎜ . ⎟ 

⎠⎝ 

⎠ ⎝ ⎠ 

 

yp,t 

 

0 0 · · · 

 

1 0 

 

yp,t−1 

 

0 

 

yt 

A 

Resolvendo recursivamente o sistema yt= Ay t−1+g t (dada a condição inicial Y0) obtém-se 

yt−1 

yt= A t y0+A t−1 g1+A t−2 g2+... + Ag t−1+g t. 

É relativamente óbvio que devemos exigir A t → O (matriz nula) quando t → ∞. Por 

exemplo se A t → O quando t → ∞ então 

E (yt| F0) = A t y0 → 0 (vector nulo) 

(isto é E (yt| F0) converge para a sua média marginal, se A t → O). Seja Λ = diag (λ1, ..., λn) 

a matriz dos valores próprios de A e P a matriz dos vectores próprios associados (admitem- 

se linearmente independentes). Como se sabe da álgebra linear, verifica-se a igualdade 

A t = PΛ t P −1 . Logo devemos exigir que todos os valores próprios de A sejam em mó- 

dulo menores do que um. Só nestas condições se tem A t → O. Pode-se provar que esta 

condição é equivalente à seguinte: o processo AR(p) é estacionário sse as raízes da equação 

φ p (L) = 0 estão todas fora do círculo unitário no plano complexo. 

6.F Processos ARMA Sazonais 

Neste apêndice faz-se uma breve análise dos processos ARMA sazonais ou SARMA. 

Muitas sucessões envolvem uma componente sazonal ou periódica de período S (número 

de observações por período). Exemplos: 

199 

gt

0.04 

0.03 

0.02 

0.01 

0.00 

0.01 

yt Frequência S 

Entrada de Turistas Mensal 12 

Entrada de Turistas Trimestral 4 

Retornos de um Título Diários 5 

Crédito Total ao Consumo EUA 

0.02 

1980 1981 1982 1983 1984 1985 

Considere-se, yt - entrada de turistas na fronteira, dados mensais. É natural esperar: 

yt−12 “alto”⇒ yt “alto” 

yt−12 “baixo”⇒ yt “baixo” 

Se só existisse a componente sazonal teríamos: 

Processo AR(P)S 

yt = Φ1yt−12 + ut, ou 

yt = Φ1yt−12 + Φ1yt−24 + ut. 

• AR(1)S yt = Φ1yt−S + ut ut ruído branco 

• AR(2)S 

• AR(P)S 

yt = Φ1yt−S + Φ2yt−2S + ut 

yt = Φ1yt−12 + Φ2yt−2s + ... + ΦP yt−P s + ut ou, 

1 − Φ1L S − Φ2L 2S − ... − ΦP L P S yt = ut 

200 

ΦP 

L S yt = ut.

Para um AR(1)S, yt = Φ1yt−S + ut, deixa-se como exercício verificar que 

yt = 

∞ 

j=0 

Var (yt) = σ 2 

Φ j 

1ut−jS, E (yt) = 0, 

∞ 

j=0 

Φ 2j 

1 = σ2 

1 − Φ 2 1 

Relativamente à covariância pode-se concluir: 

Donde 

Cov (yt, yt+1) = 

∞ 

i=0 

i=0 

∞ 

j=0 

j=0 

Φ i 1Φ j 

1 E (ut−iSut+1−jS) = 0 

(σ 2 = Var (ut) ), 

Cov (yt, yt+2) = Cov (yt, yt+3) = Cov (yt, yt+S−1) = 0 

Cov (yt, yt+S) = 

∞ ∞ 

Φ i 1Φ j+1 

1 E (ut−iSut−jS) = σ 2 

∞ 

Φ j 

1Φ j+1 2 Φ1 

1 = σ 

1 − Φ2 . 

1 

Também se pode concluir 

⎧ 

⎨ 

ρk = 

⎩ 

Φ m 1 

i=0 

k = mS, m = 0, 1, 2, ... 

0 k = mS, m = 0, 1, 2, ... 

⎧ 

⎨ Φ1 k = S 

φkk = 

⎩ 0 k = S. 

Na figura seguinte apresenta-se a FAC e FACP (teóricas) de um processo AR(1)S=12 com 

Φ1 = 0.5. 

1 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

1 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

FAC 

0 12 24 36 48 

FACP 

0 12 24 36 48 

O processo AR(P)S tem o mesmo comportamento básico do processo AR(P). 

Processo MA(Q)S 

• MA(1)S yt = −Θ1ut−S + ut, ut ruído branco; 

201

• MA(2)S 

• MA(Q)S 

yt = −Θ1ut−S − Θ2ut−2S + ut; 

yt = −Θ1ut−S − Θ2ut−2S − ... − ΘQut−QS + ut ou, 

yt = 1 − Θ1L S − Θ2L 2S − ... − ΘQL Qs ut 

yt = 

S 

ΘQ L ut 

Para um MA(1)S, yt = −Θ1ut−S + ut, deixa-se como exercício verificar que 

Também se pode concluir: 

e 

E (yt) = 0, 

Var (yt) = 1 + Θ 2 2 

1 σ 

⎧ 

⎨ 

ρk = 

⎩ 

⎧ 

⎨ 

φkk = 

⎩ 

− Θ1 

1+Θ 2 1 

(σ 2 = Var (ut) ). 

k = S 

0 k = S 

− Θ1 

1+Θ2 1 

− Θm 1 (1−Θ2 1) 

1−Θ 2(m+1) 

1 

k = S 

k = S. 

Na figura seguinte apresenta-se a FAC e FACP (teóricas) de um processo MA(1)S=12 com 

Θ1 = −0.5 

1 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

FAC 

0.1 

0 

0 

1 

0.9 

12 24 

FACP 

36 48 

0.8 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

0 12 24 36 48 

O processo MA(Q)S tem o mesmo comportamento básico do processo MA(Q). 

Processos Multiplicativos ARMA(p,q)(P,Q)S 

Componentes não sazonal e sazonal (modelo ARMA(p,q)(P,Q)S): 

φ p (L) ΦP 

S 

L S 

yt = θq (L) ΘQ L ut 

202

Exemplo 6.F.1 Modelo ARMA(2,1)(1,0)12 

1 − φ1L − φ 2L 2 1 − Φ1L 12 yt = (1 + θ1L) ut 

1 − φ1L − φ 2L 2 − Φ1L 12 + φ 1Φ1L 13 + φ 2Φ1L 14 yt = ut + θ1ut−1 

yt = φ 1yt−1 + φ 2yt−2 + Φ1yt−12 − φ 1Φ1yt−13 − φ 2Φ1yt−14 + ut + θ1ut−1 

Corresponde a um modelo ARMA(14,1) com restrições (não lineares) entre os parâmetros 

(incluindo restrições de nulidade). 

6.G Demonstração da Proposição 6.5.1 

Dem. a) Dado o modelo y = Xβ 1 + γd + u, o estimador OLS de γ é 

ˆγ = (d ′ Md) −1 d ′ My, M = I − X (X ′ X) −1 X ′ 

= (d ′ Md) −1 d ′ M (Xβ 1 + γd + u) 

= γ + (d ′ Md) −1 d ′ Mu. 

Analise-se a convergência em probabilidade dos termos (d ′ Md) −1 e d ′ Mu (note-se que 

ˆ ξ 

p 

−→ ξ e ˆ ζ 

p 

−→ ζ implica ˆ ξ ˆ ζ 

p 

−→ ξζ). Tem-se 

d ′ Md = d ′ 

 

I − X (X ′ X) −1 X ′ 

 

d 

= d ′ d − d ′ X (X ′ X) −1 X ′ d 

= 1 − x ′ t∗ (X′ X) −1 xt∗ 

= 1 − x′ ′ −1 

t∗ X X 

xt∗. 

n n 

Tendo em conta que x ′ t∗ /n −→ 0 e X ′ 

X −1 p −1 −→ Q facilmente se conclui que 

n 

d ′ Md p 

−→ 1. (6.25) 

203

Por outro lado, 

d ′ Mu = d ′ 

 

I − X (X ′ X) −1 X ′ 

 

u 

e, usando um raciocínio idêntico, conclui-se que 

Devido a (6.25) e (6.26) resulta: 

b) Considere-se 

Tem-se 

e, 

Resulta ˆγ 

ˆεt∗ 

p 

−→ 1 

ˆγ = 

= d ′ u − d ′ X (X ′ X) −1 X ′ u 

= ut∗ − d ′ ′ −1 ′ X X X u 

X 

n n 

d ′ Md p 

−→ ut∗. (6.26) 

ˆγ=γ+ (d ′ Md) −1 d ′ Mu p 

−→ γ + ut∗. 

= 

ˆγ 

ˆεt∗ 

y = Xβ 0 + ε, ˆεt∗ = d ′ My. 

 

1 − x′ ′ 

t∗ X X 

n n 

 

1 − x′ ′ 

t∗ X X 

n n 

= 

 

1 − x′ t∗ 

n 

−1 

−1 

X ′ X 

n 

xt∗ 

xt∗ 

−1 

−1 

−1 

xt∗ 

d ′ My 

ˆεt∗ 

−1 

6.H Uma Nota sobre Intervalos de Confiança 

Considere-se novamente a equação (6.13). Argumentámos que a substituição de µ n+h,n por 

ˆµ n+h,n aumenta a variância do erro de previsão numa quantidade proporcional a 1/n. Veja-se 

esta questão mais em pormenor. 

204 

.

Quando µ n+h,n é desconhecido, a variável yn+h definida em 

P (l1 < yn+h < l2| Fn) = 0.95, 

deve ser centrada usando-se ˆµ n+h,n (e não µ n+h,n) Observe-se que a variável yn+h − ˆµ n+1,n 

continua a possuir distribuição normal de média zero. No entanto, a variância de yn+h − 

ˆµ n+1,n é agora, 

Var yn+h − ˆµ n+h,n 

 

Fn 

 

= Var yn+h − µ n+h,n + ˆµ n+h,n − µ 

n+h,n Fn 

= Var 

yn+h − µ 

n+h,n Fn + Var ˆµn+h,n − µ n+h,n 

= Var (e (h)) + Var 

ˆµ n+h,n − µ 

n+h,n Fn 

(observe-se que yn+h−µ n+h,n é independente de ˆµ n+h,n−µ n+h,n, pois yn+h−µ n+h,n envolve 

apenas erros aleatórios posteriores a n, enquanto ˆµ n+h,n − µ n+h,n envolve variáveis até ao 

período n). Como consequência, o IC a 95% construído a partir de ˆµ n+h,n é 

 

ˆµ n+h,n ± 1.96 Var (e (h)) + Var 

ˆµ n+h,n − µ n+h,n 

Pode-se provar que Var 


n+h,n Fn é uma quantidade de ordem O (1/n); assim, 

para amostra grandes, Var 


n+h,n Fn é uma quantidade “pequena” quando comparada 

com Var (e (h)) e pode ser negligenciada. A quantidade Var 


n+h,n Fn 

pode ser estimada a partir de uma equação auxiliar. Para exemplificar considere-se a previsão 

a um passo de um AR(1). A estimativa de c da equação 

yt = c + φ 1 (yt−1 − yn) + ut 

fornece uma estimativa para µ n+1,h (i.e., fornece ˆµ n+1,n) pois ˆyn+1 = ĉ + ˆ φ 1 (yn − yn) = ĉ. 

Por outro lado, o erro padrão de ĉ = ˆµ n+1,n é uma estimativa para 

Var ˆµ n+1,n − µ n+1,n 

 

Fn 

205 

 

= Var ˆµn+1,n 

Fn 

Fn 

. 

. 

Fn

6.I U E + U V + U C = 1 

Veja-se em primeiro lugar que o EQM pode-se decompor em várias parcelas. Considere-se: 

Assim 

EQM = 1 

h 

= 1 

h 

= 1 

h 

h 

i=1 

h 

i=1 

h 

i=1 

(y o i − y p 

i )2 

(y o i − ¯y o + ¯y o − y p 

i + ¯yp − ¯y p ) 2 

((y o i − ¯y o ) − (y p 

i − ¯yp ) + (¯y o − ¯y p )) 2 

= 1 

h 

(y 

h 

i=1 

o i − ¯y o ) 2 

 

σ2 + 

o 

1 

h 

(y 

h 

i=1 

p 

i − ¯yp ) 2 

 

σ2 p 

+ (¯y o − ¯y p ) 2 − 2 1 

h 

(y 

h 

i=1 

o i − ¯y o ) (y p 

i − ¯yp ) 

 

ρσ0σp 

= σ 2 o + σ 2 p + (¯y o − ¯y p ) 2 − 2ρσ0σp 

= (σo − σp) 2 + (¯y o − ¯y p ) 2 + 2 (1 − ρ) σ0σp 

EQM = (σo − σp) 2 + (¯y o − ¯y p ) 2 + 2 (1 − ρ) σ0σp 

e, portanto, dividindo ambos os termos pelo EQM, obtém-se 

1 = EQM 

EQM 

= (σo − σp) 2 

EQM 

 

U V 

+ (¯yo − ¯y p ) 2 

EQM 

 

U E 

+ 2 (1 − ρ) σ0σp 

206 

EQM 

 

U C

Capítulo 7 

Modelação da Média: Abordagem Não 

Linear 

7.1 Introdução 


Ao longo das últimas décadas os modelos ARMA têm dominado a abordagem de séries tem- 

porais (os primeiros trabalhados datam de 1927 com os modelos autoregressivos estudados 

por Yule). Existem razões para o sucesso dos modelos ARMA Gaussianos: 

• simplicidade: as equações às diferenças finitas são fáceis de tratar; 

• o modelo ARMA Gaussiano é completamente caracterizado pela média, variância e 

pelas autocorrelações; 

• são fáceis de aplicar e implementar (a maioria dos programas de estatísticas possui um 

módulo para tratar os modelos ARMA); 

• a teoria está completamente desenvolvida: as principais questões, relacionadas com a 

estimação, inferência e previsão estão resolvidas; 

• apesar da simplicidade são relativamente flexíveis e úteis na previsão. 

Todavia, os modelos ARMA apresentam limitações: 

• não são apropriados para dados que exibam súbitas alterações em períodos irregulares; 

207

• não são apropriados para dados que exibam forte assimetria e achatamento; 

• os coeficiente de autocorrelação e autocorrelação parcial de ordem k são apenas um 

dos aspectos da distribuição conjunta de (yt, yt−k) . Pode suceder ρ k e φ kk serem 

baixos, mas existir uma forte relação não linear entre yt e yt−k. Por exemplo ρ k (y 2 ) = 

Corr y2 t , y2 

t−k pode ser alto; 

• não modelam dados que exibam “soluções periódicas estáveis”. Retomaremos este 

tema mais à frente. 

Discuta-se um pouco mais em detalhe a primeira limitação mencionada. Um modelo 

 

ARMA Gaussiano estacionário possui momentos de todas as ordens, i.e., E |yt| k 

< ∞ 

para qualquer k ∈ N. Este facto implica que a probabilidade de y assumir (transitoriamente) 

valores muito altos ou muito baixos é praticamente nula e, neste sentido, os modelos ARMA 

não são apropriados para dados que exibam súbitas alterações em períodos irregulares. Para 

esclarecer este ponto, assuma-se que E (y) = 0 e recorde-se que se y possui o momento de 

ordem k, então (pela desigualdade de Markov) vem, para c > 0 

P (|y| > c) ≤ O c −k 

A expressão anterior estabelece que P (|y| > c) é proporcional (ou menos do que propor- 

cional) a c −k . Como c −k tende para zero quando c → ∞, P (|y| > c) tende também para 

zero nas mesmas condições, e relativamente depressa se k é uma valor alto. Logo, a possi- 

bilidade de |y| assumir um valor arbitrariamente grande é praticamente nula. Se y possuir 

apenas o primeiro ou segundo momento, P (|y| > c) continua a tender para zero, mas a uma 

taxa muito mais baixa, e y pode assumir valores “moderadamente” altos. A existência de 

todos os momento como no caso do modelo ARMA Gaussiano, pode, em certos casos, não 

ser uma propriedade desejável, pois em última análise impede que o modelo capte dados que 

exibam súbitas alterações, excluindo portanto, os casos em que y assume transitoriamente 

valores muito altos ou muito baixos. 

Enquanto os modelos lineares são definidos apenas pela representação ARMA, o número 

de especificações não lineares é virtualmente infinito. Embora a literatura dos modelos não 

lineares esteja ainda na sua infância, existem já muitos modelos não lineares propostos na 

literatura. Vamos apenas focar alguns modelos não lineares mais utilizados. Mas afinal, o 

que é um modelo não linear? 

208

Uma forma simples (mas não geral) de introduzir modelos não lineares consiste em ap- 

resentar a não linearidade através dos momentos condicionais. Considere-se o modelo 

yt = µ t + ut, ut = σtεt 

onde εt é um ruído branco, µ t = g (yt−1, yt−2, .., yt−p; ut−1, ut−2, ...ut−q) é a média condi- 

cional de yt e σ 2 t = h (yt−1, yt−2, ..., yt−˜p; ut−1, ut−2, ..., ut−˜q) > 0 é a variância condicional 

de yt. O modelo é não linear na média se g é uma função não linear dos seus argumentos 1 . 

O modelo é não linear na variância se σt é não constante ao longo do tempo pois, neste caso, 

o processo {ut}, definido por ut = σtεt, é não linear, por ser um processo multiplicativo. 

Vejamos alguns exemplos. No caso 

yt = φyt−1 + log 1 + y 2 

t−1 + ut 

tem-se um processo não linear na média, pois, µ t = φyt−1 + log 1 + y2 

t−1 é uma função 

não linear de yt−1. Também 

yt = ξut−1ut−2 + ut 

é um processo não linear, pois µ t = ξut−1ut−2 é não linear nos valores passados de ut. 

Os modelos não lineares na variância mais conhecidos são os modelos do tipo ARCH; 

serão discutidos no capítulo 8. 

Uma classe importante de processos não lineares na média baseiam-se na ideia de regime- 

switching. Podem ser usados em duas circunstâncias gerais: 

• existem alterações bruscas e inesperadas nas trajectórias dos processos (e.g., ataques 

especulativos, crashes bolsistas, anúncios públicos de medidas do governo, eventos 

políticos e, em geral, eventos extraordinários não antecipados). 

• existem alterações da dinâmica do processo sem alterações bruscas nas trajectórias. 

Por exemplo, a taxa de juro no período 1993 a 2006 exibe dois períodos com com- 

portamento bem diferenciado: no primeiro, as taxas de juro e a volatilidade são rel- 

ativamente altas e o processo evidencia uma tendência de reversão para uma média, 

seguindo-se, depois de 1995, um período de baixas taxas de juro, baixa volatilidade e 

1 Dizemos que uma função é não linear se não for uma função linear afim, i.e., se não verificar a relação 

f (x1, ..., xn) = a0 + a1x1 + ... + anxn, onde ai ∈ R. 

209

ausência de reversão para uma média. Outro exemplo é a taxa de inflação no período 

1974-2006 (basta verificar os níveis de inflação e volatilidade nos anos 70/80 e nos 

anos 90). 

Para este tipo de fenómenos, os modelos com alterações (estocásticas) de regime (ou 

regime-switching) podem ser, no essencial, de dois tipos: 

• a mudança de regime é função de uma variável observável; são exemplos, modelos 

com variáveis impulso (dummy), os modelos limiares ou threshold AR (TAR), os mod- 

elos onde os coeficientes associados às componentes AR são funções não lineares dos 

valores passados y (STAR, smoothed transition AR), entre outros; 

• a mudança de regime não é observada, incluindo-se, nesta classe, os modelos onde os 

regimes são independentes entre si (como, por exemplo, os modelos simple switching 

ou de Bernoulli) e os modelos onde existe dependência entre os regimes (como por 

exemplo, os modelos MS, Markov-Switching). 

Antes de entrarmos nos processos estocásticos não lineares, faz-se, na próxima secção, 

uma breve incursão sobre os sistemas autónomos do tipo 

yt = g (yt−1) 

(determinísticos). O estudo da estabilidade deste tipo de sistemas é relevante para um estudo 

mais aprofundado dos processos estocásticos do tipo yt = g (yt−1)+ut (ou, mais geralmente, 

yt = g (yt−1, yt−2, ..., yt−p) + ut), pois parte da dinâmica subjacente ao processo estocástico 

depende da função g (ou g no caso multivariado). 

7.2 Estabilidade em Equações às Diferenças Finitas Deter- 

minísticas 

Nesta secção vamos analisa-se o sistema autónomo yt = g (yt−1) onde y é um vector de 

tipo m × 1 e g é uma função real 2 g : R m → R m . O modelo é determinístico (a condição 

inicial é determinística - i.e. é conhecida). 

2 O domínio de g poderá ser S ⊂ R m mas neste caso devemos exigir que S ⊆ g (S) (suponha-se que esta 

condição não se verifica - então poderia suceder que ξ ∈ S e y1 = g (ξ) /∈ S e não seria possível agora 

continuar com y2 = g (y1) = g (g (ξ)) pois g (ξ) /∈ S). 

210

7.2.1 Pontos Fixos e Estabilidade de Sistemas Lineares 

Definição 7.2.1 (Ponto Fixo de f) Um vector ¯y é designado por ponto fixo de g se g (t, ¯y) = 

¯y, para todo o t. 

No ponto fixo o sistema dinâmico discreto não varia (está em equilíbrio). Com efeito, 

se yt−1 = ¯y e ¯y é um ponto fixo, a variação da solução, ∆yt, é nula, i.e., ∆yt = yt − 

yt−1= g (yt−1) − yt−1= ¯y − ¯y = 0. 

Por exemplo, considere-se y0 = 2 e a equação às diferenças finitas (EDF) 3 yt = (1/2) yt−1+ 

1 (note-se m = 1). Iterando a equação é fácil verificar que y1 = 2, y2 = 2, ... Logo ¯y = 2 é 

o ponto fixo de g (x) = (1/2) x + 1. Para calcular o ponto fixo de g basta resolver a equação 

(1/2) ¯y + 1 = ¯y em ordem a ¯y. 

Exemplo 7.2.1 Considere-se yt = 2yt−1 (1 − yt−1) . Tem-se g (x) = 2x (1 − x) . Os pontos 

fixos (de g) calculam-se a partir da relação g (¯y) = ¯y, i.e., 2¯y (1 − ¯y) = ¯y. Os pontos fixos 

são portanto ¯y = 0 e ¯y = 1/2. 

Exemplo 7.2.2 Considere-se o sistema não linear 

Tem-se, portanto 

⎛ 

⎝ y1t 

g ⎝ 

com domínio ⎧⎛ ⎨ 

⎩ 

y2t 

⎛⎛ 

⎝ x1 

⎞ 

⎝ x1 

x2 

⎠ = 

x2 

⎛ 

⎞⎞ 

⎝ y2t−1 

⎠⎠ 

= 

y2t−1 

y1t−1 

⎛ 

⎝ x2 

⎞ 

x2 

x1 

⎠ . 

⎞ 

⎠ 

⎞ 

⎠ ∈ R 2 ⎫ 

⎬ 

: x1 = 0 

⎭ . 

Determinem-se os pontos fixos de g. Para o efeito, resolve-se g (x) = x, i.e., 

⎛ 

⎝ x2 

x2 

x1 

⎞ 

⎠ = 

⎛ 

⎝ x1 

3 O ramo da matemática que estuda a dinâmica de sistemas determísticos usa, por vezes, uma linguagem um 

pouco diferente da que estamos habituados. Por exemplo, a equação yt = φyt−1 é designada por equação às 

diferenças finitas homogénas de primeira ordem linear. Mantemos a designação “equação às diferenças finitas” 

ou “sistema de equações às diferenças finitas” (consoante o caso) para identificar a equação yt = g (yt−1) . 

211 

x2 

⎞ 

⎠ .

y t 

4 

2 

e 

d 

a 

4 2 2 4 

2 

4 

c 

Linha 45º 

Figura 7-1: Gráfico Teia de Aranha do PVI yt = 0.5yt−1, y0 = 4 

É fácil verificar que o único ponto fixo é 

⎛ 

⎝ 1 

1 

Proposição 7.2.1 Seja S um intervalo fechado e g : S → R uma função contínua. Se 

S ⊆ g (S) então g tem um ponto fixo em S. 

Dem. Nicolau (2004). 

⎞ 

⎠ . 

Quando m = 1 e a EDF é autónoma é muito útil o gráfico teia de aranha no estudo da 

estabilidade. Para ilustrar a interpretação do gráfico representa-se na figura 7-1 o gráfico 

teia de aranha associado à equação yt = 0.5yt−1, com valor inicial y0 = 4 (ponto a). No 

momento 1 tem-se y1 = 0.5 × 4 = 2 (ponto b ou c). Este valor, y1 = 2, pode ser interpretado 

como o valor inicial com respeito a y2; assim, poderíamos colocar y1 = 2 no eixo das 

abcissas. Em alternativa, o valor y1 ”parte” da linha de 45 0 (ponto c) e o procedimento é 

repetido iterativamente. Assim, no momento 2 tem-se y2 = 0.5 × 2 = 1 (ponto e) e assim 

sucessivamente. O gráfico mostra que limt→∞ yt = 0. 

Na figura 7-2 representa-se o gráfico teia de aranha da EDF yt = y 2 t−1 (o que sucede 

quando o valor inicial se encontra no intervalo (1, ∞) ? E no intervalo (0, 1)? E ainda no 

intervalo(−1, 0)?) 

212 

b 

f(x) 

y t1

Figura 7-2: Gráfico Teia de Aranha da Aplicação f (x) = x 2 (estão traçadas duas órbitas 

com valores inicias -1.1 e 0.9) 

Seja yt = yt (y0) a solução da EDF (ou do sistema de EDF) yt = g (t, yt−1) , dada a 

condição inicial y0 (para simplificar admite-se, sem perda de generalidade, que t0 = 0). A 

expressão yt (y0) define a solução como uma função explícita da condição inicial y0. No 

caso da EDF autónomas é usual considerar-se a notação yt = g t (y0) em lugar de yt = yt (y0) 

onde 

Exemplo 7.2.3 Se g (x) = 1 , então 

1+x 

g 2 

1 

(x) = g (g (x)) = g 

g t (x) := g(...g(g(x))). 

 

t vezes 

 

1 

= 

1 + x 1 + 1 , 

1+x 

g 3 

1 

(x) = g (g (g (x))) = g g 

= g 

1 + x 

Dada a EDF yt = 1 

1+yt−1 , o valor y3 dado y0 = 1 é 

g 3 (1) = 

1 

1 + 1 

1+ 1 

1+1 

= 3 

5 . 

1 

1 + 1 

1+x 

 

= 

1 

1 + 1 

1+ 1 

. 

1+x 

Naturalmente, podemos obter este valor considerando o procedimento iterativo, 

y1 = 1 

1 + 1 

= 1 

2 , y2 = 1 

1 + 1 

2 

= 2 

3 , y3 = 1 

1 + 2 

3 

A expressão g t (y0) representa o valor de yt dada a condição y0. 

= 3 

5 . 

Definição 7.2.2 (Estabilidade - Caso g : R → R) O ponto fixo ¯y diz-se estável se para cada 

ε > 0 existe um δ = δ (t0, ε) tal que, para cada qualquer solução yt (y0) a desigualdade 

213

|y0 − ¯y| ≤ δ implica |yt (y0) − ¯y| < ε para todo o t ≥ t0. O ponto fixo ¯y diz-se assimptot- 

icamente estável se é estável e se existe um δ0 > 0 tal que a desigualdade |y0 − ¯y| ≤ δ0 

implica |yt (y0) − ¯y| → 0 quando t → ∞. O ponto fixo ¯y diz-se instável se não é estável. 4 

(A definição adapta-se facilmente ao caso multivariado - basta trocar |·| por · e ajustar 

as notações). Grosso modo, um ponto fixo ¯y é estável se yt = yt (y0) permanecer “perto” de 

¯y para todo o t sempre que y0 se encontrar “perto” de ¯y. O ponto fixo ¯y é assimptoticamente 

estável se for estável e toda a solução inicializada perto de ¯y converge para ¯y. 

Exemplo 7.2.4 Considere-se yt = φyt−1 +c, com c = 0. Tem-se g (x) = φx+c. Resolvendo 

g (¯y) = ¯y, i.e., φ¯y + c = ¯y conclui-se que o (único) ponto fixo é ¯y = c/ (1 − φ). No 

caso φ = 1 não existe ponto fixo (a equação x + c = x é impossível, com c = 0). A 

estabilidade do ponto fixo ¯y pode, no caso presente, ser discutida directamente a partir g t 

(na generalidade dos casos não lineares não é possível obter g t ). Tem-se, com a condição 

inicial y0, yt = gt (y0) = y0φ t + c 1−φt 

. Assim 

1−φ 

g t (y0) − ¯y = y0φ t 1 − φt c 

+ c − 

1 − φ 1 − φ 

 

g t (y0) − ¯y = |φ| t 

 

 

 

y0 − c 

 

 

 

1 − φ 

= φt 

 

= |φ|t |y0 − ¯y| . 

y0 − c 

 

1 − φ 

Impondo |g t (y0) − ¯y| < ε vem |φ| t |y0 − ¯y| < ε. Se |φ| < 1 então ¯y é estável. Basta 

considerar um δ tal que |y0 − ¯y| ≤ δ < ε. Nestas condições tem-se |g t (y0) − ¯y| < ε para 

todo o t > 0. Se |φ| > 1 o termo |g t (y0) − ¯y| tende para ∞ o que significa que não existe 

um δ > 0 nos termos da definição de ponto fixo estável; logo ¯y é instável. Analise-se a 

estabilidade assimptótica. Tem-se para φ = 1 

lim 

t→∞ gt 

(y0) = lim y0φ 

t→∞ 

t + c 

 

1 − φt 

= 

1 − φ 

⎧ 

⎨ 

⎩ 

c 

1−φ 

= ¯y se |φ| < 1 

±∞ se |φ| > 1 

Assim, se |φ| < 1 o ponto fixo ¯y é assimptoticamente estável; se |φ| > 1, ¯y é instável. 

Exemplo 7.2.5 Retome-se o exemplo 7.2.1 (yt = 2yt−1 (1 − yt−1)). Vimos que os pontos 

fixos são ¯y = 0 e ¯y = 1. 

Discute-se agora a estabilidade a partir do gráfico teia de aranha 

2 

- ver a figura 7-3. Estão representados três valores iniciais. É fácil concluir que qualquer 

ponto que se encontre numa vizinhança do ponto fixo 1/2 (por exemplo ponto A ou B) não 

4 Se a EDF é autónoma leia-se g t (y0) em lugar de yt (y0) . 

214

0.6 

0.4 

0.2 

C 

0.5 0.25 0.25 0.5 0.75 1 

0.2 

0.4 

A B 

Figura 7-3: Gráfico Teia de Aranha da equação yt = 2yt−1 (1 − yt−1) (representados três 

valores iniciais). 

só não se afasta de 1/2 como também converge para ¯y = 1/2. Este ponto fixo é portanto 

assimptoticamente estável. O ponto fixo zero é instável. Basta observar o que sucede quando 

y é inicializado no ponto C. 

e seja 

Considere-se um sistema de m equações lineares yt = Ay t−1 com a condição inicial y0 

r = max {|λi| : λi é um valor próprio de A (i = 1, ..., m)} . (7.1) 

A estabilidade de um sistema de equações lineares é estabelecida na seguinte 

Proposição 7.2.2 (a) Se r < δ < 1 então existe uma constante C > 0 tal que 

yt ≤ Cδ t y0 

para t ≥ 0, para qualquer y0 ∈ R. Além disso verifica-se limt→∞ yt = 0.(b) Se r > 1 

então algumas soluções do sistema tendem para ∞. (c) Se r ≤ 1 e se a multiplicidade 

algébrica de todos os valores próprios que verificam |λ| = 1 for igual a um então existe uma 

constante C > 0 tal que yt ≤ C y0 para t ≥ 0. 


Notar que se λ é número complexo então |λ| = |α + βi| = α 2 + β 2 . 

Resulta da proposição anterior que o ponto fixo ¯y = 0 é, assimptoticamente estável se 

r < 1, instável se r > 1, e estável se r ≤ 1 e se a multiplicidade algébrica de todos os 

215

12 

10 

8 

6 

4 

2 

0 

2 

4 

0 1 2 3 4 5 6 7 8 9 10 11 

Figura 7-4: Trajectórias y1t e y2t 

valores próprios que verificam |λ| = 1 for igual a um. 

Exemplo 7.2.6 Estude-se a estabilidade do sistema 

⎛ 

⎝ y1t 

y2t 

⎞ ⎛ ⎞ ⎛ 

⎠ = ⎝ 

1 −5 

⎠ 

0.25 −1 

⎝ y1t−1 

y2t−1 

Os valores próprios são ± 1 

1 

i. Logo r = . Como r < 1 conclui-se que o ponto fixo ¯y = 0 

2 2 

é assimptoticamente estável. Nas figuras seguintes analisa-se graficamente a dinâmica do 

sistema admitindo y0 = (10, 1) T . Na figura 7-4 apresentam-se as trajectórias y1t e y2t. A 

figura 7-4 é elucidativa quanto à estabilidade do sistema. Em ambos os casos se observa 

y1t → 0, y2t → 0 quanto t → 0. 

Exemplo 7.2.7 Considere-se o sistema de EDF 

⎛ 

⎞ 

cos θ sen θ 

yt = ⎝ 

− sen θ cos θ 

⎠ yt−1. 

Os valores próprios são λ = cos θ±i sin θ e |cos θ − i sin θ| = |cos θ + i sin θ| = √ cos 2 θ + sin 2 θ = 

1. Como a multiplicidade algébrica de todos os valores próprios que verificam |λ| = 1 é 

igual a um conclui-se que o ponto fixo ¯y = 0 é estável. 

216 

⎞ 

⎠ . 

y1 

y2

7.2.2 Estabilidade de Sistemas Não Lineares 

Linearização 

A proposição seguinte fornece um método para analisar a estabilidade assimptótica no caso 

escalar (EDF autónomas). 

Proposição 7.2.3 Suponha-se que g : R→R tem derivada de primeira ordem contínua num 

intervalo aberto contendo o ponto fixo ¯y. Então (a) se |g ′ (¯y)| < 1, ¯y é assimptoticamente 

estável; (b) se |g ′ (¯y)| > 1, ¯y é instável. 

Dem. (a) Dado que, por definição, 

|g (x) − g (¯y)| 

lim 

x→¯y |x − ¯y| 

|g (x) − ¯y| 

= lim 

x→¯y |x − ¯y| = |g′ (¯y)| 

então existe uma vizinhança Vε (¯y) de raio ε > 0, tal que, para |g ′ (¯y)| < α < 1, 

|g (x) − ¯y| < α |x − ¯y| , x ∈ Vε (¯y) . 

Resulta que x ∈ Vε (¯y) ⇒ g (x) ∈ Vε (¯y) (pela desigualdade anterior, constata-se que g (x) 

está mais "perto"de ¯y do que x está de ¯y, por um factor de ordem α < 1). É imediato verificar 

que g (x) ∈ Vε (¯y) ⇒ g 2 (x) ∈ Vε (¯y) . Repetindo o argumento conclui-se g t (x) ∈ Vε (¯y) . 

Logo, 

 

g 2 (x) − ¯y = |g (g (x)) − ¯y| < α |g (x) − ¯y| < α 2 |x − ¯y| . 

Por indução, conclui-se |g t (x) − ¯y| < α t |x − ¯y|. Como α t → 0 segue-se que ¯y é assimp- 

toticamente estável. (b) Utilizando argumentos idênticos conclui-se que g t (x) se afasta cada 

vez mais de ¯y à medida que t → ∞. 

Exemplo 7.2.8 Retome-se os exemplos 7.2.1 e 7.2.5. Com g (x) = 2x (1 − x) tem-se g ′ (x) = 

2 − 4x e, portanto, pela proposição 7.2.3, o ponto fixo 0 é instável pois |g ′ (0)| = 2 > 1 e o 

ponto 1/2 é assimptoticamente estável pois |g ′ (1/2)| = 0 < 1. 

Analise-se agora a estabilidade de sistemas de EDF. Uma forma de abordar a estabilidade 

de sistemas de EDF consiste em linearizar g (x) em torno do ponto fixo ¯y (o caso escalar ap- 

resentado atrás baseia-se também no método da linearização). Suponha-se que g (x) possui 

derivadas de segunda ordem contínuas. Então, pela fórmula de Taylor vem 

217

gi (x) = gi (¯y) + ∂gi (¯y) 

∂xT (x − ¯y) + 1 

ou, mais compactamente, 

2 (x − ¯y)T ∂g2 i (z) 

(x − ¯y) , i = 1, ..., m 

∂x∂xT g (x) = g (¯y) + g ′ (¯y) (x − ¯y) + h (x) (7.2) 

Note-se que g ′ (¯y) é o Jacobiano de g no ponto ¯y (é uma matriz de constantes). Reescreva-se 

a equação (7.2) na forma 

onde 

A = g ′ ⎜ 

(¯y) = ⎜ 

⎝ 

g (x) = Ax + h (x) 

⎛ 

h (x) = g (¯y) − g ′ (¯y) ¯y + 1 

2 

(note-se que z varia com x). Tem-se agora: 

∂g1(¯y) 

∂x1 

. 

∂gm(¯y) 

∂x1 

⎛ 

⎜ 

⎝ 

· · · 

. .. 

· · · 

∂g1(¯y) 

∂xm 

. 

∂gm(¯y) 

∂xm 

⎞ 

(x − ¯y) T ∂g2 1 (z) 

∂x∂x T (x − ¯y) 

. 

(x − ¯y) T ∂g2 m(z) 

∂x∂x T (x − ¯y) 

⎟ , (7.3) 

⎠ 

Proposição 7.2.4 Suponha-se que g : R m →R m tem derivadas de segunda ordem contínuas 

num conjunto aberto contendo o ponto fixo ¯y. Dado 

r = max {|λi| : λi é um valor próprio de A (i = 1, ..., m)} 

e A é dada pela equação (7.3) tem-se, (a) se r < 1 então ¯y é assimptoticamente estável; (b) 

se r > 1 então ¯y é instável. 

Dem. Kelley e Peterson, (1991), p. 180. 

Obviamente esta proposição generaliza a proposição 7.2.3. 

218 

⎞ 

⎟ 

⎠

Exemplo 7.2.9 Considere-se o seguinte modelo presa-predador, 

y1t−1y2t−1 

y1t = (1 + ρ) y1t−1 − 0.001 

1 + 0.0001y1t−1 

y1t−1y2t−1 

y2t = (1 − δ) y2t−1 + 0.00003 

1 + 0.0001y1t−1 

onde y1t e y2t representa, respectivamente, o número de presas e o número de predadores no 

momento t, ρ é a diferença entre a taxa de nascimento e a taxa de mortalidade das presas e 

δ é a taxa de mortalidade dos predadores. Suponha-se que ρ = 0.1 e δ = 0.01. Tem-se 

⎛ 

g (x1, x2) := ⎝ g1 

⎞ ⎛ 

(x1, x2) 

⎠ = ⎝ 

g2 (x1, x2) 

1.1x1 − 0.001 

0.99x2 + 0.00003 

x1x2 

1+0.0001x1 

x1x2 

1+0.0001x1 

Os pontos fixos resultam da resolução do sistema g (x1, x2) = (x1, x2) . Obtém-se dois 

pontos fixos, 

⎛ 

¯y1 = ⎝ 0 

⎞ ⎛ 

⎠ , 

0 

¯y2 = ⎝ 344.828 

⎞ 

⎠ . 

103.448 

Estude-se a estabilidade do ponto fixo ¯y2, recorrendo-se à proposição 7.2.4. Para o efeito 

determina-se 

⎛ 

A = g ′ (¯y2) = ⎝ 

Depois de alguns cálculos obtém-se 

∂g1(¯y2) 

∂x1 

∂gm(¯y2) 

∂x1 

∂g1(¯y2) 

∂xm 

∂gm(¯y2) 

∂xm 

⎛ 

⎞ 

1.003 

A = ⎝ 

−0.3333 

⎠ . 

0.0029 1 

Os valores próprios são λ1, λ2 = 1.00167 ± 0.0310466i. Donde 

|λ1| = |1.00167 + 0.0310466i| = √ 1.00167 2 + 0.0310466 2 = 1. 002, 

|λ1| = |1.00167 − 0.0310466i| = √ 1.00167 2 + 0.0310466 2 = 1. 002, 

pelo que r = 1.002 > 1 e, portanto, o ponto fixo ¯y2 é instável. A figura 7-5 ilustra o 

comportamento dinâmico do sistema. 

219 

⎞ 

⎠ . 

⎞ 

⎠ .

550 

450 

350 

250 

150 

Método Directo de Liapunov 

50 

50 0 100 200 300 400 500 600 700 

Figura 7-5: Trajectórias y1t e y2t (t = 0, 1, ..., 800) 

Veja-se agora o chamado “Método Directo de Liapunov”. Considere-se um sistema de EDF 

yt = g (yt−1) com a condição inicial y0 e seja ¯y um ponto fixo de g. Considere-se uma 

função real V de m variáveis nas seguintes condições: V é contínua numa vizinhança Vε (¯y) , 

V (x) > 0 se x = ¯y em Vε (¯y) e V (¯y) = 0. Uma função nestas condições designa-se por 

função Liapunov. Defina-se 

∆V (x) := V (g (x)) − V (x) 

em Vε (¯y) (não confundir a função V com a vizinhança de z de raio ε, Vε (z)). 

Proposição 7.2.5 (Método Directo de Liapunov) Seja ¯y um ponto fixo de g e assuma-se 

que g é contínua numa certa vizinhança de ¯y. Se (a) ∆V (x) ≤ 0 para todo o x ∈ Vε (¯y) 

então a solução ¯y é estável; se (b) ∆V (x) < 0 para todo o x ∈ Vε (¯y) e x = ¯y então a 

solução ¯y é assimptoticamente estável; se (c) ∆V (x) > 0 para todo o ε > 0 e x ∈ Vε (¯y) e 

x = ¯y então a solução ¯y é instável. 

Apresenta-se uma explicação heurística do resultado (no caso escalar). Imagine-se a 

função V (x) como uma distância entre x e ¯y com x ∈ Vε (¯y) . Considere-se 0 < δ < ε. 

Por hipótese y0 ∈ Vδ (¯y) e, como, V (g (y0)) ≤ V (y0) o ponto y1 = g (y0) não se afasta 

de ¯y (y1 não está mais distante de ¯y do que y0 está de ¯y). Logo y1 ∈ Vδ (¯y) . Seguindo o 

mesmo raciocínio tem-se que V (g (y1)) ≤ V (y1) implica y2 ∈ Vδ (¯y) . Iterando, conclui- 

se que yt ∈ Vδ (¯y) ⊂ Vε (¯y) . Logo a solução ¯y é estável. Suponha-se agora a desigual- 

dade estrita V (g (x)) < V (x) . Por hipótese y0 ∈ Vε (¯y) e V (g (y0)) < V (y0) implica 

220 

y1 

y2

|g (y0) − ¯y| < α |y0 − ¯y|, 0 < α < 1. Por seu lado, a desigualdade V (g (y1)) < V (y1) im- 

plica |y2 − ¯y| = |g (y1) − ¯y| < α |g (y0) − ¯y| < α 2 |y0 − ¯y| . Iterando, conclui-se |yt − ¯y| < 

α t |g (y0) − ¯y| → 0 quando t → ∞. 

Exemplo 7.2.10 Considere-se yt = yt−1 − y 3 t−1. O único ponto fixo é ¯y = 0. A proposição 

7.2.3 é inconclusivo, pois com g (x) = x − x 3 , tem-se |g ′ (0)| = 1. Considere-se a função 

V (x) = x 2 . Vem 

∆V (x) = x − x 3 2 − x 2 = x 6 − 2x 4 = x 4 x 2 − 2 < 0 

no conjunto x : |x| < √ 2 = V√ 2 (¯y) . Logo o ponto fixo ¯y = 0 é assimptoticamente 

estável. 

Exemplo 7.2.11 Retome-se o exemplo 7.2.7, 

com ponto fixo, 

Defina-se 

⎛ 

⎞ 

cos θ sen θ 

yt = ⎝ 

− sen θ cos θ 

V 

⎛⎛ 

⎝ 

⎛ 

¯y = ⎝ 0 

⎞ 

⎠ . 

0 

⎝ x1 

x2 

⎞⎞ 

⎠ yt−1 

⎠⎠ 

= x 2 1 + x 2 2. 

Facilmente se verifica V (¯y) = 0 e V (x) > 0 para x = ¯y. Tem-se 

⎛⎛ 

∆V (x) = V ⎝⎝ 

x1 

⎞⎞ 

⎛⎛ 

cos θ + x2 sen θ 

−x1 sen θ + x2 cos θ 

⎠⎠ 

− V ⎝ 

⎝ x1 

x2 

⎞⎞ 

⎠⎠ 

= (x1 cos θ + x2 sen θ) 2 + (−x1 sen θ + x2 cos θ) 2 − x 2 1 − x 2 2 

= 0. 

Consequentemente o ponto fixo é estável. 

Bacia do Escoadouro 

Na literatura é usual designar-se um ponto fixo assimptoticamente estável como um escoad- 

ouro (sink) e um ponto fixo instável como fonte (source). A designação escoadouro sugere 

221

que o sistema dinâmico inicializado numa vizinhança do escoadouro converge para o escoad- 

ouro. Utiliza-se também a designação bacia do escoadouro (basin of the skin) para definir 

o conjunto de pontos W tal que se y0 ∈ W então yt = g t (y0) → ¯y (onde ¯y é um es- 

coadouro). Analiticamente escreve-se: W (¯y) = {y0 ∈ R m : g t (y0) → ¯y} 5 . No exemplo 

7.2.5, onde g (x) = 2x (1 − x) , vimos que o ponto 1/2 é um escoadouro: qualquer ponto 

na vizinhança de 1/2 converge para 1/2. Uma inspecção da figura 7-3 sugere que a bacia do 

escoadouro é o conjunto (0, 1) , i.e., W (1/2) = (0, 1) . 

A proposição seguinte tem aplicação no caso de EDF autónomas (não lineares). 

Proposição 7.2.6 Seja E = {x : |g (x) − ¯y| ≤ δ |x − ¯y| , 0 < δ < 1} . Se existe um ε1 > 0 

tal que Vε1 (¯y) ⊂ E então 

para todo o y0 ∈ Vε1 (¯y) . 


yt = g t (y0) → ¯y 

A proposição 7.2.6 não fornece toda a bacia do escoadouro. Na figura 7-6 a função g (x) , 

com ponto fixo ¯y = 1, está definida na região V para x < 1 e na região III para x > 1. Apenas 

os pontos x pertencentes ao intervalo (A, 1) verificam |g (x) − ¯y| < |x − ¯y| . Concretamente, 

E = {x : |g (x) − ¯y| < δ |x − ¯y| , 0 < δ < 1} = (A, 1) mas não existe um ε > 0 tal que 

Vε (¯y) = Vε (1) ⊂ E e, portanto, a proposição 7.2.6 não é aplicável. Também a proposição 

7.2.3 não é aplicável, pois |g ′ (1)| = 1 (admitindo que g ′ (x) existe numa vizinhança de 

1). Verifica-se, no entanto, por simples inspecção gráfica, que o sistema dinâmico definido 

por g (x) converge para ¯y = 1 se o valor inicial pertencer a (A, 1) . Além disso, qualquer 

ponto do intervalo (1, B) tem como aplicação um ponto de (A, 1) . Ou seja, embora não se 

verifique |g (x) − ¯y| < |x − ¯y| quando x ∈ (1, B) , os ponto de (1, B) movem-se para (A, 1) 

onde aqui se tem |g (x) − ¯y| < |x − ¯y| para x ∈ (A, 1) . Assim, a bacia do escoadouro é 

(A, 1) ∪ (1, B) ∪ {1} = (A, B) . 

A discussão precedente sugere uma forma de se determinar a bacia do escoadouro. 

Suponha-se que E1 é um conjunto de pontos y0 tais que g t (y0) → ¯y e y0 ∈ E1 (este 

conjunto pode determinar-se através da proposição 7.2.6). Num segundo passo determina-se 

o conjunto E2 = {x : g (x) ∈ E1} e, por recorrência, Ei+1 = {x : g (x) ∈ Ei} . Se em dado 

momento Ek+1 = Ek então a bacia do escoadouro é dado pela união dos conjuntos E ′ is. 

5 No caso não autónomo deve ler-se W (¯y) = {y0 ∈ R n : yt (y0) → ¯y} . 

222

2.5 

2 

1.5 

1 

0.5 

A B 

0.5 0.5 1 1.5 2 

f(x) 

2.5 

0.5 

V 

VI 

IV 

III 

Figura 7-6: Bacia do Escoadouro 

Exemplo 7.2.12 Considere-se g (x) = (3x − x 3 ) /2 (figura 7-7). Os pontos fixos são −1, 0, 1. 

Analise-se o ponto 1. É fácil verificar que E1 = (0, b) = 0, 1/2 −1 + √ 17 ⊂ W (1) (a 

proposição 7.2.6 é aplicável: numa vizinhança do ponto 1, a função g (x) encontra-se nas 

regiões II e V; no entanto, a proposição fornece um primeiro conjunto contido em E1). Tem- 

se agora 

E2 = {x : g (x) ∈ E1} = {x : 0 < g (x) < b} = (e, c) ∪ (b, d) ⊂ W (1) 

onde e = −2, 11569, c = − √ 3, d = √ 3. Este procedimento pode ser continuado com 

E3 = {x : g (x) ∈ E2}, E4, etc. 

Exemplo 7.2.13 Considere-se g (x) = tan x, −π/2 < x < π/2. O ponto fixo é ¯y = 0 (pois 

g (0) = 0). Na figura 7-8 verifica-se que a função g (x) não se encontra nem na região II 

nem na região V (neste caso concreto, qualquer que seja o valor inicial, o sistema dinâmico 

afasta-se cada vez mais de ¯y = 0). Assim, ¯y = 0 não é escoadouro. 

Exemplo 7.2.14 Considere-se g (x) = 3x (1 − x) . Verifica-se que os pontos fixo são 0 e 

2/3. Na figura 7-9 analisa-se o ponto fixo 2/3 (tendo-se representado para o efeito as 

curvas x e −x + 2¯y = −x + 4/3). A proposição 7.2.3 não esclarece a natureza do ponto 

fixo ¯y = 2/3 pois |g ′ (2/3)| = 1. Também a proposição 7.2.6 não é aplicável pois embora 

E = {x : |g (x) − 2/3| < |x − 2/3|} = (0, 2/3) não existe um ε > 0 tal que Vε (2/3) ⊂ 

E. Também não se pode concluir imediatamente que o intervalo (0, 2/3) pertence à bacia 

223 

I 

II

V 

a e c 1 b 

IV 

VI 

Figura 7-7: Bacia do Escoadouro da Aplicação f (x) = (3x − x 3 ) /2 

V 

VI 

1 0.5 0.5 1 

IV 

1.5 

0.5 

0.5 

1 

1.5 

1 

I 

I 

III 

d 

III 

Figura 7-8: g (x) = tg x 

224 

II 

II

1.5 

0.5 

0.5 

1 

V 

VI 

IV 

0.2 0.4 0.6 0.8 1 

I 

III 

Figura 7-9: g (x) = 3x (1 − x) 

Figura 7-10: Trajectória de yt = 3yt−1 (1 − yt−1), y0 = 0.5 (t = 1, ..., 50) 

do escoadouro (verifique-se isso através de inspecção gráfica). Este exemplo mostra as 

limitações das proposições 7.2.3 e 7.2.6. Pode-se provar que o ponto 2/3 não é de facto 

um escoadouro 6 (i.e. um ponto fixo assimptoticamente estável) pelo que não há lugar à 

determinação da bacia do escoadouro. Na figura representa-se a trajectória yt com t = 

1, ..., 50. 

Um resultado que ultrapassa, em certas circunstâncias, as limitações apontadas às proposições 

7.2.3 e 7.2.6 e, além disso, é directamente aplicável a sistemas de equações às diferenças 

consiste no seguinte. 

6 Prova-se que não existe um ε > 0 tal que f (2/3 − ε) − 2/3 > 2/3 − f 2 (2/3 − ε) . 

225 

II

Proposição 7.2.7 Admitam-se as condições da proposição 7.2.5 e suponha-se ∆V (x) < 0 

para todo o x ∈ Vε (¯y) e x = ¯y. Se y0 ∈ Vε (¯y) então g t (y0) → ¯y quando t → ∞. 

Logo Vε (¯y) ⊆ W (¯y) . 


y1t = 

2 

y2t−1 − y2t−1 y1t−1 + y 2 

2t−1 

y2t = 

2 

y1t−1 − y1t−1 y1t−1 + y 2 

2t−1 . 

Estude-se a estabilidade do ponto fixo ¯y = (0, 0) T e determine-se a respectiva bacia do 

escoadouro. Para o efeito tome-se a função V (x1, x2) = x 2 1 + x 2 2. Vem 

no conjunto 

∆V (x) = 2 

x2 − x2 x1 + x 22 2 

2 + x1 − x1 x1 + x 22 2 

2 − x1 + x 2 2 

= ... 

= x 2 1 + x 2 2 

< 0 

2 2 

−2 + x1 + x 2 2 

 

(x1, x2) : x2 1 + x2 2 < √ 

2 = V√ 2 (¯y) ⊆ W (¯y) . 

Exemplo 7.2.16 Retome-se o exemplo 7.2.10, yt = yt−1−y 3 t−1. Resulta óbvio que V√ 2 (¯y) ⊆ 

W (¯y) . 

Exemplo 7.2.17 Retome-se o exemplo 7.2.12, yt = 3yt−1 − y2 

t−1 /2. Analise-se a bacia 

do escoadouro do ponto ¯y = 1 e, para o efeito, considere-se V (x) = (x − 1) 2 . Tem-se 

∆V (x) = 3x − x 2 /2 − 1 2 − (x − 1) 2 

= 9 

4 x2 − x − 3 

2 x3 + 1 

4 x4 

= 1 

4 (x − 4) (x − 1)2 x. 

A função ∆V (x) está representada na figura 7-11, a qual permite concluir que V1 (1) = 

{x : |x − 1| < 1} ⊆ W (1) . No exemplo 7.2.12 foi-se um pouco mais longe. De facto, 

observou-se que V1 (1) ⊂ W (1). 

A terminar esta secção mostra-se que se um ponto pertence a uma certa bacia de escoad- 

ouro então esse ponto não pode pertencer a outra bacia de escoadouro. Assim, 

226

2 

1 

0 

0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 

1 

2 

3 

4 

Figura 7-11: Gráfico da função ∆V (x) = 1 

4 (x − 4) (x − 1)2 x 

Proposição 7.2.8 Se ¯y1 e ¯y2 são escoadouros e ¯y1 = ¯y2 então W (¯y1) ∩ W (¯y2) = ∅. 

Dem. Mostra-se que W (¯y1) ∩ W (¯y2) = ∅ ⇒ ¯y1 = ¯y2. Seja y0 ∈ W (¯y1) ∩ W (¯y2) . 

Então para cada ε > 0 existe um n1 ∈ N tal que t ≥ n1 implica g t (y0) − ¯y1 < ε/2 e 

existe um n2 ∈ N tal que t ≥ n2 implica g t (y0) − ¯y2 < ε/2. Logo as duas desigual- 

dades verificam-se simultaneamente para o maior dos n ′ s, i.e. definindo n3 = max {n1, n2} 

tem-se que t ≥ n3 implica g t (y0) − ¯y1 < ε/2 e g t (y0) − ¯y2 < ε/2. Utilizando a 

desigualdade triangular para t ≥ n3 vem 

¯y1 − ¯y2 = ¯y1 − g t (y0) − ¯y2 − g t (y0) 

≤ ¯y1 − g t (y0) + ¯y2 − g t (y0) 

< ε ε 

+ 

2 2 

= ε. 

Como a distância entre ¯y1 e ¯y2 é menor do que ε para cada ε > 0, deverá ter-se ¯y1 = ¯y2. 

7.2.3 Pontos Periódicos 

Definições 

Definição 7.2.3 Um vector p ∈ R m é um ponto periódico de período k se 

g k (p) = p (7.4) 

e k é o menor inteiro positivo tal que (7.4) se verifica (i.e., g s (p) = p para s = 1, 2, ..., k − 

1). A órbita de valor inicial p diz-se uma órbita periódica de período k. 

227

Note-se que se p é um ponto periódico de período 2 então p é um ponto fixo de g 2 . O 

recíproco não é verdade. Por exemplo, um ponto fixo de g 2 pode ser também um ponto fixo 

de g e, neste caso, de acordo com a definição, este ponto tem período 1. 

Considere-se uma órbita de valor inicial p, i.e., {p, g (p) , g 2 (p) , ...} . Se p é um ponto 

periódico de período 3, p deve repetir-se de três em três iterações. Por exemplo, {p, g (p) , g 2 (p) , p, ...} . 

Mas g (p) e g 2 (p) também se repetem de três em três iterações, {.., p, g (p) , g 2 (p) , p, g (p) , g 2 (p) , p...} . 

Neste exemplo, é suficiente identificar a órbita de período 3 através dos três elementos 

{p, g (p) , g 2 (p)} (se p é ponto fixo de g e, portanto, ponto periódico de período 1, en- 

tão a órbita periódica de período 1 é constituída apenas pelo elemento {p}). Naturalmente, 

b = g (p) e c = g 2 (p) são também pontos periódicos de período 3. A proposição seguinte 

estabelece este resultado. 

Proposição 7.2.9 Seja p um ponto periódico de g de período k. Então 

são também pontos periódicos de período k. 

g (p) , g 2 (p) , ..., g k−1 (p) 

Dem. Considere-se um ponto genérico do conjunto g (p) , g 2 (p) , ..., g k−1 (p) , pi = 

g i (p) , com i = 1, 2, ..., k − 1. Mostra-se em primeiro lugar que pi não é um ponto fixo de 

g s com s < k, caso contrário pi não poderia ser candidato a ponto periódico de período k 

(definição 7.2.3). Suponha-se no entanto que pi é ponto fixo de g s . Viria 

g s (pi) = pi ⇔ g s g i (p) = g i (p) ⇔ g s+i (p) = g i (p) 

o que significa que p repete de s em s iterações, ou seja que p é ponto fixo de g s . Esta 

conclusão contradiz a hipótese de p ser ponto periódico de período k > s (i.e., a primeira 

vez que p se repete é após k iterações). Basta agora ver que pi = g i (p) é ponto fixo de g k . 

Vem 

g k (pi) = g k g i (p) = g i g k (p) = g i (p) = pi. 

Exemplo 7.2.18 Considere-se a equação yt = ayt−1 (1 − yt−1) . Tem-se portanto g (x) = 

ax (1 − x) . Investigue-se se existem pontos periódicos de período 2. Determine-se g 2 (x) 

g 2 (x) = g (g (x)) = a (g (x)) (1 − g (x)) = a (ax (1 − x)) (1 − ax (1 − x)) . 

228

Poderíamos também obter g 2 (x) considerando 

yt = ayt−1 (1 − yt−1) 

= a (ayt−2 (1 − yt−2)) (1 − (ayt−2 (1 − yt−2))) 

o que permitiria deduzir g 2 (x) = a (ax (1 − x)) (1 − ax (1 − x)) . Para determinar eventu- 

ais pontos periódicos resolve-se a equação g 2 (x) = x em ordem a x. Factorizando g 2 (x)−x 

obtém-se 

−x (1 − a + a x) 1 + a − a x − a 2 x + a 2 x 2 = 0 

pelo que se conclui que os pontos fixos de g 2 são 

x1 = 0, x2 = 

x4 = 

1 

2 

+ 1 

2 

 

1 1 1 

−1 + a + a + (−3 − 2a + a2 ) 

2 2 2 

, x3 = 

, (7.5) 

 

a 

a 

1 a − (−3 − 2a + a2 ) 

2 

. (7.6) 

a 

Estes valores serão pontos periódicos de período 2 se não forem pontos fixos de g. Ora 

resolvendo 

g (x) = x 

sai ¯y = 0 e ¯y = −1+a 

a . Retome-se os pontos fixos apresentados em (7.5) e (7.6). Conclui-se 

que os pontos 0 e (−1 + a) /a não são pontos periódicos de período 2 pois eles são pontos 

fixos de g (e, portanto são pontos periódicos de período 1). Relativamente a x3 conclui-se 

que 

se a = 1, e 

1 

2 

+ 1 

2 

1 

2 

 

1 a + (−3 − 2a + a2 ) 

2 

a 

+ 1 

2 

= −1 + a 

 

1 a + (−3 − 2a + a2 ) 

2 

a 

a 

se a = −1. Logo x3 é ponto periódico de período 2 se a = 1 e a = −1. Seguindo o 

mesmo raciocínio conclui-se que x4 é ponto periódico de período 2 se a = 3 e a = −1. 

= 0 

Para concretizar suponha-se que a = 3.3. Tem-se ¯y = 0, ¯y = −1+a 

a 

= . 696 97, x3 = . 

823 6 e x4 = . 479 43. Na figura 7-12 é evidente que {0. 823 6, 0.47943} forma uma órbita 

de período 2. 

Outra forma (embora pouco eficiente) de confirmarmos as conclusões emergentes da 

figura 7-12 consiste em se calcular iterativamente a trajectória y. A tabela seguinte fornece 

229

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

y 

1 8 15 22 29 36 43 

Figura 7-12: Trajectória de yt = 3.3yt−1 (1 − yt−1) , y0 = 0.1 

t: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 

yt: 0.1000 0.2970 0.6890 0.7071 0.6835 0.7139 0.6740 0.7251 0.6577 0.7429 0.6303 0.7690 0.5863 0.8004 

t: 14 15 16 17 18 19 20 21 22 23 24 25 26 27 

yt: 0.5271 0.8226 0.4816 0.8239 0.4788 0.8235 0.4796 0.8236 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236 

t: 28 29 30 31 32 33 34 35 36 37 38 39 40 41 

yt: 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236 

Figura 7-13: Sucessão yt = 3.3yt−1 (1 − yt−1) , y0 = 0.1, t = 1, ..., 41 

os valores de yt ao longo do tempo, com y0 = 0.1. É óbvio, a partir de certo valor de t 

(digamos, a partir de t = 20) yt repete os valores .8236 e .4794 de duas em duas iterações. 

É também interessante confirmarmos que .823 6 e .47943 são pontos periódico de período 

2 a partir do gráfico teia de aranha, figura 7-14. 

Exemplo 7.2.19 Retome-se o exemplo 7.2.2. Tem-se 

e 

⎛ 

⎛⎛ 

g 2 (x) = g ⎝g ⎝ 

⎛ 

⎛ 

g 3 (x) = g ⎝g ⎝g ⎝ 

⎝ x1 

⎛⎛ 

x2 

⎝ x1 

x2 

⎞⎞⎞ 

⎛⎛ 

⎠⎠⎠ 

= g ⎝ 

⎞⎞⎞⎞ 

⎝ x2 

⎠⎠⎠⎠ 

= g ⎝ 

x2 

x1 

⎛⎛ 

⎝ x2 

x1 

1 

x1 

⎞⎞ 

⎛ 

⎠⎠ 

= ⎝ 

⎞⎞ 

x2 

x1 

x2 

x 1 

x2 

⎛ 

⎠⎠ 

= ⎝ 

⎞ 

⎠ = 

1 

x1 

1 

x 1 

x 2 

x 1 

⎞ 

t 

⎛ 

⎠ = 

⎝ x2 

x1 

1 

x1 

⎛ 

⎞ 

⎠ 

⎝ 1 

x1 

1 

x2 

Deixa-se como exército verificar que não existem ponto periódicos de período 2 e existem 

três pontos periódicos de período 3. 

Um modelo que pode gerar pontos periódico é o modelo linear por troços (ou, simples- 

mente, modelo limiar). Assume-se um comportamento diferenciado do sistema dinâmico 

consoante o estado do sistema no momento t − 1, concretamente, consoante yt−1 se encontre 

230 

⎞ 

⎠ .

0.8 

0.6 

0.4 

0.2 

0.5 0.25 0.25 0.5 0.75 1 

0.2 

0.4 

Figura 7-14: Gráfico Teia de Aranha da equação yt = 3.3yt−1 (1 − yt−1) 

abaixo ou acima de certo limiar γ. No caso mais simples o modelo corresponde a 

yt = 

⎧ 

⎨ 

⎩ 

c1 + φ 1yt−1, yt−1 < γ 

c2 + φ 2yt−1, yt−1 ≥ γ. 

A função g (x) pode não ser contínua (no limiar γ), como o exemplo precedente mostra. 

O modelo seguinte, com c1 = γ (φ 2 − φ 1) + c2, define uma função contínua no ponto γ. 

yt = 

A função g (x) é portanto 

⎧ 

⎨ 

⎩ 

γ (φ 2 − φ 1) + c2 + φ 1yt−1, yt−1 < γ 

c2 + φ 2yt−1, yt−1 ≥ γ. 

⎧ 

⎨ γ (φ2 − φ1) + c2 + φ1x, x < γ 

g (x) = 

⎩ c2 + φ2x, x ≥ γ. 

Logo g (γ) = c2 + φ 2γ e limx↑γ g (x) = γ (φ 2 − φ 1) + c2 + φ 1γ = c2 + γφ 2. Podemos ainda 

exigir a existência de um ponto fixo no ponto γ fazendo 

γ (φ 2 − φ 1) + c2 + φ 1x = x, Solução: x = −γφ 2 + γφ 1 − c2 

φ 1 − 1 

c2 + φ 2x = x, Solução: x = − c2 

φ 2 − 1 

231

e, agora resolvendo, −γφ 2 +γφ 1 −c2 

φ 1 −1 

ou 

Veja-se que 

e 

= − c2 

φ 2 −1 , sai c2 = γ (1 − φ 2) . Assim, tem-se 

⎧ 

⎨ γ (φ2 − φ1) + γ (1 − φ2) + φ1x, x < γ 

g (x) = 

⎩ γ (1 − φ2) + φ2x, x ≥ γ. 

Estabilidade dos Pontos Periódicos 

⎧ 

⎨ γ (1 − φ1) + φ1x, x < γ 

g (x) = 

⎩ γ (1 − φ2) + φ2x, x ≥ γ. 

g (γ) = γ (1 − φ 2) + φ 2γ = γ 

lim g (x) = γ (1 − φ1) + φ1γ = γ. 

x↑γ 

Tal como no caso dos pontos fixos de g, pontos periódicos podem ser estáveis ou instáveis. 

Intuitivamente, um ponto periódico de período k é estável se qualquer trajectória iniciada 

numa vizinhança desse ponto não se afasta desse ponto de k em k iterações, para todo o t (da 

mesma forma se interpreta ponto periódico assimptoticamente estável e instável). O facto 

essencial é que um ponto periódico de g de período k é um ponto fixo de g k . Desta forma, 

a definição de estabilidade para pontos periódicos pode basear-se na definição 7.2.2, sendo 

que agora deverá ler-se g k em lugar de g (g t deverá ler-se g kt ). Em geral são aplicáveis as 

proposições precedentes, desde que se procedam às necessárias adaptações. Por exemplo, a 

proposição 7.2.3 estabelece que ¯y é assimptoticamente estável se |g ′ (¯y)| < 1 e instável no 

caso contrário. Se as condições da proposição 7.2.3 se aplicarem, e fazendo h (x) = g k (x) , 

podemos estabelecer que o ponto periódico p de período k é assimptoticamente estável se 

|h ′ (p)| < 1 e instável no caso contrário. 

Vimos na proposição 7.2.9 que, se p é ponto periódico de período k então a aplicação 

g admite adicionalmente k − 1 pontos periódicos. Se p exibe uma certa característica qual- 

itativa que conclusões podemos tirar para os demais pontos periódicos? A proposição e a 

demonstração seguintes mostra que todos os pontos periódicos partilham das mesmas pro- 

priedades qualitativas. Desta forma pode-se falar de órbitas periódicas estáveis e instáveis 

(em alternativa a pontos periódicos estáveis e instáveis). 

232

Proposição 7.2.10 Seja g uma aplicação de classe C 1 em R e seja {p1, p2, ..., pk} uma órbita 

periódica de período k. Então {p1, ..., pk} é assimptoticamente estável (escoadouro) se 

e instável (fonte) se 


|g ′ (pk) ...g ′ (p1)| < 1 

|g ′ (pk) ...g ′ (p1)| > 1. 

Pode-se provar que se pi é um ponto periódico assimptoticamente estável (instável) da 

órbita {p1, ...pk} então pj é também um ponto periódico assimptoticamente estável (instável). 

Exemplo 7.2.20 Considere-se a EDF yt = 3.5x (1 − x) . Utilizando-se um programa de 

Matemática obtiveram-se os seguintes resultados: 

forma 

k Pontos Fixos de g k (os pontos periódicos estão em negrito) 

1 {0, 0.714286} 

2 {0, 0.714286, 0.428571, 0.857143} 

3 {0, 0.714286} 

4 {0, 0.714286, 0.428571, 0.857143, 0.38282, 0.500884, 0.826941, 0.874997} 

Analisa-se agora a estabilidade dos pontos periódicos na tabela seguinte. 

k Análise da Estabilidade dos Pontos Periódicos (proposição 7.2.10) 

1 |g ′ (0)| = 3.5, |g ′ (0, 0.714286)| = 1.5 

 

2 

′ ′ ′ 

g (0.428571) g (0.857143) = 1.25 

3 − 

4 |g ′ (0.38282) g ′ (0.500884) g ′ (0.826941) g ′ (0.874997)| = 0.03 

Os resultados apresentados na tabela anterior podem também ser obtidos da seguinte 

 

 

g 2 (0.428571) ′ 

 

= g 2 (0.857143) ′ 

= 1.25 

 

 

g 4 (0.38282) ′ 

 

= g 4 (0.500884) ′ 

 

= g 4 (0.826941) ′ 

 

= g 4 (0.874997) ′ 

= 0.03. 

233

1 

f 

0.8 

0.6 

0.4 

0.2 

0.2 0.4 0.6 0.8 1 x 

Figura 7-15: Gráfico Teia de Aranha da equação yt = 3.5yt−1 (1 − yt−1) 

Naturalmente esta segunda alternativa é bastante mais trabalhosa. Conclui-se que todos os 

pontos periódicos de período k = 4 são assimptoticamente estáveis; todos os outros pontos 

em análise são instáveis. O gráfico 7-15 permite identificar um comportamento periódico 

de período k = 4. 

Tem interesse ainda observar o gráfico teia de aranha do modelo g 4 (x) - ver figura 7-16. 

Observe-se (talvez com alguma dificuldade) que a função g 4 corta o eixo de 45 o oito vezes 

(considerando também o ponto zero). Este facto corrobora a primeira tabela deste exemplo 

(última linha). 

7.3 Modelo Limiar Autoregressivo (Threshold AR - TAR) 


Como argumentámos na introdução deste capítulo, uma classe importante de processos não 

lineares na média baseia-se na ideia de regime-switching. Nesta secção apresentam-se vários 

modelos onde a mudança de regime depende de uma variável observável. Provavelmente o 

modelo mais conhecido desta família (onde os regimes dependem de variáveis observáveis) 

é o modelo Threshold AR ou TAR. Para exemplificar, considere-se um modelo TAR com 

234

dois regimes 

y 

1.0 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0.0 

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 

Figura 7-16: Gráfico Teia de Aranha do Modelo g 4 (x) 

yt = 

⎧ 

⎨ 

⎩ 

φ 10 + φ 11yt−1 + ut qt−d < γ 

φ 20 + φ 21yt−1 + ut qt−d > γ 

x 

(7.7) 

onde γ é o valor do limiar (threshold values), qt−d é a variável limiar e d > 0 é um inteiro. 

No caso especial em que qt−d = yt−d o modelo (7.7) designa-se por Self-Exciting TAR ou 

SETAR (é o próprio processo y que determina a mudança de regime). 

A ideia principal do modelo pode ser exposta da seguinte forma. Se certo fenómeno y 

é não linear na média, então é incorrecto assumir que y se comporta linearmente em todo o 

seu domínio. A solução que está implícita no modelo TAR consiste em assumir linearizações 

diferenciadas, consoante o valor de y. Em lugar de se ter uma aproximação linear global, têm- 

se várias linearizações em sub-intervalos do espaço de estados 7 . Por exemplo, no modelo 

(7.7), com qt−d = yt−1, pode admitir-se que a representação linear φ 10 + φ 11yt−1 + ut é uma 

boa aproximação para o comportamento de yt quando yt−1 < γ. Todavia, quando yt−1 sai do 

intervalo (−∞, γ) , yt passa a ser melhor caracterizado pelo segundo ramo da especificação 

(7.7). 

7A este respeito a fórmula de Taylor é instrutiva. Suponha-se que f : R → R possui derivada contínua 

de primeira ordem. Pela fórmula de Taylor tem-se f (x) = f (a) + f ′ 

(a) (x − a) + O |x − a| 2 

. Esta 

fórmula diz-nos que f (x) pode ser arbitrariamente bem aproximada através da expressão linear (em x) f (a) + 

f ′ (a) (x − a). Note-se que a, f (a) e f ′ (a) são constantes e o erro envolvido na aproximação é de ordem 

|x − a| 2 . Se procuramos aproximarf (x) quando x se afasta de a a aproximação piora significativamente, 

tendo em conta o erro envolvido O |x − a| 2 

. Assim, podemos usar a fórmula de Taylor na forma linear, 

repetidamente, para vários valores de a, e assim obter boas aproximações de f em todo o seu domínio. É este 

o princípio que está subjacente ao modelo TAR. 

235

Outra interpretação do TAR é sugerida pela seguinte representação equivalente de (7.7): 

yt = 

φ10I{qt−d≤γ} + φ11I{qt−d≤γ}yt−1 + = 

 

φ20I{qt−d>γ} + φ21I{qt−d>γ}yt−1 + ut. 

 

φ10I{qt−d≤γ} + φ20I{qt−d>γ} + 

 

φ0 (yt−1) 

 

φ11I{qt−d≤γ} + φ21I{qt−d>γ} 

φ1 (yt−1) 

= φ 0 (qt−d) + φ 1 (qt−d) yt−1 + ut. 

yt−1 + ut 

Observa-se, assim, que o modelo TAR pode ser interpretado como um processo AR de coe- 

ficientes aleatórios com dependência em qt−d. 

7.3.2 Soluções Periódicas 

Considere-se o processo linear, yt = c + φyt−1 + ut, |φ| < 1. Recorde-se que o esqueleto 

da equação estocástica é a correspondente equação determinística com ut ≡ 0, i.e., ˜yt = 

c + φ˜yt−1. De acordo com a definição 7.2.1, o ponto fixo da equação yt = g (yt−1) é o valor 

¯y tal que g (¯y) = ¯y. No caso linear, g (x) = c + φx, a solução de g (¯y) = ¯y é ¯y = c/ (1 − φ) . 

Recorda-se que se ˜yt for inicializado no ponto fixo, ˜yt permanece no valor do ponto fixo 

para todo o t . Com efeito, se yt−1 = ¯y e ¯y é um ponto fixo, a variação da solução, ∆yt, é 

nula, i.e., ∆yt = yt − yt−1 = g (yt−1) − yt−1 = ¯y − ¯y = 0. Se a solução não é inicializada 

numa vizinhança do ponto fixo, mas |φ| < 1, então ˜yt tenderá para ¯y, quando t → ∞. 

Quando a equação é linear (de primeira ordem) existe apenas o ponto fixo ¯y = c/ (1 − φ), 

que poderá ser ou não assimptoticamente estável (dependendo do valor de φ). Uma das 

características dos processos não lineares é o de admitirem esqueletos com vários pontos 

fixos e com periodicidade superior a um. Esta possibilidade permite modelar dados que 

exibam “soluções periódicas estáveis”. 

Para concretizar considere-se o exemplo: 

O esqueleto da equação é 

yt = 

⎧ 

⎨ 

⎩ 

1 + 0.5yt−1 + ut 

yt−1 < 0 

−1 − 0.5yt−1 + ut yt−1 ≥ 0. 

⎧ 

⎨ 1 + 0.5˜yt−1, yt−1 < 0 

˜yt = 

⎩ −1 − 0.5˜yt−1, yt−1 ≥ 0 

236 

(7.8) 

(7.9)

yt 

= 1+ 0. 

5yt 

− 

4 

2 

4 2 2 4 

1 

2 

4 

yt 

= −1− 

0. 

5yt 

− 

Figura 7-17: Gráfico Teia de Aranha do modelo (7.9). Os valores 0.4 e -1.2 são pontos 

periódicos de período 2 

6 

5 

4 

3 

2 

1 

0 

1 

2 

3 

4 

y 

1 6 11 16 21 26 31 

e a função g (x) representa-se na forma 

Figura 7-18: Trajectória de (7.10) com y0 = 5 

⎧ 

⎨ 1 + 0.5x x < 0 

g (x) = 

⎩ −1 − 0.5x x ≥ 0. 

1 

t 

(7.10) 

As figuras 7-17 e 7-18 mostram que os valores 0.4 e -1.2 são pontos periódicos 8 de período 

2. Estes pontos são assimptoticamente estáveis. Qualquer que seja o valor de inicialização, 

a solução ˜yt é atraída para a órbita {0.4, −1.2} . 

Não faz sentido falar-se em soluções periódicas do modelo estocástico definido em (7.8). 

8 É possível obter estes pontos resolvendo g (g (x)) = x em ordem a x. 

237

Figura 7-19: Gráfico dos pares (yt−1, yt) após se ter gerado uma trajectória do processo 7.8 

(traçam-se também as rectas 1 + .5x e −1 − 0.5x) 

A componente estocástica impede, de facto, que yt possa oscilar entre os pontos 0.4 e -1.2. 

Todavia, o comportamento periódico subjacente ao esqueleto está parcialmente presente no 

modelo estocástico, tal como mostra a figura 7-19, onde se apresenta o gráfico scatter (i.e. o 

gráfico dos pares (yt−1, yt)) depois de se ter simulado uma trajectória. 

Como o processo é EE (veja-se o exemplo 4.5.9), pode também indagar-se que tipo 

de distribuição estacionária define o processo. A expressão analítica desta distribuição é 

desconhecida, mas pode estimar-se de várias formas. Provavelmente o procedimento mais 

simples consiste em gerar uma trajectória suficientemente longa e, depois de se desprezarem 

os primeiros valores 9 (digamos os primeiros 10), estima-se a função de densidade marginal 

f (x) através do estimador 

ˆf (x) = 1 

nSh 

nS 

 

x − yi 

K 

h 

i=1 

(7.11) 

onde h é a bandwidth, nS é o número de observações simuladas usadas na estimação e K 

é, por exemplo, o Kernel (ou núcleo) Gaussiano (para uma discussão alargada do estimador 

ˆf ver o ponto 10.2). Sob certas condições sabe-se que ˆ f (x) 

p 

−→ f (x) onde f não é mais 

do que a densidade estacionária. Naturalmente, é necessário considerar vários valores de 

9 A justificação: o valor incial y0, a partir da qual é gerada a trajectória, não é obtido em condições esta- 

cionárias porque estas são desconhecidas. 

238

Figura 7-20: Densidade Estacionária de 7.8 estimada a partir de 50000 observações simuladas. 

x na expressão (7.11) para se ter uma ideia do comportamento de f no espaço de estados 

da variável. Como ns está sob nosso controle, a função f pode ser estimada de forma ar- 

bitrariamente precisa. Na figura 7-20 apresenta-se a densidade estacionária estimada ˆ f (x) . 

A existência de duas modas acaba por não surpreender tendo em conta a estrutura do es- 

queleto (recorde-se a existência de dois pontos periódicos). Já a assimetria da distribuição 

não é clara (pelo menos à primeira vista). A probabilidade de y se encontrar abaixo de zero 

é cerca de 0.562 ( I{yt≤0}/n) e E (y) = −0.333. O gráfico teia de aranha talvez possa 

explicar estes valores. Observe-se que na estrutura determinística, um valor negativo inferior 

a −2 é seguido por outro valor negativo, enquanto um valor positivo passa imediatamente 

a negativo. Este facto explica por que razão a probabilidade de y se encontrar abaixo de 

zero é superior a 0.5 e, de certa forma, também explica a existência de uma média marginal 

negativa. 

239


A estacionaridade estrita pode ser analisada no contexto das proposições apresentadas no 

ponto 4.5. Por exemplo, no modelo mais geral 

yt = 

⎧ 

⎪⎨ 

⎪⎩ 

se a condição max1≤i≤k 

φ 10 + φ 11yt−1 + ... + φ 1pyt−p + ut yt−d < γ 1 

... ... 

φ k0 + φ k1yt−1 + ... + φ kpyt−p + ut yt−d > γ k 

 

p 

j=1 

φji 

 

< 1 se verificar, então o processo é EE, atendendo 

à proposição 4.5.4. Esta condição é apenas suficiente, mas não necessária. Como tal, 

pode ser demasiado exigente. Para certos modelos particulares são conhecidas as condições 

necessárias e suficientes. É o caso do modelo 

yt = 

⎧ 

⎪⎨ 

⎪⎩ 

c1 + φ 1yt−1 + ut 

yt−d < γ 1 

c2 + φ 2yt−1 + ut γ 1 ≤ yt−d ≤ γ 2 

c3 + φ 3yt−1 + ut 

yt−d > γ 2 

(7.12) 

Proposição 7.3.1 O processo {yt} definido pelo sistema (7.12) é EE sse qualquer uma das 

seguintes condições se verificar: 

(i) φ 1 < 1, φ 3 < 1, φ 1φ 3 < 1; 

(ii) φ 1 = 1, φ 3 < 1, c1 > 0; 

(iii) φ 1 < 1, φ 3 = 1, c3 < 0; 

(iv) φ 1 = 1, φ 3 = 1, c3 < 0 < c1; 

(v) φ 1φ 3 = 1, φ 1 < 1, c1 + φ 3c1 > 0; 

O resultado apresentado não envolve qualquer restrição sobre o regime 2. Mesmo no 

caso de k regimes AR(1), o teorema acima continua a aplicar-se (neste caso o regime 3 é 

encarado como o último regime). 

240

7.3.4 Exemplo (Bounded Random Walk) 

Um caso muito interessante é o seguinte: 

yt = 

⎧ 

⎪⎨ 

⎪⎩ 

c1 + φ 1yt−1 + ut 

c2 + yt−1 + ut 

c3 + φ 3yt−1 + ut 

yt−1 < γ 1 

γ 1 ≤ yt−1 ≤ γ 2 

yt−1 > γ 2 

(7.13) 

Assuma-se |φ 1| < 1 e |φ 3| < 1. Observe-se que o processo no regime 2 é integrado de ordem 

1, i.e., exibe o comportamento de um random walk. No entanto y é EE, pela proposição 

7.3.1. 

Se P (γ 1 ≤ yt ≤ γ 2) é uma probabilidade alta, então durante a maior parte do tempo 

y comporta-se como um random walk. Sempre que os limiares γ 2 ou γ 1 são atingidos o 

processo passa a exibir reversão para uma certa média e, deste modo, y é globalmente esta- 

cionário e, portanto, limitado em probabilidade (ou contrário do random walk). Na figura 

7-21 apresenta-se uma trajectória simulada a partir do processo 

yt = 

⎧ 

⎪⎨ 

⎪⎩ 

0.9yt−1 + ut 

yt−1 + ut 

0.9yt−1 + ut 

yt−1 < −3 

−3 ≤ yt−1 ≤ 3 

yt−1 > 3 

onde {ut} é uma sucessão de v.a. i.i.d. com distribuição N (0, 0.2 2 ) . 

(7.14) 

Processos do tipo (7.14) confundem-se facilmente com passeios aleatórios. Por esta 

razão, o teste Dickey-Fuller tende a não rejeitar a hipótese nula de raiz unitária quando a 

alternativa é um processo estacionário do tipo (7.14); por outras palavras, o teste Dickey- 

Fuller é pouco potente contra alternativas do tipo (7.14). No contexto do modelo (7.13), 

pode mostrar-se que a potência do teste Dickey-Fuller diminui quando γ 1 é baixo e γ 2 é alto 

ou φ 1, φ 2 < 1 são altos ou Var (ut) é baixa. 

7.3.5 Estimação 

Considere-se, sem perda de generalidade, o modelo com dois regimes: 

yt = 

⎧ 

⎨ 

⎩ 

φ 10 + φ 11yt−1 + ... + φ 1pyt−p + ut qt−d ≤ γ 

φ 20 + φ 21yt−1 + ... + φ 2pyt−p + ut qt−d > γ 

241 

(7.15)

Figura 7-21: Trajectória Simulada a partir do Processo (7.14) 

onde se assume que {ut} é um ruído branco com Var (ut) = σ2 . Os parâmetros desconhecidos 

são d, γ, σ2 

e φ = φ ′ 

1 φ ′ 

′ 

′ 

onde φ 2 

i = φi0 φi1 ... φ . Reescreva-se (7.15) 

ip 

na forma 

yt = 

φ10 + φ11yt−1 + ... + φ1pyt−p I{qt−d≤γ} 

+ 

φ20 + φ21yt−1 + ... + φ2pyt−p I{qt−d>γ} + ut. 

Seja x ′ t = (1, yt−1, ..., yt−p) . Observe-se que cada um dos “ramos” pode escrever-se como 

 

φ10 + φ11yt−1 + ... + φ1pyt−p I{qt−d≤γ} = 

 

 

1 yt−1 ... 

 

x 

yt−p 

 

′ t 

φ1I{qt−d≤γ} = x ′ tφ1I{qt−d≤γ} 

 

φ20 + φ21yt−1 + ... + φ2pyt−p I{qt−d>γ} = 1 yt−1 ... yt−p 

 

242 

xt 

= x ′ tφ 2I{qt−d>γ}. 

 

φ 2I{qt−d>γ}

Assim, (7.15) pode ainda escrever-se na forma 

ou ainda, com xt (γ) ′ = 

yt = x ′ tφ1I{qt−d≤γ} + x ′ tφ2I{qt−d>γ} + ut 

 

 

= 

⎛ 

⎝ φ ⎞ 

1 ⎠ + ut 

 

x ′ tI{qt−d≤γ} x ′ tII {qt−d >γ} 

x ′ tI{qt−d≤γ} x ′ tII {qt−d >γ} 

Se {ut} é um ruído branco Gaussiano então 

 

yt = xt (γ) ′ φ + ut. 

yt| Ft−1 ∼ N xt (γ) ′ φ, σ 2 

e o método da máxima verosimilhança é equivalente ao método dos mínimos quadrados 

condicionados. Assim, o estimador para φ, dado γ, é 

ˆφ (γ) = X (γ) ′ X (γ) −1 X (γ) y (7.16) 

onde X (γ) é a matriz das variáveis “explicativas” endógenas desfasadas (dado γ), tendo 

por linha genérica o vector-linha xt (γ) ′ e y é o vector das observações {yt} . Claro que o 

estimador ˆ φ (γ) depende de γ, que é desconhecido. Como estimar γ? Seja 

ˆσ 2 (γ) = 

φ 2 

 

n 

t=1 

yt − xt (γ) ′ 2 φ ˆ (γ) 

a soma dos quadrados dos resíduos. Supondo d conhecido, toma-se para estimativa de γ o 

valor que minimiza ˆσ 2 (γ) , i.e., 

n 

ˆγ = arg min 

γ∈Γ ˆσ2 (γ) . (7.17) 

O conjunto Γ é o espaço do parâmetro γ (todos os valores que γ pode assumir). Claramente 

Γ = R. Como a derivada de ˆσ 2 (γ) em ordem a γ não está definida, o problema de esti- 

mação (7.17) é não standard. Uma forma expedita de obter a sua solução consiste em fazer 

percorrer γ no conjunto Γ e, depois, seleccionar o valor que minimiza ˆσ 2 (γ) . Felizmente, a 

243

escolha dos valores relevantes para γ é relativamente pequena. Sejam y(1), y(2), ..., y(n) são 

as estatística de ordem tais que 

y(1) ≤ y(2) ≤ ... ≤ y(n). 

Como ˆσ 2 (γ) não se altera quando γ varia entre duas estatísticas de ordem, o problema de 

optimização (7.17) é equivalente a 

ˆγ = arg min 

γ∈˜ ˆσ 

Γ 

2 (γ) , 

 

Γ ˜ = y(1), ..., y(n) 

(7.18) 

ou seja, para obter ˆγ basta percorrer γ no conjunto ˜ Γ e seleccionar, depois aquele que mini- 

miza ˆσ 2 (γ). Na prática, impõe-se que cada regime possua pelo menos uma certa fracção π 

de observações (efectivamente, não faz sentido, tomar ˆγ = y(1) ou ˆγ = y(n)). Assim, deve 

restringir-se o conjunto ˜ Γ, passando a ser 

y((π(n−1))), ..., y((1−π)(n−1)) onde (.) representa a 

parte inteira do número. Neste novo conjunto ˜ Γ não fazem parte as π100% mais baixas nem 

as (1 − π) 100% mais altas. 

Falta-nos ainda tratar a estimação de d, que é também não standard tendo em conta que 

d ∈ N. Como ˆσ 2 depende de d, escolhe-se d num certo conjunto D = {1, 2, ..., d ∗ } de forma 

a minimizar ˆσ 2 . Logo, 

onde, agora, 

e 

ˆσ 2 (γ, d) = n −1 

 

ˆγ, ˆ 

d = arg min 

γ∈˜ ˆσ 

Γ,d∈D 

2 (γ, d) 

n 

yt − xt (γ, d) ′ φ ˆ (γ, d) 

t=1 

ˆφ (γ, d) = X (γ, d) ′ X (γ, d) −1 X (γ, d) y. 

Em suma, os passos na estimação dos parâmetros são o seguintes: 

1. para cada γ ∈ ˆ Γ e para cada d ∈ D, construir X (γ, d) e estimar ˆ φ (γ, d) e ˆσ 2 (γ, d); 

2. tomar para estimativa de γ e de d o par (γ, d) que minimiza ˆσ 2 (γ, d); seja esse par 

 

dado por ˆγ, ˆ 

d . 

3. tomar para estimativa de φ, o valor ˆ 

φ ˆγ, ˆ 

d . 

244 

2

Exemplo 7.3.1 Considere 

yt = 

⎧ 

⎨ 

⎩ 

φ 1yt−1 + ut se yt−d ≤ γ 

φ 2yt−1 + ut se yt−d > γ 

com Var [ut] = σ 2 . Suponha que os resultados na fase da estimação são: 

Valores de ˆσ 2 em função de γ e d 

γ ↓ 

d → 

1 2 

-1 15.5 16 

-0.7 12.4 13.5 

-0.1 12.1 12.3 

-.001 3.5 2.5 

0.0 1.2 2.4 

1.2 2.5 2.8 

1.5 5.5 7 

Resulta do quadro (veja o valor a negrito) que ˆγ = 0, ˆ d = 1 e ˆσ 2 = 1.2. Por outras 

palavras 

(0, 1) = arg min ˆσ 2 (γ, d) e min ˆσ 2 (0, 1) = 1.2. 

Para ilustrar a matriz X (γ, d), suponha que os dois últimos valores de y são yn−1 = 1.5 

e yn = −1.5; então a última linha da matriz X (γ, d) é 

xn 

 

ˆγ, ˆ ′ 

d = 

(o valor yn = −1.5 não entra na matriz X). 

7.3.6 Inferência 

yn−1I{yn−1≤0} yn−1I{yn−1>0} 

 

= 0 1.5 

Pode mostrar-se que o estimador para d é super-consistente, isto é, possui uma variância pro- 

porcional a 1/n α com α > 1 (os estimadores habituais possuem uma variância proporcional 

a 1/n). A distribuição assimptótica é também conhecida (Hansen, 2000). Dada a super- 

consistência de ˆ d podemos, para efeitos de inferência estatística sobre os demais parâmetros, 

assumir que d é conhecido. 

245

Inferência sobre φ 

Sob certas condições (incluindo estacionaridade estrita) tem-se 

√ 

n ˆφ d 

(ˆγ) − φ0 −→ N 0, I (γ0) −1 , (7.19) 

onde I (γ 0) = σ −2 E (xt (γ 0) xt (γ 0)) (γ 0 e φ 0 são, de acordo com a notação habitual, os 

verdadeiros, mas desconhecidos valores dos parâmetros γ e φ). Supomos, naturalmente, que 

ˆγ é um estimador consistente para γ 0. A matriz I (γ 0) é estimada consistentemente por 

1 

n 

n 

t=1 

xt (ˆγ) xt (ˆγ) ′ . 

O resultado (7.19) indica-nos que, em grandes amostras, a inferência estatística sobre os 

parâmetros φ ij conduz-se da forma habitual. 

Inferência sobre a existência de Threshold 

Uma questão importante é saber se o modelo TAR é preferível ao simples AR. Para o efeito, 

testa-se H0 : φ 1 = φ 2 pois, sob esta hipótese, o TAR reduz-se ao AR. Aparentemente, o 

resultado (7.19) permite ensaiar H0, no quadro do teste de Wald. Esta ideia é incorrecta, 

pois sob a hipótese nula o parâmetro γ não identificável. Este é um problema que ocorre 

tipicamente em modelos não lineares (veja-se, por exemplo, o modelo Markov-switching, 

no ponto 7.4). Observe-se que, sob a hipótese nula, a função de verosimilhança deixa de 

depender do parâmetro γ (é indiferente o valor que γ assume) 10 . Nestas circunstâncias, a 

matriz de informação é singular e não é possível usar os resultados assimptóticos habituais. 

Hansen (2000) sugere o seguinte procedimento: 

1. obter Fn = n ˜σ 2 n − ˆσ 2 

2 

n /ˆσ n onde ˜σ 2 n é a variância dos erros de regressão do modelo 

AR (sob H0) e ˆσ 2 

n resulta de (7.18); 

2. simular u ∗ t , t = 1, ..., n com distribuição i.i.d. N (0, 1) ; 

3. y ∗ t = u ∗ t ; 

4. fazer a regressão de y ∗ t sobre xt = 

 

1 yt−1 ... yt−p 

 

e obter ˜σ ∗2 

n 

10 Veja-se mais um exemplo. No caso yt = βx γ + ut, x > 0, ocorre uma situação similar com H0 : β = 0 

ou com H0 : γ = 0. Por exemplo, sob a hipótese β = 0, γ desaparece da especificação; como consequência, a 

verosimilhança deixa de depender de γ. Já o ensaio H0 : β = β 0 com β 0 = 0 não levanta problemas. 

246

5. obter ˆγ = arg min γ∈ ˜ Γ ˆσ ∗2 

n (γ) onde ˆσ ∗2 

n (γ) resulta da regressão de y ∗ t sobre xt (γ); 

6. obter F ∗ n = n ˜σ ∗2 

n − ˆσ ∗2 

∗2 

n /ˆσ n 

7. repetir os passos 2-6 B vezes 

8. valor-p = percentagem de vezes (em B) em que F ∗ n ≥ Fn. 

A fundamentação do teste baseia-se na prova segundo a qual F ∗ n possui a mesma dis- 

tribuição assimptótica de Fn, sob H0. Observe-se, com efeito, que F ∗ n é construída sob a 

hipótese de ausência de threshold. Assim, existe indício de violação da hipótese nula quando 

˜σ 2 n é significativamente superior a ˆσ 2 

n, de tal forma que Fn tende a ser geralmente alto quando 

comparado com F ∗ n. Nestas circunstâncias raramente ocorre F ∗ n ≥ Fn (nas B simulações) e 

o valor-p vem baixo. 

Inferência sobre o threshold 

Seja 

Sabe-se que (Hansen, 1997) 

2 

ˆσ n (γ) − ˆσ 

Fn (γ) = n 

2 

Fn (γ 0) 

ˆσ 2 

n (ˆγ) 

d 

−→ ξ 

n (ˆγ) 

 

. (7.20) 

onde P (ξ ≤ x) = 1 − e −x/2 2 . Com base neste resultado, Hansen (1997) recomenda o 

seguinte procedimento para a construção de um intervalo de confiança para γ: 

1. Calcular Fn (γ) para γ ∈ ˜ Γ 

2. Determinar o conjunto Cα = γ : Fn (γ) ≤ q ξ α 

onde q ξ α é o quantil da distribuição de 

ξ (inclui, portanto, todos os γ tais que Fn (γ) é menor ou igual a q ξ α). 

Como P (γ 0 ∈ Cα) → α (quando n → ∞), o intervalo de confiança a α100% é precisa- 

mente Cα. 

Usando a função de distribuição de ξ, tem-se q ξ 

0.90 = 5.94, q ξ 

0.95 = 7.35 e q ξ 

0.99 = 10.59. 

Ilustre-se o procedimento com o seguinte exemplo artificial. Admita-se que se obser- 

vam os valores da tabela 7.1. Note-se que a estimativa para γ é ˆγ = 1.2 pois Fn (1.2) = 

0. Tendo em conta que q ξ 

0.95 = 7.35, o intervalo de confiança para γ a 95% é C0.95 = 

{γ : 1.15 ≤ γ ≤ 1.45} . 

247

γ Fn 

1 12.2 

1.1 10.2 

1.15 7.35 

1.2 0 

1.35 6.31 

1.45 7.35 

1.6 15 

Tabela 7.1: Intervalo de Confiança para o Threshold: Ilustração do método de Hansen 

7.4 Modelo Markov-Switching 


Outro modelo importante baseado na ideia de regime switching é o modelo Markov-Switching 

(MS). Nos modelos apresentados no ponto anterior a mudança de regime é baseada em var- 

iáveis observáveis. No modelo MS a mudança de regime não é observável. 

Considere-se o modelo 

onde dt é uma variável dummy 

dt = 

yt = c1 + δ1dt + φyt−1 + ut 

⎧ 

⎨ 

⎩ 

1 se evento A ocorre 

0 se o evento A não ocorre. 

(7.21) 

Sabemos exactamente quando o evento A ocorre. Por exemplo, o evento A pode represen- 

tar “segunda-feira”. Trata-se de um evento obviamente determinístico. Suponhamos agora 

que A não é observável. Como modelar, estimar e prever y? São estas as questões que 

abordaremos ao longo deste ponto. 

Para trabalharmos com alguma generalidade, admita-se que estão definidos N regimes. 

Por exemplo, um modelo relativamente simples com dois regimes, N = 2, é 

yt = 

⎧ 

⎨ 

⎩ 

c1 + φyt−1 + ut 

se yt está no regime 1 

c1 + δ1 + φyt−1 + ut se yt está no regime 2 

(7.22) 

O regime 1 pode estar associado, por exemplo, ao evento “A não ocorre” e o regime 2 “A 

ocorre”. Este modelo é, em vários aspectos, similar ao modelo (7.21); há, no entanto, um 

diferença apreciável: agora não se sabe quando é que y está no regime 1 ou 2. Seja St o 

248

egime em que o processo y se encontra no momento t (assim, se St = i, então yt está 

no regime i). No modelo anterior, equação (7.22), S pode assumir os valores St = 1 ou 

St = 2. A sucessão {St} é claramente um processo estocástico com espaço de estados 

(finito) E = {1, 2, ..., N}. 

É necessário, naturalmente, especificar um modelo para St. Admita-se E = {1, 2} . Se 

o valor que S assume em t nada tem a ver com o valor que S assume em t − 1, t − 2, 

..., então {St} é uma sucessão de v.a. i.i.d. com distribuição de Bernoulli de parâmetro 

p que pode ser identificado com o regime 1, isto é, P (St = 1) = p. O processo y vai 

“saltando” entre os regimes 1 e 2 de forma independente de acordo com a probabilidade 

p. Num dado momento t, y está no regime 1 com probabilidade p (independentemente do 

regime anterior assumido). Na prática, a independência entre os sucessivos valores de St não 

é apropriada para um grande número de aplicações. Por exemplo, suponha-se que y é a taxa 

de crescimento do produto. Admita-se ainda que y se comporta diferentemente consoante a 

economia está em expansão ou em recessão. Temos, assim dois regimes St = 1 (recessão), 

St = 2 (expansão). A sucessão {St} não é provavelmente independente: se a economia, num 

certo momento, está em expansão (St−1 = 2), é mais provável que no momento seguinte a 

economia se encontre em expansão do que em recessão. Formalmente, 

P (St = 2| St−1 = 2) > P (St = 1| St−1 = 2) . 

Logo {St} é formado por uma sucessão de v.a. dependentes. Uma sucessão ou trajectória de 

S, poderá ser, por exemplo, {1, 1, 1, 1, 2, 2, 2, 2, 1, 1, 1, ...} . 

7.4.2 Cadeias de Markov em tempo discreto com espaço de estados dis- 

cretos finito 

Um modelo conveniente para caracterizar {St} , num cenário de dependência temporal, é 

a cadeia de Markov homogénea em tempo discreto com espaço de estados discretos finito. 

A teoria das cadeias de Markov tem aplicações em muitas áreas, como por exemplo, em 

modelos de inventário, em genética, em filas de espera, etc. Iremos apresentar as ideias 

principais. 

Uma cadeia de Markov é um processo de Markov no seguinte sentido: 

P (St = j| St−1 = i, ..., S0 = i0) = P (St = j| St−1 = i) 

249

isto é, St é independente de St−2, St−3, ..., S0 dado St−1. 

Uma cadeia de Markov é completamente caracterizada pela chamada matriz de probabil- 

idades de transição a um passo (ou simplesmente matriz de probabilidades de transição) e, 

eventualmente, por uma condição inicial. No caso de dois regimes, E = {1, 2} , esta matriz 

define-se da seguinte forma 

P = 

⎛ 

⎝ P (St = 1| St−1 = 1) P (St = 2| St−1 = 1) 

P (St = 1| St−1 = 2) P (St = 2| St−1 = 2) 

No caso geral (N regimes) tem-se 

A matriz P respeita as condições: 

⎛ 

⎜ 

P = ⎜ 

⎝ 

• 0 ≤ pij ≤ 1, (i, j = 1, ..., N) ; 

p11 · · · p1N 

.. . . . 

pN1 · · · pNN 

• N 

j=1 pij = 1, (i = 1, ..., N) (as linhas soma 1). 

⎞ 

⎟ 

⎠ . 

⎞ 

⎠ = 

⎛ 

⎝ p11 p12 

p21 p22 

Exemplo 7.4.1 Convencione-se que St = 1 representa o estado “economia em recessão no 

momento t”; St = 2 representa o estado “economia em expansão no momento t”. Suponha- 

se que a matriz de probabilidades de transição é 

⎛ ⎞ 

0.7 

P = ⎝ 

0.3 

⎠ . 

0.2 0.8 

Se a economia está em expansão no período t − 1, i.e., St−1 = 2, a probabilidade da 

economia se encontrar ainda em expansão no período t é 0.8 e a probabilidade de ela passar 

para recessão é 0.2. 

Podemos estar interessados em calcular uma probabilidade de transição a dois passos, 

por exemplo, 

P (St = 1| St−2 = 2) . 

250 

⎞ 

⎠ .

Neste caso, pela lei das probabilidades totais, vem com N = 2 

P (St = 1| St−2 = 2) = 

= 

= 

2 

P (St = 1, St−1 = i| St−2 = 2) 

i=1 

2 

P (St = 1| St−1 = i, St−2 = 2) P (St−1 = i| St−2 = 2) 

i=1 

2 

P (St = 1| St−1 = i) P (St−1 = i| St−2 = 2) 

i=1 

= elemento (2, 1) da matriz P 2 = P × P. 

Relativamente ao exemplo 7.4.1, calcule-se a matriz P 2 . Tem-se: 

⎛ ⎞ ⎛ ⎞ ⎛ 

⎞ 

0.7 

⎝ 

0.3 0.7 

⎠ ⎝ 

0.3 0.55 

⎠ = ⎝ 

0.45 

⎠ . 

0.2 0.8 0.2 0.8 0.3 0.7 

Assim, P (St = 1| St−2 = 2) = 0.3 (elemento (2, 1) da matriz P 2 ). 

O resultado geral é dado pelas designadas equações de Chapman-Kolmogorov: 

#E 

P (Sm+n = j| S0 = i) = P (Sm = k| S0 = i) P (Sm+n = k| Sm = j) . 

Deduz-se da expressão anterior que 

Note-se ainda o seguinte: 

k=1 

P (Sn+h = j| Sn = i) = elemento (i, j) da matriz P h . (7.23) 

P (St = 1| St−k = 2) = P (St+k = 1| St = 2) . 

Não interessa o momento em que a probabilidade é calculada. O que é relevante é o des- 

fasamento temporal entre as variáveis. Na equação anterior o desfasamento é k. Esta pro- 

priedade resulta de se ter uma matriz de probabilidades de transição que não depende de t. 

Diz-se nestes casos que a matriz de probabilidades de transição é homogénea. 

Em certos problemas é importante obter probabilidades relacionadas com eventos a longo 

prazo. No exemplo 7.4.1, é interessante saber a probabilidade da economia se encontrar 

em expansão (ou recessão) no longo prazo, dado que no momento presente a economia se 

251

encontra em expansão. Formalmente, a questão é 

lim 

n→∞ P (St+n = 2| St = 2) . (7.24) 

Tendo em conta a observação anterior, a probabilidade em questão corresponde ao elemento 

(2, 2) da matriz limite 

Observe-se 

⎛ 

⎝ 

⎛ 

⎝ 

⎛ 

⎝ 

É intuitivo admitir-se que 

0.7 0.3 

0.2 0.8 

0.7 0.3 

0.2 0.8 

0.7 0.3 

0.2 0.8 

lim 

n→∞ 

⎛ 

⎝ 

lim 

n→∞ 

⎞ 

⎠ 

⎞ 

⎠ 

⎞ 

⎠ 

10 

20 

40 

⎛ 

⎝ 

= 

= 

= 

0.7 0.3 

0.2 0.8 

0.7 0.3 

0.2 0.8 

⎞ 

⎠ 

n 

. 

⎛ 

⎞ 

0.40059 

⎝ 

0.59941 

⎠ 

0.39961 0.60039 

⎛ ⎞ 

0.4 

⎝ 

0.6 

⎠ 

0.4 0.6 

⎛ ⎞ 

0.4 

⎝ 

0.6 

⎠ . 

0.4 0.6 

⎞ 

⎠ 

n 

⎛ ⎞ 

0.4 

= ⎝ 

0.6 

⎠ . 

0.4 0.6 

Logo limn→∞ P (St+n = 2| St = 2) = 0.6, mas também limn→∞ P (St+n = 2| St = 1) = 

0.6. Isto é, a probabilidade da economia se encontrar em expansão (ou recessão) no longo 

prazo é independente do estado inicial, o que é bastante intuitivo (no longo prazo é irrelevante 

saber se hoje a economia está ou não em expansão). 

Nem todas as cadeias de Markov admitem estas probabilidades limites. Sob certas 

condições pode-se provar a 

Proposição 7.4.1 Se S é recorrente 11 positiva aperiódica com espaço de estados finito {1, 2, ..., N} 12 

11 Um regime ou estado i é recorrente sse, depois de o processo se iniciar em i, a probabilidade de retornar 

a i, ao fim de algum tempo finito, é igual a um. Se S é contável e se todos os estados comunicam, então todos 

os estados são recorrentes ou transientes (Taylor e Karlin, 1984). 

12 O caso infinito adapta-se facilmente. 

252

então, o vector (linha) das probabilidades estacionárias 

onde 

satisfaz as equações 

 

 

π = π1 π2 · · · πN 

πi = lim 

n→∞ P (St+n = i| St = j) (para qualquer j) 

= P (St = i) ≥ 0 

π = πP, 

N 

πi = 1. 

{πi; i = 1, 2, ..., N} é a distribuição estacionária da cadeia S. 

Exemplo 7.4.2 Considere-se o exemplo 7.4.1, 

i=1 

⎛ ⎞ 

0.7 

P = ⎝ 

0.3 

⎠ . 

0.2 0.8 

O vector das probabilidades estacionárias pode ser determinar da seguinte forma: 

 

 

π1 π2 

π1 π2 

Tem-se, ⎧⎪ ⎨ 

⎪⎩ 

Exemplo 7.4.3 Considere 

⎛ 

 

 

= 

= 

 

 

π1 π2 

π1 = 0.7π1 + 0.2π2 

π2 = 0.3π1 + 0.8π2 

π1 + π2 = 1 

⎝ p11 1 − p11 

1 − p22 p22 

⎛ 

⎝ 

0.7 0.3 

0.2 0.8 

⎞ 

⎠ 

0.7π1 + 0.2π2 0.3π1 + 0.8π2 

⎞ 

⎧ 

⎪⎨ 

π1 = 0.4 

⇔ π2 = 0.6 

⎪⎩ π1 + π2 = 1. 

⎠ , 0 < p11, p22 < 1. 

Pela proposição 7.4.1 é fácil concluir que as probabilidades estacionárias são dadas por 

π1 = 

1 − p22 

1 − p11 

, π2 = 

. 

2 − p11 − p22 2 − p11 − p22 

253

Retomando o exemplo 7.4.2, facilmente se obtém: 

π1 = 

1 − 0.8 

2 − 0.7 − 0.8 = 0.4, π2 = 

1 − 0.7 

2 − 0.7 − 0.8 

= 0.6. 

Observação 7.4.1 Um método para determinar P n é o seguinte. Como se sabe, quando os 

vectores próprios de P são independentes verifica-se P = VΛV −1 onde V é a matriz dos 

vectores próprios de P e Λ é a matriz diagonal dos valores próprios. Ora se V•1 é vector 

próprio de P e λ1 é o valor próprio associado V•1 então V•1 é ainda vector próprio de P n 

e λ n 

1 é o valor próprio associado. Logo P n = VΛ n V permite obter facilmente P n . 

7.4.3 Modelos Markov-Switching 

Seja y a variável dependente. Um exemplo de um modelo MS com dois regimes E = {1, 2} 

é, por exemplo, 

yt = 

⎧ 

⎨ 

⎩ 

c1 + φ 1yt−1 + σ1εt se St = 1 

c2 + φ 2yt−1 + σ2εt se St = 2 

(7.25) 

onde St é uma cadeia de Markov homogénea (escondida ou latente por St não ser observável) 

com matriz de probabilidades de transição 

Uma representação equivalente é 

P = 

⎛ 

⎝ p11 p12 

p21 p22 

⎞ 

⎠ . 

yt = c1 + (c2 − c1) I{St=2} + 

φ1 + (φ2 − φ1) I{St=2} yt−1 

+ 

σ1 + (σ2 − σ1) I{St=2}t εt. 

Outra representação sugestiva: 

onde 

yt = c (St) + φ (St) yt−1 + σ (St) εt 

⎧ 

⎧ 

⎧ 

⎨ c1 se St = 1 ⎨ φ1 se St = 1 ⎨ σ1 se St = 1 

c (St) = 

, φ (St) = 

, σ (St) = 

⎩ c2 se St = 2 ⎩ φ2 se St = 2 ⎩ σ2 se St = 2. 

254 

(7.26)

A representação (7.26) sugere que o modelo MS (7.25) pode ser escrito como um processo 

AR(1) com coeficientes aleatórios (vários outros modelos não lineares podem também ser 

representados como um AR(1) com coeficientes aleatórios). 

7.4.4 Função densidade de probabilidade de y 

Vamos caracterizar a fdp f (yt| Ft−1) que é essencial no âmbito da estimação, inferência e 

previsão. 

Retome-se o modelo 

yt = 

⎧ 

⎨ 

⎩ 

c1 + φ 1yt−1 + σ1εt se St = 1 

c2 + φ 2yt−2 + σ2εt se St = 2. 

Se assumirmos εt ∼ N (0, 1) então as fdp condicionadas associadas aos regimes 1 e 2 

(N = 2) são respectivamente 

f (yt| Ft−1, St = 1) = 

f (yt| Ft−1, St = 2) = 

1 1 2σ e− 

2 σ12π 2 (yt−c1−φ1 yt−1) 

1 

2 

1 1 2σ e− 

2 σ22π 2 (yt−c2−φ2 yt−1) 

2 

2 

. 

Como obter f (yt| Ft−1)? Recordando a regra da probabilidade total 

P (A) = 

P (A| Bi) P (Bi) 

i 

(ou fx (x) = 

i fx|y (x| yi) fy (yi) no caso em que y é uma v.a. discreta) tem-se que fdp 

condicionada de y é 

f (yt| Ft−1) = f (yt| Ft−1, St = 1) P (St = 1| Ft−1) 

+f (yt| Ft−1, St = 2) P (St = 2| Ft−1) 

= σ 2 12π −1/2 − 

e 1 

2σ2 (yt−c1−φ1 yt−1) 

1 

2 

P (St = 1| Ft−1) 

+ σ 2 22π −1/2 − 

e 1 

2σ2 (yt−c2−φ2 yt−1) 

2 

2 

P (St = 2| Ft−1) . 

Se identificarmos, para simplificar, f (yt| Ft−1, St = i) = fit tem-se 

f (yt| Ft−1) = f1tP (St = 1| Ft−1) + f2tP (St = 2| Ft−1) . 

255

Claro que P (St = 1| Ft−1)+P (St = 2| Ft−1) = 1. É interessante observar que a fdp condi- 

cionada é igual à média ponderada das fdp condicionadas associadas aos vários regimes. Os 

ponderadores são naturalmente P (St = 1| Ft−1) e P (St = 1| Ft−1) (e somam 1). Por ex- 

emplo, se num determinado momento, P (St = 1| Ft−1) é muito alto (perto de 1) a função 

f (yt| Ft−1) dependerá sobretudo de f1t e pouco de f2t. 

No caso geral com N regimes, a expressão da fdp é 

f (yt| Ft−1) = 

7.4.5 Probabilidades Associadas aos Regimes 

N 

fitP (St = i| Ft−1) . (7.27) 

i=1 

A expressão (7.27) envolve as probabilidades P (St = i| Ft−1) , i = 1, 2, ..., N que são 

necessário caracterizar. 

Regimes Independentes 

No caso mais simples em que {St} é uma sucessão de v.a. independentes (não só dos seus 

valores passados e futuros como também de Ft−1) tem-se 

e, portanto, 

P (St = i| Ft−1) = P (St = i) = pi 

f (yt| Ft−1) = 

N 

i=1 

fitpi. 

(7.28) 

Esta hipótese é conhecida pelo menos desde 1972 com os trabalhos de Goldfeld e Quandt, 

entre outros. 

que 

O caso de regimes independentes é um caso particular da cadeia de Markov. Notando 

P (St = i| St−1 = j) = P (St = i) 

para qualquer i e j ∈ E, conclui-se que este caso induz uma matriz de probabilidades de 

256

transição com colunas iguais, 

⎛ 

⎞ 

P (St = 1) 

⎜ P (St = 1) 

P = ⎜ . 

⎝ 

P (St = 2) 

P (St = 2) 

. 

· · · 

· · · 

. .. 

P (St = N) 

⎟ 

P (St = N) ⎟ . 

. ⎟ 

⎠ 

P (St = 1) P (St = 2) · · · P (St = N) 

A probabilidade de atingir, por exemplo, o regime 1 é sempre igual a P (St = 1) não im- 

portando o regime em que S se encontre no período anterior (ou seja, o evento St = 1 é 

independente de St−1). 

Regimes Seguem uma Cadeia de Markov 

Sob esta hipótese, St dado St−1, não depende de Ft−1. Isto é, 

P (St = i| St−1 = j, Ft−1) = P (St = i| St−1 = j) = pji. (7.29) 

Tem-se, pela regra da probabilidade total, com N = 2 

P (St = 1| Ft−1) = P (St = 1| St−1 = 1, Ft−1) P (St−1 = 1| Ft−1) 

De uma forma geral, 

+P (St = 1| St−1 = 2, Ft−1) P (St−1 = 2| Ft−1) 

= P (St = 1| St−1 = 1) P (St−1 = 1| Ft−1) 

+P (St = 1| St−1 = 2) P (St−1 = 2| Ft−1) 

= p11P (St−1 = 1| Ft−1) + p21P (St−1 = 2| Ft−1) . 

P (St = i| Ft−1) = 

N 

pj1P (St−1 = i| Ft−1) (7.30) 

j=1 

Estas expressões envolvem uma estrutura recursiva que iremos expor a seguir. Tendo em 

conta a expressão (7.30), calcule-se P (St−1 = i| Ft−1) . Observe-se, em primeiro lugar, que 

P (St−1 = 1| Ft−1) = P (St−1 = 1| yt−1, Ft−2) = g (yt−1, St−1 = 1| Ft−2) 

. 

f (yt−1| Ft−2) 

A primeira igualdade verifica-se por definição. A segunda envolve a regra P (A| B, C) = 

257

P (A, B| C) /P (B| C) , sendo g a função de probabilidade conjunta de (yt−1, St−1) . Tem-se 

assim, pela regra das probabilidades totais (com N = 2) 

P (St−1 = 1| Ft−1) = g (yt−1, St−1 = 1| Ft−2) 

f (yt−1| Ft−2) 

Para simplificar, defina-se 

= 

f (yt−1| Ft−2, St−1 = 1) P (St−1 = 1| Ft−2) 

N j=1 f (yt−1| 

. (7.31) 

Ft−2, St−1 = j) P (St−1 = j| Ft−2) 

pit = P (St = i| Ft−1) 

pi,t−1 = P (St−1 = i| Ft−2) 

Em suma, com N = 2, a expressão da fdp é 

onde 

fi,t−1 = f (yt−1| Ft−2, St−1 = i) . 

f (yt| Ft−1) = f1tp1t + f2tp2t = f1tp1t + f2t (1 − p1t) 

p1t = p11P (St−1 = 1| Ft−1) + p21P (St−1 = 2| Ft−1) 

= p11P (St−1 = 1| Ft−1) + p21 (1 − P (St−1 = 1| Ft−1)) 

= p11 

+p21 

f1,t−1p1,t−1 

(7.32a) 

f1,t−1p1,t−1 + f2,t−1 (1 − p1,t−1) 

 

 

f1,t−1p1,t−1 

1 − 

. (7.32b) 

f1,t−1p1,t−1 + f2,t−1 (1 − p1,t−1) 

Observe-se a estrutura recursiva: dadas as condições iniciais 

f1,0, f2,0 e p1,0, 

obtém-se (para t = 1) p1,1 e depois f (y1| F0) . Com os valores 

f1,1, f2,1 e p1,1 

obtém-se (para t = 2) p1,2 e depois f (y2| F1) . O procedimento recursivo é repetido até se 

obter f (yn| Fn−1) . 

258

Regimes dependentes de St−1 e de Ft−1 

Assume-se para simplificar N = 2. Sob esta hipótese a cadeia de Markov é não homogénea 

(varia ao longo do tempo). Desta forma, as probabilidades P (St = 1| St−1 = 1, Ft−1) e 

P (St = 2| St−1 = 2, Ft−1) dependem de Ft−1. Suponha-se, para simplificar, que estas prob- 

abilidades dependem apenas de yt−1. Uma forma de relacionarmos as probabilidades com 

yt−1 consiste, por exemplo, em formular uma representação probit para as probabilidades: 

P (St = 1| St−1 = 1, Ft−1) = Φ (α0 + α1yt−1) , 

P (St = 2| St−1 = 2, Ft−1) = Φ (β 0 + β 1yt−1) 

onde Φ é a função de distribuição normal (como é usual na representação probit). A matriz 

de probabilidades de transição é agora 

⎡ 

Pt = ⎣ p11t p12t 

p21t p22t 

⎤ 

⎦ = 

⎡ 

⎣ Φ (α0 + α1yt−1) 1 − Φ (α0 + α1yt−1) 

1 − Φ (β 0 + β 1yt−1) Φ (β 0 + β 1yt−1) 

O procedimento anterior (ponto “Regimes Seguem uma Cadeia de Markov”) mantém-se 

válido, havendo apenas que substituir pij por pijt. 

Regimes dependentes apenas de Ft−1 

Assume-se para simplificar N = 2. Sob esta hipótese, St dado Ft−1, não depende de St−1. 

Por exemplo, suponha-se que St depende de yt−1. Desta forma, a probabilidade P (St = i| Ft−1) 

pode ser estimada no quadro do modelo probit ou logit. Considerando a representação probit, 

tem-se 

P (St = 1| Ft−1) = Φ (β 0 + β 1yt−1) . (7.33) 

Esta hipótese, mais restritiva do que a precedente, simplifica consideravelmente a cal- 

culatória já que a função densidade de probabilidade condicional pode agora expressar-se 

simplesmente na forma f (yt| Ft−1) = 2 

i=1 fitP (St = i| Ft−1) = f1tΦ (β 0 + β 1yt−1) + 

f2t (1 − Φ (β 0 + β 1yt−1)) . 

259 

⎤ 

⎦


Considere-se 

yt = 

⎧ 

⎪⎨ 

⎪⎩ 

c1 + φ 11yt−1 + ... + φ 1pyt−p + ut se St = 1 

... 

cN + φ N1yt−1 + ... + φ Npyt−p + ut se St = N 

(7.34) 

onde ut é um ruído branco e S é uma cadeia de Markov estacionária com vector de proba- 

bilidades estacionárias (π1, π2) . O modelo anterior pode escrever-se na forma 

ou ainda na forma Markoviana 

yt 

yt = c (St) + φ 1 (St) yt−1 + ... + φ p (St) yt−p + ut 

⎛ ⎞ ⎛ 

⎞⎛ 

⎞ ⎛ 

⎞ 

⎜ 

⎝ 

yt 

yt−1 

yt−2 

. 

φ 

⎟ ⎜ 1 (St) 

⎟ ⎜ 

⎟ ⎜ 1 

⎟ ⎜ 

⎟ ⎜ 

⎟ = ⎜ 0 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ . 

⎠ ⎝ 

φ2 (St) 

0 

1 

. 

· · · 

· · · 

· · · 

. .. 

φp (St) yt−1 c (St) + ut 

⎟⎜ 

⎟ ⎜ 

⎟ 

⎟⎜ 

⎟ ⎜ 

⎟ 

0 ⎟⎜ 

yt−2 ⎟ ⎜ 0 ⎟ 

⎟⎜ 

⎟ ⎜ 

⎟ 

⎟⎜ 

⎟ ⎜ 

⎟ 

0 ⎟⎜ 

yt−3 ⎟ + ⎜ 0 ⎟. 

⎟⎜ 

⎟ ⎜ 

⎟ 

⎟⎜ 

⎟ ⎜ 

⎟ 

. ⎟⎜ 

. ⎟ ⎜ 0 ⎟ 

⎠⎝ 

⎠ ⎝ 

⎠ 

 

yt−p+1 

 

0 0 

 

· · · 0 

 

yt−p 

 

0 

 

At 

Stelzer (2009) estabelece a seguinte 

yt−1 

Ct 

(7.35) 

Proposição 7.4.2 Considere-se o processo (7.34) na representação (7.35) e assuma-se: {u} 

é um processo EE, E log + A0 < ∞, E log + C0 < ∞ e 

γ = lim 

n→∞ 1/ (n + 1) E log + A0A−1...A−t < 0. 

Então y é EE. Além disso, se {At} é um processo EE então E log + A0 < 0 implica 

γ < 0. 

Proposição 7.4.3 Considere-se yt = c (St) + φ 1 (St) yt−1 + ut com dois regimes N = 2. Se- 

jam π1 e π2 as probabilidades estacionárias da cadeia de Markov S. Se {ut} é um processo 

EE com segundo momento finito e |φ 11| π1 |φ21| π2 < 1 então y é EE. 

260

Dem. Considerando a norma Euclidiana e a desigualdade de Jensen, tem-se 

E log + C0 = 

 

E log + 

 

c2 (St) + u2 

t = 1 

2 E log + c 2 (St) + u 2 t 

≤ 1 

2 log E c 2 (St) + E u 2 t < ∞. 

Como a cadeia de Markov é estritamente estacionária (tem distribuição estacionária π = 

(π1, π2), segue-se que {At} é um processo EE, pelo que basta verificar E log + A0 < 0. 

No caso em análise a “matriz” A0 reduz-se ao elemento A0 = φ 1 (St) . Tem-se 

e, portanto, 

⎧ 

⎨ 

log |φ1 (St)| = 

⎩ 

E log + A0 = E (log |φ 1 (St)|) 

log |φ 11| St = 1 

log |φ 21| St = 2 

= P (St = 1) log |φ 11| + P (St = 2) log |φ 21| 

= π1 log |φ 11| + π2 log |φ 21| 

= log (|φ 11| π1 |φ21| π2 ) . 

Segue-se que |φ 11| π1 |φ21| π2 < 1 implica E log + A0 < 0. 


yt = 

⎧ 

⎨ 

⎩ 

2yt−1 + ut se St = 1 

0.6yt−1 + ut se St = 2 

⎛ ⎞ 

0.1 

P = ⎝ 

0.9 

⎠ (7.36) 

0.2 0.8 

onde ut é um processo ruído branco. Um processo AR(1) com coeficente φ = 2 não só é não 

estacionário como é explosivo (tende para mais infinito em tempo finito). No entanto, yt é 

EE. Com efeito, a partir de P obtém-se π1 = 0.1818 e π2 = 1 − π1 = 0.8182 (conferir a 

proposição 7.4.1 e o exemplo 7.4.3). Por outro lado, invocando a proposição 7.4.3, tem-se 

|φ 11| π1 |φ21| π2 = 2 0.1818 0.6 0.8182 = 0.746 < 1. Logo y é EE. Este resultado é interessante. 

De facto poderíamos pensar que o comportamento explosivo de yt no regime 1 implicaria 

um processo não estacionário. Isto não sucede porque a probabilidade do sistema estar num 

dado momento no regime estável é relativamente elevada. O processo pode, episodicamente, 

entrar no regime 1 e atingir valores extremamente elevados, mas num intervalo de tempo 

261

Figura 7-22: Simulação de uma trajectória do processo (7.36) onde ut ∼ N (0, 1) (10000 

observações) 

relativamente curto o process reentra no regime 2 com probabilidade elevda, e o valor do 

processo retorna ao intervalo dos valores “moderados” do processo (diríamos ao centro de 

gravidade da distribuição estacionária). A figura apresenta uma trajectória simulado do 

processo. 

No contexto dos modelos MS com heterocedasticidade condicional, Bauwens et al. (2006) 

o seguinte modelo 

onde 

yt = 

⎧ 

⎪⎨ 

⎪⎩ 

c1 + σ1tεt se St = 1 

... 

cN + σNtεt se St = N 

σ 2 it = ωi + αiu 2 t−1 + β iσ 2 t−1. 

Supõe-se ainda que a cadeia St depende de yt−1, 

2 

P (St = i| Ft−1) = pit yt−1 , i = 1, 2, ..., N 

Sem perda de generalidade, seleccione-se o regime 1 como sendo o regime “estável”, α1 + 

β 1 < 1. Bauwens et al. (2006) estabelecem a 

262

Proposição 7.4.4 Suponha-se: (a) {εt} é uma sucessão de v.a. i.i.d. de média zero e variân- 

cia um, com função de densidade contínua em R; (b) αi > 0, βi > 0, para i = 1, 2, ..., N; 

 

2 2 2 (c) α1 + β1 < 1 e (d) p1t yt−1 > 0 e pit yt−1 → 1 quando yt−1 → ∞. Então y é EE. 

A proposição assegura que o processo retorna ao regime estável sempre que yt tende a 

assumir valores muito altos (alínea d)). 

No caso especial em que as probabilidades são constantes, pit = πi, é válido a seguinte 

Proposição 7.4.5 Suponham-se verificadas as condições (a) e (b) da proposição anterior. 

Se 

então é EE. 

N 

j=1 

7.4.7 Estimação e Inferência 

πj 

 

βj + αj < 1 

Comece-se por analisar o modelo (7.25) e seja θ o vector dos parâmetros a estimar. Como ha- 

bitualmente, o estimador de máxima verosimilhança é dado por ˆ θn = arg maxθ 

onde 

lt (θ) = log f (yt| Ft−1; θ) = log (f1tp1t + f2t (1 − p1t)) . 

n 

t=1 lt (θ) , 

Se os regimes são independentes, p1t é dado pela equação (7.28); se seguem uma cadeia de 

Markov, p1t é dada por (7.32a); finalmente, se os regimes são Ft−1 mensuráveis, p1t é dado 

por (7.33) ou (??). 

Pode-se mostrar: 

√ 

n ˆθn d 

− θ0 −→ N 0, I (θ0) −1 

onde I (θ0) é a matriz de informação de Fisher. Verifica-se I (θ0) = A (θ0) = B (θ0) onde 

A (θ) = − E 

Estimadores consistentes de A e B são 

2 ∂ lt (θ) 

∂θ∂θ ′ 

 

, B (θ) = E 

Ân = − 1 

n 

ˆBn = 1 

n 

t=1 

n 

∂ 2 lt 

∂θ 

 

ˆθn 

∂lt (θ) 

∂θ 

∂θ∂θ 

t=1 

′ 

p 

−→ A (θ0) 

 

n ∂lt ˆθn ∂lt ˆθn 

p 

−→ B (θ0) . 

263 

∂θ ′ 

∂lt (θ) 

∂θ ′ 

 

.

Os ensaios individuais para os parâmetros da média e da variância condicional (GARCH) 

podem ser feitos como habitualmente. Isto é, podem basear-se no resultado 

ˆ θi,n 

a 

∼ N (θi, ˆvii) 

onde θi é o parâmetro (escalar) i, e vii é o elemento ii da matriz I (θ0) −1 /n. 

No ensaio, um regime versus dois regimes, H0 : c1 = c2, φ 1 = φ 2, σ1 = σ2, H1 : H0 é 

falsa, a situação é similar ao do ensaio H0 : φ 1= φ 2 no contexto do modelo TAR: os testes 

assimptóticos habituais (rácio de verosimilhanças, Wald e multiplicador de Lagrange) não 

podem ser empregues. Sob a hipótese nula (um regime) vários parâmetros não são identi- 

ficáveis (o score com respeito a estes parâmetros é identicamente nulo e a matriz informação 

de Fisher resulta singular). Uma forma de lidar com este tipo de ensaio não standard é 

proposto por Davies (1987), que obtém um limite superior para o nível de significância do 

teste rácio de verosimilhança quando q parâmetros apenas são identificáveis sob a hipóteses 

alternativa: 

P (sup LR > LRobs) ≤ P χ2 

q > LRobs 

+V.LR (q−1)/2 

obs . exp {−LRobs} 2−q/2 

Γ(q/2) . 

(7.37) 

onde Γ é a função gama, LRobs = 2 (log L 1 n − log L 0 n) e L 1 n e L 0 n são os valores da função de 

log-verosimilhança sob H1 e H0, respectivamente. Se a função o rácio de verosimilhanças 

admite um máximo global então V = 2 √ LRobs. Os passos para implementar o teste no 

contexto do modelo (7.25) são os seguintes: 

1. Estimar o modelo AR(1) e obter L 0 n; 

2. Estimar o MS (7.25) e obter L 1 n; 

3. Calcular LRobs, P χ2 

q > LRobs , V, etc.; 

4. Calcular o limite superior de P (sup LR > LRobs) usando a expressão (7.37). 

Suponhamos que se obtém P (sup LR > LRobs) ≤ 0.02. Então rejeita-se H0 ao n.s. de 

5% pois o verdadeiro p-value é inferior a 0.02. Suponhamos que P (sup LR > LRobs) ≤ 

0.06. Nada se pode concluir ao n.s. de 5% pois o verdadeiro p-value pode ser 0.04 ou 0.055. 

Tudo o que sabemos é que é inferior a 0.06. 

Outro teste, designado por teste-J, é proposto por Garcia e Perron (1996) e baseia-se na 

264

significância estatística do parâmetro δ (teste-t) da regressão 

onde ˆ X (1) 

t 

e ˆ X (2) 

t 

Xt = (1 − δ) ˆ X (1) 

t + δ ˆ X (2) 

t + εt 

são os previsores dos modelos com um e dois regimes, respectivamente (o 

teste generaliza-se imediatamente ao caso em que ˆ X (1) 

t 

é o previsor do modelo com menos 

regimes). Assim, a rejeição de H0: δ = 0 mostra evidência a favor do modelo com mais 

regimes. 

7.4.8 Previsão 

Suponha-se que y segue um modelo MS com dois regimes e estão disponíveis em n ob- 

servações de y, {y1, y2, ..., yn} . Usando, como previsor para yn+h a função E (yn+h| Fn) , 

tem-se 

E (yn+h| Fn) = E (yn+h| Fn, Sn+h = 1) P (Sn+h = 1| Fn) 

+ E (yn+h| Fn, Sn+h = 2) P (Sn+h = 2| Fn) 

onde E (yn+h| Fn, Sn+h = i) é, como já vimos, a média condicional do regime i (no contexto 

do modelo (7.25) tem-se E (yn+h| Fn, Sn+h = 1) = E (c1 + φ 1yn+h−1| Fn)). A probabili- 

dade P (Sn+h = i| Fn) depende da hipótese que se tem sobre S. Se admitirmos que S segue 

uma cadeia de Markov, vem 

P (Sn+h = 1| Fn) = 

Tendo em conta (7.23), resulta 

= 

= 

2 

P (Sn+h = 1, Sn = i| Fn) 

i=1 

2 

P (Sn+h = 1| Sn = i, Fn) P (Sn = i| Fn) 

i=1 

2 

P (Sn+h = 1| Sn = i) P (Sn = i| Fn) . 

i=1 

P (Sn+h = j| Sn = i) = P h 

i,j = elemento (i, j) da matriz P h . 

265

Finalmente, tendo em conta a equação (7.31), 

7.4.9 Aplicação 

P (Sn = i| Fn) = 

f (yn| Sn = i, Fn−1) P (Sn = i| Fn−1) 

N j=1 f (yn| Sn = j, Fn−1) P (Sn = j| Fn−1) . 

Analisa-se a taxa de juros FED fund 13 (EUA) no período Julho de 1954 a Outubro de 2006 

(628 observações mensais). 

A literatura dos modelos de taxas de juro (a um factor) sugere que a volatilidade da taxa 

de juro depende do nível da taxa de juro. Um dos modelos mais usados em matemática 

financeira (tempo contínuo) é o processo CIR (devido a Cox, Ingersoll e Ross): 

drt = β (τ − rt) dt + σ √ rtdWt, β, τ, σ > 0 (7.38) 

onde rt é a taxa de juro spot instantânea e W é o chamado processo de Wiener. Todos 

os parâmetros podem ser estimados consistente e eficientemente pelo método da máxima 

verosimilhança. A discretização do processo (i.e. a passagem para um processo em tempo 

discreto que aproximadamente traduz a dinâmica de (7.38)) simplifica a análise (embora no 

caso presente não seja necessário). A discretização pelo esquema de Euler (supondo para 

simplificar que o hiato entre duas observações consecutivas, ∆, é constante e igual a um) 

conduz ao modelo, 

rt = c + φrt−1 + σ √ rt−1εt 

(7.39) 

onde c = βτ, φ = (1 − β). Esta discretização de Euler envolveu a troca de drt por rt − rt−1, 

dt por ∆ = 1, e dWt por √ ∆×εt. Estas trocas representam apenas aproximações e envolvem, 

por isso, erros. 

Resultados preliminares mostram que existe forte presença de heterocedasticidade e que 

a sua dinâmica é compatível com a que está subjacente ao modelo (7.39). 

A estimação dos parâmetros do modelo (7.39), pelo método da máxima verosimilhança, 

assumindo normalidade, conduziu aos resultados que se apresentam na figura 7-23. 

Vários autores têm sugerido a existência de diferentes dinâmicas ou regimes no compor- 

tamento da taxa de juro (veja-se, por exemplo, Gray, 1996). Concretamente, argumenta-se o 

seguinte: quando as taxas de juro são altas (anos 80) a volatilidade é alta e o processo exibe 

13 É oficialmente designada por Federal funds effective rate, com maturidade overnight. 

266

Mean loglikelihood 1.07420 

Number of cases 628 

Covariance of the parameters computed by the following method: 

QML covariance matrix 

Parameters Estimates Std. err. Gradient 

c 

0.0764 0.0394 0.0000 

fhi 0.9878 0.0091 0.0000 

sigma 0.0355 0.0052 0.0000 

Figura 7-23: Resultados da estimação do modelo (7.39) 

Mean loglikelihood 0.767141 

Number of cases 628 

Covariance of the parameters computed by the following method: 

Inverse of computed Hessian 

Parameters Estimates Std. err. Gradient 

c1 

0.0937 0.0508 0.0000 

fhi1 0.9848 0.0077 0.0000 

sigma1 0.5497 0.0183 0.0000 

c2 0.2100 0.1357 0.0000 

fhi2 0.9697 0.0157 0.0000 

sigma2 0.0866 0.0093 0.0000 

p11 0.9976 0.0024 0.0000 

p22 0.9912 0.0083 0.0000 

Figura 7-24: Resultados da estimação do modelo (7.39) 

reversão para uma média de longo prazo; quando as taxas de juro são baixas, a volatilidade 

é baixa e observa-se ausência de reversão para uma média. Este argumento sugere a existên- 

cia de dois regimes: um regime de altas taxas de juro e alta volatilidade e um regime de 

baixas taxas de juro e baixa volatilidade. Depois de vários ensaios seleccionou-se o seguinte 

modelo: 

yt = 

⎧ 

⎨ 

⎩ 

c1 + φ 1yt−1 + σ1εt 

c2 + φ 2yt−1 + σ2 

se St = 1 

√ yt−1εt se St = 2 

(7.40) 

cujos resultados de estimação, pelo método da máxima verosimilhança, assumindo normali- 

dade, estão apresentados na figura 7-24. 

A figura 7-25 apresenta a sucessão das probabilidades estimadas 

 

ˆP (St = 1| Ft−1) ; t = 2, ..., n . 

Recorde-se que P (St = 1| Ft−1) é a probabilidade de y se encontrar no regime 1 no mo- 

mento t, dado Ft−1. Podemos observar, a partir da figura 7-25, que o processo y se encontrou, 

com alta probabilidade, no regime 1 durante as décadas de 80 e 90. Durante os anos 2003- 

2005 o processo encontrou-se, com alta probabilidade no regime 2. Em 2006, o processo 

não está totalmente em nenhum dos regimes. 

267

Figura 7-25: Taxa de juro e probabilidades P (St = 1| Ft−1) estimadas 


268

Capítulo 8 

Modelação da Heterocedasticidade 

Condicionada - Caso Univariado 



Vimos no capítulo 3 que fortes variações dos retornos são normalmente seguidas de fortes 

variações dos retornos em ambos os sentidos, e que baixas variações dos retornos são normal- 

mente seguidas de baixas variações dos retornos, também, em ambos os sentidos (veja-se, 

por exemplo, a figura 3-17). Este facto estilizado indica muito claramente que a volatilidade 

não é constante ao longo do tempo. Uma forma mais subtil de mostrar que a volatilidade 

não é constante consiste em constatar que a série dos quadrados dos resíduos (ou mesmo os 

quadrados dos retornos) é autocorrelacionada. 

8.1.1 Por que razão a volatilidade não é constante? 

• Uma parte da volatilidade pode ser relacionada com a especulação. Em certos mode- 

los distingue-se duas classes de investidores: investidores racionais que tendem a “em- 

purrar” o preço dos activos na direcção do valor fundamental ou intrínseco da empresa 

(normalmente formalizado como o valor actual dos fluxos financeiros que o investidor 

espera vir a receber no futuro) e especuladores que baseiam as suas decisões em in- 

formações estatísticas geradas pelo mercado, como por exemplo, os preços passados 

e o volume de transacções. Quando a proporção de especuladores é alta e os sinais 

269

de mercado são interpretados de forma análoga pela maior parte dos especuladores, 

formam-se tendências fortes de compra ou de venda que se reflectem no preço e na 

volatilidade. 

• Episódios de extrema volatilidade ocorrem quando uma “bolha especulativa” rebenta, 

i.e., quando depois de um período considerável de crescimento dos preços, sucede 

uma repentina e inesperada quebra do mercado. Estas “bolhas especulativas” estão 

normalmente associadas a uma nova tecnologia (por exemplo, o boom da electrónica 

nos anos 60, da biotecnologia nos anos 80 ou da internet no fim dos anos 90) ou 

a um novo negócio (mais uma vez o caso da internet no fim dos anos 90). Gera- 

se um ambiente de euforia em torno dos títulos associados a uma certa tecnologia 

e/ou negócio e emerge um comportamento irracional de grupo totalmente desligado 

do valor intrínseco dos títulos. 

• Graves crises económicas e políticas também explicam momentos de alta volatilidade. 

• Uma outra explicação (em certa medida complementar com as precedentes) relaciona 

a volatilidade com a chegada de informação aos mercados. Suponha-se, num cenário 

ideal ou hipotético, que o mercado está em equilíbrio (não há flutuação dos preços). 

Quando chega informação ao mercado os agentes reavaliam as suas carteiras (perante 

a nova informação, deixam de ser “óptimas”); tenderão, por conseguinte, a vender 

ou a comprar activos até que se atinja um novo equilíbrio. A acção de comprar e 

vender títulos tende a alterar os preços. A hipótese crucial é a de que a informação não 

chega de forma homogénea e contínua ao mercado. Quando a chegada de informação 

é reduzida e pouco relevante os mercados tenderão a exibir baixa volatilidade; pelo 

contrário, quando a informação é intensa e relevante, poderão ocorrer períodos de 

forte volatilidade. A informação relevante aqui deve ser entendida como a informação 

que, de alguma forma, afecta a rendibilidade dos activos. Por exemplo, a libertação de 

notícias relacionadas com inflação, taxas de juro, PIB, etc., geralmente têm impacto 

sobre a volatilidade e sobre os preços. 

O modelo que se apresenta a seguir procura replicar o fenómeno de volatilidade não 

constante a partir do conceito de chegada de informação. Seja Nt o número de notícias no 

dia t. Quando uma notícia chega ao mercado supõe-se que existe uma revisão do preço de um 

certo activo. Essa revisão traduz-se numa variação do preço numa quantidade aleatória dada 

270

por εi,t (i = 1, ..., Nt). Se existir uma notícia (relevante) num certo dia t, o logaritmo do preço 

no dia t é representado por log Pt = log Pt−1 + µ + ε1,t; se existirem duas notícias o modelo 

passa a ser representado por log Pt = log Pt−1 + µ + ε1,t + ε2,t (e assim sucessivamente). 

Assuma-se que {εi,t; i = 1, 2, ..., Nt} é uma sucessão de v.a. i.i.d. com distribuição N (0, σ 2 ) 

e independentes de Nt. Tem-se assim que o retorno do activo é dado por 

Nt 

rt = µ + εi,t. (8.1) 

Resulta do modelo que a variância de rt dado Nt é não constante, pois 

i=1 

Var (rt| Nt = nt) = ntσ 2 

(de acordo com este modelo, quanto maior é o número de notícias que chegam ao mercado, 

maior é a volatilidade). É razoável admitir-se uma distribuição de Poisson de parâmetro λ 

para a v.a. Nt, i.e., Nt ∼ P (λt). Podemos ainda refinar o modelo, incorporando persistência 

em Nt, i.e. permitindo que Nt seja alto (baixo) sempre que Nt−1 é alto (baixo). Por outras 

palavras, o volume de informação tende a ser alto (baixo) em períodos seguidos. Nestas 

circunstâncias, passa a assumir-se Nt ∼ P (λt) com λt = Nt−1 + 1 (o número médio de 

notícias no dia t é igual ao número de informações do período anterior mais uma unidade) 

(adiciona-se uma unidade para evitar que λt = 0 para algum t). Na figura 8-1 representa-se 

uma trajectória simulada de (8.1) para µ = 0, σ = 0.0015 e Nt ∼ P (λt) , λt = Nt−1 + 1. 

Podemos observar que a trajectória simulada replica algumas das características típicas das 

séries financeiras. 

Retome-se a equação (8.1). Esta equação sugere a especificação 

rt = µ + ut, ut = σtεt. 

O essencial nesta equação é a ideia de que ut tem variância condicional σ 2 t não constante. 

Suponha-se de agora em diante que σ 2 t é Ft−1-mensurável (i.e., σ 2 t depende apenas de var- 

iáveis observadas no momento t − 1) 1 . 

1 No exemplo anterior, σ 2 t = ntσ 2 não é Ft−1-mensurável. 

271

0.03 

0.025 

0.02 

0.015 

0.01 

0.005 

0 

0.005 

0.01 

0.015 

0.02 

0.025 

1 101 201 301 401 501 601 701 801 901 

Figura 8-1: Simulação de uma trajectória de rt, assumindo µ = 0, σ = 0.0015 e Nt ∼ P (λt) 

onde λt = Nt−1 + 1. 

8.1.2 Processos Multiplicativos 

Considere-se ut = σtεt e as seguintes hipóteses: 

H1 {εt} é uma sucessão de v.a. i.i.d. com E (εt) = 0 e Var (εt) = 1; 

H2 εt é independente de ut−k, k ∈ N; 

H3 σt é Ft−1 mensurável. 

Tem-se: 

E (ut| Ft−1) = E (σtεt| Ft−1) = σt E (εt| Ft−1) = 0 

Var (ut| Ft−1) = E u 2 t 

 

Ft−1 

= E σ 2 t ε 2 t 

t 

 

Ft−1 

= σ 2 t E ε 2 t 

 

Ft−1 

= σ 2 t . 

Assim, processos multiplicativos do tipo ut = σtεt, com σt não constante, são processos het- 

erocedásticos (variância não constante). Este tipo de modelos estão presentes na abordagem 

tradicional da heterocedasticidade. Por exemplo, se zt−1 > 0 é exógena e ut = αzt−1εt, 

então a expressão Var (ut| zt−1) = α 2 z 2 t−1 não é constante. 

Processos estocásticos com heterocedasticidade condicional (HC) (variância não con- 

stante ao longo do tempo), são também definidos a partir de um processo multiplicativo do 

tipo ut = σtεt mas, comparativamente ao caso tradicional, a forma como σ 2 t é especificado 

varia substancialmente, como veremos a seguir. Que função especificar para σt ou σ 2 t ? Vimos 

que uma das características das séries financeiras é exibir volatility clustering: fortes vari- 

ações são normalmente seguidas de fortes variações em ambos os sentidos, devendo ocorrer, 

272

portanto, Corr u2 t−1, u2 

t > 0. Suponha-se, por um momento que ut representa a série fi- 

nanceira. Portanto, se u 2 t−1 é um valor alto (baixo), em média, u 2 t será também um valor alto 

(baixo). Nestas circunstâncias, faz sentido escrever o seguinte modelo para σ 2 t : 

Com efeito, tem-se esquematicamente: 

σ 2 t = ω + α1u 2 t−1, ω > 0, α1 ≥ 0. (8.2) 

u 2 t−1 é “alto” ⇒ σ 2 t é “alto” ⇒ u 2 t é “alto” (recorde-se ut = σtεt). 

No caso clássico de heterocedasticidade, a variância depende da evolução de uma ou mais 

variáveis exógenas, determinadas fora do modelo (zt−1 no exemplo anterior); no modelo de 

HC, a volatilidade σ 2 t é uma variável aleatória função de choques aleatórios determinada 

dinamicamente, a partir do próprio modelo: 

u 2 t−1 → σ 2 t → u 2 t → σ 2 t+1 → ... 

Se ut é encarado como uma v.a. residual do modelo 


é fácil ver que a heterocedasticidade definida em ut é transmitida a yt: 

Var (yt| Ft−1) = E (yt − µ t) 2 

Ft−1 = Var (ut| Ft−1) = σ 2 t . 

8.1.3 Distribuições de Caudas Pesada 

Uma característica muito importante dos modelos de HC é o de implicar (sob certas condições) 

distribuições marginais leptocúrticas. Retome-se o modelo ut = σtεt sob as hipóteses H1- 

H3. Admita-se ainda que o choque aleatório εt tem distribuição N (0, 1) . Tem-se 

E (ut) = 0 

Var (ut) = E u 2 t = E σ 2 t 

E u 3 t = 0 ⇒ skweness = 0. 

273

Mostre-se que a distribuição marginal de u é leptocúrtica. Para o efeito, calcule-se o coefi- 

ciente de kurtosis de u, 

e verifique-se que ku > 3. Ora 

pelo que 

ku = E (u 4 t ) 

E (u 2 t ) 2 

E u 4 t = E σ 4 t ε 4 t = E σ 4 σ 

4 2 2 

t E εt = E t E ε 4 t 

> E σ 22 t E ε 4 t = E u 22 t E ε 4 t = E u 22 t 3 

ku = E (u4 t ) 

E (u2 t ) 2 > E (u2 t ) 2 3 

E (u2 t ) 

2 = 3. 

Este resultado sugere que um modelo de HC pode ser adequado para modelar retornos, pois 

acomoda uma das características mais importantes das séries financeiras que é a dos retornos 

seguirem uma distribuição leptocúrtica. 

8.1.4 O papel da Média Condicional e o Modelo de Heterocedasticidade 

Condicionada 

Vimos que fortes variações de y são normalmente seguidas de fortes variações em ambos os 

sentidos. Teoricamente, este efeito pode ser modelado através da média condicional. Esta 

seria a situação ideal. Se a média condicional modelasse este efeito, conseguiríamos prever 

razoavelmente as variações de y e, nestas circunstâncias, não só o erro ut = yt − µ t seria 

baixo como também a volatilidade de y poderia ser baixa e mesmo constante ao longo do 

período. No entanto, vimos que a média condicional é geralmente uma componente muito 

fraca do modelo (recorde-se a questão dos mercados eficientes). Isto é, se considerarmos o 

modelo yt = µ t + ut, a média condicional µ t (representada, por exemplo, por um AR ou 

MA), é uma componente pouco explicativa do modelo. Assim, quando y 2 t é alto, u 2 t também 

é alto (porque a média condicional não acompanha as flutuações de yt) e, consequentemente, 

espera-se que u 2 t esteja fortemente correlacionado com u 2 t−1. 

8.1.5 Vantagens dos modelos de Heterocedasticidade Condicionada 

Antes do artigo seminal de Engle (1982) as dependências temporais nos momentos superi- 

ores a um eram tratadas como simples ruído. Engle mostrou que as dependências temporais 

274

do segundo momento, podem explicar razoavelmente a evolução da volatilidade ao longo do 

tempo. A volatilidade condicional (doravante volatilidade) da série pode ser identificada com 

a variância condicional, σ 2 t , ou, simplesmente, com σt (em princípio, é preferível identificar 

a volatilidade com σt, pois σt está na escala da variável). 

Iremos ver que os modelos de HC permitem: 

• modelar a volatilidade (e as covariâncias condicionais, no caso multivariado); como 

se sabe, a volatilidade é uma variável fundamental na análise do risco de mercado, na 

construção de portfolios dinâmicos, na valorização de opções, etc.; 

• estimar de forma mais eficiente os parâmetros definidos na média condicional (por 

exemplo, se um processo ARMA exibir heterocedasticidade condicional, a estimação 

conjunta dos parâmetros da média e dos parâmetros da variância permite estimar efi- 

cientemente os parâmetros da média); 

• estabelecer intervalos de confiança correctos para y. Isto é, se y exibe HC e esta é neg- 

ligenciada, os intervalos de previsão para y são incorrectos. Observe-se, com efeito, 

que os intervalos de confiança dependem da variância do erro de previsão e o erro de 

previsão depende (entre outros aspectos) da variância (condicional) da v.a. residual. 

8.2 Modelo ARCH 

Considere-se o seguinte modelo 

yt = µ t + ut, 

µ t = E (yt| Ft−1) média condicional 

ut = σtεt 

Assumam-se as hipóteses H1-H3. 

Definição 8.2.1 ut segue um modelo ARCH(q) (ou tem representação ARCH(q)) se 

ut = σtεt 

σ 2 t = ω + α1u 2 t−1 + ... + αqu 2 t−q, ω > 0, αi ≥ 0 

275

etornos 

4 

2 

0 

2 

4 

retornos 

15 

10 

5 

0 

5 

10 

15 

Panel (a) 

r(t) sigma(t) 

Panel (c) 

r(t) sigma(t) 

volatilidade 

20 

15 

10 

5 

0 

volatilidade 

20 

15 

10 

5 

0 

retornos 

15 

10 

5 

0 

5 

10 

15 

retornos 

30 

20 

10 

0 

10 

20 

30 

Panel (b) 

r(t) sigma(t) 

Panel (d) 

r(t) sigma(t) 

volatilidade 

20 

15 

10 

5 

0 

volatilidade 

Figura 8-2: Simulação de 4 trajectórias ARCH de acordo com o modelo (8.3). 

É importante constatar que σ 2 t ∈ Ft−1. 

Como a volatilidade exibe forte dependência temporal, raramente se considera q = 

1. Discute-se a seguir esta questão através de um exercício de simulação. Na figura 8-2 

apresenta-se as trajectórias simuladas para o retorno (rt) e σt considerando diferentes val- 

ores para os parâmetros αi. O modelo simulado é 

rt = ut, (µ t = 0) 

ut = σtεt, εt RB Gaussiano com variância 1 (8.3) 

σ 2 t = ω + α1u 2 t−1 + ... + α8u 2 t−8. 

Em todos os casos ω = 1. Na figura 8-2 tem-se: 

• Painel (a) ARCH(0) α1 = ... = α8 = 0; 

• Painel (b) ARCH(1) α1 = 0.8, α2 = ... = α8 = 0; 

• Painel (c) ARCH(3) α1 = 0.3, α2 = 0.3, α3 = 0.2, α4 = ... = α8 = 0; 

• Painel (d) ARCH(8) α1 = 0.2, α2 = ... = α8 = 0.1 

276 

20 

15 

10 

5 

0

Na figura 8-2 os gráficos que mais fielmente reproduzem o fenomeno de volatility clus- 

tering (volatilidades altas (baixas) são geralmente seguidas por volatilidades altas (baixas)) 

e exibem alguma persistência no comportamento da volatilidade (tal como vimos nos pontos 

3.2.2 e 3.2.3), correspondem aos painéis (c) e (d). A simulação sugere que é mais apropriado 

em aplicações empíricas considerar-se um q elevado (não obstante, veremos adiante que é 

problemático estimar-se um modelo com q elevado). 

8.2.1 Dois Primeiros Momentos de ut 

Como εt é independente de ut−k, k ∈ N, segue-se que σ 2 t (que é uma função de ut−k, k ∈ N) 

é independente de εt. Logo, 

E (ut) = E (σtεt) = E (σt) E (εt) = 0, 

Var (ut) = E u 2 t = E σ 2 t ε 2 t = E σ 2 2 

t E εt = E σ 2 t . (8.4) 

Por outro lado, como {ut} é uma diferença de martingala, pois E (|ut|) < ∞ e E (ut| Ft−1) = 

0, resulta pela proposição 4.4.1, que ut é não autocorrelacionado, i.e. Cov (ut, ut−k) = 0. 

8.2.2 Representação AR de um ARCH 

Vimos, já por várias ocasiões, que existem dependências no segundo momento do processo. 

A representação autoregressiva do processo ARCH mostra exactamente esse aspecto. Tem- 

se, 

σ 2 t = ω + α1u 2 t−1 

u 2 t + σ 2 t = ω + α1u 2 t−1 + u 2 t 

u 2 t = ω + α1u 2 t−1 + u 2 t − σ 2 t 

 

u 2 t = ω + α1u 2 t−1 + vt 

Como E (vt| Ft−1) = E (u 2 t − σ 2 t | Ft−1) = E (u 2 t | Ft−1) − σ 2 t = 0, conclui-se pela definição 

4.4.3, que {vt} (admitindo que E (|vt|) < ∞) é uma diferença de martingala e, portanto, 

um processo não autocorrelacionado (E (vt) = 0 e Cov (vt, vt−k) = 0). Logo, tem-se o 

importante resultado: se ut segue um modelo ARCH(1) então u 2 t segue um processo AR(1). 

277 

vt

Esquematicamente: 

ut ∼ ARCH(1) ⇒ u 2 t ∼ AR(1). 

Assim, o processo u 2 t é autocorrelacionado (se α1 > 0) e apresenta as características básicas 

de um processo AR(1). De igual forma se conclui: 

ut ∼ ARCH(q) ⇒ u 2 t ∼ AR(q). 

8.2.3 Estacionaridade de Segunda Ordem do ARCH(q) 

Estude-se a ESO de u. Vimos que E (ut) e Cov (ut, ut−k) são finitos e não dependem de t; 

só falta estudar Var (ut). Em que condições Var (ut) = E (u 2 t ) não depende de t e é finita? 

Considere-se o ARCH(1) na sua representação autoregressiva: 

u 2 t = ω + α1u 2 t−1 + vt, α1 ≥ 0. 

Da estrutura autoregressiva conclui-se que a condição |α1| < 1 (ou equivalentemente: a raiz 

do polinómio AR (1 − α1L) = 0 é, em módulo, superior a um) implica E (u 2 t ) = σ 2 < 

∞. Se adicionarmos a esta condição, a restrição α1 ≥ 0, a condição de ESO passa a ser 

simplesmente, 

Se u é um processo ESO vem 

0 ≤ α1 < 1. 

E u 2 t = ω + α1 E u 2 

t−1 

E u 2 t = ω + α1 E u 2 t ⇒ E u 2 ω 

t = 

1 − α1 

Considere-se agora o ARCH(q) na sua representação autoregressiva: 

u 2 t = ω + α1u 2 t−1 + ... + αqu 2 t−q + vt, αi ≥ 0. 

Da estrutura autoregressiva conclui-se que, se as raízes do polinómio AR (1 − α1L − ... − αqL q ) = 

0, estiverem todas fora do circulo unitário (complexo), então E (u 2 t ) = σ 2 < ∞. Se adicion- 

armos a esta condição, as restrições αi ≥ 0, a condição de ESO simplifica-se e, pode-se 

provar, é igual a 

α1 + α2 + ... + αq < 1, (αi ≥ 0). 

278

Neste caso, depois de algumas contas, obtém-se 

Var (ut) = E u 2 t = 

ω 

1 − (α1 + α2 + ... + αq) . 

Observação 8.2.1 Embora a expressão Var (ut| Ft−1) seja variável, Var (ut) é constante. 

Assim: ut é condicionalmente heterocedástico (heterocedasticidade condicional) mas em 

termos não condicionais ou marginais, ut é homocedástico. De forma análoga, também 

num processo estacionário, a média condicional é variável e a não condicional é constante. 

Por exemplo, num processo AR(1) estacionário, a média condicional é variável ao longo do 

tempo e dada por µ t = c + φyt−1; no entanto, a média marginal c/ (1 − φ) é constante. 

8.2.4 FAC e FACP de um u 2 t e Identificação do Processo ARCH(q) 

Suponha-se que o momento de ordem quatro de u é finito não depende de t. A FAC de u 2 t é 

dada por 

2 

ρk u Cov 

= ρk = 

u2 t , u2 

t−k 

 

Var (u2 t ) Var u2 

t−k 

, Var u 2 t = E u 4 t − E u 2 t 

Vimos que se ut segue um ARCH(q), então u 2 t segue um AR(q). Assim, a FAC e a FACP 

teóricas de u 2 exibem o comportamento típico de um AR: 

• (FAC) ρk não se anula e ρk → 0; 

⎧ 

⎨ não se anula se k = 1, 2, ..., q 

• (FACP) φkk = 

⎩ 0 se k = q + 1, q + 2, ... 

Em particular, tem-se num ARCH(1): 

ρ k = α k 1, k ≥ 1 

φ 11 = α e φ kk = 0, k ≥ 2. 

Observação 8.2.2 Num ARCH(1) o 4 o momento existe se 3α 2 1 < 1 i.e. se α1 < 0.5774 e esta 

condição é, na prática, um pouco severa. 

Passos para a identificação da ordem q de um processo ARCH(q) 

1. Estima-se o modelo yt = µ t + ut supondo σ 2 t constante; 

279 

2

0.5 

0.4 

0.3 

0.2 

0.1 

0 

0.1 

FAC de u^2 

1 5 9 13 17 21 25 29 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

0.1 

FACP de u^2 

1 5 9 13 17 21 25 29 

Figura 8-3: Simulou-se (n = 5000) um ARCH(q). Qual a ordem de q? 

2. Obtêm-se os resíduos ût = yt − ˆµ t, t = 1, ..., n; 

3. Calcula-se û 2 t , t = 1, ..., n; 

4. Calcula-se a FAC e a FACP de û 2 t e identifica-se a ordem q. 

Na figura 8-3 simulou-se um ARCH(q) com n = 5000 observações. Qual a ordem de q? 

8.2.5 Características da Distribuição Marginal de ut 

Suponha-se que εt é um ruído branco Gaussiano N (0, 1) . Então a distribuição condicional 

de ut é N (0, σ 2 ) , i.e., ut = σtεt| Ft−1 ∼ N (0, σ 2 t ) . Sob certas condições, a distribuição 

marginal de ut, f (ut), é dada pela expressão 

f (ut) = lim 

s→−∞ f (ut| Fs) . 

Como na prática não se consegue obter a expressão para o limite anterior, f é geralmente 

desconhecida; podemos ainda assim investigar algumas propriedades de f calculando alguns 

momentos: 

E (ut) = 0 

Var (ut) = E u 2 E 

ω 

t = 

1 − (α1 + ... + αq) 

u 3 t = 0 ⇒ skweness = 0 

ku = E (u 4 t ) 

E (u 2 t ) 2 > kε = 3 (já vimos). 

Tem-se a seguinte importante conclusão: ku ≥ kε. A distribuição de u tem caudas mais 

pesadas do que a distribuição de ε. Se, como habitualmente, se assumir εt ∼ N (0, 1) , então 

280

kurtosis 

25 

20 

15 

10 

5 

0 

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 

alfa 1 

Figura 8-4: Valor de kurtosis como função do parâmetro α1, associada a um ARCH(1) 

a distribuição marginal de u é leptocúrtica! Note-se, em esquema: 

ut| Ft−1 = σtεt| Ft−1 ∼ N 0, σ 2 t 

⇒ ut ∼ Dist.Leptocúrtica. 

Podemos obter uma expressão exacta para ku. Por exemplo, suponha-se ut ∼ ARCH(1), 

εt 

i.i.d. 

∼ N (0, 1) e 3α 2 1 < 1. Deixa-se como exercício mostrar que 

E u 4 t = 3 E σ 4 t , 

E σ 4 ω 

t = 

2 (1 + α1) 

(1 − α1) (1 − 3α2 1) , 

ku = E (u4 t ) 

E (u2 t ) 2 = 3 (1 − α21) 1 − 3α2 1 

= 3 + 6α2 1 

1 − 3α 2 1 

> 3. 

Vimos que a distribuição de u tem caudas mais pesadas do que a distribuição de ε. A 

proposição seguinte caracteriza as caudas da distribuição marginal. 

Proposição 8.2.1 Seja ut = σtεt onde εt é um ruído branco Gaussiano N (0, 1) e σ 2 t = 

ω + α1u 2 t−1. Suponha-se α1 ∈ (0, 2e γ ) onde γ é a constante de Euler, γ 0.5772. Seja 

κ > 0 a solução única da equação 

α κ 1 E Z 2κ = 1 ⇔ 

κ 

(2α1) 

√ Γ κ + 

π 1 

 

= 1 (8.5) 

2 

onde Γ é a função Gama e Z ∼ N (0, 1) . Então quando x → ∞, a probabilidade P (ut > x) 

281

converge para 

c 

2 x−2κ , c > 0. 

A proposição 8.2.1 basicamente estabelece que as abas da fdp f (x) de ut têm caudas de 

Pareto (i.e., para x suficientemente “grande” P (ut > x) - como função de x - e f (x) apre- 

sentam um decaimento polinomial). Este resultado está de acordo com os factos estilizados 

analisados no capítulo 3. É interessante verificar, mais uma vez, que embora a distribuição 

condicional seja normal a distribuição marginal é leptocúrtica e apresenta caudas pesadas 

(light-value input causes heavy-tailed output). O parâmetro κ obtém-se da resolução da 

equação (8.5). Não há, no entanto, uma solução explícita para κ (em função de α1) - a 

equação (8.5) deve resolver-se numericamente. 

Algumas conclusões: 

• Embora {ut} seja um processo não autocorrelacionado, {ut} não é uma sucessão 

de variáveis independentes (basta observar, por exemplo, E u2 t u2 

t−1 = 0 ou que 

E (u 2 t | Ft−1) depende de u 2 t−1); 

• Mesmo que ut seja condicionalmente Gaussiano a distribuição marginal não é Gaus- 

siana. Em particular, se ut é condicionalmente Gaussiano então a distribuição marginal 

é leptocúrtica. 

8.2.6 Momentos e Distribuição de y 

Seja 


ut = σtεt 

(assumem-se as hipóteses habituais para εt). Deixa-se como exercício verificar que: 

• E (yt| Ft−1) = µ t; 

• Var (yt| Ft−1) = σ 2 t ; 

• Se εt é Gaussiano então yt| Ft−1 ∼ N (µ t, σ 2 t ) ; 

• E (yt) = E (µ t) ; 

• Var (yt) = Var (E (yt| Ft−1)) + E (Var (yt| Ft−1)) = Var (µ t) + E (σ 2 t ) . 

282

4 

3 

2 

1 

0 

1 

2 

3 

4 

Retorno A 

8.2.7 Volatilidade: Definições 

t 

4 

3 

2 

1 

0 

1 

2 

3 

4 

Retorno B 

Figura 8-5: Qual é o retorno mais volátil? 

A volatilidade condicional no momento t (= σt) é uma medida da magnitude das variações 

(ou flutuações) não explicadas dos preços no momento t. No entanto, como µ t é quase 

sempre uma componente pouco explicativa de y (i.e. µ t ≈ 0, pelo menos para dados de 

frequência alta - dados semanais ou diários) podemos dizer (sem grande margem de erro) 

que a volatilidade condicional é uma medida da magnitude das variações (ou flutuações) 

dos preços no momento t. Esta é a definição usual de volatilidade do ponto de vista das 

instituições financeiras: 

“[. . . ] practitioners often refer to the term volatility when speaking of movements 

in financial prices and rates.” RiskMetrics 

Um título A pode exibir, comparativamente a um outro título B, maior volatilidade condi- 

cional em certos momentos do tempo mas, globalmente A pode ser menos volátil do que 

B. Nas figuras 8-5 o retorno A exibe episódios de grande volatilidade, mas B é (global- 

mente) mais volátil (i.e. considerando o período todo). 

Definimos volatilidade não condicional (ou marginal) como uma medida da magnitude 

das variações (ou flutuações) dos preços num hiato de tempo (meses ou anos) (que não são 

explicadas). Pode ser medida através da estatística 

ou se yt ∼ ARCH(q) 

Var (ut) = 

Var (ut) = 

n 

t=1 

n 

ût 2 

ˆω 

1 − (ˆα1 + ... + ˆαq) , (α1 + α2 + ... + αq < 1). 

283 

. 

t

No exemplo acima, a volatilidade marginal de B é maior do que a de A, embora B exiba 

volatilidade constante. 

8.3 Modelo GARCH 

Tendo em conta a forte dependência temporal da volatilidade, era usual, nas primeiras apli- 

cações, considerar-se um ARCH de ordem elevada. Um ARCH de ordem elevada levanta 

problemas de estimação (mais concretamente, de convergência dos algoritmos de optimiza- 

ção) e, não raras vezes obtêm-se máximos locais (e não globais, como é desejável). Como 

consequência, alguns das estimativas dos parâmetros podem vir desprovidos de significado 

(por exemplo, podem vir negativos) 2 . Para superar este problema, foram tentadas várias 

soluções (a maioria ad-hoc e sem muita relevância). Contudo, a melhor solução apareceu 

com o modelo GARCH. Veremos adiante este aspecto. 

Definição 8.3.1 ut segue um modelo GARCH(p,q) (ou tem representação GARCH(p,q)) se 

ut = σtεt 

σ 2 t = ω + α1u 2 t−1 + ... + αqu 2 t−q + β 1σ 2 t−1 + .. + β pσ 2 t−p 

ω > 0, αi ≥ 0, β ≥ 0 (ver no entanto a observação 8.3.1). 

Surpreendentemente, o modelo mais simples GARCH(1,1), σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1, 

veio a revelar-se suficiente em muitas aplicações. 

8.3.1 GARCH(p,q) representa um ARCH(∞) 

Considere-se o GARCH(p,q): 

σ 2 t = ω + α1u 2 t−1 + ... + αqu 2 t−q + β 1σ 2 t−1 + ... + β pσ 2 t−p 

σ 2 t = ω + (α1L + ... + αqL q ) 

 

A(L) 

u 2 t + β 1L + ... + β pL 

(1 − B (L)) σ 2 t = ω + A (L) u 2 t . 

P 

σ 2 t 

 

B(L) 

2 No método dos mínimos quadrados (OLS) a estimação é relativamente simples e imediata, mesmo que o 

número de parâmetros a estimar seja alto. Afinal, o “algoritmo de optimização” converge numa única iteração. 

Já no âmbito dos modelos ARCH a estimação é mais complicada pois a função a minimizar é altamente não 

linear e os estimadores não podem ser escritos através de uma fórmula “fechada”. 

284

Assim, 

(1 − B (L)) σ 2 t = ω + A (L) u 2 t 

σ 2 t = 

ω A (L) 

+ 

1 − B (L) 1 − B (L) u2 σ 

t = 

2 t = 

ω 

1 − B (1) + d1L + d2L 2 + ... u 2 t 

= 

ω 

1 − B (1) + 

∞ 

diu 2 t−i. 

i=1 

ω 

1 − B (L) + D (L) u2 t 

Em suma, o modelo GARCH(p,q) pode ser representado como um ARCH(∞): 

σ 2 t = 

ω 

1 − β 1 − ... − β p 

+ d1u 2 t−1 + d2u 2 t−2 + ... 

Os parâmetros di podem ser determinados pelo método dos coeficientes indeterminados 3 ou 

a partir da fórmula de Taylor (veja-se o exemplo seguinte). 

Exemplo 8.3.1 Represente-se o GARCH(1,2) num ARCH(∞). Tem-se 

σ 2 t = ω + α1u 2 t−1 + α2u 2 t−2 + β 1σ 2 t−1 

σ 2 t = ω + α1L + α2L 2 

u 

 

A(L) 

2 t + (β 

1L) 

 

B(L) 

Assim, o GARCH(1,2) pode representar-se na forma 

σ 2 t = 

σ 2 t . 

ω A (L) 

+ 

1 − B (1) 1 − B (L) u2t = ω 

+ 

1 − β1 α1L + α2L2 1 − β1L u2t . 

Podemos obter os primeiros termos do desenvolvimento em série (de potências de L) de 

α1L+α2L 2 

1−β 1 L 

3 Considere-se 

no programa Mathematica através da instrução 

Series[ α1L + α2L2 , {L, 0, 7}]. 

1 − β1L A (L) 

= D (L) 

1 − B (L) 

⇔ α1L + α2L 2 + ... + αqL q 

1 − β 1L − ... − β pL P 

= d1L + d2L 2 + ... 

⇔ α1L + α2L 2 + ... + αqL q = d1L + d2L 2 + ... 1 − β 1L − ... − β pL P . 

A partir da última equação igualam-se os coeficientes homólogos e resolvem-se as igualdades obtidas em ordem 

a di. 

285

O output do programa fornece: 

Assim, 

α1L + α2L 2 

1 − β 1L 

= α1L + (α2 + α1β1) L 2 + α2β1 + α1β 2 

3 

1 L 

+ α2β 2 

1 + α1β 3 

1 

+ α2β 4 

1 + α1β 5 

1 

L 4 + α2β 3 

L 6 + α2β 5 

1 + α1β 4 

1 

1 + α1β 6 

1 

L 5 

L 7 + ... 

d1 = α1, d2 = α2 + α1β 1, d3 = α2β 1 + α1β 2 

1, etc. 

Em geral di = β 1di−1, i = 3, 4... 

Observação 8.3.1 A condição ω > 0, αi ≥ 0, β ≥ 0 certamente implica σ 2 t > 0 mas não 

é necessário exigir tanto. Vimos atrás que σ 2 t = ω 

1−B(1) + ∞ 

i=1 diu 2 t−i. Logo, para se ter 

σ 2 t > 0 basta exigir 

Por exemplo, no GARCH(1,2) vimos: 

Assim, temos apenas de garantir 

ω > 0 e di ≥ 0, i = 1, 2, ... 

d1 = α1, d2 = α2 + α1β 1, di = β 1di−1 

α1 ≥ 0, β 1 ≥ 0, α2 ≥ −α1β 1 

(verifique que os valores α1 = 0.2, α2 = −0.05, β 1 = 0.5 são admissíveis). 

8.3.2 Representação ARMA de um GARCH 

Para simplificar considere-se o GARCH(1,1): σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1. Some-se a ambos 

os termos a variável u 2 t : 

u 2 t + σ 2 t = ω + α1u 2 t−1 + u 2 t + β 1σ 2 t−1, 

286

isole-se u 2 t no lado esquerdo da equação e simplifique-se a equação até se obter o ARMA 

implícito: 

u 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1 + u 2 t − σ 2 t 

 

= ω + α1u 2 t−1 + β1σ 2 t−1 + β1u 2 t−1 − β1u 2 t−1 + vt 

= ω + (α1 + β1) u 2 2 

t−1 − β1 ut−1 − σ 2 

t−1 + vt 

 

vt 

vt−1 

= ω + (α1 + β 1) u 2 t−1 − β 1vt−1 + vt. 

Como E (vt) = 0 e Cov (vt, vt−k) = 0 conclui-se: u 2 t ∼ ARMA(1, 1). No caso geral 

pode-se mostrar 

Por exemplo, 

ut ∼ GARCH(p,q) ⇒ u 2 t ∼ ARMA(max {p, q} , p). 

ut ∼ GARCH(1,2) ⇒ u 2 t ∼ ARMA(2,1) 



Em geral é problemático identificar o GARCH a partir das FAC e FACP de u 2 t . Por duas 

razões: 1) o GARCH implica uma estrutura ARMA para u 2 t e, como se sabe, no ARMA, 

nenhuma das funções de autocorrelação (FAC ou FACP) é nula a partir de certa ordem em di- 

ante (e, é esta característica que facilita a identificação das ordens do AR ou do MA, mas não 

do ARMA); 2) não existe uma correspondência perfeita entre a estruturas ARMA e GARCH 

(por exemplo, um ARMA(2,2) para u 2 t pode ser um GARCH(2,1) ou um GARCH(2,2) para 

ut). Quer isto dizer que as funções de autocorrelação não são interessantes nesta fase? De 

forma alguma, por duas razões: 1) se FAC e a FACP de u 2 t não apresentarem coeficientes 

significativos então não existe efeito ARCH; 2) a existência de vários coeficientes de auto- 

correlação e de autocorrelação parcial significativos é indício forte da presença de efeitos 

ARCH 4 . 

4 Coeficientes de autocorrelação de u 2 t estatisticamente significativos podem ainda dever-se a um erro de especificação 

do modelo (veremos isso adiante) ou à presença de outros modelos não lineares, como por exemplo, 

o modelo bilinear. 

287

Como regra geral, não devemos usar o ARCH; o GARCH é preferível. A identificação 

das ordens p e q do GARCH faz-se na fase da estimação. 

Estacionaridade de Segunda Ordem num GARCH(p,q) 

Como se sabe E (ut) = Cov (ut, ut−k) = 0, ∀k ∈ N. Assim, para discutir a ESO do 

processo u, basta analisar E (u 2 t ) . 

Vimos 

De facto, pode-se mostrar 

Tem-se assim 

ut ∼ GARCH(p,q) ⇒ u 2 t ∼ ARMA(max {p, q} , p). 

u 2 t = ω + 

= ω + 

q 

i=1 

max{p,q} 

i=1 

αiu 2 t−i + 

p 

βiu 2 t−i − 

i=1 

(αi + β i) u 2 t−i − 

p 

i=1 

p 

i=1 

β ivt−i + vt 

β ivt−i + vt 

= ω + (A (L) + B (L)) u 2 t−i + (1 − B (L)) vt. 

(1 − A (L) − B (L)) u 2 t = ω + (1 − B (L)) vt. 

A ESO de ut depende das raízes do polinómio autoregressivo, (1 − A (L) − B (L)). Conc- 

retamente, para que se tenha E (u 2 t ) = σ 2 < ∞ é necessário e suficiente que as raízes do 

polinómio autoregressivo estejam fora do circulo unitário. Se adicionarmos a esta condição, 

as restrições αi ≥ 0 e β i ≥ 0, a condição de ESO simplifica-se e, pode-se provar, é igual a 

8.4 Modelo IGARCH 

q 

i=1 

αi + 

p 

βi < 1. 

i=1 

Definição 8.4.1 ut segue um modelo IGARCH(p,q) (ou tem representação IGARCH(p,q)) se 

e 

ut = σtεt 

σ 2 t = ω + α1u 2 t−1 + ... + αqu 2 t−q + β 1σ 2 t−1 + .. + β pσ 2 t−p 

q 

i=1 

αi + 

p 

βi = 1 

i=1 

288

i.e., a soma dos parâmetros α ′ s e β ′ s é igual a um. 

Vamos analisar apenas o IGARCH(1,1): σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1, onde α1 + β 1 = 1. 

A designação Integrated GARCH resulta do facto de u 2 t possuir uma raiz unitária: 

u 2 t = ω + (α1 + β 

1) 

 

1 

u 2 t−1 − β 1vt−1 + vt 

u 2 t = ω + u 2 t−1 − β 1vt−1 + vt 

(1 − L) u 2 t = ω − β 1vt−1 + vt 

(logo u 2 t é um ARIMA(0,1,1)). Nestas condições ut não é ESO. Durante algum tempo 

pensou-se que ut seria também não estacionário em sentido estrito. Daniel Nelson mostrou 

que um IGARCH poderia ser estritamente estacionário (EE). Concretamente mostrou: 1) a 

condição necessária e suficiente para que ut seja EE 5 é 

E log β1 + α1ε 2 t < 0; 

2) e que esta condição acaba por ser menos exigente que a condição de ESO, α1 + β 1 < 1. 

Se E (log (β 1 + α1ε 2 t )) < 0, então a distribuição conjunta de (u1, u2, ..., uk) é igual à 

distribuição conjunta de (ut, ut+1, ..., ut+k) para todo o t e k e, em particular, as funções 

densidade de probabilidade são constantes no tempo f (ut) = f (us) , ∀t, s; pode-se ainda 

mostrar que σ 2 t é uma variável aleatória limitada em probabilidade (não tende para ∞, como 

à primeira vista poderíamos pensar) e σ 2 t 

p 

−→ σ 2 (ω) (σ 2 (ω) é uma v.a.) (embora não 

exista o segundo momento). Vários estudos mostram que os testes assimptóticos habituais 

permanecem válidos 6 . Para assentar ideias, suponha-se εt ∼ N (0, 1) . Então: 

• se α1 + β 1 < 1 ⇒ ut é ESO; 

• se α1 + β 1 < 1 vem, pela desigualdade de Jensen, 

E log β1 + α1ε 2 t ≤ log E β1 + α1ε 2 t = log (β1 + α1) < 0 

e, portanto, α1 + β 1 < 1 ⇒ log E (β 1 + α1ε 2 t ) < 0; isto é, se o processo é ESO então 

5 Na proposição 4.5.5 e exemplo 4.5.13 aborda-se, do ponto de vista teórico, esta questão. 

6 Esta conclusão contrasta com o processos integrados na média, por exemplo do tipo, yt = yt−1 + εt que, 

como se sabe, não são nem estacionários de segunda ordem nem estritamente estacionários e onde os testes 

habituais não são válidos. 

289

1 

β1 

α + β < 1 

1 

1 

2 [ log( 

β + ) ] < 0 

E αε 

1 

t 

α + β > 1 

1 

1 

2 [ log( 

β + ) ] < 0 

E αε 

1 

t 

α + β > 1 

1 

1 

2 [ log( 

β + ) ] > 0 

E αε 

1 3 

Figura 8-6: Regiões no espaço dos parâmetros (α1, β 1) onde o processo {ut} é E2O e EE 

é também EE; 

• pode-se provar que α1 + β 1 = 1 ⇒ E (log (β 1 + α1ε 2 t )) < 0 (este valor esperado 

pode ser calculado de forma exacta 7 ). Como referimos, o processo IGARCH é EE. A 

condição de ESO acaba por ser mais exigente do que a condição de EE. A primeira 

exige a existência do momento de segunda ordem enquanto EE exige que toda a es- 

trutura probabilística (leia-se função de distribuição finita) seja estável ao longo do 

tempo, independentemente dos momentos serem finitos ou não. 

• E (log (β 1 + α1ε 2 t )) < 0 ⇒ α1 + β 1 < 1 

A figura 8-6 mostra três regiões no espaço dos parâmetros (α1, β 1). Na região {(α1, β 1) ∈ R 2 : α1 + β 1 < 

o processo {ut} é ESO e EE. Na região {(α1, β 1) ∈ R 2 : α1 + β 1 > 1, E (log (β + αε 2 )) < 0} 

o processo {ut} não é ESO mas é EE. Na região {(α1, β 1) ∈ R 2 : α1 + β 1 > 1, E (log (β + αε 2 )) > 0} 

o processo {ut} não é ESO nem EE. 

8.4.1 Persistência na Variância 

Certos processos exibem reversão para a média; outros não (e.g. RW). É usual chamar a estes 

últimos processos persistentes no sentido em que choques nas inovações exercem um efeito 

7 Com efeito, a variável aleatória Z = log β1 + α1ε 2 tem distribuição conhecida. Por exemplo, basta 

fazer uma transformação de variável e atender ao facto de ε 2 ∼ χ 2 (1) . 

290 

1 

t 

α1

120 

115 

110 

105 

100 

95 

90 

85 

fhi = 0.1 

80 

1 26 51 76 101 126 151 176 

120 

115 

110 

105 

100 

95 

90 

85 

fhi = 0.98 

80 

1 26 51 76 101 126 151 176 

120 

115 

110 

105 

100 

95 

90 

85 

fhi = 0.8 

80 

1 26 51 76 101 126 151 176 

120 

110 

100 

90 

80 

fhi = 1 

70 

1 26 51 76 101 126 151 176 

Figura 8-7: Persistência e o processo AR(1) 

persistente no nível do processo. Na literatura, variam não só as definições de persistência 

como também as ferramentas estatísticas usadas para a avaliar. 

Considere-se por exemplo o AR(1) 

yt = µ (1 − φ) + φyt−1 + εt, ut ruído branco 

Uma medida de persistência pode basear-se em φ. Se φ = 1 o processo é persistente. Se |φ| < 

1 não é persistente. Poderíamos ainda discutir “níveis de persistência” (quanto mais perto φ 

estiver de 1 maior é a “persistência”). Na figura 8-7 mostram-se 4 trajectórias simuladas de 

yt = µ (1 − φ) + φyt−1 + εt, (εt ruído branco Gaussiano) para µ = 100, y0 = 80. Apenas 

φ varia (tudo o resto é igual, incluindo as inovações εt). Consideram-se os casos φ = 0.1, 

φ = 0.8, φ = 0.98 e φ = 1. Procura-se verificar a velocidade da reversão do processo 

face à sua média de longo prazo (no caso φ = 1 não existe média de longo prazo) dada uma 

condição inicial y0 = 80 relativamente afastada da média de longo prazo. Isto é, tende ou não 

o processo rapidamente para a sua média de longo prazo? A figura mostra que quanto maior 

é o valor do parâmetro φ mais lenta é a reversão e, portanto, maior é o nível de persistência. 

291

Existem outras medidas de persistência. Por exemplo a half-life é o valor de h tal que 

E (yt+h − µ| Ft) ≤ 1 

2 (yt − µ) , (supondo yt > µ) 

Suponha-se que em t existe um desvio de y face à sua média de longo prazo igual a yt − µ. 

Questão: quantos períodos são necessários para que metade desse desvio seja eliminado (em 

média)? Ou, em quanto tempo o processo elimina metade do desvio yt − µ? A resposta é h. 

Para exemplificar, considere-se o processo AR(1), yt = φyt−1 + ut (note-se, µ = 0). 

Como se viu atrás 

E (yt+h| Ft) = φ h yt. 

Assim, a half-life é o valor de h tal que φ h yt = 1 

2 yt. Logo 

φ h yt = 1 

2 yt ⇒ h = 

log (1/2) 

log φ . 

Se temos dados diários (t = 1 corresponde a uma dia) e, por exemplo, φ = 0.8, então 

h = log (1/2) / log (0.8) = 3.1 é o número de dias necessários para que, em média, metade 

do desvio de y face à sua média de longo prazo seja eliminado. Valores altos de h indicam 

maior persistência (o processo demora mais tempo a eliminar desvios face à média de longo 

prazo e, neste caso, o processo exibe uma reversão para a média mais lenta). No caso φ → 

1 ⇒ h → ∞ e o processo é persistente. Obviamente, se E (yt+h| Ft) não converge quando 

h → ∞ o processo y é persistente. 

Tradicionalmente, o conceito de persistência aplica-se à média do processo. Com o 

GARCH surgiu a ideia da persistência em variância. Choques na variância são rapidamente 

eliminados e σ 2 t tende rapidamente para E (σ 2 t ) ou, pelo contrário, os choques têm um efeito 

duradouro na variância? 

Podemos também definir uma half-life para a variância. Trata-se do valor de h tal que 

E σ 2 t+h − σ 2 

 

1 2 

Ft ≤ σt − σ 

2 

2 

(supondo σ 2 t > σ 2 ) 

onde σ 2 = E (σ 2 t ) . Para exemplificar, considere-se o GARCH(1,1). Vem σ 2 = ω/ (1 − α1 − β 1) 

e 

E σ 2 t+h − σ 2 

Ft = (α1 + β1) h σ 2 t − σ 2 

(este resultado mostra-se no capítulo da previsão). Assim a half-life é o valor de h tal que 

292

(α1 + β 1) h (σ 2 t − σ 2 ) = 1 

2 (σ2 t − σ 2 ) . Logo 

(α1 + β1) h σ 2 t − σ 2 = 1 2 

σt − σ 

2 

2 ⇒ h = 

log (1/2) 

log (α1 + β 1) . 

Quando α1+β 1 tende para 1, h tende para mais infinito e o processo é persistente na variância 

(ou a volatilidade é persistente). 

Uma das dificuldades na análise dos processos GARCH em geral, e dos IGARCH em 

particular, é o de que certos processos podem ser persistentes num certo modo de convergên- 

cia e não ser num outro modo de convergência. Pode-se provar que os IGARCH, embora 

persistentes de acordo com a medida E σ2 t+h − σ2 

Ft não são persistentes no modo 

de convergência designado “quase certamente” ou “com probabilidade 1” (como notámos 

σ 2 t 

q.c. 

−→ σ 2 (ω) , i.e. σ 2 t converge quase certamente para uma variável aleatória, apesar de 

E (σ 2 t ) não existir). 

Em muitas aplicações empíricas observa-se que a estimativa para α1 + β 1 se encontra 

muito perto de um, sugerindo que a volatilidade pode ser persistente (forte dependência 

temporal) e que Var (yt) pode não existir. Este facto está de acordo com os factos estilizados 

discutido no ponto no capítulo 3. 

Um modelo estacionário mas em que a volatilidade exibe memória longa é o FIGARCH 

(GARCH fraccionário). 

8.4.2 Alterações de Estrutura e o IGARCH 

Modelos aparentemente IGARCH podem também dever-se a alterações de estrutura (tal 

como processos aparentemente do tipo yt = yt−1 + ut podem dever-se a alterações de estru- 

tura). Por exemplo, considere-se a seguinte simulação de Monte Carlo: 

yt = ut, ut = σtεt, t = 1, 2, ..., 1000 

σ 2 t = ω + αu 2 t−1 + βσ 2 t−1, (8.6) 

⎧ 

⎨ 0.5 t = 1, 2, ..., 500 

α = 0.1, β = 0.6, ω = 

⎩ 1.5 t = 501, 502, ..., 1000 

Este modelo foi simulado 500 vezes. Na figura 8-8 representa-se uma das 500 trajectórias 

simuladas. 

Em cada simulação (ou trajectória simulada) estimaram-se os parâmetros. Embora o 

293

10 

8 

6 

4 

2 

0 

2 

4 

6 

8 

1 101 201 301 401 501 601 701 801 901 

Figura 8-8: Uma trajectória simulada de acordo com o modelo 8.6 

modelo simulado não seja claramente um IGARCH (note-se que α + β = 0.7), concluiu-se 

que: 

• em 83% das simulações a soma dos parâmetros ˆα + ˆ β esteve acima de 0.99; 

• em 99.6% das simulações a soma dos parâmetros ˆα + ˆ β esteve acima de 0.95; 

• em todos os casos ˆα + ˆ β esteve acima de 0.9. 

Este exercício de simulação ilustra o impacto de alterações de estrutura sobre os coefi- 

cientes α e β. A mensagem é clara: num aplicação empírica, se ˆα + ˆ β estiver próximo de 

um, convém verificar se o modelo subjacente é de facto um IGARCH ou, pelo contrário, se 

existem alterações de estrutura que causem um falso IGARCH . Não obstante, quer se veri- 

fique α + β = 1 ou o caso de ω não ser constante ao longo da amostra, o processo subjacente 

é sempre não estacionário de segunda ordem. No primeiro caso a variância não é finita; no 

segundo não é constante. Quebras de estrutura ocorrem frequentemente quando o período 

de análise é muito extenso. Nestes casos, ou se modela a quebra de estrutura (em princípio 

é a melhor estratégia) ou se encurta o período de observação (se os objectivos da aplicação 

empírica assim o permitirem). 

8.4.3 EWMA (Exponential Weighted Moving Averages) 

Considere-se a seguinte estimativa para a volatilidade no momento t 

σ 2 t (h) = 1 

h 

h 

i=1 

y 2 t−i = 1 2 

yt−1 + y 

h 

2 t−2 + ... + y 2 

t−h 

294

0.0007 

0.0006 

0.0005 

0.0004 

0.0003 

0.0002 

0.0001 

0 

Jan89 

Jun90 

Nov91 

Apr93 

Sep94 

Feb96 

Jul97 

Dec98 

May00 

Oct01 

Mar03 

Aug04 

Jan06 

Vol30 

Vol60 

Vol120 

Vol240 

Figura 8-9: Estimativas da volatilidade do índice Dow Jones ao longo do período, baseadas 

no estimador σ 2 (h) para diferentes valores de h (e.g., Vol30 = σ 2 t (30) , Vol60 = σ 2 t (60) , 

etc.) 

(supomos E (yt| Ft−1) = 0). 

Na figura 8-9 mostram-se várias estimativas da volatilidade do índice Dow Jones ao longo 

do período, baseadas no estimador σ 2 (h) para diferentes valores de h (e.g., Vol30 = σ 2 t (30) , 

Vol60 = σ 2 t (60) , etc.) 

O estimador σ 2 t (h) levanta as seguintes questões e objecções: 

• qual o melhor valor de h? É um pouco arbitrária a escolha de h; 

• o estimador σ 2 t (h) implica que todas as observações no período (t − h, t − 1) têm o 

mesmo peso na determinação do valor de σ 2 t (h) . Por exemplo, com 

σ 2 t (240) = 1 

240 

240 

i=1 

y 2 t−i = 1 2 

yt−1 + y 

240 

2 t−2 + ... + y 2 

t−240 

todas as observações têm um peso de 1/240. No entanto, seria preferível dar mais peso 

às observações mais recentes; 

• o estimador σ 2 t (h) implica que todas as observações fora do período (t − h, t − 1) 

têm peso zero. Como consequência, pode suceder o seguinte. Se na janela amostral 

(t − h, t − 1) existir uma observação extrema, a volatilidade é sobrestimada; quando 

essa observação sai da janela amostra, a volatilidade estimada cai depois abruptamente. 

O estimador Exponential Weighted Moving Averages (EWMA, proposto pela J.P. Mor- 

gan) resolve algumas das fragilidades dos estimador acima descrito, dando mais peso às 

295

observações mais recentes: 

σ 2 t = (1 − λ) 

∞ 

i=1 

λ i−1 y 2 t−i, 0 < λ < 1 

= (1 − λ) y 2 t−1 + λy 2 t−2 + λ 2 y 2 t−3 + ... . 

Quanto mais alto for λ, mais peso o estimador dá às observações mais antigas (o decréscimo 

dos ponderadores é, no entanto, sempre exponencial). 

Os ponderadores, ωi = (1 − λ) λ i , somam 1, 

∞ 

ωi = (1 − λ) 1 + λ + λ 2 + ... = 1 

i=1 

(recorde-se a soma de uma progressão geométrica). Por exemplo, com λ = 0.5 vem 

σ 2 t = (1 − λ) y 2 t−1 + λy 2 t−2 + λ 2 y 2 t−3 + ... 

= 0.5 × y 2 t−1 + 0.5y 2 t−2 + 0.25y 2 t−3 + 0.125y 2 t−4 + ... . 

A expressão de σ 2 t pode ser reescrita de uma forma mais sugestiva. Notando que 

temos 

σ 2 t−1 = (1 − λ) y 2 t−2 + λy 2 t−3 + λ 2 y 2 t−4 + ... 

σ 2 t = (1 − λ) y 2 t−1 + λσ 2 t−1. (8.7) 

Qual a relação entre o IGARCH e o EWMA? Considere-se um processo y com média 

condicional igual a zero e com especificação IGARCH(1,1): yt = ut, ut = σtεt. Vem 

σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1, α1 + β 1 = 1 

= ω + (1 − β 1) y 2 t−1 + β 1σ 2 t−1. 

Se ω = 0 conclui-se que um IGARCH(1,1) corresponde ao modelo EWMA. Assim, o mod- 

elo EWMA é um caso muito particular do IGARCH. 

296

8.5 Modelo CGARCH 

Considere-se o GARCH(1,1): 

σ 2 t = ω + α1u 2 t−1 + β1σ 2 t−1 

= 

2 

ω + α1 ut−1 − σ 2 2 

+ β1 σt−1 − σ 2 + α1σ 2 + β1σ 2 

= σ 2 (1 − α1 − β1) + α1σ 2 + β1σ 2 2 

+ α1 ut−1 − σ 2 2 

+ β1 σt−1 − σ 2 

= σ 2 2 

+ α1 ut−1 − σ 2 2 

+ β1 σt−1 − σ 2 

Esta equação relaciona σ 2 t com a respectiva média de longo prazo e mostra como se processa 

a dinâmica de ajustamento de σ 2 t face à constante σ 2 . 

O Component GARCH model (CGARCH) permite representar: 

σ 2 t = 

 

2 2 

qt + α1 ut−1 − qt−1 + β1 σt−1 − qt−1 

qt = σ 2 + ρ qt−1 − σ 2 + φ u 2 t−1 − σ 2 

t−1 

(8.8) 

onde σ 2 = E (σ 2 t ) . O ajustamento de curto prazo de σ 2 t faz-se agora em relação à v.a. qt, 

a qual tende, no “longo prazo”, para σ 2 . A primeira equação é designada de componente 

transitória e a segunda equação de componente de longo prazo. O modelo CGARCH é um 

GARCH(2,2) com restrições sobre os parâmetros. Com efeito, substituindo 

na equação (8.8) vem 

σ 2 t = σ2 (1 − ρ) + φ u2 t−1 − σ2 t−1 

(1 − ρL) 

 

+β 1 

qt = σ2 (1 − ρ) + φ u2 t−1 − σ2 t−1 

(1 − ρL) 

 

+ α1 

 

σ 2 t−1 − σ2 (1 − ρ) + φ u2 t−2 − σ2 t−2 

(1 − ρL) 

 

u 2 t−1 − σ2 (1 − ρ) + φ u2 t−2 − σ2 t−2 

(1 − ρL) 

 

= ... = 

= (1 − α1 − β 1) (1 − ρ) σ 2 + (α1 + φ) u 2 t−1 − (α1ρ + (α1 + β 1) φ) u 2 t−2 

+ (β 1 − φ + ρ) σ 2 t−1 + ((α1 + β 1) φ − β 1ρ) σ 2 t−2. 

Atendendo à condição de ESO do GARCH(p,q) é fácil concluir que o processo CGARCH é 

297

ESO sse 

Nestas circunstâncias, 

Var (ut) = 

ρ (1 − α1 − β 1) + α1 + β 1 < 1. 

(1 − α1 − β 1) (1 − ρ) σ 2 

1 − (ρ (1 − α1 − β 1) + α1 + β 1) = σ2 . 

A principal vantagem do CGARCH está na interpretação da dinâmica de ajustamento, e não 

necessariamente no ajustamento da variância (um GARCH(2,2), sem restrições nos parâmet- 

ros, ajusta melhor, i.e., o valor da função de verosimilhança não decresce). 

O caso φ = 0 sugere a presença de um GARCH(1,1). Com efeito, se φ = 0, vem 

qt = σ 2 + ρ (qt−1 − σ 2 ) . Para simplificar, suponha-se que q0 = σ 2 . Se φ = 0 ⇒ qt = σ 2 

(verifique!). No caso q0 = σ 2 tem-se qt → σ 2 (se |ρ| < 1). Esta convergência é deter- 

minística (a velocidade de ajustamento depende de ρ). Em qualquer dos casos (q0 = σ 2 ou 

q0 = σ2 ), e supondo |ρ| < 1, tem-se, ao fim de algum tempo, um ajustamento dinâmico, de 

acordo com o modelo σ2 t = σ2 

2 + α1 ut−1 − σ2 

2 + β1 σt−1 − σ2 . Assim, o caso φ = 0, 

sugere a presença de um GARCH(1,1). 

O parâmetro ρ está associado à reversão de qt para σ 2 . Quanto mais alto (mais próximo 

de um) mais lenta é a velocidade de reversão e, portanto, maior é o nível de persistência na 

variância condicional. Note-se que a reversão de σ 2 t para σ 2 é feita através de qt, i.e., σ 2 t → 

qt → σ 2 . 

8.6 Modelo GJR-GARCH 

O modelo GJR-GARCH é devido a Glosten, Jagannathan e Runkle. Uma das característi- 

cas das séries de retornos de títulos é o Leverage Effect (i.e. momentos de maior volatili- 

dade são despoletados por variações negativas nos preços). Vimos no ponto 3.2.4 que este 

efeito pode ser detectado através da medida (naive) Cov (y 2 t , yt−1) < 0. Veremos agora uma 

forma bastante mais eficiente de estimar esse efeito. Comece-se por observar que o mod- 

elo ARCH/GARCH apenas detecta o chamado “efeito magnitude”. Isto é, a volatilidade só 

responde à magnitude do valor de ut. Em esquema: 

↑ u 2 t−1 ⇒ ↑ σ 2 t (efeito magnitude) 

298

Para modelar o efeito assimétrico é necessário que a volatilidade responda assimetricamente 

ao sinal de ut. Mais precisamente, a volatilidade deve aumentar mais quando ut < 0 (“má 

notícia”) do que quando ut > 0 (“boa notícia”). 

O modelo GJR-GARCH (assim como o EGARCH, AARCH, etc.) modela não só o efeito 

magnitude como também o efeito assimétrico. A especificação mais simples (suficiente para 

um grande número de aplicações) é 

σ 2 t = ω + α1u 2 t−1 + β1σ 2 t−1 + γ1u 2 t−1I{ut−1

volatilidade é comparativamente maior quando ut−1 < 0. 

Vol(t) 

12 

10 

8 

6 

4 

2 

0 

4 3 2 1 0 1 2 3 4 

u(t1) 

NIC GARCH 

GJRGARCH 

NIC GARCH e GJR-GARCH para α1 = 0.2, β 1 = 0.5, ω = 0.1, γ 1 = 0.4 

Para ensaiar o efeito assimétrico podemos considerar o ensaio H0: γ 1 = 0 (através, por 

exemplo, do teste de Wald). Pode-se provar que a condição de ESO (no caso em que a 

distribuição de ε é simétrica) é α1 + γ 1/2 + β 1 < 1. Nesta circunstâncias, 

Var (ut) = E σ 2 t = 

ω 

1 − (α1 + γ 1/2 + β 1) 

Este modelo é designado por TGARCH no EVIEWS. 

8.7 Modelo GARCH-M 

A teoria financeira postula uma relação entre rendimento esperado e o risco associado. Em 

geral deve-se esperar que os activos com maior risco estejam associados aos activos com 

maior rendimento. 

yt = c + λg σ 2 t 

Especificações mais utilizadas: 

+ ut, ut = σtεt, σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1. 

g σ 2 t = σt, g σ 2 t = log σt 

300

Dada a estreita relação entre os parâmetros da média e da variância condicional, um erro de 

especificação da variância condicional afecta a consistência dos estimadores dos parâmetros 

da média condicional. 

8.8 Modelo de Heterocedasticidade Condicionada com Var- 

iáveis Explicativas 

Considere-se um modelo GARCH(1,1) (poderia ser outro modelo qualquer) com variáveis 

explicativas: 


ut = σtεt 

σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1 + g (xt) 

onde a função g é tal que σ 2 t > 0 (com probabilidade 1). Que variáveis poderemos considerar 

para xt? Vejamos alguns exemplos: 

• Dias da semana (ou qualquer outro efeito de calendário): 

σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1 + δ1St + δ2Tt + δ3Q a t + δ5Q u t 

onde St = 1 se t é uma segunda-feira, etc. (deverá ter-se ω+min {δi} > 0 ⇒ σ 2 t > 0). 

• Ocorrência de factos, notícias significativas. Por exemplo 8 , 

goodt = 

badt = 

⎧ 

⎨ 

σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1 + δ1goodt + δ2badt 

1 t = são divulgados resultados da empresa ABC acima do esperado 

⎩ 0 0 

⎧ 

⎨ 1 t = são divulgados resultados da empresa ABC abaixo do esperado 

⎩ 

0 0 

8 A chamada “armadilha das variáveis artificiais” não ocorre no exemplo (embora pareça) pois as notícias 

podem ser “boas”, “más” ou simplesmente não ocorrerem (e, neste caso, vem goodt = badt = 0). 

301

• Variação do preço do crude. 

• Medida de volatilidade de outro activo/mercado 

• Volume de transacções: 

σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1 + δ1vol ∗ t−1 

onde vol ∗ t−1 pode ser especificada como vol ∗ t−1 = volt−1 

σvol ou vol∗ t−1 = log (volt−1) ou 

vol ∗ t−1 = volt−1/volt−2, sendo vol o volume de transacções. Observe-se que o vol- 

ume de transacções pode ser considerado como uma variável proxy da variável não 

observada “chegada de informação”. 

• Qualquer outra variável (estacionária) que supostamente afecte a volatilidade. 

No ponto 7.4.9 vimos que o modelo em tempo discreto, compatível com o processo CIR, 

em tempo contínuo, drt = β (τ − rt) dt + σ √ rtdWt conduz ao modelo, 

rt = c + φrt−1 + ut 

ut = σtεt 

σ 2 t = σ 2 rt−1 

Inspirados nesta especificação, certos autores modelam a taxa de juro em tempo discreto 

combinando as características do GARCH com as características do processo de difusão 

(modelo CIR): 

rt = c + φrt−1 + ut 

ut = σtεt 

σ 2 t = ω + α1u 2 t−1 + βσ 2 t−1 + γrt−1. 

O ensaio H0: γ = 0 vs. H1 : γ > 0 permite analisar se a nível da taxa de juro influencia pos- 

itivamente a volatilidade. Geralmente conclui-se γ > 0. A figura 8-10 sugere (claramente) 

γ > 0. 

302

18 

16 

14 

12 

10 

8 

6 

4 

2 

0 

Jan54 

May56 

Sep58 

Jan61 

May63 

8.9 Estimação 

Sep65 

Jan68 

May70 

Sep72 

Jan75 

May77 

Sep79 

Figura 8-10: Taxa de Juro (Bilhetes do Tesouro a 3 meses -EUA) 

Seja yt = µ t+ut onde ut = σtεt. Suponha-se que v.a. εt tem distribuição conhecida (normal, 

t-Student ou outra) de média zero e variância um. O vector dos parâmetros desconhecidos, 

θ, envolve parâmetros definidos na média condicional e na variância condicional. 

Jan82 

A média condicional µ t pode depender de uma variável xt (esta variável pode ser encar- 

ada também como um vector de variáveis explicativas). Por exemplo, podemos ter, 

May84 

Sep86 

Jan89 

May91 

yt = γ 0 + γ 1xt + φ 1yt−1 + ut 

ut = σtεt, εt ∼ N (0, 1) 

σ 2 t = ω + α1u 2 t−1 

θ = (γ 0, γ 1, φ 1, ω, α1) ′ . 

A estimação do vector θ poderia ser feita da seguinte forma (tome-se como referência o 

modelo acima apresentado): 

Passo 1 Estimação OLS de γ 0, γ 1 e φ 1 com base na equação yt = γ 0 + γ 1xt + φ 1yt−1 + ut. 

Passo 2 A partir do passo 1, obtêm-se os resíduos û 2 t . Como σ 2 t = ω + α1u 2 t−1 implica 

uma representação AR(1) para σ 2 t = ω + α1u 2 t−1, ou seja, u 2 t = ω + α1u 2 t−1 + vt 

(vejam-se os pontos 8.2.2 e 8.3.2), os parâmetros ω e α1 estimam-se a partir da equação 

û 2 t = ω + α1û 2 t−1 + vt, considerando o estimador OLS. 

303 

Sep93 

Jan96 

May98 

Sep00 

Jan03 

May05

O procedimento acima descrito envolve estimadores consistentes mas altamente inefi- 

cientes, pois em ambos os casos os erros das equações são heterocedásticos (no caso da 

estimação ω e α1, a situação é particularmente grave, pois, pode mostra-se, vt tende a exibir 

forte heterocedasticidade). 

O método de estimação mais utilizado é o método da máxima verosimilhança (o GMM 

também pode ser utilizado) que se descreve a seguir. 

8.9.1 Estimador de Máxima Verosimilhança 

Assuma-se que todos os parâmetros de interesse, incluídos em θ, apenas aparecem na densi- 

dade conjunta condicional f (Yn| Xn; θ) , onde Yn = (yn, yn−1, ..., y1) e Xn = (xn, xn−1, ..., x1) . 

Para simplificar a exposição, admite-se (sem perda de generalidade) que as condições inici- 

ais Y0 são conhecidas. Tem-se assim, que a densidade relevante, para a estimação de θ, é 

f (Yn| Y0, Xn; θ) . 

Proposição 8.9.1 Se yt é condicionalmente independente de (xn, ..., xt+1) (n > t) dado 

(Yt−1, Xt), i.e., 

então 

f (yt| Yt−1, Xn) = f (yt| Yt−1, Xt) , 

f (Yn| Y0, Xn; θ) = f (yn| Yn−1, Xn; θ) × f (yn−1| Yn−2, Xn−1; θ) 

Dem. (esboço) Tem-se 

Desenvolva-se a expressão (*): 

= 

×... × f (y1| Y0, x1; θ) 

n 

f (yt| Yt−1, Xt; θ) (8.11) 

t=1 

f (Yn| Y0, Xn; θ) = f (yn| Yn−1, Xn; θ) f (Yn−1| Y0, Xn; θ) 

 

(∗) 

f (Yn−1| Y0, Xn; θ) = f (yn−1| Yn−2, Xn; θ) f (Yn−2| Y0, Xn; θ) 

= f (yn−1| Yn−2, Xn−1; θ) f (Yn−2| Y0, Xn; θ) 

 

 

por hipótese 

304 

(∗) 

(8.12) 

(8.13)

Desenvolva-se a nova expressão (*): 

f (Yn−2| Y0, Xn; θ) = f (yn−2| Yn−3, Xn; θ) f (Yn−3| Y0, Xn; θ) 

= f (yn−2| Yn−3, Xn−2; θ) f (Yn−3| Y0, Xn; θ) 

 

 

por hipótese 

(∗) 

(8.14) 

A nova expressão (*) pode ser desenvolvida de forma similar. Coligindo as equações (8.12)- 

(8.14), obtém-se (8.11). 

A hipótese definida na proposição anterior, estabelece que yt não depende dos valores 

futuros xt+1, xt+2 dado It = Yt−1 ∪ Xt ou, por outras palavras, xt dado Xt−1 não depende 

de Yt−1 (ou ainda, y não causa à Granger x). Doravante assume-se esta hipótese. 

A função de verosimilhança (supondo que as condições iniciais Y0 são dadas) é 

Ln (θ) = f (Yn| Y0, Xn; θ) = 

n 

f (yt| It; θ) (8.15) 

onde It = Yt−1 ∪Xt (na prática, se a ordem máxima do desfasamento das variáveis definidas 

na média condicional for p, deverá ler-se no produtório, “t = p + 1” e não “t = 1”; para 

simplificar, continue a assumir-se “t = 1”). 

O estimador de máxima verosimilhança é, como habitualmente, 

ˆθn = arg max 

θ 

log Ln (θ) = arg max log 

θ 

n 

t=1 

t=1 

f (yt| It; θ) = arg max 

θ 

n 

log f (yt| It; θ) . 

Sob certas hipóteses, incluindo, {(yt, xt)} é um processo estacionário e fracamente depen- 

dente, o estimador de máxima verosimilhança é consistente e assimptoticamente eficiente. 

A sua distribuição é dada por 

√ 

n ˆθn 

d 

− θ0 −→ N 0, I (θ0) −1 

onde I (θ0) é a matriz de informação de Fisher. Verifica-se I (θ0) = A (θ0) = B (θ0) onde 

A (θ) = − E 

2 ∂ lt (θ) 

∂θ∂θ ′ 

 

, B (θ) = E 

lt (θ) = log f (yt| It; θ) . 

305 

∂lt (θ) 

∂θ 

t=1 

∂lt (θ) 

∂θ ′

Sob certas condições, A e B podem ser estimados consistentemente por 

Ân = − 1 

n 

ˆBn = 1 

n 

t=1 

n 

∂ 2 lt 

∂θ 

 

ˆθn 

∂θ∂θ 

t=1 

′ 

p 

−→ A (θ0) 

 

n ∂lt ˆθn ∂lt ˆθn 

p 

−→ B (θ0) . 

A aplicação do método da máxima verosimilhança exige (em princípio) o conhecimento 

da fdp condicional de yt dado It; ou seja, é necessário conhecer-se f (yt| It) . Num modelo 

de heterocedasticidade condicional do tipo yt = µ t + ut onde ut = σtεt, a fdp f resulta 

imediatamente da distribuição dos erros ε. Por exemplo, suponha-se εt 

e, portanto, 

ut| It = σtεt| It ∼ N 0, σ 2 t 

∂θ ′ 

 

⇒ yt| It ∼ N µ t, σ 2 t . 

i.i.d 

∼ N (0, 1) . Logo, 

log f (yt| It; θ) = − 1 1 

log (2π) − 

2 2 log σ2 1 

t (θ) − 

2σ2 t (θ) (yt − µ t (θ)) 2 . (8.16) 

Implementação no programa EVIEWS 

Considere-se, a título de exemplo, o modelo 

yt = γ 0 + γ 1xt + φ 1yt−1 + ut 

ut = σtεt, εt ∼ N (0, 1) 

σ 2 t = ω + α1u 2 t−1 + α1u 2 t−2 + β 1σ 2 t−1 + δ0segt + δvolumet−1 

onde segt é uma variável dummy que assume 1 se t corresponde a uma segunda feira. Para 

estimar o modelo no EVIEWS, através do método da máxima verosimilhança, basta selec- 

cionar “estimate” e depois “ARCH"em method. Ver a figura 8-11. 

Escolhendo 1 em “Threshold order” poderia estimar-se o GJR-GARCH. 

Eficiência do Estimador de MV vs. Estimador OLS 

Considere-se o modelo de regressão linear 

yt = x ′ tβ + ut, ut = εtσt, εt 

306 

i.i.d 

∼ N (0, 1)

onde x ′ t = 

 

Figura 8-11: Estimação do GARCH no EVIEWS 

1 x1t · · · xkt 

 

. Como {ut} é não autocorrelacionado e marginalmente 

homocedástico resulta que o estimador OLS ˜ β n = (X ′ X) −1 X ′ y é BLUE (best linear unbi- 

ased estimator). Significa que é o melhor estimador? Não. O estimador de MV (não linear) 

para β, ˆβ n, é assimptoticamente mais eficiente. Pode-se provar que a matrix 

 

Var ˜βn − Var ˆβn 

é semidefinida positiva. Isto implica, em particular, que as variâncias dos estimadores OLS 

são maiores ou iguais às correspondentes variâncias dos estimadores de máxima verosimil- 

hança. Para confirmarmos esta ideia, simulou-se 1000 vezes o modelo 

yt = β 1 + β 2xt + ut, xt 

i.i.d 

∼ N (0, 1) , t = 1, ..., 1000 

β 1 = 10, β 2 = 5, 

ut = εtσt, εt 

i.i.d 

∼ N (0, 1) 

σ 2 t = 0.05 + 0.2u 2 t−1 + 0.75σ 2 t−1 

Em cada simulação estimaram-se os β 1 e β 2 pelo método OLS e pelo método da MV (us- 

ando este último método estimaram-se ainda os parâmetros da variância condicional). Os 

resultados estão presentes na tabela 8.1. Por exemplo, o erro quadrático médio do estimador 

307

β1 β2 (1) OLS (2) MV (1)/(2) (3) OLS (4) MV (3)/(4) 

Erro Quad.Médio 0.001 0.0006 1.667 0.0011 0.0006 1.833 

Tabela 8.1: Eficiência do Estimador OLS vs. Estimador de MV 

Figura 8-12: Distribuições do Estimadores OLS e de MV de β 2 (obtidas a partir de uma 

simulação Monte Carlo) 

OLS relativamente ao parâmetro β 1 é 

1 

1000 

1000 

i=1 

 

(i) 2 

˜β 

1 − 10 

e ˜ β (i) 

1 é a estimativa OLS para β 1 obtida na i-ésima simulação). 

A tabela 8.1 sugere que o estimador ML é substancialmente mais preciso do que o esti- 

mador OLS. Com base nas 1000 estimativas OLS e de MV do parâmetro β 2, apresenta-se na 

figura 8-12 as fdp estimadas (não parametricamente) dos estimadores OLS e de MV. 

A figura 8-12 confirma a tabela 8.1: o estimador de MV é mais eficiente do que o esti- 

mador OLS (i.e., é mais preciso ou apresenta menor variabilidade). A figura 8-12 também 

sugere que ambos os estimadores são asimptoticamente centrados. 

Prova-se (sob as condições usuais de regularidade) que o estimador de máxima verosim- 

ilhança apresenta as propriedades habituais, isto é, é consistente, assimptoticamente eficiente 

e tem distribuição assimptótica normal (como vimos). O estimador OLS é consistente para 

308

os parâmetros da média condicional mas, como vimos, não é assimptoticamente eficiente. 

8.9.2 Estimador de Pseudo Máxima Verosimilhança 

Na prática, a distribuição de εt não é conhecida. Podemos ainda assim supor, por exemplo, 

εt ∼ N (0, 1) ou εt ∼ t (n)? A resposta é afirmativa no seguinte sentido: mesmo que a 

verdadeira distribuição seja desconhecida, podemos ainda assim “trabalhar” com a hipótese 

εt ∼ N (0, 1) ou εt ∼ t (n) e obter, sob certas condições, estimadores consistentes. Seja 

yt = µ t (yt−1, yt−2, ..., xt, xt−1, ...; θ) + ut 

ut = σt (ut−1, ut−2, ...; θ) εt εt ∼ ? 

Suponhamos que a verdadeira mas desconhecida fdp condicional de ε é f. O estimador de 

máxima verosimilhança 

ˆθn = arg max 

θ 

n 

log f (yt| It; θ) 

t=1 

não pode ser implementado, pois a função f é desconhecida. O estimador de pseudo máxima 

verosimilhança usa como pseudo verdadeira fdp a função h (que na generalidade dos casos 

é diferente de f), 

ˆθ pmv 

n 

= arg max 

θ 

n 

log h (yt| xt, ...x1, yt−1, yt−2, ...y1; θ) 

t=1 

Sob certas condições, mesmo que h = f, o estimador de pseudo máxima verosimilhança 

apresenta boas propriedades. As condições são: 

• h pertence à família das densidades exponenciais quadráticas (a normal e a t-Student, 

entre muitas outras distribuições, pertencem a esta família); 

• yh (y| It) dy = µ t (a média condicional está bem especificada); 

• (y − µ t) 2 h (y| It) dy = σ 2 t (a variância condicional está bem especificada). 

Pode-se provar, sob estas condições: 

ˆθ pmv 

n 

p 

−→ θ0 

√ 

pmv 

n ˆθ d 

n − θ0 −→ N 0, A (θ0) −1 B (θ0) A (θ0) −1 

309

Se, por acaso, a função h é a própria função f, i.e., f = h, então o estimador de pseudo 

máxima verosimilhança é o estimador de máxima verosimilhança e, neste caso, tem-se 

A (θ0) = B (θ0) e, portanto, A (θ0) −1 B (θ0) A (θ0) −1 = A −1 (θ0) . 

Em suma, mesmo que a distribuição de εt não seja conhecida podemos supor, por exem- 

plo, εt ∼ N (0, 1) (ou εt ∼ D tal que a densidade h satisfaça as condições estabelecidas), 

porque ˆ θ pmv 

n 

é, ainda assim, um estimador consistente (embora não assimptoticamente efi- 

ciente) e tem distribuição assimptótica normal. O único cuidado adicional é tomar como 

matriz de variâncias-covariâncias (assimptótica) a expressão 9 A (θ0) −1 B (θ0) A (θ0) −1 e 

não I (θ0) −1 . 

8.9.3 Método da Máxima Verosimilhança com Distribuições Não Nor- 

mais 

No âmbito do método da máxima (ou da pseudo máxima) verosimilhança, normalmente 

assume-se εt ∼ N (0, 1). Contudo, verifica-se habitualmente que os resíduos estandardiza- 

dos, ˆε = ût/ˆσt apresentam um valor de kurtosis quase sempre acima do valor 3, i.e., kˆε > 3. 

Este resultado é, até certo ponto, inesperado. O que é habitual é ter-se kû > 3. Quando ût 

são ponderados por ˆσt seria natural esperar-se uma redução significativa do valor da kurtosis 

pois os valores muito altos e muito baixos de ût serão ponderados por valores altos de ˆσt. 

Embora ocorra uma redução do valor da estatística de kurtosis quando se passa de ût para 

ˆεt = ût/ˆσt, normalmente observa-se ainda kˆε > 3 (embora kˆε < kû). Assim, também a 

distribuição condicional ut| Ft−1 (e não só a marginal) é leptocúrtica. 

Já vimos uma forma de lidar com este problema: basta tomar o estimador de pseudo 

máxima verosimilhança. Uma alternativa consiste em formular uma distribuição leptocúrtica 

para εt tal que E (εt) = 0 e Var (εt) = 1. É importante assegurar E (εt) = 0 e Var (εt) = 1. 

Com efeito, suponha-se que Var (εt) = λ 2 = 1. Vem então Var (ut| Ft−1) = λ 2 σ 2 t e deix- 

amos de poder identificar a variância condicional como σ 2 t . Vejamos algumas distribuições 

habitualmente consideradas na literatura. 

Hipótese: εt ∼ t-Student(v) 

A implementação desta distribuição envolve uma (pequena) dificuldade: se X ∼ t- 

Student(v) então Var (X) = v/ (v − 2) . Mas deverá ter-se Var (εt) = 1 (pois só assim 

9 Esta opção no EVIEWS é dada por “heteroskedasticity consistent covariance (Bollerslev-Wooldrige)” no 

menu “options” da estimação. 

310

Var (ut| Ft−1) = σ 2 t - caso contrário ter-se-á Var (ut| Ft−1) = σ 2 t v/ (v − 2)). A solução é 

simples. Basta reparametrizar a variável: 

εt = X (v − 2) /v ⇒ Var (εt) = 1, kε = kx = 3 + 6 

v − 4 

Considere-se assim a distribuição t-Student T(0,1) (de média zero e variância 1): 

g (x) = 

1 Γ 

 

π (v − 2) 

 

v+1 

2 

Γ 

1 + v 

2 

x2 

v+1 

− 2 

. 

v − 2 

Para aplicar o método da máxima verosimilhança é necessário conhecer-se f (yt| It−1) . 

Pode-se provar 10 

f (yt| It) = 1 

 

yt − µ t 

g 

= 1 

σt 

σt 

σt 

1 Γ 

 

π (v − 2) 

 

v+1 

2 

Γ ⎛ 

 

⎜ 

v ⎝1 + 

2 

Assim, o estimador de máxima verosimilhança é ˆθn = arg maxθ 

v) onde 

lt (θ) = log f (yt| It) = log 

1 Γ 

 

2 σt π (v − 2) 

 

v+1 

2 

Γ ⎛ 

 

⎜ 

v ⎝1 + 

2 

= − 1 

2 log σ2t − 1 1 

log π − log (v − 2) 

2 2 

+ log Γ 

v+1 

2 

Γ 

v + 1 

− log 1 + v 2 

2 

1 (yt − µ t) 

v − 2 

2 

σ2 

t 

Hipótese: εt ∼ GED (Generalized Error Distribution) 

2 yt−µt 

σt 

v − 2 

⎞ 

⎟ 

⎠ 

− v+1 

2 

n 

t=1 lt (θ) , (θ inclui 

2 yt−µt 

σt 

v − 2 

⎞ 

⎟ 

⎠ 

− v+1 

2 

 

10 x 

Seja g (x) a fdp de ε e G (x) = g (x) dx a respectiva função de distribuição. Qual é a fdp de 

−∞ 

yt = µ t + σtεt condicionada a Ft−1, sabendo que (1) a fdp de εt é dada pela função g e (2) µ t e σt são 

conhecidos dado Ft−1 (ou It)? Trata-se de um problema clássico de mudança de variáveis. Comece-se por 

analisar a função de distribuição condicional 

P (yt ≤ y| Ft−1) = P (µ t + σtεt ≤ y| Ft−1) = P 

 

εt ≤ y − µ t 

σt 

 

 

 

Ft−1 

 

y − µt 

= G 

Logo, a fdp de yt condicionada a Ft−1 é, pelo teorema da derivada da função composta, dada pela expressão 

f (y| Ft−1) = dP (yt ≤ y| Ft−1) 

dy 

= G ′ 

 

y−µt 

y − d 

 

µt σt y − µt 1 

= g 

y 

311 

σt 

σt 

σt 

. 

σt 

.

g(x) 

2.5 

2.0 

1.5 

1.0 

0.5 

3 2 1 0 1 2 3 

Figura 8-13: Distribuição GED no caso v = 1/2 

Diz-se que εt tem distribuição GED se a sua fdp é dada por 

g (εt) = v exp − 1 

 

εt 

2 λ 

v 

λ2 (1+1/v)Γ(1/v) , Γ função Gama, λ = 

x 

 

2 −2/v Γ (1/v) 

Γ (3/v) 

Pode-se provar E (εt) = 0 e V ar (εt) = 1. Se v = 2 ⇒ distribuição normal padronizada, se 

v < 2 ⇒ g é leptocúrtica. Na figura 8-13 traça-se a g com v = 1/2. 


Considere-se, a título de exemplo, o modelo 

yt = γ 0 + γ 1xt + φ 1yt−1 + ut 

ut = σtεt, εt ∼ t (v) 

σ 2 t = ω + α1u 2 t−1 + α1u 2 t−2 + β 1σ 2 t−1 + δ0segt + δvolumet−1 

onde segt é uma variável dummy que assume 1 se t corresponde a uma segunda feira. Para 

estimar o modelo no EVIEWS, através do método da máxima verosimilhança, basta selec- 

cionar “Student’s t” em “Error distribution”. Ver a figura 8.9.3. O output fornece também 

uma estimativa para o número de graus de liberdade da distribuição t-Student. Esta estima- 

tiva é interessante pois fornece informação sobre o achatamento da distribuição condicional. 

8.10 Ensaios Estatísticos 

Há basicamente dois momentos de interesse na realização de ensaios estatísticos. Num 

primeiro momento, interessa verificar se existe evidência do efeito ARCH. Posteriormente, 

depois da estimação, haverá que analisar a adequabilidade do modelo estimado. 

312

8.10.1 Ensaios Pré-Estimação 

Teste ARCH (teste multiplicador de Lagrange) 

Considere-se 


ut = σtε 

σ 2 t = ω + α1u 2 t−1 + ... + αqu 2 t−q. 

Existe efeito ARCH se pelo menos um parâmetro αi for diferente de zero. Se todos forem 

zero, não existe efeito ARCH. Pode-se provar, sob a hipótese H0: α1 = α2 = ... = αq = 0 

que 

nR 2 d 

−→ χ 2 (q) 

onde R 2 é o coeficiente de determinação da regressão de û 2 t sobre as variáveis 

 

1 û 2 t−1 ... û 2 t−q 

 

(8.17) 

(û é o resíduo supondo σ 2 t constante). Suponha-se que q é elevado e a hipótese nula é 

rejeitada. Então é conveniente considerar o GARCH. Na verdade, pode-se provar que o teste 

multiplicador de Lagrange do efeito GARCH baseia-se também na regressão de û 2 t sobre as 

variáveis û 2 t−i. 

313

Para a realização do teste os passos são: 

1. Estima-se o modelo yt = µ t + ut supondo σ 2 t constante; 

2. obtêm-se os resíduos ût = yt − ˆµ t, t = 1, ..., n; (resíduos OLS, depois da regressão 

OLS de y sobre as variáveis explicativas, ou resíduos ARMA); 

3. regressão OLS de û 2 t sobre as variáveis definidas em (8.17); 

4. obtenção de R 2 da equação anterior e cálculo do valor-p 

FAC de û 2 t 

P χ 2 (q) ≥ nR 2 . 

Como se viu, a existência de um processo GARCH implica a correlação das variáveis u 2 t 

e u2 t−k . O teste Ljung-Box é assimptoticamente equivalente ao teste ARCH. A sua hipótese 

nula é H0: ρ 1 (û 2 t ) = ... = ρ m (û 2 t ) = 0, sendo ρ i (û 2 t ) o coeficiente de autocorrelação entre 

û 2 t e û 2 t−i. Sob H0 tem-se 

Q = n (n + 2) 

m 

i=1 

1 

n − i ˆρ2 

2 d 2 

i ût −→ χ(m−k) onde k é o número de parâmetros estimados menos o termo constante. Evidência contra a 

hipótese nula sugere a existência de um efeito ARCH. 


O programa EVIEWS fornece o valor-p do teste multiplicador de Lagrange. Para obter 

esse valor é necessário estimar primeiro o modelo sem efeito ARCH. No exemplo a seguir 

(figura 8-14) considerou-se 

yt = c + θut−1 + ut. 

onde y são os retornos do PSI20 (Jan 93 a Out 04). O modelo foi estimado através da in- 

strução y c ma(1). Uma vez estimado o modelo, o programa EVIEWS oferece a opção 

“ARCH LM test...” em “view”-“Residual Tests”. A figura 8-14 mostra que o valor-p é zero, 

pelo que existe forte evidência contra a hipótese nula; por outras palavras, existe forte ev- 

idência da presença de efeito ARCH. O teste Ljung-Box (ver a figura 8-15) corrobora as 

conclusões do teste ARCH. 

314

ARCH Test: 

Fstatistic 23.58130 Probability 0.000000 

Obs*Rsquared 218.9822 Probability 0.000000 

Test Equation: 

Dependent Variable: RESID^2 




C 5.64E05 8.24E06 6.840992 0.0000 

RESID^2(1) 0.183900 0.018517 9.931537 0.0000 

RESID^2(2) 0.058698 0.018824 3.118322 0.0018 

RESID^2(3) 0.019230 0.018745 1.025890 0.3050 

RESID^2(4) 0.040301 0.018739 2.150692 0.0316 

RESID^2(5) 0.004380 0.018741 0.233690 0.8152 

RESID^2(6) 0.036872 0.018741 1.967414 0.0492 

RESID^2(7) 0.032363 0.018739 1.727034 0.0843 

RESID^2(8) 0.109910 0.018745 5.863338 0.0000 

RESID^2(9) 0.020103 0.018824 1.067965 0.2856 

RESID^2(10) 0.029723 0.018517 1.605224 0.1086 







Figura 8-14: Output do EVIEWS associado ao teste multiplicador de Lagrange H0: α1 = 

α2 = ... = α10 = 0 (o p-value está destacado) 

Figura 8-15: FAC de û 2 t (e valores-p da estatística Ljung-Box) 

315

Existem muitos outros testes para ensaiar efeitos e modelos específicos (ver por exemplo, 

Franses e van Dijk, 2000). Estes testes têm como objectivo sugerir a especificação da estru- 

tura de σ 2 t e, portanto, são realizados antes da fase da estimação (final) do modelo. Como 

alternativa, podemos discutir esses efeitos específicos (por exemplo, efeito assimétrico) na 

fase da estimação, a partir dos ensaios habituais de significância e dos critérios SC e AIC. 

Por exemplo, suponha-se que se pretende ensaiar a presença do efeito assimétrico. Em 

alternativa aos testes apresentados em Franses e van Dijk (2000), pode-se ensaiar a hipótese 

γ 1 = 0 (já na fase da estimação) no contexto do modelo 

σ 2 t = ω + α1u 2 t−1 + β1σ 2 t−1 + γ1u 2 ⎧ 

⎨ 1 se ut−1 < 0 

t−1I{ut−1

k = 5 e H0: θ4 + 2θ5 = 3 tem-se q = 1 e 

⎛ 

⎜ 

 

⎜ 

θ4 + 2θ5 = 3 ⇔ 0 0 0 1 2 ⎜ 

⎜ 

R ⎜ 

⎝ 

θ1 

θ2 

θ3 

θ4 

θ5 

⎞ 

 

θ 

⎟ = 3 

⎟ 

⎠ 

 

r 

Para obter a estatística de teste associada a H0: Rθ0 = r considera-se, a partir de (8.18), 

e, consequentemente 11 , 

√ 

n Rˆ 

d 

θn − r −→ N (0, RV0R ′ ) 

 

n Rˆ ′ 

θn − r (RV0R ′ 

−1 

) Rˆ 

d 2 

θn − r −→ χ(q). (8.19) 

O programa EVIEWS permite aplicar de forma muito fácil o teste de Wald. No exemplo 

anterior, e depois de estimado o modelo GARCH, bastaria seleccionar “view”-“coefficient 

tests”-“Wald” e depois escrever “c(4)+2*c(5)=3”. É possível também ensaiar relações não 

lineares entre os parâmetros, como por exemplo, “c(4)^2+c(5)^2=1”. 12 

Testes individuais (por exemplo, do tipo H0: θ2 = 0) baseiam-se na relação 

ˆθn 

a 

∼ N 

 

θ0, ˆV0 

n 

devido a (8.18) (para n finito mas suficientemente alto, ˆθn tem distribuição aproximadamente 

igual a N (θ0, V0/n)). Assim, para ensaiar, por exemplo, H0: θ2 = 0 considera-se o rácio-t 

tˆ θn,2 = 

se 

ˆθn,2 

ˆθn,2 

 

com distribuição N (0, 1) onde se ˆθn,2 é o erro padrão de ˆθn,2 (é a raiz quadrada do ele- 

11 Note-se que se X é um vector aleatório dimensão q × 1 com distribuição N (µ, Σ) , então 

(x − µ) ′ Σ −1 (x − µ) ∼ χ 2 (q) . 

12 Neste caso não linear seria necessário adaptar a estatística de teste (8.19). Observe-se que Rθ0 expressa 

uma relação linear. 

317 

 

 

.

mento (2,2) da matriz ˆV0/n). O programa EVIEWS fornece automaticamente os rácios-t. 

Testes de Diagnóstico 

O modelo em análise é 

yt = µ t + ut, ut = σtεt. 

e as hipóteses são E (εt) = 0, Var (εt) = 1 (verificam-se sempre, por construção), {εt} é um 

processo diferença de martingala ou ruído branco e {εt} é um processo homocedástico. 

Nestas circunstância, se o modelo está bem especificado, deve ter-se: {εt} deve ser não 

autocorrelacionado e {εt} deve ser condicionalmente homocedástico. 

Assim, se 

(a) y é, por exemplo, um ARMA e a média condicional não captar esta estrutura, os proces- 

sos {ut} e {εt} exibirão autocorrelação; 

(b) de igual forma, se y segue um GARCH e a variância condicional não captar esta estrutura 

ε 2 t = u 2 t /σ 2 t exibirá autocorrelação; 

(c) finalmente, se ε segue uma distribuição leptocúrtica então kˆε > 3. 

Para analisar (a) e (b), devemos: 

1. estimar um modelo ARMAX+GARCH; 

2. obter os resíduos ût; 

3. obter os resíduos estandardizados ˆεt = ût/ˆσt; 

4. (Análise da questão (a)). Efectuar o teste Ljung-Box tomando como hipótese nula, 

H0: ρ 1 (ˆεt) = ... = ρ m (ˆεt) = 0 (ρ i (ˆεt) é o coeficiente de autocorrelação entre ˆεt e 

ˆεt−i) e estatística de teste 

Q = n (n + 2) 

m 

i=1 

1 

n − i ˆρ2 

d 

i (ˆεt) −→ χ 2 (m−k) 

onde k é o número de parâmetros AR e MA estimados. Evidência contra a hipótese 

nula sugere que ˆεt é autocorrelacionado. Neste caso é necessário rever a especificação 

da média condicional. 

318

5. (Análise da questão (b)). Efectuar o teste Ljung-Box tomando como hipótese nula, 

2 

2 

2 

2 

H0: ρ1 ˆε t = ... = ρm ˆε t = 0 (ρi ˆε t é o coeficiente de autocorrelação entre ˆε t e 

ˆε 2 

t−i) e estatística de teste 

Q = n (n + 2) 

m 

i=1 

1 

n − i ˆρ2 i 

2 d 2 

ˆε t −→ χ(m−k) onde k é o número de parâmetros estimados (McLeod e Li, 1983, sugere que k pode 

ser apenas o número de parâmetros dinâmicos estimados na variância condicional; por 

exemplo, 2 no GARCH(1,1)). Evidência contra a hipótese nula sugere que ˆε 2 

t é auto- 

correlacionado. Neste caso é necessário rever a especificação da variância condicional. 

Taylor (2005), p. 258, aponta outros procedimentos alternativos. 

Teste Alternativo 

Uma forma alternativa de analisar a questão (b) atrás referida consiste em verificar a 

presença de efeitos ARCH remanescentes através da especificação (Franses e van Dijk, 2000, 

e Lundbergh e Teräsvirta, 2002): 


ut = σtεt 

εt = et 

 

1 + π1ε 2 t−1 + ... + πmε 2 t−m 

Sob H0: π1 = π2 = ... = πm = 0 (não existem efeitos ARCH remanescentes), tem-se 

nR 2 d 

−→ χ 2 (m) 

onde R 2 é o coeficiente de determinação da regressão de ˆε 2 

t sobre as variáveis 

onde 

 

1 ˆε 2 

t−1 ... ˆε 2 

t−m ˆxt 

ˆxt = 1 

ˆσt 

e η ′ é o vector de parâmetros especificados em σ 2 t . Calcule-se ∂σ2 t 

∂η ′ no caso σ 2 t = ω+α1u 2 t−1+ 

319 

∂ˆσ 2 

t 

∂η ′

β 1σ 2 t−1. Tem-se 

Suponha-se ∂σ2 0 

∂ω 

∂σ2 t 

= 

∂η ′ 

= 0. Vem 

 

∂ 

∂σ 2 t 

ω α1 β 1 

= 

∂σ 2 t 

∂ω 

∂σ 2 t 

∂α1 

∂σ 2 t 

∂β 1 

∂σ2 t 

∂ω = 1 + β ∂σ 

1 

2 t−1 

∂ω = 1 + β 

∂σ 

1 1 + β1 2 

t−2 

= ... = 

∂ω 

= 1 + β1 + β 2 

1 + ... + β t−1 

1 = 

Deixa-se como exercício verificar que 

∂σ2 

t 

t 

= 

∂η ′ i=1 βi−1 1 

t 

i=1 

t 

i=1 βi−1 

1 û 2 t−i 

 

. 

β i−1 

1 = 1 t 

β1 − 1 

β1 − 1 

. 

t i=1 βi−1 1 ˆσ 2 

t−i 

Nota: O programa EVIEWS “esquece o vector ˆxt”. Como consequência, o valor da 

estatística nR 2 apurado no EVIEWS depois da estimação ARCH/GARCH está subestimado 

e, assim, a probabilidade P (rejeitar H0| H1 é verdadeira) vem baixa. Tenderemos a concluir 

quase sempre que o modelo está bem especificado, mesmo nos casos em que ainda existem 

efeitos ARCH remanescentes. No EVIEWS, é bem mais simples considerar o teste Ljung- 

Box (aplicado a ˆε 2 

t ). 

8.11 Previsão 

A previsão no contexto do modelo ARCH/GARCH envolve habitualmente a previsão de yt 

e de σ 2 t . Todavia, em várias aplicações, como por exemplo, estimação do risco de mercado, 

construção de portfolios dinâmicos, valorização de opções, etc., a previsão da volatilidade é 

mais importante do que a previsão de yt. 

Vamos analisar a previsão de yt e de σ 2 t e estabelecer os respectivos intervalos de con- 

fiança (ICs) ou de previsão. Concretamente, temos um modelo do tipo ARMA+GARCH, 

baseado em n observações, {y1, y2, ..., yn} e procura-se, 

• prever yn+1, yn+2, ...; 

• estabelecer ICs para yn+1, yn+2, ...; 

320 

 

.

• prever σ 2 n+1, σ 2 n+2, ...; 

• estabelecer ICs para σ 2 n+1, σ 2 n+2, ...; 

8.11.1 Previsão da Variância Condicional 

Vimos que o previsor com EQM mínimo para yn+h (dada a informação em Fn) é E (yn+h| Fn) . 

De igual forma, o previsor com EQM mínimo para σ 2 n+h (dada a informação em Fn) é (nat- 

uralmente) 

E σ 2 n+h 

Note-se que E u2 

 

n+h Fn = E σ2 n+hε2 

 

n+h Fn = E σ2 

 

n+h Fn . Para facilitar a notação 

considere-se σ2 n+h,n := E σ2 

 

n+h Fn . Vejam-se os exemplos seguintes. 

Modelo ARCH(1) σ 2 t = ω + α1u 2 t−1 


Como σ 2 n+1 = ω + α1u 2 n tem-se 

σ 2 n+1,n = E ω + α1u 2 n 

 

Fn 

 

. 

Fn 

= ω + α1u 2 n 

(na prática, como σ 2 n+1,n é desconhecido deve considerar-se ˆσ 2 

n+1,n = ˆω + ˆα1û 2 n). 


Como σ 2 n+2 = ω + α1u 2 n+1 tem-se 

σ 2 n+2,n = E ω + α1u 2 n+1 

 

 

Fn 

= ω + α1 E u 2 

n+1 Fn 

= ω + α1 E σ 2 

n+1 Fn 

= ω + α1σ 2 n+1,n 

Podemos ainda escrever σ 2 n+2,n como função do valor u 2 n. Basta substituir na expressão an- 

terior, σ 2 n+1,n por ω + α1u 2 n. Vem 

σ 2 n+2,n = ω + α1σ 2 n+1,n 

 

= ω + α1 ω + α1u 2 n 

= ω (1 + α) + α1u 2 n 

321


σ 2 n+h,n = E ω + α1u 2 n+h−1 

 

 

Fn 

= ω + α1 E u 2 

n+h−1 Fn 

= ω + α1 E σ 2 

n+h−1 Fn 

= ω + α1σ 2 n+h−1,n. 

Tal como anteriormente, podemos escrever σ 2 n+h,n como função de u2 n. Pode-se provar que 

Se 0 ≤ α1 < 1, conclui-se 

σ 2 n+h,n = ω + α1σ 2 n+h−1,n = ω 1 − αh 1 

1 − α1 

σ 2 n+h,n → ω 

1 − α1 

 

 

 

 

+ α h 1u 2 n 

= Var (ut) (quando h → ∞). 

O caso α1 = 1 é analisado adiante, no contexto do GARCH. 

Modelo GARCH(1,1) σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1 


Como σ 2 n+1 = ω + α1u 2 n +β 1σ 2 n tem-se 

σ 2 n+1,n = E ω + α1u 2 n + β 1σ 2 n 

 

Fn 

= ω + α1u 2 n + β 1σ 2 n 

(na prática, como σ 2 n+1,n é desconhecido deve considerar-se ˆσ 2 

n+1,n = ˆω + ˆα1û 2 n + β 1ˆσ 2 

n). 


Como σ 2 n+2 = ω + α1u 2 n+1 +β 1σ 2 n+1 tem-se 

σ 2 n+2,n = E ω + α1u 2 n+1 + β1σ 2 

 

n+1 Fn 

= ω + α1 E u 2 

 

n+1 Fn + β1 E σ 2 

n+1 

= ω + (α1 + β 1) σ 2 n+1,n 

322 

Fn


σ 2 n+h,n = E ω + α1u 2 n+h−1 + β1σ 2 

 

n+h−1 Fn 

= ω + α1 E u 2 

 

n+h−1 Fn + β1 E σ 2 

n+h−1 

= ω + (α1 + β 1) σ 2 n+h−1,n 

Fn 

Um pouco à semelhança do que fizemos para a previsão no ARCH, a expressão 

σ 2 n+h,n = ω + (α1 + β 1) σ 2 n+h−1,n 

 

(8.20) 

pode ser reescrita, como função de u 2 n e σ 2 n. Pode-se provar que a solução da equação (8.20), 

sob a condição 0 ≤ α1 + β 1 < 1 (e dada a condição inicial σ 2 n+1,n = ω + α1u 2 n + β 1σ 2 n) é 

σ 2 n+h,n = 

 

ω 1 − (α1 + β1) h 

1 − α1 − β 1 

Assim, no caso α1 + β 1 < 1, tem-se 

σ 2 n+h,n → 

ω 

1 − α1 − β 1 

No caso α1 + β 1 = 1 (IGARCH(1,1)) vem 

e, portanto, 

σ 2 n+2,n = ω + σ 2 n+1,n 

+ (α1 + β1) h−1 α1u 2 n + β1σ 2 n . 

= Var (ut) (quando h → ∞). 

σ 2 n+3,n = ω + σ 2 n+2,n = ω + ω + σ 2 2 

n+1,n = 2ω + σn+1,n ... 

σ 2 n+h,n = (h − 1) ω + σ 2 n+1,n 

σ 2 n+h,n = σ 2 n+1,n, se ω = 0 

σ 2 n+h,n → ∞, se ω > 0 (quando h → ∞). 

Para além da estimação pontual de σ2 n+h,n , há interesse também em estabelecer ICs. Esta 

questão é tratada no ponto 8.11.3. 

323

8.11.2 A Previsão da Variável Dependente y 

Qualquer que seja o modelo para y, o previsor de yn+h com EQM mínimo, baseia-se, como 

vimos, no valor esperado condicionado de y. Assim, a previsão pontual de yn+h não envolve 

qualquer novidade face ao que foi já exposto no ponto 6.6. Todavia, a estimação por inter- 

valos deve agora reflectir a presença de heterocedasticidade condicional. Seja (l1, l2) o IC a 

(1 − α) 100% associado a yn+h, i.e, l1 e l2 são tais que 

P (l1 < yn+h < l2| Fn) = 1 − α ⇔ 

 

l1 − E (yn+h| Fn) 

P 

Var (yn+h| Fn) < yn+1 − E (yn+h| Fn) 

 

Var (yn+h| Fn) < l2 

 

− E (yn+h| Fn) 

 

 

 


Fn 

 

= 1 − α. 

Seja Zn+h = (yn+h − E (yn+h| Fn)) / Var (yn+h| Fn) e q1−α/2 o quantil de ordem 1 − α/2 

da distribuição da v.a. Zn+h| Fn. Como também se tem 

P 

−q1−α/2 < Zn+h < q1−α/2 

Fn = 1 − α 

(supondo que a distribuição de Z| Fn é simétrica) conclui-se 

l1 − E (yn+h| Fn) 

 

Var (yn+h| Fn) = −q1−α/2 e l2 − E (yn+h| Fn) 

 


Resolvendo estas igualdades em ordem a l1 e a l2, 

l1 = E (yn+h| Fn)−q1−α/2 

= q1−α/2. 

 

Var (yn+h| Fn), l2 = E (yn+h| Fn)+q1−α/2 Var (yn+h| Fn) 

obtém-se o seguinte IC 13 a (1 − α) 100% para yn+h: 

 

E (yn+h| Fn) ± q1−α/2 Var (yn+h| Fn) 

13Note-se que Var (yn+h| Fn) = Var (en (h)| Fn) onde en (h) = yn+h−E (yn+h| Fn) é o erro de previsão 

a h passos. Assim, o IC (1 − α) 100% pode ser também apresentado da seguinte forma: 

 

E (yn+h| Fn) ± q1−α/2 Var (en (h)| Fn). 

324

Por exemplo, assuma-se que yn+h| Fn tem distribuição N (E (yn+h| Fn) , Var (yn+h| Fn)) 

e, portanto, Zn+h| Fn ∼ N (0, 1). Nestas condições, o IC a 95% para yn+h é 

E (yn+h| Fn) ± 1.96 Var (yn+h| Fn). 

Infelizmente esta expressão só está correcta para h = 1. O problema é o de que yn+h| Fn 

para h > 1 não tem geralmente distribuição normal na presença de efeitos ARCH/GARCH, 

mesmo que as inovações εt sejam Gaussianas e, portanto, mesmo que yn+1| Fn tenha dis- 

tribuição normal. No ponto 8.11.3 apresentamos um procedimento de bootstrap que permite 

obter IC correctos para yn+h, com h ≥ 1. 

Outro caso de interesse é o da previsão de longo prazo. Se o processo é ESO (e ergódico), 

a previsão de yt e de σ 2 t no longo prazo, i.e. quando t → ∞ é, respectivamente, E (y) = 

limh→∞ E (yn+h| Fn) e Var (y) = limh→∞ Var (yn+h| Fn) (tratam-se afinal dos momentos 

marginais da distribuição de y). O IC a (1 − α) 100% para a previsão de longo prazo de y é, 

desta forma, 

E (y) ± ζ 1−α/2 

Var (y) 

onde ζ 1−α/2 é o quantil de ordem 1 − α/2 da distribuição marginal de y. Este quantil pode 

ser estimado a partir da distribuição empírica da sucessão de valores observados {y1, ..., yn} . 

Analise-se nesta secção apenas a previsão a um passo e deixe-se o caso da previsão a 

h > 1 passos para o ponto 8.11.3 

Exemplo 8.11.1 Considere-se o modelo AR(1)+GARCH(1,1) 

yt = c + φyt−1 + ut, 

σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1. 

Se ut| Ft−1 ∼ N (0, σ 2 t ) então um IC a 95% para yn+1 é E (yn+h| Fn)±1.96 Var (yn+h| Fn) 

ou seja 

Modelo de Regressão 

Considere-se o modelo de regressão 

c + φyn ± 1.96 ω + α1u 2 n + β 1σ 2 n. 

yt = x ′ tβ + ut 

325

onde x ′ t é um vector linha de dimensão k e β vector coluna de dimensão k. Supomos que u e 

X são independentes e ainda que ut| Ft−1 ∼ N (0, σ 2 t ) . O previsor de yn+1 de EQM mínimo 

é 

E (yn+1| Fn, xn+1) = x ′ n+1β 

Por que razão o valor esperado é condicionado também a xn+1? A razão é a seguinte: a 

previsão de y no momento n + 1 depende de xn+1, e, portanto, xn+1 tem de ser conhecido. 

Na prática, só em casos muito especiais se conhece xn+1 no momento n (mesmo assim, 

podemos estar interessados em prever yn+1 admitindo um dado cenário ou hipótese para 

xn+1). 

Assim, um IC para yn+1 a 95% é 

x ′ n+1β ± 1.96 Var (yn+1| Fn) ⇔ x ′ n+1β ± 1.96σn+1,n. 

Analise-se agora uma questão que é normalmente descurada no âmbito das séries tempo- 

rais (mas não na área da econometria). O intervalo de previsão acima estabelecido assume 

que β é conhecido. Ao substituirmos β pela respectiva estimativa, introduz-se uma nova 

fonte de variabilidade, que deve ser incorporada no intervalo de previsão. Para se ter em 

conta a variabilidade de ˆβ, é necessário obter a distribuição da variável yn+1 − x ′ n+1 ˆβ. A 

representação 

yn+1 − x ′ n+1 ˆ β = x ′ n+1β + un+1 − x ′ n+1 ˆ β = un+1 + x ′ n+1 

 

β − ˆ 

β = en (1) 

permite concluir que yn+1 −x ′ n+1 ˆ β tem distribuição normal de média E (en (1)| Fn, xn+1) = 

0 e variância 

 

Var (en (1)| Fn, X) = Var x ′ 

n+1 β − ˆ 

 

β + un+1 

Fn, xn+1 

= x ′ 

n+1 Var β − ˆ 

 

β Fn, xn+1 xn+1 + E u 2 

 

n+1 Fn, xn+1 

= x ′ 

n+1 Var ˆβ 

xn+1 + σ 2 n+1,n 

(assumindo-se E (un+1| X) = 0). Considerando (1 − α) 100% = 95% tem-se 

P (l1 < yn+h < l2| Fn) = 0.95 ⇔ 

 

l1 − x 

P 

′ n+1 ˆ β 

 

Var (en (1)| Fn, xn+1) < 

yn+1 − x ′ n+1 ˆ β 

 

Var (en (1)| Fn, xn+1) < 

l2 − x ′ n+1 ˆ 

β 

 

 

 

Var (en (1)| Fn, xn+1) 

326 

Fn 

 

= 0.95.

Obtém-se assim o seguinte IC a 95% para yn+1: 

x ′ n+1 ˆ β ± 1.96 

 

x ′ n+1 Var 

 

ˆβ xn+1 + σ2 n+1,n. (8.21) 

Para amostra grandes podemos continuar a usar a aproximação x ′ n+1 ˆβ ± 1.96ˆσn dado que 

x ′ 

n+1 Var ˆβ xn+1 é aproximadamente proporcional a 1/n e, portanto, tende para zero as- 

simptoticamente (por outras palavras, é uma quantidade “pequena” quando comparada com 

σ 2 n+1,n). 

8.11.3 Intervalos de Confiança para y e para a Volatilidade baseados 

em Boostrap 

Vimos até agora as seguintes questões: 

• intervalos de confiança para yn+1; 

• previsão de σ 2 t para os períodos n + 1, n + 2, ...; 

Estas questões são relativamente simples tratar. Já a obtenção de intervalos de confiança 

para yn+h, h > 1 e para σ2 n+h , h ≥ 1 é problemática, pois não são conhecidas as distribuições 

de interesse. Estas questões resolvem-se de forma muito satisfatória recorrendo ao bootstrap. 

Para exemplificar considere-se o modelo 

⎧ 

⎪⎨ 

⎪⎩ 


ut = σtεt 

σ 2 t = ω + αu 2 t−1 + βσ 2 t−1. 

(8.22) 

onde ε tem distribuição desconhecida de média nula e variância um. O algoritmo é o 

seguinte: 

1. Estimar o modelo (8.22) e obter 

{ˆεt, t = 1, ..., n} , onde ˆεt = ût 

ˆσt 

ˆσ 2 ˆω 

= 

1 − ˆα − ˆ ĉ 

, ˆµ = 

β 1 − ˆ φ 

 

ˆθ = ĉ, ˆ φ, ˆω, ˆα, ˆ ′ 

β 

327

2. Simular o modelo ⎧⎪ ⎨ 

⎪⎩ 

y ∗ t = ĉ + ˆ φy ∗ t−1 + u ∗ t 

u ∗ t = σ ∗ t ε ∗ t 

σ ∗2 

t = ˆω + ˆαu ∗2 

t−1 + ˆ βσ ∗2 

t−1 

(8.23) 

com os seguintes valores iniciais: σ ∗2 

0 = ˆσ 2 e y ∗ 0 = ˆµ. Os valores de ε ∗ t são retirados 

aleatoriamente com reposição do conjunto {ˆε1, ..., ˆεn} . 

3. Estimar o modelo (8.23) e obter as seguintes previsões: 

⎧ 

⎨ 

⎩ 

y∗ n+h = ĉ∗ + ˆ φ ∗ 

y∗ n+h−1 

ˆσ ∗2 

n+h = ˆω ∗ + ˆα ∗ u∗2 n+h−1 + ˆ β ∗ 

ˆσ ∗2 

n+h−1 

Note-se que ˆ θ ∗ 

 

= ĉ∗ , ˆ φ ∗ 

, ˆω ∗ , ˆα ∗ , ˆ β ∗ ′ 

é o vector das estimativas obtidas no contexto 

do modelo simulado (8.23). 

4. Repetir os passos 2 e 3 B vezes. Com este procedimento obtêm-se as seguintes séries: 

 

 

y ∗(1) 

n+j , y∗(2) n+j , ..., y∗(B) n+j 

∗2 (1) 

ˆσ 

∗2 (2) 

n+j , ˆσ n+j , ..., ˆσ 

 

, j = 1, ..., h, 

 

, j = 1, ..., h. 

∗2 (B) 

n+j 

5. Um intervalo de previsão a (1 − α) 100% para yn+j é 

onde q α 

2 

e q1− α 

2 

q α 

2 

 

, q1− 

α 

2 

 

são os quantis empíricos da amostra 

6. Um intervalo de previsão a (1 − α) 100% para σ 2 n+j é 

onde agora q α 

2 

e q1− α 

2 

q α 

2 

 

, q1− 

α 

2 

y ∗(1) 

n+j 

 

são os quantis empíricos da amostra 

, y∗(2) n+j , ..., y∗(B) n+j 

∗2 (1) 

ˆσ 

∗2 (2) 

 

. 

n+j , ˆσ n+j , ..., ˆσ 

∗2 (B) 

n+j 

Com o passo 3 incorpora-se a variabilidade do estimador de ˆ θ na construção dos ICs (esta 

ideia é idêntica à que conduz a considerar o valor x ′ 

n+1 Var ˆβ xn+1 na expressão 8.21). 

Para mais pormenores veja-se Pascuala et al. (2006). 

328 

 

.

8.12 Problema dos Erros de Especificação na Média Condi- 

cional 

Considere o modelo 

yt = µ t + ut, E u 2 t Ft−1 

 

= σ 2 constante 

Em aplicações desconhece-se a verdadeira função µ t. Suponha-se que se propõe (errada- 

mente) para a média condicional a especificação mt = µ t. Ou seja propõe-se 

yt = mt + vt, 

onde vt é tomada como a v.a. residual. Nestas condições pode existir um efeito ARCH 

espúrio. 

Para exemplificar, suponha-se que o verdadeiro processo é 

yt = c + φyt−1 + ut, ut RB Gaussiano N 0, σ 2 

Por erro de especificação supõe-se mt = c. Nestas condições existe um efeito ARCH es- 

púrio. O modelo considerado (erradamente) é 

onde vt é tomada como a v.a. residual. Ora 

yt = c + vt, vt = φyt−1 + ut 

v 2 t = (φyt−1 + ut) 2 = φ 2 y 2 t−1 + u 2 t + 2φyt−1ut 

= φ 2 (c + vt−1) 2 + u 2 t + 2φyt−1ut 

= φ 2 c 2 + φ 2 2cvt−1 + φ 2 v 2 t−1 + u 2 t + 2φyt−1ut. 

Tomando o valor esperado condicional e reagrupando os termos vem: 

E v 2 t 

 

Ft−1 

= c ∗ 1 + c ∗ 2vt−1 + φ 2 v 2 t−1. 

Significa que vt exibe um efeito do tipo ARCH, apesar do modelo inicial ser condicional- 

mente homocedástico. 

329

Considere-se agora um caso mais geral. 

Modelo Verdadeiro : yt = µ t + ut, 

Modelo Especificado Incorrectamente : yt = mt + vt, 

com mt = µ t. Tem-se vt = µ t −mt +ut. Como µ t e mt pertencem a Ft−1 e E (ut| Ft−1) = 0 

vem 

E v 2 t 

 

Ft−1 

 

= E (µ t − mt + ut) 2 

Ft−1 

= E (µ t − mt) 2 + 2 (µ t − mt) ut + u 2 t 

= E (µ t − mt) 2 

Ft−1 + E u 2 

 

t Ft−1 . 

 

Ft−1 

• Se E (u2 t | Ft−1) = σ2 então a variância condicional de vt, E (v 2 t | Ft−1), não é constante, 

pois E (µ t − mt) 2 

Ft−1 não é constante. 

• Se E (u 2 t | Ft−1) = σ 2 t então a variância condicional associada ao modelo incorrecto 

yt = mt + vt será superior à verdadeira variância condicional σ 2 t . Com efeito, 

E v 2 t 

 

Ft−1 

 

= E (µ t − mt) 2 

2 

Ft−1 + σt . 

A conclusão deste ponto é óbvia: é importante especificar bem a média condicional. 

Como nota final registe-se que, na prática, a média condicional que especificamos é 

E yt| F ∗ 

∗ 

t−1 onde Ft−1 é o “nosso” conjunto de informação, necessariamente limitado, e 

não o conjunto de todos os acontecimentos ω ∈ Ω que geram y no momento t − 1. Como 

resultado a média condicional que especificamente envolve quase sempre erros de especifi- 

cação. A existência do efeito ARCH pode dever-se ou acentua-se na presença desses erros 

de especificação. É interessante observar Engle (1982): “the ARCH regression model is an 

approximation to a more complex regression which has no-ARCH disturbances. The ARCH 

specification might then picking up the effect of variables omitted from the estimated model. 

The existence of an ARCH effect would be interpreted as evidence of misspecification”. 

330

8.13 Modelos Não Lineares na Média combinados com o 

GARCH 

8.13.1 Modelo Limiar Autoregressivo com Heterocedasticidade Condi- 

cionada 

O modelo TAR tal como foi apresentado na secção 7.3 não é apropriado para séries tem- 

porais financeiras, pois assume que a variância condicional é constante ao longo do tempo. 

Podemos, no entanto, generalizar o TAR de forma a acomodar heterocedasticidade condi- 

cionada. Se admitirmos o caso mais geral em que o padrão de heterocedasticidade se dis- 

tingue consoante o regime, o modelo a considerar, com dois regimes e um desfasamento 

(veja-se Gospodinov, 2005) é 

yt = (φ 10 + φ 11yt−1) I{qt−d≤γ} + (φ 20 + φ 21yt−1) I{qt−d>γ} + ut. (8.24) 

onde ut = σtεt e {εt} é uma sucessão de v.a. i.i.d. de média zero e variância um e 

σ 2 t = ω1 + α1u 2 t−1 + β1σ 2 

t−1 I{qt−d≤γ} + ω2 + α2u 2 t−1 + β2σ 2 

t−1 I{qt−d>γ}. (8.25) 

Aborda-se a seguir a estimação do modelo. Suponha-se que ε é um ruído branco Gaussiano. 

Assim, 

yt| Ft−1 ∼ N µ t, σ 2 t 

onde µ t = (φ 10 + φ 11yt−1) I{qt−d≤γ} + (φ 20 + φ 21yt−1) I{qt−d>γ} e σ 2 t é dado pela equação 

(8.25). Seja θ o vector de todos parâmetros do modelo com excepção de γ.A função log- 

verosimilhança vem 

log Ln (θ, γ) = 

n 

log f (yt| Ft−1; θ, γ) 

t=1 

log f (yt| It; θ, γ) = − 1 1 

log (2π) − 

2 2 log σ2 1 

t (θ, γ) − 

2σ2 t (θ, γ) (yt − µ t (θ, γ)) 2 . 

O problema de optimização maxθ 

 

n 

t=1 log f (yt| Ft−1; θ, γ) não é standard, pois a derivada 

de log Ln (θ, γ) em ordem a γ não existe. O princípio do método de máxima verosimilhança 

mantém-se, todavia: é necessário maximizar a função em ordem aos parâmetros. A esti- 

mação dos parâmetros processa-se da seguinte forma: 

331

Parâmetro Estimativa Erro Padrão 

c 0.0478 0.0075 

φ 0.2332 0.0112 

ω 0.0118 0.0015 

α 0.1111 0.0073 

β 0.8812 0.0074 

Log-Veros.= −11439.3 

Tabela 8.2: Resultados da estimação do modelo AR+GARCH 

1. Escolha-se um valor para γ no conjunto ˜ Γ (sobre o conjunto ˜ Γ veja-se o ponto 7.3.5). 

Seja γ ∗ esse valor. 

2. Resolva-se o problema de optimização maxθ log Ln (θ, γ ∗ ) em ordem a θ; seja ˆ θn (γ ∗ ) 

o valor que maximiza Ln (θ, γ ∗ ) (dado γ ∗ ), i.e., ˆ θn (γ ∗ ) = arg maxθ log Ln (θ, γ ∗ ) . 

3. Registe-se o valor de log Ln 

 

ˆθn (γ∗ ) , γ∗ 

. 

4. Repitam-se os passos 1-3 até se exaurir o conjunto ˜ Γ. 

5. A estimativa para γ é aquela que maximiza a função de verosimilhança; seja ˆγ n esse 

valor. 

6. A estimativa para θ é, naturalmente, ˆ θn (ˆγ n) . 

Exemplo 8.13.1 Considere o retorno diário em percentagem, yt = 100 × log (Pt/Pt−1), 

associados ao índice NASDAQ, no período 5-02-1971 a 13-10-2006 (9006 observações). 

Na tabela 8.2 apresentam-se os resultados da estimação do modelo AR(1)+GARCH(1,1). 

De seguida, estimou-se o modelo SETAR (8.24)-(8.25), com qt−d = yt−1. Seguiram-se 

os seis passos do procedimento descrito atrás. Obteve-se ˆγ n = −0.356 (trata-se do valor 

que maximiza a função de log-verosimilhança log Ln (θ, γ)). A figura 8-16 mostra o valor 

de log Ln como função de γ (observe-se que ˆγ n = −0.356 maximiza log Ln). Para o valor 

ˆγ n estimado, obtiveram-se os resultados que constam da tabela 8.3. O primeiro regime mod- 

ela os retornos quando estes estão em queda, mais precisamente, quando o retorno anterior 

é inferior a −0.356%. A média marginal deste regime é −.1718/ (1 − .0563) = −.182%. 

Tendo em conta este valor, há tendência para o processo sair do regime 1, mantendo, ainda 

assim, uma rendibilidade negativa. Talvez o dado mais significativo é a forte persistência 

da volatilidade neste regime, associada a valores altos de volatilidade (w1 > w2). Este 

resultado está de acordo com os factos estilizados habitualmente observados em dados fi- 

nanceiros, segundo os quais, a volatilidade tende a ser superior quando as cotações estão 

332

Figura 8-16: Valor da máximo da função log-Verosimilhança como função do parâmetro γ. 

Estimativa de γ : −0.358316 

Parâmetro Estimativa Erro Padrão 

φ 10 -0.1718 0.0312 

φ 11 0.0563 0.0310 

ω1 0.0233 0.0075 

α1 0.0982 0.0097 

β 1 0.9776 0.0152 

φ 20 0.0426 0.0099 

φ 21 0.2384 0.0177 

ω2 0.0175 0.0024 

α2 0.0733 0.0073 

β 2 0.8575 0.0093 

Log-Veros.= −11344.5 

Tabela 8.3: Resultados da estimação do modelo SETAR+GARCH 

a descer. A volatilidade associada ao regime 1 pode ser identificada como a “má volatili- 

dade”, i.e., aquela que está ligada à queda dos preços. 

8.13.2 Modelo Markov-Switching com Heterocedasticidade Condicionada 

Vimos na secção 7.4 que a separação das dinâmicas do processo em estudo em dois ou mais 

regimes permite, na maior parte dos casos, obter diferentes valores para σi (veja-se o mod- 

elo (7.25)). Significa isto que os erros são heterocedásticos. No entanto, é possível ir um 

pouco mais longe se admitirmos, mesmo em cada regime, erros heterocedásticos. Em séries 

financeiras, o modelo (7.25) pode mostrar-se insuficiente para modelar a volatilidade típica 

333

das séries financeiras. O caminho está assim indicado: é necessário admitir, em cada regime, 

uma especificação dinâmica para a volatilidade. Entendeu-se inicialmente (e.g. Hamilton) 

que os modelos Markov-switching com efeitos GARCH eram intratáveis e impossíveis de 

serem estimados, devido à dependência da variância condicional de toda a trajectória passada 

(em última análise, a estrutura que se admitia para um Markov-Switching com N regimes 

obrigaria posteriormente a expandir o número de regimes para N n sendo n o número de 

observações). Gray (1996) propôs um modelo que resolve a dependência da variância condi- 

cional de toda a trajectória passada. 

O modelo MS+GARCH com dois regimes é 

yt = 

⎧ 

⎨ 

⎩ 

c1 + φ 1yt−1 + σ1tεt se St = 1 

c2 + φ 2yt−2 + σ2tεt se St = 2 

onde σit seguem a representação sugerida por Gray(1996), 

sendo 

σ 2 it = ωi + αiu 2 t−1 + βσ 2 t−1, (8.26) 

ut = yt − E (yt| Ft−1) , σ 2 t = Var (yt| Ft−1) . 

Pode mostrar-se que o problema da “dependência da variância condicional” surge quando se 

define σ 2 it como função de ui,t−1 (erro no período t − 1 associado ao regime i) e de σ 2 i,t−1. A 

especificação (8.26) evita esse problema; observe-se que σ 2 it depende ut−1 e σ 2 t−1. 

Momentos de y 

Determinem-se os momentos do processo. Seja µ it = E (yt| Ft−1, St = i) . No contexto 

do modelo (7.25) tem-se: 

E (yt| Ft−1, St = 1) = c1 + φ 1yt−1, E (yt| Ft−1, St = 2) = c2 + φ 2yt−1. 

334

Tem-se 

µ t = E (yt| Ft−1) 

= E (yt| Ft−1, St = 1) P (St = 1| Ft−1) 

+ E (yt| Ft−1, St = 2) P (St = 2| Ft−1) 

= µ 1tp1t + µ 2tp1t. 

E (yt| Ft−1) é, portanto, a média ponderada dos valores esperados condicionais dos regimes 

1 e 2. Por outro lado, 

σ 2 t = Var (yt| Ft−1) = E y 2 

 

t Ft−1 − (E (yt| Ft−1)) 2 

= E y 2 

 

t Ft−1, St = 2 P (St = 1| Ft−1) 

+ E y 2 

 

t Ft−1, St = 2 P (St = 2| Ft−1) − µ 2 t 

= µ 2 1t + σ 2 

1t p1t + µ 2 2t + σ 2 

2t p2t − µ 2 t . 

8.A Estabilidade de EDF e a Estacionaridade (Caso mod- 

elo ARCH) 

Apresenta-se uma abordagem alternativa para analisar a ESO. A ideia é tomar, num primeiro 

passo, os valores esperados marginais como função de t, e verificar depois em que condições 

esses valores esperados não dependem de t. Considere-se o ARCH(1). Como se sabe neste 

caso tem-se 

E u 2 t 

 

ηt = ω + α1E u 2 

t−1 , 

 

ηt−1 i.e. 

η t = ω + α1η t−1 

O ponto fixo da equação às diferenças finitas (EDF) 14 , η t = ω + α1η t−1, é 

14 Ver a definição de ponto fixo na secção 7.2. 

ω 

. 

1 − α1 

335

Este ponto é assimptoticamente estável se |α1| < 1; além disso, se a condição inicial é ω 

1−α1 

então ηt = ω 

1−α1 , ∀t. Quando a condição inicial é η0 = ω pode-se provar que a solução da 

1−α1 

EDF η t = ω + α1η t−1 é 

Se |α1| < 1 ⇒ 

η t = ω (1 − αt 1) 

1 − α1 

η t = ω (1 − αt 1) 

1 − α1 

+ α t 1η 0 

(Solução) 

+ α t 1η 0 → ω 

1 − α1 

Se a condição inicial não é igual à solução de longo prazo, ω 

1−α1 , o processo ut é “assimptot- 

icamente estacionário” (ou ESO se o processo teve início num passado remoto). Em suma, 

se α1 < 1 (por hipótese α1 ≥ 0) (e a condição inicial for ω/ (1 − α1)) então 

e o processo ut é ESO. 

Donde 

E u 2 t 

ω 

= , ∀t 

1 − α1 

No caso ARCH(2), tem-se σ 2 t = ω + α1u 2 t−1 + α2u 2 t−2, ω > 0, α1 ≥ 0, α2 ≥ 0. Assim, 

Var (ut) = E u 2 t = E σ 2 t 

= E ω + α1u 2 t−1 + α2u 2 t−2 

 

= ω + α1 E u 2 

t−1 + α2 E u 2 

t−2 

E u 2 t = ω + α1E 

 

ηt u 2 

t−1 + α2E 

 

ηt−1 u 2 

t−2 , 

 

i.e. 

ηt−2 η t = ω + α1η t−1 + α2η t−2 

1 − α1L − α2L 2 η t = ω 

Pode-se provar que η t converge se as raízes de (1 − α1L − α2L 2 ) estiverem fora do circulo 

unitário, i.e., 

α1 + α2 < 1, α2 − α1 < 1, −1 < α2 < 1. 

Como α1 ≥ 0, α2 ≥ 0, a única condição que precisamos de verificar é α1 + α2 < 1. 

336

Nestas condições, se η 0 = 

ω 

1−(α1+α2) e α1 + α2 < 1 o processo u é ESO e 

E u 2 t = ω + α1 E u 2 t + α2 E u 2 t ⇒ E u 2 t = 

337 

ω 

1 − (α1 + α2) .


338

Capítulo 9 

Modelação da Heterocedasticidade 

Condicionada - Caso Multivariado 



Vimos no ponto 3.2.6 que muitas séries financeiras (por exemplo, índices bolsistas ou co- 

tações de acções) apresentam co-movimentos de rendibilidade e volatilidade, isto é, quando 

a rendibilidade e a volatilidade de uma série aumenta (diminui), a rendibilidade e a volatili- 

dade das outras tende, em geral, a aumentar (diminuir). 

A estimação destes co-movimentos de rendibilidade e volatilidade deve ser naturalmente 

feita no quadro da estimação multivariada (por multivariada entendemos várias equações). 

Esta análise é relevante, por exemplo, no âmbito da selecção de portfolios, da gestão do risco, 

etc. Permite também discutir questões do tipo: 

• como se transmite a volatilidade de um mercado aos demais mercados? qual a magni- 

tude do impacto da volatilidade de um mercado sobre outro? 

• os mercados “globais” influenciam a volatilidade de outros mercados (regionais ou 

nacionais) sem serem por eles influenciados (“contagiados”)? 

• A volatilidade de um activo transmite-se a outro directamente (através da sua variância 

condicional) ou indirectamente (através das covariâncias condicionais)? 

339

• Como se comportam as correlações condicionais? São variáveis ao longo do tempo? 

Tendem a aumentar ou a diminuir em períodos de alta volatilidade e instabilidade dos 

mercados? 

Para tratar estas questões vai considerar-se um modelo genérico, envolvendo m equações: 

y1t = µ 1t + u1t, 

... 

ymt = µ mt + umt 

onde µ it := E (yit| Ft−1) para i = 1, ..., m. Para usarmos uma notação mais compacta, 

definam-se os seguintes vectores-coluna m dimensionais: 

⎛ 

⎜ 

yt = ⎜ 

⎝ 

y1t 

. 

ymt 

⎞ 

⎟ 

⎠ , µ ⎛ ⎞ 

⎜ 

t = ⎜ 

⎝ 

µ 1t 

. 

µ mt 

⎟ 

⎠ , ut 

⎛ 

⎜ 

= ⎜ 

⎝ 

De forma compacta, o modelo pode representar-se na forma 

yt = µ t + ut. 

A média condicional µ t não é aqui relevante, mas pode supor-se que yt é bem mode- 

lado por um VARMA (vector ARMA, ou mesmo vector ARMAX). Tem-se um modelo de 

heterocedasticidade condicional multivariado se ut é um processo multiplicativo do tipo, 

ut = H 1/2 

t εt 

onde εt é um vector de v.a. i.i.d. (condicionalmente homocedástico) tal que 

u1t 

. 

umt 

⎞ 

⎟ 

⎠ . 

E (εt) = 0, Var (εt) = Im (matriz identidade de ordem m) 

e Ht é uma matriz quadrada de ordem m, simétrica, definida positiva e Ft−1 mensurável 

(Ft é a σ-algebra gerada por (yt, yt−1, ..)). A notação H 1/2 

t 

menos que Ht seja uma matriz diagonal, H 1/2 

t 

dos elementos de Ht. H 1/2 

t 

matriz H 1/2 

t 

merece alguns comentários. A 

não representa naturalmente a raiz quadrada 

é uma matriz quadrada ordem m tal que H 1/2 

 

t H 1/2 

′ 

t = Ht. A 

pode ser obtida utilizando a factorização de Cholesky. 

340

Dadas as hipóteses, tem-se 

Var (yt| Ft−1) = Var (ut| Ft−1) = E (utu ′ t| Ft−1) 

 

H 1/2 

′ 

t 

= H 1/2 

t Var (εt| Ft−1) 

 

Var(εt)=Im 

9.2 Densidade e Verosimilhança 

= Ht. 

Para simplificar a exposição assuma-se normalidade dos erros: εt ∼ N (0, I m) . Nestas 

circunstâncias, tem-se a seguinte relação: 

εt ∼ N (0, I m) ⇒ ut| Ft−1 ∼ N (0, H t) ⇒ yt| Ft−1 ∼ N (µ t, H t) . 

Assim, a densidade conjunta condicional de yt é 

f (yt| Ft−1) = (2π) −m/2 |Ht| −1/2 

exp − 1 

2 (yt − µ t) ′ H −1 

 

t (yt − µ t) . 

A função log-verosimilhança é então 

log Ln (θ) = 

n 

log f (yt| Ft−1) 

t=1 

= − nm 

2 

log (2π) − 1 

2 

n 

t=1 

log |Ht| − 1 

2 

n 

t=1 

(yt − µ t) ′ H −1 

t (yt − µ t) 

= − nm 

n 1 

log (2π) − log |Ht (θ)| 

2 2 

t=1 

− 

(9.1) 

1 

n 

(yt − µ t (θ)) 

2 

′ H −1 

t (θ) (yt − µ t (θ)) 

t=1 

(a última equação destaca a dependência face a θ). No caso univariado (i.e. m = 1), vem 

Ht = σ 2 t e log f (yt| Ft−1) é dada pela equação (8.16). 

Nesta fase é necessário definir uma hipótese sobre a estrutura de µ t e de Ht. A média 

condicional µ t pode ser definida através de um VAR(1) (vector autoregressivo) ou VARMA(1,1) 

(vector ARMA), etc. Não abordaremos aqui a especificação da média condicional. Neste 

capítulo estamos interessados sobretudo na especificação de Ht. Nos pontos seguintes dis- 

cutiremos possíveis especificação para Ht. 

341

9.3 Modelo VECH (ou VEC) 

É necessário, em primeiro lugar, introduzir o operador vech . Considere-se, por exemplo, 

⎛ 

⎜ 

A = ⎜ 

⎝ 

a11 a12 a13 

a21 a22 a23 

a31 a32 a33 

O operador vech selecciona os elementos abaixo da diagonal principal (elementos dentro dos 

quadrados) e passa-os para um vector-coluna: 

⎛ 

⎜ 

vech (A) = ⎜ 

⎝ 

Obviamente que não se perde informação com esta operação se A é uma matriz (real) 

simétrica, hipótese que doravante se assume, sempre que se empregar tal operador. 

O modelo VECH (ou VEC) (Engle e Kroner, 1995) propõe uma estrutura GARCH(p,q) 

a11 

a21 

a22 

a31 

a32 

a33 

⎞ 

⎞ 

⎟ 

⎠ . 

⎟ . 

⎟ 

⎠ 

multivariada. No caso GARCH(1,1), a matriz Ht é tal que 

vech (Ht) = w + A1 vech ut−1u ′ t−1 

+ B1 vech (Ht−1) . (9.2) 

No caso m = 2 (processo bivariado) e GARCH(1,1) a expressão (9.2) toma a forma 

vech (Ht) = 

⎛ 

⎜ 

⎝ 

h11,t 

h12,t 

h22,t 

⎛ 

⎜ 

+ ⎜ 

⎝ 

⎞ 

⎛ 

⎟ 

⎠ = 

⎜ 

⎝ 

w11 

w12 

w22 

β 11 β 12 β 13 

β 21 β 22 β 23 

β 31 β 32 β 33 

⎞ 

⎛ 

⎟ 

⎠ + 

⎜ 

⎝ 

⎞ ⎛ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎠ ⎝ 

h11,t−1 

h12,t−1 

h22,t−1 

α11 α12 α13 

α21 α22 α23 

α31 α32 α33 

⎞ 

⎟ 

⎠ 

⎞ ⎛ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎠ ⎝ 

u 2 1,t−1 

u1,t−1u2,t−1 

u 2 2,t−1 

(h11,t := σ 2 1t, ht,22 := σ 2 2t, h12,t := σt12). Note-se, por exemplo, que a covariância condi- 

342 

⎞ 

⎟ 

⎠

cionada h12,t := E (u1tu2t| Ft−1) é igual a 

w12 + α21u 2 1,t−1 + α23u 2 2,t−1 + α22u1,t−1u2,t−1 + β 21h11,t−1 + β 22h12,t−1 + β 23h22,t−1 (9.3) 

Como subproduto do método, obtêm-se as correlações condicionais entre os retornos 1 

ρ ij,t = 

hij,t 

, i, j = 1, ..., m. 

hii,thjj,t 

A condição de ESO no caso GARCH(1,1) é a seguinte: {ut} é ESO se todos os valores 

próprios de A1 + B1 forem em módulo menores do que um (i.e., sse as raízes em λ de 

|A1+B1 − λI| forem em módulo menores do que um) 2 . Nestas condições: 

E (vech (utu ′ t)) = E (vech (Ht)) = (I − A1−B1) −1 w. 

A principal vantagem do modelo VEC é a sua grande flexibilidade, pois permite que 

todos os elementos de Ht dependam de todos os produtos cruzados de vech ut−1u ′ 

t−1 e de 

todos os elementos de Ht−1. No entanto, as suas desvantagens superam largamente as suas 

vantagens. As duas principais desvantagens do modelo VEC são as seguintes: 

• O número de parâmetros a estimar é excessivamente alto. No GARCH(1,1) multivari- 

ado com m equações, o número de parâmetros a estimar é (m (m + 1) /2) (1 + (m (m + 1))) 

(veja-se a tabela 9.1) 3 . 

• Por definição a matriz Ht deve ser definida positiva, mas não é fácil garantir isso a 

partir das matrizes A e B. Se Ht não é definida positiva, é possível, por exemplo, obter 

1 É indiferente identicar ρij,t como as correlações condicionais entre os retornos ou entre os erros, pois, 

por definição, ρ ij,t = Corr (yit, yjt| Ft−1) = Corr (uit, ujt| Ft−1) . Já as correlações marginais não são 

necessariamente iguais, isto é, em geral, tem-se Corr (yit, yjt) = Corr (uit, ujt). 

2 Com efeito, pode-se provar que 

E (vech (Ht)| F0) = 

 

I+ (A1 + B1) + ... + (A1 + B1) t−1 

w+ (A1 + B1) t vech (H1) 

sendo vech (H1) ∈ F0). Se (A1 + B1) t → 0 (quando t → ∞) então E (vech (Ht)| F0) converge para o 

momento estacionário E (vech (Ht)) = (I− (A1+B1)) −1 . Ora, (A1 + B1) t → 0 sse os valores próprios de 

A1 + B1 são em módulo menores do que 1. 

3 Com efeito, note-se que A1 e B1 são matrizes quadradas de ordem m (m + 1) /2 e o vector w possui 

m (m + 1) /2 elementos. Assim, o número total de elementos a estimar é 2 (m (m + 1) /2) 2 +m (m + 1) /2 = 

(m (m + 1) /2) (1 + (m (m + 1))) . 

343

m (m (m + 1) /2) (1 + (m (m + 1))) 

2 21 

3 78 

4 210 

Tabela 9.1: Número de parâmetros a estimar no VEC 

coeficientes de correlação superiores a um e/ou variâncias negativas (i.e. ρ ij,t > 1 ou 

ht,ii < 0). 

Estas duas desvantagens acabam por limitar, de facto, a aplicação do modelo. Mesmo no 

caso m = 2 têm-se 21 parâmetros (tabela 9.1). Estimar 21 parâmetros usando o OLS é fácil 

(desde que o número de graus de liberdade assim o permita). Mas estimar 21 parâmetros 

maximizando a função log-verosimilhança (9.1) é extremamente difícil. Frequentemente, 

implementa-se o modelo VEC impondo várias restrições de nulidade sobre A1 e B1, como 

podemos ver no exemplo seguinte. 

Exemplo 9.3.1 Existem efeitos de rendimento e de volatilidade do PSI20 que possam ser 

antecipados através do Dow Jones (DJ)? Seja y1t e y2t o retorno diário associado, respec- 

tivamente, aos índices, PSI20 e DJ. Para reduzir o número de parâmetros a estimar, as var- 

iáveis y1t e y2t foram previamente centradas (e, como consequência, os termos constantes 

das equações foram eliminados). Depois de vários ensaios, definiu-se o seguinte modelo 

onde 

vech (Ht) = 

⎛ 

⎝ y1t 

⎛ 

⎜ 

⎝ 

y2t 

⎞ 

h11,t 

h12,t 

h22,t 

⎠ = 

⎞ 

⎛ 

⎝ φ 11 φ 12 

0 φ 22 

⎛ 

⎟ 

⎠ = 

⎜ 

⎝ 

0 

0 

w22 

⎞ 

⎛ 

⎞ ⎛ 

β 

⎜ 11 

⎜ 

+ ⎜ 0 

⎝ 

0 

0 

0 

0 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎠ ⎝ 

0 0 β33 ⎞ ⎛ 

⎠ 

⎟ 

⎠ + 

⎜ 

⎝ 

⎝ y1,t−1 

⎛ 

h11,t−1 

h12,t−1 

h22,t−1 

y2,t−1 

⎞ 

α11 0 α13 

0 0 0 

0 0 α33 

⎞ ⎛ 

⎠ + H 1/2 εt 

⎞ ⎛ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎠ ⎝ 

u 2 1,t−1 

u1,t−1u2,t−1 

⎞ 

⎟ 

⎠ + 

γvolt−1 ⎜ ⎟ 

⎜ ⎟ 

⎜ 0 ⎟ 

⎝ ⎠ 

0 

u 2 2,t−1 

(vol é uma medida do volume de transacções do mercado português). Todas as matrizes 

quadradas são triangulares superiores, porque se assume que o DJ influencia o PSI20 e 

não existem efeitos de feedback (o PSI20 não influencia o DJ). Usando os dados no período 

344 

⎞ 

⎟ 

⎠

31/12/92 a 15/03/99 (1496 observações) obteve-se, 

Assim, 

ˆy1t = .2343 

(.028) y1t−1 + .1430 

(.023) y2t−1, ˆy2t = .0753 

(.023) y2t−1 

ˆh1t = .3132 

(.0466) û21t−1 + .0466 

(.0151) û22t−1 + .6053 

(.0459) 

ˆh2t = 1.25 × 10 −6 

(5.2×10 −7 ) 

⎛ 

⎞ 

.3132 

⎜ 

Â1 = ⎜ 0 

⎝ 

0 

0 

.0466 

⎟ 

0 ⎟ 

⎠ 

0 0 .0903 

, 

ˆh1t−1 + .0254 

(.0062) volt−1 

+ .0903 

(.0195) û22t−1 + .897 ˆh2t−1, h12,t = 0. 

(.0227) 

⎛ 

⎞ 

.6053 

⎜ 

ˆB1 

⎜ 

= ⎜ 0 

⎝ 

0 

0 

0 

0 

⎟ 

⎠ 

0 0 .897 

Os valores próprios (estimados) da matriz Â1 + ˆB1 são {0.987, 0.918, 0} . Conclui-se: (1) 

O comportamento do índice DJ afecta significativamente o comportamento do PSI20, quer 

em termos de rendimento quer em termos de volatilidade; (2) ganhos do DJ afectam favo- 

ravelmente o PSI20; (3) aumentos ou diminuições de volatilidade do DJ afectam no mesmo 

sentido o PSI20; (4) os valores próprios respeitam a condição de ESO (note-se, todavia, que 

estão sujeitos a variabilidade amostral). As conclusões (1)-(3) são válidas, naturalmente, 

no muito curto prazo (um, dois dias). As possibilidades de ganho são muito reduzidas, 

pois grande parte das variações dos índices não são explicadas (alta volatilidade). Como 

nota final registe-se que a hipótese h12,t = 0 não é realísta, pois implica que as correlações 

condicionais são zero. Ora a literatura mostra que as correlações condicionais entre índices 

bolsistas é quase sempre significativa. 

345

9.4 Modelo Diagonal VECH 

Podem obter-se modelos VECH com menos parâmetros impondo que as matrizes A1 e B1 

sejam diagonais. Por exemplo, no caso m = 2, vem 

vech (Ht) = 

⎛ ⎞ 

⎜ 

⎝ 

h11,t 

h12,t 

⎟ 

⎠ 

h22,t 

= 

⎛ ⎞ 

⎜ 

⎝ 

w11 

w12 

⎟ 

⎠ 

w22 

+ 

⎛ 

⎞ ⎛ 

α11 ⎜ 0 

⎝ 

0 

α22 

0 

0 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎠ ⎝ 

⎛ 

⎞ ⎛ 

0 0 

⎞ 

α33 

β 

⎜ 11 

⎜ 

+ ⎜ 0 

⎝ 

0 

β22 0 

0 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎠ ⎝ 

h11,t−1 

h12,t−1 

⎟ 

⎠ 

0 0 β33 h22,t−1 

u 2 1,t−1 

u1,t−1u2,t−1 

u 2 2,t−1 

(este princípio aplica-se naturalmente no caso de modelos multivariados GARCH(p,q)). 

Com matrizes A1 e B1 diagonais pode optar por escrever o modelo diagonal VECH na 

forma equivalente 

Ht = ω + a1 ◦ ut−1u ′ t−1 + b1 ◦ Ht−1 

onde ω, a1 e b1 são matrizes simétricas de tipo m × m e “◦” é o produto de Hadamard 4 . Por 

exemplo, no caso m = 2, o modelo anterior escreve-se 

⎛ 

⎝ h11,t h12,t 

h12,t h22,t 

⎞ 

⎠ = 

⎛ 

⎝ w11 w12 

⎛ 

w12 w22 

⎝ b11 b12 

b12 b22 

⎞ 

⎞ 

⎠ + 

⎠ ◦ 

⎛ 

⎛ 

⎝ a11 a12 

a12 a22 

⎞ 

⎠ ◦ 

⎝ h11,t−1 h12,t−1 

h12,t−1 h22,t−1 

onde a11 = α11, a12 = α22, a22 = α33, etc. Note-se, portanto, que 

⎛ 

⎞ 

⎟ 

⎠ 

⎝ u2 1,t−1 u1,t−1u2,t−1 

⎞ 

⎠ 

h11,t = ω11 + a11u 2 1,t−1 + b11h11,t−1 

h12,t = ω12 + a12u1,t−1u2,t−1 + b12h12,t−1 

h22,t = ω22 + a22u 2 2,t−1 + b22h22,t−1. 

u1,t−1u2,t−1 

u 2 2,t−1 

4 Dadas duas matrizes A = (aij) m×m e B = (bij) m×m , o produto Hadamard define-se como A ◦ 

B = (aijbij) m×m . Por exemplo, 

1 2 

3 4 

 

5 6 

◦ 

7 8 

346 

 

= 

5 12 

21 32 

 

. 

⎞ 

⎠ +

A vantagem do modelo em análise face ao modelo VECH é a de reduzir o número de 

parâmetros a estimar. Num modelo multivariado GARCH(1,1) com m equações, o número 

total de parâmetros a estimar no modelo Diagonal VECH é de apenas 3m (m + 1) /2. To- 

davia há uma desvantagem face ao VECH. Para ilustrar este ponto considere-se o caso 

m = 2. No modelo Diagonal VECH é fácil verificar que hii,t só depende dos termos u 2 i,t−1 

e hii,t−1, e h12,t só depende dos termos u1,t−1u2,t−1 e h12,t−1. Desta forma, a especificação 

Diagonal VECH elimina a possibilidade de interacção entre as diferentes variâncias e co- 

variâncias condicionais. Por outro lado, a matriz Ht, por construção, não resulta definida 

positiva. Há várias formas de ultrapassar este último problema no âmbito da especificação 

Diagonal VECH. Uma possibilidade consiste em reespecificar o modelo na forma 

Ht = ˜ω1 (˜ω1) ′ + ã1 (ã1) ′ ◦ ut−1u ′ t−1 + ˜b1 

com ω = ˜ω1 (˜ω1) ′ , a1 = ã1 (ã1) ′ e b1 = ˜ b1 

˜b1 

′ 

◦ Ht−1 

′ 

˜b1 e ˜ω1, ã1 e ˜ b1 são matrizes quadradas 

de ordem m. As matrizes ω, a1 e b1 assim construídas implicam uma matriz Ht definida 

positiva. Esta forma de definir o modelo resulta claro com o seguinte exemplo univariado. 

Suponha-se que os parâmetros β 0 e β 1 do modelo yt = β 0 + β 1xt + ut têm de ser positivos. 

Podemos impor essa restrição estimando yt = ˜ β 2 

0 + ˜ β 2 

1xt + ut e assumindo que β0 = ˜ β 2 

0 

e β1 = ˜ β 2 

1. Desta forma β0 e β1 vêm sempre positivos quaisquer que sejam os valores de 

˜β 0 e ˜ β1. Em termos matriciais, o produto ã1 (ã1) ′ resulta sempre numa matriz semidefinida 

positiva, e o produto de Hadamard ã1 (ã1) ′ ◦ ut−1u ′ t−1 = diag (ut−1) ã1 (ã1) ′ diag (ut−1) é, 

por definição, uma matriz semidefinida positiva (ou definida positiva se ã1 tiver característica 

m). Várias versões deste modelo são estimadas pelo software EVIEWS 6. 

Um modelo ainda mais restritivo (mas que é usado com algum sucesso na modelação 

de sistemas com muitas equações) foi desenvolvido pela J.P. Morgan (1996). Basicamente 

usa o princípio exponentially weighted moving average (EWMA) para captar a dinâmica das 

variâncias e covariâncias condicionais, 

hij,t = (1 − λ) ui,t−1uj,t−1 + λhij,t−1. 

347

O modelo EWMA, no caso m = 2, tem a seguinte representação VECH: 

⎛ 

⎜ 

⎝ 

h11,t 

h12,t 

h22,t 

⎞ 

⎟ 

⎠ = 

⎛ 

⎞ ⎛ 

1 − λ 

⎜ 0 

⎝ 

0 

1 − λ 

0 

0 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎠ ⎝ 

0 0 1 − λ 

u 2 1,t−1 

u1,t−1u2,t−1 

u 2 2,t−1 

⎞ 

⎟ 

⎠ + 

⎛ ⎞ ⎛ 

λ 

⎜ 0 

⎝ 

0 

λ 

0 

⎟ ⎜ 

⎟ ⎜ 

0 ⎟ ⎜ 

⎠ ⎝ 

0 0 λ 

h11,t−1 

h12,t−1 

h22,t−1 

Existe uma redução dramática do número de parâmetros a estimar (passamos para apenas 1, 

qualquer que seja o número de equações do modelo). 

9.5 Modelo BEKK 

O modelo BEKK (devido a Baba, Engle, Kroner e Kraft; veja-se Engle et al. 1993) assegura 

por construção que Ht é definida positiva. No caso mais simples BEEK(1,1), a matriz de 

variâncias-covariâncias condicionais é igual a 

Ht = W + A ′ 1 

 

ut−1u ′ 

t−1 A1 + B ′ 1Ht−1B1 

onde W, A1 e B1 são matrizes de tipo m × m, com W simétrica e definida positiva. Ht é 

definida positiva por construção pois W é definida positiva e os demais termos estão expres- 

sos como formas quadráticas definidas positivas. No caso m = 2 tem-se 

Ht = 

⎛ 

⎝ w11 w12 

⎛ 

w12 w22 

⎝ α11 α12 

+ 

α21 α22 

⎛ 

⎞ 

⎠ + 

⎞ 

⎠ 

⎝ β 11 β 12 

β 21 β 22 

′ ⎛ 

⎝ u2 1,t−1 u1,t−1u2,t−1 

⎞ 

⎠ 

u1,t−1u2,t−1 

′ ⎛ 

⎝ h11,t−1 h12,t−1 

h12,t−1 h22,t−1 

u 2 2,t−1 

⎞ ⎛ 

Depois de algumas contas, pode-se concluir, por exemplo, que: 

h11,t = w11 + α 2 11u 2 1,t−1 + α12α21u 2 2,t−1 

⎠ 

+α11α12u1,t−1u2,t−1 + α11α21u1,t−1u2,t−1 

⎞ ⎛ 

⎠ 

⎝ β 11 β 12 

β 21 β 22 

⎝ α11 α12 

α21 α22 

⎞ 

⎠ . 

+β 2 

11h11,t−1 + β 11β 12h12,t−1 + β 11β 21h12,t−1 + β 12β 21h22,t−1. 

348 

⎞ 

⎠ 

⎞ 

⎟ 

⎠ .

Figura 9-1: Simulação do modelo BEKK (m = 2). 

Com o modelo BEKK há ainda uma redução de número de parâmetros a estimar: passam 

agora a existir (m + 5m 2 ) /2. Na figura seguinte mostra-se uma simulação com dois activos. 

9.6 Modelo de Correlações Condicionais Constantes 

O modelo VEC sem restrições é (quase) impossível de ser implementado. O modelo BEKK 

envolve ainda muitos parâmetros e a maximização da função de verosimilhança é extrema- 

mente difícil para m moderadamente elevado. A hipótese de Bollerslev (1990) consiste em 

admitir correlações condicionais constantes (i.e. iguais às correlações marginais): ρ ij,t = ρ ij. 

Esta hipótese reduz significativamente o número de parâmetros a estimar. Tem-se 

ρij = ρij,t = hij,t 

 

σ2 itσ2jt 349 

⇒ ht,ij = ρ ijσitσjt.

Logo 

Ht = 

= 

VEC BEEK Correl.Const. 

m (m (m + 1) /2) (1 + (m (m + 1))) m+5m2 

2 

3m + 1m 

(m − 1) 

2 

2 21 11 7 

3 78 24 12 

Tabela 9.2: Número de parâmetros a estimar 

⎛ 

⎜ 

⎝ 

σ2 1t 

ρ12σ1tσ2t ρ12σ1tσ2t σ 

· · · ρ1mσ1tσmt 2 . 

2t 

. 

· · · 

. .. 

ρ2mσ2tσmt . 

ρ1mσ1tσmt ρ2mσ2tσmt · · · σ2 ⎞ 

⎟ 

⎠ 

⎛ 

⎞⎛ 

mt 

⎞⎛ 

⎞ 

σ1t 

⎜ 0 

⎜ . 

⎝ 

0 

σ2t 

. 

· · · 

· · · 

. .. 

0 

0 

. 

⎟⎜ 

⎟⎜ 

⎟⎜ 

⎟⎜ 

⎟⎜ 

⎟⎜ 

⎠⎝ 

1 

ρ12 . 

ρ12 1 

. 

· · · 

· · · 

. .. 

ρ1m σ1t 

⎟⎜ 

⎟⎜ 

ρ2m ⎟⎜ 

0 

⎟⎜ 

⎟⎜ 

. ⎟⎜ 

. 

⎠⎝ 

0 

σ2t 

. 

· · · 

· · · 

. .. 

0 

0 

. 

⎟ 

⎠ 

 

0 0 · · · 

 

σmt 

 

ρ1m ρ2m · · · 

 

1 

 

0 0 · · · 

 

σmt 

 

= DtRDt. 

Dt 

Supondo que σ 2 it = ωi + αiu 2 i,t−1 + β iσ 2 i,t−1, cada elemento σ 2 it envolve 3 parâmetros. 

Por outro lado, a matriz R envolve m (m − 1) /2 parâmetros. Na tabela 9.2 comparam-se os 

modelos VEC, BEEK e de correlações constantes (na versão “GARCH(1,1)”. 

Não só o número de parâmetros a estimar é menor como também a maximização da 

função de log-verosimilhança é mais fácil. Retome-se a equação (9.1): 

log Ln (θ) = − nm 

2 

log (2π) − 1 

2 

n 

t=1 

R 

log |Ht| − 1 

2 

Pode-se simplificar esta expressão atendendo aos seguintes resultados: 

Ht = DtRDt, 

n 

t=1 

Dt 

(yt − µ t) ′ H −1 

t (yt − µ t) . 

log |Ht| = log |DtRDt| = log |Dt| + log |R| + log |Dt| = 2 log |Dt| + log |R| , 

(yt − µ t) ′ H −1 

t (yt − µ t) = (yt − µ t) ′ D −1 

t R −1 D −1 

t (yt − µ t) = v ′ tR −1 vt. 

350

Observe-se que vt representa o vector das variáveis aleatórias estandardizadas: 

Assim, 

v ′ t = (yt − µ t) ′ D −1 

 

y1t−µ 

t = 

1t 

σ1t 

log Ln (θ) = − nm 

2 

log (2π) − 

n 

t=1 

y2t−µ 2t 

σ2t 

· · · 

log |Dt| − n 1 

log |R| − 

2 2 

ymt−µ mt 

σmt 

 

. 

n 

v ′ tR −1 vt. 

Podemos simplificar log Ln (θ) se substituirmos R pela expressão que representa a solução 

da equação matricial ∂ log Ln (θ) /∂R = 0. Pode-se provar que tal solução é 

n t=1 R = 

vtv ′ t 

. 

n 

A função log-verosimilhança que assim se obtém designa-se função log-verosimilhança con- 

centrada: 

log Ln (θ) = const. − 

n 

log |Dt| − n 

2 log 

 

 

 

 

t=1 

n 

t=1 vtv ′ t 

n 

 

 

 

 

− 1 

2 

n 

t=1 

v ′ t 

t=1 

n t=1 v′ −1 tvt 

vt. 

n 

Sabendo log |Dt| = log (σ1t + ... + σmt) , e utilizando-se mais algumas propriedades ele- 

mentares do cálculo matricial, a expressão da função log-verosimilhança pode ainda apresentar- 

se na forma simplificada: 

log Ln (θ) = const. − 

n 

log (σ1t + ... + σmt) − n 

2 log 

 

n 

 

 

t=1 

Note-se que | n 

t=1 vtv ′ t| é naturalmente o determinante de n 

t=1 vtv ′ t. Nos modelos VEC e 

BEEK, é necessário inverter a matriz Ht para cada t e para cada iteração do algoritmo de 

maximização. Esta dificuldade é superada com o presente modelo. A principal desvantagem 

do modelo em análise é o de assumir correlações condicionais constantes. 

9.7 Modelo DCC 

O modelo DCC (Dynamic Conditional Correlation), devido a Engle (2002), é uma extensão 

do modelo de correlações condicionais constantes (CCC). 

No modelo de CCC a matriz de variâncias-covariâncias é definida como Ht = DtRDt, 

351 

t=1 

vtv ′ t 

 

 

 

 

.

sendo R a matriz de correlações condicionais (constante). Esta matriz é, por definição, 

E (vtv ′ t| Ft−1) e calcula-se da seguinte forma: 

E (vtv ′ t| Ft−1) = E D −1 

t (yt − µ t) (yt − µ t) ′ D −1 

 

t 

Ft−1 

−1 

= Dt HtD −1 

t = R. 

Nos modelos VEC e BEKK (entre outros) a matriz E (vtv ′ t| Ft−1) é variável ao longo 

do tempo. Este resultado decorre das hipóteses formuladas para Ht (é, portanto, uma conse- 

quência da forma como Ht é especificada). No modelo DCC E (vtv ′ t| Ft−1) também é var- 

iável, mas este resultado decorre directamente da forma como a matriz E (vtv ′ t| Ft−1) é para- 

metrizada. A ideia consiste em propor um modelo para Rt = E (vtv ′ t| Ft−1) . Considere-se 

Como parametrizar ou modelar ρ ij,t? 

** incompleto** 

9.8 Modelo “Triangular” 

⎛ 

⎞ 

⎜ 

Rt = ⎜ 

⎝ 

1 

ρ12,t . 

ρ12,t 1 

. 

· · · 

· · · 

. .. 

ρ1m,t ⎟ 

ρ2m,t ⎟ . 

. ⎟ 

⎠ 

ρ1m,t ρ2m,t · · · 1 

9.8.1 Introdução e Formalização do Modelo 

O modelo que designamos de triangular é inspirado em Christiansen (2007). 

Em certas aplicações é admissível supor que a média de y1t condicionada a F y1 

t−1 = 

{y1,t−1, y1,t−2, ...} não depende de F y2 

t−1 = {y2,t−1, y2,t−2, ...} , i.e., 

E y1t| F y1 

t−1 ∪ F y2 

 

t−1 = E y1t| F y1 

 

t−1 . 

Diz-se, nestes casos, que y2 não causa à Granger y1. Para concretizar, suponha-se que y1t 

é o retorno do NASDAQ e y2t é o retorno do PSI20. Dadas as dimensões relativas dos 

mercados, não faz sentido, supor-se que y1 (NASDAQ) dado todo o seu passado, possa ser 

influenciado pelos valores atrasados de y2 (PSI20). Também em termos de volatilidade, 

idêntica conjectura pode ser estabelecida, i.e., a variância de y1t condicionada em F y1 

t−1 não 

depende dos valores passados de y2, F y2 

t−1. No entanto, y2 (PSI20) dado F y2 

t−1 pode depender 

352

de F y1 

t−1 (valores passados do NASDAQ). 

Para processos y1 e y2 com as características acima descritas, é possível definirem-se 

processos multivariados simplificados. 

Para se ilustrar o modelo, considere-se o processo y = (y1, y2, y3) e suponham-se as 

seguintes relações: y1 ↣ y2 ↣ y3 onde “y1 ↣ y2” significa y1 influencia y2 dado F y2 

t−1 e 

y2 não influencia y1 dado F y1 

t−1. Suponha-se ainda que y segue um processo VAR(1) (vector 

autoregressivo de ordem 1). Sob a hipótese y1 ↣ y2 ↣ y3 e VAR(1), o processo y tem a 

seguinte representação: 

⎛ 

⎜ 

⎝ 

y1t 

y2t 

y3t 

⎞ 

⎛ 

⎟ 

⎠ = 

⎜ 

⎝ 

c1 

c2 

c3 

⎞ 

⎟ 

⎠ + 

⎛ 

φ 

⎜ 11 

⎜ φ21 ⎝ 

0 

φ22 0 

0 

φ 31 φ 32 φ 33 

⎞ ⎛ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎠ ⎝ 

y1,t−1 

y2,t−1 

y3,t−1 

⎞ 

⎛ 

⎟ 

⎠ + 

⎜ 

⎝ 

u1t 

u2t 

u3t 

⎞ 

⎟ . (9.5) 

⎠ 

A matriz dos coeficientes autoregressivos é triangular, porque na média condicional y1,t ape- 

nas depende de y1,t−1, y2t depende de y1,t−1 e y2,t−1 e y3t depende de y1,t−1, y2,t−1 e y3,t−1. 

Como definir a estrutura de dependências do segundo momento condicional, continuando 

a assumir a relação y1 ↣ y2 ↣ y3? Uma forma simples e que facilita extraordinariamente a 

estimação do modelo, consiste em admitir que 

⎧ 

⎪⎨ 

⎪⎩ 

u1t = e1t 

u2t = ae1t + e2t 

u3t = be1t + ce2t + e3t 

⎛ ⎞ ⎛ ⎞⎛ 

⎞ 

⎜ 

⇔ ⎜ 

⎝ 

u1t 

u2t 

1 

⎟ ⎜ 

⎟ ⎜ 

⎟ = ⎜ a 

⎠ ⎝ 

0 

1 

0 e1t ⎟⎜ 

⎟ 

⎟⎜ 

⎟ 

0 ⎟⎜ 

e2t ⎟ 

⎠⎝ 

⎠ 

 

u3t 

 

b c 

 

1 

 

e3t 

 

onde se admite que (e1t, e2t, e3t) são independentes entre si, e eit| Ft−1 ∼ N (0, σ 2 it) , σ 2 it = 

ωi + αie 2 i,t−1 + β iσ 2 i,t−1. Observe-se que u2t depende de e2t (efeitos idiossincrásicos) e ainda 

dos choques idiossincrásicos da primeira equação. Por seu turno, u3t depende de e3t (efeitos 

idiossincrásicos) e ainda dos choques idiossincrásicos da primeira e da segunda equação. A 

volatilidade que decorre dos efeitos não idiossincrásicos designa-se de volatility spillover. 

ut 

A designação “modelo triangular” é agora óbvia: a equação matricial (9.5) representa-se 

na forma, 

yt = c + Φy t−1 + Ψet 

Ψ 

et 

(9.6) 

sendo Φ e Ψ matrizes triangulares inferiores. Naturalmente que se perde a relação y1 ↣ 

y2 ↣ y3, se as matrizes Φ e Ψ não forem triangulares inferiores. 

353

Dadas as hipótese sobre o vector et, defina-se 

Σt := Var (et| Ft−1) = 

⎛ 

⎜ 

⎝ 

Tendo em conta σ 2 it = ωi + αie 2 i,t−1 + β iσ 2 i,t−1, tem-se 

⎛ 

⎞ 

Σt = 

ω1 ⎜ 0 

⎝ 

0 

ω2 

0 

0 

⎟ 

⎠ 

0 0 ω3 

+ 

⎛ 

⎜ 

⎝ 

⎛ 

β 

⎜ 1σ 

⎜ 

+ ⎜ 

⎝ 

2 1,t−1 

0 

0 

β2σ 0 

2 2,t−1 0 

0 0 β3σ 2 ⎞ 

⎟ 

⎠ 

⎛ 

⎞ 

3,t−1 

= 

ω1 ⎜ 0 

⎝ 

0 

ω2 

0 

0 

⎟ 

⎠ 

0 

⎛ 

0 ω3 

⎞ ⎛ 

α1 ⎜ 

+ ⎜ 0 

⎝ 

0 

α2 

0 

0 

⎟ ⎜ 

⎟ ⎜ 

⎟ ◦ ⎜ 

⎠ ⎝ 

 

0 0 

 

α3 

 

A 

σ 2 1,t 0 0 

0 σ 2 2,t 0 

0 0 σ 2 3,t 

α1e 2 1,t−1 0 0 

0 α2e 2 2,t−1 0 

⎞ 

⎟ 

⎠ . 

0 0 α3e 2 3,t−1 

⎞ 

⎟ 

⎠ 

e 2 1,t−1 e1,t−1e2,t−1 e1,t−1e3,t−1 

e1,t−1e2,t−1 e 2 2,t−1 e2,t−1e3,t−1 

e1,t−1e3,t−1 e2,t−1e3,t−1 e2 

et−1e 

3,t−1 

 

′ t−1 

⎛ 

⎞ ⎛ 

β 

⎜ 1 

⎜ 

+ ⎜ 0 

⎝ 

0 

β2 0 

0 

σ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ◦ ⎜ 

⎠ ⎝ 

 

0 0 

 

B 

β3 

2 1,t−1 

0 

0 

σ 

0 

2 2,t−1 0 

0 0 σ2 ⎞ 

⎟ 

⎠ 

 

3,t−1 

 

= W + A ◦ et−1e ′ t−1 + B ◦ Σt−1 

onde “◦” é o produto de Hadamard e A e B são matrizes diagonais, tendo como elementos 

genéricos αi e β i, respectivamente. 

Para se estudar a relação entre Var (et| Ft−1) (= Σt) e Var (ut| Ft−1) (= Ht) comece-se 

354 

Σt−1 

⎞ 

⎟ 

⎠

por observar que 

e, portanto, 

ut = Ψet, 

et = Ψ −1 ut, 

ete ′ t = Ψ −1 utu ′ −1 

t Ψ ′ 

. 

Ht = Var (ut| Ft−1) = Var (Ψet| Ft−1) = Ψ Var (et| Ft−1) Ψ ′ = ΨΣtΨ ′ . 

Desta última relação (i.e., Ht = ΨΣtΨ ′ ), sai Σt = Ψ −1 Ht (Ψ −1 ) ′ . Em suma, 

Ht = ΨΣtΨ ′ 

= ΨWΨ ′ + Ψ A ◦ et−1e ′ t−1 

= ΨWΨ ′ + Ψ 

 

A ◦ Ψ −1 ut−1u ′ t−1 

Ψ ′ + Ψ (B ◦ Σt−1) Ψ ′ 

−1 

Ψ ′ 

Ψ ′ 

+ Ψ B ◦ Ψ −1 −1 

Ht−1 Ψ ′ 

Ψ ′ . 

Esta última relação escreve Ht como função dos termos ui,t−1uj,t−1 e hij,t−1. Expandindo 

a expressão anterior e depois de cálculos simples mas fastidiosos obtém-se, por exemplo, 

h22,t = a 2 ω1 + ω2 + a 2 (α1 + α2) u 2 1,t−1 

−2aα2u1,t−1u2,t−1 + a 2 (β 1 + β 2) h11,t−1 − 2aβ 2h12,t−1 + β 2h22,t−1 

(todas as expressões hij,t podem ser assim obtidas). 

É também interessante obter Ht como função das expressões σ 2 i,t: 

Ht = ΨΣtΨ ′ 

⎛ ⎞ ⎛ 

= 

1 

⎜ a 

⎝ 

0 

1 

0 

⎟ ⎜ 

⎟ ⎜ 

0 ⎟ ⎜ 

⎠ ⎝ 

b 

⎛ 

c 1 

= 

⎜ 

⎝ 

σ 2 1,t 0 0 

0 σ 2 2,t 0 

0 0 σ 2 3,t 

σ 2 1,t aσ 2 1,t bσ 2 1,t 

⎞ ⎛ ⎞ 

1 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 0 

⎠ ⎝ 

a 

1 

b 

⎟ 

c ⎟ 

⎠ 

0 0 1 

⎞ 

aσ 2 1,t a 2 σ 2 1,t + σ 2 2,t abσ 2 1,t + cσ 2 2,t 

bσ 2 1,t abσ 2 1,t + cσ 2 2,t b 2 σ 2 1,t + c 2 σ 2 2,t + σ 2 3,t 

355 

⎟ . (9.7) 

⎠

A partir de (9.7), deduzem-se também os coeficientes de correlação condicionados: 

ρ 12,t = 

ρ 13,t = 

ρ 23,t = 

 

σ2 

1,t 

aσ 2 1,t 

a 2 σ 2 1,t + σ 2 2,t 

bσ 2 1,t 

= 

 

σ2 

1,t b2σ2 1,t + c2σ2 2,t + σ2 3,t 

 

a2σ2 1,t + σ2 

2,t 

abσ 2 1,t + cσ 2 2,t 

aσ1,t 

 

a 2 σ 2 1,t + σ 2 2,t 

= 

b 2 σ 2 1,t + c 2 σ 2 2,t + σ 2 3,t 

bσ1,t 

 

b 2 σ 2 1,t + c 2 σ 2 2,t + σ 2 3,t 

Os sinais dos coeficientes a, b e c são decisivos nos sinais dos coeficientes de correlação 

condicionados. 

Observação 9.8.1 Tendo em conta as relação Vec (ABC) = (B ′ ⊗ A) Vec (C) e Vec (A ◦ B) = 

diag (Vec (A)) Vec (B) onde ⊗ é o produto de Kronecker e diag é definido como 

⎛⎛ 

diag ⎝ 

⎝ x1 

x2 

⎞⎞ 

⎠⎠ 

= 

⎛ 

⎝ x1 0 

0 x2 

é possível reescrever Ht usando o operador Vec. Depois de algumas contas, obtém-se 

onde 

Vec (Ht) = ˜W + Ã Vec ut−1u ′ 

t−1 + ˜B Vec (Ht−1) (9.8) 

˜W = (Ψ ⊗ Ψ) Vec (W) , 

. 

⎞ 

⎠ , 

Ã = (Ψ ⊗ Ψ) diag (Vec (A)) Ψ −1 ⊗ Ψ −1 , 

˜B = (Ψ ⊗ Ψ) diag (Vec (B)) Ψ −1 ⊗ Ψ −1 . 

Como a equação (9.8) está basicamente na forma da equação (9.2) deduz-se que a condição 

de ESO do processo {ut} estabelece que todos os valores próprios de Ã + ˜B sejam, em mó- 

dulo, menores do que um. Pode-se provar que os valores próprios de Ã + ˜B são {0, 0, 0, 0, 0, 0, α1+ 

β 1, α2 + β 3, α3 + β 3}. Logo, dado αi, β i ≥ 0, o processo é ESO sse αi + β i < 1, i = 1, 2, 3. 

Conclui-se que a condição de segunda ordem coincide com a do processo {et} . 

356

9.8.2 Estimação 

Considere a representação yt = c + Φy t−1 + Ψet (equação (9.6)), isto é, 

y1t = c1 + φ 11y1,t−1 + e1t (9.9) 

y2t = c2 + φ 21y1,t−1 + φ 22y2,t−1 + ae1t + e2t (9.10) 

y3t = c3 + φ 31y1,t−1 + φ 32y2,t−1 + φ 33y3,t−1 + be1t + ce2t + e3t (9.11) 

onde eit| Ft−1 ∼ N (0, σ 2 it) , σ 2 it = ωi + αie 2 i,t−1 + β iσ 2 i,t−1. A estimação do modelo pode ser 

conduzida da seguinte forma: 

1. Estimar a equação (9.9), pelo método da máxima verosimilhança, e obter os resíduos 

{ê1t} . 

2. Substituir, na equação (9.10), e1t por ê1t e estimar o modelo. Obter os resíduos {ê2t} . 

3. Substituir, na equação (9.11), e1t por ê1t e e2t por ê2t e estimar o modelo. 

Estuda-se a seguir a verosimilhança associada ao modelo em análise. A função log- 

verosimilhança é dada pela expressão (9.1). Tendo em conta a estrutura “triangular” do 

modelo é possível simplificar a log-verosimilhança e decompô-la em três parcelas, como se 

mostra a seguir. Observe-se, em primeiro lugar, 

Tem-se assim, 

(yt − µ t) ′ H −1 

t (yt − µ t) = u ′ t (Ψ ′ ) −1 Σ −1 

t Ψ −1 ut 

= 1 

σ2 u 

1t 

2 1t + 1 

σ2 (u2t − au1t) 

2t 

2 

log |Ht| = log |ΨΣtΨ ′ | = log |Ψ| 2 |Σt| 

+ 1 

σ2 (u3t − (b − ac) u1t − cu2t) 

3t 

2 

= log |Ψ| 2 + log (|Σt|) = log (1) + log σ 2 1tσ 2 2tσ 2 3t 

= log σ 2 

2 2 

1t + log σ2t + log σ3t (b − ac) u1t − cu2t = −be1t − ce2t. 

357

log Ln (θ) = − nm 1 

log (2π) − 

2 2 

= − nm 1 

log (2π) − 

2 2 

− 1 

n 

 

1 

2 

t=1 

n 

t=1 

n 

t=1 

log |Ht| − 1 

2 

n 

t=1 

(yt − µ t) ′ H −1 

t (yt − µ t) . 

 

2 2 2 

log σ1t + log σ2t + log σ3t σ2 u 

1t 

2 1t + 1 

σ2 (u2t − au1t) 

2t 

2 

+ 1 

σ2 (u3t − (b − ac) u1t − cu2t) 

3t 

2 

= − nm 

n 1 

2 2 2 

log (2π) − log σ1t + log σ2t + log σ3t 2 2 

t=1 

− 1 

n 

 

1 

2 σ 

t=1 

2 u 

1t 

2 1t + 1 

σ2 (u2t − ae1t) 

2t 

2 + 1 

σ2 3t 

= − nm 

 

log (2π) + − 

2 1 

n 

log 

2 

t=1 

σ 2 

n 1 1 

1t − 

2 σ 

t=1 

2 u 

1t 

2 

1t 

 

log Ln,1 

 

+ − 1 

n 

log 

2 

t=1 

σ 2 

n 1 1 

2t − 

2 σ 

t=1 

2 (u2t − ae1t) 

2t 

2 

 

 

log Ln,2 

 

− 1 

n 

log 

2 

t=1 

σ 2 

n 1 1 

3t − 

2 σ 

t=1 

2 (u3t − be1t − ce2t) 

3t 

2 

 

 

log Ln,3 

= log Ln,1 + log Ln,2 + log Ln,3 

 

(u3t − be1t − ce2t) 2 

 

(9.12) 

(9.13) 

(9.14) 

A decomposição log Ln (θ) = log Ln,1+log Ln,2+log Ln,3, mostra que a estimação pode 

ser feita consistentemente de acordo com os passos acima indicados. A primeira parcela, 

log Ln,1, só depende do vector 

θ1 = (c1, φ 11, ω1, α1, β 1) ′ . 

Estes parâmetros são estimados de forma consistente e eficiente maximizando (apenas) log Ln,1 

(trata-se, portanto, da estimação, pelos métodos habituais, da equação (9.9)). A segunda 

parcela, log Ln,2, depende do vector, 

θ2 = (c2, φ 21, φ 22, ω2, α2, β 2, a) ′ 

358

e ainda de θ1, através dos erros {e1t} . A estimação de θ2 através da maximização de log Ln,2 

pode ser feita de forma consistente, mas não eficiente, substituindo os erros {e1t} por {ê1t} . 

A estimação é consistente pois {ê1t} baseiam-se no estimador consistente ˆ θ1, obtido no 

primeiro passo. Claro que a maximização de log Ln,2 corresponde à estimação da equação 

(9.10), pelos métodos habituais ((com {ê1t} em lugar de {e1t}). Este raciocínio aplica-se de 

forma análoga a log Ln,3. 

Como nota final, observe-se que a estimação do modelo pode ser totalmente eficiente 

se a maximização de log Ln for simultânea (confiram-se as equações (9.12)-(9.14)). Como 

se sabe, o problema da maximização de log Ln é, entre outros, o dos valores iniciais dos 

parâmetros a estimar. Este problema é mitigado no presente contexto: basta fornecer como 

valores iniciais as estimativas obtidas na estimação em três passos, acima apresentada. 

9.8.3 Testes e Rácios de Variância 

Considere-se novamente 

⎧ 

⎪⎨ 

⎪⎩ 

u1t = e1t 

u2t = ae1t + e2t 

u3t = be1t + ce2t + e3t 

, 

⎧ 

⎪⎨ 

⎪⎩ 

h11,t = σ 2 1t 

h22,t = a 2 σ 2 1t + σ 2 2t 

h33,t = b 2 σ 2 1t + c 2 σ 2 2t + σ 2 3t. 

Observámos que u2t depende de e2t (efeitos idiossincrásicos) e ainda dos choques idiossin- 

crásicos da primeira equação. Por seu turno, u3t depende de e3t (efeitos idiossincrásicos) e 

ainda dos choques idiossincrásicos da primeira e da segunda equação. Como referimos, a 

volatilidade que decorre dos efeitos não idiossincrásicos designa-se de volatility spillover. 

Desta forma, existem efeitos de volatility spillover do mercado 1 para o mercado 2 se a = 0 

e dos mercados 1 e 2 para o mercado 3 se b = 0 e c = 0. 

Pode-se ainda obter informação sobre a evolução da transmissão da volatilidade ao longo 

do tempo através de rácios de volatilidade. Seja RV i,j 

t 

a proporção da variância do mercado 

j que é causada pelo efeito de volatility spillover do mercado i (efeito do mercado i para j, 

i ↦→ j). Tem-se 

RV 1,2 

t = a2σ2 1t 

h22,t 

RV 1,3 

t = b2 σ 2 1t 

h33,t 

, 

359 

RV 2,3 

t 

= c2σ2 2t 

. 

h33,t

Dependent Variable: R1 

Method: ML ARCH 

Sample (adjusted): 6/01/1993 4/09/2009 


Variable Coefficient Std. Error zStatistic Prob. 

C 0.052202 0.013247 3.940658 0.0001 

R1(1) 0.017161 0.017808 0.963644 0.3352 

Variance Equation 

C 0.007049 0.001077 6.546092 0.0000 

RESID(1)^2 0.066257 0.004820 13.74617 0.0000 

GARCH(1) 0.929667 0.005114 181.7812 0.0000 

Figura 9-2: Estimação, primeiro passo - ver equação (9.9) 





Por exemplo, RV 2,3 

t 


C 0.052704 0.013123 4.016235 0.0001 

R1(1) 0.449084 0.019369 23.18547 0.0000 

R2(1) 0.179191 0.015456 11.59382 0.0000 

RES1 0.552914 0.015972 34.61746 0.0000 


C 0.009916 0.002944 3.367632 0.0008 

RESID(1)^2 0.068232 0.010502 6.497201 0.0000 

GARCH(1) 0.923938 0.010928 84.55149 0.0000 

Figura 9-3: Estimação, segundo passo - ver equação (9.10) 

representa a proporção da variância condicional do mercado 3 que é 

causada pelo efeito volatility spillover do mercado 2. 

9.8.4 Exemplo 

Pinto (2010) analisou a transmissão de volatilidade do mercado Norte-Americano (US) para 

o mercado Europeu (EU) e, em particular, as repercussões destes dois mercados no mercado 

Português (PT), através de um modelo triangular. O período analisado foi 4 de Janeiro de 

1993 a 4 de Setembro de 2009. As variáveis em análise são: r1t - retorno do SP500, r2t - 

retorno do DJ Euro 50 e r3t - retorno do PSI 20. Nas figuras 9-2 a 9-4 apresentam-se os 

modelos estimados (na versão mais simples). 

É fácil constatar que existe evidência estatística de efeitos de volatility spillover do mer- 

cado US para o mercado EU (â = 0.55291 e rejeita-se a hipótese a = 0 com p-value = 0 - ver 

figura 9-3) e dos mercados US e EU para o mercado PT ( ˆ b = 0.233, ĉ = 0.4066 e rejeitam-se 

as hipóteses b = 0 e c = 0 - ver figura 9-4). 

360






C 0.043610 0.010837 4.024173 0.0001 

R1(1) 0.222423 0.010966 20.28223 0.0000 

R2(1) 0.093210 0.012230 7.621611 0.0000 

R3(1) 0.143101 0.016376 8.738563 0.0000 

RES1 0.233364 0.007759 30.07544 0.0000 

RES2 0.406663 0.008429 48.24352 0.0000 


C 0.027709 0.002862 9.681126 0.0000 

RESID(1)^2 0.158430 0.009900 16.00381 0.0000 

GARCH(1) 0.815877 0.010650 76.60615 0.0000 

Figura 9-4: Estimação, terceiro passo - ver equação (9.11) 

Na figura 9-5 apresentam-se os coeficientes de correlação condicionados (valores médios 

mensais). Podem ser retiradas algumas conclusões: 

• As correlações condicionadas entre os mercados US e EU e entre os mercados EU e 

PT são, em média, relativamente fortes. 

• A correlação menos expressiva, mas significativa, é entre o mercado US e o mercado 

PT, embora se assista ao longo do período a um aumento dessa correlação. 

• Tendo em conta que as correlações são positivas, os retornos tendem a flutuar na 

mesma direcção; por outro lado, verifica-se uma tendência de crescimento das corre- 

lações, ou seja, uma tendência crescente de interligação entre os diferentes mercados. 

• Alguns dos valores mais altos dos coeficientes de correlação coincidem com algumas 

crises financeiras 5 . Este facto é particularmente notório com a crise do subprime de 

2008. 

Na figura 9-6 analisa-se a transmissão da volatilidade dos mercados EU e US para o 

mercado PT através dos rácios de volatilidade. São considerados os seguintes rácios 

RV _USt = RV 1,3 

t 

RV _EUt = RV 2,3 

t 

= ˆb 2ˆσ 2 

1t 

ˆh33,t 

= ĉ2ˆσ 2 

2t 

ˆh33,t 

RV _P Tt = 1 − RV _USt − RV _EUt. 

5 As principais crises financeiras no período em análise são as seguintes: Recessão do Japão, 1991; Crise do 

México, 1994/1995; Bolha Dot.com, 2000; Crise de 2001 (ataque às Twin Towers); Crise da Argentina, 2002; 

Crise do Subprime, 2007/2008. 

361 

, 

,

.9 

.8 

.7 

.6 

.5 

.4 

.3 

.2 

.1 

94 96 98 00 02 04 06 08 

PTEU PTUS EUUS 

Figura 9-5: Coeficientes de Correlação Condicional 

Podem ser retiradas algumas conclusões: 

• A volatilidade do mercado PT decorre em larga medida do seu próprio mercado (efeito 

idiossincrático), embora este efeito tenha a vindo a diminuir ao longo do tempo. Por 

outras palavras, o efeito de volatilidade spillover dos mercados EU e US sobre o mer- 

cado PT tem vindo a aumentar ao longo do tempo. 

• O efeito de volatilidade spillover do mercado EU (para o mercado PT) é geralmente 

mais forte do que o do mercado US. No entanto, no período da crise do subprime, o 

mercado US transmitiu mais volatilidade ao mercado PT do que o mercado EU. 

• Nos períodos de crise o efeito idiossincrático tende em geral a diminuir. Observe-se 

por exemplo, as crise de 2000 (das “dot.com”), de 2001 e de 2008. 

• Verifica-se uma tendência de crescimento do rácio de volatilidade US para o mercado 

PT. 

9.9 GARCH Ortogonal 

À semelhança do modelo “triangular”, a principal vantagem do GARCH ortogonal é a de 

podermos estimar um GARCH multivariado através de GARCH’s univariados. 

362

1.0 

0.8 

0.6 

0.4 

0.2 

0.0 

94 96 98 00 02 04 06 08 

RV_EU RV_PT RV_US 

Figura 9-6: Rácios de Volatilidade 

Seja yt = (y1t, y2t, ..., ymt) ′ o vector das observações no momento t (t = 1, ..., n). Se 

quisermos normalizar as variáveis consideramos 

xit = yit − E (yit) 

. 

(substituir E (yit) e σi pelos respectivos momentos da amostra, caso os parâmetros sejam 

desconhecidos). Logo E (xit) = 0 e Var (xit) = 1. Para simplificar suponha–se E (yit) = 0. 

Nestas condições podemos escrever 

⎛ 

⎞⎛ 

⎞ 

σ1 

⎜ 0 

yt= ⎜ . 

⎝ 

0 

σ2 

. 

· · · 

· · · 

. .. 

0 

0 

. 

⎟⎜ 

⎟⎜ 

⎟⎜ 

⎟⎜ 

⎟⎜ 

⎟⎜ 

⎠⎝ 

x1t 

x2t 

. 

⎟ = Σxt. 

⎟ 

⎠ 

 

0 0 · · · 

 

σm 

 

xmt 

 

Σ 

Suponha-se que é possível encontrar matrizes Pt de tipo m × 1 e W de tipo m × m nas 

seguintes condições: 

σi 

xt = WPt 

xt 

PtP ′ t é diagonal. (9.15) 

363

Suponha-se que W é não aleatório dado Ft−1. Vem 

Tendo em conta (9.15) vem 

E (PtP ′ t| Ft−1) = 

Cov (yt| Ft−1) = Cov (Σxt| Ft−1) 

⎛ 

⎜ 

⎝ 

= E (Σxtx ′ tΣ| Ft−1) 

= Σ E (xtx ′ t| Ft−1) Σ 

= Σ E (WPtP ′ tW ′ | Ft−1) Σ 

= ΣW E (PtP ′ t| Ft−1) W ′ Σ 

E (P 2 

t1| Ft−1) 0 · · · 0 

0 E (P 2 2t| Ft−1) · · · 0 

. 

. 

. .. . 

0 0 · · · E (P 2 mt| Ft−1) 

Vantagem da especificação Cov (yt| Ft−1) = ΣW E (PtP ′ t| Ft−1) W ′ Σ ? Supondo que se 

conhecem as matrizes Σ e W, modelar Cov (yt| Ft−1) equivale a modelar apenas as variân- 

cias condicionais de Pit. Não temos que nos preocupar com a modelação das covariâncias 

condicionais! Além disso Cov (yt| Ft−1) é definida positiva, por construção. 

Obter a matriz W 

 

Seja X a matriz das observações estandardizadas, X = 

x•1 x•2 · · · x•m 

⎞ 

⎟ . 

⎟ 

⎠ 

 

de tipo 

n × m (por exemplo, x•1 representa o vector das observações estandardizadas da variável 1) 

e 

ˆV = X′ X 

n . 

V é a matriz de correlações de yt. Por exemplo, o elemento (1, 2) de V é 

Considerar 

x ′ •1x•2 

n 

= 

= 

n 

t=1 x1tx2t 

1 

n 

n 

x ′ •1x•2 

n = 

n 

t=1 

y1t−E(y1t) y2t−E(y2t) 

n 

= 

σ1 

n 

σ2 

t=1 (y1t − E (y1t)) (y2t − E (y2t)) 

. 

σ1σ2 

1 n 

n t=1 (y1t − ¯y1) (y2t − ¯y2) 

ˆσ1ˆσ2 

se os momentos E (y1t), E (y2t), σ1 e σ2 forem desconhecidos. 

364

Como se sabe, se W•i é vector próprio de V e λi é o valor próprio associado a W•i então 

Compactamente 

 

onde W = 

W•1 ... W•m 

ˆVW•i = λiW•i, i = 1, ..., m 

ˆVW = WΛ 

 

é a matriz dos vectores próprios associada a V e Λ = diag (λ1, ..., λm) . 

Note-se que W ′ W = I ( ˆV é simétrica, logo é possível obter W tal que W ′ W = I ). Como 

tem-se 

X = PW ′ ⇔ P = X (W ′ ) −1 = XW 

P ′ P = W ′ X ′ XW 

= nW ′ ˆVW 

= nW ′ WΛ 

= nΛ. 

Portanto, se W é a matriz dos vectores próprios associada a V então P ′ P é uma matriz 

diagonal. 

Passos: 

1. Estandardizar Y e obter X. Estimar 

2. Calcular ˆV = X ′ X/n. 

⎛ 

⎞ 

σ1 

⎜ 0 

Σ = ⎜ . 

⎝ 

0 

σ2 

. 

· · · 

· · · 

. .. 

0 

0 

. 

⎟ , 

⎟ 

⎠ 

σi = 

0 0 · · · σm 

Var (yit) 

3. Calcular os vector próprios (W) de ˆV. 

4. Obter P = XW. 

5. Modelar separadamente as coluna de P através de um GARCH. 

365

Figura 9-7: Aplicação (rendabilidade do índice de mercado: NASDAQ; INDUSTRIAL, 

COMPUTER) 

6. Para cada t considerar 

Cov (yt| Ft−1) = ΣW E (PtP ′ t| Ft−1) W ′ Σ. 

Modelação de Sistemas de Grande Dimensão 

É possível reduzir a calculatória considerando apenas certos vectores de P = XW - estes 

vectores designam-se de componentes principais. Para explicar esta ideia, considere-se 

P ′ P 

= Λ (9.16) 

n 

Logo Λ pode ser considerado uma estimativa da matriz de variâncias-covariâncias de P. 

Como 

 

P = 

P•1 ... P•m 

366

tem-se 

P ′ ⎛ 

P 

⎜ 

P = ⎜ 

⎝ 

′ •1P•1 

0 

0 

P 

· · · 0 

′ . 

•2P•2 

. 

· · · 

.. . 

0 

. 

0 0 · · · P ′ ⎞ 

⎟ 

⎠ 

•mP•m 

e, atendendo a (9.16), conclui-se que a variância da componente principal i é igual a 

P ′ •iP•i 

n 

Por outro lado, atendendo a X = PW ′ , tem-se 

X ′ X 

n =WP′ PW ′ 

n 

= λi. 

= WΛW ′ . 

Em suma, a proporção da variação total de X que é explicada pela i-ésima componente 

principal é λi/ m 

j=1 λi = λi/m. Quanto maior for λi mais peso tem a i-ésima componente 

principal na explicação da variação total de X. As componentes principais cujos valores 

próprios são muitos baixos podem ser descartados. Na prática procede-se assim: 

• ordenam-se os valores próprios por ordem descendente , i.e. λ1 > λ2 > ... 

• ordenam-se os vectores próprios de acordo com os valores próprios ordenados, i.e., a 

primeira coluna de W, W•1, é o vector próprio associado a λ1, a segunda coluna de 

W•2 é o vector próprio associado a λ2, etc. 

Em lugar de se trabalhar com W trabalha-se com uma submatriz de W, seja W ∗ essa 

matriz, constituída pelas primeiras k colunas. Como resultado passa-se a ter apenas as k 

componentes principais mais significativas: 

P ∗ = XW ∗ 

que tem dimensão n × k. Nestas circunstâncias é necessário modelar apenas estas k compo- 

nentes principais. Assim, 

Cov (yt| Ft−1) ≈ ΣW ∗ E P ∗ t (P ∗ t ) ′ 

∗ ′ 

Ft−1 (W ) Σ 

367

e 

E P ∗ t (P ∗ t ) ′ ⎛ 

⎜ 

E (P 

⎜ 

⎜ 

Ft−1 = ⎜ 

⎝ 

2 1t| Ft−1) 

0 

0 

E (P 

· · · 0 

2 . 

2t| Ft−1) 

. 

· · · 

. .. 

0 

. 

0 0 · · · E (P 2 

tk | Ft−1) 

(P ∗ t é a linha t da matriz P ∗ ). 

Passos: 

1. Estandardizar Y e obter X. Estimar 

2. Calcular ˆV = X ′ X/n. 

⎛ 

⎞ 

σ1 

⎜ 0 

Σ = ⎜ . 

⎝ 

0 

σ2 

. 

· · · 

· · · 

. .. 

0 

0 

. 

⎟ , 

⎟ 

⎠ 

σi = 

0 0 · · · σm 

Var (yit) 

3. Calcular os valores próprios e vector próprios de ˆV (ordenam-se os valores próprios 

por ordem descendente , i.e. λ1 > λ2 > ...e ordenam-se os vectores próprios de acordo 

com os valores próprios ordenados). 

4. A partir do passo 3 obter W ∗ e P ∗ = XW ∗ . 

5. Modelar separadamente coluna de P ∗ através de um GARCH. 

6. Para cada t considerar 

9.10 Testes de Diagnóstico 

Cov (yt| Ft−1) ≈ ΣW ∗ E P ∗ t (P ∗ t ) ′ 

∗ ′ 

Ft−1 (W ) Σ. 

Nos vários modelos, a hipótese de partida é ut| Ft−1 ∼ N (0, H t) ou, de forma equiva- 

lente, ut = H 1/2 

t εt onde εt ∼ N (0, I m) . Se o modelo estiver correctamente especificado, 

{εt} deve ser uma sucessão de vectores i.i.d., com matriz de variâncias-covariâcias (con- 

temporânea) dada por Im. Naturalmente que εt é desconhecido, mas pode ser estimado da 

368 

⎞ 

⎟ . 

⎟ 

⎠

seguinte forma 

ˆεt = ˆH −1/2 

t ût. 

ˆεt é o vector dos resíduos estandardizados (e ût é o vector dos resíduos). A matriz ˆH −1/2 

t 

pode obter-se a partir da decomposição Cholesky, seguindo os seguintes passos. 1) Dado 

ˆHt, obter uma matriz triangular ˆH 1/2 

t , usando a decomposição de Cholesky, i.e., obter uma 

matriz ˆH 1/2 

t tal que ˆHt = ˆH 1/2 

 

ˆH t 

1/2 

′ 

t ; 2) Inverter ˆH 1/2 

t . Por exemplo, considere-se um 

sistema de duas equações (m = 2) 

Ht = 

⎡ 

⎣ σ2 1t 

σ12,t 

σ12,t σ 2 2t 

A decomposição de Cholesky fornece 

H 1/2 

t 

(verifique que o produto H 1/2 

 

t 

H −1/2 

t 

= 

H 1/2 

t 

⎡ 

⎤ 

⎡ 

σ 2 1t 

⎦ = ⎣ 

ρtσ1tσ2t ⎣ σ1t 0 

 

2 ρtσ2t σ2t 1 − ρt ′ 

⎡ 

= ⎣ 

− 

é Ht). Assim, 

1 

σ1t 

ρ √t σ1t 1−ρ2 t 

0 

ρ tσ1tσ2t 

⎤ 

√1 σ2t 1−ρ2 t 

 

(Deixa-se como exercício mostrar que E (εt) = 0 e Var (εt) = Var 

forma (continuando o exemplo) a expressão ˆεt = ˆH −1/2 

t ût vale 

⎡ 

⎣ ˆε1t 

ˆε2t 

⎤ 

⎡ 

⎦ = ⎣ 

− 

1 

ˆσ1t 

ˆρ √t 2 

ˆσ1t 1−ˆρ t 

0 

√1 ˆσ2t 1−ρ2 t 

⎤ ⎡ 

⎦ 

⎣ û1t 

û2t 

⎤ 

⎡ 

⎦ = ⎣ 

⎦ . 

σ 2 2t 

⎤ 

⎦ . 

û2t √ 

2 


⎤ 

⎦ . 

H −1/2 

t ut 

û1t 

ˆσ1t 

− û1tˆρ √ t 

2 


 

= In). Desta 

Vários testes podem ser invocados. Para avaliar se os efeitos de heterocedasticidades 

estão convenientemente modelados, Engle (2002) sugere o seguinte procedimento. Primeiro 

passo: regressão de ˆε 2 

1t sobre as seguintes variáveis (para além de um termo constante): 

• resíduos quadráticos ˆε 2 

i,t−k, com i = 1, ..., m e k = 1, ..., L (L desfasamentos) e 

• termos cruzados ˆεi,t−kˆεj,t−k, com i, j = 1, ..., m e k = 1, ..., L. 

369 

⎤ 

⎦ .

Por exemplo no caso m = 2 e L = 1, a regressão envolveria as seguintes variáveis: 

2 

1, ˆε 1t−1, ˆε 2 

 

2t−1, ˆε1,t−1ˆε2,t−1 . 

Segundo passo: teste F de nulidade de todos os parâmetros com excepção do do termo in- 

dependente. Se existir evidência estatística contra a hipótese nula, podemos suspeitar que 

a matriz Ht não foi convenientemente modelada. Nos passos seguintes repete-se o proced- 

imento, tomando sucessivamente ˆε 2 

i,t i = 2, ..., m como variável dependente na regressão 

auxiliar. 

Naturalmente é conveniente verificar também se ˆεt é um ruído branco. O procedimento 

anterior pode ser repetido substituindo os resíduos estandardizados ao quadrado simples- 

mente pelos resíduos estandardizados e eliminando os termos cruzados. 

370

Capítulo 10 

Regressão Não Paramétrica 


*** 

(Última actualização: 1/2010. Preliminar e incompleto) 

10.2 Estimação Não Paramétrica da Função Densidade de 

Probabilidade 


Suponha-se que X é uma v.a. discreta. A estimação da função de probabilidade, f (x) , é 

imediata: ˆ f (x) pode ser estimado como a proporção de valores na amostra {x1, x2, ..., n} 

que são iguais a x, i.e., 

ˆf (x) = 1 

n 

n 

t=1 

I{xi:xi=x}. 

Se X é uma variável contínua, a probabilidade do evento {xt = x} é zero e, desta forma, a 

estimação da fdp f (x) deve envolver a proporção de valores xt que se encontram perto de 

x, digamos numa vizinhança x ± h/2 (h dá a largura do intervalo). 

Se tomarmos 

1 

n 

n 

t=1 

I xt−x {xt:| h |< 1 

1 

= 

2} n 

n 

I 1 

{xt:− 2 

t=1 

< xt−x 1 

< h 2} 

temos simplesmente a proporção de observações na amostra que se encontram no intervalo 

371

(x − h, x + h) . Esta proporção deve ser dividia por h : 

ˆf (x) = 1 1 

h n 

n 

t=1 

I xt−x {xt:| h |< 1 . (10.1) 

2} 

Tem-se assim que ˆ f (x) representa a proporção de observações por unidade relativa de fre- 

quencia. Naturalmente, podemos fazer variar h. Um valor maior implica um maior alisa- 

mento da estimativa (mais observações são consideradas), diminuindo a variabilidade de ˆ f. 

Todavia, valores muitos altos de h podem distorcer a estimativa de f (x), na medida em que 

podem entrar observações muito afastadas de x, não traduzindo, portanto, o comportamento 

local de f no ponto x. 

X é 

Pode-se mostrar que 

∞ 

−∞ 

ˆf (x) dx = 1. 

Apresenta-se a seguir a derivação formal de ˆ f. Por definição, a função de distribuição de 

A respectiva fdp é 

ou, equivalentemente, 

P (X ≤ x) = F (x) = 

x 

−∞ 

f (u) du 

f (x) = F ′ F (x + h) − F (x) 

(x) = lim 

h→0 h 

F (x + h/2) − F (x − h/2) 

f (x) = lim 

h→0 

h 

= lim 

h→0 

= lim 

h→0 

P (x − h/2 < X < x + h/2) 

h 

P 

X−x 1 < h 2 

h 

Dada esta definição de f (x) , é imediato concluir que uma estimativa da última expressão é 

1 n 

n t=1 I {xt:| xt−x h |< 1 

2} 

h 

que é exactamente a expressão obtida em (10.1). Esta estimativa pode também ser escrita da 

seguinte forma 

ˆf (x) = 1 

nh 

n 

 

xt − x 

K 

h 

t=1 

372

onde 

K (u) = 1 

2 I{u:|u|

Note-se que O (h 4 ) representa um termo de ordem h 4 ou inferior. Por outras palavras, 

O (h 4 ) é proporcional ou menos do que proporcional a h 4 , podendo ser, por exemplo, 2h 4 . 

Obviamente limh→0 O (h 4 ) = 0 e limh→0 O (h 4 ) /h 4 é uma constante. 

Proposição 10.2.2 Tem-se ˆ f (x) 

p 

−→ f (x) . 

A demonstração é obvia tendo em conta a proposição 10.2.1: 

lim 

n→∞ E 

 

ˆf (x) 

lim 

n→∞ Var 

 

ˆf (x) 

= f (x) 

= 0, 

pois n → ∞ arrasta h → 0 e nh → ∞. A hipótese A4 é crucial. Nestas condições, o 

estimador ˆ f (x) é consistente (em probabilidade). 

√nh 

Proposição 10.2.3 Tem-seVar f ˆ(x) → f (x) K2 (u) du 

Proposição 10.2.4 Sob as hipóteses A1-A4 e K (u) 2+δ du < ∞ tem-se 

√ 

nh ˆf (x) − E ˆf d 

(x) −→ N 0, f (x) 

K 2 

(u) du 

Proposição 10.2.5 Sob as hipóteses da proposição anterior e A5 tem-se 

10.2.3 Escolha de h 

√ 

nh ˆf d 

(x) − f (x) −→ N 0, f (x) 

K 2 

(u) du 

Na prática como escolher K e h? A escolha do kernel é, geralmente, pouco relevante, já 

que os resultados finais dependem pouco da escolha do kernel. Muito mais relevante é a 

escolha de h. Sabemos que h deve depender de n, tendo em conta as hipóteses A4 e A5. Se 

definirmos h = γn α , sendo α e γ parâmetros a determinar, sabe-se que α tem de ser menor 

do que zero tendo em conta que h → 0. Por outro lado, como nh = γn 1+α → ∞, α deve 

respeitar a relação 1 + α > 0. Dada a hipótese A5 

√ nh 5/2 = n 1/2 γ (n α ) 5/2 = γn 1/2 n 5α/2 = γn (1+5α)/2 → 0 

deverá ter-se (1 + 5α) < 0. Coligindo todas as desigualdades obtém-se −1 < α < −1/5. É 

preciso todavia encontrar um valor para α e γ. Para o efeito, é necessário usar um critério de 

374

selecção. Existem vários propostos na literatura, mas focaremos apenas o Mean Integrated 

Squared Error: 

MISE (h) = E 

 

2 

ˆf (x) − f (x) dx . 

 

Em princípio, poderíamos escolher h a partir do critério mais simples E ˆf 2 

(x) − f (x) 

; 

mas existe um inconveniente: queremos que ˆ f (x) seja uma boa estimativa para todos os 

valores de x que a variável X pode assumir, e não apenas para um x particular. Por isso 

integramos o erro quadrático no domínio ou espaço de estados de X. 

Fazendo a troca do operador de valor esperado com o do integral, considerando os valores 

 

aproximados de E ˆf (x) e Var ˆf (x) e notando que 

 

E ˆf 2 

(x) − f (x) 2 Var ˆf (x) + f (x) − E ˆf (x) 

tem-se 

MISE (h) = 

= 

 

f (x) K 2 (u) du 

K 2 (u) du 

nh 

Resolvendo o problema de optimização 

nh 

+ h4 σ 4 K 

4 

 

2 K (u) du 

min 

+ 

h nh 

h4σ4 

K 

4 

 

= f (x) K2 (u) du 

+ 

nh 

h4 (f ′′ (x)) 2 σ4 K 

4 

+ h4 (f ′′ (x)) 2 σ 4 K 

4 

(f ′′ (x)) 2 dx. 

(f ′′ (x)) 2 

dx 

obtém-se o valor óptimo de h (de acordo com o critério MISE): 

hopt = 

 

2 K (u) du 

 

(f ′′ 2 

(x)) dx 

σ 4 K 

1/5 

n −1/5 . 

Usando o kernel Gaussiano, tem-se K 2 (u) du 0.282 e σ 4 K = 1. O valor de hopt depende 

ainda de f ′′ (x) que é desconhecido. Este valor pode ser estimado não parametricamente. 

Uma alternativa mais simples consiste em assumir que f (x) ∼ N (µ, σ 2 ) (vários estudos 

indicam que esta escolha é relativamente robusta desde que a verdadeira densidade não seja 

bimodal ou excessivamente assimétrica). Com estas simplificações obtém-se 

ˆhopt = 1.06ˆσn −1/5 

375 

 

dx

(ˆσ desvio padrão estimado de xt). 

Exemplo 10.2.1 Dow Jones*** retornos 

10.2.4 Estimação localmente linear da Média Condicional 

Vamos considerar como modelo base 

yt = µ (xt) + ut 

ut = σ 2 (xt) εt 

onde εt é um ruído branco e tal que E (εt| xt) = 0, µ (xt) é a média condicional e σ 2 (xt) 

é a variância condicional. Os momentos condicionais dependem apenas de xt (é natural- 

mente possível generalizar). Para simplificar admitiremos que xt = yt−1 (mas é possível 

generalizar). O problema de estimação é o dos momentos condicionais µ (x) e σ 2 (x) . À 

semelhança da estimação de f (x) , a estimação de µ (x) (e σ 2 (x)) faz-se localmente, i.e., 

estima-se µ (x) separadamente para cada x. Por exemplo, seleccionando x = 1 estimamos 

µ (1) = E (yt| xt = 1) 

e repete-se o procedimentos para outros pontos x e assim obtemos uma ideia do comporta- 

mento de µ (x) . 

Na análise da estimação local da média condicional, o ponto de partida é a fórmula de 

376

Taylor de µ (xt) numa vizinhança de x : 

∂µ (x) 

µ (xt) = µ (x) + 

∂x ′ (xt − x) + ∂2 µ (x∗ ) 

∂x2 (xt − x) 2 

onde x ∗ é um valor entre xt e x. Desta forma yt pode ser representado pela expressão 

∂µ (x) 

yt = µ (x) + 

∂x ′ (xt − x) + ∂2 µ (x∗ ) 

∂x2 Se o modelo é linear, por exemplo, um AR(1), vem 

∂µ (x) 

yt = µ (x) + 

∂x ′ (xt − x) + ∂2 µ (x∗ ) 

∂x2 = c + φx + φ (xt − x1) + 0 + ut 

= c + φxt + ut. 

2 

(xt − x) 2 

+ ut. 

2 

(xt − x) 2 

Se µ (x) é não linear o erro de aproximação é não nulo e aumenta quando xt se afasta de 

x. Desta forma, obtém-se uma boa aproximação de µ (x) se usarmos apenas as observações 

que se encontram “perto” de x. Em alternativa, pode-se usar todas as observações mas damos 

mais peso às observações que se encontram “perto” de x. 

Trade-off na estimação de µ (x) : 

2 

+ ut 

• não considerar todas as observações ou não dar peso significativo a parte das obser- 

vações acarreta um custo: aumento da variância do estimador. 

• considerar demasiadas observações, diminui a variância do estimador mas aumenta o 

erro de aproximação R i.e. aumenta o enviesamento do estimador. 

O peso a dar às observações é controlado pelo kernel K (u) . Seja x ∈ R. Como atribuir 

mais ou menos peso às observações xt? 

1 

h K 

 

xt − x 

= 

h 

1 

 

1 

√ exp − 

0.1 2π 1 

 

2 

u − 1 

2 .01 

h : bandwidth ou parâmetro de alisamento. 

Aproximação de ordem zero (estimador de Nadaraya-Watson): 

Considera-se a aproximação yt = c + vt onde vt = ∂µ(x) 

∂x ′ (xt − x) + R (xt, x) + ut e 

c = µ (x) . O objectivo é estimar c dando mais peso às observações próximas de x. Tem-se 

377

2.0 

1.5 

1.0 

0.5 

4 3 2 1 0 1 2 3 4 

Figura 10-1: 1 

√1 exp 

0.2 2π 

2.0 

1.5 

1.0 

0.5 

 

− 1 

2 

 

u−1 2 

0.2 

4 3 2 1 0 1 2 3 4 

Figura 10-2: 1 

√1 exp 

1 2π 

378 

 

− 1 

2 

 

u−1 2 

1

assim, 

ˆµ NW (x, h) = ĉ = arg min 

c 

wt = 1 

hK 

xt−x . Resolvendo obtém-se 

h 

Aproximação linear: 

Considera-se a aproximação 

ĉ = 

n n yt = µ (x) + 

t=2 K xt−x 

h 

n 

t=2 

t=2 K xt−x 

h 

yt 

(yt − c) 2 wt 

. 

∂µ (x) 

∂x ′ (xt − x) + et 

= c + c1 (xt − x) + et 

onde et = R (xt, x) + ut. O objectivo é estimar c dando mais peso às observações próximas 

de x. Tem-se assim 

ˆµ (x, h) = ĉ 

e ĉ obtém-se a partir do problema de optimização 

Notando que 

{ĉ, ĉ1} = arg min 

{c,c1} 

= 

= 

n 

t=im+1 

n 

t=im+1 

n 

t=im+1 

n 

(yt − c − c1 (xt − x)) 2 wt 

t=2 

(yt − c − c1 (xt − x)) 2 wt 

 

(yt − c − c1 (xt − x)) w 1/2 

2 t 

 

ytw 1/2 

t − cw 1/2 

t 

− c1w 1/2 

2 t (xt − x) , 

o problema de optimização pode ser encarado como um problema de estimação OLS relati- 

vamente à seguinte especificação: 

ytw 1/2 

t 

= cw 1/2 

t 

+ c1w 1/2 

t (xt − x) + errot 

onde c é o parâmetro de interesse (c = µ (x)). Fixado o valor de h e dado o valor de x é 

379

imediata a construção das variáveis 

ytw 1/2 

t , w 1/2 

t 

(xt1 − x1) , etc. 

O problema de optimização pode também ser encarado como um problema de estimação 

GLS relativamente à especificação 

yt = c + c1 (xt − x) + errot 

assumindo-se uma pseudo heterocedasticidade da forma Var (yt| xt) = 1/wt. O estimador 

GLS corresponde ao estimador OLS aplicado sobre as variáveis transformadas. Tem-se: 

onde 

⎡ 

⎣ ĉ 

ĉ1 

Z (x) = 

y = 

⎤ 

⎦ = (Z ′ (x) W (x, h) Z (x)) −1 Z ′ (x) W (x, h) y 

⎡ ⎤ 

1 

⎢ . 

⎣ 

x2 − x 

⎥ 

. ⎥ 

⎦ 

1 

⎡ 

xn − x 

⎤ 

⎢ 

⎣ 

y2 

. 

yn 

⎥ 

⎦ 

e a estimativa de interesse ĉ é dada por 

 

ĉ = 1 0 

W (x, h) = diag {w2, ..., wn} 

 

(Z ′ (x) W (x, h) Z (x)) −1 Z ′ (x) W (x, h) y. 

O estimador de Nadaraya-Watson é um caso particular: 

e Z (x) = Z = 11×(n−2). 

ĉ = (Z ′ (x) W (x, h) Z (x)) −1 Z ′ (x) W (x, h) y 

Podíamos estar interessados em E (∆yt| xt = x) e não em E (yt| xt = x) . Nesse caso 

tudo se mantém com a seguinte excepção: em lugar de yt deve-se considerar ∆yt, por exem- 

380

plo, 

Propriedades 

 

E (∆yt| xt 

= x) = 

1 0 

 

(Z ′ (x) W (x, h) Z (x)) −1 Z ′ (x) W (x, h) ∆y 

Vamos considerar primeiro o caso em que xt é i.i.d., por ser mais fácil tratar. 

B1 xt é i.i.d. e E (ut| xt) = 0, Var (ut| xt) = σ 2 (xt) 

B2 As funções m ′′ (x) e f ′′ (x) são contínuas e limitada numa vizinhança de x. 

B3 (nh) 1/2 h 2 → 0 quando n → ∞, 

Sob as hipóteses A1-A4 e B1 e B2, tem-se 

Proposição 10.2.6 

E (ˆµ NW (x)) = µ (x) + h2 

Var (ˆµ NW (x)) = 1 

nh 



2f (x) (µ′′ (x) f (x) + 2f ′ (x) µ ′ (x)) σ 2 K + o h 2 

σ2 

(x) 

K 

f (x) 

2 

1 

(u) du + o 

nh 

E (ˆµ (x)) = µ (x) + h2 

2 µ′′ (x) σ 2 K + o h 2 

 

1 

. 

nh 

Var (ˆµ (x)) = σ2 (x) 

nhf (x) σ2 K + o 

ˆµ NW (x) 

ˆµ (x) 

p 

−→ µ (x) 

p 

−→ µ (x) 

 

Proposição 10.2.9 Sob as hipóteses anteriores e E |u| 2+δ 

< ∞ e K (u) 2+δ du < ∞ 

√ nh (ˆµNW (x) − E (ˆµ NW (x))) 

 

d 

−→ N 0, σ2 (x) K2 

(u) du 

f (x) 

381

Proposição 10.2.10 Sob as hipóteses anteriores e B3 tem-se 

 

√ d 

nh (ˆµNW (x) − µ NW (x)) −→ N 0, σ2 (x) K2 

(u) du 

f (x) 

 

√ d 

nh (ˆµ (x) − µ (x)) −→ N 0, σ2 (x) K2 

(u) du 

f (x) 

O caso em que xt envolve valores desfasados de yt é mais difícil de tratar. De todo o 

modo é possível provar que se yt é um processo EE e fracamente dependente, os resultados 

anteriores mantêm-se. 

10.2.5 Estimação localmente linear da Variância Condicional 

10.A Demonstrações 


Tem-se 

 

E ˆf (x) 

= 

 

n 

 

1 xt − x 

E K 

nh h 

t=1 

 

= 

 

1 

E 

h K 

= 

 

xt − x 

(devido a A1) 

h 

 

1 

h K 

= 

 

ξ − x 

f (ξ) dξ 

h 

 

1 

ξ − x 

K (u) f (uh + x) hdu (mudança de variável = u) 

h h 

 

= K (u) f (uh + x) du 

= 

 

K (u) f (x) + huf ′ (x) + h2u2 2 f ′′ = 

 

 

(x) + ... du (invocando a fórmula de Taylor) 

 

K (u) f (x) du + K (u) huf ′ 

(x) du + K (u) h2u2 2 f ′′ (x) du + ... 

 

K (u) u 2 du + ... 

= f (x) + h2 f ′′ (x) 

2 

= f (x) + h2 f ′′ (x) σ 2 K 

2 

+ O h 4 

A última equação decorre de A2. Note-se que todos os termos do tipo K (u) u k du são zero 

quando k é ímpar. O termo O (h 4 ) inclui todos os restantes termos são de ordem igual ou 

inferior a h 4 no seguinte sentido limh→0 O (h 4 ) /h 4 = constante. 

382


 

Var ˆf (x) 

 

n 

 

1 xt − x 

= Var K 

nh h 

t=1 

 

= 1 

 

n 

 

1 xt − x 

Var K 

n2 h h 

 

t=1 

= 1 

n2 Var (w1 + w2 + ... + wn) (com wt = h −1 K ((xt − x) /h) 

= 1 

n2 n 

Var (wt) + 

t=1 

2 

n2 

Cov (wi, wj) 

= 1 

n Var (wt) + 2 n−1 

 

1 − 

n 

t 

 

Cov (w1, wt+1) (devido a A1). 

n 

t=1 

Analise-se separadamente cada um destes termos. 

 

1 

Var (wt) = Var 

h K 

 

xt − x 

h 

= 1 

 

xt − x 

Var K 

h2 h 

= 1 

h2 

E K 2 

 

2 

xt − x 

xt − x 

− E K 

h 

h 

= 1 

h2 K 2 

 

2 

ξ − x 

ξ − x 

f (ξ) dξ − K f (ξ) dξ 

h 

h 

= 1 

h2 K 2 

 

2 

(u) f (hu + x) hdu − K (u) f (hu + x) hdu 

= 1 

h 2 

 

K 2 

(u) f (x) + huf ′ (x) + h2u2 2 f ′′ 

(x) + ... 

hdu 

− 1 

h2 

K (u) f (x) + huf ′ (x) + h2u2 2 f ′′ = 

2 (x) + ... hdu 

1 

 

K 

h 

2 

(u) f (x) du + K 2 (u) uf ′ (x) du + ... 

 

 

− K (u) f (x) du + K (u) huf ′ 2 (x) du + ... 

= f (x) 

 

h 

K 2 (u) du + O (1) 

(note-se que o termo de ordem O (1) definido na última equação inclui todos os demais 

termos não presentes na equação e que são relativamente pequenos em comparação com 

f (x) h−1 K2 (u) du quando n é grande e h é pequeno). 

Analise-se 2 n−1 

t 

n t=1 1 − Cov (w1, wt+1). Notando que Cov (w1, wt+1) = ρ n 

t Var (w1) , 

383

devido a A1, tem-se 

2 n−1 

n 

t=1 

 

1 − t 

 

|Cov (w1, wt+1)| = 

n 

2 n−1 

n 

Desta forma, 

 

Var ˆf (x) 

= 2 Var (w1) 

≤ 

= 1 

n Var (wt) + 2 

n 

= f (x) 

nh 

 

t=1 

 

1 − t 

 

|ρ 

n 

t| Var (w1) 

n−1 

 

1 − 

n 

t=1 

t 

 

|ρ 

n 

t| 

 

Var (w1) n−1 

 

2 1 − 

n 

t 

 

C2e 

n 

−α2t 

 

t=1 

= Var (w1) 

O (1) 

n 

1 

= O (pois Var (w1) = O 

nh 

n−1 

t=1 

K 2 (u) du + O 



Seja πn = 

 

1 − t 

n 

 

1 

). 

h 

(devido a A1) 

 

Cov (w1, wt+1) (devido a A1). 

 

1 

. 

nh 

√ 

n−1 

 

Var nhf ˆ(x) = h Var (wt) + 2h 1 − t 

 

Cov (w1, wt+1) 

n 

t=1 

 

√h 1 onde [x] designa aqui a parte inteira de x. Tem-se 

n−1 

 

2h 1 − 

t=1 

t 

 

πn 

 

Cov (w1, wt+1) = 2h 1 − 

n 

t=1 

t 

 


n 

 

Para 1 ≤ t ≤ πn tem-se 

J1,n 

n−1 

 

+2h 1 − 

t=πn+1 

t 

 


n 

 

384 

J2,n

|Cov (w1, wt+1)| ≤ E |w1wt+1| 

 

 

= E 

K 

x1 − x 1 

h h K 

 

xt+1 − x 

h 

= 1 

h2 

 

x1 

− x xt+1 − x 

K K 

h 

h 

 

 

 

 

= 

K (u) K (u + v) f1,t+1 (x, x) dudv + O (h) 

 

Assim 

t=1 

= O (1) . 

f1,t+1 (xt, xt+1) dxtdxt+1 

πn 

 

h 

√ 

J1,n ≤ h Cov (w1, wt+1) = hO (πn) = O (hπn) = O √h = O h = o (1) . 

Para t > πn considera-se o seguinte argumento: 

Assim, 

pois n−1 

t=πn+1 

Cov (w1, wt+1) ≤ ρ t Var (w1) 

J2,n = 2h 

≤ 2 

= 2 

→ 0 

n−1 

t=πn+1 

n−1 

t=πn+1 

 

f (x) 

 

f (x) 

= ρt K 

h 

2 

(u) du + O (1) 

= ρ 

t 

f (x) K 

h 

2 

(u) du + O (h) . 

 

1 − t 

 

1 − t 

n 

n 

 


 

ρ t 

 

f (x) 

K 2 (u) du + O (h) 

K 2 

(u) du + O (h) 

n−1 

 

t=πn+1 

 

1 − t 

 

ρt n 

 

t 1 − ρt ≤ n 

n−1 t=πn+1 ρt → 0 quando n → ∞ e πn → ∞. 




385

Seja ψt = xt−x. 

Tem-se 

h 


ˆµ NW (x) = 

= 

= 

= 

yt = µ (x) + µ ′ (x) (xt − x) + µ ′′ (x ∗ ) (xt − x) 2 

+ ut 

= µ (x) + hµ ′ (x) ψ t + µ ′′ (x ∗ ) h2 ψ 2 

t 

2 

2 

+ ut. 

n t=2 K (ψt) yt 

n t=2 K (ψ 

t) 

n 

t=2 K (ψt) yt 

n t=2 K (ψt) (nh) −1 n t=2 K (ψ 

t) µ (x) + hµ ′ (x) ψt + µ ′′ (x∗ ) h2ψ2 t 

2 

(nh) −1 n t=2 K (ψt) (nh) −1 n t=2 K (ψ 

t) µ (x) + hµ ′ (x) ψt + µ ′′ (x∗ ) h2ψ2 t 

2 

ˆf (x) 

+ ut 

+ ut 

= (nh)−1 n t=2 K (ψt) µ (x) + (nh) −1 n t=2 K (ψt) hµ ′ (x) ψt + 

ˆf (x) 

+ (nh)−1 n t=2 K (ψt) µ ′′ (x∗ ) h2ψ2 t 

2 + (nh)−1 n t=2 K (ψt) ut 

ˆf (x) 

= µ (x) + µ′ (x) 1 

ˆf (x) n 

n 

t=2 

K (ψ t) ψ t + hµ′′ (x ∗ ) 

2 ˆ f (x) 

Considerem-se os dois primeiros momentos condicionais: 

E ( ˆµ NW (x)| x1, ..., xn) = µ (x) + µ′ (x) 1 

ˆf (x) n 

n 

t=2 

386 

1 

n 

n 

t=2 

K (ψ t) ψ t + hµ′′ (x ∗ ) 

2 ˆ f (x) 

 

 

K (ψt) ψ 2 

t + 1 

ˆf (x) 

1 

n 

n 

t=2 

1 

nh 

n 

K (ψt) ut. 

t=2 

K (ψ t) ψ 2 

t .

Pela teorema do valor esperado iterado, vem 

E (ˆµ NW (x)) = E (E ( ˆµ NW (x)| x1, ..., xn)) 


 

= E µ (x) + µ′ n (x) 1 

K (ψ 

ˆf (x) n 

t) ψt + 

t=2 

hµ′′ (x∗ ) 

2 ˆ n 1 

K (ψ 

f (x) n 

t) ψ 

t=2 

2 

 

t 

= µ (x) + µ ′ 

K (u) u 

(x) E 

+ 

ˆf (x) 

hµ′′ (x∗ 

) K (u) u 

E 

2 

2 

 

ˆf (x) 

= µ (x) + µ ′ 2 2 h σKf (x) 

′ (x) 

+ o 

f (x) 

h 2 

+ µ′′ (x∗ 2 2 ) h σKf (x) 

2 f (x) + o h 2 

= µ (x) + h2 σ 2 K 

2f (x) (µ′′ (x ∗ ) f (x) + 2f ′ (x) µ ′ (x)) + o h 2 

= µ (x) + h2 σ 2 K 

2f (x) (µ′′ (x) f (x) + 2f ′ (x) µ ′ (x)) + o h 2 . 

Var ( ˆµ NW (x)| x1, ..., xn) = 1 

ˆf 2 (x) 

1 

n 2 h 2 

n 

t=2 

K 2 (ψ t) σ 2 (xt) . 

Dado que o segundo termo da expressão Var (ˆµ NW (x)) = E (Var ( ˆµ NW (x)| x1, ..., xn)) + 

Var (E ( ˆµ NW (x)| x1, ..., xn)) é zero, vem 

E 

 

1 

h K (ψt) σ 2 

(xt) 

Var (ˆµ NW (x)) = E (Var ( ˆµ NW (x)| x1, ..., xn)) 

= 1 

nh E 

 

1 

ˆf 2 1 

(x) nh 

= 1 

nh E 

 

1 

ˆf 2 1 

(x) nh 

= 1 

nh E 

 

1 

ˆf 2 1 

(x) 

n 

t=2 

n 

t=2 

K 2 (ψ t) σ 2 (xt) 

K 2 (ψ t) σ 2 (xt) 

h K2 (ψ t) σ 2 (xt) 

= 1 

 

K 

h 

2 

 

ξ − x 

σ 

h 

2 = 

 

(ξ) f (ξ) dξ = 

 

K 2 (u) σ 2 (x) f (x) + o (h) du 

= σ 2 

(x) f (x) K 2 (u) du + o (h) . 

387 

 

 

 

K 2 (u) σ 2 (x + uh) f (x + uh) du

Desta forma, 

Var (ˆµ NW (x)) = 1 

nh E 

 

1 

ˆf 2 1 

(x) h K2 (ψt) σ 2 

= 

(xt) 

1 σ 

nh 

2 

(x) 

K 

f (x) 

2 

1 

(u) du + o . 

nh 




388

Parte III 

Aplicações 

389


390

Capítulo 11 

Eficiência do Mercado de Capitais 

(Última actualização: Maio/2010) 

11.1 Introdução e Definições 

O mercado de capitais diz-se eficiente se os preços dos produtos financeiros reflectirem toda 

a informação disponível. Quando é libertada uma informação relevante (por exemplo, um 

anúncio de distribuição de dividendos de valor superior ao esperado, um anúncio de fusões 

ou aquisições, etc.) num mercado eficiente os agentes reagem imediatamente comprando ou 

vendendo de acordo com a informação e os preços ajustam-se imediatamente. 

Num mercado eficiente, supõe-se que os agentes interpretam correctamente a infor- 

mação. Caso contrário o preço pode não se ajustar rapidamente e abrem-se oportunidades 

para a realização de rendibilidades anormais. Por exemplo, um investidor que compre ime- 

diatamente acções após a divulgação de uma “boa notícia” pode obter um retorno anormal 

se o preço de mercado se ajustar lentamente à informação disponível. Com efeito, bastará ao 

investidor vender as acções depois do preço se ajustar a um nível mais alto. 

É difícil imaginar um mercado completamente eficiente em todos os períodos de tempo. 

Pode suceder que em certos momentos e face a determinadas notícias o mercado apresente 

ineficiências que podem ser exploradas. Faz também sentido admitir que existem mercados 

mais eficientes do que outros (mercados emergentes tendem a ser menos eficientes). 

A eficiência dos mercados está intimamente relacionada com a informação disponível. 

Fama (1970) propôs três formas de eficiência consoante a natureza da informação disponível: 

• um mercado é eficiente na forma fraca se os preços dos títulos reflectirem toda a infor- 

mação sobre os preços passados; como consequência, as cotações passadas não podem 

391

ser utilizadas para obter rentabilidades anormais; 

• um mercado é eficiente na forma semi-forte se os preços dos títulos reflectirem toda 

a informação disponível ao público; a “informação disponível ao público” inclui os 

preços passados, situação económica e financeira da empresa e, em geral, toda a infor- 

mação não confidencial que o público em geral pode aceder; 

• um mercado é eficiente na forma forte se os preços dos títulos reflectirem toda a in- 

formação disponível, pública e privada; a informação privada é conhecida apenas dos 

gestores da empresa. 

A hipótese dos mercados eficientes admite que todas as informações relevantes estão 

disponíveis (a baixo custo) e que as cotações reflectem o conjunto dessas informações. Desta 

forma, não é possível com base na informação disponível, obter ganhos persistentes acima 

do “retorno normal”; se o mercado é ineficiente, os preços não traduzem o seu valor “justo” 

ou valor “intrínseco” e é possível obter rendibilidades anormais. 

A questão que normalmente se coloca consiste em saber se é possível obter rendibilidades 

anormais de forma persistente utilizando uma estratégia de investimento. Uma forma para 

analisar esta questão consiste em comparar a rendibilidade que se obtém a partir de uma certa 

estratégia de investimento com a “rendibilidade normal” ou esperada deduzida em função de 

um modelo de equilíbrio como o CAPM ou APT. Outra metodologia baseia-se em saber se 

os retornos são ou não “previsíveis”. Esta análise pode ser conduzida a partir de um modelo 

do tipo 

rt = f (xt−1) + ut 

onde xt−1 é um vector de variáveis cujos valores são conhecidos no momento t−1. Assim, rt 

é previsível se xt−1 explicar rt (por outras palavras, rt é previsível se E (rt| Ft−1) = E (rt)). 

O vector xt−1 pode incluir rt−1 ou fundamental variables como por exemplo, variáveis fi- 

nanceiras (treasury bill rates, bonds returns, dividend yield (dividendo por acção/cotação), 

price-earning ratios (cotação/lucro), etc.) ou variáveis macroeconómicas (produto, inflação, 

etc.). 

11.2 Teste à Eficiência Fraca de Mercado 

Analisa-se se é possível obter rendibilidades anormais de forma persistente utilizando uma 

estratégia de investimento baseada apenas nos preços passados. 

392

Para simplificar admita-se que o retorno normal, E (rt) = µ > 0 é constante. Se o 

mercado é eficiente então é indiferente usar ou não usar a informação disponível Ft−1 para 

prever rt e, desta forma tem-se 

E (rt| Ft−1) = E (rt) . (11.1) 

Note-se que E (rt) representa a previsão de rt não baseada em qualquer informação especí- 

fica, a não ser nas “características gerais do processo”. Pelo contrário, se 

E (rt| Ft−1) = E (rt) 

então, a informação disponível Ft−1 é relevante para prever os retornos futuros. Nestas 

circunstâncias, existe alguma informação sobre a “tendência provável” de rt, e será possível, 

em princípio, obter rentabilidades anormais, usando a informação disponível Ft−1. 

A equação (11.1) pode ser violada de inúmeras formas. Por exemplo, rt pode ser au- 

tocorrelacionado ou rt pode ser uma função não linear de rt−1 (se rt seguir um qualquer 

dos modelos discutidos anteriormente, como por exemplo, o modelo Markov-Switching ou o 

Limiar Autoregressivo, a equação (11.1) é violada). As regras de compra e venda baseadas 

na “análise técnica” baseiam-se também em relações não lineares entre os preços correntes 

e os seus valores passados, ou sejam, supõem que a igualdade (11.1) é violada. 

Certos autores formalizam o modelo de mercado eficiente estabelecendo que o preço ou 

o logaritmo do preço é um passeio aleatório 1 , 

log Pt = log Pt−1 + ut 

sendo {ut} um processo ruído branco ou, em termos mais gerais, uma diferença de martin- 

gala. Esta formalização implica (11.1) e ainda que log Pt é uma martingala, 

E (log Pt| Ft−1) = log Pt−1. 

1 A rigor é um impossibilidade o preço ser um passeio aleatório, 

Pt = Pt−1 + ut 

uma vez que Pt, neste modelo, é não limitado em probabilidade. Isto significa que pode assumir valores 

negativos com probabilidade um quando t tende para ∞. De facto, prova-se que Pt visita os estados −∞ e 

+∞ infinitas vezes quando t → ∞. Como os preços não podem ser negativos, por definição, o preço não pode 

ser um passeio aleatório. 

393

Esta formalização é contra intuitiva pois assume que o valor esperado do retorno é zero 

(E (rt) = 0) e, portanto, que o prémio de risco é negativo. Todavia, se o retorno for con- 

venientemente ajustado ao risco, a propriedade de martingala deve verificar-se (vejam-se as 

referências em Campbell et al., 1997, pág. 31). 

Um modelo mais natural e compatível com (11.1) é o modelo de passeio aleatório com 

deriva (positiva), 

log Pt = c + log Pt−1 + ut, c > 0. 

Considerando rt = log Pt −log Pt−1, o modelo de passeio aleatório com deriva é equivalente 

a rt = c + ut e, portanto, E (rr| Ft−1) = E (rt) = c. 

11.2.1 Testes de Autocorrelação 

Analise-se o exemplo seguinte. 

Exemplo 11.2.1 Suponha-se rt = c + φrt−1 + ut, |φ| < 1, onde ut é um ruído branco. 

Então 

E (rt) = c 

1 − φ , E (rt| Ft−1) = c + φrt−1 

e a equação (11.1) é violada. Note-se também que r é autocorrelacionado. 

Um teste à eficiência fraca dos mercados consiste, por exemplo, em ensaiar H0: ρ 1 = 

... = ρ m = 0 através da estatística 

Q = n (n + 2) 

m 

k=1 

1 

n − k ˆρ2 

k 

d 

−→ χ 2 (m) 

A rejeição de H0 pode sugerir ineficiência de mercado, mas não a implica necessariamente. 

Com efeito, pode suceder que a rejeição de H0 se faça com coeficientes de autocorrelação 

demasiadamente baixos para oferecerem qualquer possibilidade de ganhos anormais, depois 

de deduzidos os custos transacção. Seria necessário investigar se a estrutura de autocorre- 

lação detectada implicaria uma rendibilidade superior a um portfolio de referência. Por outro 

lado, a não rejeição de H0 não implica aceitação da eficiência da forma fraca porque pode 

suceder que E (rt| Ft−1) seja uma função não linear de Ft−1 com fraca dependência linear. 

394

11.2.2 Regras de Compra e Venda e a Análise Técnica 

Uma forma popular entre traders and financial professionals de definir regras de compra e 

venda assenta na chamada “análise técnica”. A análise técnica baseia-se num conjunto de 

indicadores estatísticos gerados pelo mercado, tais como preços e volume, visando estabele- 

cer regras de compra e venda de activos cotados em bolsa 2 . A generalidade dos indicadores 

procura detectar tendências de subida ou descida das cotações. Analisam-se três regras de 

compra e venda (provavelmente as mais utilizadas e conhecidas, mas existem muitas out- 

ras regras) e discutem-se procedimentos econométricos destinados a aferir a qualidade das 

regras. A previsibilidade associada às regras de compra e venda não significa necessaria- 

mente ineficiência de mercado. Para argumentar que um mercado é ineficiente é necessário 

demonstrar que a regra de investimento seleccionada é superior a um porfolio de referência. 

Regra Média Móvel 

Seja 

Mt (k) = Pt + Pt−1 + ... + Pt−k+1 

k 

uma média móvel (MM) de ordem k da variável P, no momento t. A estatística Mt (k) 

fornece uma medida de tendência local de P. Quanto maior for k mais informação atrasada 

a média móvel contém e, também, mais alisada é a tendência. Pelo contrário, se k é baixo, a 

estatística Mt (k) fornece apenas a tendência recente de P. Defina-se assim a MM de curto 

prazo, Mt (c) , onde c é uma valor “baixo” e a MM de longo prazo, Mt (l) onde l é um valor 

“alto”. Tipicamente, para dados diários, c e l são escolhido nos intervalos, 1 ≤ c ≤ 5 e 

50 ≤ l ≤ 250. Do confronto entre a MM de curto e longo prazo argumenta-se que é possível 

projectar uma tendência futura de P. Mais concretamente, se Mt (c) > Mt (l) , os preços 

mais recentes estão mais altos do que os preços mais antigos. Isto sugere que os preços 

seguem uma tendência positiva. A regra prescreve uma compra para o período t + 1. Se as 

duas médias são aproximadamente iguais, a tendência futura sobre os preços não é clara, e 

neste caso não há lugar a compra ou venda. Esta regra pode ser melhorada, estabelecendo um 

sinal de compra ou venda apenas quando a diferença entre Mt (c) e Mt (l) for significativa, 

digamos acima de um certo limiar B (bandwidth). Assim, as regras de compra e venda para 

2 A abordagem fundamental analysis, ao contrário, estabele regras de compra e venda com base em factores 

financeiros e económicos. Por exemplo, analisam-se variáveis financeiras (treasury bill rates, bonds returns, 

dividend yield (dividendo por acção/cotação), price-earning ratios (cotação/lucro), etc.) ou macroeconómicas 

(produto, inflação, etc.). 

395

2380 

2280 

2180 

2080 

1980 

1880 

NASDAQ composite 

1780 

Jan05 Mar05 May05 Jul05 Sep05 Nov05 Jan06 

comprar = 1, vender = 0 

1 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 


P 

MM curta 

MM longa 

Figura 11-1: Regra Média Móvel - Aplicação ao NASDAQ composite Jan-05 a Mar-06 

o dia t + 1, passariam a ser: comprar se Mt (c) > Mt (l) + B; vender se Mt (c) < Mt (l) − B 

e não transaccionar se |Mt (c) − Mt (l)| ≤ B. 

Na figura 11-1 ilustra-se a regra média móvel ao NASDAQ composite (Jan-05 a Mar- 

06). Fixou-se c = 10 e l = 50. Em princípio deveriamos escolher um valor de c entre 1 e 

5; todavia, a escolha c = 10 permite identificar melhor graficamente a média móvel Mt (10) 

(com c ≤ 5 a série Mt (c) praticamente não se distingue, graficamente, de P ). 

Regra Canal 

À semelhança da regra média móvel, também esta regra se baseia numa hipótese sobre a 

evolução futura da tendência dos preços. Antevê-se uma subida ou descida dos preços com 

base na comparação entre o valor actual do preço Pt e o valor mínimo ou máximo atingido 

pelos preços nos últimos L dias. Sejam, 

mt−1 = min (Pt−1, Pt−2, ..., Pt−L) , 

Mt−1 = max (Pt−1, Pt−2, ..., Pt−L) 

respectivamente os valores mínimo e máximo atingidos pelos preços nos últimos L dias. A 

ideia é a seguinte: se no dia t houve uma indicação de compra e Pt é significativamente 

396

t 

t + 1 

Comprar Vender Neutro 

Comprar Pt > (1 + B) mt−1 Pt < (1 − B) mt−1 outros casos 

Vender Pt > (1 + B) Mt−1 Pt < (1 − B) Mt−1 outros casos 

Neutro Pt > (1 + B) Mt−1 Pt < (1 − B) mt−1 outros casos 

Tabela 11.1: Regras de Compra e Venda Baseadas no procedimento Canal 

2380 

2280 

2180 

2080 

1980 

1880 

NASDAQ composite 

1780 


comprar = 1, vender = 0 

1 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 


Figura 11-2: Regra Canal - Aplicação ao NASDAQ composite Jan-05 a Mar-06 

superior a mt−1 então antevê-se uma tendência de crescimento dos preços e a indicação 

deve ser de compra; de igual forma, se no dia t houve uma indicação de venda e Pt é sig- 

nificativamente inferior a Mt−1 então antevê-se uma tendência de queda dos preços e a in- 

dicação deve ser de venda. Diz-se que Pt é “significativamente” superior (inferior) a Mt−1 

se Pt > (1 + B) Mt−1 (respectivamente Pt < (1 + B) Mt−1) e B é um parâmetro positivo 

(bandwidth), calibrado com base na experiência passada. Formalmente, as regras canal de 

compra e venda estão apresentadas na tabela 11.1. 

Na figura 11-2 ilustra-se a regra canal ao NASDAQ composite (Jan-05 a Mar-06). Fixou- 

se L = 50 e B = 0. 

397

Regra Modelo ARMA 

t 

t + 1 

Comprar Vender Neutro 

Comprar 

Vender 

Neutro 

µ t+1,t > 0 

µ t+1,t > B 

µ t+1,t > B 

µ t+1,t < −B 

µ t+1,t < 0 

µ t+1,t < −B 

outros casos 

outros casos 

outros casos 

Tabela 11.2: Regras de Compra e Venda Baseadas num ARMA 

Seja µ t+1,t a previsão do retorno para o momento t + 1 dado Ft, baseado num certo modelo 

ARMA. Na tabela 11.2 definem-se as regras de compra e venda. A posição (1,1) na tabela 

11.2, estabelece o seguinte: se no período t houve uma indicação de compra e µ t+1,t > 0 

então antecipa-se uma tendência de subida dos preços e a indicação é de compra para o 

período t + 1 . A posição (2,1) estabelece o seguinte: se no período t houve uma indicação 

de venda e µ t+1,t > B então a indicação é de compra para o período t+1. O período t+1 é de 

compra apenas se a previsão do retorno for suficientemente alta, digamos, acima de B > 0. 

Se µ t+1,t > 0 mas µ t+1,t 

de compra dado que no período anterior o dia foi de venda e, nestas circunstâncias, o dia é 

considerado neutro, isto é, não há lugar a venda ou compra. As demais células interpretam-se 

de forma similar. 

O parâmetro B pode ser estimado com base na informação passada: selecciona-se o valor 

que maximiza o lucro. 

Medidas de Previsibilidade 

Embora as duas primeiras regras atrás apresentadas envolvam preços, as medidas de pre- 

visibilidade, por exigirem a aplicação do teorema do limite central e a lei dos grandes 

números, são construídas a partir dos retornos, dado que estes são (em princípio) proces- 

sos estacionários. 

Considere-se um certa regra de compra e venda e defina-se, C o conjunto dos índices t 

onde há um sinal de compra para o período seguinte, t+1, e V o conjunto dos índices t onde 

há um sinal de venda para o período seguinte, t + 1. Por exemplo, se nos dias 3, 7 e 9 há 

sinais de compra para os respectivos períodos seguintes, e nos dias 6 e 11 há sinais de venda 

para os períodos seguintes então, C = {3, 7, 9} e V = {6, 11} . Seja nC o cardinal de C, nV 

398

o cardinal de V (no exemplo dado nC = 3 e nV = 2), 

¯rC = 1 

nC 

 

t∈C 

rt+1 

a média empírica dos retornos em que houve um sinal de compra e 

¯rV = 1 

nV 

 

t∈V 

rt+1 

a média empírica dos retornos em que houve um sinal de venda. 

Se a regra de compra e venda é informativa então 

E (rt+1| t ∈ C) = E (rt+1| t ∈ V ) 

i.e., o valor esperado dos retornos depende da informação de compra ou venda e, por isso, os 

dois valores esperados são diferentes. Se, pelo contrário, E (rt+1| t ∈ C) = E (rt+1| t ∈ V ) 

então o comportamento dos retornos no período t + 1 não reflecte a expectativa de subida ou 

descida dos preços, dada pela regra de compra e venda. 

Numa regra informativa devemos esperar E (rt+1| t ∈ C) > E (rt+1| t ∈ V ) , i.e., o sinal 

de compra (venda) está associado a uma expectativa de subida (descida) sustentada dos 

preços. 

Temos várias formas de testar se uma regra de compra e venda é informativa. Uma 

possibilidade consiste em realizar o teste diferença de média. Admitindo que os retornos são 

i.i.d., tem-se que, sob a hipótese nula, H0: E (rt+1| t ∈ C) = E (rt+1| t ∈ V ) a estatística 

tem distribuição assimptótica N (0, 1) . 

z = ¯rC − ¯rV 

 

2 ˆσ C 

nC + ˆσ2 V 

nV 

(11.2) 

Um teste preferível que não exige independência dos retornos e pode acomodar autocor- 

relação e heterocedasticidade dos erros consiste na análise da significância do parâmetro β 1 

na regressão 

rt = β 0 + β 1It−1,C + β 2It−1,N + ut 

(11.3) 

(com erros padrão robustos) onde It,C e It,N são variáveis dummies; It,C assume o valor 1 

quando no período t houve uma indicação de compra e It,N que assume o valor 1 quando no 

399

período t houve uma indicação neutra. O chamado “grupo base” consiste na “indicação de 

venda”. Da equação (11.3) tem-se 

E (rt+1| t ∈ C) = β 0 + β 1, E (rt+1| t ∈ V ) = β 0 

e, portanto, se β 1 = 0 então E (rt+1| t ∈ C) = E (rt+1| t ∈ V ) . Pelo contrário, se β 1 > 0 

então E (rt+1| t ∈ C) > E (rt+1| t ∈ V ) . Deve-se então realizar o ensaio H0 : β 1 = 0 vs. 

H1 : β > 0. 

11.3 Teste à Eficiência Semi-Forte de Mercado 

Analisa-se se é possível obter rendibilidades anormais de forma persistente utilizando uma 

estratégia de investimento baseada nos preços passados e na informação pública disponível. 

Seja It = Ft ∪F X t onde F X t é o conjunto de toda a informação pública disponível, como 

por exemplo, balanços, relatórios da empresa, notícias divulgados pela empresa, etc. Se o 

mercado é eficiente no sentido semi-forte então é indiferente usar ou não usar a informação 

disponível It−1 para prever rt e, desta forma tem-se 

Pelo contrário, se 

E (rt| It−1) = E (rt) 

E (rt| It−1) = E (rt) 

então, a informação disponível It é relevante para prever os retornos futuros. Nestas circun- 

stâncias, existe alguma informação sobre a “tendência provável” de rt, e será possível, em 

princípio, obter rentabilidades anormais, usando a informação disponível It. 

Existem inúmeros procedimentos e conjuntos de informação It usados para testar a efi- 

ciência (semi-forte) de mercado. A literatura tem estudado (entre muitos outros) os seguintes 

tópicos: 

• Efeito do tamanho da empresa. A questão é: apresentarão as empresas pequenas, em 

termos da sua capitalização de mercado, rendibilidades médias superiores às empresas 

grandes, com nível de risco semelhante? 

• Reacção do mercado à chegada de informação. Este tópico é importante na análise da 

eficiência e é analisado em detalhe na secção 11.3.1. 

400

• Valor de mercado versus valor contabilístico. Entende-se que um valor de mercado 

baixo face ao valor contabilístico pode indicar, em certas circunstâncias, que as acções 

estão subavaliadas. 

• Rácio preço/lucro ou price-earnings ratio (P/E). Valores baixos significam que as 

acções da empresa em análise são transaccionados a um preço relativamente baixo 

face ao valor dos lucros e, portanto, a cotação da empresa poderá estar “barata”; 

• Impacto de outras variáveis financeiras como por exemplo, taxas de juro de obrigações 

de tesouro, dividendos por acção (dividend yield), etc. 

• Impacto de variáveis económicas, como por exemplo, produto, inflação, etc. 

• Impacto de outras “anomalias” mercado, como por exemplo, efeito dos dias da semana, 

efeito de fim de semana, fim de ano, etc. (efeitos de calendário - algumas destes tópicos 

foram já abordados na secção 3.1.6). 

Se o objectivo é analisar a eficiência do mercado (e, de certa forma a previsibilidade dos 

retornos) com base na variável x (e.g. taxa de juro) a variável x deverá entrar no modelo de 

regressão com um ou mais desfasamentos. Só assim é possível testar a previsibilidade de r. 

O modelo seria assim do tipo 

rt = c + βxt−1 + ut. 

Pode até suceder que o modelo rt = c + βxt + ut (com xt e não com xt−1) produza um 

ajustamento superior; mas neste caso o modelo não pode testar a previsibilidade de r com 

base em x (note-se de passagem que este último modelo é o CAPM se xt é a rendibilidade 

de mercado). Para se obterem rendibilidades anormais com base num modelo de previsão 

é necessário saber, com alguma antecipação, a tendência futura dos preços (e daí x entrar 

desfasado no modelo). 

11.3.1 Reacção do Mercado à Chegada de Informação 

Se o mercado é totalmente eficiente os activos respondem imediatamente à chegada de in- 

formação relevante ao mercado. A informação relevante poderá ser informação específica 

sobre a empresa, como por exemplo, o anúncio de lucros ou dividendos, o anúncio de fusões 

e aquisições, etc. Poderá também ser o anúncio de medidas de política económica ou outros 

eventos que tenham impacto sobre a rendibilidades dos activos financeiros. 

401

A questão é, portanto, óbvia: trata-se de identificar as informações similares relevantes 

e verificar se na vizinhança da data da divulgação da notícia as rendibilidades apresentaram 

um comportamento “anormal”. 

Para simplificar divida-se o estudo do impacto da chegada da informação sobre as rendibil- 

idades em duas áreas: A) impacto de notícias similares sobre um conjunto de empresas e B) 

impacto de notícias similares sobre uma empresa específica. No caso A) começa-se por 

recolher uma amostra de N empresas que estiveram expostas a anúncios não antecipados e 

observam-se as rendibilidades anormais na vizinhança das datas dos anúncios. A rendibili- 

dade anormal, ra, do activo i no período t é 

rat,i = rt,i − rendibilidade esperada do activo i no momento t. 

sendo rt,i o retorno do activo i no momento t. Como avaliar a rendibilidade esperada do 

activo i no momento t? A abordagem habitual consiste em tomar um modelo de equilíbrio 

como o CAPM ou a APT. Tomando o CAPM vem 

 

rat,i = rt,i − ˆαi + ˆ 

βirm,t onde rm,t é a rendibilidade do mercado no momento t. Sejam 

rat = 

N i=1 rat,i 

, s 

N 

2 N t = 

i=1 (rat,i − rat) 2 

, 

N − 1 

respectivamente, a média e a variância empírica seccional das rendibilidades anormais das 

empresas na data t. Estas estatísticas podem ser calculadas para qualquer t, mas tem sobre- 

tudo interesse analisar rat e s 2 t para t numa vizinhança do anúncio. Convencionando que o 

anúncio ocorre na data 0 e fixando uma janela temporal de d períodos para antes e depois do 

anúncio, rat e s 2 t podem ser calculadas para t = −d, ..., −1, 0, 1, ...d. 

Suponha-se que é divulgada uma notícia “boa”, como por exemplo, um anúncio de div- 

idendos acima do esperado. Se as rendibilidades anormais se concentram em t = 0 não 

podemos rejeitar a hipótese de o mercado ser eficiente. Pelo contrário, se existirem rendibil- 

idades anormais apenas para t > 0 poderão existir indícios de ineficiência, sobretudo se t é 

medido em dias. Em geral é preferível usarem-se dados intra-diários, por exemplo, períodos 

de 5, 10 ou 15 minutos. 

É possível aprofundar a análise construindo uma sucessão {rat} para todas as obser- 

402

vações disponíveis (e não apenas na vizinhança da data do anúncio). Com este procedimento 

é possível comparar rat nos períodos vizinhos e não vizinhos do anúncio, por exemplo, 

analisando a significância de β 2 na regressão, 

rat = β 0 + β 1I0,t + β 2I1,t + ut. 

onde I0,t e I1,t são variáveis dummies. I0,t assume o valor 1 quando t corresponde à data de 

anúncio e I1,t assume o valor 1 quando t corresponde a uma data imediatamente a seguir à 

data de anúncio . Se β 2 é significante então é possível que o mercado seja ineficiente (ou não 

totalmente eficiente). Se, pelo contrário, apenas β 1 é significante então o impacto do anúncio 

concentra-se no período do anúncio e não há razões para rejeitar a hipótese de eficiência. A 

análise poderá ser mais fina, adicionando-se mais variáveis dummies. 

Se o objectivo é avaliar o impacto de notícias similares sobre uma empresa específica - 

caso B) - o procedimento mais simples consiste em formular a equação de regressão 

rt = β 0 + β 1I0,t + β 2I1,t + β 3rm,t + ut. (11.4) 

A introdução da variável rm,t é importante porque permite isolar o efeito do anúncio do 

efeito de mercado. Com efeito, suponha-se que o anúncio tem impacto sobre a rendibilidade 

do mercado. Como a rendibilidade do mercado está correlacionado com a rendibilidade da 

acção em análise, o anúncio acaba por influenciar a rendibilidade da acção através do com- 

portamento global do mercado. Um modelo de regressão sem a variável rm,t não permite 

isolar o efeito do anúncio sobre a empresa. Por exemplo, neste modelo mais reduzido, se 

o parâmetro β 2 vem diferente de zero não se sabe se β 2 = 0 se deve ao efeito retardado 

do anúncio sobre a empresa ou ao efeito do mercado sobre a empresa induzido pelo anún- 

cio. Pode haver outra razão para introduzir rm,t. Suponha-se que os anúncios coincidem 

com movimentos de alta do mercado. Se rm,t não está no modelo os anúncios não podem 

distinguir-se dos movimentos de alta. 

403


404

Capítulo 12 

Selecção de Portfolios 


Vai analisar-se o problema da determinação dos pesos óptimos de uma carteira consti- 

tuída por m activos com risco e um activo sem risco por parte de um investidor individual. 

Os resultados principais devem-se a Markowitz (prémio Nobel 1990), James Tobin (prémio 

Nobel 1981) e William Sharpe (prémio Nobel 1990). O objectivo deste capítulo consiste em 

apresentar a teoria básica e ilustrar o problema da determinação dos pesos óptimos a partir 

de momentos marginais e condicionais da distribuição dos retornos. 

Os modelos de heterocedastiocidade multivariada são particularmente úteis quando os 

pesos óptimos se baseiam em momentos condicionais. 

12.1 Portfolio Baseado em Momentos Marginais 

Assumem-se as seguintes hipóteses: 

1. Os retornos seguem uma distribuição marginal normal multivariada; 

2. As correlações entre os retornos são fixas ao longo do tempo; 

3. O investidor é racional, tem aversão ao risco, usa toda a informação disponível e 

procura o máximo lucro, para um determinado nível de risco; 

4. Não existem custos de transacção; 

5. O investidor é price taker, isto é, não tem capacidade de influenciar os preços; 

6. O investidor pode emprestar e pedir emprestado sem restrições; 

405

7. Todos os activos podem ser convenientemente fraccionados. 

12.1.1 Todos os Activos Envolvem Risco 

Para além das hipóteses anteriores suponha-se que não existe o activo sem risco, i.e., todos 

os activos envolvem risco. 

Estabeleça-se a seguinte notação: 

• vector dos retornos: rt = (R1t, ..., Rmt) ′ ; 

• vector do valor esperado dos retornos: µ = (E (R1t) , ..., E (Rmt)) ′ ; 

• matriz das variâncias-covariâncias dos retornos: Var (rt) = H; 

• vector dos pesos da carteira: ω = (ω1, ..., ωm) ′ ; 

• retorno do portfolio: Rpt = m 

i=1 ωiRit = ω ′ rt 

• valor esperado do portfolio: E (Rpt) = E (ω ′ rt) = ω ′ µ 

• Variância do portfolio σ 2 p = Var (Rpt) = Var (ω ′ rt) = ω ′ Var (rt) ω = ω ′ Hω. 

Naturalmente que m 

i=1 ωi = 1 ⇔ ω ′ 1 = 1 onde 1 (a negrito) representa um vector- 

coluna de 1’s. Para simplificar, assume-se que todos os activos envolvem risco e que alguns 

pesos ωi (mas não todos) podem ser negativos. Na teoria financeira um peso pode ser nega- 

tivo quando há lugar a uma venda a descoberto ou short selling 1 . Esta hipótese simplifica o 

problema de optimização. 

Em condições normais, qualquer investidor procura dois objectivos antagónicos: max- 

imizar o lucro (ou valor do retorno) e minimizar o risco. Os objectivos são contraditórios 

porque, em geral, os activos com maior (menor) retorno (em média) são os que possuem 

maior (menor) variabilidade. Para conciliar estes objectivos, pode-se, por exemplo, (i) fixar 

um valor para o retorno esperado do portfolio e, para esse valor, procurar os activos com a 

menor variabilidade possível; ou (ii) fixar um valor para o risco do portfolio (variância) e, 

depois, procurar os activos com o maior retorno esperado possível. 

1 Venda a descoberto ocorre quando se vende um activo financeiro ou derivado que não se possui, esperando 

que o preço caia para depois comprá-lo e lucrar na transação. O mecanismo é o seguinte: o agente A pede 

(digamos) uma acção a B e promete-lhe todo o rendimento subjacente ao título. A vende imediatamente a 

acção a C; mais tarde, A compra no mercado a acção para a devolver a B. Se o preço da acção cair, esta 

operação é vantajosa para A. 

406

Suponha-se que se opta pelo procedimento (i). O problema de optimização é então 

⎧ 

⎨ 

⎩ 

minωi 

Var (Rpt) 

s.a E (Rpt) = µ p e m 

i=1 ωi = 1 

Considere-se a função Lagrangeana, 

⎧ 

⎨ minωi 

⇔ 

⎩ 

ω′ Hω 

s.a ω ′ µ = µ p e ω ′ 1 = 1 

L (ω) = ω ′ 

Hω + λ1 µp − ω ′ µ + λ2 (1 − ω ′ 1) 

(12.1) 

(λ1 e λ2 são os multiplicadores de Lagrange). Resolvendo o sistema, que se obtém a partir 

das condições de primeira ordem (∂L/∂ω = 0, ω ′ µ = µ p e ω ′ 1 = 1), e notando que L é 

uma função convexa 2 , obtém-se a solução do problema de optimização: 

onde 

ω ∗ = ω ∗ 

µ p = g+µph (12.2) 

g = β 

δ H−1 1− α 

δ H−1 µ, h = γ 

δ H−1 µ− α 

δ H−1 1, 

α = µ ′ H −1 1, β = µ ′ H −1 µ, γ = 1 ′ H −1 1, δ = βγ − α 2 , 

1 = (1, 1, ..., 1) ′ . 

A expressão ω∗ 

µ p mostra que os pesos óptimos dependem de µp (fosse definido outro 

valor para µ p, e os pesos óptimos seriam outros). 

Resulta que a variância mínima associada ao retorno µ p é 

σ 2 ∗′ ∗ 

p = Vp µp = ω Hω . 

O problema (ii) é equivalente ao problema (i) no seguinte sentido. Suponha-se que se 

 

fixa Vp µp como restrição e se procura maximizar o retorno, i.e. 

⎧ 

⎨ 

⎩ 

maxωi E (Rpt) 

s.a Var (Rpt) = Vp 

m µp e i=1 ωi = 1. 

2 ′ A função ω Hω é estritamente convexa se H for uma matriz definida positiva (hipótese pacífica). As 

funções λ1 µp − ω ′ µ e λ2 (1 − ω ′ 1) são convexas por serem lineares (funções lineares são, por definição, 

côncavas e convexas). 

407

Então, pode-se provar, a solução deste problema optimização é precisamente µ p. Desta forma 

basta estudar o problema formulado na equação (12.1). 

Na prática os valores esperados µ e H são desconhecidos. É necessário estimá-los a 

partir dos valores observados. Supondo que {rt} é um processo estacionário fracamente 

dependente, µ e H podem ser estimados usando os seguintes estimadores consistentes: 

⎛ 

⎜ 

ˆµ = ⎜ 

⎝ 

¯r1 

. 

¯rm 

⎞ 

⎟ 

⎠ , 

onde ˆ hij é o elemento (i, j) da matriz ˆH, dado por 

ˆhij = 1 

n 

 

ˆH = ˆhij 

i,j=1,..,m 

n 

(rit − ¯ri) (rjt − ¯rj) . 

t=1 

Exemplo 12.1.1 Considere-se um portfolio constituído pelas acções A1, A2 e A3. Vai ser 

tomada uma decisão de investimento no valor de 1 milhão de Euros. A questão é: quanto 

comprar de cada um desses activos? Com base em observações diárias suponha-se que se 

obtém 3 : 

⎛ ⎞ 

5.22 

⎜ ⎟ 

⎜ ⎟ 

ˆµ = ⎜ 6.05 ⎟ 

⎝ ⎠ 

5.98 

⎛ 

⎞ 

1.549 

⎜ 

ˆH 

⎜ 

= ⎜ 0.9534 

⎝ 

0.9534 

2.093 

0.465 

⎟ 

1.0416 ⎟ 

⎠ 

0.465 1.0416 1.265 

. 

As rendibilidades estão anualizadas e em percentagem. Suponha-se que se pretende obter 

um retorno esperado do portfolio de µ p = 5.85. Usando a expressão (12.2) obtém-se 

ˆω ∗ ⎛ ⎞ 

0.176 

⎜ ⎟ 

(5.85) = ˆg+µ ˆh 

⎜ ⎟ 

p = ⎜ 0.104 ⎟ 

⎝ ⎠ 

0.720 

. 

3 Estimativas baseadas nos retornos dos índices SP500, DowJones e PSI20, no período 04/01/1993- 

04/09/2009. 

408

Desta forma, a variância mínima do portfolio associado à rendibilidade 5.85 é 

Vpt (5.85) = ˆω ∗′ Hˆω ∗ 

⎛ 

⎞ ⎛ ⎞ 

= 

 

0.176 0.104 

1.549 

⎜ 

0.72 ⎜ 0.9534 

⎝ 

0.9534 

2.093 

0.465 0.176 

⎟ ⎜ ⎟ 

⎟ ⎜ ⎟ 

1.0416 ⎟ ⎜ 0.104 ⎟ = 1.03. 

⎠ ⎝ ⎠ 

0.465 1.0416 1.265 0.720 

O vector de pesos óptimo associado à combinação √ 

σp, µ p = 1.03, 5.85 diz-nos que a 

composição do portfolio deve ser de 17.6% de A1, 10.4% de A2 e 72% de A3. 

No exemplo anterior o investidor pode estar interessado em analisar outras combinações 

de retorno versus risco (mínimo). Desta forma, podemos fixar outros valores para µ p e, as- 

sim, obter as correspondentes variâncias mínimas do portfolio. No exemplo anterior, µ p pode 

variar entre 5.22 e 6.05. Faça-se uma grelha de valores para µ p, por exemplo, escrevam-se 

100 valores equidistantes para µ p no intervalo [5.22; 6.05] e obtenham-se as correspondentes 

variâncias mínimas: 

µ p 

. 

 

Vp µp 

5.85 1.03 

. 

6.05 1.32 

 

O gráfico definido pelos pares ordenados 

Vp 

. 

. 

 

µp , µp onde µ p é maior ou igual ao re- 

torno associado à variância mínima de todos os portfolios designa-se por fronteira eficiente. 

 

Na figura 12-1 traçam-se todos os pontos Vp µp , µp . O ponto A representa o par 

Vp 

ordenado (µ min), µ min onde Vp (µ min) é o valor da variância mínima de todos os 

portfolios e µ min é o retorno esperado associado (também mínimo). A fronteira eficiente 

é dada pelo segmento AB. O ponto C não faz parte da fronteira eficiente, pois existe um 

ponto D com igual variância mas retorno esperado superior. Assim, só os pontos sobre a 

curva AB são relevantes para o investidor e, por isso, no gráfico definido pelos pares orde- 

 

nados Vp µp , µp só interessam os pontos onde µ p é maior ou igual ao valor da orde- 

 

nada do ponto A. O investidor deve agora decidir qual o par µp , µp sobre a curva 

AB que mais lhe interessa, tendo em conta a sua maior ou menor aversão ao risco. Se for 

 

averso ao risco tenderá a escolher um par µp , µp mais próximo do ponto A; se tiver 

Vp 

maior apetência pelo risco tenderá a escolher uma solução mais próxima do ponto B. Contin- 

409 

Vp

Figura 12-1: Fronteira Eficiente: Curva AB 

uando o exemplo anterior, suponha-se que a combinação preferida do investidor é 

σp, µ p = 

√ ′ 

1.03, 5.85 . Tendo em conta que o vector de pesos é ω = (0.176, 0.104, 0.72) , o inves- 

timento de 1 milhão de Euros seria então alocado da seguinte forma: 176000 Euros em A1, 

104000 em A2 e 720000 em A3. 

A fronteira eficiente dada pelo segmento AB é uma função não linear. Esta conclusão é 

imediata tendo em conta a representação paramétrica da função: 

 

Vp 

 

g+µph µp , µp = 

′ 

H g+µph 

, µ p = 

Se c0 = c1 = 0 a função seria linear. 

c0 + c1µ p + c2µ 2 p, µ p 

Como determinar analiticamente o valor da variância mínima de todos os portfolios efi- 

Vp 

cientes? Trata-se, afinal, de determinar as coordenadas do ponto A = (µ min), µ min 

da figura 12-1. Para o efeito resolve-se o problema de optimização livre 

cuja solução é 

 

dVp µp 

dµ p 

= d (ω∗′ Hω ∗ ) 

dµ p 

µ min = − g′ Hh 

h ′ Hg . 

410 

= 0, 

 

.

Inserindo este valor em Vp () obtém-se 

Vp (µ min) = g ′ Hg− (g′ Hh) 2 

h ′ Hh 

Aplicando estas fórmula aos valores do exemplo anterior obtém-se µ min = 5.63 e Vp (µ min) = 

0.919. 

12.1.2 Modelo com Activo Sem Risco 

O porfolio inclui agora o activo sem risco (por exemplo, obrigações e os títulos do Tesouro 4 ). 

Tem rendibilidade certa µ f (e, por isso, tem variância e covariâncias nulas com os demais ac- 

tivos). A rendibilidade do portfolio é agora ω ′ µ+ (1 − ω ′ 1) µ f. O problema de optimização 

passa a ser ⎧ ⎨ 

⎩ 

minωi ω′ Hω 

s.a ω ′ µ+ (1 − ω ′ 1) µ f = µ p. 

Note-se que os pesos ω ′ 1, (1 − ω ′ 1) , somam um. A matriz H mantém-se naturalmente 

inalterada e, por isso, a função objectivo é a mesma. Apenas as restrições são modificadas. 

Pode-se provar que a solução é 

c 

µ p = 

ω ∗ 

µ p = c µp ¯ω, 

µ p − µ f 

µ−µf1 ′ H −1 µ−µ f1 , ¯ω = H−1 µ−µ f1 . 

Resulta que a variância mínima associada ao retorno µ p é 

∗′ ∗ ′ 2 ′ 

Vp µp = ω Hω = c µp ¯ω Hc µp ¯ω =c µp ¯ω H¯ω. 

Nesta formulação a composição da carteira dos activos com risco é fixa, dado µ f, qual- 

quer que seja o valor µ p. Com efeito, ω∗ é proporcional a ¯ω e a constante de proporcionalidade 

é c ′ 

µ p . Por exemplo, suponha-se que se tem dois activos com risco e ¯ω = (0.3, 0.6) . 

Então dado o valor de µ f, o número de acções do activo 2 é sempre o dobro do do activo 1, 

qualquer que seja o valor que queiramos para a rendibilidade do portfolio. 

A observação anterior sugere que o valor do portfolio pode ser dado como uma combi- 

4 Naturalmente, em condições normais, o estado não entra em falência. Não há portanto risco de incumprimento. 

Mas é preciso notar que as obrigações e os títulos do Tesouro têm o risco da taxa de juro (risco da taxa 

de juro subir e do preço dos títulos descer). 

411

nação linear de um portfolio constituído apenas por activos de risco e o activo sem risco. 

Este portfolio, constituído apenas por activos de risco, designa-se por tangency portfolio. Os 

pesos deste portfolio não poderão ser exactamente dados por ¯ω dado que os pesos ¯ω ′ is não 

somam um. Assim defina-se 

ωT = 

¯ω 

m 

i=1 ¯ωi 

= ¯ω 

¯ω ′ 1 . 

Note-se agora que a soma dos pesos do vector ωT somam um e ¯ω = ωT ¯ω ′ 1. Podemos assim 

escrever 

ω ∗ = c ′ 

µ p ¯ω =c µp ¯ω 1ωT = aωT , a = c ′ 

µ p ¯ω 1. 

O retorno do portfolio pode ser escrito como uma combinação linear entre o retorno do 

tangency portfolio, µ T e o retorno do activo sem risco, µ f: 

µ p = ω ∗′ µ+ (1 − ω ∗′ 1) µ f = aω ′ T µ + (1−a)µ f = aµ T + (1 − a) µ f. 

Por seu lado a variância do portfolio pode também ser escrita em função de ωT : 

∗′ ∗ ′ 

Vp µp = ω Hω = aω T HaωT = a 2 ω ′ T HωT = a 2 σ 2 T 

e o desvio padrão do portfolio σp = aσT 

A fronteira eficiente é linear no espaço 

σp, µ p . Com efeito, usando algumas expressões 

já deduzidas, tem-se 

 

σp, µ p = aσT , aµ T + (1 − a) µ f . 

Esta representação paramétrica da fronteira eficiente permite deduzir 

σp = aσT ⇒ a = σp 

e, substituindo o valor de a em µ p = aµ T + (1 − a) µ f, resulta que a fronteira eficiente no 

espaço 

σp, µ p é dada pela recta (na forma reduzida) 

σT 

µ p = µ f + sσp, s = µ T − µ f 

. 

Na figura 12-2 a fronteira eficiente é representada pela recta bT, i.e. µ p = µ f + sσp. O 

declive da recta é s = (a − b) /c (na figura a representa µ T , b representa µ f e c representa 

σT . O valor s é designado por rácio de Sharpe. 

412 

σT

Figura 12-2: Fronteira Eficiente de um Portfolio com Activo Sem Risco (Recta) 

12.2 Portfolio Baseado em Momentos Condicionais 

O problema de optimização de um portfolio baseado nos dois primeiros momentos marginais 

da distribuição dos retornos implica que a decisão de investimento se mantém fixa ao longo 

do tempo, pois se o processo dos retornos é estacionário, como se admite na fase da esti- 

mação dos parâmetros, os momentos Var (Rpt) e E (Rpt) são constantes ao longo tempo e, 

por isso, a solução óptima é sempre a mesma, quaisquer que sejam as condições de mercado. 

Naturalmente, nenhum gestor de fundos segue esta estratégia de investimento, mesmo que 

as suas decisões se baseiem nos princípios do portfolio definido no ponto precedente. Na 

prática podem estimar ˆµ e ˆH usando médias móveis ou alisamentos exponenciais para de- 

sprezarem a informação antiga e actualizarem os parâmetros µ e H com informação mais 

recente. Desta forma os peso ωi podem variar ao longo do tempo, e as decisões de investi- 

mento podem ajustar-se de acordo com as condições de mercado. Mas a percepção de que 

as condições de mercado se alteram ao longo do tempo exige uma abordagem diferente. 

Uma decisão de investimento tomada no momento t−1, resulta da avaliação das condições 

de mercado e, em geral, da informação disponível no momento t − 1. Esta decisão tomada 

no período t − 1 pode naturalmente alterar-se no momento t, se as condições de mercado 

e a informação disponível em t se alterarem também. Desta forma, a selecção dos activos 

deve basear-se em momentos condicionais e não em momentos marginais. Recorde-se que 

as melhores previsões dos retornos e da volatilidade para o período t, dada toda a informação 

413

disponível até ao momento t − 1, são dadas pelos dois primeiros momentos condicionais. A 

determinação dos pesos óptimos usando momentos condicionais assenta na ideia de que o 

portfolio pode ajustar-se continuamente ao longo do tempo em função das condições de mer- 

cado. Esta abordagem tem ainda a vantagem de contornar as criticas que se fazem às duas 

primeiras hipóteses definidas na secção anterior (os retornos seguem uma distribuição mar- 

ginal normal multivariada, e as correlações entre os retornos são fixas ao longo do tempo). 

Como se sabe, no quadro de um modelo baseado em momentos condicionais variáveis, não 

só a distribuição marginal não é (em condições muito gerais) normal, como também as cor- 

relações (condicionais) podem ser variáveis ao longo do tempo. 

Na formulação que a seguir apresentaremos, a decisão de investimento é tomada no mo- 

mento t − 1, baseada numa suposição sobre o comportamento dos retornos esperados e do 

risco envolvido no momento t. Na verdade as perdas ou ganhos que eventualmente ocorram 

vão concretizar-se no momento t. É por esta razão que os momentos condicionais envolvem 

variáveis aleatórias no momento t, dada a informação disponível em t − 1. 

Estabeleça-se a seguinte notação: 

• vector do valor esperado condicional dos retornos: µ t = (E (R1t| Ft−1) , ..., E (Rmt| Ft−1)) ′ ; 

• matriz das variâncias-covariâncias condicionais dos retornos: Var (rt| Ft−1) = Ht; 

• vector dos pesos da carteira no momento t: ωt = (ω1t, ..., ωmt) ′ ; 

• retorno do portfolio: Rpt = m 

i=1 ωitRit = ω ′ trt 

• valor esperado condicional do portfolio: E (Rpt| Ft−1) = E (ω ′ trt| Ft−1) = ω ′ tµ t 

• Variância condicional do portfolio Vpt = Var (Rpt| Ft−1) = Var (ω ′ trt| Ft−1) = 

ω ′ t Var (rt| Ft−1) ωt = ω ′ tHtωt. 

Os principais resultados foram já obtidos nos pontos precedentes. Substituindo os mo- 

mentos marginais pelos momentos condicionais têm-se os seguintes resultados: 

• Pesos óptimos de um portfolio sem o activo sem risco, dado um determinado nível de 

retorno µ p,t: 

ω ∗ t = ω ∗ t 

 

µp,t = gt+µ p,tht 

414

onde 

gt = βt H 

δt 

−1 

t 1− αt 

H 

δt 

−1 

t µ, h t= γ t 

H 

δt 

−1 

t µ t− αt 

δt 

H −1 

t 1 

αt = µ ′ tH −1 

t 1, β t = µ ′ tH −1 

t µ t, γ t = 1 ′ tH −1 

t 1, δt = β tγ t − α 2 t , 

1 = (1, 1, ..., 1) ′ . 

• Pesos óptimos de um portfolio com o activo sem risco, dado um determinado nível de 

retorno µ p,t: 

c 

µ p = 

ω ∗ 

µ p,t = c µp,t ¯ωt, 

µ p,t − µ f 

µt−µ f1 ′ H −1 

t 

µt−µ f1 , ¯ωt= H −1 

t 

• A fronteira eficiente no espaço 

σp, µ p com o activo sem risco é 

µ p,t = µ f + stσp,t, st = µ T,t − µ f 

σT,t 

. 

µt−µ f1 . 

Este rácio de Sharpe depende de t, pois, em última análise, depende de µ t e Ht. 

Se o horizonte do investimento fosse h períodos e admitíssemos que não haveria lugar a 

alterações do portfolio durante o período do investimento, os momentos condicionais rele- 

vantes passariam a ser 

E (rt+h| Ft) , Var (rt+h |Ft ) . 

Quando o horizonte de previsão é elevado, os momentos condicionais são, em condições 

ergódicas, aproximadamente iguais aos momentos marginais. 

Naturalmente os valores esperados condicionais µ t e Ht são desconhecidos. É necessário 

estimá-los, por exemplo, a partir de um modelo GARCH multivariado. 

415


416

Capítulo 13 

Risco de Mercado e o Valor em Risco 



Em resposta aos desastres financeiros ocorridos no passado recente, a gestão do risco sofreu 

uma revolução nos últimos anos. O valor em risco ou Value at Risk (VaR) iniciou essa 

revolução e tem ganho reconhecimento como medida fundamental na análise e na gestão do 

risco de mercado das instituições financeiras. Presentemente, muitas instituições reportam 

medidas de risco relacionadas com o VaR para o público em geral e, em certos casos, também 

para agências reguladoras. Por exemplo, os bancos comerciais estão sujeitos a requisitos 

mínimos de capital para cobrirem o seu risco de crédito e de mercado. O Acordo Basiléia II 

estabelece taxas de segurança baseadas em modelos VaR. 

A literatura financeira enumera vários tipos de risco, como por exemplo, risco de mer- 

cado, risco de crédito, risco de liquidez, risco operacional (associado ao risco de fraude, 

erros de transacção e de apreçamento, etc.) e risco sistémico (associado, por exemplo, a 

situações de incumprimento devido a reacções em cadeia). Neste capítulo aborda-se o risco 

de mercado, isto é, o risco associado às variações (inesperadas) de preços e taxas e algumas 

metodologias de mensuração desse risco. 

Para introduzir o VaR é instrutivo, em primeiro lugar, pensar-se em análise de cenários. 

Neste tipo de análise, formulam-se vários resultados possíveis de acordo com a informação 

disponível e, quando tal é possível, atribuem-se probabilidades aos diversos cenários. Em 

geral, dá-se especial atenção aos piores cenários pois são estes que maior impacto têm sobre 

o funcionamento normal da organização. 

417

Para avaliar os piores cenários, podemos começar por formular a questão: “Qual é a 

perda máxima que a organização pode sofrer num certo período de tempo?”. A resposta 

não é particularmente informativa, pois a perda máxima significa perder tudo (com prob- 

abilidade praticamente nula). Se reformularmos ligeiramente a questão, obtemos a me- 

dida VaR: “Quanto é que podemos perder com probabilidade α > 0 num certo período 

de tempo?”. Impõe-se que α seja não nulo mas razoavelmente pequeno com vista a avaliar 

os eventos que embora raros podem ocorrer e afectar o funcionamento normal da organi- 

zação. VaR é portanto a perda que pode ocorrer num lapso de tempo determinado, com 

certa probabilidade α, supondo que o portfolio não é gerido durante o período de análise. 

Em termos probabilísticos, o VaR é o quantil de ordem α (em módulo) 1 da distribuição 

teórica de ganhos e perdas. Para concretizar, seja ∆Vn+h := Vn+h − Vn a variação do 

valor do capital investido não gerido durante o horizonte de risco de h dias. Por exem- 

plo, considere-se a compra de 200,000 acções 2 de um título no período n , ao preço de 

Pn = 5 Euros. O investimento é de Vn = 5 × 200, 000 = 1, 000, 000 Euros. Suponha-se 

que no momento n + h o preço do título passa para Pn+h = 5.5 Euros. A variação do cap- 

ital é de ∆Vn+h = 1, 100, 000 − 1, 000, 000 = 100, 000. O retorno (em tempo discreto) é 

Rn+h = (Pn+h − Pn) /Pn = 0.1. É importante notar que o retorno pode também ser obtido 

através da expressão Rn+h = ∆Vn+h/Vn. 3 Pode supor-se que Vt é observado no período 

t = 1, 2, ..., n, mas não em n + 1, n + 2, ... Os valores que V vier a assumir no periodo 

n + 1, n + 2, ..., n + h dizem respeito ao perído de investimento e, portanto, Vn+h, é descon- 

hecido para h ≥ 1. 

que 

O VaR a 100α% baseado na distribuição marginal de ganhos e perdas é o valor VaR tal 

P (∆Vn+h < −V aR) = α. 

Por seu turno, o VaR a 100α% baseado na distribuição condicional é o valor VaR tal que 

P (∆Vn+h < −V aR| Fn) = α. 

1 O quantil de ordem α < 0.05 da distribuição de ganhos e perdas é um valor negativo. Para que o VaR 

represente efectivamente uma “perda”, considera-se esse quantil em valor absoluto. 

2 Seguimos a notação anglo-saxónica: a vírgula separa os milhares. 

3 Este facto é relevante, pelo seguinte. Como iremos ver mais à frente uma das abordagens possíveis ao VaR 

consiste em modelar parametricamente o processo {∆Vt} . Ora este processo é quase sempre não estacionário. 

Para confirmar este facto, veja-se a figura 6-9, no ponto 6.3.2, onde se exibe uma trajectória típica de ∆Vt. 

Desta forma, usando a relação Rn+h = ∆Vn+h/Vn, pode-se modelar ∆Vn+h via retornos, que é geralmente 

um processo estacionário. 

418

O VaR (condicional) é uma medida que depende explicitamente de n, h e α e, portanto, 

pode ser escrita como V aRn,n+h,α. A estimação do VaR envolve princípios e procedimentos 

até certo ponto similares com a da previsão de ∆Vn+h. Em ambos os casos, a lei de prob- 

abilidades relevante é a distribuição condicional de ∆Vn+h dado Fn, i.e., f (·| Fn) . Com 

efeito, o previsor óptimo para ∆Vn+h dado Fn (de acordo com o critério do EQM) corre- 

sponde ao primeiro momento da distribuição f (·| Fn), i.e., E (∆Vn+h| Fn) . Por seu turno, 

o V aRn,n+h,α é o quantil de ordem α da distribuição de f (·| Fn). Em ambos os casos, as 

quantidades de interesse são parâmetros da distribuição f (·| Fn) . 

Uma vantagem do VaR é a de poder agregar numa única medida diferentes tipos de risco. 

Pelo contrário, as medidas tradicionais de risco não são agregáveis. Revejam-se algumas 

medidas tradicionais de risco. 

O risco associado com uma obrigação do tesouro é o risco da taxa de juro e a medida 

tradicional deste risco é a duração (medida de volatilidade do preço da obrigação face a vari- 

ações da taxa de rendimento até à maturidade). O principal risco associado com obrigações 

emitidas por entidades particulares é o risco de incumprimento (default risk), o qual pode 

ser medido através de um sistema de rakings, disponibilizados em vários casos por agências 

de crédito. Para portfolios de acções o risco é normalmente avaliado através da volatilidade 

do portfolio, que é função das volatilidades individuais e das correlações entre os diferentes 

activos. O risco de taxa de câmbio tipicamente inclui spreads e volatilidades das taxas de 

câmbio. Os risco associados a swaps e opções também está sujeito a um tratamento especial. 

Em geral, as medidas tradicionais de risco não podem ser agregadas numa única medida 

(por exemplo, a duração de uma obrigação não pode ser comparada com a volatilidade de 

um portfolio). Pelo contrário, uma das grandes vantagens da metodologia VaR é a de poder 

agregar diferentes tipos de risco numa única intuitiva medida de risco. 

tivo. 

Para simplificar admite-se inicialmente que o portfolio é constituído por apenas um ac- 

13.2 Abordagem Não Paramétrica 

Seja 

∆Vn+1 = ∆Vn+1 

Vn = Rn+1Vn 

Vn 

419

variação do capital ao fim de um período. Por definição tem-se 

ou, equivalentemente, 

P (∆Vn+1 < −V aRn,n+1,α| Fn) = α 

P (Rn+1Vn < −V aRn,n+1,α| Fn) = α, 

 

 

V aRn,n+1,α 

P Rn+1 < − 

Vn 

Fn 

 

= α, 

 

= α. 

P Rn+1 < q R α Fn 

Resulta V aRn,n+1,α = −q R α Vn onde q R α é o quantil de ordem α da distribuição de Rn+1 dado 

Fn. 

Se assumirmos 

P Rn+1 < q R α Fn 

o VaR pode estimado a partir da expressão 

 

 

= P Rn+1 < q R α 

V aRn,n+1,α = −˜q R α Vn 

onde ˜q R α é o quantil empírico de ordem α da série de retornos {Rt} 4 . Observe-se que nen- 

huma hipótese é estabelecida sobre a distribuição (marginal) dos retornos - daí a designação 

de “abordagem não paramétrica”. 

No caso h > 1, considera-se 

∆Vn+h = ∆Vn+h 

Para determinar V aRn,n+h,α resolve-se a expressão 

Vn 

Vn = Rn+h (h) Vn 

P (∆Vn+h < −V aRn,n+h,α| Fn) = α 

4 Na literatura existem diferentes fórmulas para calcular o quantil empírico de ordem α. Usaremos a seguinte 

convenção: o quantil empírico ˜q R α corresponde à estatística de ordem [nα] , sendo [x] o inteiro de x. Por 

exemplo, na amostra de dimensão n = 6, {1, 4, 2, 7, 15, 0} , as estatísticas de ordem são: y (1) = 0, y (2) = 1, 

y (3) = 2, y (4) = 4, y (5) = 7, y (6) = 15. O quantil de ordem α = 0.9 é a estatística de ordem [0.9 × 6] = 5, 

isto é, y (5) = 7. 

420

em ordem a V aRn,n+h,α ou, equivalentemente, resolve-se a expressão 

P (Rn+h (h) Vn < −V aRn,n+h,α| Fn) = α 

 

 

V aRn,n+h,α 

P Rn+h (h) < − 

Vn 

Fn 

 

= α 

 

= α 

P Rn+h (h) < q R α Fn 

em ordem a q R α e obtém-se depois V aRn,n+1,α = −q R α Vn. Se assumirmos 

o VaR pode estimado a partir da expressão 

P (Rn+h (h) < qα| Fn) = P (Rn+h (h) < qα) 

V aRn,n+h,α = −˜q R α Vn 

onde ˜q R α é o quantil empírico de ordem α da série de retornos {Rn+h (h) , n = 1, 2, ...}. 

Naturalmente, o VaR pode ser obtido a partir directamente da distribuição empírica das 

variações de capital {∆Vn+h, n = 1, 2, ...} . Neste caso viria V aRn,n+h,α = −˜q ∆V 

α , onde ˜q ∆V 

α 

é o quantil empírico de ordem α da série {∆Vn+h, n = 1, 2, ...}. 

Se a análise incide sobre um portfolio linear, na construção da série histórica dos retornos 

Rp,t = ω1R1,t + ω2R2,t + ... + ωnRn,t, 

onde ωi são os pesos do capital investido no activo i ( n 

i=1 ωi = 1), os pesos devem per- 

manecer fixos durante todo o período histórico. 

A abordagem não paramétrica embora tenha a vantagem de ser simples, sofre dos seguinte 

problemas: 

• Embora a distribuição não esteja especificada (por isso mesmo é que o procedimento 

se designa por não paramétrico) assume-se (incorrectamente) que a distribuição rele- 

vante para obter o VaR é a distribuição marginal de Rn+h e não a distribuição condi- 

cional. Mas o VaR está associado a uma previsão dos retornos dada (obviamente) a 

informação disponível Fn e, por isso, é a distribuição condicional que nos interessa. 

Assim, mesmo que no período n se registe, por exemplo, alta volatilidade e perdas 

acentuadas, essa informação é negligenciada para obter o VaR. 

421

• Quando α é muito baixo por exemplo α = 0.01 ou inferior o estimador ˜q R α é muito im- 

preciso. A justificação teórica é dada pelo seguinte resultado assimptótico. Suponha- 

se que {Xt, t = 1, ..., n} é uma sucessão de variáveis i.i.d. com função distribuição 

F e função densidade de probabilidade f e seja qα = inf {x : F (x) ≥ α} . O quantil 

empírico ˜qα (isto, é a estatística de ordem [nα]) tem distribuição assimptótica dada por 

√ n (˜qα − qα) 

 

d 

−→ N 0, 

α (1 − α) 

(f (qα)) 2 

 

. 

A variância assimptótica de ˜qα “explode” quando a fdp no ponto valor qα, f (qα) , é 

aproximadamente zero. Isto sucede quando qα é um valor extremo (i.e., muito afastado 

do centro da distribuição), isto é, quando α é um valor muito baixo, perto de zero, (ou 

muito alto, perto de 1). Em suma, a variância do quantil empírico é alta nas abas e 

baixa no centro da distribuição. 

• Até onde coligir os dados? Considerar todo o passado disponível? Ou só o pas- 

sado recente? Esta questão é mais relevante neste procedimento do que em outros, 

pois a metodologia exposta atribui o mesmo peso a todas as observações. Normal- 

mente considera-se o passado recente pois dados muito antigos podem não reflectir 

a dinâmica do processo no presente e no futuro imediato (será relevante atribuir im- 

portância ao crash de 1929-31 para obter o VaR num futuro próximo?). Por outro lado, 

também não convém definir janelas de observações muitas curtas pois a eficiência do 

estimador do quantil de ordem α pode ser severamente afectada, sobretudo quando α 

é muito baixo. Vários estudos indicam como razoável considerar-se os últimos dois 

ou três anos de observações. 

13.3 Abordagem Paramétrica 

Considere-se novamente a expressão para o caso h = 1: 

∆Vn+1 = ∆Vn+1 

Vn 

Vn = Rn+1Vn rn+1Vn. 

Esta expressão mostra que a distribuição condicional de rn+1Vn apenas depende da dis- 

tribuição de rn+1 (no momento n, Vn é conhecido). Podemos assim concentrar-nos apenas 

sobre a distribuição de rn+1. Assuma-se rn+1| Fn ∼ D µ n+1, σ2 

n+1 onde D é uma 

422

distribuição qualquer de média µ n e variância σ 2 n. Tem-se 

Estandardizando rn+1, isto é, considerando 

vem 

P 

P (∆Vn+1 < −V aRn,n+1,α| Fn) = α 

 

 

V aRn,n+1,α 

P rn+1 < − = α. 

 

V aR − Vn − µ n+1 

σn+1 

Zn+1 < 

Vn 

Fn 

Zn+1 = rn+1 − µ n+1 

σn+1 

− V aRn,n+1,α 

Vn 

σn+1 

 

− µ 

n+1 

 

Fn 

= q Z α ⇒ V aRn,n+1,α = − µ n+1 + qZ 

α σn+1 Vn 

(q Z α é o quantil de ordem α da distribuição da variável Zn+1). 

No caso h > 1 tem-se 

∆Vn+h = ∆Vn+h 

Vn 

Vn 

 

= α (13.1) 

≈ (rn+1 + rn+2 + ... + rn+h) Vn, rn+i = log (Pn+i/Pn+i−1) 

= rn+h (h) Vn. 

(13.2) 

Não é por mero acaso que se passa de ∆Vn+h para rn+h (h) Vn. A ideia é obter a distribuição 

de ∆Vn+h a partir da distribuição de rn+h (h) . Claro que, formalmente, ∆Vn+h é igual a 

Rn+h (h) Vn (onde Rn+h (h) são os retornos discretos multi-períodos). O problema com esta 

relação decorre do facto da distribuição de Rn+h (h) ser geralmente difícil de tratar. 

Para determinar V aRn,n+h,α considera-se 

P (rn+h (h) Vn < −V aRn,n+h,α| Fn) = α 

 

 

V aRn,n+h,α 

P rn+h (h) < − = α 

423 

Vn 

Fn

e, estandardizando 5 rn+h (h), i.e., 

vem 

Conclui-se 

P 

 

Zn+h < 

Zn+h = rn+h (h) − E (rn+h (h)| Fn) 

 

Var (rn+h| Fn) 

V aRn,n+h,α 

− Vn 

V aRn,n+h,α 

− Vn 

 

− E (rn+h (h)| Fn) 

 

 

Var (rn+h| Fn) 

Fn 

 

= α. 

− E (rn+h (h)| Fn) 

= q 

Var (rn+h (h)| Fn) 

Z α 

 

⇒ V aRn,n+h,α = − E (rn+h (h)| Fn) + qZ 

α Var (rn+h (h)| Fn) Vn 

Estas fórmulas gerais serão agora adaptadas a casos mais simples. 

13.3.1 Modelo Gaussiano Simples 

O caso mais simples consiste em assumir 

(13.3) 

rt = µ + ut, (13.4) 

onde {ut} é um ruído branco Gaussiano, ut ∼ N (0, σ 2 ) . Assim, rn+1 ∼ N (µ, σ 2 ) . No caso 

h = 1, tem-se, pela fórmula (13.2) 

V aRn,n+1,α = − µ + q Z α σ Vn 

onde q Z α é o quantil de ordem α da distribuição N (0, 1) (observe-se que a variável Zn+1 

na expressão (13.1) tem distribuição N (0, 1)). No caso h > 1 é necessário deduzir-se 

a distribuição condicional de rn+h (h). Como, por hipótese, rn+h (h) não depende Fn, a 

distribuição condicional coincide com a distribuição marginal. Pelas propriedades habituais 

da distribuição normal vem rn+h (h) = rn+1 + rn+2 + ... + rn+h ∼ N (hµ, hσ 2 ) . Assim, 

E (rn+h (h)| Fn) = E (rn+h (h)) = hµ 

Var (rn+h (h)| Fn) = Var (rn+h (h)) = hσ 2 

5 Admitindo que faz sentido a estandardizazção. Veremos que no caso geral a distribuição de Wn+h é 

desconhecida. 

424

e, portanto, pela aplicação da fórmula (13.3), vem 

 

V aRn,n+h,α = − hµ + √ hσq Z 

α Vn. 

Se µ = 0 deduz-se V aRn,n+h,α = √ hV aRn,n+1,α 

13.3.2 Modelo RiskMetrics 

As hipóteses de normalidade e variância condicional constante, assumidas no modelo an- 

terior, são, como se sabe, bastante limitativas. Um modelo relativamente simples, mas 

assumindo variância condicional não constante corresponde ao modelo RiskMetrics desen- 

volvido pela J.P. Morgan para o cálculo do VaR. A metodologia baseia-se no modelo EWMA 

(equação (8.7)): 

rt = σtεt, σ 2 t = (1 − λ) r 2 t−1 + λσ 2 t−1 

onde {εt} é um ruído branco de média nula e variância 1. O modelo assenta na hipótese 

IGARCH(1,1) com termo constante nulo, ω = 0, e média condicional nula, µ t = 0. Para 

obter V aRn,n+h,α aplica-se uma vez mais a fórmula (13.3). Para o efeito estude-se a dis- 

tribuição condicional de rn+h (h) . Comece-se por verificar que 

E (rn+i| Fn) = 0, E σ 2 n+i 

 

Fn 

= σ 2 n 

Logo, tendo em conta que E (rtrt+i) = 0, vem 

E (rn+h (h)| Fn) = 0 

Var (rn+h (h)| Fn) = Var (rn+1 + ... + rn+h| Fn) 

(Ver previsão IGARCH, ponto 8.11.1). 

= Var (rn+1| Fn) + ... + Var (rn+h| Fn) 

= E σ 2 

 

n+1 Fn + ... + E σ 2 

 

n+h Fn 

= hσ 2 n. 

425

São conhecidos os dois primeiros momentos. Falta conhecer-se a lei de probabilidade de 

rn+h (h) . Assuma-se que rn+h (h)| Fn tem distribuição aproximadamente normal 6 

rn+h (h)| Fn 

Pela fórmula (13.3) vem 

a 

∼ N (E (rn+h (h)| Fn) , Var (rn+h (h)| Fn)) . 

 

V aRn,n+h,α = − q Z √ 

α hσn Vn 

onde q Z α é o quantil de ordem α da distribuição N (0, 1) . 

Naturalmente outras distribuições podem ser consideradas. Note-se finalmente V aRn,n+h,α = 

√ hV aRn,n+1,α. 

13.3.3 Modelo ARMA-GARCH 

Assuma-se agora 

φ p (L) rt = µ + θq (L) ut 

ut = σtεt, ut ∼ GARCH. 

6 A distribuição de rn+h (h)| Fn é geralmente desconhecida. Mesmo no caso em que rn+1| Fn tem 

distribuição normal, rn+i| Fn para i = 2, 3, ... não tem distibuição normal. Relembre-se que, sob certas 

condições, a distribuição de rn+i| Fn quando i → +∞ converge para a distribuição marginal que geralmente 

é diferente da distribuição condicional. Pode-se mostrar que a função de distribuição de rn+h (h)| Fn é 

 

Fn,h (x) = 

rn(h)≤x 

 

h−1 

f (rn+h (h)| Fn+h−1) f (rn+i| Fn+i−1) drn+1...drn+h. 

Esta expressão só é conhecida no caso h = 1. Para h > 1 a expressão anterior é intratável. Neste caso a 

fdp rn+h (h)| Fn pode considerar-se desconhecida (Tsay (2001), cap.7 conclui erradamente que εn ∼ Normal 

⇒ rn+h (h)| Fn ∼ Normal). Apesar destas observações, podemos assumir 

por duas razões: 

i=1 

rn+h (h)| Fn ≈ N (E (rn+h (h)| Fn) , Var (rn+h (h)| Fn)) 

• se h = 1 e ε ∼ N (0, 1) , rn+h (h)| Fn terá certamente distribuição normal. A distribuição de 

rn+h (h)| Fn no caso h = 2 ou h = 3 não deverá, em princípio, afastar-se muito da distribuição 

normal; 

• com h alto e supondo r estacionário e fracamente dependente, pode-se invocar o teorema do limite 

central. Com efeito rn+h (h)| Fn/ Var (rn+h (h)| Fn) é uma soma normalizada que, sob certas 

condições, converge em distribuição para Z ∼ N (0, 1). 

426

Tal como no caso anterior, temos de obter a distribuição de rn+h (h)| Fn. Tem-se 

E (rn+h (h)| Fn) = µ n+1,n + ... + µ n+h,n 

onde µ n+i,n = E (rn+i| Fn) é a previsão de r para o momento n + i dada a informação 

disponível no momento n. Para obter Var (rn+h (h)| Fn) comece-se por observar que 

Como 

resulta 

Var (rn+h (h)| Fn) = 

rn+1 E + ... + rn+h − 

2 µ n+1,n + ... + µ n+h,n Fn 

= E (en (1) + ... + en (h)) 2 

Fn 

(13.5) 

Vimos no ponto 6.6.4 que 

h−1 

en (h) = ψ0un+h + ψ1un+h−1 + ... + ψh−1un+1 = 

en (1) = un+1, 

en (2) = un+2 + ψ 1un+1, 

..., 

 

ψjun+h−j. j=0 

en (h) = un+h + ψ 1un+h−1 + ... + ψ h−1un+1 

h−1 

en (1) + ... + en (h) = un+1 + (un+2 + ψ1un+1) + ... + 

Como {ut} é um RB vem 

= un+h + (1 + ψ 1) un+h−1 + ... + 

Var (rn+h (h)| Fn) = E (en (1) + ... + en (h)) 2 

Fn 

 

ψjun+h−j j=0 

 

h−1 

 

 

ψj j=0 

un+1. 

= Var (un+h| Fn) + (1 + ψ 1) 2 Var (un+h−1| Fn) 

+... + 

h−1 

 

ψj j=0 

427 

2 

Var (un+1| Fn) . (13.6)

Falta conhecer-se a lei de probabilidade de rn+h (h) . Sob a hipótese 

rn+h (h)| Fn 

e atendendo à formula (13.3) vem 

a 

∼ N (E (rn+h (h)| Fn) , Var (rn+h (h)| Fn)) 

 

V aRn,n+h,α = − E (rn+h (h)| Fn) + q Z 

α Var (rn+h (h)| Fn) Vn 

onde E (rn+h (h)| Fn) e Var (rn+h (h)| Fn) são dados pelas expressões (13.5) e (13.6). 

Exemplo 13.3.1 Considere-se o modelo 

Tendo em conta que 

resulta 

σ 2 n+k,n = 

rt = σtεt, σ 2 t = ω + α1r 2 t−1 + β 1σ 2 t−1. 

ω 

+ (α1 + β 

1 − α1 − β 

1) 

1 

k−1 α1r 2 n + β1σ 2 n , (un = rn) 

Var (rn+h (h)| Fn) = Var (un+h| Fn) + Var (un+h−1| Fn) + ... + Var (un+1| Fn) 

= 

h 

Tem-se 

e 

V aRn,n+h,α = − 

 

q Z α 

= 

= 

k=1 

σ 2 n+k,n 

h 

 

ω 

+ (α1 + β 

1 − α1 − β 

1) 

k=1 

1 

k−1 α1r 2 n + β1σ 2 n 

 

1 

 

hω − 

1 − α1 − β1 α1r 2 n + β1σ 2 n 

 

(α1 + β1) h 

− 1 . 

rn+h (h)| Fn ∼ N (0, Var (rn+h (h)| Fn)) 

 

1 

1 − α1 − β 1 

 

hω − (α1r2 n + β1σ 2 

n) (α1 + β1) h 

− 1 

 

Vn. 

Exemplo 13.3.2 Na tabela seguinte apresentam-se os resultados da estimação GARCH dos 

retornos do Dow Jones (28317 observações diárias). 

428

VaR 

0.15 

0.10 

0.05 

0.00 

0 1 2 3 4 5 6 7 8 9 10 

Figura 13-1: Value at Risk como função de h. V aRn+h,n,0.01 traço grosso; V aRn+h,n,0.05 

traço fino. 

Dependent Variable: retornos do Dow JOnes 


Included observations: 28317 after adjusting endpoints 

Coefficient Std. Error zStatistic Prob. 

C 0.000416 4.54E05 9.155216 0.0000 


C 1.17E06 5.17E08 22.67097 0.0000 

ARCH(1) 0.085080 0.001263 67.38911 0.0000 

GARCH(1) 0.905903 0.001542 587.6203 0.0000 





Log likelihood 94026.27 DurbinWatson stat 1.921149 

Sabe-se que rn = −0.0101, ˆσ 2 

n = 0.00014. 

Dado que o modelo envolve um termo constante c, o V aRn,n+h,α estimado, supondo 

Vn = 1, corresponde à expressão 

−ĉh + q Z α 

 

1 

1 − ˆα1 − ˆ β 1 

 

hˆω − ˆα1û 2 n + ˆ β1σ 2 

n 

ˆα1 + ˆ 

h 

β1 − 1 

onde ûn = rn − ĉ = −0.0101 − 0.000416 = −.01051. Na figura 13-1 representa-se o V aR 

para α = 0.01 e para α = 0.05 em função de h. 

Exemplo 13.3.3 Considere-se o modelo 

rt = c + φrt−1 + ut, ut = σtεt (13.8) 

σ 2 t = ω + γu 2 t−1I{ut−1

Tem-se, 

E (rn+h (h)| Fn) = µ n+1,n + ... + µ n+h,n. 

Tendo em conta a estrutura AR(1), vem pela equação (6.12), 

Assim, 

E (rn+h (h)| Fn) = 

1 − φh 

µ n+h,n = c 

1 − φ + φhyn. 

1 − φ1 

c 

1 − φ + φ1 

1 − φh 

yn + ... + c 

1 − φ + φh 

yn 

= yn (−1 + φ) φ −1 + φ h + c h (1 − φ) + φ −1 + φ h 

(−1 + φ) 2 

Por outro lado, para calcular Var (rn+h (h)| Fn) é necessário obter ψ i (confira-se (13.6)). 

Como se sabe, ψ j são os coeficientes que resultam da equação ψ (L) = φ −1 

p (L) θ (L) (veja- 

se a equação (6.15)). No caso AR(1) facilmente se conclui que ψ (L) = 1+φL+...+φ k L k + 

..., pelo que ψ i = φ i . A aplicação da fórmula (13.6) envolve também Var (un+h| Fn) := 

σ 2 n+h,n 

que é necessário estabelecer. Para o modelo definido em (13.9) tem-se, 

σ 2 n+1,n = ω + γu 2 nI{un

O valor de Var (rn+h (h)| Fn), dado pelo programa Mathematica, é igual a 

1 

− 

(−1 + φ) 2 

hω + 

(−1 + β∗) φ −1 + φ h −2 − φ + φ 1+h 

−1 + φ 2 

+σ 2 h ω 

n+1,n 1 − β∗ + 1 − β h 

∗ 

+ 

−1 + β∗ ω + σ 2 n+1,n (β∗ − 1) × 

⎛ 

⎜ 

φ 

× ⎜ 

⎝ 

2+2h 

β∗ 

φ2 

h 

− 1 

φ 2 φ 

− 2 

− β∗ 1+h 

⎞⎞ 

h 

β∗ 

− 1 

φ ⎟⎟ 

⎟⎟ 

φ − β ⎠⎠ 

∗ 

. 

13.4 Generalização: Portfolio com m Activos 

Obtenha-se agora o VaR supondo que o portfolio é constituído por m acções. Para simplificar 

assuma-se que 

rt = (R1t, ..., Rmt) ′ Ft−1 ∼ N (µ t, Ht) 

onde µ t := E (rt| Ft−1) e Var (rt| Ft−1) := Ht. No momento n o portfolio vale Vn, por 

exemplo, uma alocação de 1 milhão de Euros no título 1 e 2 mihões no título 2, traduz-se por 

um investimento no valor de Vn = 3 milhões, sendo ω1 = 1/3 desse valor investido no título 

1 e ω2 = 2/3 investido no título 2. A obtenção do VaR é similar ao do caso de um portfolio 

com apenas 1 activo: 

Estandardizando Rp,n+1, isto é, considerando 

vem 

V aRn,n+1,α 

− Vn 

P (∆Vn+1 < −V aRn,n+1,α| Fn) = α 

 

∆Vn+1 

 

P Vn < −V aRn,n+1,α 

Vn 

Fn 

 

= α 

 

 

V aRn,n+1,α 

P Rp,n+1 < − = α. 

Vn 

Fn 

Zn+1 = Rp,n+1 − E (Rp,n+1| Fn) 

 

Var (Rp,n+1| Fn) 

 

 

V aRn,n+1,α 

− − E (Rp,n+1| Fn) 

Vn 

 

P Zn+1 < 

Var (Rp,n+1| Fn) Fn 

 

= α 

− E (Rp,n+1| Fn) 

= q 

Var (Rp,n+1| Fn) 

Z 

α ⇒ V aRn,n+1,α = − E (Rp,n+1| Fn) + q Z 

 

α Var (Rp,n+1| Fn) 

431 

Vn

Tendo em conta que Rp,n+1 = m 

i=1 ωiRi,n+1 = ω ′ rn+1, tem-se Rp,n+1 = E (Rp,n+1| Fn) = 

ω ′ µ n+1 e Var (Rp,n+1| Fn) = ω ′ Hn+1ω e, finalmente 

V aRn,n+1,α = − ω ′ µ n+1 + qN √ 

α ω ′ 

Hn+1ω Vn 

onde q N α é o quantil de ordem α da distribuição N (0, 1) . 

Exemplo 13.4.1 Considere-se um portfolio, no momento n, constituído por de 1 milhão de 

Euros no título 1 e 2 mihões no título 2. Admita-se a seguinte distribuição 

⎛ 

⎝ R1,n+1 

Tem-se para α = 0.05 

R2,n+1 

 

 

 

 

 

V aRn,n+1,α = 1.645 

1/3 2/3 

⎞ 

 

 

⎠ 

 

Fn 

⎛⎛ 

∼ N ⎝⎝ 

0 

⎞ ⎛ 

⎞⎞ 

0.01 0.002 

⎠ , ⎝ ⎠⎠ 

. 

0 0.002 0.005 

⎛ 

⎝ 

⎞ ⎛ 

0.01 0.002 

⎠ ⎝ 

0.002 0.005 

1/3 

⎞ 

⎠ × 3 = 0.32 milhões. 

2/3 

O valor em risco com uma probabilidade de 0.05 para um horizonte temporal de h = 1 

período é de cerca de 0.32 milhões de euros. 

Se considerassemos os dois activos separadamente teríamos: 

V aR do título 1 = 1.645 √ 0.01 × 1 = 0.164 

V aR do título 2 = 1.645 √ 0.005 × 2 = 0.232. 

Observa-se que a soma dos VaR individuais, 0.164 + 0.232 = 0.396, é maior do que o VaR 

do portfolio. 

13.5 Abordagem pela Teoria dos valores Extremos 

A teoria dos valores extremos é um ramo da estatística que se preocupa essencialmente com 

o comportamento probabilístico dos valores extremos da amostra e, portanto, centra a sua 

análise nas caudas da distribuição. Esta análise é importante em todos os fenómenos em 

que a ocorrência de valores muitos altos e muitos baixos é relevante, como por exemplo, 

ocorrência de cheias, furacões, recordes desportivos, etc. A teoria dos valores extremos tem 

432

também sido aplicada na actividade seguradora e, mais recentemente, nas área das finanças, 

no cálculo do VaR. 

Recorde-se a abordagem não paramétrica. Vimos que o VaR pode estimado a partir da 

expressão 

V aRn,n+1,α = −˜q r αVn 

(13.10) 

onde ˜q r α é o quantil empírico de ordem α da série de retornos {Rt} (também poderia ser a 

partir de {rt}). Como referimos no ponto 13.2, a estimativa ˜qα é muito imprecisa quando 

α é muito baixo (ou muito alto). Como iremos ver a teoria dos valores extremos tem uma 

resposta para este problema. O objectivo deste ponto é obter uma estimativa para qa via 

teoria dos valores extremos. 

13.5.1 Introdução à Teoria e Estimação. VaR Marginal 

A teoria dos valores extremos trata habitualmente os eventos extremos que ocorrerm na 

aba direita da distribuição. Seguiremos esta lógica na introdução e, depois, por analogia, 

focaremos a aba esquerda que é a relevante para o cálculo do VaR. O leitor poderá consultar 

o livro de Franke et. al (2008) para mais pormenores sobre a teoria. 

Seja {yt; i = 1, 2, ..., n} uma sucessão de v.a. i.i.d. e Mn = max {y1, y2, ..., yn} o máx- 

imo da amostra. Pode-se provar que se existirem constantes normalizadoras cn > 0, dn ∈ R 

e uma distribuição não degenerada H (isto é, que não atribui toda a massa de probabilidade 

a um único ponto) tal que c−1 d 

n (Mn − dn) −→ H, então H é da forma 

 

Hξ (x) = exp − (1 + ξx) −1/ξ 

, 1 + ξx > 0, ξ = 0. 

Nestas circunstâncias, para n suficientemente grande, tem-se P (c−1 n (Mn − dn) ≤ x) 

 

Hξ (x) (ou, P (Mn ≤ x) Hξ para algum λ ∈ R e δ > 0). O caso ξ = 0 deve 

x−λ 

δ 

ser interpretado no seguinte sentido: H0 (x) = limξ→0 Hξ (x) = e−e−x. H é designado na 

literatura por Generalised Extreme Value distribution (GEV) 

Quando o resultado anterior se verifica para a v.a. y, com função de distribuição F e 

distribuição limite H, diz-se que F pertence ao domínio máximo de atracção da distribuição 

H e, neste caso, escreve-se F ∈ DM (H). 

A metodologia de estimação que iremos apresentar, intitulada POT (peaks-over-threshold), 

assenta na seguinte proposição: 

433

Proposição 13.5.1 Suponha-se que {yt} é uma sucessão de v.a. com função de distribuição 

F . Então as seguintes proposições são equivalentes: 1) F ∈ DM (H); 2) para alguma 

função β : R + → R + , 

onde 

 

lim sup Fu (x) − Gξ,β(u) (x) 

u↑xF 0 0, x > 0 se ξ = 0 

β 

1 − e−x , x ≥ 0 se ξ = 0. 

Gξ,β é a função de distribuição generalizada de Pareto e Fu (x) é a designada excess 

distribuition function. A equação (13.11) basicamente estabelece que (na classe das funções 

F tais que F ∈ DM (H)), para valores altos de u, Fu é aproximadamente igual a Gξ,β e, 

portanto, uma estimativa para Fu pode basear-se em Gξ,β (sempre que u é relativamente 

alto). Tendo em conta que, por definição, 

1 − Fu (x) = P (y − u ≥ x| y > u) = 

1 − F (x + u) 

1 − F (u) 

segue-se (considerando o primeiro e o terceiro termo da expressão anterior) 

1 − F (x + u) = (1 − F (u)) (1 − Fu (x)) 

ou (fazendo a substituição de x + u por x, passando agora x a ser definido por x > u), 

1 − F (x) = (1 − F (u)) (1 − Fu (x − u)) , u < x < ∞. (13.12) 

Esta relação juntamente com (13.11) constitui o essencial do método que se expõe para a 

estimação do VaR. Como F e consequentemente Fu são funções desconhecidas, a expressão 

do lado direito de (13.12) pode ser estimada da seguinte forma 

 

1 − ˆ 

F (u) 1 − ˆ 

Fu (x − u) 

434

onde, 

1 − ˆ F (u) = 1 

n 

n 

I{yj>u} = 

j=1 

A estimativa do lado direito de (13.12) é 

 

1 − ˆ 

F (u) 1 − ˆ 

Fu (x − u) = N (u) 

n 

Substitua-se na expressão (13.12), x por qδ: 

1 − F (qδ) = 

1 − δ = 

Resolvendo esta equação para ˆqδ obtém-se 

ˆqδ = u + ˆ β 

ˆ ξ 

N (u) 

n , ˆ Fu (x − u) = ˆ Gˆ ξ, ˆ β (x − u) . 

 

1 − ˆ 

Gˆξ, β ˆ (x − u) = N (u) 

N (u) 

n 

N (u) 

n 

 

1 + ˆ ξ ˆqδ − u 

ˆβ 

 

1 + ˆ ξ ˆqδ − u 

ˆβ 

−1/ ˆ ξ 

−1/ ˆ ξ 

n 

. 

 

1 + ˆ −1/ ˆξ x − u 

ξ . 

ˆβ 

 

−ˆξ n 

(1 − δ) − 1 . (13.14) 

N (u) 

Se δ não for um valor muito alto (perto de 1) podemos usar para estimativa de ˜qδ a 

estatística de ordem [nδ] . Vimos, no entanto, que se δ for um valor muito alto a variância 

assimptótica deste quantil empirico aproxima-se de mais infinito. Nestas circunstâncias, a 

teoria dos valor extremos tem uma solução que consiste em estimar qδ pela expressão (13.14). 

Existem ainda três questões por analisar: 1) Como estimar ξ e β?; 2) como escolher u? e 

3) como obter o VaR? 

Estimação de ξ e β 

Sejam y (1) , y (2) , ..., y (n) as estatísticas de ordem tais que 

y (1) ≥ y (2) ≥ ... ≥ y (N(u)) ≥ ... ≥ y (n) 

e Yi = y (i) − u (nota: y (1) é o valor máximo, y (2) é o segundo valor mais alto etc.; relembra- 

se o leitor que usámos y(1) para o mínimo, y(2) para o segundo mais baixo, etc. Resulta da 

notação que y (1) = y(n), y (n) = y(1), etc.). Para estimar ξ e β dado que N (u) = m é fixo, 

assume-se que Y1, Y2, ..., Ym é uma sucessão de v.a. i.i.d. com distribuição Gξ,β (y) (ξ > 0) . 

435

Logo, a função log-verosimilhança é 

log Lm (ξ, β| Y1, Y2, ..., Ym, N (u) = m) = −m log β − 

 

1 + 1 

 

m 

 

log 1 + 

ξ 

j=1 

ξ 

β Yj 

 

. 

(13.15) 

Os estimadores de máxima verosimilhança ˆ ξ e ˆ β obtém-se a partir da maximização de 

log Lm. Pode-se provar que, para ξ > −1/2 e m → ∞ 

⎛ 

√ 

m ⎝ ˆξ − ξ 

⎞ 

⎠ 

− 1 

d 

⎛⎛ 

−→ N ⎝⎝ 

0 

⎞ ⎛ 

⎠ , ⎝ 

0 

(1 + ξ)2 − (1 + ξ) 

− (1 + ξ) 2 (1 + ξ) 

ˆβ 

β 

Como escolher u? 

⎞ 

⎠ 

−1⎞ 

Quando u é muito alto o valor de N (u) é baixo (significa que o número de observações 

efectivamente usadas na estimação é baixo) e a variância do estimador tende a ser alta. 

Quando u é baixo, a aproximação para Fu (x) , usando a distribuição Gξ,β (x) tenderá a 

ser pobre e, como consequência o estimador ˆqδ pode vir fortemente enviesado. 

Para ajudar na escolha de u considera-se o seguinte resultado: se Z ∼ Gξ,β e 0 ≤ ξ < 1, 

então the average excess function é linear: 

e (u) = E (Z − u| Z > u) = β ξ 

+ u, u ≥ 0, 0 ≤ ξ < 1. 

1 + ξ 1 + ξ 

Este resultado sugere seleccionar o limiar u de forma que a função estimada para e (u) , 

en (v) , para os valores v ≥ u seja (aproximadamente) linear. Pode-se provar que 

en (u) = 1 

N (u) 

n 

max {(yj − u) , 0} . 

j=1 

Para verificar se en (v) é (aproximadamente) linear pode-se analisar no plano o gráfico dos 

pontos 

y(k), en onde y(1), y(2), ..., y(n) são as estatísticas de ordem tais que 

y(k) 

y(1) ≤ y(2) ≤ ... ≤ y(n). 

 

Devido à alta variabilidade de en y(k) quando k alto, recomenda-se a eliminação desses 

pontos na análise gráfica. 

Como obter o VaR? 

Como focámos a cauda direita da distribuição (e a que interessa é a esquerda) assume- 

436 

⎠ .

se yt = −rt. Assim, se ˆqδ é o quantil de ordem δ associada à variável y, então ˆq r α = −ˆqδ 

com α = 1 − δ, é o quantil de ordem α associado à variável r. Pela equação (13.10), uma 

estimativa para o VaR é 

V aR = −ˆq r αVn = ˆqδVn, δ = 1 − α. 

Para obter o VaR a α100% pode-se seguir os seguintes passos: 

1. Definir yt = −rt; 

2. Definir δ = 1 − α; 

3. Seleccionar u; 

 

4. Obter ˆξ, βˆ 

, maximizando (13.15); 

5. Calcular ˆqδ usando a equação (13.14); 

6. Obter o V aR = ˆqδVn 

13.5.2 VaR Condicional 

O ponto anterior assentou na hipótese de {rt; i = 1, 2, ..., n} ser uma sucessão de v.a. i.i.d. 

Esta hipótese é irrealista. O VaR calculado sob esta hipótese não reflecte a volatilidade cor- 

rente no momento n (seria de esperar o VaR aumentasse quando no momento n a volatilidade 

é alta). McNeil e Frey (2000) propõem uma abordagem condicional do VaR no âmbito da 

teoria dos valores extremos. A ideia assenta no modelo ARMA-GARCH rt = µ t +σtεt. Se o 

modelo estiver bem especificado será de esperar que εt se comporte aproximadamente como 

uma sucessão de v.a. i.i.d. Como os resultados principais da teoria dos valores extremos 

se aplicam a sequências i.i.d., é preferível aplicá-los à sucessão {εt} do que directamente 

a {rt} , pois esta sucessão não é geralmente i.i.d., devido à presença de volatilidade não 

constante. 

Seja ˆq ε α o quantil da distribuição de εt obtido seguindo a metodologia do ponto anterior. 

Tem-se assim, 

P (εn+1 < q ε α| Fn) = α 

 

rn+1 − µ n+1 

P 

< q 

σn+1 

ε 

 

 

α 

Fn 

 

= α 

 

= α. 

P rn+1 < µ n+1 + q ε 

ασn+1 Fn 

437

Em suma, uma vez apurado ˆq ε α, o quantil da distribuição condicional de rn+1 vem igual a 

Como {εt} não é observado, toma-se 

q r α = µ n+1 + q ε ασn+1. 

ˆεt = rt − ˆµ t 

ˆσt 

onde ˆµ t e ˆσt são estimativas da média e da variância condicional baseadas em estimadores 

consistentes. Finalmente, 

ˆq r α = ˆµ n+1 + ˆq ˆε αˆσn+1. 

13.6 Avaliação do VaR (Backtesting) 

Neste ponto avalia-se a qualidade da estimativa proposta para o VaR. Esta avaliação é impor- 

tante por várias razões. As empresas (sobretudo bancos) que usam o VaR são pressionadas 

interna e externamente (por directores, auditores, reguladores, investidores) para produzirem 

VaR precisos. Um VaR preciso é fundamental na gestão e controle do risco e na alocação de 

capital. Por essa razão é essencial que empresa teste regularmente as suas medidas de risco, 

na linha das recomendações adoptadas em acordo internacionais. Por outro lado, embora a 

definição de VaR seja muito precisa e objectiva, existem diferentes métodos de estimação do 

VaR, que produzem diferentes estimativas (algumas bastante díspares); por isso, é importante 

identificar a melhor abordagem para o problema concreto em análise. 

Christoffersen e Diebold (2000) analisam a qualidade e a precisão dos intervalos de con- 

fiança produzidos para uma certa série. Parte da metodologia pode ser adaptada na análise 

da qualidade do VaR. Seja V aRt,t−1,α uma estimativa para o VaR a α100% para o período t 

baseado na informação t − 1. Sendo este VaR construído no período t − 1 não se sabe, an- 

tecipadamente, se no período t se tem ou não ∆Vt < −V aRt,t−1,α. Intuitivamente, é natural 

esperar que a desigualdade ∆Vt < −V aRt,t−1,α, com t a variar, ocorra α100% das vezes. 

Considere-se o evento aleatório, 

It = 

⎧ 

⎨ 

⎩ 

V aRt,t−1,α 

1 se ∆Vt < −V aRt,t−1,α ou rt < − Vt−1 

0 no caso contrário. 

438

Diz-se que a previsão do VaR produz uma cobertura marginal correcta (correct uncondi- 

cional coverage) se 

P (It = 1) = α ⇔ E (It) = α. 

Se esta condição se verifica então em α100% dos casos deverá observar-se ∆Vt < −V aRt,t−1,α. 

É exactamente este raciocínio que se estabelece a priori quando se procura definir o VaR a 

α100%. Interessa depois saber se, na prática, essa desigualdade se verifica efectivamente 

em α100% das vezes. Esta condição é, naturalmente, necessária mas não suficiente para 

identificar uma medida VaR como apropriada. Suponha-se, como habitualmente nas séries 

financeiras, que se tem o fenómeno de volatility clustering. Momentos de alta (baixa) volatil- 

idade são seguidos por momentos de alta (baixa) volatilidade. Nestas circunstâncias, o VaR 

deve ser alto nos momentos de alta volatilidade e baixo nos momentos de baixa volatilidade. 

Se o V aRt,t−1,α não reflecte o fenómeno de volatility clustering (nem em termos gerais as 

propriedades da distribuição condicional) então o VaR tenderá a falhar como medida de risco 

em períodos consecutivos. Um VaR assim definido traz a seguinte implicação sobre {It}: em 

momentos de alta volatilidade os 1 ′ s tendem a repetir-se (por exemplo, It = 1, It+1 = 1, 

It+2 = 1, etc.), pois tenderá a observar-se em períodos seguidos ∆Vt < −V aRt,t−1,α e, em 

momentos de baixa volatilidade, uma repetição de 0 ′ s. Ou seja a sucessão It tenderá a ap- 

resentar dependência temporal (será autocorrelacionada). Mesmo neste caso, de autocorre- 

lação de It, poderá ter-se E (It) = α. Por esta razão a cobertura marginal embora necessária 

não é suficiente para identificar o VaR como uma medida precisa. 

Diz-se que a previsão do VaR produz uma cobertura condicional correcta (correct condi- 

cional coverage) se 

P (It = 1| Ft−1) = α ⇔ E (It| Ft−1) = α. 

Esta condição implica ausência de autocorrelação, pois, tendo em conta a lei do valor esper- 

ado iterado, 

Cov (It, It−k) = E (ItIt−k) − E (It) E (It−k) 

= E (It−k E (It| Ft−k)) − E (E (I| Ft−1)) E (E (It−k| Ft−k−1)) 

= E (It−k E (E (It| Ft−1)| Ft−k)) − E (E (I| Ft−1)) E (E (It−k| Ft−k−1)) 

= E (It−k E (α| Ft−k)) − E (α) E (α) = α E (It−k) − α 2 = 0. 

439

Existem várias formas de testar a cobertura marginal e condicional. Por exemplo, se {It} 

é uma sucessão de v.a. i.i.d. e E (It) = α, então ambas as coberturas são válidas. Outra 

possibilidade consiste em analisar somente a cobertura condicional pois, pela lei do valor 

esperado iterado, tem-se, com vimos atrás, 

E (It| Ft−1) = α ⇒ E (It) = E (E (It| Ft−1)) = E (α) = α. 

Analise-se o teste de independência de It. Uma possibilidade neste sentido baseia-se no 

runs test. Procede-se da seguinte forma. Seja X o número sequências seguidas de 1 ′ s ou 

0 ′ s (X é o número de runs) 7 . Por exemplo, na sucessão {0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0} temos 

X = 5. Sejam n0 e n1 o número de zeros e uns, respectivamente, e n = n0 + n1 a dimensão 

da amostra. O número X fornece informação sobre se a amostra é aleatória ou não. Se 

ocorrem poucas sequências de 1 ′ s ou 0 ′ s, como no exemplo, 

{0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1} , (X = 2) 

há indicação de dependência temporal na sucessão. Se ocorrem “demasiadas” sequências, 

como no exemplo, 

{1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1} (X = 13) 

também podemos suspeitar algum tipo de dependência temporal (flutuações cíclicas de período 

curto). Sob a hipótese, H0: {It} é uma sucessão de v.a. independentes, a distribuição de X 

dado n0 e n1 é conhecida. Quando n0 > 20 ou n1 > 20 é mais conveniente usar-se o 

resultado assimptótico. Sob H0 tem-se 

Z = X − E (X) 

Var (X) 

d 

−→ N (0, 1) 

7O número máximo que X pode assumir é 

 

2 min {n0, n1} se n0 = n1 

max X = 

2 min {n0, n1} + 1 se n0 = n1. 

440

onde 

E (X) = 2n0n1 

+ 1 

n 

Var (X) = 2n0n1 (2n0n1 − n) 

n2 . 

(n − 1) 

O teste é bilateral (afastamento à hipótese nula pode dever-se quando X é alto ou baixo). 

Rejeita-se H0 se a probabilidade P (|Z| > |zobs|) estiver abaixo do nível de significância 

fixado. 

Se a hipótese H0 não pode ser rejeitada pelos dados, pode-se assumir que {It} é uma 

sucessão de v.a. i.i.d. com distribuição de Bernoulli de parâmetro E (It) . Interessa agora 

investigar a cobertura marginal, i.e. se E (It) coincide com α. Seja Sn = n 

i=1 Ii = n1 a 

soma dos 1 ′ s que, como se sabe, tem distribuição Binomial de parâmetros (n, E (It)) . Sob a 

hipótese 

H0: E (It) = α 

a estatística de teste (rácio de verosimilhanças) 

RV = −2 log 

L (α| H0) 

L (ˆα) = −2 log αn1 (1 − α) n0 

ˆα n1 (1 − ˆα) n0 

tem distribuição assimptótica χ 2 (1) . ˆα é o estimador de máxima verosimilhança, ˆα = n1/n e 

α é a probabilidade previamente fixada para o VaR (por exemplo, α = 0.01 ou α = 0.05). 

Exemplo 13.6.1 Suponha-se que numa amostra de 800 observações foi calculado o VaR a 

5% (α = 0.05). Observou-se n0 = 750, n1 = 50, X = 90 (na amostra a desigualdade 

∆Vt < −V aRt,t−1,α verificou-se 50 vezes). Haverá razões para pensar que o VaR a 5 

% é inapropriado? Considere-se primeiro a hipótese, H0: {It} é uma sucessão de v.a. 

independentes. Tem-se: 

zobs = 90 − 2n0n1 

n 

+ 1 

 

2n0n1(2n0n1−n) 

n2 (n−1) 

= 90 − 94.75 

3.298 

= −1.43. 

Como o valor-p P (|Z| > 1.43) 0.15 é relativamente alto não se rejeita H0. Considere-se 

agora H0: E (It) = 0.05. Tem-se ˆα = n1/n = 0.0625 e 

RVobs = −2 log 0.05n1 (1 − 0.05) n0 

ˆα n1 (1 − ˆα) n0 

441 

= 2.447.

Como o valor-p P χ2 

(1) > 2.477 0.118 é relativamente alto não se rejeita H0. 

Assim, existe evidência de que o VaR estimado é uma medida adequada. 

Se It segue uma cadeia de Markov (em tempo discreto, com espaço de estado {0, 1}), o 

teste run pode apresentar baixa potência 8 , isto é, se o usamos o teste run quando It segue 

uma cadeia de Markov, a probabilidade de rejeitar independência pode ser baixa. 

Suponha-se que It segue uma cadeia de Markov com a seguinte matriz de probabilidades 

de transição 

P = 

⎛ 

⎝ 1 − p01 p01 

1 − p11 p11 

onde pij = P (It = j| It−1 = i) . Só no caso muito particular p01 = p11, {It} é uma sucessão 

de v.a. i.i.d. (com distribuição de Bernoulli). Com efeito, sob a hipótese de independência, 

p01 = P (It = 1| It−1 = 0) = P (It = 1| It−1 = 1) = p11 

ou seja, a probabilidade de It = 1 não depende do valor assumido por I no período anterior 

(e, pode provar, também não depende da história passada de I). Nesta condições It é não 

autocorrelacionado 9 . Imagine-se, pelo contrário, a seguinte matriz de probabilidades, 

⎛ 

⎝ 

0.8 0.2 

0.1 0.9 

Calcule-se a probabilidade de It = 1. Se It−1 = 1 a probabilidade de It = 1 é 0.9, mas se 

It−1 = 0 a probabilidade de I passar para o estado 1 é de apenas 0.2. Observa-se, portanto, 

forte dependência temporal na sucessão It. 

Para ensaiar independência, a hipótese nula mantém-se no essencial como no teste runs 

test, H0: {It} é uma sucessão de v.a. independentes ou seja H0: p01 = p11. Para a avaliarmos 

o rácio de verosimilhanças é necessário obter-se, em primeiro lugar, a função de verosimil- 

⎞ 

⎠ . 

hança associada a sucessão {I1, ..., In}; facilmente se conclui que 

L (pij) = (1 − p01) n00 p n01 

01 (1 − p11) n10 p n11 

11 , 

onde nij é o número de vezes em que I passou de i para j. As estimativas de máxima 

8 A potência de um teste é a probabilidade de rejeitar H0 dado que H1 é verdadeira. 

9 Pode-se provar que Corr (It, It−1) = p11 − p01. Logo se p11 = p01 a correlação entre It e It−1 é nula. 

Nestas condições pode-se também provar que Corr (It, It−k) = 0, para k ∈ N. 

442 

⎞ 

⎠

verosimilhança de pij obtêm-se facilmente a partir de L (pij) , 

ˆp01 = n01/n, ˆp11 = n11/n. 

Por outro lado, sob H0: p01 = p11 (substitua-se p01 e p11 por p1) 

RV = −2 log L (pij| H0) 

L (ˆpij) 

= −2 log 

(1 − ˆp1) n00+n10 n01+n11 ˆp 1 

(1 − ˆp01) n00 n01 ˆp 01 (1 − ˆp11) n10 n11 ˆp 11 

d 

−→ χ 2 (1) 

onde ˆp1 = (n01 + n11) /n. Uma variante interessante deste teste consiste em tomar como 

hipótese nula H0: p01 = p11 = α (não só se testa a independência como também a cobertura 

marginal, E (It) = α). Com se têm agora duas restrições impostas em H0 (p01 = p11, 

p01 = α), a estatística de teste é 

RV = −2 log 

(1 − α) n00+n10 α n01+n11 

(1 − ˆp01) n00 n01 ˆp 01 (1 − ˆp11) n10 n11 ˆp 11 

d 

−→ χ 2 (2). 

A vantagem deste teste do ponto de vista prático é clara: de uma vez só, ensaia-se a cobertura 

marginal e condicional. 

Estes testes, baseados no modelo da cadeia de Markov sofrem no entanto de uma lim- 

itação: baseiam-se em dependências de primeira ordem. Ora, pode suceder que It dado 

It−1 dependa ainda de It−2. Neste caso, os testes baseados no modelo da cadeia de Markov, 

podem perder bastante potência. 

Clements e Taylor (2003) generalizam a abordagem anterior. A hipótese E (It| Ft−1) = 

α sugere que It dado Ft−1 apenas depende de uma constante, α. Assim, se It depende de 

alguma variável Ft−1 mensurável, a hipótese E (It| Ft−1) = α deve ser rejeitada. Para testar 

a possibilidade de It depender de alguma variável Ft−1 mensurável, uma possibilidade con- 

siste em fazer uma regressão de It sobre as variáveis definidas em Ft−1 (como por exemplo, 

It−1, It−2, ..., variáveis dummy reportadas a t − 1, t − 2, etc., retornos, etc.), 

It = α0 + 

k 

i=1 

αiIt−i + x ′ t−1β + ut 

onde x ′ t−1 é um vector 1 × m de variáveis Ft−1 mensuráveis (que de alguma forma podem 

estar parcialmente correlacionadas com It) e β é um vector de parâmetros m × 1. A hipótese 

de correcta cobertura marginal e condicional envolve o ensaio H0 : α1 = 0, ..., αk = 0, β = 

0, α0 = α. Naturalmente a estatística F pode ser usada. Tendo em conta a natureza da 

443

variável I, em princípio seria mais apropriado uma regressão binária. No entanto, Sarma et 

al. (2003) refere que na presença de forte assimetria dos dados (mais de 95% ou 99% dos 

dados são 0’s ou 1’s) a regressão binária envolve problemas técnicos. Para grande amostras 

o estimador OLS é apropriado. 

444


445

Referências 

(referências incompletas!) 

Basrak, B., R. Davis e T. Mikosch (2002). Regular variation of GARCH processes. Sto- 

chastic Processes and their Applications 99(1), pp. 95-115. 

Christiansen, C. (2007). Volatility-Spillover Effects in European Bond Markets. European 

Financial Management, 13 (5), pp. 923-948. 

Bauwens, L., A. Preminger e J. Rombouts (2006). Regime switching GARCH models. 

Département des Sciences Economiques Working Paper 2006-6. 

Christoffersen, P. e F, Diebold (2000). How Relevant is Volatility Forecasting for Financial 

Risk Management? Review of Economics and Statistics 82(1), pp. 12-22 

Davies, (1987). Hypothesis testing when a nuisance parameter is present only under the 

alternative. Biometrika 74, pp. 33-43. 

Dimson E., P. Marsh e M. Staunton (2002). Triumph of the Optimists:101 Years of Global 

Investment Returns, Princeton University Press. 

Engle R. (1982). Autoregressive Conditional Heteroscedasticity with Estimates of the Vari- 

ance of United Kingdom Inflation. Econometrica 50 pp. 987-1007. 

Engle R. (2001). Financial Econometrics - a New Discipline with new Methods. Journal 

of Econometrics 100, pp. 53-56. 

Engle, R. (2002). Dynamic Conditional Correlation: A Simple Class of Multivariate Gen- 

eralized Autoregressive Conditional Heteroskedasticity Models. Journal of Business 

& Economic Statistics, 20(3), pp. 339-50. 

Fama, E. (1970). Efficient Capital Markets: A Review of Theory and Empirical Work. 

Journal of Finance 25 (2), pp. 383-417. 

Engle R. e K. Kroner (1995). Multivariate Simultaneous Generalized ARCH. Econometric 

Theory 11, pp. 122-150. 

Fan, J. e Q. Yao (2005), Nonlinear Time Series, Springer Series in Statistics, New York. 

446

Franke, J., W. Hardle e C. Hafner (2008). Statistics of Financial Markets: An Introduction, 

2 a ed., Springer, Berlin Heidelberg New-York. 

Franses, P. e van Dijk, D. (2000). Nonlinear Time Series Models in Empirical Finance, 

Cambridge University Press, Cambridge. 

Gospodinov, N. (2005). Testing For Threshold Nonlinearity in Short-Term Interest Rates. 

Journal of Financial Econometrics, 3(3), pp. 344-371. 

Gray, S., (1996). Modeling the Conditional Distribution of Interest Rates as a Regime- 

Switching Process. Journal of Financial Economics, 42(1), pp. 27-62. 

Groeneveld, R.A. e G. Meeden (1984). Measuring skewness and kurtosis. The Statistician, 

33, pp. 391-399. 

Lundbergh, S. e T. Teräsvirta (2002). Evaluating GARCH models. Journal of Econometrics 

110(2), pp. 417-435 . 

McNeil, A. e R. Frey (2000). Estimation of Tail-Related Risk Measures for Heteroscedastic 

Financial Time Series: an Extreme Value Approach. Journal of Empirical Finance 7, 

pp. 271-300. 

Mokkadem, A. (1985). Le Modèle Non Linéaire AR(1) Général. Ergodicité et Ergodicité 

Géometrique. Comptes Rendues Academie Scientifique Paris 301(I), pp. 889-892. 

Morgan J., (1996). RiskMetrics Technical Document, Part II: Statistics of Financial Mar- 

ketReturns, 4th edition, New York. 

Murteira, B. (1990). Probabilidades e Estatística, Vol. I e II. Mc Graw-Hill. 

Nelson, D. (1990). Stationarity and persistence in the GARCH(1,1) model. Econometric 

Theory 6, pp. 318-334. 

Nicolau, J. (2004). Equações Diferenciais & Equações às Diferenças, Texto de Apoio n o 

28, CEMAPRE-ISEG/UTL. 

Pascuala L. , J. Romob e E. Ruiz (2006). Bootstrap Prediction for Returns and Volatilities 

in GARCH models. Computational Statistics & Data Analysis, 50(9), pp. 2293-2312. 

Pinto, S. (2010), Transmissão de Volatilidade nos Mercados Financeiros durante Períodos 

de Crises, Tese de Mestrado em Matemática Financeira, ISEG/UTL. 

447

Stelzer, R. (2009). On Markov-Switching Arma Processes? Stationarity, Existence of Mo- 

ments, and Geometric Ergodicity. Econometric Theory, 25(1), pp. 43-62. 

Taylor, H. e S. Karlin (1984). An Introduction to Stochastic Modeling. Academic Press, 

New York. 

Taylor S. (2005). Asset Price Dynamics, Volatility, and Prediction, Princeton University 

Press. 

Wooldridge, J. (1994). Estimation and Inference for Dependent Processes, in Handbook 

of Econometrics, Vol. 4 , pp. 2641-2700., edited by Engle R.F. and McFadden D.L. 

Elsevier Science B.V. , Amsterdam. 

448

Econometria Financeira - Arquivo Escolar

Create successful ePaper yourself

Delete template?

Save as template?