15.04.2013 Views

Econometria Financeira - Arquivo Escolar

Econometria Financeira - Arquivo Escolar

Econometria Financeira - Arquivo Escolar

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Econometria</strong> <strong>Financeira</strong><br />

João Nicolau<br />

ISEG/UTL e CEMAPRE<br />

Abril 2011<br />

(Versão preliminar e incompleta)


Notas Prévias<br />

Comentários são bem vindos (nicolau@iseg.utl.pt). Neste documento abordam-se métodos<br />

econométricos relevantes para finanças. Veremos algumas aplicações financeiras, mas a ên-<br />

fase deste documento está na componente econométrica. A leitura deste documento supõe<br />

conhecimentos sobre inferência estatística e o modelo de regressão linear múltiplo, no que<br />

diz respeito à estimação e à inferência estatísticas sob as hipóteses clássicas.<br />

Notação e Convenções<br />

Escreve-se f (x) para designar a função densidade de probabilidade (fdp) de uma variável<br />

aleatória X. Quando estão em causa duas variáveis aleatórias X e Y, escreve-se, geralmente,<br />

fx e fy para designar, respectivamente, as fdp de X e Y (f (x) e f (y) é, em princípio,<br />

incorrecto). O uso simultâneo das notações f (x) (fdp de X) e f (x, y) (fdp conjunta de<br />

(X, Y )) é conflituoso, pois f ou é uma aplicação de R em R + ou é uma aplicação de R 2<br />

em R + (e, portanto, f não poderá designar simultaneamente ambas as aplicações). A rigor<br />

deverá escrever-se fx e fx,y. No entanto, se não existir perigo de confusão, opta-se pela<br />

notação mais simples e habitual f (x) e f (x, y). Escreve-se também f (y| x) ou fy|x para<br />

designar a fdp condicionada de Y dado X = x. Em suma, nesta versão do documento,<br />

adoptam-se as notações que se entendem necessárias e convenientes de forma a não causar<br />

confusão. Por exemplo, num certo contexto, pode escrever-se f (x, y) e, noutro diferente,<br />

pode escrever-se fy,x.<br />

O processo estocástico {yt, t = 1, 2, ...} escreve-se indiferentemente como {yt} ou y.<br />

a := b significa, a é igual a b por definição. Por exemplo, se quisermos identificar a letra<br />

µ como a média de X, escrevemos µ := E (X). Para este tipo de relações, certos autores<br />

usam µ ≡ E (X) .<br />

Em séries temporais usamos os termos “amostra grande” (ou “amostra pequena”) para<br />

identificar séries temporais longas (ou curtas).<br />

3


Acrónimos e Siglas Frequentemente Usados<br />

An<br />

a<br />

d<br />

∼ N - An tem distribuição aproximadamente normal (usamos −→ para a convergên-<br />

cia em distribuição).<br />

EE - Estritamente estacionário.<br />

EDF - Equação às diferenças Finitas.<br />

EQM - Erro Quadrático Médio.<br />

ESO - Estacionário de segunda ordem ou Estacionaridade de Segunda Ordem.<br />

FAC - Função de Autocorrelação.<br />

FACP - Função de Autocorrelação Parcial.<br />

fdp - Função Densidade de Probabilidade.<br />

HC- Heterocedasticidade Condicional.<br />

IC - Intervalo de Confiânça (ou de previsão, consoante o contexto).<br />

i.i.d. - Independente e Identicamente Distribuído.<br />

RB - Ruído Branco.<br />

v.a. - Variável Aleatória.<br />

4


Conteúdo<br />

I Introdução 13<br />

1 Objecto e Método da <strong>Econometria</strong> <strong>Financeira</strong> 15<br />

2 Preços e Retornos 17<br />

2.1 Retornos Discretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

2.1.1 Retorno Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

2.1.2 Retorno Multi-Períodos . . . . . . . . . . . . . . . . . . . . . . . 19<br />

2.1.3 Retornos de Portfolios . . . . . . . . . . . . . . . . . . . . . . . . 20<br />

2.1.4 Retornos Ajustados aos Dividendos . . . . . . . . . . . . . . . . . 22<br />

2.1.5 Retornos Ajustados à Inflação . . . . . . . . . . . . . . . . . . . . 22<br />

2.1.6 Retornos Anualizados . . . . . . . . . . . . . . . . . . . . . . . . 23<br />

2.2 Retornos Contínuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />

2.2.1 Retorno Multi-Períodos . . . . . . . . . . . . . . . . . . . . . . . 26<br />

2.2.2 Retornos de Portfolio . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />

2.2.3 Retornos Ajustados aos Dividendos . . . . . . . . . . . . . . . . . 27<br />

2.2.4 Retornos Ajustados à Inflação . . . . . . . . . . . . . . . . . . . . 27<br />

2.2.5 Retornos Anualizados . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

2.3 Retornos Contínuos vs. Retornos Discretos . . . . . . . . . . . . . . . . . 30<br />

2.A Outra Interpretação de rt . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />

2.B Notas Técnicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32<br />

2.B.1 Retorno Multi-Períodos como Função dos Retornos Simples . . . . 32<br />

2.B.2 r e R: Série de Taylor . . . . . . . . . . . . . . . . . . . . . . . . 32<br />

3 Factos Empíricos Estilizados de Séries Temporais <strong>Financeira</strong>s 33<br />

3.1 Regularidade Empíricas relacionadas com a Distribuição Marginal . . . . . 33<br />

3.1.1 Prémio de Risco Positivo . . . . . . . . . . . . . . . . . . . . . . . 34<br />

5


3.1.2 Desvios Padrão Diferentes Consoante os Activos . . . . . . . . . . 35<br />

3.1.3 Retornos de Acções e de Índices tendem a Apresentar Assimetria<br />

Negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />

3.1.4 Retornos Apresentam Distribuições Leptocúrticas . . . . . . . . . . 37<br />

3.1.5 Aumento da Frequência das Observações Acentua a Não Normali-<br />

dade das Distribuições . . . . . . . . . . . . . . . . . . . . . . . . 43<br />

3.1.6 Efeitos de Calendário . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />

3.1.7 Distribuições Teóricas para os Retornos . . . . . . . . . . . . . . . 47<br />

3.1.8 Estimação Não Paramétrica da Função Densidade de Probabilidade 54<br />

3.2 Regularidade Empíricas relacionadas com a Distribuição Condicional . . . 55<br />

3.2.1 Autocorrelações Lineares Baixas entre os Retornos . . . . . . . . . 55<br />

3.2.2 Volatility Clustering . . . . . . . . . . . . . . . . . . . . . . . . . 58<br />

3.2.3 Forte Dependência Temporal da Volatilidade . . . . . . . . . . . . 60<br />

3.2.4 Efeito Assimétrico . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />

3.2.5 Aumento da Frequência das Observações Acentua a Não Linearidade 64<br />

3.2.6 Co-Movimentos de Rendibilidade e Volatilidade . . . . . . . . . . 64<br />

4 Processos Estocásticos: Revisões 67<br />

4.1 Processo Estocástico e Filtração . . . . . . . . . . . . . . . . . . . . . . . 67<br />

4.2 Valores Esperados Condicionais: Principais Resultados . . . . . . . . . . . 68<br />

4.3 Distribuição Condicional versus Distribuição Marginal . . . . . . . . . . . 72<br />

4.4 Processos Estocásticos Elementares, Estacionaridade e Fraca Dependência . 77<br />

4.4.1 Processos Estocásticos Elementares . . . . . . . . . . . . . . . . . 77<br />

4.4.2 Estacionaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79<br />

4.4.3 Fraca Dependência . . . . . . . . . . . . . . . . . . . . . . . . . . 83<br />

4.5 Processos Ergódicos e Estritamente Estacionários . . . . . . . . . . . . . . 87<br />

4.5.1 Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87<br />

4.5.2 Modelos Não Lineares do tipo yt = g (yt−1, yt−2, ..., yt−p) + ut . . . 96<br />

4.5.3 Estabilidade em EDF . . . . . . . . . . . . . . . . . . . . . . . . . 99<br />

4.5.4 Modelos Não Lineares do tipo yt = Atyt−1+Bt . . . . . . . . . . 100<br />

4.5.5 Modelos Não Lineares do tipo yt = g (yt−1, u t) . . . . . . . . . . . 104<br />

4.A Demonstrações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106<br />

6


II Modelos 109<br />

5 O Problema da Especificação 111<br />

5.1 O Axioma da Correcta Especificação do Modelo . . . . . . . . . . . . . . . 111<br />

5.2 Modelação da Média Condicional e Modelos Dinamicamente Completos . . 113<br />

5.2.1 Modelos Dinamicamente Completos . . . . . . . . . . . . . . . . . 113<br />

5.2.2 Média Condicional Não Linear . . . . . . . . . . . . . . . . . . . . 115<br />

5.3 Modelação da Variância Condicional . . . . . . . . . . . . . . . . . . . . . 116<br />

5.4 Distribuição de Condicional . . . . . . . . . . . . . . . . . . . . . . . . . 116<br />

6 Modelação da Média: Abordagem Linear 119<br />

6.1 Definições Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120<br />

6.1.1 Autocorrelação de Ordem s (FAC) . . . . . . . . . . . . . . . . . . 120<br />

6.1.2 Autocorrelação Parcial de Ordem s (FACP) . . . . . . . . . . . . . 120<br />

6.1.3 Operador de Diferença e de Atraso . . . . . . . . . . . . . . . . . . 122<br />

6.2 Processos Lineares Estacionários . . . . . . . . . . . . . . . . . . . . . . . 123<br />

6.2.1 Processos Média Móvel . . . . . . . . . . . . . . . . . . . . . . . 123<br />

6.2.2 Processos Autoregressivos . . . . . . . . . . . . . . . . . . . . . . 127<br />

6.2.3 Processos ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . 135<br />

6.3 Processos Lineares Não Estacionários . . . . . . . . . . . . . . . . . . . . 139<br />

6.3.1 Não Estacionaridade na Média . . . . . . . . . . . . . . . . . . . . 139<br />

6.3.2 Não Estacionaridade na Variância . . . . . . . . . . . . . . . . . . 146<br />

6.4 Modelação ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150<br />

6.5 Variáveis Impulse-Dummy em Modelos de Regressão: Cuidados a Observar 154<br />

6.5.1 Inconsistência do Estimador . . . . . . . . . . . . . . . . . . . . . 154<br />

6.5.2 Inconsistência do Teste-t . . . . . . . . . . . . . . . . . . . . . . . 156<br />

6.5.3 Uma Solução para ensaiar H0 : γ = 0 . . . . . . . . . . . . . . . . 156<br />

6.5.4 Impulse-dummies e a matriz de White . . . . . . . . . . . . . . . . 157<br />

6.5.5 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159<br />

6.6 Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160<br />

6.6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160<br />

6.6.2 Previsão Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . 162<br />

6.6.3 Intervalos de Previsão I . . . . . . . . . . . . . . . . . . . . . . . . 168<br />

7


6.6.4 Intervalos de Previsão II - Variância do Erro de Previsão no modelo<br />

ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174<br />

6.6.5 Previsão de (muito) Longo Prazo . . . . . . . . . . . . . . . . . . 177<br />

6.6.6 Qualidade da Previsão . . . . . . . . . . . . . . . . . . . . . . . . 180<br />

6.6.7 Outros Métodos de Previsão Lineares . . . . . . . . . . . . . . . . 188<br />

6.A Método para Obter a FACP . . . . . . . . . . . . . . . . . . . . . . . . . . 190<br />

6.B Transformação de um Processo MA(1) Não Invertível num Invertível . . . 191<br />

6.C Invertibilidade de Processos MA (exemplos) . . . . . . . . . . . . . . . . . 192<br />

6.D Estacionaridade de 2 a Ordem do Processo AR(1) . . . . . . . . . . . . . . 195<br />

6.E Estacionaridade de 2 a Ordem do Processo AR(p) . . . . . . . . . . . . . . 198<br />

6.F Processos ARMA Sazonais . . . . . . . . . . . . . . . . . . . . . . . . . . 199<br />

6.G Demonstração da Proposição 6.5.1 . . . . . . . . . . . . . . . . . . . . . . 203<br />

6.H Uma Nota sobre Intervalos de Confiança . . . . . . . . . . . . . . . . . . . 204<br />

6.I U E + U V + U C = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206<br />

7 Modelação da Média: Abordagem Não Linear 207<br />

7.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207<br />

7.2 Estabilidade em Equações às Diferenças Finitas Determinísticas . . . . . . 210<br />

7.2.1 Pontos Fixos e Estabilidade de Sistemas Lineares . . . . . . . . . . 211<br />

7.2.2 Estabilidade de Sistemas Não Lineares . . . . . . . . . . . . . . . 217<br />

7.2.3 Pontos Periódicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 227<br />

7.3 Modelo Limiar Autoregressivo (Threshold AR - TAR) . . . . . . . . . . . 234<br />

7.3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234<br />

7.3.2 Soluções Periódicas . . . . . . . . . . . . . . . . . . . . . . . . . 236<br />

7.3.3 Estacionaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240<br />

7.3.4 Exemplo (Bounded Random Walk) . . . . . . . . . . . . . . . . . . 241<br />

7.3.5 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242<br />

7.3.6 Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245<br />

7.4 Modelo Markov-Switching . . . . . . . . . . . . . . . . . . . . . . . . . . 248<br />

7.4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248<br />

7.4.2 Cadeias de Markov em tempo discreto com espaço de estados dis-<br />

cretos finito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249<br />

7.4.3 Modelos Markov-Switching . . . . . . . . . . . . . . . . . . . . . 254<br />

8


7.4.4 Função densidade de probabilidade de y . . . . . . . . . . . . . . . 255<br />

7.4.5 Probabilidades Associadas aos Regimes . . . . . . . . . . . . . . . 256<br />

7.4.6 Estacionaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260<br />

7.4.7 Estimação e Inferência . . . . . . . . . . . . . . . . . . . . . . . . 263<br />

7.4.8 Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265<br />

7.4.9 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266<br />

8 Modelação da Heterocedasticidade Condicionada - Caso Univariado 269<br />

8.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269<br />

8.1.1 Por que razão a volatilidade não é constante? . . . . . . . . . . . . 269<br />

8.1.2 Processos Multiplicativos . . . . . . . . . . . . . . . . . . . . . . 272<br />

8.1.3 Distribuições de Caudas Pesada . . . . . . . . . . . . . . . . . . . 273<br />

8.1.4 O papel da Média Condicional e o Modelo de Heterocedasticidade<br />

Condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274<br />

8.1.5 Vantagens dos modelos de Heterocedasticidade Condicionada . . . 274<br />

8.2 Modelo ARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275<br />

8.2.1 Dois Primeiros Momentos de ut . . . . . . . . . . . . . . . . . . . 277<br />

8.2.2 Representação AR de um ARCH . . . . . . . . . . . . . . . . . . . 277<br />

8.2.3 Estacionaridade de Segunda Ordem do ARCH(q) . . . . . . . . . . 278<br />

8.2.4 FAC e FACP de um u 2 t e Identificação do Processo ARCH(q) . . . . 279<br />

8.2.5 Características da Distribuição Marginal de ut . . . . . . . . . . . . 280<br />

8.2.6 Momentos e Distribuição de y . . . . . . . . . . . . . . . . . . . . 282<br />

8.2.7 Volatilidade: Definições . . . . . . . . . . . . . . . . . . . . . . . 283<br />

8.3 Modelo GARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284<br />

8.3.1 GARCH(p,q) representa um ARCH(∞) . . . . . . . . . . . . . . . 284<br />

8.3.2 Representação ARMA de um GARCH . . . . . . . . . . . . . . . 286<br />

8.4 Modelo IGARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288<br />

8.4.1 Persistência na Variância . . . . . . . . . . . . . . . . . . . . . . . 290<br />

8.4.2 Alterações de Estrutura e o IGARCH . . . . . . . . . . . . . . . . 293<br />

8.4.3 EWMA (Exponential Weighted Moving Averages) . . . . . . . . . 294<br />

8.5 Modelo CGARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297<br />

8.6 Modelo GJR-GARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298<br />

8.7 Modelo GARCH-M . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300<br />

9


8.8 Modelo de Heterocedasticidade Condicionada com Variáveis Explicativas . 301<br />

8.9 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303<br />

8.9.1 Estimador de Máxima Verosimilhança . . . . . . . . . . . . . . . . 304<br />

8.9.2 Estimador de Pseudo Máxima Verosimilhança . . . . . . . . . . . . 309<br />

8.9.3 Método da Máxima Verosimilhança com Distribuições Não Normais 310<br />

8.10 Ensaios Estatísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312<br />

8.10.1 Ensaios Pré-Estimação . . . . . . . . . . . . . . . . . . . . . . . . 313<br />

8.10.2 Ensaios Pós-Estimação . . . . . . . . . . . . . . . . . . . . . . . . 316<br />

8.11 Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320<br />

8.11.1 Previsão da Variância Condicional . . . . . . . . . . . . . . . . . . 321<br />

8.11.2 A Previsão da Variável Dependente y . . . . . . . . . . . . . . . . 324<br />

8.11.3 Intervalos de Confiança para y e para a Volatilidade baseados em<br />

Boostrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327<br />

8.12 Problema dos Erros de Especificação na Média Condicional . . . . . . . . 329<br />

8.13 Modelos Não Lineares na Média combinados com o GARCH . . . . . . . . 331<br />

8.13.1 Modelo Limiar Autoregressivo com Heterocedasticidade Condicionada331<br />

8.13.2 Modelo Markov-Switching com Heterocedasticidade Condicionada 333<br />

8.A Estabilidade de EDF e a Estacionaridade (Caso modelo ARCH) . . . . . . 335<br />

9 Modelação da Heterocedasticidade Condicionada - Caso Multivariado 339<br />

9.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339<br />

9.2 Densidade e Verosimilhança . . . . . . . . . . . . . . . . . . . . . . . . . 341<br />

9.3 Modelo VECH (ou VEC) . . . . . . . . . . . . . . . . . . . . . . . . . . . 342<br />

9.4 Modelo Diagonal VECH . . . . . . . . . . . . . . . . . . . . . . . . . . . 346<br />

9.5 Modelo BEKK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348<br />

9.6 Modelo de Correlações Condicionais Constantes . . . . . . . . . . . . . . 349<br />

9.7 Modelo DCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351<br />

9.8 Modelo “Triangular” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352<br />

9.8.1 Introdução e Formalização do Modelo . . . . . . . . . . . . . . . . 352<br />

9.8.2 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357<br />

9.8.3 Testes e Rácios de Variância . . . . . . . . . . . . . . . . . . . . . 359<br />

9.8.4 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360<br />

9.9 GARCH Ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362<br />

10


9.10 Testes de Diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368<br />

10 Regressão Não Paramétrica 371<br />

10.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371<br />

10.2 Estimação Não Paramétrica da Função Densidade de Probabilidade . . . . 371<br />

10.2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371<br />

10.2.2 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373<br />

10.2.3 Escolha de h . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374<br />

10.2.4 Estimação localmente linear da Média Condicional . . . . . . . . . 376<br />

10.2.5 Estimação localmente linear da Variância Condicional . . . . . . . 382<br />

10.A Demonstrações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382<br />

III Aplicações 389<br />

11 Eficiência do Mercado de Capitais 391<br />

11.1 Introdução e Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391<br />

11.2 Teste à Eficiência Fraca de Mercado . . . . . . . . . . . . . . . . . . . . . 392<br />

11.2.1 Testes de Autocorrelação . . . . . . . . . . . . . . . . . . . . . . . 394<br />

11.2.2 Regras de Compra e Venda e a Análise Técnica . . . . . . . . . . . 395<br />

11.3 Teste à Eficiência Semi-Forte de Mercado . . . . . . . . . . . . . . . . . . 400<br />

11.3.1 Reacção do Mercado à Chegada de Informação . . . . . . . . . . . 401<br />

12 Selecção de Portfolios 405<br />

12.1 Portfolio Baseado em Momentos Marginais . . . . . . . . . . . . . . . . . 405<br />

12.1.1 Todos os Activos Envolvem Risco . . . . . . . . . . . . . . . . . . 406<br />

12.1.2 Modelo com Activo Sem Risco . . . . . . . . . . . . . . . . . . . 411<br />

12.2 Portfolio Baseado em Momentos Condicionais . . . . . . . . . . . . . . . 413<br />

13 Risco de Mercado e o Valor em Risco 417<br />

13.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417<br />

13.2 Abordagem Não Paramétrica . . . . . . . . . . . . . . . . . . . . . . . . . 419<br />

13.3 Abordagem Paramétrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 422<br />

13.3.1 Modelo Gaussiano Simples . . . . . . . . . . . . . . . . . . . . . 424<br />

13.3.2 Modelo RiskMetrics . . . . . . . . . . . . . . . . . . . . . . . . . 425<br />

11


13.3.3 Modelo ARMA-GARCH . . . . . . . . . . . . . . . . . . . . . . . 426<br />

13.4 Generalização: Portfolio com m Activos . . . . . . . . . . . . . . . . . . . 431<br />

13.5 Abordagem pela Teoria dos valores Extremos . . . . . . . . . . . . . . . . 432<br />

13.5.1 Introdução à Teoria e Estimação. VaR Marginal . . . . . . . . . . . 433<br />

13.5.2 VaR Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . 437<br />

13.6 Avaliação do VaR (Backtesting) . . . . . . . . . . . . . . . . . . . . . . . 438<br />

12


Parte I<br />

Introdução<br />

13


Página em branco<br />

14


Capítulo 1<br />

Objecto e Método da <strong>Econometria</strong><br />

<strong>Financeira</strong><br />

(Última actualização: 11/2009)<br />

Entende-se que “Financial econometrics is simply the application of econometric tools to<br />

financial data” (Engle, 2001). A econometria financeira é, portanto, uma disciplina econométrica<br />

(baseada em métodos estatísticos e matemáticos) vocacionada para analisar dados finan-<br />

ceiros. Esta análise serve de suporte a variadíssimos estudos como por exemplo,<br />

• avaliação do risco (por exemplo, através do Value at Risk);<br />

• avaliação de obrigações, opções, etc.;<br />

• previsão da volatilidade;<br />

• gestão de portfolios;<br />

• análise da previsibilidade e eficiência dos mercados, etc.<br />

Sendo a econometria financeira a aplicação de métodos econométricos adequados a da-<br />

dos financeiros, todos os métodos estatísticos que de uma forma ou outra se apliquem a dados<br />

financeiros, interessam à econometria financeira. De todo o modo, a área proeminente em<br />

econometria financeira é a das séries temporais. Estuda-se, por exemplo, a evolução tempo-<br />

ral das cotações, taxas de câmbio, taxas de juro, etc. Por esta razão, este documento analisa<br />

essencialmente métodos econométricos para séries temporais, sobretudo os métodos que de<br />

alguma forma se adequam às característica próprias das séries financeiras (como sejam, a<br />

não linearidade e a não normalidade).<br />

15


É conveniente distinguir séries temporais de natureza macroeconómica das de natureza<br />

financeira. As principais diferenças são as seguintes:<br />

• dados de natureza macroeconómica (consumo, produto, taxa de desemprego) podem<br />

ser observados mensalmente, trimestralmente ou anualmente; dados financeiros, como<br />

por exemplo, retornos de acções ou taxas de câmbio podem ser observados com uma<br />

frequência muito superior; nalguns casos, com intervalos de minutos ou segundos entre<br />

duas observações consecutivas;<br />

• como consequência do ponto anterior, o número de observações disponíveis de dados<br />

financeiros situa-se na ordem das centenas de milhares. Normalmente, prefere-se tra-<br />

balhar com dados diários (evitando-se os problemas das microestruturas de mercado);<br />

nestes casos trabalham-se com algumas unidades de milhares de observações. Com<br />

as séries macroeconómicas raramente se passam das poucas centenas de observações<br />

(quando, na melhor das hipóteses, se têm observações mensais);<br />

• os dados macroeconómicos são menos fiáveis, i.e., estão mais sujeitos a erros de<br />

medição. Com efeito, os valores apurados não resultam de valores efectivamente ob-<br />

servados no mercado, como sucede com a generalidade das séries financeiras, mas<br />

antes de valores apurados de acordo com certa metodologia e decorrentes de inquéri-<br />

tos preliminares;<br />

• todavia, a principal diferença qualitativa decorre das propriedades estatísticas dos dois<br />

tipos de séries. Ao contrário das séries macroeconómicas, as séries financeiras exibem<br />

habitualmente fortes efeitos não lineares e distribuições não normais. As propriedades<br />

estatísticas das séries financeiras serão estudadas no capítulo 3.<br />

16


Capítulo 2<br />

Preços e Retornos<br />

(Última actualização: 2/2011)<br />

O ponto de partida para a análise estatística é normalmente uma série de preços (por<br />

exemplo, a série das cotações de fecho do Banco XYZ num certo intervalo de tempo). De<br />

uma forma geral, o preço pode ser, por exemplo, o valor a que um intermediário financeiro<br />

informa estar disposto a pagar pela compra de um determinado activo, opção ou futuro (bid<br />

price), o valor a que um intermediário financeiro informa estar disposto a receber pela venda<br />

de um determinado activo, opção ou futuro (ask price), o valor final da transacção, o valor<br />

definido num mercado de futuros, entre outros.<br />

O intervalo de tempo entre dois preços consecutivos é uma variável aleatória com valores<br />

em R + . Isto significa que se poderia considerar uma sucessão de preços {Pt1, Pt2, ..., Ptn}<br />

com δi = ti − ti−1 não constante. Não obstante, prefere-se normalmente trabalhar com<br />

uma periodicidade fixa. Por exemplo, se análise empírica de certo fenómeno aconselha o<br />

tratamento diário dos preços, a sucessão pertinente passará a ser {P1, P2, ..., Pn} onde Pt<br />

representa habitualmente o valor de fecho no dia t. O tratamento estatístico do caso em que<br />

δi = ti − ti−1 é encarado como uma variável aleatória, é um pouco mais delicada, e insere-se<br />

na área dos modelos de muita alta-frequência.<br />

Depois de coligidos os preços, calculam-se os retornos associados (veremos nos pon-<br />

tos seguintes duas fórmulas alternativas de cálculo). Na figura 2-1 apresentam-se preços e<br />

retornos da Microsoft no período Janeiro de 1988 a Fevereiro de 2006.<br />

Prefere-se geralmente a sucessão dos retornos ou das rendibilidades à sucessão dos preços.<br />

Por um lado, a sucessão dos retornos fornece tanta informação sobre a oportunidades de in-<br />

vestimento quanto a sucessão dos preços. Deste ponto de vista é indiferente trabalhar-se<br />

17


60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

Jan­88<br />

0.2<br />

0.15<br />

0.1<br />

0.05<br />

0<br />

­0.05<br />

­0.1<br />

­0.15<br />

­0.2<br />

Jan­88<br />

Jan­90<br />

Jan­90<br />

Jan­92<br />

Jan­92<br />

Jan­94<br />

Preços Microsoft<br />

Jan­96<br />

Jan­98<br />

Retornos Microsoft<br />

Jan­94<br />

Jan­96<br />

Figura 2-1: Preços e Retornos diários da Microsoft no período Jan 88 a Fev 06<br />

com qualquer das sequências. Há, todavia, uma razão de peso para se preferir a sucessão<br />

dos retornos: esta é mais fácil de modelar. Veremos adiante, com mais pormenor, que a<br />

sucessão dos preços é quase sempre não estacionária, ao passo que a sucessão dos retornos<br />

é tendencialmente estacionária (facilitando, por isso, a aplicação de resultados essenciais,<br />

como sejam, a lei dos grande números e o teorema do limite central) 1 .<br />

Há duas formas de obtermos o retorno associado ao preço que descreveremos a seguir.<br />

2.1 Retornos Discretos<br />

Seja Pt a cotação de um certo activo no momento t. Suponhamos que P é observado nos<br />

momentos t = 1, 2, ..., n (podemos supor que temos n observações diárias).<br />

1 Taxas de câmbio real e taxas de juro podem ser analisadas nos níveis e não nas primeiras diferenças, se<br />

existir evidência de estacionaridade.<br />

18<br />

Jan­98<br />

Jan­00<br />

Jan­00<br />

Jan­02<br />

Jan­02<br />

Jan­04<br />

Jan­04<br />

Jan­06<br />

Jan­06


2.1.1 Retorno Simples<br />

O retorno simples em tempo discreto de um certo investimento no momento t (retorno do<br />

dia t − 1 para o dia t) é definido como<br />

Rt = Pt − Pt−1<br />

Pt−1<br />

= Pt<br />

− 1 (2.1)<br />

Pt−1<br />

(na literatura anglo-saxónica Rt é designado por simple net return e 1 + Rt = Pt/Pt−1 como<br />

simple gross return). Naturalmente, também se tem<br />

Pt = Pt−1 (1 + Rt) .<br />

Esta última expressão mostra que Rt representa, efectivamente, a taxa de rendibilidade de um<br />

certo investimento, adquirido por Pt−1 e vendido por Pt. Se Pt−1 representa o preço unitário<br />

de um activo financeiro e K o número de acções adquiridas em t − 1, a taxa de rendibilidade<br />

do investimento de valor KPt−1 é também, naturalmente, Rt, pois Pt = Pt−1 (1 + Rt) ⇔<br />

PtK = Pt−1K (1 + Rt).<br />

2.1.2 Retorno Multi-Períodos<br />

Suponha-se que {P1, P2, ..., Pn} é a sucessão de preços diários. Podemos estar interessados,<br />

por exemplo, no retorno semanal e, para o efeito, basta considerar<br />

Rt (5) = Pt − Pt−5<br />

Pt−5<br />

(admitindo que se observam cinco preços por semana). De uma forma geral,<br />

Rt (m) = Pt − Pt−m<br />

Pt−m<br />

= Pt<br />

− 1. (2.2)<br />

Pt−m<br />

Para calcular Rt (m) basta atender à expressão (2.2). Suponhamos, no entanto, que Pt e<br />

Pt−m não são conhecidos. A questão é, como calcular Rt (m) a partir dos retornos simples<br />

em t = 1, 2, ...? Pode-se provar (ver apêndice 2.B.1)<br />

Rt (m) = Pt − Pt−m<br />

Pt−m<br />

=<br />

19<br />

t<br />

j=t−m+1<br />

(1 + Rj) − 1.


2.1.3 Retornos de Portfolios<br />

Admita-se que o capital em t − 1 é igual K (unidades monetárias) e existem dois activos<br />

A e B, cujas taxas de rendibilidade são, respectivamente, RA,t e RB,t. Um certa fracção do<br />

capital, ωA, é investido em A e, a parte restante, ωB = 1 − ωA, é investido em B. Desta<br />

forma, o valor do investimento no período seguinte, t, é igual a<br />

e o retorno do portfolio é<br />

K (ωA (1 + RA,t) + ωB (1 + RB,t))<br />

Rp,t = K (ωA (1 + RA,t) + ωB (1 + RB,t)) − K<br />

K<br />

= ωA (1 + RA,t) + ωB (1 + RB,t) − 1<br />

= ωARA,t + ωBRB,t.<br />

Com m activos, tem-se ω1 + ... + ωm = 1 e<br />

Rp,t = ω1R1,t + ω2R2,t + ... + ωmRm,t<br />

m<br />

= ωiRi,t. (2.3)<br />

i=1<br />

Conclui-se portanto que o retorno de um portfolio é igual a uma média ponderada dos vários<br />

retornos do portfolio.<br />

A variância do retorno de um portfolio tende a ser inferior à variância dos retornos do<br />

portfolio. Para analisar esta questão, considere-se<br />

Var (Rp,t) = Var<br />

= ω 2 i<br />

m<br />

m<br />

i=1<br />

i=1<br />

ωiRi,t<br />

<br />

=<br />

m<br />

i=1<br />

m−1 <br />

Var (Ri,t) + 2<br />

m−1 <br />

Var (ωiRi,t) + 2<br />

m<br />

j=1 i=j+1<br />

m<br />

j=1 i=j+1<br />

ωiωi−j Cov (Ri,t, Ri−j,t) .<br />

Cov (ωiRi,t, ωi−jRi−j,t)<br />

Simplifique-se esta expressão. Admita-se que os retornos têm variância igual, Var (Ri,t) =<br />

σ 2 e que os pesos são iguais, ωi = 1/m (estas hipóteses significam que se tomam títulos com<br />

idêntica variabilidade e com o mesmo peso na carteira). Seja<br />

ˆγ =<br />

m−1 m j=1 i=j+1 Cov (Ri,t, Ri−j,t)<br />

m(m−1)<br />

2<br />

20


a “covariância média”, isto é, a média aritmética dos valores de todas as covariâncias distintas<br />

(que são em número de m (m − 1) /2). Sob estas hipóteses, vem<br />

Var (Rp,t) = σ2<br />

m<br />

1<br />

+ 2<br />

m2 ˆγN (m − 1)<br />

2<br />

= σ2<br />

m<br />

ˆγ (m − 1)<br />

+<br />

m<br />

.<br />

Nestas circunstâncias, é fácil verificar que Var (Rp,t) < Var (Ri,t) é equivalente a σ 2 > ˆγ.<br />

Assim, se a variabilidade dos activos (tomados isoladamente) for superior à média aritmética<br />

dos valores de todas as covariâncias distintas, o retorno do portfolio apresenta menor variân-<br />

cia do que a dos activos que a constituem. A desigualdade σ 2 > ˆγ verifica-se trivialmente<br />

se os retornos forem independentes (ˆγ = 0) ou se as covariâncias forem negativas (ˆγ < 0).<br />

A desigualdade σ 2 > ˆγ tende a verificar-se quando as covariâncias são baixas e/ou existem<br />

várias covariâncias negativas. Deve notar-se que a hipótese de independência é inverosímil,<br />

pois os activos partilham aspectos comuns relacionados com o comportamento geral do mer-<br />

cado (risco de mercado).<br />

Uma forma mais convincente de sugerir Var (Rp,t) < Var (Ri,t) é a seguinte. Assuma-<br />

se: (i) os retornos têm variância igual, Var (Ri,t) = σ 2 , (ii) os pesos são iguais, ωi = 1/m e<br />

(iii) as covariâncias são iguais. Resulta por construção que a Var (Rp,t) < Var (Ri,t) . Com<br />

efeito, comece-se por observar que Cov (Ri,t, Ri−j,t) = ρσ 2 (ρ é o coeficiente de correlação).<br />

Nestas condições vem m−1<br />

j=1<br />

m<br />

i=j+1 ρσ2 = ρσ 2 m (m − 1) /2 e, portanto,<br />

Var (Rp,t) = σ2<br />

m<br />

+ 2 1<br />

m 2<br />

ρσ2m (m − 1)<br />

.<br />

2<br />

Verifica-se agora que Var (Rp,t) < Var (Ri,t) é equivalente a ρ < 1. Como, por definição ρ é<br />

menor do que 1, a desigualdade Var (Rp,t) < Var (Ri,t) verifica-se sempre, sob as hipóteses<br />

assumidas. Claro que, na prática, nenhuma das hipóteses (i), (ii) e (iii) se verifica de forma<br />

exacta, mas é seguro dizer-se que, em condições gerais, a diversificação (i.e. m > 1) baixa a<br />

variabilidade do portfolio.<br />

21


2.1.4 Retornos Ajustados aos Dividendos<br />

Se no período t (ou se algures entre t−1 e t) há lugar ao pagamento de dividendos, o retorno<br />

deve reflectir esse acréscimo de rendimento. O retorno total vem<br />

Rt = Pt + Dt − Pt−1<br />

Pt−1<br />

= Pt − Pt−1<br />

Pt−1<br />

+ Dt<br />

Pt−1<br />

onde (Pt − Pt−1) /Pt−1 é, por vezes, referido como capital gain e Dt/Pt−1 como dividend<br />

yield.<br />

2.1.5 Retornos Ajustados à Inflação<br />

Até agora considerámos retornos nominais. Em certos estudos, sobretudo de carácter macro-<br />

económico, tem interesse analisar o retorno real. Para obtermos este retorno, é necessário<br />

expurgar do ganho de capital o “efeito do crescimento geral de preços”. Suponhamos que<br />

a inflação foi de 4% e o retorno (anualizado) foi de 3%. Houve ganho real no investimento<br />

realizado? Se atendermos ao efeito “crescimento geral de preços” a resposta é negativa. É<br />

tentador dizer que a perda real é de 1%. Efectivamente é quase 1%, mas não chega, como<br />

se mostra a seguir. Para obtermos o retorno real, R real<br />

t<br />

considera-se<br />

R real<br />

t<br />

= P real<br />

t<br />

− P real<br />

t−1<br />

P real<br />

t−1<br />

, P real<br />

t = Pt<br />

IP Ct<br />

(ajustado, portanto, da inflação),<br />

sendo IP Ct o índice de preços ao consumidor (índice construído pelo INE, Instituto Na-<br />

cional de Estatística). Observe-se que P real<br />

t<br />

real do activo. Simples álgebra, permite concluir que<br />

R real<br />

t<br />

= P real<br />

t<br />

− P real<br />

t−1<br />

P real<br />

t−1<br />

é o preço deflacionado ou simplesmente o preço<br />

= Pt IP Ct−1<br />

− 1 =<br />

Pt−1 IP Ct<br />

Rt − πt<br />

πt + 1<br />

onde πt = (IP Ct − IP Ct−1) /IP Ct−1. Retomemos o exemplo acima, com Rt = 0.03 e<br />

πt = 0.04; logo,<br />

R real<br />

t<br />

= 0.03 − 0.04<br />

0.04 + 1<br />

= −0.0096<br />

isto é, os retornos reais caiem aproximadamente 1%, para sermos mais exactos, caiem 0.96%.<br />

Quando a inflação é relativamente baixa (por exemplo, se R real<br />

t<br />

22<br />

são retornos reais mensais) é


válida a aproximação,<br />

R real<br />

t<br />

Rt − πt.<br />

Como o IPC está, no máximo, disponível mensalmente, não é possível calcular-se retornos<br />

reais diários.<br />

2.1.6 Retornos Anualizados<br />

Para compararmos, por exemplo, o retorno diário do investimento A com o retorno mensal<br />

do investimento B, é necessário converter as diferentes taxas de rendibilidades a um mesmo<br />

período. Toma-se normalmente como período de referência o ano pelo que, as taxas de<br />

rendibilidade depois de convertidas em rendibilidades anuais dizem-se anualizadas. Supon-<br />

hamos que um certo investimento de valor P0 foi realizado no momento 0. Ao fim de T anos<br />

(T pode ser por exemplo 0.5, isto é, 6 meses) o mesmo investimento vale Pn. A questão que<br />

deveremos colocar é a seguinte: qual é a taxa de rendibilidade anual, RA, tal que, aplicada<br />

a um investimento P0 permite ao fim de T anos obter o investimento Pn? Ou seja, qual é o<br />

valor RA que resolve a equação<br />

P0 (1 + RA) T = Pn ?<br />

Tomando RA como incógnita, facilmente se obtém<br />

1<br />

Pn<br />

T<br />

RA =<br />

P0<br />

− 1. (2.4)<br />

Se os preços P0, P1, ...Pn são diários e se admitirmos que num ano se observam 250 preços,<br />

então T = n/250 (por exemplo, com n = 500 observações diárias, o período de investimento<br />

corresponde a dois anos, T = 500/250 = 2). Nestas condições, a fórmula (2.4) pode-se<br />

reescrever na forma<br />

250<br />

Pn<br />

n<br />

RA =<br />

P0<br />

Em termos gerais, se num ano se observam N preços (por exemplo, N = 12 se as obser-<br />

− 1.<br />

vações são mensais) e dispomos de n observações sobre os preços, então T = n/N e<br />

N<br />

Pn<br />

n<br />

RA =<br />

P0<br />

23<br />

− 1. (2.5)


Exemplo 2.1.1 Queremos comparar os seguintes investimentos:<br />

• O investimento 1 foi adquirido ao preço 1.5. Ao fim de 800 dias (isto é, 800/250 = 3.2<br />

anos) valia 1.9.<br />

• O investimento 2 foi adquirido ao preço 105. Ao fim de 50 meses (isto é, 50/12 = 4.17<br />

anos) valia 121.<br />

Questão: qual dos investimento foi preferível? Para os investimento 1 e 2, as taxa de<br />

rendibilidade anualizadas foram respectivamente de<br />

e,<br />

RA,1 =<br />

RA,2 =<br />

250<br />

1.9 800<br />

− 1 = 0.0766<br />

1.5<br />

12<br />

121 50<br />

− 1 = 0.034,<br />

105<br />

ou seja de 7.66% para o investimento 1 e 3.4% para o investimento 2. O investimento 1 foi,<br />

portanto, preferível.<br />

Quando o período de observação dos preços é relativamente curto as taxas de rendibili-<br />

dade anualizadas podem fornecer valores aberrantes. Por exemplo, se numa semana, devido<br />

à variabilidade dos preços, se observar P0 = 1 e P5 = 1.1, a taxa anualizada é de 1046.7%.<br />

2.2 Retornos Contínuos<br />

Sejam P0 e P1, respectivamente o capital inicial e o capital ao fim de um período. Se o<br />

capital se valorizou continuamente nesse período, qual é a taxa de rendibilidade instantânea<br />

associada? Para discutirmos esta questão, admita-se, para simplificar, que o período é o ano.<br />

Se a capitalização fosse anual, a taxa de rendibilidade Ra resultaria da resolução da equação<br />

P1 = P0 (1 + Ra) em ordem a Ra. Se a capitalização fosse semestral, a taxa de rendibilidade<br />

(semestral) Rs resultaria da resolução da equação<br />

P1 = P0<br />

<br />

1 + Rs<br />

<br />

1 +<br />

2<br />

Rs<br />

<br />

= P0 1 +<br />

2<br />

Rs<br />

2 2<br />

em ordem a Rs. De igual forma, numa capitalização trimestral, ter-se-ia P1 = P0 (1 + Rtr/4) 4 .<br />

Se a capitalização é contínua (capitalização minuto a minuto, segundo a segundo, etc.) então<br />

24


0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

­0.1<br />

­0.2<br />

­0.3<br />

Jan­00<br />

Jul­00<br />

Jan­01<br />

Jul­01<br />

Jan­02<br />

Jul­02<br />

Jan­03<br />

Jul­03<br />

Jan­04<br />

Jul­04<br />

Jan­05<br />

Jul­05<br />

Figura 2-2: Retornos mensais da IBM<br />

o capital P1 pode interpretar-se como o limite de<br />

Como limn→∞<br />

<br />

P1 = lim P0<br />

n→∞<br />

1 + r<br />

n<br />

n<br />

.<br />

<br />

r n r 1 + = e , a taxa de rendibilidade instantânea r resulta da resolução da<br />

n<br />

equação P1 = P0e r em ordem a r (pode-se obter P1 = P0e r resolvendo a equação diferencial<br />

P ′<br />

t = rPt - veja-se o apêndice 2.A). Logaritmizando a equação e resolvendo em ordem a r,<br />

obtém-se<br />

r = log P1 − log P0.<br />

Considere-se agora uma sucessão de preços {P1, P2, ..., Pn} . Define-se a taxa de rendibili-<br />

dade instantânea ou simplesmente o retorno contínuo de um certo investimento no momento<br />

t como<br />

Naturalmente esta expressão é equivalente a<br />

rt = log Pt − log Pt−1 = log Pt<br />

rt = log Pt − log Pt−1.<br />

Pt−1<br />

<br />

= log 1 + Pt<br />

<br />

− 1 = log (1 + Rt) .<br />

Pt−1<br />

Para dados diários, semanais ou mensais pode assumir-se rt Rt (ver apêndice 2.B.2). Na<br />

figura 2-2 as diferenças entre Rt e rt são relativamente pequenas. Se os dados fossem diários<br />

as diferenças seriam ainda mais pequenas.<br />

25<br />

R<br />

r


2.2.1 Retorno Multi-Períodos<br />

Suponha-se que {P1, P2, ..., Pn} é a sucessão de preços diários. Podemos estar interessados,<br />

por exemplo, no retorno semanal e, para o efeito, basta considerar<br />

<br />

Pt<br />

rt (5) = log<br />

Pt−5<br />

(admitindo que se observam cinco preços por semana). De uma forma geral,<br />

<br />

Pt<br />

rt (m) = log = log (Pt) − log (Pt−m) .<br />

Pt−m<br />

Seguindo o mesmo raciocínio que vimos atrás, suponhamos, no entanto, que Pt e Pt−m<br />

não são conhecidos. A questão é, como calcular rt (m) a partir dos retornos contínuos em<br />

t = 1, 2, ...? Para exemplificar, suponha-se que se têm retornos diários e procura-se o retorno<br />

semanal, i.e., admita-se o seguinte:<br />

retorno 2 a feira r1 = log P1 − log P0<br />

retorno 3 a feira r2 = log P2 − log P1<br />

retorno 4 a feira r3 = log P3 − log P2<br />

retorno 5 a feira r4 = log P4 − log P3<br />

retorno 6 a feira r5 = log P5 − log P4<br />

retorno da semana log P5 − log P0 = r1 + r2 + ... + r5<br />

A tabela anterior sugere que o retorno da semana é igual à soma dos retornos da semana.<br />

Com efeito,<br />

log P5 − log P0 = log P5 − log P4<br />

<br />

r5<br />

+log P2 − log P1<br />

<br />

r2<br />

+ log P4 − log P3<br />

<br />

r4<br />

+ log P1 − log P0<br />

<br />

+ log P3 − log P2<br />

<br />

(observe-se que no lado direito da expressão anterior, apenas os termos log P5 e P0 não<br />

cancelam). Em termos gerais,<br />

rt (m) = rt + rt−1 + ... + rt−m+1.<br />

26<br />

r1<br />

r3


2.2.2 Retornos de Portfolio<br />

Pode imaginar-se o retorno contínuo do portfolio como sendo o valor rp,t tal que, aplicado<br />

ao capital inicial K (i.e., Ke rp,t ) permite obter o valor do portfolio calculado através dos m<br />

retornos (i.e., K m<br />

i=1 ωie ri,t ). Assim, rp,t é tal que K m<br />

i=1 ωie ri,t = Ke rp,t . Resolvendo<br />

esta equação em função de rp,t obtém-se rp,t = log ( m<br />

i=1 ωie ri,t ) . Tendo em conta que<br />

ri,t = log (1 + Ri,t) e m<br />

i=1 ωi = 1, podemos ainda escrever<br />

<br />

m<br />

rp,t = log ωie ri,t<br />

<br />

m<br />

<br />

= log ωi (1 + Ri,t) = log 1 +<br />

i=1<br />

i=1<br />

m<br />

i=1<br />

ωiRi,t<br />

<br />

= log (1 + Rp,t) .<br />

Ao contrário dos retornos discretos, o retorno contínuo do portfolio não é igual à soma<br />

ponderada dos retornos contínuos dos vários activos, i.e., rp,t = n<br />

i=1 ωiri,t. Este facto<br />

constitui uma desvantagem da versão contínua dos retornos. No entanto, quando Rp,t não é<br />

muito alto, rp,t ≈ Rp,t.<br />

2.2.3 Retornos Ajustados aos Dividendos<br />

O retorno contínuo ajustado aos dividendos é definido como<br />

Note-se também:<br />

<br />

Pt + Dt<br />

rt = log<br />

= log (Pt + Dt) − log (Pt−1) .<br />

Pt−1<br />

rt = log (1 + Rt) , Rt = Pt + Dt − Pt−1<br />

.<br />

2.2.4 Retornos Ajustados à Inflação<br />

O retorno contínuo ajustado à inflação é definido como<br />

r real<br />

t<br />

Pt−1<br />

<br />

Pt/IP Ct<br />

Pt<br />

IP Ct<br />

= log<br />

= log − log<br />

= rt − πt<br />

Pt−1/IP Ct−1 Pt−1 IP Ct−1<br />

onde agora a taxa de inflação πt é definida como πt = log (IP Ct/IP Ct−1). Note-se também:<br />

r real<br />

t<br />

= log 1 + R real<br />

t .<br />

27


2.2.5 Retornos Anualizados<br />

Tal como no caso dos retornos discretos, também no caso dos retornos contínuos é possível<br />

obter uma taxa de rendibilidade (agora instantânea) anualizada ou simplesmente retorno an-<br />

ualizado, rA. Pode começar-se por perguntar: qual é a taxa de rendibilidade anual, rA, tal<br />

que, aplicada a um investimento P0 permite ao fim de T anos (de valorização contínua) obter<br />

o investimento Pn? Ou seja, qual é o valor rA que resolve a equação<br />

P0e rAT = Pn ?<br />

Tomando rA como incógnita, facilmente se obtém<br />

rA = 1<br />

T log<br />

Pn<br />

P0<br />

<br />

. (2.6)<br />

Também se chega a esta expressão a partir da definição habitual rA = log (1 + RA) .<br />

Com efeito,<br />

rA = log (1 + RA) = log<br />

<br />

1 +<br />

Pn<br />

P0<br />

1<br />

T<br />

− 1<br />

(T representa o número de anos do investimento).<br />

<br />

= log<br />

Pn<br />

P0<br />

1<br />

T<br />

= 1<br />

T log<br />

Pn<br />

Se os preços P0, P1, ...Pn são diários e se admitirmos que num ano se observam 250<br />

preços, então deduz-se a relação T = n/250. Nestas condições, a fórmula (2.6) pode-se<br />

reescrever na forma<br />

rA = 250<br />

n log<br />

Pn<br />

Em termos gerais, se num ano se observam N preços (por exemplo, N = 12 se as obser-<br />

vações são mensais) e dispomos de n observações sobre os preços, então T = n/N e<br />

rA = N<br />

n log<br />

P0<br />

Pn<br />

Em muitas aplicações estuda-se uma sucessão de retornos {r1, r2, ..., rn} e obtém-se de<br />

seguida um conjuntos de estatísticas, como por exemplo a média empírica dos retornos,<br />

¯r = 1<br />

n<br />

28<br />

P0<br />

n<br />

ri.<br />

i=1<br />

<br />

.<br />

<br />

.<br />

P0


Uma questão interessante consiste em obter rA como função de ¯r. Tendo em conta que<br />

log (Pn/P0) = n<br />

i=1 ri tem-se<br />

rA = N<br />

n log<br />

Pn<br />

P0<br />

<br />

= N<br />

n<br />

n<br />

ri = N ¯r.<br />

Uma forma alternativa de obtermos rA = N ¯r e que tem a vantagem de fornecer também<br />

uma medida para o valor da volatilidade anualizada é a seguinte. Suponha-se, tal como<br />

anteriormente, que num ano é possível observar N preços. Então, a variável aleatória que<br />

representa o retorno anual é dado por<br />

i=1<br />

X = log PN − log P0 =<br />

N<br />

rt.<br />

Supondo E (r1) = E (r2) = ... = E (rN) , tem-se que o retorno médio anual é dado por<br />

E (X) = N E (rt) .<br />

Logo, uma estimativa de E (X) é, precisamente, rA = N ¯r . Por outro lado, suponha-se que<br />

a sucessão {rt} é não autocorrelacionada e que Var (rt) = σ 2 . Nestas condições, a variância<br />

anual (i.e., a variância associada a rt (N)) é dada por<br />

Var (X) = Var<br />

N<br />

t=1<br />

rt<br />

<br />

t=1<br />

= Nσ 2 . (2.7)<br />

Resulta da equação (2.7) a famosa square root of time rule segundo a qual, a volatilidade<br />

anual de um activo, obtém-se a partir da regra √ Nσ onde σ é o desvio padrão associado<br />

a um medida intra anual (assume-se o desvio padrão como medida da volatilidade). Por<br />

exemplo, se os dados são diários, a regra estabelece √ 250σd (σd é o desvio padrão associado<br />

aos dados diários); se os dados são mensais, vem √ 12σm (σm é o desvio padrão associado<br />

aos dados mensais). A informação anualizada pode ser dada em percentagem:<br />

N ¯r × 100%,<br />

√ Nσ × 100%.<br />

Com efeito o retorno anual em percentagem é X × 100 pelo que E (X × 100) = N E (rt) ×<br />

100 e Var (X × 100) = Nσ 2 100 2 ⇒ Var (X × 100) = √ Nσ100.<br />

Note-se, finalmente, que o retorno anualizado na versão discreta é uma função do retorno<br />

29


anualizado na versão contínua, dada pela expressão RA = e rA − 1 (veja a equação (2.5)).<br />

2.3 Retornos Contínuos vs. Retornos Discretos<br />

Neste documento dá-se preferência à análise dos retornos contínuos. Por várias razões:<br />

• A esmagadora maioria dos investigadores usa rt. Se queremos que os nossos resultados<br />

sejam comparáveis devemos usar rt.<br />

• Como vimos, os retornos contínuos multi-períodos são aditivos (por exemplo, o re-<br />

torno contínuo entre o período 5 e 0 é igual à soma dos retornos contínuos entre o<br />

período 5 e 0). Já os retornos discretos multi-períodos não são. Em certas aplicações é<br />

necessário modelar retornos multi-períodos a partir do conhecimento das distribuições<br />

de r ou R. Neste caso, prefere-se interpretar o retorno na sua versão contínua, pois a<br />

modelação de uma soma<br />

log Pt − log P0 =<br />

t<br />

i=1<br />

é bem mais fácil do que a modelação de um produto<br />

Pt − P0<br />

P0<br />

=<br />

ri<br />

t<br />

(1 + Rj) − 1.<br />

j=1<br />

Além disso, a soma t<br />

i=1 ri preserva propriedades que podem ser interessantes. Por<br />

exemplo, se {ri} é uma sucessão de v.a. i.i.d. com distribuição N (µ, σ 2 ), segue-se<br />

imediatamente que log Pt−log P0 = t<br />

i=1 ri tem ainda distribuição normal N (tµ, tσ 2 ) .<br />

Já no caso discreto, se {Ri} é uma sucessão de v.a. i.i.d. com distribuição normal, a<br />

t<br />

v.a. (Pt − P0) /P0 = (1 + Rj) − 1 não tem distribuição normal.<br />

j=1<br />

O facto dos retornos discretos não ser aditivos pode conduzir a conclusões erradas.<br />

Considere-se o seguinte exemplo (veja-se a tabela 2.1). No momento t = 0 um certo<br />

activo vale 100, depois em t = 1 vale 110 e, finalmente, em t = 2 volta a valer 100.<br />

Obviamente que o retorno de t = 0 para t = 2 é zero, quer se considere a fórmula<br />

(P2 − P0)/P0 ou log P2 − log P0. No entanto, a média empírica dos retornos discretos<br />

é positiva, podendo sugerir, incorrectamente, que o activo se valorizou entre o período<br />

t = 0 e t = 2. Já a média empírica dos retornos contínuos traduz correctamente a<br />

valorização do activo.<br />

30


t Pt Rt = Pt−Pt−1<br />

Pt−1<br />

rt = log Pt − log Pt−1<br />

0 100<br />

1 110 0.10 (10%) 0.0953<br />

2 100 -0.0909 (-9.09%) -0.0953<br />

média > 0 = 0<br />

Tabela 2.1: Retornos discretos não são aditivos - mais um exemplo<br />

• O retorno discreto aplicado a um investimento inicial pode sugerir que o investimento<br />

possa vir negativo. Isto é uma impossibilidade. Suponha-se P0 = 100. O pior cenário<br />

no período 1 é P1 = 0 (perde-se todo o investimento). Mas, aplicando o retorno<br />

discreto pode-se obter P1 < 0 se R1 < −1. Por exemplo, se R1 = −1.05 tem-se<br />

P1 = (1 − 1.05) P0 = −0.05 × 100 = −5.<br />

É um impossibilidade obter-se P1 < 0 e, este facto, traduz uma fraqueza teórica do<br />

modelo de retorno discreto. No caso do retorno contínuo, não há possibilidade de P1<br />

ser negativo, pois, r1 = log (P1) − log (P0) implica P1 = P0e r > 0, por definição.<br />

O retorno discreto conserva, no entanto, uma vantagem apreciável: o retorno discreto<br />

do portfolio é igual à soma ponderada dos retornos discretos dos vários activos e, esta pro-<br />

priedade, não é partilhada, como vimos, pelo retorno contínuo do portfolio.<br />

2.A Outra Interpretação de rt<br />

Seja Pt o valor de um certo capital no momento t (podemos convencionar: t = 1 representa<br />

um ano). Se o capital se valoriza em tempo discreto, a variação do capital Pt num certo<br />

intervalo de tempo ∆ > 0 pode ser traduzida pela igualdade (Pt+∆ − Pt) /Pt = r∆ (r é a<br />

taxa de retorno) ou seja<br />

Pt+∆ − Pt<br />

∆<br />

= rPt<br />

Se o capital se valoriza continuamente, i.e., se assumirmos ∆ → 0, o lado esquerdo da<br />

equação anterior é a derivada de P em ordem a t, i.e., P ′ . Desta forma tem-se a equação<br />

diferencial linear de primeira ordem (determinística)<br />

P ′<br />

t = rPt<br />

31<br />

(2.8)


que estabelece a forma como Pt evolui em tempo contínuo. Pode-se provar que a solução<br />

geral de (2.8) é<br />

Pt = ce rt , c ∈ R<br />

(c depende do capital inicial). Com o capital inicial P0, a solução particular é Pt = P0e rt .<br />

Ao fim de um período t = 1 o capital vale P1 = P0e r . Resolvendo esta equação em ordem a<br />

r vem r = log (P1/P0) = log P1 − log P0.<br />

2.B Notas Técnicas<br />

2.B.1 Retorno Multi-Períodos como Função dos Retornos Simples<br />

Como calcular Rt (m) a partir dos retornos simples em t = 1, 2, ...? Basta considerar<br />

Rt (m) = Pt − Pt−m<br />

Pt−m<br />

= Pt Pt−1<br />

...<br />

Pt−1 Pt−2<br />

Pt−m+1<br />

Pt−m<br />

=<br />

<br />

1 +<br />

− 1<br />

Pt<br />

Pt−1<br />

<br />

− 1 1 + Pt−1<br />

<br />

− 1 ... 1 +<br />

Pt−2<br />

Pt−m+1<br />

Pt−m<br />

<br />

− 1 − 1<br />

= (1 + Rt) (1 + Rt−1) ... (1 + Rt−m+1) − 1<br />

t<br />

= (1 + Rj) − 1.<br />

j=t−m+1<br />

2.B.2 r e R: Série de Taylor<br />

A série de Taylor da função log (1 + Rt) em torno de Rt = 0 é, como se sabe,<br />

rt = log (1 + Rt) = Rt − 1<br />

2 R2 t + 1<br />

3 R3 t − ... (−1) n−1 Rn t<br />

n<br />

Este desenvolvimento em série de potência de Rt é válido para todo o Rt tal que |Rt| <<br />

1. Quando Rt é relativamente pequeno, os termos R 2 t , R 3 t , etc., são ainda mais pequenos<br />

(por exemplo, Rt = 0.005 implica R 2 t = 2.5 × 10 −5 , R 3 t = 1.25 × 10 −7 , etc.) pelo que,<br />

nestas circunstâncias, R 2 t 0, R 3 t 0, etc., e, assim, rt Rt. Se os dados são diários,<br />

semanais ou mensais as rendibilidades R são geralmente pequenas (quando comparadas com<br />

as rendibilidades anuais). Assim, para este tipo de rendibilidades, pode assumir-se rt Rt.<br />

32<br />

+ ...


Capítulo 3<br />

Factos Empíricos Estilizados de Séries<br />

Temporais <strong>Financeira</strong>s<br />

(Última actualização: 2/2011)<br />

Vários estudos empíricos têm documentado que há um conjunto de regularidades em-<br />

píricas que são partilhadas por um leque grande de séries temporais financeiras observadas<br />

com frequência elevada (diária ou semanal). Essas regularidades têm a ver com caracterís-<br />

ticas das distribuições marginais e condicionais que são comuns a muitas séries temporais<br />

financeiras.<br />

3.1 Regularidade Empíricas relacionadas com a Distribuição<br />

Marginal<br />

Comece-se por considerar a fdp marginal 1 f de um certo retorno rt. Estamos interessados<br />

em saber algo sobre f (que é geralmente desconhecida). Obtém-se alguma informação sobre<br />

f calculando vários momentos da amostra. É este o procedimento que começaremos por<br />

seguir. Pelo método dos momentos, os parâmetros populacionais desconhecidos,<br />

µ = E (r) , σ = Var (r), sk = E (r − µ) 3<br />

σ 3<br />

, k = E (r − µ) 4<br />

σ 4<br />

1 Para simplificar, admite-se que f é homogénea com respeito ao tempo, i.e., não depende de t. Desta forma,<br />

f (rt) = f (rt−1) = ... = f (r1). Como consequência é indiferente escrever f (rt) ou simplesmente f (r) (e,<br />

por um raciocínio similar, é indiferente escrever E (rt) ou simplesmente E (r)).<br />

33


podem ser estimados de forma consistente (sob certas condições de regularidade), respecti-<br />

vamente, pelos estimadores<br />

¯r =<br />

n t=1 rt<br />

<br />

n<br />

, ˆσ =<br />

n<br />

sk = n−1 n t=1 (rt − ¯r) 3<br />

ˆσ 3<br />

t=1 (rt − ¯r) 2<br />

,<br />

n<br />

, ˆ k = n−1 n<br />

t=1 (rt − ¯r) 4<br />

ˆσ 4 .<br />

Os factos empíricos estilizados que descreveremos a seguir envolvem explicitamente estes<br />

momentos. Concretamente, mostraremos a seguir que<br />

• ¯r tende a ser maior do que o retorno do investimento sem risco;<br />

• ˆσ depende da natureza do activo financeiro;<br />

• sk tende a ser negativo;<br />

• ˆ k tende a ser superior a 3.<br />

3.1.1 Prémio de Risco Positivo<br />

De acordo com a teoria financeira o valor esperado do retorno de um investimento no mer-<br />

cado de capitais deve exceder, no longo prazo, o retorno do investimento sem risco. A essa<br />

diferença designa-se prémio de risco (Equity Risk Premia). Este prémio deve ser positivo<br />

pois, caso contrário, não haveria motivação para aceitar um investimento com retornos in-<br />

certos, quando a alternativa é um retorno garantido.<br />

A estimação do prémio de risco deve envolver um período relativamente longo (o retorno<br />

de um investimento no mercado de capitais é estável no médio/longo prazo, mas instável<br />

no curto prazo - pode até ser fortemente negativo em curtos períodos de tempo). Dim-<br />

son, Marsh e Staunton (2002) fizeram o seguinte exercício, com base em dados financeiros<br />

norte-americanos: se tivesse sido investido 1 dólar em acções norte americanas (digamos,<br />

num índice representativo do mercado de acções norte-americano) e 1 dólar em bilhetes do<br />

tesouro (investimento sem risco), ambos no início do ano 1900, quais seriam os retornos<br />

desses investimentos ao fim de 101 anos (i.e. se fossem levantados no final do ano 2000).<br />

Os resultados apurados mostram que o investimento de 1 dólar em acções seria vendido<br />

por 16797 dólares em 2000 (apesar das inúmeras crises económicas e financeiras durante<br />

o século, como por exemplo, as duas guerras mundiais, a grande depressão, os choques<br />

34


A% ˆσA% sk ˆ k<br />

ˆP (|rt−¯r|>3ˆσ)<br />

P (|Z|>3)<br />

Cotações de Acções<br />

Microsoft (01-88 a 7-05) 23.9% 36.3% -.097 6.8 3.85<br />

Coca-Cola (11-86 a 12-05) 7.2% 33.2% -0.97 18.1 4.53<br />

PT (6-95 a 12-05) 12.3% 33.2% -0.06 6.39 5.02<br />

Índices Bolsistas<br />

Dax (11-90 a 11-05) 8.4% 22.1% -0.196 6.66 5.79<br />

CAC40 (03-90 a 11-05) 5.7% 20.5% -0.101 5.77 5.61<br />

Nikkei225 (01-84 a 11-05) 1.6% 20.5% -0.116 10.77 3.71<br />

FTSE100 (04-84 a 11-05) 7.3% 15.8% -0.545 11.12 2.44<br />

PSI20 (01-93 a 03-06) 8.6% 15.8% -0.61 10.9 5.99<br />

Taxas de Câmbio<br />

USD/EUR(12-98 a 11-05) 0.1% 7.9% -0.05 4.86 4.55<br />

YEN/USD (1-71 a 7-05) -3.4% 9.4% -0.78 14.2 1.67<br />

Na última coluna assume-se que Z ∼ N (0, 1) ; ˆσA% = √ 250ˆσ100%<br />

Tabela 3.1: Estatísticas Descritas de Algumas Acções, índices e Taxas de Câmbio<br />

petrolíferos, etc.), enquanto os bilhetes de tesouro seriam vendidos por 119 dólares. Os<br />

retornos anualizados (usando a fórmula RA) seriam de 10.1% para as acções, i.e.<br />

RA100% =<br />

<br />

(16797) 1 <br />

101 − 1 100% = 10.1%<br />

e de 4.8% para os bilhetes do tesouro (valores nominais, i.e. não descontando a inflação).<br />

Ver Taylor (2005) para mais detalhes sobre o prémio de risco.<br />

3.1.2 Desvios Padrão Diferentes Consoante os Activos<br />

A tabela 3.1 mostra que os activos com maior variabilidade (e, portanto com maior risco<br />

associado) são os títulos de empresas, seguidos dos índices bolsistas e taxas de câmbio (bil-<br />

hetes do tesouro - resultados não apresentados - apresentam a menor variabilidade). No<br />

âmbito dos títulos de acções, vários estudos indicam (ver por exemplo, Taylor, 2005) que a<br />

variabilidade dos retornos tende a diminuir à medida que a dimensão das empresas aumenta<br />

(títulos de empresas pequenas apresentam maior variabilidade).<br />

3.1.3 Retornos de Acções e de Índices tendem a Apresentar Assimetria<br />

Negativa<br />

A assimetria de uma distribuição é normalmente aferida através do coeficiente de assimetria<br />

sk anteriormente definido. Diz-se que a distribuição de r é assimétrica negativa (positiva) se<br />

35


sk < 0 (> 0). Se sk = 0 a distribuição é simétrica (em relação à média populacional).<br />

Podemos ter uma estimativa sk negativa se as variações negativas fortes forem mais<br />

acentuadas do que as variações positivas fortes. Quando assim sucede, os desvios negativos<br />

(rt − ¯r) 3 < 0 tendem a dominar os desvios positivos (rt − ¯r) 3 > 0 na soma (rt − ¯r) 3 e,<br />

por isso, a estimativa sk é negativa. Observe-se ainda que os desvios cúbicos são divididos<br />

por ˆσ 3 ; desta forma, elimina-se a possibilidade do coeficiente depender das unidades em que<br />

a variável é observada (por exemplo, se multiplicarmos r por 100, para termos uma medida<br />

em percentagem, sk não sofre alteração).<br />

A tabela 3.1 mostra que as distribuições empíricas das rendibilidades de acções e índice<br />

bolsistas em análise são assimétricas negativas. Existe, portanto, evidência empírica de que<br />

as fortes variações dos preços são maioritariamente de sinal negativo. Estas variações são<br />

obviamente crashes bolsistas. Sublinhe-se, no entanto, que alguns retornos de títulos, por<br />

registarem episódios de fortes variações positivas, apresentam distribuições assimétricas pos-<br />

itiva. A assimetria negativa não é, portanto, uma característica universal das distribuições de<br />

retornos, embora, geralmente, tendam a apresentar assimetria negativa.<br />

Sob certas hipóteses, incluindo {rt} é uma sucessão de v.a. homocedásticas com dis-<br />

tribuição normal, a estatística de teste<br />

Z1 = √ n sk<br />

√6<br />

tem distribuição assimptótica N (0, 1) . A hipótese nula H0: sk = 0 pode ser testada a par-<br />

tir deste resultado 2 . Mas as hipóteses de partida, normalidade e homocedasticidade, são<br />

relativamente severas. Na prática, isto significa que a rejeição de H0 pode dever-se à ausên-<br />

cia de normalidade e/ou homocedasticidade e não necessariamente à falha de simetria da<br />

distribuição. Desta forma, é necessário ter algum cuidado na interpretação dos resultados<br />

quando H0 é rejeitada.<br />

O estimador sk é por vezes criticado por não ser robusto face à presença de valores<br />

extremos. Na verdade, em certos casos, a ocorrência de apenas uma única variação negativa<br />

excepcionalmente forte pode resultar num valor negativo para sk (os títulos que incluem na<br />

sua amostra o crash do dia 19 de Outubro de 1987 tendem a apresentar um valor estimado<br />

para sk negativo). Por esta razão, é aconselhável usar-se medidas de assimetria robustas<br />

2 A única hipótese nula possível é H0 : sk = 0. Por exemplo, não faria sentido testar H0 : sk = 1 porque<br />

a estatística de teste é obtida sob a hipótese de normalidade e sk = 1 é claramente incompatível com essa<br />

hipótese.<br />

36


contra a presença de outliers. Uma medida nestas condições é proposta por Groeneveld and<br />

Meeden (1984)<br />

skGM = E (r) − q0.5<br />

E (|r − q0.5|)<br />

onde q0.5 é o quantil de ordem 0.5, o que significa que q0.5 é a mediana. O parâmetro<br />

E (|r − q0.5|) fornece uma medida de dispersão dos dados. Esta medida tem a vantagem<br />

de variar entre -1 e 1, i.e. −1 < skGM < 1. Sob certas condições, skGM pode ser estimado<br />

de forma consistente através da estatística<br />

skGM =<br />

¯r − m<br />

n −1 n<br />

t=1 |rt − m|<br />

sendo m a mediana empírica. Outra medida robusta é o coeficiente de assimetria de Pearson,<br />

skP = E (r) − q0.5<br />

.<br />

σ<br />

Note-se, finalmente, que para as taxas de câmbio não há razão especial para esperar<br />

sk > 0 ou sk < 0. Com efeito, suponha-se que St é a taxa de câmbio do Dólar/Euro e<br />

rt = log (St/St−1) . Se a distribuição de rt é assimétrica negativa então a distribuição dos<br />

retornos associados à taxa de câmbio do Euro/Dólar, 1/St (seja ˜rt esse retorno) é assimétrica<br />

positiva, pois<br />

<br />

1/St<br />

St<br />

˜rt = log = − log = −rt<br />

1/St−1<br />

St−1<br />

(note-se: se x tem distribuição com assimetria negativa, −x tem distribuição com assimetria<br />

positiva). Assim a assimetria positiva ou negativa nas taxas de câmbio depende da forma<br />

como a taxa de câmbio está definida (não podendo, portanto, inferir-se qualquer regularidade<br />

empírica).<br />

3.1.4 Retornos Apresentam Distribuições Leptocúrticas<br />

O achatamento de uma distribuição é normalmente aferida através do coeficiente de achata-<br />

mento k (também designado por kurtosis ou curtose). Diz-se que a distribuição f é mesocúr-<br />

tica se k = 3, platicúrtica se k < 3 e leptocúrtica se k > 3. O valor de referência 3 é o<br />

que resulta da distribuição normal (assim, a distribuição normal ou Gaussiana é mesocúr-<br />

tica). Valores altos de ˆ k (acima de 3) indicam que certos valores da amostra se encontram<br />

muitos afastados da média, comparativamente aos demais valores da amostra. Observe-se<br />

37


1.5<br />

1.0<br />

0.5<br />

0.0<br />

­0.5<br />

­1.0<br />

­1.5<br />

­2.0<br />

1 2 3 4 5 6 7 8 9<br />

Y1 Y2<br />

Figura 3-1: Qual das duas séries tem kurtosis estimada mais alta?<br />

que os desvios (rt − ¯r) 4 são muito sensíveis aos valores extremos da amostra. Por exemplo,<br />

a existência de outliers faz aumentar a estatística ˆ k. Para ilustrar o impacto dos outliers no<br />

valor da estatística ˆ k, considere-se a figura 3-1. Pode-se observar que variância da série y1<br />

é menor do que a da série y2. No entanto, o valor ˆ k da série y2 é de apenas 1.5, ao passo<br />

que o da série y1 é de 5.5. Os valores da série y2 não se encontram, em termos relativos,<br />

muitos afastados da sua média. Já na série y1 há um valor que se destaca dos demais e que<br />

é responsável pelo valor alto de ˆ k. Para compararmos graficamente duas séries é necessário<br />

estandardizá-las (isto é transformá-las em séries de média zero e variância 1). Continuando<br />

o exemplo, considere-se agora as mesmas variáveis estandardizadas:<br />

z1 = y1 − ¯y1<br />

, z2 =<br />

ˆσy1<br />

y2 − ¯y2<br />

.<br />

ˆσy2<br />

Na figura 3-2 ambas as séries possuem a mesma variância, mas agora é claro o valor extremo<br />

da série y1<br />

Observa-se para a generalidade das séries financeiras que os retornos muitos altos e muito<br />

baixos ocorrem com maior frequência do que seria de esperar se os retornos seguissem uma<br />

distribuição normal. Uma forma de confirmar esta ideia consiste em comparar a estimativa<br />

do coeficiente de kurtosis (curtose) dos retornos com o valor 3, que é o valor de kurtosis da<br />

distribuição normal.<br />

Na generalidade dos casos o coeficiente k estimado vem quase sempre (bastante) acima<br />

de 3, o que sugere que a distribuição dos retornos (de cotações, índice, taxas de câmbio e<br />

mesmo taxas de juro) é leptocúrtica. Nas figuras 3-3 e 3-4 (esta última é uma ampliação<br />

da figura 3-3) mostra-se a diferença entre uma distribuição mesocúrtica (k = 3) e uma<br />

38


3<br />

2<br />

1<br />

0<br />

­1<br />

­2<br />

1 2 3 4 5 6 7 8 9<br />

Z1 Z2<br />

Figura 3-2: Séries y1 e y2 estandardizadas (ver figura 3-1)<br />

distribuição leptocúrtica (k > 3). A figura 3-4 mostra claramente por que razão a distribuição<br />

leptocúrtica é também designada de “distribuição de caudas pesadas”. O ensaio H0: k =<br />

3 [y ∼ Normal & y é i.i.d] pode ser conduzido pela estatística de teste<br />

Z1 = √ n<br />

<br />

ˆk − 3<br />

√ 24<br />

d<br />

−→ N (0, 1) .<br />

Por exemplo, para a Microsoft (tabela 3.1) e sabendo que no período considerado se obser-<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

­7 ­4.5 ­2 0.5 3 5.5<br />

Normal<br />

Leptoc.<br />

Figura 3-3: Comparação de duas densidades (normal vs. leptocúrtica)<br />

varam 4415 dados diários (n = 4415) tem-se<br />

z1 = √ (6.8 − 3)<br />

4415 √ = 51.54.<br />

24<br />

O valor-p é P (|Z1| > 51.54) ≈ 0. Existe forte evidência contra H0.<br />

39


0.01<br />

0.008<br />

0.006<br />

0.004<br />

0.002<br />

0<br />

­7 ­4.5 ­2 0.5 3 5.5<br />

Figura 3-4: Ampliação da figura 3-3<br />

Normal<br />

Leptoc.<br />

Podemos também confirmar a existência de caudas pesadas calculando o rácio<br />

ˆP (|rt − ¯r| > 3ˆσ)<br />

. (3.1)<br />

P (|Z| > 3)<br />

Se Z ∼ N (0, 1) então P (|Z| > 3) = 0.0027. Esta é, aproximadamente, a probabilidade<br />

associada a eventos extremos quando Z tem distribuição N (0, 1). Se a distribuição de rt<br />

possuísse caudas normais deveríamos esperar que<br />

P (|rt − E (rt)| /σ > 3) P (|Z| > 3)<br />

(observe-se que (rt − ¯r) /ˆσ são os retornos estandardizados) e, portanto, o rácio (3.1) deveria<br />

ser aproximadamente igual a um. No entanto, a tabela 3.1 mostra que esse rácio tende a ser<br />

significativamente superior a um. Isto sugere que os retornos muitos altos e muito baixos<br />

tendem a ocorrer com maior frequência do que seria de esperar se a variável seguisse uma<br />

distribuição normal.<br />

Observação 3.1.1 Como estimar a probabilidade P (|rt − E (rt)| /σ > 3)? Primeiro sub-<br />

stituímos E (rt) e σ = Var (rt) pelas respectivas estimativas consistentes, ¯r e ¯σ. Depois,<br />

calculamos a proporção de vezes (na amostra) em que ocorre |rt − ¯r| /¯σ > 3. Obtém-se<br />

assim uma estimativa para P (|rt − E (rt)| /σ > 3) . Em termos analíticos:<br />

ˆP (|rt − ¯r| /¯σ > 3) = 1<br />

n<br />

n<br />

t=1<br />

I{|rt−¯r|/¯σ>3}<br />

onde I{|rt−¯r|/¯σ>3} = 1 se ocorre |rt − ¯r| /¯σ > 3 e zero no caso contrário.<br />

40


.2<br />

.1<br />

.0<br />

­.1<br />

­.2<br />

R<br />

­.3<br />

­30<br />

30 40 50 60 70 80 90 00 10 30 40 50 60 70 80 90 00 10<br />

20<br />

10<br />

0<br />

­10<br />

­20<br />

Z<br />

Bandas (­3,3)<br />

Figura 3-5: Painel Esquerdo: retornos diários do Dow Jones no período 02/10/1928 a<br />

3/02/2011 (20678 observações). Painel direito retornos estandardizados, zt = (rt − ¯r) /ˆσ<br />

Apresenta-se a seguir mais um exemplo envolvendo o rácio (3.1). No painel esquerdo<br />

da figura 3-5 apresentam-se os retornos diários do Dow Jones no período 02/10/1928 a<br />

3/02/2011 (20678 observações). No painel direito da mesma figura apresentam-se os re-<br />

tornos estandardizados juntamente com as rectas -3 e 3. Se os retornos seguissem uma<br />

distribuição normal seria de esperar que zt = (rt − ¯r) /ˆσ excedesse os limiares 3 e −3 em<br />

cerca de 0.27% das vezes, tendo em conta, como já vimos, que P (|Z| > 3) = 0.0027,<br />

supondo Z ∼ N (0, 1). Ora, na verdade zt excede os limiares 3 e -3 em cerca de 1.73% das<br />

observações (zt excede os limiares 359 vezes, em 20678 observações).<br />

Tem-se assim<br />

ˆP (|rt − ¯r| > 3ˆσ)<br />

P (|Z| > 3)<br />

0.017<br />

= = 6.29<br />

0.0027<br />

Finalmente, podemos ainda testar a hipótese conjunta H0: k = 3 & sk = 0 [assumindo<br />

r ∼ Normal & r é i.i.d] através da estatística de Bera-Jarque<br />

Gráfico QQ-Plot<br />

Z 2 1 + Z 2 2 = n<br />

⎛<br />

⎜<br />

⎝<br />

2 ˆk − 3<br />

24<br />

+ sk 2<br />

⎞<br />

⎟<br />

⎠<br />

6<br />

d<br />

−→ χ 2 (2)<br />

Outra forma de compararmos a distribuição normal com a distribuição dos retornos consiste<br />

em analisar o gráfico QQ-plot. O gráfico QQ-plot é o gráfico dos pares ordenados<br />

{(qα, ˜qα) , α ∈ (0, 1)}<br />

41


Quantis Normal<br />

8<br />

4<br />

0<br />

­4<br />

­8<br />

­12<br />

­12 ­8 ­4 0 4 8<br />

Quantis retornos PSI20<br />

Figura 3-6: QQ Plot (retornos do PSI20 normalizados)<br />

onde qα é o quantil de ordem α da distribuição Z ∼ N (0, 1) (eventualmente outra) e ˜qα é o<br />

quantil da distribuição empírica associada à variável estandardizada<br />

isto é<br />

xt = rt − ¯r<br />

¯σ ,<br />

qα : P (Z < qα) = α, Z ∼ N (0, 1)<br />

˜qα : ˜ P (xt < ˜qα) = α, xt.<br />

Assim, se xt tem a mesma distribuição de Z, então qα ≈ ˜qα e o gráfico {(qα, ˜qα) , α ∈ (0, 1)}<br />

é uma recta de 45 o . Se, pelo contrário, as distribuições de xt e Z são diferentes o grá-<br />

fico afasta-se da recta de 45 o (poderíamos também comparar a distribuição de xt com outra<br />

qualquer). A figura 3-6 permite concluir que a distribuição dos retornos é leptocúrtica e as-<br />

simétrica. O gráfico sugere, por exemplo, que P (Z < −3.9) P (xt < −8). A distribuição<br />

é leptocúrtica pois o gráfico tem a forma de um “S” sobre a recta de 45 o . A distribuição é<br />

assimétrica porque o “S” não é simétrico sobre a recta de 45 o .<br />

42


¯r ˆσ sk kˆ<br />

Retornos Diários<br />

Frankfurt 0.00035 0.0123 -0.946 15.0<br />

Hong Kong 0.00057 0.0169 -5.0 119.24<br />

Londres 0.00041 0.0092 -1.59 27.4<br />

Nova York 0.00049 0.0099 -4.30 99.68<br />

Paris 0.00026 0.0120 -0.53 10.56<br />

Tóquio<br />

Retornos Semanais<br />

0.00005 0.0136 -0.213 14.798<br />

Frankfurt 0.00169 0.0264 -1.06 8.09<br />

Hong Kong 0.00283 0.0370 -2.19 18.25<br />

Londres 0.00207 0.0215 -1.478 15.54<br />

Nova York 0.00246 0.0206 -1.37 11.25<br />

Paris 0.0028 0.0284 -0.995 9.16<br />

Tóquio 0.00025 0.0288 -0.398 4.897<br />

Tabela 3.2: Índices Bolsistas (6-Jan-86 a 31-Dez-97)<br />

3.1.5 Aumento da Frequência das Observações Acentua a Não Normal-<br />

idade das Distribuições<br />

Diz-se que a frequência das observações aumenta quando, se passa, por exemplo, de obser-<br />

vações mensais para observações semanais ou destas para diárias. A tabela 3.2 mostra que o<br />

coeficiente de kurtosis aumenta quando se passa de observações semanais para observações<br />

diárias. Assim, a distribuição marginal dos retornos diários apresenta um maior afastamento<br />

face à distribuição normal. É possível fazer um raciocínio inverso: a diminuição da frequên-<br />

cia das observações (por exemplo, quando se passa de observações diárias para observações<br />

semanais ou mensais) atenua o afastamento da distribuição dos retornos relativamente à dis-<br />

tribuição normal. Uma possível explicação teórica para este facto é descrita a seguir.<br />

Sejam P0, P1, P2, ... os preços diários. Se a frequência de observações baixa, passamos<br />

a observar P0, Ph, P2h, ... sendo h um inteiro maior do que 1. Por exemplo, se passarmos<br />

para dados semanais (h = 5) passamos a observar P0, P5, P10, ... (imagine-se que t = 0 é<br />

uma segunda-feira; passados 5 dias observa-se a segunda-feira seguinte que corresponde a<br />

t = 5). Neste caso, os retornos semanais são:<br />

log Ph − log P0<br />

<br />

retorno 1a , log P2h − log Ph<br />

<br />

semana retorno 2a , ... com h = 5<br />

semana<br />

Para h geral, o primeiro retorno observado é ˜r1 = log Ph − log P0. Como os retornos contín-<br />

43


uos são time-additive, resulta<br />

˜r1 (h) = log Ph − log P0 = r1 + r2 + ... + rh =<br />

(ri são os retornos diários). Mesmo que ri não tenha distribuição normal, o retorno associa-<br />

dos a uma frequência de observação mais baixa, ˜r (h) , tenderá a ter distribuição normal pelo<br />

teorema do limite central. Com efeito, sob certas condições (relacionadas com a variância<br />

de ri e a memória temporal de r) tem-se<br />

h i=1 ri<br />

h − E i=1 ri<br />

h Var i=1 ri<br />

<br />

quando h → ∞ 3 . Para h suficientemente alto resulta 4<br />

h<br />

i=1<br />

ri<br />

a<br />

∼ N<br />

<br />

E<br />

h<br />

i=1<br />

ri<br />

<br />

<br />

d<br />

−→ N (0, 1)<br />

, Var<br />

h<br />

Assim, espera-se que a diminuição da frequência amostral atenue a não normalidade obser-<br />

vada nas séries de retornos de alta frequência.<br />

3.1.6 Efeitos de Calendário<br />

Designamos “efeitos de calendário” quando a rendibilidade e/ou a volatilidade varia com<br />

o calendário. Por exemplo, se certo título regista maior rendibilidade e/ou volatilidade às<br />

segundas-feiras, temos um efeito de calendário (efeito dia da semana). Tem-se estudado a<br />

forma como a rendibilidade e a volatilidade varia com o dia da semana, dia do mês, com o<br />

mês do ano e com a proximidade dos feriados. Certos autores qualificam estes efeitos de<br />

calendário como “anomalias”. Com efeito, se o mercado é “eficiente” todas as “anomalias”<br />

depois de detectadas são rapidamente incorporadas nas decisões dos investidores e, tendem,<br />

por isso, a desaparecer. Para ilustrar a ideia, suponha-se, por exemplo, que a rendibilidade<br />

do título ABC tende a aumentar às 14h de todas as terças-feiras. Todos os investidores que<br />

h 3Se for possível garantir que E i=1 ri<br />

<br />

h = n E (ri) e Var i=1 ri<br />

<br />

= hσ2 então este resultado pode<br />

i=1<br />

ri<br />

<br />

escrever-se na forma habitual √ h (¯r − E (ri)) /σ d<br />

−→ N (0, 1) (quando h → ∞).<br />

4 d<br />

Observe-se: zn<br />

razoavelmente alto, zn tem distribuição aproximadamente normal, i.e. zn<br />

−→ N (0, 1) se no limite, quando n → ∞, z∞ tem distribuição N (0, 1) . Assim, para n<br />

a<br />

∼ N (0, 1) .<br />

44<br />

h<br />

i=1<br />

.<br />

ri


detectem essa anomalia vendem o título da empresa ABC às terças-feiras às 14h. Como<br />

resultado o preço da empresa ABC tenderia a cair por volta dessa hora e a anomalia desa-<br />

parecia. De uma forma geral, se os investidores são racionais e dispõem de toda a informação<br />

passada sobre o mercado, as anomalias relacionadas com as rendibilidades dependentes do<br />

calendário, tendem a desaparecer, logo que sejam detectadas. Na prática, subsistem certas<br />

anomalias que não desaparecem mas que, em geral, não permitem obter rendibilidades anor-<br />

mais, depois de deduzidos os custos de informação e transacção. Podem assim permanecer<br />

no mercado “anomalias” ou “ineficiências” para as quais o benefício de explorar essas inefi-<br />

ciências não compensa os custos adicionais associados.<br />

Dia da Semana<br />

À partida espera-se que os retornos à segunda-feira sejam um pouco mais altos face aos<br />

demais dias da semana, pois a posse de títulos à segunda-feira representa um investimento<br />

de 72 horas face à última sexta-feira, tendo em conta que o mercado fecha aos fins-de-<br />

semana. Analiticamente observe-se que se o retorno diário rt tem média µ então, para um<br />

investimento de 3 dias (de sexta a segunda-feira) o retorno associado, rt + rt+1 + rt+2,<br />

deverá ter média 3µ. Assim, o retorno à segunda feira deveria ser, em média, três vezes<br />

superior ao retorno dos demais dias da semana. Taylor (2005) reporta vários estudos com<br />

conclusões contraditórias (para certos títulos e para determinados períodos é possível que o<br />

retorno à segunda-feira seja mais elevado, mas não se pode concluir em geral que o retorno<br />

às segundas seja necessariamente superior ao dos demais dias da semana).<br />

Por outro lado, um investimento a 3 dias deve ser mais volátil do que um investimento<br />

a um dia. Se rt tem variância σ 2 e {rt} é uma sucessão de v.a. não autocorrelacionadas,<br />

rt + rt+1 + rt+2, tem variância igual a 3σ 2 . Portanto, espera-se que às segundas feiras o<br />

retorno apresente maior variabilidade. No entanto, argumenta-se que a (verdadeira) variância<br />

associada aos retornos de segunda-feira não pode ser tão alta como o valor 3σ 2 sugere, pois<br />

durante o fim-de-semana as notícias que movimentam o mercado (e produzem volatilidade)<br />

são, em geral, escassas e pouco relevantes. De todo o modo, regista-se, para um número<br />

considerável de activos, um aumento de volatilidade à segunda-feira.<br />

A melhor forma de testar estes efeitos passa pela modelação ARCH (cap. 8). Uma forma<br />

menos eficiente de testar estes efeitos consiste em calcular a média e a variância dos retornos<br />

nos vários dias da semana. Por exemplo, para analisar se as médias dos retornos são iguais<br />

45


nos vários dias da semana, faz-se a regressão,<br />

rt = β + δ1tert + δ2quat + δ3quit + δ4sext + ut<br />

(3.2)<br />

onde ter, qua, etc. são variáveis dummy que assumem o valor um se t corresponde, respec-<br />

tivamente, a uma terça-feira, quarta-feira, etc. (note-se que o “grupo base” é a segunda-<br />

feira). Sendo o “grupo base” a segunda-feira, β é a média do retorno à segunda feira<br />

(E (rt| segt = 1) = β). Por outro lado, δi, para i = 1, ..., 4 representam as diferenças da<br />

média do retorno dos outros dias face à segunda-feira (por exemplo, se δ3 = −0.01 então o<br />

retorno médio à quinta-feira é igual a β − 0.01 e δ3 representa a diferença face à segunda-<br />

feira).<br />

O ensaio H0: δ1 = δ2 = ... = δ4 = 0 corresponde a testar a não existência de diferenças<br />

nas médias dos retornos dos vários dias da semana. A estatística habitual para o caso em<br />

análise (em que H0 estabelece a nulidade de todos os parâmetros com excepção do termo<br />

constante) é<br />

F =<br />

R 2 / (k − 1)<br />

(1 − R 2 ) /(n − k)<br />

onde k é o número de regressores (incluindo o termo constante) e R 2 é o coeficiente de de-<br />

terminação. Sob H0 (homocedasticidade e ausência de autocorrelação) a estatística F tem<br />

distribuição F (k − 1, n − k). Na presença de heterocedasticidade, os teste t e F habitu-<br />

ais são inválidos. Uma solução para este problema consiste na estimação da equação (3.2)<br />

através dos modelos da família ARCH (veremos este aspecto no capítulo 8). Outra solução<br />

passa pela utilização de erros padrão robustos (ou da estatística F robusta) contra a presença<br />

de heterocedasticidade 5 .<br />

Em Taylor (2005) descrevem-se outras “anomalias” associadas ao calendário.<br />

<br />

5Erros padrão (de White) robustos contra heterocedasticidade obtêm-se a partir da matrix Var ˆβ =<br />

(X ′ X) −1 X ′ WX (X ′ X) −1 onde W é uma matriz diagonal com elementos û2 1, ..., û2 <br />

n . A estatística ro-<br />

′ <br />

busta, na versão do teste de Wald, para ensaiar H0 : Rβ = r, é Rˆβ − r R <br />

Var ˆβ R ′<br />

−1 <br />

Rˆβ − r , e<br />

tem distribuição assimptótica χ2 (q) onde q é o numero de restrições. Nota sobre o programa EVIEWS (versão 6<br />

e 7): a opção “White” em “Heteroskedasticity consistent coefficient covariance” que aparece depois de se seleccionar<br />

Quick/Estimate/Options fornece no output erros padrão robustos, mas não, infelizmente, a estatística<br />

F robusta. É possível obter esta estatística robusta fazendo o seguinte: escolhe-se a opção “White” em “Heteroskedasticity<br />

consistent coefficient covariance” e estima-se o modelo. Em seguida realiza-se o teste Wald<br />

seleccionando View/Coefficient Tests/Wald, introduzindo-se depois as restrições a ensaiar.<br />

46


3.1.7 Distribuições Teóricas para os Retornos<br />

Distribuição t-Student<br />

É bem conhecida a distribuição t-Student com v graus de liberdade, t (v) . A fdp é<br />

f (x) = Γ <br />

v+1<br />

2<br />

√ <br />

v vπΓ 2<br />

<br />

1 + x2<br />

v+1<br />

− 2<br />

.<br />

v<br />

Como se sabe, se X ∼ t (v) , então E (X) = 0, Var (X) = v/ (v − 2), sk = 0 e k =<br />

3 + 6/ (v − 4) . Como k > 3 conclui-se que a distribuição t (v) tem caudas pesadas. Por<br />

vezes tem interesse trabalhar com uma variável aleatória ε com distribuição t-Student de<br />

média zero mas variância igual a um. Se X ∼ t (v) a solução passa pela transformação<br />

ε = X (v − 2) /v.<br />

É fácil constatar que Var (ε) = 1, kε = kx = 3 + 6 . Note-se que a fdp de ε é<br />

v−4<br />

g (x) =<br />

1 Γ<br />

<br />

π (v − 2)<br />

<br />

v+1<br />

2<br />

Γ <br />

1 + v<br />

2<br />

x2<br />

v+1<br />

− 2<br />

.<br />

v − 2<br />

Quando mais baixo for o número de graus de liberdade mais pesadas são as caudas. No<br />

caso v = 4 o momento de ordem 4 não existe e, portanto, também não existe o coeficiente<br />

de kurtosis (quer dizer, neste caso, o integral impróprio <br />

R x4 g (x) dx não é finito porque a<br />

expressão x 4 g (x) não tende para zero com suficiente rapidez).<br />

Mistura de Normais<br />

Considere-se uma distribuição mistura de normais: α100% de N (µ 1, σ 2 1) e (1 − α) % de<br />

N (µ 2, σ 2 2) . Por exemplo, imagine-se que se faz uma extracção de números aleatórios da<br />

seguinte forma: atira-se uma moeda ao ar. Se cair caras simula-se uma variável X1 com<br />

distribuição N (µ 1, σ 2 1) ; se cair coroas, simula-se X2 com distribuição N (µ 2, σ 2 2) . De uma<br />

forma geral, a variável X, que representa a mistura de normais, pode escrever-se da seguinte<br />

forma:<br />

X = UX1 + (1 − U) X2,<br />

onde U tem distribuição de Bernoulli. Sejam f, fu e fx|u respectivamente a fdp de X, a<br />

função de probabilidade de U e a fdp condicional de X dado U = u. Para obter a fdp<br />

47


f(x)<br />

0.010<br />

0.009<br />

0.008<br />

0.007<br />

0.006<br />

0.005<br />

0.004<br />

0.003<br />

0.002<br />

0.001<br />

­8 ­7 ­6 ­5 ­4 ­3 ­2 ­1 0 1 2 3 4 5 6 7 8<br />

Figura 3-7: Abas da t-Student (– v = 4.1, - - v = 5, · · · v = 30)<br />

de X usa-se a expressão bem conhecida da estatística: f (x) = 1<br />

u=0 fx|u (x|u) fu (u). A<br />

distribuição de X dado U = u é imediata, tendo em conta que uma soma de normais é ainda<br />

uma normal:<br />

onde<br />

X|U = u ∼ N (E (X|U = u) , Var (X|U = u)) ,<br />

E (X|U = u) = uµ 1 + (1 − u) µ 2<br />

Var (X|U = u) = u 2 σ 2 1 + (1 − u) 2 σ 2 1 + 2u (1 − u) Cov (X1, X2)<br />

Assim, fx|u (x|u) é a função de densidade da normal de média E (X|U = u) e variância<br />

Var (X|U = u). Desta forma,<br />

f (x) = αfx|u (x|0) + (1 − α) fx|u (x|1) , 0 ≤ α ≤ 1<br />

sendo fx|u (x|0) a fdp da distribuição N (µ 1, σ 2 1) e fx|u (x|1) a fdp da distribuição N (µ 2, σ 2 2).<br />

No exemplo da “moeda ao ar”, α é 0.5. É interessante observar que uma mistura de normais<br />

conduz a uma distribuição não normal. Em particular a mistura pode ser assimétrica e lep-<br />

tocúrtica. Com efeito, pode-se mostrar que,<br />

• E (X) = αµ 1 + (1 − α) µ 2;<br />

• Var (X) = ασ 2 1 + (1 − α) σ 2 2 + α (1 − α) (µ 1 − µ 2) 2 ;<br />

48<br />

x


f(x)<br />

1.0<br />

0.9<br />

0.8<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

­5 ­4 ­3 ­2 ­1 0 1 2 3 4 5<br />

Figura 3-8: Mistura de Normais<br />

• E (X − E (X)) 3 = α (1 − α) (µ 1 − µ 2) (1 − 2α) (µ 1 − µ 2) 2 + 3 (σ 2 1 + σ 2 2) ;<br />

• k = 3 + 3α(1−α)(σ2 1 −σ2 2) 2<br />

(ασ 2 1 +(1−α)σ2 2) 2 > 3 supondo, para simplificar, que µ 1 = µ 2 = 0.<br />

Na figura 3-8 representa-se f (x) para α = 0.5, µ 1 = −1, µ 2 = 1, σ1 = 1/5, σ2 = 5. A<br />

fdp traçada é assimétrica e leptocúrtica.<br />

Distribuição com Caudas de Pareto<br />

A fdp de Pareto é<br />

g (y) = αc α y −(α+1) , y > c.<br />

À primeira vista pode parecer que esta distribuição não serve pois o nosso objectivo é mod-<br />

elar os retornos e o espaço de estados desta variável é claramente R (os retornos podem as-<br />

sumir qualquer valor em R). Ora, sucede que g apenas está definida para y > c (e, portanto,<br />

não atribui probabilidades quando y < c). No entanto, o que procuramos neste momento<br />

é caracterizar probabilisticamente os eventos extremos, i.e. os eventos que se encontram<br />

bem afastados da média. Estamos, portanto, concentrados nas abas da distribuição e, para o<br />

efeito, o que é relevante é o que se passa para y > c.<br />

Diz-se que uma fdp f (y) tem distribuição com caudas de Pareto (mesmo que não seja<br />

uma distribuição de Pareto) se<br />

f (y) ∼ Cy −(α+1) , α > 0<br />

49<br />

x


fdp<br />

0.07<br />

0.06<br />

0.05<br />

0.04<br />

0.03<br />

0.02<br />

0.01<br />

0.00<br />

2.0 2.5 3.0 3.5 4.0 4.5 5.0<br />

Figura 3-9: Cauda de Pareto vs. Cauda Gaussiana<br />

(C é uma constante). O sinal “∼” significa aqui que<br />

lim<br />

y→∞ f (y) /Cy−(α+1) = 1.<br />

Esta última equação diz-nos que para valores grandes de y, f (y) é “praticamente igual” a<br />

Cy −(α+1) (no limite é igual). Para valores “pequenos” de y, f (y) pode ser completamente<br />

diferente de Cy −(α+1) . A similaridade está nas caudas, quando y → ∞ (existem definições<br />

mais gerais, baseadas em funções slowly varying at ∞). Pode-se concluir que f (y) tem um<br />

decaimento polinomial para zero (decaimento lento para zero) e, portanto, caudas pesadas. Já<br />

a distribuição normal tem um decaimento exponencial (recorde-se que no caso Gaussiano,<br />

f (y) = C exp {−y 2 /2}) e a fdp tende para zero muito rapidamente quando y tende para<br />

±∞. A figura 3-9 compara uma cauda Gaussiana com uma cauda de Pareto.<br />

Uma vez que a fdp com caudas pesadas do tipo f (y) ∼ Cy −(α+1) não tende rapidamente<br />

para zero, certos valores esperados podem não existir. De facto, se α < k então os momentos<br />

de ordem igual ou superior a k não existem. Com efeito, seja D o espaço de estados de yt<br />

50<br />

y


(valores que y pode assumir). Para um certo c ∈ D e c > 0, vem:<br />

<br />

E |yt| k<br />

=<br />

≥<br />

=<br />

<br />

= C<br />

D ∞<br />

c ∞<br />

|y| k f (y) dy<br />

c<br />

∞<br />

c<br />

|y| k f (y) dy<br />

|y| k Cy −(α+1) dy<br />

|y| −α−1+k dy = ∞<br />

se −α − 1 + k > −1, ou seja, se α < k. Por exemplo, Var (yt) não existe se α < 2.<br />

Estimador de Hill Suponha-se f (y) ∼ Cy −(α+1) . Como estimar α? Antes de propormos<br />

um estimador para α, admita-se um cenário mais simples: f (y) tem distribuição (exacta) de<br />

Pareto, y ∼ P areto (c, α) , ou seja<br />

f (y) = αcα<br />

, y > c.<br />

yα+1 Assuma-se que {yt; t = 1, 2, ..., n} é uma sucessão de v.a. i.i.d. com distribuição de P areto (α, c) .<br />

A função de log-verosimilhança corresponde à expressão<br />

log L (α, c) =<br />

n<br />

log f (yt) = n log (α) + n log (c) − (α + 1)<br />

t=1<br />

Diferenciando log L com respeito a α e igualando a zero obtém-se<br />

ˆα =<br />

n<br />

t=1<br />

n<br />

log (yt) .<br />

t=1<br />

n<br />

. (3.3)<br />

log (yt/c)<br />

ˆαn é maximizante, pois ∂ 2 log L/∂ 2 α = −n/α 2 < 0. Tem-se ainda √ n (ˆαn − α)<br />

N 0, I (α) −1 onde<br />

I (α0) = − E<br />

<br />

2 ∂ log f (yt)<br />

∂α 2<br />

= 1<br />

.<br />

α2 O estimador de máxima verosimilhança de c é ĉ = mint=1,...,n {yt} 6<br />

d<br />

−→<br />

Retome-se agora a hipótese f (y) ∼ Cy −(α+1) . Se uma distribuição tem caudas de Pareto,<br />

mas não é uma distribuição de Pareto, então o estimador para α acima apresentado não pode<br />

6 Embora a derivada da função log L (c, α) com respeito a c não se anule (verifique), pode-se concluir que no<br />

intervalo de valores admissíveis de c, isto é, c ≤ mint=1,...,n {yt} , a função log L (fixado α) atinge o máximo<br />

em ĉ = mint=1,...,n {yt} .<br />

51


ser utilizado. Nestas circunstâncias, se estamos apenas interessados em estimar o índice<br />

de cauda α (supondo que y tem distribuição com caudas de Pareto, mas não segue essa dis-<br />

tribuição), devemos aparar a amostra {yt; t = 1, 2, ..., n} , por exemplo, considerando apenas<br />

os dados yt tais que yt > q (onde q pode ser interpretado como um quantil de y, geralmente<br />

um quantil de ordem superior a 0.95). Analisa-se, portanto, o comportamento de y apenas<br />

para os valores muitos altos (ou muito baixos) de y.<br />

O estimador de α, designado por estimador de Hill, para a aba direita da distribuição é<br />

ˆα (q) =<br />

n (q)<br />

n t=1 log (yt/q)<br />

, n (q) =<br />

I{yt>q}<br />

n<br />

t=1<br />

I{yt>q}<br />

(3.4)<br />

onde I{yt>q} = 1 se yt > q e I{yt>q} = 0 no caso contrário. Pode-se pensar neste estimador<br />

como se fosse o estimador (3.3), mas aplicado apenas aos valores da amostra que verificam<br />

yt > q.<br />

O estimador de α para a aba esquerda da distribuição é o que resulta da equação (3.4) de-<br />

pois de se substituir I{yt>q} por I{yt0.01} log (yt/0.01) I{yt>0.01}<br />

-0.110 0 0<br />

0.090 1 2.197<br />

0.100 1 2.303<br />

-0.100 0 0<br />

0.020 1 0.693<br />

0.005 0 0<br />

<br />

3 5.193<br />

Qual é o valor do threshold q que devemos escolher? Temos um dilema de enviesamento<br />

52


versus variância:<br />

• se q é alto a estimação de ˆα (q) é baseada em poucas observações, i.e., n (q) é baixo,<br />

pelo que a variância de ˆα (q) é alta (observe-se Var (ˆα (q)) = α 2 /n (q));<br />

• se q é baixo, perde-se a hipótese f (y) ∼ Cy −(α+1) e, como consequência, o estimador<br />

ˆα (q) é enviesado e mesmo inconsistente (recorde-se que ˆα (q) é baseado na hipótese<br />

f (y) ∼ Cy −(α+1) ).<br />

Exemplo 3.1.2 Na tabela seguinte apresentam-se estimativas do índice da cauda de re-<br />

tornos bolsistas sectoriais do mercado norte-americano no período 03/1/1994 a 21/01/2011<br />

(4292 observações).<br />

Aba Esquerda Aba Direita<br />

ˆα (q0.0.025) ˆα (q0.975) Retorno Volat. Skew. Kurt.<br />

n o obs. efect. usadas: 108 108 Anualiz. Anualiz.<br />

Petróleo e Gás 2.29 3.16 9.45% 25.79% -0.25 13.98<br />

Matérias-Primas 2.81 3.15 6.77% 25.90% -0.29 10.32<br />

Indústria 2.91 3.00 7.42% 21.90% -0.25 8.441<br />

Consumo (bens) 3.37 2.93 2.34% 19.82% -0.15 9.025<br />

Saúde 2.90 3.52 7.12% 17.29% -0.08 11.44<br />

Comunicações 3.10 3.26 1.37% 22.31% 0.09 9.962<br />

Utilities 3.06 2.78 1.86% 19.10% 0.04 14.19<br />

<strong>Financeira</strong>s 2.68 2.37 5.02% 29.02% -0.10 15.58<br />

Tecnologia 3.77 3.07 9.42% 30.44% 0.16 7.065<br />

Fonte: Datastream<br />

Algumas conclusões podem ser retiradas:<br />

• Em todos os casos é razoável admitir que a variância existe. Os momentos de ordem<br />

4 podem não existir.<br />

• Os índices de cauda estimados são relativamente baixos o que sugere que existe uma<br />

massa de probabilidade considerável associada a valores extremos na amostra.<br />

53


Figura 3-10: Estimativa da fdp dos retornos do DowJones no período Out/1988-Jan/2010 e<br />

fdp normal de média e variância estimadas a partir dos retornos<br />

3.1.8 Estimação Não Paramétrica da Função Densidade de Probabili-<br />

dade<br />

A forma mais simples de estimar f (x) consiste em obter o histograma das frequências relati-<br />

vas. Existem, no entanto, estimadores preferíveis. Uma estimativa não paramétrica de f (x)<br />

pode ser dada por<br />

ˆf (x) = 1<br />

nh<br />

n<br />

<br />

x − xi<br />

K<br />

h<br />

i=1<br />

onde K (u) é uma fdp (ver detalhes no ponto 10.2). Sob certas condições, incluindo h →<br />

0, n → ∞, nh → ∞ pode-se provar ˆ f (x)<br />

p<br />

−→ f (x) . Na figura 3-10 apresenta-se uma es-<br />

timativa não paramétrica da fdp marginal dos retornos do Dow Jones no período Out/1988-<br />

Jan/2010 (na verdade, estão representadas várias estimativas: f (x1) , f (x2) , ..., f (xk) ,<br />

sendo {xk} uma sucessão de valores igualmente espaçado no intervalo (−0.07; 0.06) - vejase<br />

o eixo das abcissas da figura 3-10). Na figura representa-se também a fdp da N ¯r, ˆσ 2<br />

onde ¯r e ˆσ 2 são as estimativas dos dois primeiros momentos dos retornos do Dow Jones no<br />

período considerado.<br />

Comparando ˆ f com a densidade normal, conclui-se que ˆ f atribui maior massa de prob-<br />

abilidade na vizinhança da média empírica e nos intervalos associados aos valores extremos<br />

da amostra, e atribui reduzida massa de probabilidade no intervalo dos valores moderados da<br />

54


amostra, digamos no intervalo (−0.03, −0.01) e (0.01, 0.03).<br />

3.2 Regularidade Empíricas relacionadas com a Distribuição<br />

Condicional<br />

Neste ponto discutimos regularidades que envolvem especificações dinâmicas relacionadas<br />

com a distribuição condicional dos retornos ou de uma função dos retornos (por exemplo,<br />

veremos como o retorno depende dos seus valores passados, ou como o quadrado dos re-<br />

tornos depende do quadrado dos retornos passados, entre outras especificações).<br />

3.2.1 Autocorrelações Lineares Baixas entre os Retornos<br />

A correlação entre as variáveis X e Y é dada por<br />

ρ =<br />

Cov (X, Y )<br />

Var (X) Var (Y ) , −1 ≤ ρ ≤ 1.<br />

O coeficiente ρ mede o grau de associação linear entre Y e X. Quanto mais alto for |ρ| maior<br />

é a relação entre X e Y. Podemos também medir a associação linear entre yt e yt−1 ou entre<br />

yt e yt−2 etc.<br />

ρ s =<br />

Cov (yt, yt−s)<br />

Var (yt) Var (yt−s)<br />

Como ρ s pode ser visto como uma função de s, ρ s é designado por função de autocorrelação<br />

(FAC) (ou ACF em inglês). Se assumirmos Var (yt) = Var (yt−s) vem<br />

ρ s =<br />

Cov (yt, yt−s)<br />

<br />

Var (yt) Var (yt−s) = Cov (yt, yt−s)<br />

<br />

(Var (yt)) 2<br />

= Cov (yt, yt−s)<br />

.<br />

Var (yt)<br />

Pelo método dos momentos, a estimação de ρ s pode fazer-se através do estimador<br />

ˆρ s =<br />

1 n<br />

n−s<br />

t=s+1 (yt − ¯y) (yt−s − ¯y)<br />

n t=1 (yt − ¯y) 2 .<br />

1<br />

n<br />

O coeficiente ρ s pode ser também obtido no contexto do modelo de (auto)regressão<br />

yt = c + ρ syt−s + ut<br />

55


Figura 3-11: Funções de autocorrelação dos retornos diários (Microsoft 1986-2006)<br />

onde se admite que {ut} é uma sucessão de v.a. independentes e E (ut| yt−s) = 0. O rácio-t<br />

associado à estimativa de ρ s permite ensaiar H0: ρ s = 0. Em alternativa temos os seguintes<br />

testes standard válidos sob a hipótese i.i.d.<br />

Teste Kendal e Stuart H0: ρ k = 0<br />

<br />

√ d<br />

n (ˆρk + 1/n) −→ N (0, 1) , ˆρ k ≈ N − 1<br />

<br />

1<br />

, √<br />

n n<br />

Rejeita-se H0 ao n.s. de (aprox.) 5% se |ˆρ k| > 2/ √ n (supondo 1/n ≈ 0).<br />

Teste Ljung-Box H0: ρ 1 = ... = ρ m = 0<br />

Qm = n (n + 2)<br />

m<br />

k=1<br />

1<br />

n − k ˆρ2<br />

k<br />

d<br />

−→ χ 2 (m)<br />

Em geral os coeficientes de autocorrelação dos retornos são baixos. Na figura 3-11 as<br />

estimativas da FAC dos retornos diários da Microsoft 1986 a 2006 são relativamente baixas.<br />

Imagine-se uma situação hipotética em que se tem um coeficiente de correlação nega-<br />

tivo e alto (em módulo), por exemplo, ρ 1 = −0.9, para dados diários. Suponha-se ainda,<br />

para simplificar a análise, que E (rt) = 0. Se o retorno hoje é positivo, amanhã o retorno<br />

tenderá a ser negativo e vice-versa. Nestas circunstâncias, se o retorno hoje é alto vende-se<br />

56


hoje e compra-se amanhã. Existe, portanto, uma forte possibilidade de ganho (arbitragem)<br />

com base na observação passada dos preços. Se outros participantes do mercado compram<br />

e vendem com base neste padrão de autocorrelação, o processo de arbitragem reduzirá rapi-<br />

damente a correlação (se o retorno hoje é alto e positivo muitos participantes vendem hoje e<br />

compram amanhã; como consequência o preço tenderá a diminuir hoje e aumentar amanhã<br />

e a correlação tenderá a esbater-se). Portanto, não é credível, supor-se ρ 1 = −0.9.<br />

Retome-se a figura 3-11. A coluna Q-Stat fornece os valores de Qm para m = 1, ..., 20.<br />

Fixe-se por exemplo, m = 20. Tem-se Q20 = 36.613. O valor-p associado é zero, isto é,<br />

P (Q20 > 36.613) = 0.013. Logo existe evidência contra a hipótese nula H0: ρ 1 = ... =<br />

ρ 20 = 0. Esta conclusão parece contraditória com a ideia de baixas autocorrelações dos<br />

retornos. No entanto, é preciso observar o seguinte:<br />

• em amostras muito grandes, como é aquela que analisamos, qualquer pequeno desvio<br />

face à hipótese nula implica a sua rejeição;<br />

• os coeficientes estimados embora (pareçam) estatisticamente significativos estão, ainda<br />

assim, muito perto de zero e não oferecem informação suficiente para realizar mais-<br />

valias anormais (depois de deduzidos os custos de transacção e informação);<br />

• os testes foram utilizados sob a hipótese irrealista de os retornos serem i.i.d. Esta su-<br />

posição não é válida sobretudo devido à presença de heterocedasticidade condicionada.<br />

Uma forma de mitigar a presença de heterocedasticidade consiste em estandardizar os<br />

retornos,<br />

r ∗ t = rt − ¯r<br />

onde ˆσt é uma estimativa da volatilidade no momento t (r ∗ t pode ser encarado como os “re-<br />

tornos” expurgados de heterocedasticidade). Como obter ˆσt? Discutiremos esta questão com<br />

alguma profundidade no capítulo 8. É suficiente agora usar uma especificação relativamente<br />

simples (mas “subóptima”):<br />

ˆσt<br />

ˆσ 2<br />

t = (1 − λ) r 2 t−1 + λˆσ 2<br />

t−1, λ = 0.96<br />

Na figura 3-12 apresentam-se os coeficientes de autocorrelação de r ∗ t . Observa-se que os co-<br />

eficientes de autocorrelação continuam muitos baixos mas agora não existe evidência contra<br />

a a hipótese ρ 1 = ... = ρ 20 = 0.<br />

57


Figura 3-12: Funções de autocorrelação dos retornos diários estandardizados (Microsoft<br />

1986-2006)<br />

Séries macroeconómicas geralmente exibem moderada ou forte autocorrelação. Veja-se,<br />

por exemplo, a figura 3-13 onde se representa a FAC de yt = log (GNPt/GNPt−1) sendo<br />

GNP (Gross National Product) o PIB dos EUA (dados trimestrais de 1947 a 2003).<br />

3.2.2 Volatility Clustering<br />

Já vimos que valores muitos altos e muito baixos ocorrem frequentemente (com maior fre-<br />

quência do que seria de esperar se as variáveis seguissem uma distribuição normal). Este<br />

valores extremos não ocorrem isoladamente: tendem a ocorrer de forma seguida (volatility<br />

clustering). Na figura 3-14 representam-se os retornos diários associados ao índice Dow<br />

Jones (1926-2006). Na figura 3-15 apresentam-se os mesmos retornos mas agora dispostos<br />

por ordem aleatória no tempo. Algumas estatísticas destas duas sucessões são obviamente<br />

iguais (média, desvio padrão, coeficientes de assimetria e de achatamento). No entanto ex-<br />

istem diferenças significativas. Só no verdadeiro cronograma (figura 3-14) aparece uma<br />

das propriedades mais importantes dos retornos: fortes (baixas) variações são normalmente<br />

seguidas de fortes (baixas) variações em ambos os sentidos (volatility clustering)<br />

Se fortes (baixas) variações são normalmente seguidas de fortes (baixas) variações em<br />

58


Figura 3-13: Funções de autocorrelação de yt = log (GNPt/GNPt−1) onde GNP é o PIB<br />

dos EUA (dados trimestrais de 1947 a 2003).<br />

0.2<br />

0.15<br />

0.1<br />

0.05<br />

0<br />

­0.05<br />

­0.1<br />

­0.15<br />

­0.2<br />

­0.25<br />

­0.3<br />

Oct­28<br />

May­32<br />

Dec­35<br />

Jul­39<br />

Feb­43<br />

Sep­46<br />

Apr­50<br />

Nov­53<br />

Jun­57<br />

Jan­61<br />

Aug­64<br />

Mar­68<br />

Oct­71<br />

May­75<br />

Dec­78<br />

Jul­82<br />

Feb­86<br />

Sep­89<br />

Apr­93<br />

Nov­96<br />

Jun­00<br />

Jan­04<br />

Figura 3-14: Retornos diários do Dow Jones (1928-2006)<br />

0.2<br />

0.15<br />

0.1<br />

0.05<br />

0<br />

­0.05<br />

­0.1<br />

­0.15<br />

­0.2<br />

­0.25<br />

­0.3<br />

Figura 3-15: Retornos diários do Dow Jones dispostos por ordem aleatória<br />

59


Figura 3-16: Funções de autocorrelação dos quadrados dos retornos (Dow JOnes)<br />

ambos os sentidos, então r 2 t deve estar correlacionado 7 com r 2 t−i (i = 1, 2, ...).<br />

A figura 3-16, onde se apresentam as funções de autocorrelação de r 2 t , onde r é o retorno<br />

associado ao índice Dow Jones, confirma esta ideia.<br />

Nesta secção identifica-se o quadrado do retorno com a volatilidade. Não é inteiramente<br />

correcta esta analogia, embora seja admissível associar-se momentos de grande (baixa) volatil-<br />

idade a valores altos (baixos) de r 2 t . De qualquer forma, a principal conclusão mantém-se:<br />

fortes (baixas) variações são normalmente seguidas de fortes (baixas) variações em ambos<br />

os sentidos e identificamos este fenómeno como volatility clustering.<br />

3.2.3 Forte Dependência Temporal da Volatilidade<br />

Nos pontos precedentes observámos o seguinte: (1) valores muitos altos e muito baixos<br />

ocorrem frequentemente e (2) estes valores extremos aparecem de forma seguida (volatility<br />

clustering). Neste ponto reforça-se a ideia de volatility clustering: não só os valores extremos<br />

tendem a aparecer de forma seguida como também há alguma persistência neste fenómeno.<br />

7Esta correlação poderia, em princípio, dever-se à presença de uma média condicional não constante. Por<br />

exemplo, se rt seguisse um MA(1), rt = φrt−1 + ut, onde ut é um ruído branco, então, por construção,<br />

ter-se-ia Corr r2 t , r2 <br />

t−1 > 0. Se fosse este o caso, a melhor forma de continuarmos com o nosso argumento<br />

seria centrar rt, usando a média condicional, i.e. tomaríamos ˜rt = rt − µ t. Viria agora Corr ˜r 2 t , ˜r 2 <br />

t−1 = 0 se<br />

rt fosse genuinamente um MA(1); no caso contrário, se Corr ˜r 2 t , ˜r 2 <br />

t−1 > 0, teríamos evidência em favor do<br />

nosso argumento. Todavia, a centragem ˜rt = rt − µ t é desnecessária, pois em séries financeiras de acções ou<br />

de índices de acções a média condicional é, geralmente, aproximadamente igual a uma constante.<br />

60


0.2<br />

0.15<br />

0.1<br />

0.05<br />

0<br />

­0.05<br />

­0.1<br />

­0.15<br />

Oct­28<br />

Apr­31<br />

Oct­33<br />

Apr­36<br />

Oct­38<br />

Apr­41<br />

Oct­43<br />

Apr­46<br />

Oct­48<br />

Apr­51<br />

Oct­53<br />

Apr­56<br />

Oct­58<br />

Apr­61<br />

Oct­63<br />

Apr­66<br />

Oct­68<br />

Apr­71<br />

Oct­73<br />

Apr­76<br />

Oct­78<br />

Apr­81<br />

Oct­83<br />

Apr­86<br />

Oct­88<br />

Apr­91<br />

Oct­93<br />

Apr­96<br />

Oct­98<br />

Apr­01<br />

Oct­03<br />

Figura 3-17: Retornos diários do Dow Jones (Jan-1928 a Fev-2006)<br />

Isto é, se a volatilidade é alta (baixa), então é razoável esperar que a volatilidade se mantenha<br />

alta (baixa) durante bastante tempo. Na figura 3-17 apresentam-se os retornos diários do Dow<br />

Jones no período Janeiro de 1928 a Fevereiro de 2006. Estão identificados alguns períodos<br />

de grande volatilidade. Estes períodos prolongam-se por vários anos!<br />

Para confirmarmos a ideia de forte dependência temporal da volatilidade deveríamos<br />

calcular a FAC da volatilidade. Como a estimação da volatilidade cabe num capítulo poste-<br />

rior, tomamos agora como proxy da volatilidade o valor absoluto dos retornos |rt| (também<br />

poderíamos considerar r 2 t , como fizemos no ponto precedente). Calcule-se, assim, a FAC<br />

associado aos valores absolutos dos retornos do Dow Jones no período acima considerado.<br />

A figura 3-18 mostra que a FAC de |rt| apresenta um decaimento lento para zero, sugerindo<br />

forte dependência temporal da volatilidade. É interessante observar que a autocorrelação en-<br />

tre, por exemplo, |rt| e |rt−500| se situe ainda próximo de 0.1 (observe-se que o desfasamento<br />

corresponde aproximadamente a dois anos).<br />

Para processos ARMA e processos de Markov em geral, o decaimento da FAC é do tipo<br />

|ρ k| ≤ Ca k , 0 < C < ∞, 0 < a < 1.<br />

Tem-se, portanto, um decaimento exponencial 8 . A figura 3-18 não sugere um decaimento<br />

exponencial; sugere antes um decaimento hiperbólico da FAC que é uma característica de<br />

8 k Pode parecer estranho dizer-se que a função Ca apresenta um decaimento exponencial para 0 < C < ∞ e<br />

0 < a < 1. Mas observe-se, para C = 1 (simplificando), que ak log ak = e = ek log a e tem-se assim um<br />

decaimento exponencial, em função de k, dado que log a < 0.<br />

61


0.35<br />

0.3<br />

0.25<br />

0.2<br />

0.15<br />

0.1<br />

0.05<br />

0<br />

1 76 151 226 301 376 451 526 601 676 751 826 901 976<br />

Figura 3-18: FAC de |rt| onde rt é o retorno diário do Dow Jones (Jan. 1928 a Fev. 2006)<br />

Rho<br />

1.0<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0.0<br />

0 10 20 30 40 50 60 70 80 90 100<br />

Figura 3-19: Decaimento Exponencial (0.9 k ) vs. Hiperbólico (k −0.5 )<br />

processos de memória longa. Concretamente, um decaimento hiperbólico da FAC é do tipo<br />

|ρ k| ≈ C |k| −β , β > 0<br />

Por exemplo, com ρ k = 1/k (β = 1) tem-se um decaimento hiperbólico (veja-se a figura<br />

3-19).<br />

3.2.4 Efeito Assimétrico<br />

Tem-se observado existir alguma correlação entre a volatilidade e a ocorrência de perdas<br />

significativas nos mercados de capitais. Designa-se esta relação por efeito assimétrico (ou<br />

leverage effect).<br />

Concretamente, quando rt−1 < 0 espera-se, em média, um aumento de volatilidade para<br />

o período seguinte. Se tomarmos como proxy da volatilidade a variável |rt| ou r 2 t devemos<br />

62<br />

k


Índices Bolsistas Corr (rt−1, r 2 t )<br />

Amesterdão -0.049<br />

Frankfurt -0.095<br />

Hong Kong -0.081<br />

Nova York -0.199<br />

Taxas de Câmbio<br />

Libra Britânica 0.074<br />

Dólar Canadiano 0.041<br />

Yen -0.008<br />

Franco Suíço 0.014<br />

Tabela 3.3: Efeito Assimétrico<br />

esperar que Corr (rt−1, |rt|) < 0 ou Corr (rt−1, r 2 t ) < 0. A tabela 3.3 parece confirmar a<br />

existência de um efeito assimétrico apenas para índices bolsistas (e, por extensão, também<br />

para cotações de acções) mas não para taxas de câmbio (a justificação pode ver-se no ponto<br />

3.1.3).<br />

Veremos no capítulo 8 uma forma bastante mais eficiente de estimar o efeito assimétrico<br />

e de testar se os coeficientes são ou não estatisticamente significativos. Não obstante, uma<br />

forma expedita de verificar se os coeficientes são estatisticamente significativos consiste em<br />

fazer a regressão de r 2 t sobre rt−1,<br />

r 2 t = β 0 + β 1rt−1 + ut<br />

(3.5)<br />

e depois ensaiar H0: β 1 = 0 contra H1:β 1 < 0. Com efeito, na equação anterior, β 1<br />

representa β 1 = Cov (rt−1, r 2 t ) / Var (rt−1) . Desta forma, β 1 < 0 implica Corr (rt−1, r 2 t ) <<br />

0.<br />

Como a heterocedasticidade está invariavelmente presente nas séries temporais finan-<br />

ceiras, convém empregar erros padrão robustos contra heterocedasticidade (uma possibili-<br />

dade neste sentido é a utilização da matriz de White). Recorda-se que, sob condições gerais,<br />

a heterocedasticidade não afecta a consistência do estimador OLS (afecta sim, como vimos,<br />

os erros padrão).<br />

O efeito assimétrico é, por vezes identificado como leverage effect depois de Black em<br />

1976 ter notado que a volatilidade aumenta quando o mercado cai e o rácio de endividamento<br />

(leverage ratio) aumenta. No entanto, vários autores têm salientado que o leverage é muito<br />

reduzido quando comparado com o efeito assimétrico. Várias explicações têm sido propostas<br />

para o efeito assimétrico.<br />

63


• Uma explicação designada por volatility feedback effect baseia-se na seguinte ideia.<br />

Quando a volatilidade de uma activo aumenta, o risco agrava-se, e a rendibilidade<br />

exigida para esse activo aumenta. Isto significa que o activo é menos atractivo e,<br />

portanto, a sua procura diminui, fazendo cair o respectivo preço. Esta explicação pres-<br />

supõe que o aumento da volatilidade precede a queda do preço (isto é, esquematica-<br />

mente, ↑ σ 2 t−1 ⇒↓ Pt, podendo t aqui ter uma interpretação intra-diária). Contudo, o<br />

facto estilizado envolve a implicação contrária, ↓ Pt−1 ⇒↑ σ 2 t (a diminuição do preço<br />

é que precede o aumento da volatilidade).<br />

• Outra explicação sustenta que o efeito assimétrico deve-se à existência de investidores<br />

naives (uninformed traders) que vendem os seus títulos quando o mercado está cair.<br />

Este comportamento conduz não só a uma queda mais acentuada do preço como tam-<br />

bém a um aumento de volatilidade.<br />

• Outra possibilidade é a seguinte. A diminuição do preço aumenta o risco de mercado<br />

(dado que o centro de gravidade da distribuição condicional dos retornos de desloca<br />

para a esquerda). O aumento do risco obriga a ajustamentos imediatos no portfolio<br />

(através de compras e vendas de activos que façam a cobertura do risco perdido). Este<br />

acréscimo da actividade nos mercados financeiros aumenta a volatilidade. Já variações<br />

positivas nos preços não têm o mesmo impacto sobre o risco e, como tal, ajustamentos<br />

no portfolio não são prementes.<br />

3.2.5 Aumento da Frequência das Observações Acentua a Não Lineari-<br />

dade<br />

Vários estudos indicam que os coeficientes de autocorrelações de r 2 t e de |rt| tendem a au-<br />

mentar com o aumento da frequência das observações.<br />

3.2.6 Co-Movimentos de Rendibilidade e Volatilidade<br />

Ao se analisarem duas ou mais séries financeiras de retornos ao longo do tempo, geralmente<br />

observam-se co-movimentos de rendibilidade e volatilidade, isto é, quando a rendibilidade<br />

e a volatilidade de uma série aumenta (diminui), a rendibilidade e a volatilidade das outras<br />

tende, em geral, a aumentar (diminuir). Estas características são relativamente evidentes nas<br />

figuras 3-20 e 3-21. A figura 3-20 mostra que os índices sobem e descem em sintonia (co-<br />

64


7000<br />

6000<br />

5000<br />

4000<br />

3000<br />

2000<br />

CAC<br />

1000<br />

1990 1992 1994 1996 1998 2000 2002 2004 2006<br />

6000<br />

5000<br />

4000<br />

3000<br />

2000<br />

1000<br />

16000<br />

14000<br />

12000<br />

10000<br />

8000<br />

6000<br />

4000<br />

DJ EURO STOXX 50<br />

0<br />

1990 1992 1994 1996 1998 2000 2002 2004 2006<br />

PSI20<br />

2000<br />

1990 1992 1994 1996 1998 2000 2002 2004 2006<br />

9000<br />

8000<br />

7000<br />

6000<br />

5000<br />

4000<br />

3000<br />

2000<br />

DAX<br />

1000<br />

1990 1992 1994 1996 1998 2000 2002 2004 2006<br />

7000<br />

6000<br />

5000<br />

4000<br />

3000<br />

2000<br />

FTSE 100<br />

1000<br />

1990 1992 1994 1996 1998 2000 2002 2004 2006<br />

1600<br />

1400<br />

1200<br />

1000<br />

800<br />

600<br />

400<br />

S&P 500<br />

200<br />

1990 1992 1994 1996 1998 2000 2002 2004 2006<br />

Figura 3-20: Índices Bolsistas<br />

CAC DAX DJ EURO 50 FTSE 100 PSI 20 S&P 500<br />

CAC 1<br />

DAX 0.78 1<br />

DJ EURO 50 0.92 0.89 1<br />

FTSE 100 0.79 0.70 0.81 1<br />

PSI 20 0.52 0.50 0.57 0.47 1<br />

S&P 500 0.43 0.47 0.46 0.41 0.25 1<br />

Tabela 3.4: Matriz de correlações dos retornos diários (Jan 90-Nov 06)<br />

movimento de rendibilidade). A tabela 3.4, onde se apresentam os coeficientes de correlação<br />

(marginal) dos retornos diários, corrobora o co-movimento de rendibilidade. A figura 3-21<br />

mostra que os períodos de alta e baixa volatilidade são aproximadamente coincidentes (co-<br />

movimento de volatilidade). A tabela 3.5, onde se apresentam os coeficientes de correlação<br />

(marginal) dos retornos ao quadrado, corrobora o co-movimento de volatilidade.<br />

65


.08<br />

.04<br />

.00<br />

­.04<br />

CAC<br />

­.08<br />

1990 1992 1994 1996 1998 2000 2002 2004 2006<br />

.08<br />

.04<br />

.00<br />

­.04<br />

­.08<br />

1990 1992 1994 1996 1998 2000 2002 2004 2006<br />

.08<br />

.04<br />

.00<br />

­.04<br />

­.08<br />

DJ EURO STOXX 50<br />

PSI20<br />

­.12<br />

1990 1992 1994 1996 1998 2000 2002 2004 2006<br />

.08<br />

.04<br />

.00<br />

­.04<br />

­.08<br />

DAX<br />

­.12<br />

1990 1992 1994 1996 1998 2000 2002 2004 2006<br />

.06<br />

.04<br />

.02<br />

.00<br />

­.02<br />

­.04<br />

FTSE 100<br />

­.06<br />

1990 1992 1994 1996 1998 2000 2002 2004 2006<br />

.06<br />

.04<br />

.02<br />

.00<br />

­.02<br />

­.04<br />

­.06<br />

S&P 500<br />

­.08<br />

1990 1992 1994 1996 1998 2000 2002 2004 2006<br />

Figura 3-21: Retornos de Índices<br />

CAC DAX DJ EURO 50 FTSE 100 PSI 20 S&P 500<br />

CAC 1<br />

DAX 0.74 1<br />

DJ EURO 50 0.91 0.85 1<br />

FTSE 100 0.77 0.66 0.78 1<br />

PSI 20 0.39 0.39 0.43 0.30 1<br />

S&P 500 0.38 0.44 0.41 0.35 0.21 1<br />

Tabela 3.5: Matriz de correlações dos retornos diários ao quadrado (Jan 90-Nov 06)<br />

66


Capítulo 4<br />

Processos Estocásticos: Revisões<br />

(Última actualização: 04/2010)<br />

4.1 Processo Estocástico e Filtração<br />

Um processo estocástico é um modelo matemático para descrever, em cada momento, de-<br />

pois de um instante inicial, um fenómeno aleatório. Este fenómeno é definido num es-<br />

paço de probabilidade (Ω, F, P ), onde, Ω é o conjunto de todos os estados da natureza<br />

(ou cenários de mercado), F é uma σ-álgebra de subconjuntos de Ω e P é uma proba-<br />

bilidade sobre F. Um processo estocástico é então uma colecção de variáveis aleatórias<br />

y = {yt (ω) , t ∈ Z, ω ∈ Ω} , definidas sobre um espaço de probabilidade (Ω, F, P ) . Para<br />

cada t, yt (·) é uma variável aleatória. Para cada ω ∈ Ω (cenário) fixo, y• (ω) é uma tra-<br />

jectória ou realização do processo. Para simplificar escreve-se yt em lugar de yt (ω). A<br />

observação de um fenómeno ao longo do tempo conduz normalmente à observação de uma<br />

particular trajectória do processo. Uma sucessão cronológica é apenas uma trajectória entre<br />

as infinitas possíveis.<br />

F tem estrutura de σ-álgebra no seguinte sentido: (i) se A ∈ F ⇒ Ac ∈ F; (ii) se<br />

Ai ∈ F ⇒ <br />

A ∈ F; (iii) Ω, ∅ ∈ F. O estudo dos processos estocásticos faz-se, usual-<br />

i<br />

mente, incluindo o conceito de σ-álgebra. Por um lado, as probabilidades são definidas so-<br />

bre σ-álgebras e as variáveis aleatórias, assume-se, são mensuráveis com respeito a essas<br />

σ-álgebras.<br />

Existe, no entanto, uma razão não técnica para incluir o estudo das σ-álgebras no estudo<br />

dos processos estocásticos: os processos estocásticos, ao descreverem a evolução estocástica<br />

de um fenómeno ao longo do tempo, sugerem que, em cada momento t ≧ 0, é possível<br />

67


falar de um ”passado”, ”presente” e ”futuro”. Um observador do fenómeno, pode falar da<br />

”história” do processo, daquilo que observa no presente e daquilo que poderá observar no<br />

futuro. Com vista, a caracterizar o quanto se sabe sobre o processo, é usual, equipar o<br />

espaço (Ω, F, P ) com uma filtração, i.e., uma família {Ft; t ≧ 0} de sub σ-álgebras de F:<br />

Fs ⊆ Ft ⊆ F para 0 ≦ s < t < ∞.<br />

Ft = σ (ys; s ≤ t) pode ser identificado como a “história” do processo y até ao momento<br />

t. Certos autores, para simplificar, escrevem<br />

Ft = {yt, yt−1, ..., y1} ou Ft = {yt, yt−1, ...} .<br />

4.2 Valores Esperados Condicionais: Principais Resulta-<br />

dos<br />

Começamos com um resultado trivial: E (yt| Ft) = yt. Com efeito, yt pertence ao conjunto<br />

Ft 1 (também se diz, yt é mensurável com respeito a Ft), logo yt pode ser tratado como uma<br />

constante dado Ft.<br />

Proposição 4.2.1 Suponha-se que Y é uma v.a. tal que E (|Y |) < ∞, Z é uma v.a. mensu-<br />

rável com respeito a G e E (|ZY |) < ∞ então com probabilidade um tem-se<br />

E (ZY | G) = Z E (Y | G) .<br />

Exemplo 4.2.1 Considere-se yt = xtyt−1+ut, onde {ut} é uma sucessão v.a. i.i.d. de média<br />

nula. Suponha-se Ft = σ (xs, ys; s ≤ t) . Então<br />

E (yt| Ft−1) = E (xtyt−1| Ft−1) = yt−1 E (xt| Ft−1) .<br />

Note-se que yt−1 é mensurável com respeito a Ft−1 mas xt não (Ft−1 “desconhece” os<br />

acontecimentos ocorridos em t).<br />

Exemplo 4.2.2 No âmbito da estatística clássica também se sabe que<br />

E (XY | X = x) = x E (Y | X = x) .<br />

1 Em termos técnicos, o evento (ou cenário de mercado) ω ∈ Ω que determinou yt é que pertence a Ft.<br />

Para simplificar, assume-se Ft = {yt, yt−1, ..., y1} ou Ft = {yt, yt−1, ...} e, neste caso, já pode-se dizer “yt<br />

pertence a Ft”.<br />

68


Com efeito,<br />

<br />

E (XY | X = x) =<br />

<br />

xyfy|x (y| x) dy = x<br />

yfy|x (y| x) dy = x E (Y | X = x) .<br />

Proposição 4.2.2 Seja g : R → R uma função convexa num intervalo B ⊂ R e Y uma v.a.<br />

tal que P (Y ∈ B) = 1. Se E (|Y |) < ∞ e E (|g (Y )|) < ∞ então<br />

Se g é côncava então<br />

E (g (y)| G) ≥ g (E (y| G)) .<br />

E (g (Y )| G) ≤ g (E (Y | G)) . (4.1)<br />

Dem. (esboço) Prove-se E (g (y)) ≥ g (E (y)) e suponha-se (para simplificar) que g ′ é<br />

continua em B. Como g é convexa e g ′ é continua, tem-se<br />

g (x) ≥ g (a) + g ′ (a) (x − a) , ∀x, a ∈ B.<br />

Escolha-se para a a constante E (Y ) , onde Y uma v.a. tal que P (Y ∈ B) = 1. Resulta,<br />

ou<br />

g (x) ≥ g (E (Y )) + g ′ (E (Y )) (x − E (Y ))<br />

g (Y ) ≥ g (E (Y )) + g ′ (E (Y )) (Y − E (Y )) .<br />

Como o lado direito da desigualdade é uma função linear em Y (g (E (Y )), g ′ (E (Y )) e<br />

E (Y ) são constantes), tem-se, aplicando o operador de valor esperado a ambos os termos da<br />

desigualdade,<br />

E (g (Y )) ≥ E (g (E (Y )) + g ′ (E (Y )) (Y − E (Y ))) = g (E (Y )) .<br />

Observação 4.2.1 Nas condições da proposição 4.2.2 tem-se:<br />

g é convexa ⇒ E (g (Y )) ≥ g (E (Y )) ;<br />

g é côncava ⇒ E (g (Y )) ≤ g (E (Y )) .<br />

Exemplo 4.2.3 Atendendo à observação anterior conclui-se:<br />

69


g (x) Conc./Conv. Desigualdade<br />

x 2 convexa E (Y 2 ) ≥ (E (Y )) 2<br />

1<br />

x , x > 0 convexa E 1<br />

Y<br />

≥ 1<br />

E(Y )<br />

log x, x > 0 côncava E (log (Y )) ≤ log (E (Y ))<br />

Também se conclui E (Y 2 ) ≥ (E (Y )) 2 a partir da igualdade Var (Y ) = E (Y 2 ) −<br />

(E (Y )) 2 pois, por definição, Var (Y ) ≥ 0.<br />

Proposição 4.2.3 (Lei do Valor Esperado Iterado I) Suponha-se E (|Y |) < ∞. Então<br />

Também se tem<br />

E (Y ) = E (E (Y | G)) .<br />

E (Y ) = E (E (Y | X)) .<br />

Com efeito, identificando fx, fy, fy|x e fy,x como as funções de densidade de probabilidade,<br />

respectivamente de X, Y , Y |X e (Y, X) , tem-se,<br />

E (E (Y | X)) =<br />

=<br />

=<br />

=<br />

<br />

<br />

yfy|x (y| x) dy fx (x) dx<br />

<br />

<br />

y fy|x (y| x) fx (x) dx dy<br />

<br />

<br />

y fy,x (y, x) dx dy<br />

<br />

yfy (y) dy<br />

= E (Y ) .<br />

Exemplo 4.2.4 Suponha-se que Y dado X tem distribuição condicional de Poisson de parâmetro<br />

λ = θX. Suponha-se ainda que X tem distribuição do Qui-Quadrado com um grau de liber-<br />

dade. Logo, pela proposição 4.2.3, vem<br />

E (Y ) = E (E (Y | X)) = E (θX) = θ.<br />

Exemplo 4.2.5 Considere-se o modelo yt = βxt + ut. Seja F X t = {xt, xt−1, ...} . Suponha-<br />

70


se E ut| F X t<br />

= 0. Como se sabe E yt| F X t<br />

= βxt. Logo<br />

E (yt) = E E βxt + ut| F X t<br />

= E E βxt| F X t + E E ut| F X t<br />

= β E (xt) .<br />

Neste exemplo, também se obtém esta expressão considerando E (yt) = E (βxt + ut) =<br />

β E (xt) .<br />

Exemplo 4.2.6 Considere-se yt = a + xtyt−1 + ut . Suponha-se que E (ut| Ft−1) = 0,<br />

E (xt| Ft−1) = µ x e E (yt) = E (yt−1) . Obtenha-se E (yt). Tem-se, pela lei do valor esper-<br />

ado iterado,<br />

E (yt) = E (E (yt| Ft−1))<br />

= E (E (a + xtyt−1 + ut| Ft−1))<br />

= E (a + E (xtyt−1| Ft−1) + E (ut| Ft−1))<br />

= E (a + yt−1 E (xt| Ft−1) + 0)<br />

= E (a + yt−1µ x)<br />

= a + µ x E (yt−1) = a + µ x E (yt)<br />

Logo E (yt) = a + µ x E (yt) ⇒ E (yt) = a/ (1 − µ x) .<br />

Um resultado mais geral é dado pela proposição seguinte.<br />

Proposição 4.2.4 (Lei do Valor Esperado Iterado II) Suponha-se E (|Y |) < ∞ e G ⊂ H.<br />

Então<br />

E (Y | G) = E (E (Y | H)| G) .<br />

Exemplo 4.2.7 Considere-se yt = a + φyt−1 + ut, |φ| < 1 onde {ut} é uma sucessão v.a.<br />

71


i.i.d. de média nula. Obtenha-se E (yt| Ft−2) . Como Ft−2 ⊂ Ft−1 , tem-se<br />

E (yt| Ft−2) = E (E (yt| Ft−1)| Ft−2)<br />

= E (a + φyt−1| Ft−2)<br />

= a + φ E (yt−1| Ft−2) (note-se agora yt−1 = a + φyt−2 + ut−1)<br />

= a + φ E (a + φyt−2 + ut−1| Ft−2)<br />

= a + φ (a + φ E (yt−2| Ft−2))<br />

= a + φ (a + φyt−2)<br />

= a + φa + φ 2 yt−2 .<br />

Facilmente se conclui serem válidas relações do tipo<br />

E (yt| Ft−3) = E (E (yt| Ft−2)| Ft−3)<br />

= E (E (E (yt| Ft−1)| Ft−2)| Ft−3)<br />

E (yt| F−∞) = E (E (E (E (yt| Ft−1)| Ft−2)| Ft−3) ...) .<br />

4.3 Distribuição Condicional versus Distribuição Marginal<br />

Seja f (yt| Ft−1) a fdp condicionada 2 de yt dada toda informação até ao momento t − 1.<br />

Comparativamente à fdp marginal (ou não condicional), f (yt), a fdp f (yt| Ft−1) é bastante<br />

mais “informativa”, pois esta última usa toda a informação disponível Ft−1, ao passo que a<br />

distribuição marginal, por definição, ignora a informação Ft−1. A fdp f (yt| Ft−1) pode ser<br />

entendida como uma reavaliação de f (yt) perante a evidência Ft−1.<br />

Considere-se a amostra {y1, ..., yn} . Um elemento da amostra escolhido ao acaso tem<br />

fdp f (y) . Mas observando Ft−1, a v.a. yt tem fdp f (yt| Ft−1) .<br />

Na figura 4-1 traçam-se duas hipotéticas fdp condicionadas. Para se discutir a figura,<br />

suponha-se que y é governado genericamente por dois atributos: (1) yt−1 e yt, para todo o<br />

t, tendem a estar “próximos”; por exemplo, se yt−1 é “alto”, yt tenderá também a ser “alto”<br />

(trata-se de uma forma de dependência temporal) e (2) yt “reverte” para zero, E (yt) = 0.<br />

Suponha-se ainda que y é estacionário. A fdp marginal é constante ao longo do tempo.<br />

No entanto, as densidades condicionais variam. Considere-se a fdp f (y2| F1) traçada na<br />

2 Certos autores identificam f (yt| Ft−1) como f (yt| yt−1, yt−2, ..., y1).<br />

72


8<br />

6<br />

4<br />

2<br />

0<br />

­2<br />

­4<br />

­6<br />

f<br />

( y )<br />

2 F1<br />

( y )<br />

6 F5<br />

1 2 3 4 5 6<br />

Figura 4-1: A fdp f (yt| Ft−1) varia ao longo do tempo<br />

figura 4-1. Esta função atribui probabilidades associadas à variável y2 dado F1. Perante a<br />

observação y1 (e ainda sem se conhecer a realização y2), a fdp f (y2| F1) tem moda aprox-<br />

imadamente igual a y1: é natural esperar que o valor de y2 venha “próximo” de y1 - dada<br />

a hipótese (1); a fdp f (y6| F5) usa a informação disponível no momento t = 5. Como,<br />

y5 > 0, a densidade desloca-se um pouco na direcção de y5, pois y6 tenderá a estar “próx-<br />

imo” de y5. Todavia, como y reverte para zero, é mais provável o evento {y6 < y5| y5} do<br />

que {y6 > y5| y5} , i.e., y6 deverá em princípio aproximar-se do valor para o qual y reverte,<br />

E (yt) = 0. Nestas condições, a fdp f (y6| F5) embora se desloque na direcção de y5, con-<br />

tinua a atribuir massa de probabilidade significativa a intervalos próximos de zero.<br />

Dois parâmetros fundamentais de f (yt| Ft−1) são<br />

µ t = E (yt| Ft−1) =<br />

σ 2 t = Var (yt| Ft−1) =<br />

Valem as seguintes propriedades.<br />

<br />

ytf (yt| Ft−1) dyt<br />

<br />

(yt − µ t) 2 f (yt| Ft−1) dyt.<br />

Proposição 4.3.1 A melhor previsão de yn+1 dado Fn, de acordo com Erro Quadrático<br />

Médio, é E (yn+1| Fn) , i.e.<br />

E (yn − E (yn+1| Fn)) 2 ≤ E (yn − g (Fn)) 2<br />

onde g (Fn) é um qualquer outro previsor Fn mensurável (i.e. que usa também toda a<br />

informação disponível até ao momento n).<br />

73<br />

f


Dem. Tem-se<br />

E (yn − g (Fn)) 2 = E (yn − E (yn+1| Fn) + E (yn+1| Fn) − g (Fn)) 2<br />

= E (yn − E (yn+1| Fn)) 2 + E (E (yn+1| Fn) − g (Fn)) 2<br />

+ E [(yn − E (yn+1| Fn)) (E (yn+1| Fn) − g (Fn))]<br />

Como o terceiro termo é zero (deixa-se como exercício essa demonstração) vem<br />

E (yn − g (Fn)) 2 = E (yn − E (yn+1| Fn)) 2 + E (E (yn+1| Fn) − g (Fn)) 2<br />

≥ E (yn − E (yn+1| Fn)) 2 .<br />

O valor E (yn+1) é também um previsor não enviesado de yn+1 mas, como não usa a infor-<br />

mação disponível Ft−1, pode demonstrar-se que é bastante menos preciso do que o previsor<br />

E (yn+1| Fn).<br />

Pode-se também provar<br />

E (yn+h − E (yn+h| G)) 2 ≤ E (yn+h − E (yn+h| H)) 2 , H ⊆ G.<br />

Esta desigualdade resulta do facto de em G existir mais informação. É natural esperar que<br />

um previsor que use mais informação face a um outro, tenha um EQM inferior. Têm-se ainda<br />

os seguintes casos limites quando o previsor é um valor esperado condicionado.<br />

e<br />

G = F = F ∞ ⇒ E (yn+h − E (yn+h| G)) 2 = E (yn+h − yn+h) 2 = 0<br />

H =∅ ⇒ E (yn+h − E (yn+h| H)) 2 = E (yn+h − E (yn+h)) 2 .<br />

Exemplo 4.3.1 Considere: A) Tem-se uma sucessão de retornos do PSI20 e retira-se aleato-<br />

riamente um elemento da sucessão. Suponha-se que a média e a variância desse retorno são<br />

conhecidas. B) Suponha que os retornos do PSI20 registaram “hoje” uma forte quebra e<br />

uma forte volatilidade. Q1: Qual é a informação mais relevante se o objectivo é prever os<br />

retornos do PSI20 e a volatilidade para o dia de amanhã? A ou B? Q2: Neste caso, qual é<br />

a fdp que interessa estudar? f (yt| Ft−1) ou f (yt)? Q3: Qual é a informação relevante se o<br />

objectivo é conhecer as características gerais da série dos retornos (ou prever os retornos e<br />

74


a volatilidade para um horizonte de vários anos)? Q4: Neste caso, qual é a fdp que interessa<br />

estudar? f (yt| Ft−1) ou f (yt)?<br />

Considere o modelo de séries temporais,<br />

yt = c + φyt−1 + ut, |φ| < 1<br />

onde {ut} é uma sucessão de v.a. i.i.d. com distribuição N (0, σ 2 ) . Determine-se a dis-<br />

tribuição de yt| Ft−1. Dado Ft−1, yt−1 pode ser tratado como uma constante. Logo yt| Ft−1<br />

tem distribuição normal,<br />

onde<br />

Assim,<br />

yt| Ft−1 ∼ N (E (yt| Ft−1) , Var (yt| Ft−1))<br />

E (yt| Ft−1) = c + φyt−1<br />

Var (yt| Ft−1) = E (yt − E (yt| Ft−1)) 2 <br />

Ft−1 = E u 2 <br />

t<br />

Ft−1<br />

= σ 2 .<br />

yt| Ft−1 ∼ N c + φyt−1, σ 2 . (4.2)<br />

Determine-se a distribuição marginal. No modelo em análise verifica-se E (yt) = E (yt−1) .<br />

Logo<br />

e, seguindo um raciocínio similar,<br />

E (yt) = c + φ E (yt) ⇒ E (yt) = c<br />

1 − φ<br />

Var (yt) = σ2<br />

2 .<br />

1 − φ<br />

Atendendo à representação MA(∞) do processo AR(1) 3 ,<br />

yt = c<br />

1 − φ + ut + φut−1 + φ 2 ut−2 + ...<br />

imediatamente se conclui que y tem distribuição marginal normal (uma soma de v.a. nor-<br />

mais tem distribuição normal). Também se conclui, a partir da representação MA(∞), que<br />

3 A forma mais intuitiva de obter este resultado, consiste em aplicar o método recursivo (iterando yt ad<br />

infinitum). Por exemplo, yt = c + φyt−1 + ut = c + φ (c + φyt−2 + ut−1) + ut, e assim sucessivamente.<br />

75


E (yt) = c/ (1 − φ) e Var (yt) = σ 2 / 1 − φ 2 . Assim, a distribuição marginal de y é<br />

yt ∼ N<br />

<br />

c<br />

1 − φ ,<br />

σ2 1 − φ 2<br />

<br />

. (4.3)<br />

Exemplo 4.3.2 Considere-se yt = 0.9yt−1 + ut, onde ut ∼ N (0, 1) . Sabendo que no<br />

período t − 1 se observou yt−1 = −2 e tendo em conta (4.2) e (4.3) tem-se<br />

yt ∼ N (0, 5.26)<br />

yt| Ft−1 ∼ N (−1.8, 1) .<br />

Procura-se avaliar a probabilidade de yt assumir um valor positivo. Assim,<br />

P (yt > 0) = 0.5<br />

P (yt > 0| Ft−1) = P (yt > 0| yt−1 = −2) = 0.0359.<br />

As probabilidade são bem diferentes. Com efeito, no período t − 1 registou-se yt−1 = −2.<br />

Como a autocorrelação é forte (φ é alto) é natural esperar que no período t o valor de yt<br />

ainda se encontre abaixo de zero. Por esta razão, a probabilidade condicional confere pouca<br />

evidência ao evento {yt > 0} . Pelo contrário, a probabilidade marginal, ignora o aconteci-<br />

mento {yt−1 = −2} e, por isso, atribui uma probabilidade razoável ao evento {yt > 0} .<br />

Exemplo 4.3.3 Retome-se o exemplo 4.3.2 e suponha-se que se têm n observações e se pre-<br />

tende obter uma previsão para o período n + 1. Podemos usar uma infinidade de previsores,<br />

mas analisem-se apenas os seguintes:<br />

E (yn+1| Fn) = 0.9yn<br />

E (yn+1) = 0.<br />

De acordo com a discussão anterior, o previsor E (yn+1| Fn) é mais “preciso” do que<br />

E (yn+1) . A precisão é aqui aferida através do erro quadrático médio (EQM) e, com efeito,<br />

observa-se que<br />

E (yn+1 − E (yn+1| Fn)) 2 = σ 2 = 1 < E (yn+1 − E (yn+1)) 2 = σ2<br />

2 = 5.263<br />

1 − φ<br />

76


A<br />

40<br />

30<br />

20<br />

10<br />

0<br />

­10<br />

­20<br />

­30<br />

­40<br />

­50<br />

1 26 51 76 101 126 151 176<br />

30<br />

25<br />

20<br />

15<br />

10<br />

5<br />

0<br />

­5<br />

1 26 51 76 101 126 151 176<br />

C<br />

5<br />

3<br />

1<br />

­1<br />

­3<br />

B<br />

­5<br />

1 26 51 76 101 126 151 176<br />

15<br />

10<br />

5<br />

0<br />

­5<br />

­10<br />

­15<br />

1 26 51 76 101 126 151 176<br />

Figura 4-2: Qual é a trajectória do processo ruído branco?<br />

4.4 Processos Estocásticos Elementares, Estacionaridade e<br />

Fraca Dependência<br />

4.4.1 Processos Estocásticos Elementares<br />

Definição 4.4.1 u é um processo 4 ruído branco (RB) se<br />

E (ut) = 0<br />

Var (ut) = E u 2 2<br />

t = σ<br />

E (utus) = 0, ∀s = t<br />

Procure identificar o processo ruído branco na figura 4-2.<br />

4 Recorde-se a notação u = {ut} = {ut; t = 1, 2, ...} .<br />

77<br />

D


Definição 4.4.2 u é um processo ruído branco independente se<br />

E (ut) = 0,<br />

E u 2 2<br />

t = σ ,<br />

ut e us são independentes ∀s = t<br />

Se adicionalmente ut ∼ N (0, σ 2 ) então ut um ruído branco Gaussiano.<br />

O processo {ut} pode ser não autocorrelacionado, i.e., Corr (ut, us) = 0, ∀s = t e,<br />

mesmo assim, ut e us não serem independentes. Por exemplo, pode suceder Corr (u 2 t , u 2 s) =<br />

0 e, neste caso, existe uma óbvia ligação entre os valores u 2 t e u 2 s. Contudo, existe um caso<br />

notável onde E (utus) = 0, ∀s = t implica independência. É o caso de ruídos brancos com<br />

distribuição Gaussiana.<br />

Definição 4.4.3 u é um processo diferença de martingala se<br />

E (|ut|) < ∞,<br />

E (ut| Ft−1) = 0.<br />

Proposição 4.4.1 Se u é uma diferença de martingala, então E (ut) = 0 e E (utus) = 0,<br />

∀s = t.<br />

Dem. Deixa-se como exercício concluir que E (ut) = 0. Suponha-se, sem perda de<br />

generalidade que s < t. Tem-se<br />

E (utus) = E (E (utus| Fs)) (pela proposição 4.2.3)<br />

= E (us E (ut| Fs))<br />

= E (us E (E (ut| Ft−1)| Fs)) (pela proposição 4.2.4)<br />

= E (us E (0| Fs)) = 0.<br />

Definição 4.4.4 u é um processo passeio aleatório (random walk ou RW) se<br />

yt = yt−1 + ut<br />

e ut é um RB. yt diz-se um processo passeio aleatório com deriva (random walk with drift)<br />

78


se<br />

120<br />

100<br />

80<br />

60<br />

40<br />

20<br />

0<br />

1<br />

­20<br />

101 201 301 401 501 601 701 801 901<br />

­40<br />

1200<br />

1000<br />

Figura 4-3: Processo RW e Var (yt) = t<br />

i=1 (yi − ¯yt) 2 /t<br />

yt = yt−1 + δ + ut, δ = 0.<br />

Pode-se provar (veja o apêndice 6.D) que um random walk verifica:<br />

E (yt| Ft−1) = yt−1,<br />

E (yt) = E (y0) , E y 2 t = E y 2 2<br />

0 + σ t, E (ytyt−k) = σ 2 (t − k) .<br />

Na figura 4-3 apresenta-se um processo RW e Var (yt) = t<br />

i=1 (yi − ¯yt) 2 /t.<br />

4.4.2 Estacionaridade<br />

Definição 4.4.5 y é um processo estacionário de segunda ordem (ESO) se<br />

E (yt) = µ, (não depende de t)<br />

Var (yt) = σ 2 , (não depende de t)<br />

Cov (yt, yt±h) = γ (h) (não depende de t).<br />

Na definição de processo ESO está implícito não só que os momentos não dependem de<br />

t como também são finitos. Por exemplo, se Var (yt) = ∞, então yt não é ESO. Um RB,<br />

RB independente ou um RB Gaussiano são processos estacionários de segunda ordem. Uma<br />

diferença de martingala pode ser ou não um processo ESO. É um processo ESO se o segundo<br />

momento for finito e não depender de t. Identifique na figura 4-2 as trajectórias de processos<br />

79<br />

800<br />

600<br />

400<br />

200<br />

0<br />

RW<br />

Var


f(x)<br />

0.3<br />

0.2<br />

0.1<br />

­4 ­3 ­2 ­1 0 1 2 3 4<br />

aparentemente não estacionários.<br />

Figura 4-4: Função densidade de probabilidade de Cauchy<br />

Naturalmente o processo passeio aleatório não é ESO.<br />

Geralmente entende-se que um processo não é ESO quando a média, a variância ou as<br />

covariâncias dependem de t. Mas a estacionaridade de segunda ordem (ESO) pode também<br />

falhar se não existir a média e/ou a variância. Por exemplo, considere o processo yt = 10+ut,<br />

onde {ut} é uma sucessão de v.a. i.i.d. com distribuição de Chauchy. A função densidade<br />

de probabilidade (fdp) de Cauchy é<br />

f (x) =<br />

1<br />

π (1 + x 2 ) .<br />

y não é um processo ESO porque E (|ut|) não existe. Com efeito,<br />

<br />

E (|ut|) =<br />

R<br />

<br />

|x| f (x) dx =<br />

R<br />

|x|<br />

1<br />

π (1 + x 2 ) dx<br />

não converge e, portanto, E (|ut|) não está definido (i.e. não existe). Na figura 4-4 traça-se<br />

a função f (x) . Como a fdp tem abas muitos pesadas atribui uma massa de probabilidade<br />

considerável para valores muito afastados da média. Isto significa que embora o centro de<br />

gravidade da fdp seja zero, valores muito afastados de zero podem ocorrer com probabilidade<br />

não nula (veja-se a figura 4-5).<br />

Definição 4.4.6 y é um processo estritamente estacionário (EE) se a distribuição conjunta<br />

de (y1, y2, ..., ys) é igual à distribuição conjunta de (yk+1, yk+2, ..., yk+s) , para qualquer<br />

s ∈ N e k ∈ Z.<br />

80<br />

x


800<br />

600<br />

400<br />

200<br />

0<br />

­200<br />

­400<br />

­600<br />

­800<br />

­1000<br />

­1200<br />

­1400<br />

1 101 201 301 401 501 601 701 801 901 1001 1101 1201 1301 1401<br />

Figura 4-5: Uma trajectória simulada do processo yt = 10 + ut, onde {ut} é uma sucessão<br />

de v.a. i.i.d. com distribuição de Chauchy<br />

Na secção 4.5 discute-se com maior profundidade este conceito.<br />

Observação 4.4.1 Um processo estritamente estacionário deve verificar, em particular, a<br />

seguinte condição:<br />

fy1 (x) = fy2 (x) = ... = fyn (x) = f (x) (4.4)<br />

(as densidade marginais de y1, y2,..., yn são iguais para todo o t). Esta condição decorre da<br />

aplicação da definição anterior para s = 1. Resulta de (4.4) que se E (|g (yt)|) < ∞, então<br />

E (|g (yt)|) é constante e não depende de t, pois<br />

<br />

E (|g (yt)|) =<br />

<br />

|g (x)| fyt (x) dx =<br />

|g (x)| f (x) dx, ∀t.<br />

Ambas as definições de estacionaridade basicamente exigem que a estrutura probabilís-<br />

tica se mantenha constante ao longo do tempo. No entanto, enquanto a estacionaridade estrita<br />

exige que toda a estrutura probabilística se mantenha constante ao longo do tempo, a ESO<br />

apenas faz essa exigência para os dois primeiros momentos e para a autocovariância.<br />

Exemplo 4.4.1 Considere-se o processo,<br />

onde<br />

yt = 0.2yt−1 + ut, |φ| < 1 (4.5)<br />

ut =<br />

⎧<br />

⎨<br />

⎩<br />

ξt se t ≤ 2000<br />

<br />

k−2<br />

k ζt se t > 2000<br />

81<br />

(4.6)


sendo ξ t e ζ s independentes para todo o t e s e ξ t<br />

tem-se<br />

e para t > 2000,<br />

E (ut) = E (ξ t) = 0,<br />

Var (ut) = Var (ξ t) = 1<br />

iid<br />

∼ N (0, 1) e ζs<br />

<br />

k − 2<br />

E (ut) = E<br />

k ζ <br />

t = 0,<br />

<br />

k − 2<br />

Var (ut) = Var<br />

k ζ <br />

t = k − 2 k<br />

= 1.<br />

k k − 2<br />

iid<br />

∼ t(k). Para t ≤ 2000<br />

Como a autocovariância de ut não depende de t (na verdade é zero, para qualquer t) e E (ut)<br />

e Var (ut) são constantes, para todo o t, conclui-se que {ut} é um processo ESO. No entanto,<br />

não é EE, pois a distribuição marginal de ut para t ≤ 2000 não coincide com a distribuição<br />

marginal de ut para t > 2000 (no primeiro caso é normal; no segundo é t-Student). Não se<br />

cumpre assim a condição (4.4). A mesma conclusão se aplica a y: é ESO mas não EE. Na<br />

figura 4-6 representa-se uma trajectória simulada a partir das equações (4.5) e (4.6), com<br />

k = 3 (graus de liberdade). Observe-se que a partir de t = 2000 começam a aparecem<br />

valores muito altos e muitos baixos (“outliers”) já que os erros passam a ter distribuição<br />

t-Student com 3 graus de liberdade (embora a variância dos erros se mantenha sempre igual<br />

a 1). Observa-se, portanto, uma alteração da estrutura probabilística do processo a partir<br />

de t > 2000 que implica a não estacionaridade estrita do processo.<br />

Alguns factos:<br />

• Se E (y 2 t ) < ∞ e y é estritamente estacionário (EE), então y é ESO.<br />

Com efeito, tem-se fyt (y) = f (y) , ∀t (por hipótese) e, portanto,<br />

E (yt) =<br />

Var (yt) =<br />

<br />

<br />

<br />

xfyt (x) dx =<br />

(x − E (yt)) 2 fyt (x) dx =<br />

xf (x) dx = E (y) ,<br />

<br />

(x − E (y)) 2 f (x) dx = Var (y) .<br />

Por outro lado, fyt,yt+h (x, y) = fys,ys+h (x, y) , ∀t, s (por hipótese) e, portanto, a ex-<br />

82


Figura 4-6: Uma trajectória simulada a partir de um processo estacionário de segunda<br />

ordem mas não estritamente estacionário - confiram-se as equações (4.5) e (4.6)<br />

pressão<br />

E (ytyt+h) =<br />

=<br />

não depende de t (nem de s).<br />

<br />

<br />

xyfyt,yt+h<br />

(x, y) dxdy<br />

• Se y é ESO e tem distribuição normal, então y é EE.<br />

xyfys,ys+h (x, y) dxdy = E (ysys+h) .<br />

• A estacionaridade estrita é geralmente uma condição mais forte do que a ESO, mas<br />

não implica necessariamente ESO. Por exemplo, se yt = 10 + ut onde {ut} é uma<br />

sucessão de v.a. com distribuição de Cauchy, y não é, como vimos, ESO; no entanto,<br />

pode-se provar que y é EE: a estrutura probabilística mantém-se imutável ao longo do<br />

tempo.<br />

4.4.3 Fraca Dependência<br />

A propriedade “fraca dependência” é crucial para se invocar resultados limites como sejam<br />

a lei dos grandes números e o teorema do limite central. Considere-se, por exemplo, a média<br />

empírica ¯yn = n−1 n t=1 yt. Sob certas condições, a lei fraca dos grandes números estabelece<br />

p<br />

¯yn −→ E (y) . Este resultado pode ser provado da seguinte forma: se limn E (¯yn) = E (y) e<br />

83


limn Var (¯yn) = 0 então ¯yn<br />

p<br />

−→ E (y) . Exigir que a variância de ¯yn convirja para zero (no<br />

limite ¯yn reduz-se a uma constante) envolve a suposição de que a sucessão {yt} é fracamente<br />

dependente num sentido que precisaremos a seguir. Com efeito,<br />

Var (¯yn) = 1<br />

<br />

n<br />

Var<br />

n2 = 1<br />

n 2<br />

t=1<br />

yt<br />

<br />

<br />

n<br />

n−1<br />

Var (yt) + 2<br />

t=1<br />

n<br />

j=1 i=j+1<br />

Cov (yi, yi−j)<br />

Sem hipóteses adicionais não é garantido que estas duas somas convirjam. Comece-se por<br />

assumir que {yt} é ESO. Nestas condições a covariância Cov (yi, yi−j) só depende de j =<br />

i−(i − j) e não de i (veja a definição 4.4.5). Assim, pode-se escrever, Cov (yi, yi−j) = γ (j).<br />

Vem,<br />

Var (¯yn) = 1<br />

n2 <br />

nσ 2 n−1<br />

+ 2<br />

= σ2<br />

n<br />

= σ2<br />

n<br />

= σ2<br />

n<br />

2<br />

+<br />

n2 n−1<br />

j=1<br />

2<br />

+<br />

n2 n−1<br />

j=1<br />

2 n−1<br />

+<br />

n<br />

n<br />

j=1 i=j+1<br />

<br />

γ (j)<br />

n<br />

i=j+1<br />

γ (j)<br />

<br />

γ (j) (n − j)<br />

j=1<br />

γ (j)<br />

<br />

1 − j<br />

<br />

.<br />

n<br />

<br />

<br />

1 (γ (j) não depende de i)<br />

O primeiro termo σ 2 /n converge para zero, mas o segundo termo pode convergir ou não. É<br />

necessário não só que γ (j) convirja para zero, mas também que essa convergência seja rela-<br />

tivamente rápida. Note-se de passagem que a estacionaridade não garante fraca dependência.<br />

As condições de aplicação do teorema do limite central são ainda mais exigentes. Sob<br />

certas condições tem-se, como se sabe, √ n (¯yn − E (y))<br />

d<br />

−→ N (0, η 2 ) , onde η 2 uma con-<br />

stante finita, definida como η 2 = limn Var ( √ n (¯yn − E (y))) = limn Var ( √ n¯yn) . Se {yt}<br />

é estacionário, tem-se<br />

Var √ n−1<br />

<br />

2<br />

n¯yn = σ + 2 γ (j) 1 − j<br />

<br />

n<br />

e, agora, comparativamente ao caso anterior, γ (j) tem de convergir ainda mais rapidamente<br />

para zero para que a soma Sn = n−1 j=1 γ (j) 1 − j <br />

convirja. Por exemplo, uma função de<br />

n<br />

84<br />

j=1<br />

.


autocorrelação do tipo γ (j) = 1/j resulta numa soma Sn divergente. A soma converge se a<br />

função de autocorrelação for, por exemplo, do tipo γ (j) = a j , com |a| < 1.<br />

Existem várias definições de processos fracamente dependentes envolvendo os chama-<br />

dos mixing coefficients (α-mixing, β-mixing, ρ-mixing entre outros) que permitem avaliar<br />

e medir o grau de dependência recorrendo a diferentes interpretações do conceito de in-<br />

dependência. Vamos adoptar uma definição alternativa para caracterizarmos um processo<br />

fracamente dependente baseada na definição de Wooldridge (1994):<br />

Definição 4.4.7 y é um processo fracamente dependente se limn Var ( √ n¯yn) = c > 0.<br />

Infelizmente esta definição tem a seguinte desvantagem: se y é fracamente dependente<br />

no sentido da definição 4.4.7, e g é uma função com “boas propriedades”, não é possível<br />

concluir, em termos gerais, que zt = g (yt) é ainda um processo fracamente dependente. Já<br />

se yt é β-mixing é possível inferir, sob certas condições gerais, que zt = g (yt) é ainda<br />

β-mixing (digamos, a transformação g preserva a propriedade de fraca dependência do<br />

processo quando baseada no conceito dos mixing coefficients).<br />

Comentários Finais<br />

Por que razão é importante o estudo da estacionaridade e da fraca dependência (em séries<br />

temporais)? Apontam-se algumas razões:<br />

• A aplicação do teorema central e a lei dos grandes números são dois pilares da infer-<br />

ência estatística. Considere-se, por exemplo,<br />

¯yn = 1<br />

n<br />

n<br />

yt.<br />

Sob certas condições, a aplicação da lei dos grandes números e do teorema do limite<br />

central, permite obter, respectivamente<br />

¯yn<br />

p<br />

−→ E (y) ,<br />

t=1<br />

¯yn − E (y)<br />

Var (¯yn)<br />

d<br />

−→ N (0, 1) .<br />

No entanto, se y não é estacionário e fracamente dependente não é possível invocar<br />

estes resultados clássicos (e a inferência assimptótica habitual não pode ser utilizada).<br />

• De uma forma geral, se a estrutura probabilística se altera ao longo do tempo (i.e., se y<br />

não é estacionário), todas as conclusões que se retirem para um certo período não são<br />

“extrapoláveis” para o futuro.<br />

85


• A estacionaridade também é relevante no âmbito da previsão: processos estacionários<br />

são limitados em probabilidade e a amplitude dos intervalos de previsão não diverge<br />

quando o horizonte de previsão tende para mais infinito. Pelo contrário, processos não<br />

estacionários, por exemplo, I (1) , são extremamente difíceis de prever no longo prazo,<br />

dado que a amplitude dos intervalos de previsão aumenta com o horizonte de previsão.<br />

• Em termos de política económica é também relevante saber se um processo é esta-<br />

cionário ou não. Medidas de política económica que tenham como objectivo alterar<br />

a trajectória de processos estacionários, estão em geral condenadas ao fracasso, pelo<br />

menos no médio/longo prazo, pois choques induzidos em processos dessa natureza<br />

tendem a se autocorrigir ao longo do tempo (e a “reverterem” para a uma medida de<br />

tendência central).<br />

Convém sublinhar o seguinte. Embora muitas séries temporais sejam não estacionárias,<br />

é possível, na maior parte dos casos, estacionarizá-las, mediante transformações apropriadas<br />

do processo.<br />

* * *<br />

Para terminar esta secção, tecem-se algumas considerações críticas aos modelos de séries<br />

temporais baseados em pressupostos estacionários.<br />

Serão as séries temporais financeiras e económicas verdadeiramente estacionárias? Como<br />

já argumentámos, a estacionaridade envolve uma determinada hipótese de estabilidade da<br />

estrutura probabilística do processo. Esta estrutura depende de uma miríade de factores,<br />

como por exemplo, dos agentes económicos (privados e públicos) e das suas relações, da<br />

tecnologia, da informação, do puro acaso (entre outros factores). Apenas o puro acaso<br />

pode ser considerado imutável ao longo do tempo; tudo o resto evolui ao longo do tempo,<br />

pelo que é um mito supor-se que a estrutura probabilística de uma série temporal finan-<br />

ceira ou económica permanece constante ou aproximadamente constante ao longo do(s)<br />

tempo(s). Suponha-se que se estuda a taxa de variação relativa anual do PIB português<br />

(yt = log (P IBt) − log (P IBt−1)). Aparentemente, y é estacionário se o período de referên-<br />

cia forem alguns dezenas de anos (isto é, praticamente todos os testes estatísticos disponíveis,<br />

apontariam nessa direcção). Mas, se alargarmos a amostra para várias centenas de anos<br />

(supondo que tal era possível), é extremamente implausível y ser estacionário (a história<br />

86


diz-nos que as condições e os factores de produção evoluem ou sofrem rupturas ao longo<br />

do tempo). Sob esta perspectiva, não existem processos de natureza económica e financeira<br />

estacionários. Poderemos então concluir que a análise da estacionaridade acaba por ser in-<br />

útil? Embora, em termos rigorosos, o conceito de estacionaridade envolva o passado e o<br />

futuro distante (o “−∞” e o “+∞”), normalmente limitamos o período de análise. Para esse<br />

período, assume-se que a série apresenta características estacionárias e a previsão relevante<br />

que estabelecemos aplica-se, supostamente, a um futuro próximo, governado, no essencial,<br />

pelas mesmas leis que determinaram o processo no período amostral. Com esta ressalva, a<br />

estacionaridade é importante, porque assegura uma forma de estabilidade probabilística que<br />

é essencial na inferência estatística.<br />

4.5 Processos Ergódicos e Estritamente Estacionários<br />

Nesta secção, retomam-se alguns conceitos já abordados, relacionados com a estacionar-<br />

idade, e exploram-se novas definições que serão úteis no estudo dos processos não lin-<br />

eares. Concretamente, é objectivo deste ponto estabelecer condições suficientes para que<br />

um processo de Markov não linear seja ergódico e EE.<br />

4.5.1 Definições<br />

O ponto de partida baseia-se na definição de processo de Markov: se y é um processo de<br />

Markov então, para estabelecer, no momento s, probabilidades sobre a evolução futura do<br />

processo, toda a informação anterior a s é desnecessária se o estado do processo no momento<br />

s for conhecido 5 . Formalmente,<br />

Definição 4.5.1 y é um processo de Markov se<br />

onde Ft−1 = {y1, ..., yt−1} .<br />

P (yt < ξ| Ft−1) = P (yt < ξ| yt−1)<br />

5 Considere-se, por exemplo, uma partícula suspensa num meio homogéneo. Se no momento s, a posição<br />

e a velocidade da partícula forem conhecidas, torna-se desnecessário considerar toda a trajectória anterior da<br />

partícula com vista a estabelecer a sua evolução provável a partir do momento s. Observe-se que não basta<br />

conhecer só a posição ou só a velocidade. Por vezes sucede que determinado processo não é de Markov, mas<br />

esse processo juntamente com outro pode definir um processo de Markov. O exemplo que se apresenta a seguir<br />

(AR(2)) também mostra que é possível obter a propriedade Markoviana através da “expansão” do espaço de<br />

estados.<br />

87


(O caso multivariado y adapta-se facilmente). O processo AR(2), yt = φ 1yt−1 +φ 2yt−2 +<br />

ut, não é de Markov pois<br />

P (yt < ξ| y1, ..., yt−1) = P (yt < ξ| yt−2, yt−1) = P (yt < ξ| yt−1) .<br />

No entanto, é possível representá-lo na forma Markoviana. Considerem-se as mudanças de<br />

variável<br />

Assim,<br />

ou ainda<br />

⎛<br />

⎝ y1,t<br />

y2,t<br />

⎞<br />

⎠<br />

<br />

yt<br />

y1,t = yt, y2,t = yt−1.<br />

y1,t = φ 1y1,t−1 + φ 2y2,t−1 + ut<br />

y2,t = y1,t−1<br />

=<br />

⎛<br />

⎞⎛<br />

⎝ φ1 φ2 ⎠ ⎠ + ⎠,<br />

<br />

1 0<br />

<br />

y2,t−1<br />

<br />

0<br />

<br />

φ<br />

yt = φy t−1 + ut.<br />

⎝ y1,t−1<br />

yt−1<br />

⎞<br />

⎛<br />

⎝ ut<br />

O processo vectorial {yt} é agora de Markov. Este procedimento generaliza-se facil-<br />

mente para o caso AR(p).<br />

Também o processo não linear do tipo<br />

yt = g (yt−1, yt−2, ..., yt−p) + ut<br />

onde {ut} é uma sucessão de v.a. i.i.d. e independentes de yt−k, k ≥ 1, admite uma repre-<br />

sentação Markoviana. Com efeito, defina-se<br />

e<br />

yt = (yt, yt−1, ..., yt−p+1) ′ , ut = (ut, 0, ..., 0) ′<br />

x = (x1, x2, ..., xp) ′ , g (x) = (g (x) , x1, ..., xp−1) ′ .<br />

88<br />

ut<br />


Segue-se que {y} é um processo de Markov definido por<br />

Por exemplo, seja<br />

Tem-se<br />

yt<br />

yt = g (yt−1) + ut.<br />

yt = α cos (yt−1) + β sen (yt−2) + ut.<br />

yt =<br />

⎛<br />

⎝ yt<br />

yt−1<br />

⎞<br />

⎠ :=<br />

⎛<br />

⎝ y1,t<br />

e ⎛<br />

⎝ y1,t<br />

⎞ ⎛<br />

⎠ = ⎝<br />

<br />

y2,t<br />

<br />

α cos (y1,t−1)<br />

⎞ ⎛<br />

+ β sen (y2,t−1)<br />

⎠ + ⎝<br />

<br />

y1,t−1<br />

<br />

g(yt−1)<br />

<br />

ut<br />

⎞<br />

⎠.<br />

<br />

0<br />

<br />

Para simplificar, na discussão que se segue trabalha-se com processos estocásticos uni-<br />

variados Markovianos; contudo, está subjacente que se o processo y não de Markov será<br />

sempre possível representá-lo na forma multivariada como um processo de Markov.<br />

A função de distribuição condicional a n passos de um processo de Markov é<br />

P (yn+k < y| yk)<br />

(observe-se que é desnecessário escrever P (yn+k < y| Fk) , pois y é um processo de Markov).<br />

Por seu lado, a função densidade condicional (também designada por densidade de tran-<br />

sição), caso exista, é dada por<br />

y2,t<br />

⎞<br />

⎠<br />

fn (y| x) = ∂P (yn+k < y| yk)<br />

.<br />

∂y<br />

Definição 4.5.2 y é um processo homogéneo se<br />

para todo o k e s ∈ Z.<br />

P (yn+k < ξ| yk = x) = P (yn+s < ξ| ys = x) , (n ∈ N)<br />

Se y é um processo homogéneo, para avaliar probabilidades condicionadas do processo,<br />

não interessa o momento em que essas probabilidades são calculadas. Por exemplo, no caso<br />

P (yn+k < ξ| yk = x) as probabilidades são calculadas no momento no k (ou com base na<br />

89<br />

ut


informação do momento k) e dizem respeito ao intervalo de valores que y pode assumir no<br />

momento n + k. Se y é homogéneo, o momento ou instante k é irrelevante; apenas interessa<br />

conhecer o hiato de tempo n + k − k = n (para processos estacionários de segunda ordem,<br />

exige-se a mesma propriedade para a covariância: Cov (yn+k, yk) = γ (n) apenas deverá<br />

depender de n = n + k − k). Nestas circunstâncias, tem-se por exemplo,<br />

P (y10 < ξ| y0 = x) = P (y100 < ξ| y90 = x) = P (y1250 < ξ| y1240 = x) .<br />

Se o processo y é homogéneo, toma-se para a função de distribuição condicional a n passos<br />

a expressão 6<br />

com o<br />

Fn (y| x) := P (yn+k < y| yk = x) .<br />

O exemplo 4.5.2 ilustra o conceito de homogeneidade. Convém, no entanto, começar<br />

Exemplo 4.5.1 Considere-se<br />

yt = φyt−1 + ut, |φ| < 1<br />

onde ut é um ruído branco N (0, σ 2 ) . Vamos obter ft (y| x) (função de densidade condi-<br />

cional a t passos) e Ft (y| x) (função de distribuição condicional a t passos). Comece-se<br />

por obter f1 (y| x) (esta função é habitualmente escrita simplesmente na forma f (y| x)) e<br />

F1 (y| x). Tem-se,<br />

E (yt| yt−1) = E (φyt−1 + ut| yt−1) = φyt−1<br />

Var (yt| yt−1) = E (yt − φyt−1) 2 <br />

yt−1 = E u 2 <br />

t<br />

Como yt| yt−1 ∼ N (φyt−1, σ 2 ) resulta<br />

f1 (y| yt−1) =<br />

F1 (y| yt−1) =<br />

yt−1<br />

1<br />

√<br />

2πσ2 exp<br />

<br />

− 1<br />

<br />

2<br />

(y − φyt−1) ,<br />

2σ2 y<br />

f1 (u| yt−1) du.<br />

−∞<br />

= σ 2<br />

6 A notação usada para Fn (y| x) , sublinha que se tem uma função de transição a n passo (daí o índice n),<br />

que a condição inicial apenas depende de x, e que o processo é homogéneo (caso contrário Fn (y| x) deveria<br />

depender também do momento em que é calculada).<br />

90


Para obter E (yt| y0) , Var (yt| y0) e ft (y| y0) é necessário representar yt como função de<br />

y0. Tem-se<br />

yt = φyt−1 + ut<br />

= φ (φyt−2 + ut−1) + ut = φ 2 yt−2 + φut−1 + ut<br />

= ...<br />

= φ t y0 + φ t−1 u1 + φ t−2 u2 + ... + φut−1 + ut.<br />

Tendo em conta as propriedades de u, conclui-se que yt, dada a condição y0, tem distribuição<br />

condicional normal de parâmetros<br />

e<br />

Isto é,<br />

E (yt| y0) = φ t y0<br />

Var (yt| y0) =<br />

yt E − φ t =<br />

<br />

2 y0 y0<br />

φt−1 E u1 + φ t−2 <br />

2 u2 + ... + φut−1 + ut y0<br />

= σ 2<br />

<br />

1 + φ 2 + ... + φ 2(t−1)<br />

<br />

(soma geométrica)<br />

= σ 2<br />

2t<br />

1 − φ<br />

1 − φ 2<br />

<br />

.<br />

ft (y| y0) =<br />

<br />

yt| y0 ∼ N φ t y0, σ 2<br />

1<br />

<br />

2π Var (yt| y0) exp<br />

<br />

−<br />

Ft (y| y0) =<br />

y<br />

1 − φ 2t<br />

<br />

,<br />

1 − φ 2<br />

1<br />

2 Var (yt| y0) (y − E (yt| y0)) 2<br />

<br />

,<br />

ft (u| y0) du.<br />

−∞<br />

Para processos não lineares, conhece-se geralmente f1 (y| y0) (uma vez especificada a<br />

distribuição dos erros), mas não ft (y| y0), para t > 1.<br />

91


Exemplo 4.5.2 Retome-se o exemplo 4.5.1. Facilmente se constata que<br />

e, assim, o processo y é homogéneo.<br />

<br />

yn+k| yk = x ∼ N φ n x, σ 2<br />

2n<br />

1 − φ<br />

1 − φ 2<br />

<br />

<br />

yn+s| ys = x ∼ N φ n x, σ 2<br />

2n<br />

1 − φ<br />

1 − φ 2<br />

<br />

Um processo em que pelo menos um dos momentos condicionais depende do momento<br />

em que é calculado (por exemplo, E (yt| yt−1) = yt−1/t) não pode ser certamente um<br />

processo homogéneo. A homogeneidade é uma condição necessária, mas não suficiente<br />

para garantir estacionaridade (estrita ou de segunda ordem). O exemplo seguinte esclarece<br />

este ponto.<br />

Exemplo 4.5.3 Seja yt = yt−1 + ut, onde ut é um ruído branco N (0, σ 2 ) . Tem-se,<br />

yn+k = yk +<br />

yt+s = ys +<br />

n+k<br />

i=k+1<br />

n+s<br />

i=s+1<br />

ui<br />

ui<br />

<br />

<br />

<br />

<br />

yk = x ∼ N x, σ 2 n <br />

<br />

<br />

<br />

<br />

ys = x ∼ N x, σ 2 n .<br />

Logo o processo passeio aleatório é homogéneo. No entanto, sabe-se que não é estacionário.<br />

Para processos de Markov homogéneos, a equação de Chapman-Kolmogorov (numa das<br />

suas várias versões) é<br />

<br />

Fn (y| x) =<br />

F1 (y| u) Fn−1 (du| x) .<br />

Caso exista a fdp condicionada, a equação de Chapman-Kolmogorov pode também ser es-<br />

crita na forma<br />

<br />

fn (y| x) =<br />

f1 (y| u) fn−1 (u| x) du. (4.7)<br />

A definição de ergodicidade (à “Harris”) 7 que se apresenta a seguir envolve um conceito de<br />

proximidade entre duas funções de distribuição, H e G, baseada na norma de variação total<br />

. que, caso existam as funções densidades associadas a H e G, é dada por<br />

<br />

H − G =<br />

|h (x) − g (x)| dx.<br />

7 A definição de ergodicidade varia bastante na literatura. Usaremos a definição que se designa por “ergodicidade<br />

à Harris”. Veja-se, por exemplo, Fan e Yao (2005).<br />

92


Exemplo 4.5.4 Seja g a fdp associada à distribuição N (0, 1) e hn a fdp associada à dis-<br />

tribuição t (n) (t-Student, com n graus de liberdade). Para n fixo, a variação total Hn − G<br />

é positiva, mas Hn − G → 0 quando n → ∞. A demonstração é a seguinte. Em primeiro<br />

lugar, faça-se<br />

ξ n (x) = |hn (x) − g (x)| .<br />

Como hn (x) converge uniformemente em R para g (x), i.e., limn→∞ sup x∈R ξ n (x) = 0 (este<br />

resultado é bem conhecido da estatística e, normalmente, é apresentado numa forma mais<br />

fraca, limn→∞ hn (x) = g (x) , para cada x ∈ R), então ξ n (x) converge uniformemente<br />

em R para zero, pelo que, o operador de limite pode trocar com o operador de integração.<br />

Assim,<br />

lim<br />

n→∞ H − Gn =<br />

<br />

lim<br />

n→∞<br />

<br />

|hn (x) − g (x)| dx<br />

≤ lim<br />

n→∞<br />

<br />

sup |hn (x) − g (x)| dx<br />

x<br />

= lim<br />

n→∞ sup |hn (x) − g (x)| dx<br />

= 0.<br />

Considere-se o processo estocástico y com função de distribuição condicional a n passos<br />

dada por Fn (y| x).<br />

Definição 4.5.3 Se existir uma função de distribuição F e uma constante ρ ∈ (0, 1) tal que<br />

x<br />

ρ −n Fn (y| x) − F (y) → 0 (4.8)<br />

para todo o y e o x, então y é ergódico se ρ = 1 e geometricamente ergódico se ρ < 1. F é<br />

a função de distribuição estacionária.<br />

Se a densidade fn (y| x) existe, a definição acima pode ser apresentada da seguinte forma:<br />

se existir uma função de densidade f e uma constante ρ ∈ (0, 1) tal que<br />

ρ −n<br />

<br />

|fn (y| x) − f (y)| dy → 0 (4.9)<br />

para todo o x, então y é ergódico se ρ = 1 e geometricamente ergódico se ρ < 1. f é a<br />

função de densidade estacionária.<br />

93


A definição adoptada de ergodicidade à Harris, permite efectivamente relacionar a ergod-<br />

icidade com estacionaridade estrita (Chan 1990, 1993), tal como consta da<br />

Proposição 4.5.1 Suponha-se que y é ergódico. Então existe uma distribuição estacionária<br />

F tal que o processo y, inicializado com a distribuição F, é EE.<br />

Dem. Apêndice 4.A.<br />

Para processos nas condições da proposição anterior, a lei forte dos grandes números<br />

verifica-se sempre:<br />

Proposição 4.5.2 Suponha-se E (|h (y)|) < ∞. Nas condições da proposição 4.5.1 verifica-<br />

se<br />

1<br />

n<br />

n<br />

t=1<br />

h (yt) qc<br />

−→ E (h (y)) ,<br />

(qc: convergência quase certa ou com probabilidade 1) qualquer que seja o valor inicial do<br />

processo y.<br />

Por exemplo, se y é ergódico e EE e se E (e yt ) < ∞, então<br />

1<br />

n<br />

n<br />

e yt<br />

t=1<br />

qc<br />

−→ E (e y )<br />

(naturalmente também se tem convergência em probabilidade). Note-se que o processo pode<br />

não ser fracamente dependente no sentido da definição 4.4.7 - i.e., verificando-se a lei dos<br />

grandes números de acordo com a proposição anterior, pode não se garantir, ainda assim, a<br />

aplicação do teorema do limite central.<br />

Outra propriedade interessante para processos estritamente estacionários é a seguinte:<br />

Proposição 4.5.3 Seja g uma função com domínio no espaço de estados de y. Se {yt} é EE<br />

então {zt} , definido por zt = g (yt, yt−1, ...) , é também EE.<br />

A proposição anterior permite concluir, por exemplo, que se {yt} é EE, então os proces-<br />

sos {y 2 t } , {yt + e yt−1 } , etc., são também estritamente estacionários. A proposição ante-<br />

rior não se aplica naturalmente a processos estacionários de segunda ordem. Para ilustrar,<br />

suponha-se que y é um processo ESO sem 4 o momento. Resulta que {zt} , onde z é definido<br />

por zt = y 2 t , não é um processo ESO, pois Var (zt) não existe.<br />

Em geral, é difícil verificar directamente as equações (4.8) e (4.9), a não ser para casos<br />

relativamente simples, como o do exemplo que se apresenta a seguir. Iremos ver, no entanto,<br />

94


que é possível, em certas circunstâncias, provar-se (4.8) ou (4.9) de forma indirecta, através<br />

de resultados auxiliares. Antes de entramos nesta questão no ponto seguinte, veja-se um caso<br />

em que a aplicação directa de (4.9) é relativamente simples.<br />

Exemplo 4.5.5 Retome-se o exemplo 4.5.1, mas use-se agora a densidade condicional a n<br />

passos (poderia ser também a t passos). Concluímos que<br />

Note-se que<br />

fn (y| x) =<br />

yn| y0 = x ∼ N<br />

<br />

φ n x, σ 2<br />

1<br />

2π Var (yn| x) exp<br />

lim<br />

n→∞ E (yn| x) = lim<br />

n→∞ φ n x = 0,<br />

lim<br />

n→∞ Var (yn| x) = lim σ<br />

n→∞ 2<br />

lim<br />

n→∞ fn (y| x) =<br />

<br />

2π<br />

1<br />

2n <br />

1 − φ<br />

<br />

2n <br />

1 − φ<br />

σ 2<br />

1−φ 2<br />

1 − φ 2<br />

− (yn − E (yn| x)) 2<br />

2 Var (yn| x)<br />

= σ2<br />

σ 2<br />

1−φ 2<br />

<br />

1 − φ 2<br />

2 ,<br />

1 − φ<br />

exp<br />

⎧<br />

⎨<br />

⎩ −<br />

y2<br />

⎫<br />

⎬<br />

= f (y) .<br />

2 ⎭<br />

É razoável admitir que f (y) verifica o limite ρ −n |fn (y| x) − f (y)| dy → 0. Efectiva-<br />

mente, pode mostrar-se esse resultado e, nessas condições, y é um processo EE, com dis-<br />

tribuição estacionária dada por f (y) e momentos estacionários E (y) = 0 e Var (y) =<br />

σ 2 / 1 − φ 2 .<br />

Para exemplificar, considere-se x = 2, σ 2 = 0.7 e φ = 0.8. A distribuição estacionária é<br />

dada por<br />

y ∼ N<br />

<br />

0.7<br />

0,<br />

1 − 0.82 <br />

= N (0, 1.944) .<br />

Se o processo for inicializado no valor x = 2, ao fim de alguns períodos (digamos n = 10),<br />

yt comporta-se como um processo y ∼ N (0, 1.944) . Por outras palavras, um elemento re-<br />

tirado ao acaso da sucessão {y10, y11, ...} , por exemplo y100, tem distribuição estacionária<br />

N (0, 1.944) . Naturalmente, se o valor anterior y99 for observado e usarmos essa infor-<br />

mação para prever y100, a distribuição pertinente passa a ser a distribuição condicional<br />

habitual (a um passo). Na figura 4-7 mostra-se a convergência da sucessão de funções<br />

{fn (y| x = 2) , n = 1, 2, 3, 8} para a distribuição estacionária f (y) . A distribuição esta-<br />

cionária, que coincide com a distribuição marginal do processo, é relevante porque mostra<br />

95<br />

.


0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

­5.0 ­4.0 ­3.0 ­2.0 ­1.0 0.0 1.0 2.0 3.0 4.0 5.0<br />

Dist. Est n = 1 n = 2 n = 3 n = 8<br />

Figura 4-7: Sucessão de funções {fn (y| x = 2) , n = 1, 2, 3, 8} e distribuição estacionária<br />

f (y)<br />

o comportamento “geral” do processo. Dá ainda uma medida do tempo de permanência do<br />

processo em cada um dos subintervalos do espaço de estados. Para os valores fixados para<br />

σ e φ, ficamos a saber a partir da inspecção da distribuição estacionária que, por exemplo,<br />

y dificilmente sairá do intervalo (−5, 5) e que, durante a maior parte do tempo, estará no<br />

intervalo (digamos) (−2, 2) .<br />

Termina-se esta secção notando que a densidade estacionária (caso exista) coincide com<br />

a densidade marginal (quando o processo é inicializado em condições estacionárias).<br />

4.5.2 Modelos Não Lineares do tipo yt = g (yt−1, yt−2, ..., yt−p) + ut<br />

Proposição 4.5.4 Considere-se o processo {y} definido por<br />

yt = g (yt−1, ..., yt−p) + ut<br />

onde g : R p → R, {ut} é uma sucessão de v.a. i.i.d. e independentes de yt−k, k ≥ 1, com<br />

função de densidade positiva e E (ut) = 0. O processo {y} é geometricamente ergódico se<br />

qualquer uma das seguintes condições se verificar:<br />

(a) g é uma função limitada em conjuntos limitados,<br />

|g (x) − (b1x1 + ... + bpxp)|<br />

lim<br />

x→∞<br />

x<br />

= 0<br />

e as raízes do polinómio 1 − b1z − ... − bpz p estão fora do circulo unitário.<br />

96


(b) Existe uma constante λ ∈ (0, 1) e c tal que<br />

|g (x)| ≤ λ max {|x1| , ..., |xp|} + c.<br />

(c) Existe uma constante ρ ∈ (0, 1) , c e ai ≥ 0 e a1 + ... + ap = 1 tal que<br />

|g (x)| ≤ ρ (a1 |x1| + ... + ap |xp|) + c.<br />

Exemplo 4.5.6 Considere-se o processo AR(2),<br />

yt = φ 1yt−1 + φ 2yt−2 + ut<br />

onde u é um ruído branco Gaussiano. A função g é naturalmente<br />

g (x1, x2) = φ 1x1 + φ 2x2.<br />

A condição (a) da proposição 4.5.4 verifica-se se, com b1 = φ 1 e b2 = φ 2, as raízes de<br />

1−b1z−b2z 2 estiverem fora do circulo unitário. Esta é, como se sabe, a condição necessária<br />

e suficiente para que o processo AR(2) seja ESO. A proposição anterior vai mais longe: sob<br />

as condições estabelecidas, y é EE.<br />

Exemplo 4.5.7 Considere-se o processo<br />

onde u é um ruído branco Gaussiano. Tem-se<br />

yt = φ y2 t−1<br />

1 + y2 + ut<br />

t−1<br />

g (x) = φx2<br />

1 + x 2<br />

Como g (x) é uma função limitada em R, mais concretamente, |g (x)| ≤ φ < ˜ φ < ∞,<br />

conclui-se<br />

|g (x)| ≤ ρ |x| + ˜ φ<br />

para ρ ∈ (0, 1) . Verificam-se as condições (b) e (c) e, assim, y é um processo ergódico.<br />

97


Exemplo 4.5.8 Considere-se o processo<br />

yt =<br />

⎧<br />

⎨<br />

⎩<br />

−0.5yt−1 + ut se yt−1 < 0<br />

0.5yt−1 + ut se yt−1 ≥ 0.<br />

onde u é um ruído branco Gaussiano. Este modelo pode ser reescrito na forma:<br />

yt = φ tyt−1 + εt,<br />

onde φt = <br />

−0.5I{yt−1


4.5.3 Estabilidade em EDF<br />

Chamamos equação às diferenças finitas (não estocásticas) EDF (de primeira ordem, para<br />

simplificar) à equação<br />

yt = g (yt−1) , y0 = ξ (condição inicial). (4.10)<br />

A solução desta equação não tem componente aleatória e a sua dinâmica é completamente<br />

determinada pela condição inicial e pela função g. Tong (1990) chama a g o esqueleto do<br />

processo estocástico. O estudo qualitativo da EDF envolve, por exemplo, a análise do com-<br />

portamento assimptótico de yt.<br />

Seja<br />

g (t) (x) = g(...g(g(x)))<br />

<br />

t vezes<br />

(por exemplo, g (2) (x) = g (g (x))). O estudo da função g (t) (x) é essencial na análise quali-<br />

tativa das soluções. Concretamente, yt = g (t) (y0) fornece o valor de y no momento t como<br />

função do valor inicial y0. Sabendo g (t) podemos, por exemplo, estudar a sensibilidade da<br />

solução face aos valores iniciais; permite também estudar o comportamento assimptótico<br />

da solução quando t → ∞. Em certos casos, a estacionaridade e ergodicidade podem ser<br />

deduzidas a partir da análise qualitativa das equações às diferenças finitas determinísticas<br />

(EDFs). Por exemplo, considere-se a proposição 4.5.4 condição (c), no caso univariado<br />

(g : R → R), posta na forma |g (x)| < ρ |x| (com c = 0). Resulta,<br />

|g (y0)| ≤ ρ |y0|<br />

<br />

(2)<br />

g (y0) = |g (g (y0))| ≤ ρ |g (y0)| ≤ ρ 2 |y0|<br />

<br />

(t)<br />

g (y0)<br />

...<br />

≤<br />

t<br />

ρ |y0|<br />

e, portanto, yt = g (t) (y0) → 0 quando t → ∞, independentemente do valor inicial. Diz-<br />

se nestes casos que o valor 0 é um ponto assimptoticamente estável 8 . Observe-se que a<br />

mesma condição que assegura a estacionaridade estrita no âmbito dos processos estocásticos,<br />

assegura também a estabilidade assimptótica do ponto zero no âmbito das EDF (veja-se o<br />

8 Na verdade, a definição é menos exigente: o valor zero é um ponto fixo assimptoticamente estável se existir<br />

um δ0 > 0 tal que a desigualdade |y0| ≤ δ0 implica g (t) (y0) → 0 quando t → +∞.<br />

99


ponto 7.2).<br />

4.5.4 Modelos Não Lineares do tipo yt = Atyt−1+Bt<br />

Suponha-se que se analisa o modelo AR com coeficiente aleatório,<br />

yt = φ (ξ t) yt−1 + ut<br />

(4.11)<br />

onde ξ t é uma variável aleatória. Os principais resultados apresentados na secção anterior<br />

não se aplicam, pois a equação (4.11) não pode ser representada na forma yt = g (yt−1, yt−2, ..., yt−p)+<br />

ut. A teoria assimptótica está especialmente desenvolvida para a seguinte classe de modelos<br />

AR com coeficientes aleatórios:<br />

Definição 4.5.4 Uma equação vectorial autoregressiva de dimensão d com coeficientes aleatórios<br />

i.i.d. não negativos é uma equação da forma<br />

yt = Atyt−1 + Bt<br />

onde {(At, Bt) , t ∈ Z} é uma sucessão i.i.d. com valores em M +<br />

d×d × (R+ ) d .<br />

(4.12)<br />

Observe-se que M +<br />

d×d é o espaço das matrizes quadradas de ordem d de elementos todos<br />

positivos.<br />

o<br />

Inúmeros processos não lineares podem ser representados na forma (4.12), como mostra<br />

Exemplo 4.5.10 Considere-se o processo ut com heterocedasticidade condicionada de or-<br />

dem (2, 1) , (GARCH(2,1))<br />

ut = σtεt<br />

σ 2 t = ω + α1u 2 t−1 + α2u 2 t−2 + β 1σ 2 t−1 + β 2σ 2 t−2, ω, αi, β i > 0.<br />

Procure-se representar este processo na forma (4.12). Para o efeito, observe-se que<br />

σ 2 t = ω + α1σ 2 t−1ε 2 t−1 + α2σ 2 t−2ε 2 t−2 + β1σ 2 t−1 + β2σ 2 t−2<br />

= ω + α1ε 2 2<br />

t−1 + β1 σt−1 + α2u 2 t−2 + β2σ 2 t−2.<br />

100


Tem-se ⎛<br />

⎜<br />

⎝<br />

σ2 t<br />

σ2 t−1<br />

u2 ⎞ ⎛<br />

α1ε<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎟ = ⎜<br />

⎠ ⎝<br />

<br />

t−1<br />

<br />

2 t−1 + β1 1<br />

β2 0<br />

α2<br />

0<br />

ε2 ⎞⎛<br />

σ<br />

⎟⎜<br />

⎟⎜<br />

⎟⎜<br />

⎠⎝<br />

<br />

t−1<br />

<br />

0 0<br />

<br />

2 t−1<br />

σ2 t−2<br />

u2 ⎞ ⎛ ⎞<br />

ω<br />

⎟ ⎜ ⎟<br />

⎟ ⎜ ⎟<br />

⎟ + ⎜ 0 ⎟.<br />

⎠ ⎝ ⎠<br />

<br />

t−2<br />

<br />

0<br />

<br />

yt<br />

A matriz aleatória At e o vector Bt estão nas condições da definição 4.5.4.<br />

At<br />

A estacionaridade do processo (4.12) está discutida, por exemplo, em Basrak et al.<br />

(2002). O resultado principal é dado pela<br />

Proposição 4.5.5 Assuma-se, no âmbito da definição 4.5.4, E (log A1) < 0 e E log + B1 <<br />

∞ (log + x = max (log x, 0)). Então o processo definido por (4.12) converge (com probabil-<br />

idade um) e a sua solução é estritamente estacionária.<br />

Na proposição anterior, as condições de estacionaridade apenas envolvem A1 e B1, e<br />

não toda a sucessão {At} e {Bt} , porque se admite que {At} e {Bt} são sequências i.i.d.<br />

e, portanto, a avaliação de um elemento qualquer da sucessão é suficiente para estabelecer o<br />

resultado desejado.<br />

Uma versão (ligeiramente) mais geral da proposição anterior é apresentada Basrak et al.<br />

yt−1<br />

(2002). Como habitualmente, A é a norma da matriz ou vector A.<br />

Corolário 4.5.1 No caso escalar, d = 1,<br />

yt = Atyt−1 + Bt,<br />

assuma-se −∞ ≤ E (log |A1|) < 0 e E log + |B1| < ∞. Então y converge (com probabili-<br />

dade um) e a sua solução é estritamente estacionária.<br />

Exemplo 4.5.11 Discuta-se a estacionaridade do processo<br />

yt = |φ| yt−1 + |ut| ,<br />

onde u é ruído branco Gaussiano. No contexto do corolário 4.5.1 tem-se<br />

At = |φ| , Bt = |ut| .<br />

101<br />

Bt


A condição E log + |B1| < ∞ verifica-se imediatamente, tendo em conta a distribuição<br />

assumida para u. 9 Relativamente à outra condição, vem<br />

Se log |φ| < 0, i.e., |φ| < 1 o processo é EE.<br />

E (log |A1|) = E (log |φ|) = log |φ| .<br />

Exemplo 4.5.12 Discuta-se a estacionaridade do processo<br />

yt = e µ+et yt−1 + |ut| (4.13)<br />

onde µ é uma constante e et e ut são ruídos brancos Gaussianos com variância igual a 1, e<br />

independentes entre si. No contexto do corolário 4.5.1 tem-se<br />

At = e µ+et , Bt = |ut| .<br />

Como {At} é uma sucessão positiva de v.a. i.i.d., a equação (4.13) respeita a definição<br />

4.5.4 (e, assim, o corolário 4.5.1 é aplicável). A condição E log + |B1| < ∞ verifica-<br />

se imediatamente, tendo em conta a distribuição assumida para u. Relativamente à outra<br />

condição, vem<br />

Se µ < 0 então o processo y é EE.<br />

E (log |A1|) = E log e µ+e1 = E (µ + σe1) = µ.<br />

Exemplo 4.5.13 Considere-se o processo ut com heterocedasticidade condicionada de or-<br />

dem (1, 1) , (GARCH(1,1))<br />

ut = σtεt<br />

σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1 ω, α1, β 1 > 0.<br />

onde ε é um ruído branco EE e independente de ut−k, k ∈ N. O processo σ 2 t pode escrever-se<br />

na forma<br />

σ 2 t = ω + α1σ 2 t−1ε 2 t−1 + β1σ 2 t−1 = ω + α1ε 2 2<br />

t−1 + β1 σt−1. 9 Se u ∼ N (0, 1) , então E (log |u|) = −0.635. Pode mostrar-se que log |u| função densidade de probabil-<br />

e2y − idade 2e 2 +y / √ 2π.<br />

102


Tem-se assim<br />

At = α1ε 2 <br />

t−1 + β1 , Bt ≡ B = ω.<br />

Verifica-se que (At, B) é uma sucessão de v.a. positivas i.i.d. Para que σ 2 t admita uma<br />

solução estritamente estacionária é suficiente (pode mostrar-se que é também necessário)<br />

que se verifiquem as condições do corolário 4.5.1, −∞ ≤ E (log |A1|) < 0 e E log + |B1| <<br />

∞. A segunda condição verifica-se imediatamente; a primeira estabelece<br />

E (log |A1|) = E log α1ε 2 <br />

0 + β1 < 0. (4.14)<br />

Nelson (1990) obteve esta condição 10 , mas sem recorrer à proposição 4.5.5. Tem-se assim<br />

que σ 2 t é um processo EE. E quanto a ut? Felizmente, não é necessário estudar directamente<br />

ut, pois sabe-se que se o processo {(ξ 1t, ξ 2t)} é EE, uma qualquer função (mensurável) de<br />

ξ 1t e ξ 2t é ainda estritamente estacionária. Assim, se {(σ 2 t , εt)} é EE, então o processo u<br />

definido por ut = σtεt é também EE.<br />

Exemplo 4.5.14 Retome-se o exemplo 4.5.10. Suponha-se que ε é um ruído branco com<br />

distribuição N (0, 1) . Considerando a norma<br />

tem-se<br />

A = max<br />

1≤i≤n<br />

n<br />

j=1<br />

|aij|<br />

⎛⎛<br />

<br />

α1ε<br />

⎜⎜<br />

⎜⎜<br />

log A1 = log ⎜⎜<br />

⎝⎝<br />

<br />

<br />

2 0 + β1 β2 α2<br />

1 0 0<br />

ε2 ⎞<br />

⎞<br />

<br />

<br />

⎟<br />

⎟<br />

⎟<br />

⎟<br />

⎟<br />

⎟<br />

⎠<br />

⎠<br />

<br />

0 0 0 <br />

∞<br />

= log max α1ε 2 <br />

0 + β <br />

1 + |α2| + |β2| , 1, |ε0| 2<br />

= max log α1ε 2 <br />

0 + β <br />

1 + |α2| + |β2| , 0, log |ε0| 2 .<br />

<br />

10O valor esperado E log α1ε2 <br />

0 + β1 tem expressão conhecida, por exemplo, quando ε0 ∼ N (0, 1) . O<br />

programa Mathematica permite obter<br />

E log α1ε 2 <br />

0 + β1 = π erfi<br />

<br />

β<br />

+ log<br />

2α<br />

<br />

HypergeometricPFQ<br />

−β<br />

A explicação destas funções pode ver-se no programa Mathematica.<br />

103<br />

,<br />

<br />

α<br />

<br />

− EulerGamma<br />

2<br />

<br />

{1, 1} , 3<br />

2 , 2 , β<br />

<br />

2α<br />

α<br />

.


Como E log |ε0| 2 = −1.27036 < 0 e todos os parâmetros são positivos, a condição<br />

E (log A1) < 0 resume-se a<br />

E log α1ε 2 <br />

0 + α2 + β1 + β2 < 0.<br />

No caso α2 = β 2 = 0, obtém-se a condição já estabelecida (4.14).<br />

4.5.5 Modelos Não Lineares do tipo yt = g (yt−1, u t)<br />

Os modelos mais gerais são do tipo yt = g (yt−1, u t) . No ponto anterior, a função g<br />

decompõe-se na forma Atyt−1 (fixando At, g é linear no seu argumento) e no caso yt =<br />

g (yt−1)+ut, anteriormente tratado, g, dado yt−1, não depende de uma componente aleatória.<br />

O próximo resultado envolve os conceitos de aperiodicidade e irredutibilidade. Suponha-<br />

se que o espaço de estados de y é {1, 2, 3}. Imagine-se que o processo tem início no estado<br />

1. Se y retorna ao estado 1 sempre em dois passos (por exemplo, visita 2 e volta a 1, ou visita<br />

3 e volta a 1) o processo não é aperiódico. Irredutibilidade significa, grosso modo, que um<br />

processo pode visitar qualquer estado qualquer que seja o estado em que se encontre.<br />

Para processos com espaço de estados contínuo, a seguinte proposição assegura a irre-<br />

dutibilidade (Mokkadem, 1985):<br />

Proposição 4.5.6 Suponha-se que para qualquer conjunto A ⊂ R N com medida de Lebesgue<br />

não nulo e qualquer conjunto compacto B, existe um inteiro t > 0 tal que<br />

Então o processo y é irredutível.<br />

Defina-se yt q := E (yt q ) 1<br />

q .<br />

inf<br />

x∈B P (yt ∈ A| y0 = x) > 0. (4.15)<br />

Proposição 4.5.7 Considere-se o processo multivariado {y} definido por<br />

yt = g (yt−1, u t)<br />

onde {ut} é uma sucessão de vectores i.i.d.. Suponha-se que y é um processo aperiódico e<br />

irredutível. Suponha que existem escalares K > 0, δ ∈ (0, 1) e q > 0 tal que g está bem<br />

104


definida e é contínua com respeito ao primeiro argumento e<br />

g (x, u 1) q < δ x , x > K.<br />

Então {yt} é geometricamente ergódico e EE.<br />

Exemplo 4.5.15 Retome-se o exemplo 4.5.13,<br />

σ 2 t = ω + α1ε 2 2<br />

t−1 + β1 σt−1 supondo ε é um ruído branco Gaussiano com variância igual a 1. A proposição 4.5.5 é<br />

a mais adequada para tratar este caso. No entanto, também 4.5.7 pode ser invocada. O<br />

processo é obviamente aperiódico, tendo em conta a distribuição de ε. Não é fácil verificar-<br />

se (4.15), pois as probabilidades de transição a n passos não são conhecidas. É no entanto<br />

pacífico assumir-se que σ 2 t , para algum t > 0, pode atingir qualquer conjunto A, qualquer<br />

que seja a condição inicial. Assuma-se, assim, que σ 2 t é irredutível. Tem-se,<br />

g (x, u1) = ω + α1ε 2 <br />

1 + β1 x<br />

e escolha-se, no contexto da proposição 4.5.7, q = 1. Assim,<br />

Em que circunstâncias se verifica<br />

g (x,ε1)1 = E <br />

ω + α1ε 2 1 + β1 x .<br />

E <br />

ω + α1ε 2 1 + β1 x < δ |x| , |x| > K ?<br />

Para |x| suficientemente grande, tal que |x| > K, o valor de ω é irrelevante 11 . Assuma-se<br />

assim ω = 0. Vem<br />

E α1ε 2 1 + β1 x = E α1ε 2 <br />

1 + β <br />

1<br />

x < δ |x| , |x| > K<br />

se e só se E (|α1ε 2 1 + β 1|) < δ ∈ (0, 1) . A condição de estacionaridade estrita está encon-<br />

11 Considere-se, por exemplo, |ω + 0.98x| < 0.99 |x| . Esta desigualdade não se verifica para todo o x ∈ R.<br />

No entanto, para qualquer valor de ω, existe certamente um K tal que |x| > K ⇒ |ω + 0.98x| < 0.99 |x| .<br />

105


trada:<br />

E α1ε 2 <br />

1 + β <br />

1<br />

< 1.<br />

Atendendo a α1ε 2 1 + β 1 > 0 e E (ε 2 1) = 1, a condição pode reescrever-se na forma<br />

E α1ε 2 <br />

1 + β <br />

1<br />

= α1 + β1 < 1. (4.16)<br />

Esta condição não é equivalente à obtida no exemplo 4.5.13, E (log (α1ε 2 0 + β 1)) < 0 (as<br />

proposições 4.5.5 e 4.5.7, em geral, conduzem a condições suficientes, mas não necessárias).<br />

Estas duas condições são discutidas no ponto 8.4.<br />

4.A Demonstrações<br />

Demonstração da proposição 4.5.1<br />

Para simplificar, suponha-se que existe a densidade fn (y| x) = ∂<br />

∂y Fn (y| x) . Considere-<br />

se n → ∞ em ambos os lados da equação (4.7). Como fn (y| x) − f (y) converge para zero<br />

na norma , a equação (4.7) com n → ∞ é<br />

<br />

f (y) =<br />

f1 (y| u) f (u) du. (4.17)<br />

Por hipótese, y0 (valor inicial) tem densidade estacionária fy0 = f. Resulta de (4.17) que y1<br />

também tem densidade estacionária f, pois<br />

<br />

fy1 (y) =<br />

<br />

f1 (y| u) fy0 (u) du =<br />

f1 (y| u) f (u) du = f (y) .<br />

Por indução, conclui-se que fyt (y) = f (y) qualquer que seja t. Por outro lado, devido à<br />

homogeneidade e à propriedade de Markov, a densidade conjunta de (yn, yn−1, ..., y1, y0)<br />

fyn,yn−1,...,y1,y0 (xn, xn−1, ..., x1, x0) = f1 (xt| xt−1) f1 (xt−1| xt−2) ...fy0 (x0)<br />

é igual à densidade conjunta de (yn+k, yn+k−1, ..., yk+1, yk)<br />

fyn+k,yn+k−1,...,yk+1,yk (xn, xn−1, ..., x1, x0) = f1 (xt| xt−1) f1 (xt−1| xt−2) ...fyk (x0) ,<br />

pois f1 (y| x) não depende do momento em que é calculada (apenas depende dos argumentos<br />

106


y e x) e fy0 (x0) = fyk (x0) = f (x0).<br />

107


Página em branco<br />

108


Parte II<br />

Modelos<br />

109


Página em branco<br />

110


Capítulo 5<br />

O Problema da Especificação<br />

(Última actualização: 1/2010)<br />

5.1 O Axioma da Correcta Especificação do Modelo<br />

Seja yt o valor de uma variável económica no momento t. Em termos abstractos temos<br />

a sucessão (ou colecção) de variáveis aleatórias {yt, t ∈ Z} ou {yt, t ∈ N0} . Uma série<br />

económica é apenas uma subsucessão de {yt, t ∈ N0} . A série económica depende de in-<br />

úmeros factores: leis económicas, choques externos, puro acaso, etc.<br />

O verdadeiro comportamento de yt é desconhecido. Pode ser caracterizado por aquilo<br />

a que se chama data generation process (DGP) e é definido como a lei de probabilidade<br />

conjunta de {yt, yt−1, ...}:<br />

F 0<br />

t (yt, yt−1, ...) ou f 0 t (yt, yt−1, ...) .<br />

A distribuição conjunta ou a densidade conjunta (que se admite existir) descrevem comple-<br />

tamente a sucessão em termos probabilísticos (incorpora tudo o que influencia yt). Note-se<br />

que as funções F 0<br />

t ou f 0 t são desconhecidas. Além disso, dependem de t, porque se admite<br />

a possibilidade de y ser não estacionário. O DGP pode ser equivalentemente descrito pelas<br />

densidades condicionais (supondo que existem)<br />

f 0 t (yt| Ft−1) , t = ..., −1, 0, 1, ...<br />

111


Com efeito (usando a propriedade P (A ∩ B) = P (A| B) P (B)),<br />

f 0 t (yt, yt−1, ...) = f 0 t (yt| yt−1, ...) f 0 t−1 (yt−1, yt−2...) (5.1)<br />

= f 0 t (yt| yt−1, ...) f 0 t−1 (yt−1| yt−2, ...) f 0 t−2 (yt−2, yt−3...)<br />

= ...<br />

= f 0 t (yt| yt−1, ...) f 0 t−1 (yt−1| yt−2, ...) ...f 0 1 (y1| y0, ...) ...<br />

Logo a sucessão {f 0 t (yt| Ft−1)} fornece a mesma informação que f 0 (yt, yt−1, ...). Por ex-<br />

emplo, suponha-se que se simula o seguinte modelo:<br />

y1 ∼ N (0, 1)<br />

yt = 0.5yt−1 + εt, εt é um ruído branco N (0, 1) , t = 2, 3<br />

Logo, o DGP da simulação é<br />

f 0 (y3, y2, y1) = f 0 (y3| y2, y1) f 0 (y2, y1)<br />

= f 0 (y3| y2, y1) f 0 (y2| y1) f 0 (y1)<br />

= f 0 (y3| F2) f 0 (y2| F1) f 0 (y1) ,<br />

e, portanto, pode ser completamente caracterizado pela distribuição condicional yt| Ft−1 ∼<br />

N (0.5yt−1, 1) e pela distribuição do valor inicial (se o processo fosse iniciado em t = −∞<br />

o DGP seria caracterizado apenas pela distribuição condicional).<br />

Um modelo econométrico é definido pelo investigador e procura aproximar o melhor<br />

possível o DGP através de um modelo<br />

M (yt, yt−1, ...; dt; θ)<br />

onde θ é um vector de parâmetros e dt inclui variáveis não aleatórias que procuram modelar<br />

alterações no DGP ao longo do tempo (como por exemplo, variáveis artificiais determinísti-<br />

cas, tendências, etc.).<br />

Este modelo encerra uma hipótese quanto à fdp condicional, ft (yt| dt, Ft−1, θ) e, por-<br />

tanto, quanto aos momentos condicionais, como por exemplo E (yt| dt, Ft−1, θ) e Var (yt| dt, Ft−1, θ) .<br />

O axioma da correcta especificação do modelo M traduz-se da seguinte forma: existe um θ0<br />

112


tal que<br />

ft (yt| dt, Ft−1, θ0) = f 0 t (yt| Ft−1) .<br />

De forma análoga, os dois primeiros momentos condicionais estão correctamente especifi-<br />

cados se existir um θ0 tal que<br />

E (yt| dt, Ft−1, θ) =<br />

Var (yt| dt, Ft−1, θ) =<br />

<br />

<br />

yf 0 t (y| Ft−1) dy<br />

y 2 f 0 <br />

t (y| Ft−1) dy −<br />

yf 0 2 t (y| Ft−1) dy .<br />

Na prática, a hipótese da correcta especificação é implausível, embora seja geralmente<br />

conveniente invocá-la como forma de estruturar e interpretar os resultados estatísticos. De<br />

todo o modo, o objectivo é claro: devemos procurar uma fdp ft (yt| dt, Ft−1, θ0) que esteja<br />

o mais próximo possível da verdadeira mas desconhecida densidade f 0 (yt| Ft−1).<br />

5.2 Modelação da Média Condicional e Modelos Dinami-<br />

camente Completos<br />

5.2.1 Modelos Dinamicamente Completos<br />

Generalize-se a análise e admita-se que a yt depende dos valores correntes e passados de<br />

xt. Seja It = Ft−1 ∪ F X t onde F X t é o conjunto de informação contendo todas as variáveis<br />

explicativas até ao período t. Assim, It = {yt−1, yt−2, ...; xt, xt−1, ...}. O primeiro passo na<br />

construção do modelo M é o da definição da média condicional, o que significa que devemos<br />

identificar todas as variáveis explicativas de yt. Por exemplo, suponha-se que as variáveis<br />

relevantes para explicar um certo fenómeno yt são xt e yt−1. Normalmente expressamos esta<br />

nossa convicção sobre o poder explicativo xt e yt−1 escrevendo yt = β 1 + β 2xt + φyt−1 + ut,<br />

sendo ut é o termo de erro. É importante sublinhar que nada de relevante é dito sobre<br />

o modelo se não adiantarmos uma hipótese sobre o comportamento de ut. Se dissermos<br />

que E (ut) = 0 apenas podemos concluir que E (yt) = β 1 + β 1 E (xt) + φ E (yt−1) . Se<br />

adicionalmente dissermos que Cov (ut, xt) = Cov (ut, yt−1) = 0 então (pode-se provar que)<br />

β 1 + β 2xt + φyt−1 é o melhor previsor linear de yt. Se a nossa hipótese é E (ut| It) = 0<br />

acrescentamos bastante mais informação: de facto, reclamamos que a média condicional é<br />

E (yt| It) = β 1 + β 2xt + φyt−1. Todavia, nenhuma suposição é feita quanto a distribuição<br />

113


condicional de yt.<br />

Seja xt o vector das variáveis explicativas. No exemplo anterior tem-se xt = (xt, yt−1) ,<br />

e pode-se verificar que E (yt| xt) = E (yt| It) . De uma forma geral, quando é válida a<br />

igualdade E (yt| xt) = E (yt| It) diz-se que o modelo é dinamicamente completo. Veja um<br />

caso onde o modelo não é dinamicamente completo. Considere-se,<br />

yt = β 1 + β 2xt + β 3yt−1 + ut, ut = φ 2ut−2 + εt (5.2)<br />

sendo {εt} um RB. Este modelo não é dinamicamente completo, pois<br />

não coincide com<br />

E (yt| It) = β 1 + β 2xt + β 3yt−1 + φut−2<br />

E (yt| xt) = E (yt| xt, yt−1) = β 1 + β 2xt + β 3yt−1.<br />

No entanto, é fácil obter um modelo dinamicamente completo a partir de (5.2). Como<br />

tem-se, a partir da representação (5.2),<br />

yt = β 1 + β 2xt + β 3yt−1 + ut<br />

ut = yt − (β 1 + β 2xt + β 3yt−1) ⇒<br />

ut−2 = yt−2 − (β 1 + β 2xt−2 + β 3yt−3)<br />

= β 1 + β 2xt + β 3yt−1 + φ 2ut−2 + εt<br />

= β 1 + β 2xt + β 3yt−1 + φ 2 (yt−2 − (β 1 + β 2xt−2 + β 3yt−3)) + εt<br />

= β 1 − β 1φ 2 + β 2xt + β 3yt−1 + φ 2yt−2 − β 2φ 2xt−2 − β 3φ 2yt−3 + εt.<br />

A equação anterior pode ainda escrever-se na forma<br />

yt = γ 1 + γ 2xt + γ 3yt−1 + γ 4yt−2 + γ 5xt−2 + γ 6yt−3 + εt. (5.3)<br />

O vector xt passa agora a ser xt = (xt, yt−1, yt−2, xt−2, yt−3) e o modelo (5.3) é dinamica-<br />

114


mente completo pois<br />

E (yt| It) = E (yt| xt) = γ 1 + γ 2xt + γ 3yt−1 + γ 4yt−2 + γ 5xt−2 + γ 6yt−3.<br />

Num modelo dinamicamente completo, o conjunto das variáveis explicativas xt capta toda<br />

a dinâmica do processo, de tal forma que os erros não são autocorrelacionados (vale a pena<br />

acrescentar que um modelo dinamicamente completo não pode ter erros autocorrelaciona-<br />

dos).<br />

Que diferenças existem entre os modelos (5.2) e (5.3)? O estimador OLS aplicado a<br />

(5.3) é consistente; mas aplicado a (5.2) é inconsistente, pois o regressor yt−1 está correla-<br />

cionado com os erros ut (E (ut| xt) = 0). Claro que no modelo (5.2) deve usar-se um<br />

método de estimação consistente, como por exemplo, o método FGLS ou o método da máx-<br />

ima verosimilhança. Quando são usados métodos de estimação apropriados, do ponto de<br />

vista estatístico - por exemplo, previsão ou ajustamento - os modelos acima discutidos são<br />

(quase) equivalentes (e, portanto, é indiferente usar-se um ou o outro). Do ponto de vista da<br />

interpretação económica o modelo (5.3) pode ser preferível, pois identifica claramente todos<br />

os regressores “influentes” na explicação das variações de y. Mas, também pode suceder<br />

o contrário! Suponha-se que a teoria económica postula para certo fenómeno a relação<br />

yt = β 1 + β 2xt + ut. É esta a relação que queremos estimar, mesmo que ut possa exibir<br />

autocorrelação.<br />

5.2.2 Média Condicional Não Linear<br />

Suponha-se que a média condicional é dada por<br />

E (yt| Ft−1) = g (yt−1, yt−2, .., yt−p; ut−1, ut−2, ...ut−q)<br />

(não estando presente a variável explicativa xt, a σ-algebra relevante é Ft e não It, como no<br />

exemplo anterior). Diz-se que o modelo yt = g (yt−1, yt−2, .., yt−p; ut−1, ut−2, ...ut−q) + ut<br />

é não linear na média se g é uma função não linear dos seus argumentos. Vejamos alguns<br />

exemplos. No caso<br />

yt = φyt−1 + log 1 + y 2 t−1<br />

+ ut, E (ut| Ft−1) = 0,<br />

115


tem-se um modelo não linear na média, pois, E (yt| Ft−1) = φyt−1 + log 1 + y2 <br />

t−1 é uma<br />

função não linear de yt−1. Também<br />

yt = ξut−1ut−2 + ut, E (ut| Ft−1) = 0<br />

é um modelo não linear, pois E (yt| Ft−1) = ξut−1ut−2 é não linear nos valores passados de<br />

ut. Outro exemplo é Modelo Threshold<br />

yt =<br />

⎧<br />

⎨<br />

⎩<br />

φ 1yt−1 + ut se yt−1 > k<br />

φ 2yt−1 + ut se yt−1 ≤ k.<br />

com E (ut| Ft−1) = 0. Desenvolveremos modelos não lineares com algum detalhe no ponto<br />

7.<br />

5.3 Modelação da Variância Condicional<br />

Definida a média condicional, pode haver interesse em explicar a variabilidade de yt ao longo<br />

do tempo. No modelo clássico de séries temporais assume-se que a variância condicional é<br />

constante ao longo do tempo. Essa hipótese não é credível em séries temporais financeiras.<br />

No ponto 8 discutiremos esta questão em detalhe. Uma forma de introduzir um modelo<br />

de variância condicional não constante consiste em definir o termo de erro da equação yt =<br />

E (yt| Ft−1)+ut da seguinte forma ut = σtεt, onde εt é um ruído branco de variância igual a<br />

1 ou, mais geralmente, uma diferença de martingala (com variância finita igual a 1). Resulta<br />

Var (yt| Ft−1) = Var (ut| Ft−1) = Var (σtεt| Ft−1) = σ 2 t .<br />

A tarefa do investigador é a de definir uma função adequada para σ 2 t . No ponto 8 aborda-se<br />

de forma detalhada esta questão.<br />

5.4 Distribuição de Condicional<br />

Definida a média condicional e a variância condicional e, eventualmente, outros momentos<br />

condicionais de ordem superior, pode haver interesse em modelar toda a estrutura probabilís-<br />

tica do processo. Para o efeito é necessário no contexto da equação yt = E (yt| Ft−1) + ut<br />

116


com ut = σtεt, especificar uma distribuição para εt. Por exemplo, se a proposta do investi-<br />

gador é εt ∼ N (0, 1) , resulta que distribuição condicional de yt é<br />

yt| Ft−1 ∼ N (E (yt| Ft−1) , Var (yt| Ft−1)) ,<br />

e toda a estrutura probabilística fica definida. No contexto do ponto 5.1, a densidade definida<br />

para yt| Ft−1 representa a função ft (yt| dt, Ft−1, θ).<br />

117


Página em branco<br />

118


Capítulo 6<br />

Modelação da Média: Abordagem Linear<br />

(Última actualização: 3/2006)<br />

Neste capítulo vamos focar modelos lineares na média. Considere-se o modelo<br />

yt = µ t + ut<br />

(6.1)<br />

onde ut são os erros e µ t = g (yt−1, yt−2, .., yt−p; ut−1, ut−2, ...ut−q) é a média condicional.<br />

De acordo com a regra adoptada adiante, entende-se que o modelo (6.1) é linear na média se<br />

a função g é linear nos seus argumentos. Por exemplo, a especificação µ t = φyt−1 + θut−1<br />

é linear (a função g é g (x1, x2) = φx1 + θx2) ao passo que µ t = φy 2 t−1(g (x) = φx 2 ) é não<br />

linear.<br />

Toma-se como variável dependente y (pode ser um retorno de um título, a variação<br />

da taxa de câmbio, uma taxa de juro, etc.). Começaremos por admitir que a única infor-<br />

mação que dispomos sobre y é a própria série. Como explicar yt a partir da informação<br />

Ft−1 = {yt−1, yt−2, ...}? Se yt não está correlacionado de alguma forma com os seus valores<br />

passados yt−1, yt−2, ... a abordagem de séries temporais é inútil. Pelo contrário, se existe ev-<br />

idência de autocorrelação, então os valores passados da série podem explicar parcialmente o<br />

movimento de y e um modelo linear na média pode ser apropriado. Na prática, teremos de es-<br />

colher um modelo concreto. Por exemplo, yt = c+φyt−1+ut ou yt = c+φ 1yt−1+φ 2yt−2+ut<br />

ou yt = c + θ1ut−1 + ut entre muitos outros. Como seleccionar o modelo apropriado? A au-<br />

tocorrelação (total) e autocorrelação parcial são dois conceitos chave na fase da identificação<br />

do modelo. Iremos analisá-los de seguida.<br />

119


6.1 Definições Preliminares<br />

6.1.1 Autocorrelação de Ordem s (FAC)<br />

Suponha-se que y é um processo ESO. Para medir a associação linear entre yt e yt−s já vimos<br />

que se toma o coeficiente de autocorrelação de ordem s,<br />

onde<br />

ρ s =<br />

Cov(yt, yt−s)<br />

Var (yt) Var (yt−s)<br />

Cov(yt, yt−s) = E ((yt − E (yt)) (yt−s − E (yt−s)))<br />

= E (ytyt−s) − E (yt) E (yt−s) .<br />

Convencione-se chamar γ s a Cov (yt, yt−s) e γ 0 a Var (yt) 1 . Como Var (yt) = Var (yt−s)<br />

vem<br />

ρ s =<br />

Cov(yt, yt−s)<br />

Var (yt) Var (yt−s) = γ s<br />

γ 2 0<br />

= γs .<br />

γ0 Naturalmente, devido à desigualdade de Chaucy-Schwarz 2 , tem-se<br />

|ρ s| ≤ 1.<br />

6.1.2 Autocorrelação Parcial de Ordem s (FACP)<br />

Quando se calcula a correlação entre, por exemplo, yt e yt−2, por vezes sucede que a cor-<br />

relação detectada se deve ao facto de yt estar correlacionado com yt−1, e yt−1, por sua vez,<br />

estar correlacionado com yt−2. Com a autocorrelação parcial procura-se medir a correlação<br />

entre yt e yt−s eliminando o efeito das variáveis intermédias, yt−1, ..., yt−s+1. A análise desta<br />

forma de autocorrelação é importante na medida em que permite, juntamente com a FAC,<br />

identificar o processo linear subjacente.<br />

No âmbito do modelo de regressão linear, sabe-se que uma forma de medir a associação<br />

parcial ceteris paribus entre, por exemplo, y e x1 consiste em considerar a regressão y =<br />

β 0+β 1x1+β 2x2+...+β kxk+u. Com este procedimento β 1 representa o efeito ceteris paribus<br />

1 Na verdade, adoptando a convenção γs = E ((yt − E (yt)) (yt−s − E (yt−s))) resulta, por definição, γ 0 =<br />

E ((yt − E (yt)) (yt − E (yt))) = Var (yt) .<br />

2 Suponha-se que E<br />

<br />

|X| 2<br />

< ∞ e E<br />

<br />

|Y | 2<br />

< ∞. Então E (|XY |) ≤ E<br />

120<br />

<br />

|X| 21/2 <br />

E |Y | 21/2 .


de uma variação unitária de x1 sobre y. Mede-se, portanto, o impacto de x1 sobre y depois<br />

do efeito das variáveis x2, ..., xk ter sido removido ou fixo. Para obtermos as autocorrelações<br />

parciais seguimos um procedimento similar.<br />

Considere-se:<br />

yt = c + φ 11yt−1 + ξ t<br />

yt = c + φ 21yt−1 + φ 22yt−2 + ξ t<br />

yt = c + φ 31yt−1 + φ 32yt−2 + φ 33yt−3 + ξ t<br />

...<br />

yt = c + φ s1yt−1 + φ s2yt−2 + ... + φ ssyt−s + ξ t<br />

A autocorrelação parcial de ordem i é dada pelo coeficiente φ ii. Por exemplo, a autocorre-<br />

lação parcial de ordem 2 é dada pelo coeficiente φ 22 na regressão<br />

yt = c + φ 21yt−1 + φ 22yt−2 + ξ t. (6.2)<br />

Podemos usar o OLS para obter ˆ φ 22. Este coeficiente mede a relação entre yt e yt−2 depois<br />

do efeito de yt−1 ter sido removido. φ kk também pode ser estimado através da expressão<br />

ˆφ kk =<br />

<br />

t rt,kyt<br />

<br />

t r2 t,k<br />

onde rt,k é o resíduo da regressão linear de yt−k sobre um termo constante e (yt−1, ..., yt−k+1) .<br />

Os resíduos rt,k podem ser interpretados como a variável yt−k depois dos efeitos das variáveis<br />

(yt−1, ..., yt−k+1) terem sido removidos. Donde ˆ φ kk mede o efeito entre yt e yt−k depois do<br />

efeito das variáveis intermédias ter sido removido.<br />

Uma outra forma alternativa de obter φ ii (como função dos ρ ′ s) está descrita no apêndice<br />

6.A. Sob H0: φ kk = 0<br />

Z = √ n ˆ φ kk<br />

d<br />

−→ N (0, 1) .<br />

121


6.1.3 Operador de Diferença e de Atraso<br />

O operador diferença ∆ é bem conhecido:<br />

∆yt = yt − yt−1,<br />

∆ 2 yt = ∆ (∆yt) = ∆ (yt − yt−1) = ∆yt − ∆yt−1<br />

= yt − yt−1 − (yt−1 − yt−2) = yt − 2yt−1 + yt−2.<br />

O operador de atraso ou de desfasamento L (lag) define-se como<br />

Resulta da definição,<br />

Lyt = yt−1.<br />

L 2 yt = L (Lyt) = Lyt−1 = yt−2,<br />

L p yt = yt−p,<br />

L p ut = ut−p.<br />

Naturalmente, podemos combinar os operadores. Por exemplo,<br />

L∆yt = L (yt − yt−1) = yt−1 − yt−2.<br />

Com o operador L podemos escrever, por exemplo,<br />

na forma,<br />

yt − φ 1yt−1 − φ 2yt−2 = µ + θ1ut−1 + ut<br />

yt − φ 1Lyt − φ 2L 2 yt = µ + θ1Lut + ut<br />

1 − φ1L − φ 2L 2 yt = µ + (1 + θ1L) ut<br />

φ 2 (L) yt = µ + θ1 (L) ut.<br />

Obs.: φ 2 (L) = 1 − φ 1L − φ 2L 2 e θ1 (L) = 1 + θ1L são polinómios em L. Certos autores,<br />

sobretudo da área das sucessões cronológicas, preferem a letra B (backshift) para designar o<br />

mesmo operador de atraso.<br />

122


6.2 Processos Lineares Estacionários<br />

A decomposição de Wold fornece uma motivação para os modelos de médias móveis (ver a<br />

seguir). Wold mostrou que um processo y ESO pode escrever-se na forma<br />

yt = Vt + ut + ψ 1ut−1 + ψ 2ut−2 + ... (6.3)<br />

onde ut é um RB, Vt é um processo determinístico e ∞<br />

i=1 ψ2<br />

i < ∞.<br />

A decomposição destaca que qualquer processo ESO (linear ou não linear) tem uma<br />

representação linear nos erros de regressão (podemos também dizer, nos erros de previsão)<br />

ocorridos no passado. No entanto, o modelo (6.3) não pode ser implementado porque exis-<br />

tem infinitos parâmetros para estimar.<br />

Vamos procurar representações lineares parcimoniosas, inspiradas em (6.3).<br />

Exemplos:<br />

yt = ut + θ1ut−1 (ψ 1 = θ1, ψ 2 = ψ 3 = ... = 0)<br />

yt = ut + θ1ut−1 + θ2ut−2 (ψ 1 = θ1, ψ 2 = θ2, ψ 3 = ψ 4 = ... = 0)<br />

Veremos que os processos do tipo<br />

yt = c + φyt−1 + ut<br />

podem também escrever-se na forma (6.3) (com restrições sobre os ψ i). Veremos tam-<br />

bém que a melhor aproximação linear parcimoniosa que podemos efectuar à estrutura (6.3),<br />

supondo Vt = 0, baseia-se no chamado modelo ARMA.<br />

6.2.1 Processos Média Móvel<br />

Processo MA (1)<br />

O processo MA(1) é dado por<br />

yt = µ + θut−1 + ut = µ + (1 + θL) ut<br />

onde ut é um ruído branco. Este modelo representa yt como uma combinação linear de<br />

choques aleatórios (ut−1 e ut). Outra forma de interpretarmos o modelo consiste em imaginar<br />

123


que yt resulta de um mecanismo de correcção: podemos utilizar o erro cometido no período<br />

anterior, ut−1, como regressor (i.e., como variável explicativa) do modelo (por exemplo,<br />

veremos que a previsão de y baseia-se, em parte, no erro de previsão cometido no período<br />

anterior). Este modelo é indicado para modelar fenómenos de memória muito curta pois a<br />

autocorrelação de y extingue-se muito rapidamente, como veremos a seguir.<br />

Momentos Marginais<br />

Os primeiros momentos marginais (ou não condicionais) são<br />

Covariâncias e Autocorrelações<br />

Pode-se provar<br />

E (yt) = E (µ + θut−1 + ut) = µ<br />

Var (yt) = Var (µ + θut−1 + ut) = θ 2 σ 2 + σ 2 .<br />

γ 1 = Cov (yt, yt−1) = E ((yt − µ) (yt−1 − µ))<br />

= E ((θut−1 + ut) (θut−2 + ut−1))<br />

= E θ 2 ut−1ut−2 + θu 2 t−1 + θutut−2 + utut−1<br />

= 0 + θσ 2 + 0 + 0<br />

γ s = 0 para s > 1.<br />

O processo yt é ESO pois E (yt) e Var (yt) são constantes e γ s não depende de t. Conclui-<br />

se agora que as autocorrelações são dadas por<br />

ρ1 = γ1 γ0 =<br />

θσ2 ρs = 0 para s > 1.<br />

Relativamente às autocorrelações parciais tem-se<br />

e (pode-se provar)<br />

Momentos Condicionais<br />

θ 2 σ2 θ<br />

=<br />

+ σ2 θ 2 + 1 .<br />

φ 11 = ρ 1 = θ<br />

θ 2 + 1 ,<br />

φss = θs 1 − θ 2<br />

. 2(s+1)<br />

1 − θ<br />

124


Os momentos condicionais são imediatos:<br />

E (yt| Ft−1) = E (µ + θut−1 + ut| Ft−1) = µ + θut−1.<br />

Var (yt| Ft−1) = E (yt − E (yt| Ft−1)) 2 <br />

Ft−1 = E u 2 <br />

t<br />

Se ut é um ruído branco Gaussiano então<br />

Invertibilidade<br />

yt| Ft−1 ∼ N µ + θut−1, σ 2 .<br />

Ft−1<br />

= σ 2 .<br />

Considere-se um processo MA(1) (sem perda de generalidade) de média nula, yt =<br />

θut−1 + ut, onde ut é um ruído branco. Naturalmente, y pode escrever-se na forma<br />

yt = (1 + θL) ut ou yt (1 + θL) −1 = ut<br />

Atendendo ao desenvolvimento em série de potência de (1 + θL) −1 ,<br />

tem-se, para |θ| < 1,<br />

1<br />

1 + θL = 1 − θL + θ2 L 2 − ..., |θ| < 1<br />

yt (1 + θL) −1 = ut<br />

2 2<br />

yt 1 − θL + θ L − ... = ut<br />

yt = θyt−1 − θ 2 yt−2 + ... + ut. (6.4)<br />

Diz-se neste caso, com |θ| < 1 que yt é invertível, isto é, tem representação autoregressiva 3 .<br />

O facto do processo MA(1) (e, mais geralmente, o processo MA(q)) ter representação do<br />

tipo (6.4) explica por que razão a função de autocorrelação parcial φ ii é não nula para todo o<br />

i (porquê?).<br />

A invertibilidade é uma propriedade exigível na previsão: garante que a informação re-<br />

mota sobre o processo é irrelevante. Imagine-se o caso contrário, i.e. o processo não in-<br />

vertível. Isto significa que |θ| > 1 e, pela equação (6.4), a informação mais atrasada tem<br />

mais peso na previsão y (a rigor a representação (6.4) não está bem definida no caso |θ| > 1;<br />

3 No caso yt = µ+θut−1+ut, |θ| < 1, a representação autoregressiva é yt = µ<br />

1+θ +θyt−1−θ 2 yt−2+...+ut.<br />

125


no entanto, a ideia essencial mantém-se).<br />

Um processo não invertível pode transformar-se num processo invertível com funções de<br />

autocorrelação e autocorrelações parciais iguais (ver apêndice 6.B).<br />

Processo MA (q)<br />

O processo MA(q) é dado por<br />

yt = µ + θ1ut−1 + θ2ut−2 + ... + θqut−q + ut,<br />

= µ + (1 + θ1L + ... + θqL q ) ut<br />

= µ + θq (L) ut.<br />

O processo yt continua a representar-se como uma combinação linear de choques aleatórios,<br />

desta vez, em função de ut−q, ... ut. Pode-se provar:<br />

Pode-se provar ainda:<br />

E (yt) = µ<br />

Var (yt) = σ 2 1 + θ 2<br />

1 + ... + θ 2<br />

ρk =<br />

<br />

q<br />

⎧<br />

⎨ = 0 se k = 1, 2, ..., q<br />

⎩ 0 se k = q + 1, q + 2, ...<br />

φ kk = 0, mas φ kk → 0, quando k → ∞.<br />

Proposição 6.2.1 yt é invertível se as raízes de θq (L) (i.e. as soluções de θq (L) = 0) são em<br />

módulo superiores a um (ou fora do circulo unitário no plano complexo). Equivalentemente,<br />

yt é invertível se as raízes inversas de θq (L) (i.e. 1/L onde L são as soluções de θq (L) = 0)<br />

são em módulo inferiores a um (ou dentro do circulo unitário no plano complexo).<br />

No caso MA(1) a proposição 6.2.1 é equivalente a exigir |θ1| < 1 (ou |1/θ1| > 1).<br />

Observe-se que −1/θ1 é solução de 1 + θ1L = 0. No caso MA(2)<br />

yt = µ + θ1ut−1 + θ2ut−2 + ut = µ + 1 + θ1L + θ2L 2 ut<br />

126


a proposição 6.2.1 traduz-se da seguinte forma: yt é invertível se<br />

θ1 + θ2 > −1, θ1 − θ2 < 1, −1 < θ2 < 1.<br />

No caso MA(q), q > 2 é necessário calcular as raízes de θq (L) .<br />

O apêndice 6.C fornece alguns exemplos e refere-se ao programa EVIEWS.<br />

6.2.2 Processos Autoregressivos<br />

Processo AR(1)<br />

O processo AR(1) é dado por<br />

yt = c + φyt−1 + ut<br />

(6.5)<br />

onde ut é ruído branco independente de yt−1. Este modelo é muito importante porque repro-<br />

duz razoavelmente a dinâmica de muitas séries económicas e financeiras.<br />

Momentos Marginais<br />

Comece-se por calcular a média marginal<br />

E (yt) = E (c + φyt−1 + ut) = c + φ E (yt−1) .<br />

(temos uma equação recorrente em E (yt): este valor esperado depende de E (yt−1) que, por<br />

sua vez, depende de E (yt−2) e assim sucessivamente). Se assumirmos à partida a condição<br />

de ESO (implicando E (yt) = E (yt−1) = E (y)) vem<br />

Seguindo um raciocínio idêntico vem:<br />

E (y) = c + φ E (y) ⇒ E (y) = c<br />

1 − φ<br />

Var (yt) = Var (c + φyt−1 + ut) = φ 2 Var (yt−1) + Var (ut)<br />

= φ 2 Var (yt−1) + σ 2<br />

Sob a hipótese de ESO, tem-se Var (yt) = Var (yt−1) = Var (y) e, portanto,<br />

Var (yt) = φ 2 Var (y) + σ 2 ⇒ Var (y) = σ2<br />

2 .<br />

1 − φ<br />

127


Covariâncias e Autocorrelações<br />

Calcule-se agora as covariâncias. Como estas não dependem da média de yt, simplifique-<br />

se fazendo c = 0. Suponha-se |φ| < 1. A covariância γ 1 é dada por<br />

A covariância de ordem k é<br />

γ 1 = Cov (yt, yt−1) = E (ytyt−1)<br />

= E (E (ytyt−1 |Ft−1 )) = E (yt−1 E (yt |Ft−1 ))<br />

= E (yt−1 E (φyt−1 + ut |Ft−1 )) = E φy 2 t−1<br />

= φ σ2<br />

2 .<br />

1 − φ<br />

γ k = E (ytyt−k) = E (E (ytyt−k |Ft−k )) = E (yt−k E (yt |Ft−k ))<br />

Para desenvolvermos a expressão precisamos de calcular primeiro E (yt |Ft−k ) . Ora<br />

pelo que<br />

yt = φyt−1 + ut<br />

= φ (φyt−2 + ut−1) + ut<br />

= φ 2 yt−2 + φut−1 + ut<br />

= ... = yt−kφ k + ut−k+1φ k−1 + ut−k+2φ k−2 + ... + ut−1φ + ut<br />

E (yt| Ft−1) = yt−kφ k<br />

(todos os outros termos são nulos). Tem-se assim,<br />

γk = E yt−kyt−kφ k = φ k E y 2 k σ<br />

t−k = φ 2<br />

1 − φ 2 = φkγ 0.<br />

Uma forma alternativa de obter este valor é a seguinte. Multiplique-se ambos os termos da<br />

equação (6.5) por yt−k (sem perda de generalidade, considere-se c = 0). Resulta<br />

ytyt−k = φyt−1yt−k + utyt−k.<br />

128


Tomando o valor esperado e tendo em conta que E (utyt−k) = 0, obtém-se<br />

Logo,<br />

Finalmente,<br />

Assim,<br />

γ k = φγ k−1.<br />

γ 1 = φγ 0,<br />

γ 2 = φγ 1 = φ 2 γ 0<br />

...<br />

γ k = φ k γ 0.<br />

ρ k = γ k<br />

γ 0<br />

= φk γ 0<br />

γ 0<br />

= φ k .<br />

Tendo em conta a definição de autocorrelação parcial, tem-se:<br />

yt = c + φ 11yt−1 + ξ t ⇒ φ 11 = ρ 1<br />

yt = c + φ 21yt−1 + φ 22yt−2 + ξ t ⇒ φ 22 = 0<br />

⎧<br />

⎨ ρ1 se k = 1<br />

φkk =<br />

⎩ 0 se k > 1<br />

Os dois primeiros momentos condicionais são<br />

E (yt| Ft−1) = E (yt| yt−1) = E (φyt−1 + ut| yt−1) = φyt−1,<br />

Var (yt| Ft−1) = E (yt − φyt−1) 2 <br />

yt−1 = E u 2 <br />

t<br />

Se ut é um ruído branco Gaussiano então<br />

6.D)<br />

yt| Ft−1 ∼ N φyt−1, σ 2 .<br />

yt−1<br />

= σ 2 .<br />

Pode-se provar que a condição de estacionaridade do processo AR(1) é (ver apêndice<br />

|φ| < 1.<br />

129


Invertibilidade<br />

O processo AR é sempre invertível (por definição já tem representação autoregressiva).<br />

Reversão para a Média<br />

Processos estacionários com média finita são, por vezes, designados por processos com<br />

reversão para a média. Exemplifique-se com o processo AR(1)<br />

yt = c + φyt−1 + ut, |φ| < 1.<br />

Como µ = c<br />

1−φ ⇒ c = µ (1 − φ) (note-se que µ é a média de y, E (yt)) podemos reescrever<br />

o AR(1) na seguinte forma:<br />

yt = µ (1 − φ) + φyt−1 + ut<br />

∆yt = µ (1 − φ) + (φ − 1) yt−1 + ut<br />

= (φ − 1) (yt−1 − µ) + ut<br />

Esta última equação permite estabelecer as seguintes relações:<br />

(yt−1 − µ) > 0 ⇒ E (∆yt| Ft−1) < 0<br />

(yt−1 − µ) < 0 ⇒ E (∆yt| Ft−1) > 0.<br />

Por exemplo, se num certo período (digamos t − 1) o valor de y está acima da sua média<br />

de longo prazo µ (i.e. y está relativamente alto) no período seguinte y tenderá a diminuir de<br />

valor pois E (∆yt| Ft−1) < 0. Quando φ é positivo (esta é a situação habitual em aplicações),<br />

é possível concluir que quanto mais alto for φ (sem, contudo ultrapassar o valor 1) mais<br />

lenta é a velocidade de ajustamento de y em direcção à sua média de longo prazo. Suponha<br />

que o processo y sofre um choque aleatório considerável (ou que é inicializado num valor<br />

afastado da sua média de longo prazo). Como é que y evolui nos períodos seguintes? Tende a<br />

aproximar-se rapidamente ou lentamente de µ? (pode mesmo suceder que não haja qualquer<br />

efeito de reversão para uma medida de tendência central se, no limite, φ = 1). Na figura 6-1<br />

estão representados quatro processos AR(1) simulados de acordo com o modelo<br />

yt = 100 (1 − φ) + φyt−1 + ut, ut ruído branco Gaussiano σ 2 = 1<br />

Em todos os casos, o valor de inicialização é y0 = 0 e usam-se os mesmos erros u. Quanto<br />

130


y<br />

120<br />

100<br />

80<br />

60<br />

40<br />

20<br />

0<br />

­20<br />

1 26 51 76 101 126 151 176<br />

t<br />

fhi=0.1<br />

fhi=0.8<br />

fhi=0.98<br />

Figura 6-1: Simulação de quatro processos AR(1) (choques aleatórios ut iguais e valor de<br />

inicialização y0 = 0)<br />

mais alto é o valor φ mais lento é o ajustamento de y face à média de longo prazo y. No caso<br />

φ = 1 não existe reversão para µ, embora o processo possa cruzar µ = 100 (assim como<br />

qualquer outro valor do espaço de estado de y) algures no tempo.<br />

Representação MA(∞)<br />

fhi=1<br />

Um processo AR(1) (ou mais geralmente um AR(p)) estacionário pode representar-se<br />

como um MA(∞). Já vimos<br />

yt = φyt−1 + ut<br />

Podemos continuar o procedimento recursivo:<br />

= φ t y0 + φ t−1 u1 + φ t−2 u2 + ... + φut−1 + ut<br />

yt = φ t (φy−1 + u0) + φ t−1 u1 + φ t−2 u2 + ... + φut−1 + ut<br />

= φ t+1 y−1 + φ t u0 + φ t−1 u1 + φ t−2 u2 + ... + φut−1 + ut<br />

= ...φ 2 ut−2 + φut−1 + ut.<br />

Para obtermos este resultado podemos tomar um caminho alternativo. Considere-se<br />

yt = φyt−1 + ut ⇔ yt (1 − φL) = ut ⇔ yt =<br />

131<br />

1<br />

1 − φL ut.


Supondo |φ| < 1 tem-se<br />

Logo<br />

Processo AR(p)<br />

yt =<br />

1<br />

1 − φL = 1 + φL + φ2 L 2 + ...<br />

1<br />

1 − φL ut = 1 + φL + φ 2 L 2 + ... ut<br />

= ut + φut−1 + φ 2 ut−2 + ...<br />

Um processo AR(p) é uma simples generalização do AR(1):<br />

yt = c + φ 1yt−1 + ... + φ pyt−p + ut.<br />

Este modelo pode ainda representar-se nas seguintes formas alternativas:<br />

1 − φ1L − ... − φ pL p yt = c + ut, ou<br />

φ p (L) yt = c + ut.<br />

Momentos Marginais (ou não condicionais)<br />

Assumindo a condição de ESO, vem<br />

E (yt) = E <br />

c + φ1yt−1 + ... + φpyt−p + ut = c + φ1 E (yt−1) + ... + φp E (yt−p)<br />

E (y) = c + φ 1 E (y) + ... + φ p E (y) ⇒ E (y) =<br />

c<br />

.<br />

1 − φ1 − ... − φp Para obtermos a variância é útil considerar (sem perda de generalidade faça-se c = 0 ⇒<br />

E (y) = 0):<br />

yt = φ 1yt−1 + ... + φ pyt−p + ut<br />

y 2 t = φ1yt−1yt + ... + φpyt−pyt + utyt<br />

<br />

= φ1 E (yt−1yt) + ... + φp E (yt−pyt) + E (utyt)<br />

E y 2 t<br />

E y 2 t = φ1γ1 + ... + φpγp + σ 2<br />

γ 0 = φ 1γ 1 + ... + φ pγ p + σ 2 .<br />

132


As covariâncias são obtidas de forma similar (sem perda de generalidade faça-se c = 0 ⇒<br />

E (y) = 0):<br />

yt = φ 1yt−1 + ... + φ pyt−p + ut<br />

ytyt−k = φ 1yt−1yt−k + ... + φ pyt−pyt−k + utyt−k<br />

E (ytyt−k) = φ 1 E (yt−1yt−k) + ... + φ p E (yt−pyt−k) + E (utyt−k)<br />

γ k = φ 1γ k−1 + ... + φ pγ k−p<br />

γ k<br />

γ 0<br />

= φ 1<br />

γ k−1<br />

γ 0<br />

+ ... + φ p<br />

γ k−p<br />

γ 0<br />

ρ k = φ 1ρ k−1 + ... + φ pρ k−p<br />

k ≥ 1.<br />

Pode-se provar que a solução geral da equação às diferenças finitas (determinística) 4 é da<br />

forma<br />

ρ k = c1r k 1 + ... + cpr k p,<br />

onde ci constante arbitrárias e ri = 1/zi e zi são raízes do polinómio φ p (L). Pode-se provar<br />

que sob a condição de ESO os coeficientes de autocorrelação ρ k não se anulam mas tendem<br />

para zero quando k → 0.<br />

Estacionaridade<br />

Proposição 6.2.2 O processo AR(p) é estacionário sse as raízes da equação φ p (L) = 0 são<br />

em módulo superiores a um (ou fora do circulo unitário no plano complexo) (apêndice 6.E).<br />

No caso AR(1) a raiz de φ (L) = 0 é fácil de obter:<br />

(1 − φL) = 0 ⇒ L = 1<br />

φ<br />

Devemos exigir <br />

1 <br />

<br />

φ<br />

> 1 ⇒ |φ| < 1.<br />

No caso AR(2) pode-se provar que a condição de ESO é:<br />

φ 1 + φ 2 < 1, φ 2 − φ 1 < 1, −1 < φ 2 < 1<br />

4 Quase diríamos que esta equação é um processo AR(p) não fosse o facto de não possuir termo aleatório.<br />

De forma rigorosa, podemos dizer que é uma equação (linear) às diferenças finitas, de ordem p (de coeficientes<br />

constantes). Esta terminologia é usada na área dos sistemas dinâmicos em tempo discreto.<br />

133


1<br />

0.5<br />

0<br />

­0.5<br />

­1<br />

1<br />

0.5<br />

0<br />

­0.5<br />

­1<br />

1<br />

0.5<br />

0<br />

­0.5<br />

­1<br />

1<br />

0.5<br />

0<br />

­0.5<br />

­1<br />

FAC<br />

1 3 5 7 9 11 13 15 17 19<br />

FAC<br />

1 3 5 7 9 11 13 15 17 19<br />

FAC<br />

1 3 5 7 9 11 13 15 17 19<br />

FAC<br />

1 3 5 7 9 11 13 15 17 19<br />

1<br />

0.5<br />

0<br />

­0.5<br />

­1<br />

1<br />

0.5<br />

0<br />

­0.5<br />

­1<br />

1<br />

0.5<br />

0<br />

­0.5<br />

­1<br />

1<br />

0.5<br />

0<br />

­0.5<br />

­1<br />

FACP<br />

1 3 5 7 9 11 13 15 17 19<br />

FACP<br />

1 3 5 7 9 11 13 15 17 19<br />

FACP<br />

1 3 5 7 9 11 13 15 17 19<br />

FACP<br />

1 3 5 7 9 11 13 15 17 19<br />

Figura 6-2: FAC e FACP teóricas associadas aos seguintes cenários (de cima para baixo): (a)<br />

φ 1 > 0, φ 2 > 0; (b) φ 1 < 0, φ 2 > 0; (c) φ 1 > 0, φ 2 < 0; (d) φ 1 < 0, φ 2 < 0.<br />

(estas condições baseiam-se evidentemente na proposição anterior).<br />

No caso AR(p) com p > 2 não temos outra alternativa senão calcular (por exemplo,<br />

através do programa Mathematica) as raízes de φ p (L) = 0.<br />

Suponha-se que y é ESO. Nestas condições, pode-se provar:<br />

ρ k = φ 1ρ k−1 + φ 2ρ k−2 + ... + φ pρ k−p, k ≥ 1<br />

ρk não se anulam mas ρk → 0 quando k → ∞.<br />

⎧<br />

⎨ = 0 se k = 1, 2, ..., p<br />

φkk =<br />

⎩ 0 se k = p + 1, p + 2, ...<br />

É óbvio que φ kk = 0 se k > p. Por exemplo φ p+1,p+1 = 0 porque<br />

yt = φ 1yt−1 + ... + φ pyt−p + 0yt−p−1 + ut<br />

134


6.2.3 Processos ARMA<br />

Por que não combinar os dois processos AR e MA? É isso que se propõe com o modelo<br />

ARMA. No caso geral ARMA(p,q) (i.e. AR(p) + MA(q)) o modelo representa-se em qual-<br />

quer uma das seguintes formas alternativas:<br />

yt = φ 1yt−1 + ... + φ pyt−p + θ1ut−1 + ... + θqut−q + ut<br />

yt − φ 1yt−1 − ... − φ pyt−p = ut + θ1ut−1 + ... + θqut−q<br />

1 − φ1L − ... − φ pL p yt = (1 + θ1L + ... + θqL q ) ut<br />

φ p (L) yt = θq (L) ut<br />

yt = θq (L)<br />

φ p (L) ut.<br />

Ainda outra alternativa baseia-se no desenvolvimento em série de potências de L da função<br />

racional θq (L) /φ p (L). Obtém-se<br />

yt = ut + ψ 1ut−1 + ψ 2ut−2 + ...<br />

Esta expressão não corresponde à decomposição de Wold (porque estes ψ ′ s estão sujeitos<br />

a restrições), mas constitui a melhor aproximação linear à decomposição, baseada numa<br />

estrutura linear (a qualidade da aproximação aumenta quando p e q aumentam).<br />

A estacionaridade depende da estrutura AR. Concretamente, o processo ARMA(p,q) é<br />

estacionário sse as raízes da equação φ p (L) = 0 estão todas fora do círculo unitário no plano<br />

complexo. A invertibilidade depende da estrutura MA. Concretamente, o processo ARMA é<br />

invertível sse as raízes de θq (L) estão todas fora do circulo unitário no plano complexo. Na<br />

tabela 6.1 apresenta-se um quadro resumo das principais propriedades do modelos AR, MA<br />

e ARMA.<br />

Nas figuras 6-3 e 6-4 encontram-se as FAC e FACP de vários processos lineares simula-<br />

dos (n = 50000). Procure identificá-los 5 .<br />

A tabela 6.2 identifica os processos simulados nas figuras 6-3 e 6-4.<br />

5 Observe que as FAC e FACP são obtidas a partir dos processos simulados e, portanto, não correspondem<br />

às funções teóricas; por esta razão, embora alguns coeficientes populacionais sejam zero, os respectivos coeficientes<br />

estimados podem não ser iguais a zero (de facto, é uma impossibilidade virem exactamente iguais a<br />

zero). Assuma que os coeficientes estimados muito baixos não são estatisticamente significativos.<br />

135


AR(p) MA(q) ARMA(p,q)<br />

Modelo φp (L) yt = ut θ −1<br />

p (L) yt = ut θ −1<br />

em yt Série finita em yt Série infinita em yt<br />

p (L) φp (L) yt = ut<br />

Série infinita em yt<br />

Modelo yt = φ −1<br />

p (L) ut yt = θp (L) ut yt = φ −1<br />

em ut Série infinita em ut Série finita em ut<br />

p (L) θp (L) ut<br />

Série infinita em ut<br />

Estac. Raízes φp (L) = 0<br />

fora do círc. unitár.<br />

Sempre<br />

estacionários<br />

Raízes φp (L) = 0<br />

fora do círc. unitár.<br />

Invertib. Sempre Raízes θp (L) = 0 Raízes θp (L) = 0<br />

invertíveis fora do círc. unitár. fora do círc. unitár.<br />

FAC Decaimento expo- Decaimento brusco Decaimento exponencial<br />

e/ou sinu- para zero a partir de nencial e/ou sinusoidal<br />

para zero k = q + 1 soidal para zero<br />

FACP Decaimento brusco Decaimento expo- Decaimento expopara<br />

zero a partir de nencial e/ou sinu- nencial e/ou sinuk<br />

= p + 1 soidal para zero soidal para zero<br />

Fonte: Murteira et al. (1993), pág. 69<br />

Tabela 6.1: Resumo das principais propriedades dos modelos AR, MA e ARMA<br />

MA AR<br />

θ1 θ2 θ3 θ4 φ 1 φ 2 φ 3 φ 4 Modelo<br />

Figura 6-3<br />

1 −.4 −.4 −.1 0 0 0 0 0 MA(3)<br />

2 0 0 0 0 .4 .2 0 0 AR(2)<br />

3 −.4 0 −.4 0 0 0 0 0 MA(3)<br />

4 0 0 0 0 .4 .2 −.2 0 AR(3)<br />

5 0 0 0 0 1 0 0 0 AR(1)<br />

6 1 0 0 0 0 0 0 0 MA(1)<br />

7 0 0 .5 0 0 0 0 0 MA(3)<br />

Figura 6-4<br />

1 0 0 0 0 0 0 0 .9 AR(4)<br />

2 .8 0 0 0 .8 0 0 0 ARMA(1,1)<br />

3 0 0 0 .8 0 0 0 .8 ARMA(4,4)<br />

4 0 0 0 0 .4 .2 .1 .1 AR(4)<br />

5 0 0 0 0 0 0 0 0 RBranco<br />

6 −.5 0 0 0 .5 0 0 0 RBranco<br />

Tabela 6.2: Soluções das questões colocadas nas duas figuras anteriores<br />

136


0.1<br />

0<br />

­0.1<br />

­0.2<br />

­0.3<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

0.2<br />

0.1<br />

0<br />

­0.1<br />

­0.2<br />

­0.3<br />

­0.4<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

­0.1<br />

0.9998<br />

0.9996<br />

0.9994<br />

0.9992<br />

0.999<br />

0.9988<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

­0.1<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

­0.1<br />

1<br />

FAC<br />

1 2 3 4 5 6 7 8 9 10<br />

FAC<br />

1 2 3 4 5 6 7 8 9 10<br />

FAC<br />

1 2 3 4 5 6 7 8 9 10<br />

FAC<br />

1 2 3 4 5 6 7 8 9 10<br />

FAC<br />

1 2 3 4 5 6 7 8 9 10<br />

FAC<br />

1 2 3 4 5 6 7 8 9 10<br />

FAC<br />

1 2 3 4 5 6 7 8 9 10<br />

0.1<br />

0<br />

­0.1<br />

­0.2<br />

­0.3<br />

­0.4<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

­0.1<br />

0.1<br />

0<br />

­0.1<br />

­0.2<br />

­0.3<br />

­0.4<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

­0.2<br />

­0.4<br />

1.2<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

­0.2<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

­0.2<br />

­0.4<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

­0.1<br />

­0.2<br />

­0.3<br />

FACP<br />

1 2 3 4 5 6 7 8 9 10<br />

FACP<br />

1 2 3 4 5 6 7 8 9 10<br />

FACP<br />

1 2 3 4 5 6 7 8 9 10<br />

FACP<br />

1 2 3 4 5 6 7 8 9 10<br />

FACP<br />

1 2 3 4 5 6 7 8 9 10<br />

FACP<br />

1 2 3 4 5 6 7 8 9 10<br />

FACP<br />

1 2 3 4 5 6 7 8 9 10<br />

Figura 6-3: FAC e FACP de 7 processos simulados a partir de n = 50000 observações. Qual<br />

é a ordem p e q dos processos? (A resposta a esta questão encontra-se na tabela 6.2)<br />

137


0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

­0.2<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

1<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

0.4<br />

0.2<br />

0<br />

­0.2<br />

­0.4<br />

0.4<br />

0.2<br />

0<br />

­0.2<br />

­0.4<br />

FAC<br />

1 2 3 4 5 6 7 8 9 10<br />

FAC<br />

1 2 3 4 5 6 7 8 9 10<br />

FAC<br />

1 2 3 4 5 6 7 8 9 10<br />

FAC<br />

1 2 3 4 5 6 7 8 9 10<br />

FAC<br />

1 2 3 4 5 6 7 8 9 10<br />

FAC<br />

1 2 3 4 5 6 7 8 9 10<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

­0.2<br />

1<br />

0.5<br />

0<br />

­0.5<br />

­1<br />

1<br />

0.5<br />

0<br />

­0.5<br />

­1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

­0.2<br />

0.4<br />

0.2<br />

0<br />

­0.2<br />

­0.4<br />

0.4<br />

0.2<br />

0<br />

­0.2<br />

­0.4<br />

FACP<br />

1 2 3 4 5 6 7 8 9 10<br />

FACP<br />

1 2 3 4 5 6 7 8 9 10<br />

FACP<br />

1 2 3 4 5 6 7 8 9 10<br />

FACP<br />

1 2 3 4 5 6 7 8 9 10<br />

FACP<br />

1 2 3 4 5 6 7 8 9 10<br />

FACP<br />

1 2 3 4 5 6 7 8 9 10<br />

Figura 6-4: Continuação da figura anterior<br />

138


6.3 Processos Lineares Não Estacionários<br />

No âmbito dos processos lineares é usual identificar dois tipos de não estacionaridade:<br />

• não estacionaridade na média: E (yt) não é constante ou E (yt) = ∞;<br />

• não estacionaridade na variância: Var (yt) não é constante ou Var (yt) = ∞.<br />

6.3.1 Não Estacionaridade na Média<br />

Seja yt um processo não estacionário linear. A ‘estacionarização da média’ faz-se usualmente<br />

a partir do operador diferença<br />

onde d é um inteiro positivo.<br />

Este procedimento sugere que:<br />

∆ d yt = ∆∆...∆yt<br />

<br />

d vezes<br />

• se o logaritmo do PIB não é estacionário (na média) então a taxa de variação do PIB<br />

(d = 1) poderá ser estacionária;<br />

• se a taxa de desemprego não é estacionária então a variação da taxa de desemprego<br />

(d = 1) poderá ser estacionária;<br />

• se o logaritmo do IPC (dados anuais, para simplificar) não é estacionário e se a inflação<br />

não é estacionária (d = 1) então a variação da inflação (d = 2) poderá ser estacionária.<br />

Normalmente uma diferenciação (d = 1) é suficiente e raramente se considera d = 2 (a<br />

não ser para certos índices de preços).<br />

Definição 6.3.1 Um processo yt diz-se um ARIMA(p,d,q) se<br />

onde p, d e q são inteiros positivos.<br />

φ p (L) ∆ d yt = c + θq (L) ut<br />

Assim, se yt ∼ ARIMA(p,d,q), então yt é um processo não estacionário que depois de<br />

diferenciado d vezes é um processo ARMA(p,q), isto é,<br />

∆ d yt ∼ ARMA (p, q) .<br />

139


A letra I em “ARIMA” designa integrated. Diz-se que um processo y é integrado de ordem<br />

d se o polinómio autoregressivo de y possui d raízes (múltiplas) iguais a um. Por exemplo, o<br />

polinómio autoregressivo associado ao processo passeio aleatório, yt = yt−1 + ut, φ (L) =<br />

1 − L, possui uma raiz unitária, pois a solução de 1 − L = 0 é obviamente L = 1.<br />

Exemplo 6.3.1 Considere-se<br />

yt = (1 + φ) yt−1 − φyt−2 + ut<br />

φ 1 = 1 + φ, φ 2 = − φ, 0 < φ < 1<br />

Não se tem um processo ESO pois uma das condições seguintes não é satisfeita<br />

Considere-se ∆yt = yt − yt−1. Tem-se<br />

φ 1 + φ 2 < 1, φ 2 − φ 1 < 1, −1 < φ 2 < 1<br />

yt = (1 + φ) yt−1 − φyt−2 + ut<br />

yt − yt−1 = φyt−1 − φyt−2 + ut<br />

∆yt = φ∆yt−1 + ut.<br />

Logo ∆yt é um processo estacionário (AR(1) com |φ| < 1). De forma equivalente, yt é um<br />

ARIMA(1,1,0).<br />

Este exemplo indica o caminho a seguir quando y é não estacionário. Em lugar de se anal-<br />

isar y, analisa-se ∆yt. Esta transformação envolve a perda de uma observação na amostra,<br />

mas vários resultados para y (como por exemplo a previsão) podem ser facilmente recuper-<br />

ados a partir da especificação e estimação do modelo para ∆yt.<br />

Exemplo 6.3.2 No caso,<br />

yt = 2yt−1 − yt−2 + ut, ut RB<br />

y não é estacionário. Porquê? Uma diferenciação produz:<br />

∆yt = ∆yt−1 + ut.<br />

140


Logo ∆yt é um processo AR(1) com φ = 1. Assim d = 1 não é suficiente para estacionarizar<br />

o processo. Uma nova diferenciação produz:<br />

∆yt − ∆yt−1 = ut<br />

∆ 2 yt = ut.<br />

Assim ∆ 2 yt é um processo estacionário (neste caso é um RB). (Recorde-se: ∆ 2 yt = yt −<br />

2yt−1 + yt−2 ). De forma equivalente, yt é um ARIMA(0,2,0).<br />

Exemplo 6.3.3 O processo ARIMA(1,1,1) escreve-se nas seguintes formas equivalentes:<br />

(1 − φL) (1 − L) yt = c + (1 + θL) ut<br />

<br />

∆<br />

(1 − φL) (yt − yt−1) = c + ut + θut−1<br />

yt − yt−1 − φyt−1 + φyt−2 = c + ut + θut−1<br />

yt = yt−1 + φyt−1 − φyt−2 + c + ut + θut−1.<br />

Processos com tendência determinística<br />

Considere-se, por exemplo,<br />

yt = α + βt + ut, ut ruído branco.<br />

Este processo não é estacionário pois E (yt) = α + βt depende de t. A não estacionari-<br />

dade nestes casos não é tão ‘grave’ como no caso anterior (por exemplo, a variância de y é<br />

constante). A literatura por vezes designa estes processos como estacionários em tendência,<br />

pois removendo a tendência o processo resulta estacionário. O operador diferença também<br />

estacionariza o processo. Com efeito,<br />

∆yt = α + βt + ut − (α + β (t − 1) + ut−1) = β + ut − ut−1.<br />

Esta transformação envolve um custo: cria-se artificialmente um erro MA(1) não invertível.<br />

A solução preferível foi já sugerida no parágrafo anterior: basta remover a tendência e, para<br />

o efeito, estima-se o modelo pelo método dos mínimos quadrados. Claro que a estimação<br />

não é feita no quadro clássico (porque falha a hipótese de estacionaridade) mas, neste caso<br />

141


20<br />

10<br />

0<br />

­10<br />

­20<br />

­30<br />

­40<br />

500 1000 1500 2000<br />

Figura 6-5: Passeio Aleatório<br />

muito concreto, pode-se provar que o estimador dos mínimos quadrados é consistente 6 .<br />

Na prática, como detectamos a existência de um processo não estacionário na média? 7<br />

• O gráfico da série pode sugerir a presença de um processo não estacionário. Na<br />

figura 6-5 traça-se uma trajectória de um processo passeio aleatório. Observe-se que o<br />

processo parece “vaguear” sem rumo no intervalo (−40, 20) . Não é nítido a existência<br />

de um efeito de reversão para qualquer medida de tendência central. Além disso, a<br />

ocorrência de choques mais fortes parece fazer deslocar o processo para outro nível<br />

(“os choques são persistentes”).<br />

• Como se sabe a FAC do processo yt = yt−1 + ut é<br />

ρ t,k = 1 − k<br />

t<br />

1.<br />

Assim, se FAC (estimada) de um certo processo, apresentar, nos primeiros lags, val-<br />

6Na verdade é mais do que isso: o estimador é superconsistente (converge para o verdadeiro parâmetro a<br />

uma taxa mais alta do que o habitual). Por exemplo, o estimador OLS para β verifica<br />

<br />

p<br />

n ˆβ 3/2<br />

− β −→ 0, n <br />

βˆ d<br />

− β −→ Normal.<br />

Enquanto a variância do estimador OLS habitual é proporcional a 1/n a do estimador superconsistente acima<br />

referido, é proporcional a 1/n 3 .<br />

7 Por que não estimar logo o modelo e verificar depois se as raízes do polinómio φ (L) = 0 satisfazem a<br />

proposição 6.2.2? Este procedimento não é aconselhável. Como as raízes são estimativas, devemos ensaiar a<br />

hipótese subjacente à proposição 6.2.2 (as raízes devem ser em modulo maiores do que um para o processo<br />

ser estacionário). Todavia, sob H0 o processo é não estacionário e as distribuições assimptóticas habituais não<br />

são válidas. Felizmente, existem testes adequados como, por exemplo, o teste Dickey-Fuller. Para concluir:<br />

é preferível, na fase da estimação, termos um processo já estacionário (ou, por outras palavras, a análise da<br />

estacionaridade precede a estimação do modelo).<br />

142


Figura 6-6: FAC (e FACP) estimada do processo passeio aleatório representado na figura<br />

6-5.<br />

ores muito altos (próximos de um), poderemos suspeitar que o processo não é esta-<br />

cionário. A figura 6-20 ilustra a ideia: apresenta-se a FAC estimada associada ao<br />

passeio aleatório representado na figura 6-5<br />

• Faz-se um teste de raiz unitária (por exemplo o teste ADF).<br />

Teste ADF (Augmented Dickey-Fuller)<br />

Faz-se um breve resumo dos principais procedimentos.<br />

(1) Teste DF for random walk without drift<br />

Considere-se yt = yt−1 + ut onde ut é um RB. Já se sabe que este processo (passeio<br />

aleatório) não é estacionário. Assim faria sentido testar H0: φ = 1 vs. H1: |φ| < 1 na<br />

especificação yt = φyt−1 + ut (se existisse evidência a favor de H0 concluiríamos, ao nível<br />

de significância fixado, que o processo não é estacionário). Como yt = φyt−1 + ut se pode<br />

escrever na forma<br />

∆yt = γyt−1 + ut<br />

com γ = φ − 1, ensaiar H0: φ = 1 é equivalente a ensaiar H0: γ = 0. Observe-se ainda<br />

que, sob H0, o processo y possui uma raiz unitária. Isso é óbvio, tendo em conta que a raiz<br />

do polinómio AR, φ (L) = 1 − L, é igual a 1.<br />

143


Parece óbvio a construção do teste estatístico: calcula-se o rácio-t ˆγ/ˆσγ e depois consulta-<br />

se a tabela da t-Student. Este procedimento é incorrecto. Com efeito, sob H0, y não é<br />

estacionário pelo que o rácio-t ˆγ/ˆσγ não tem distribuição t-Student nem mesmo distribuição<br />

assimptoticamente normal. A hipótese de estacionaridade é aqui crucial. Se o processo não<br />

é estacionário as distribuições assimptóticas habituais não são válidas 8 .<br />

Como devemos proceder? Temos de consultar os valores críticos nas tabelas apropriadas<br />

(são construídas a partir da distribuição da estatística de teste sob H0 que, por ser descon-<br />

hecida para n finito, tem de ser obtida através de simulações de Monte Carlo 9 ). A maioria das<br />

tabelas está preparada para fornecer o valor crítico da distribuição de ˆγ/ˆσγ (daí trabalhar-se<br />

sobretudo com a especificação ∆yt = γyt−1 + ut e não com yt = φyt−1 + ut). A maioria<br />

dos programas de estatística calcula o valor-p aproximado associado à hipótese nula (y não<br />

é estacionário). Assim, se o valor-p for superior ao nível de significância previamente estab-<br />

elecido (normalmente 0.05) não se rejeita H0 e conclui-se que o processo é não estacionário.<br />

Existem outras variantes:<br />

(2) Teste DF for random walk with drift H0: γ = 0<br />

∆yt = α + γyt−1 + ut.<br />

(3) Teste DF for random walk with drift and trend H0: γ = 0<br />

∆yt = α + βt + γyt−1 + ut.<br />

Na prática, só muito raramente ut é um RB. Quando ut exibe autocorrelação os testes DF<br />

não são válidos. Nestes casos deve-se ‘branquear’ ut, adicionando à regressão, a componente<br />

α1∆yt−1 +...+αp∆yt−p, com valor p adequado de forma que ut se apresente como um ruído<br />

branco. Assim,<br />

(1) Teste ADF for random walk without drift H0: γ = 0<br />

∆yt = γyt−1 + α1∆yt−1 + ... + αp∆yt−p + ut.<br />

8 De facto, pode-se provar que, sob H0, nˆγ tem distribuição assimptótica igual à distribuição da variável<br />

<br />

(1/2)<br />

W (1) 2 <br />

− 1<br />

,<br />

1<br />

0 W (u)2 du<br />

onde W é um processo de Wiener padrão ou movimento Browniano.<br />

9 Para n infinito, a distribuição é conhecida. Ver o pé-de-página anterior.<br />

144


(2) Teste ADF for random walk with drift H0: γ = 0<br />

∆yt = α + γyt−1 + α1∆yt−1 + ... + αp∆yt−p + ut.<br />

(3) Teste ADF for random walk with drift and trend H0: γ = 0<br />

∆yt = α + βt + γyt−1 + α1∆yt−1 + ... + αp∆yt−p + ut.<br />

Sobre a escolha do parâmetro p veja o exemplo 6.3.5.<br />

Exemplo 6.3.4 Seja<br />

∆yt = 0.1 − 0.01<br />

(0.004) yt−1, n = 50<br />

H0: γ = 0 vs. H1 : γ < 0. Uma tabela apropriada deverá fornecer como valor crítico ao<br />

n.s. de 5% aproximadamente o valor -2.92. Como ˆγ/ˆσγ = −0.01/0.004 = −2.5 > vc =<br />

−2.92 não se rejeita H0 ao n.s. de 5%.<br />

Exemplo 6.3.5 Seja lnp = log P onde P é o índice PSI20. Neste exemplo recorre-se ao<br />

programa EVIEWS (versão 5) para analisar a estacionaridade de lnp. Os resultados estão<br />

apresentados na figura 6-7. Tendo em conta a regressão efectuada<br />

∆ log pt = α + γ log pt−1 + α1∆ log pt−1 + ut, (p = 1)<br />

pode-se concluir que se escolheu a opção “(2) Teste ADF for random walk with drift H0:<br />

γ = 0”<br />

∆yt = α + γyt−1 + α1∆yt−1 + ut, (p = 1)<br />

(note-se que a regressão envolve a constante C, equivalente ao nosso α). Deixámos o pro-<br />

grama escolher a ordem p. Esta ordem é escolhida automaticamente e baseia-se no valor<br />

do critério de informação SIC seguindo o princípio ‘general-to-specific’. O programa es-<br />

colheu p = 1. Interessa o valor-p associado à hipótese nula que é 0.3078. Sendo este valor<br />

superior a 0.05, não se pode rejeitar a hipótese γ = 0, ao nível de significância de 5%.<br />

Existe, portanto, forte evidência empírica a favor da hipótese nula (não estacionaridade). É<br />

aconselhável diferenciar-se o processo. A diferenciação conduz ao processo {rt} , onde<br />

rt = log Pt − log Pt−1.<br />

145


Null Hypothesis: LNP has a unit root<br />

Exogenous: Constant<br />

Lag Length: 1 (Automatic based on SIC, MAXLAG=27)<br />

t­Statistic Prob.*<br />

Augmented Dickey­Fuller test statistic ­1.953504 0.3078<br />

Test critical values: 1% level ­3.432388<br />

5% level ­2.862326<br />

10% level ­2.567233<br />

*MacKinnon (1996) one­sided p­values.<br />

Augmented Dickey­Fuller Test Equation<br />

Dependent Variable: D(LNP)<br />

Method: Least Squares<br />

Sample (adjusted): 3 2936<br />

Included observations: 2934 after adjustments<br />

Variable Coefficient Std. Error t­Statistic Prob.<br />

LNP(­1) ­0.000919 0.000470 ­1.953504 0.0509<br />

D(LNP(­1)) 0.156283 0.018227 8.574451 0.0000<br />

C 0.008356 0.004143 2.016704 0.0438<br />

R­squared 0.025826 Mean dependent var 0.000320<br />

Adjusted R­squared 0.025161 S.D. dependent var 0.010694<br />

S.E. of regression 0.010559 Akaike info criterion ­6.262717<br />

Sum squared resid 0.326764 Schwarz criterion ­6.256598<br />

Log likelihood 9190.406 F­statistic 38.85062<br />

Durbin­Watson stat 1.991441 Prob(F­statistic) 0.000000<br />

Figura 6-7: Análise da estacionaridade do logaritmo do PSI20<br />

6.3.2 Não Estacionaridade na Variância<br />

Se yt é um processo passeio aleatório então Var (yt) é proporcional a t (veja-se o apêndice<br />

6.D). A diferenciação de yt produz um processo estacionário com variância constante, e o<br />

problema da não estacionaridade fica resolvido com a referida transformação. A diferenci-<br />

ação normalmente resolve o problema da não estacionaridade na média e, em certos casos,<br />

também da não estacionaridade da variância. Supomos agora que a diferenciação apenas<br />

resolve a não estacionaridade da média; supomos, assim, que a variância, mesmo depois da<br />

diferenciação, continua a ser uma função de t. Admita-se:<br />

• yt é não estacionário na média, i.e., η t = E (yt) varia ao longo do tempo;<br />

• Var (yt) = h (η t) (a variância é uma função da média).<br />

146


Var (yt) ∝ ηt Var (yt) ∝ η2 t<br />

Var (yt) ∝ η4 t<br />

h (x) T (x)<br />

<br />

1 x √xdx = 2 √ x<br />

x2 <br />

1dx<br />

= log x<br />

x<br />

x4 <br />

1<br />

x2 dx = − 1<br />

x<br />

Tabela 6.3: Algumas transformações habituais<br />

O objectivo consiste em encontrar uma transformação sobre yt, T (yt) tal que Var (T (yt))<br />

seja constante. Pode-se provar que a transformação apropriada 10 é<br />

<br />

T (x) =<br />

Alguns exemplos são fornecidos na tabela 6.3<br />

1<br />

h (x) dx.<br />

Para concretizar, suponha-se que Var (yt) é proporcional ao quadrado da média (e escreve-<br />

se neste caso, Var (yt) ∝ η 2 t ). A transformação que permite tornar (aproximadamente) con-<br />

stante a variância é T (x) = log x e, assim, os dados devem ser logaritmizados. Como a<br />

transformação só está definida, em geral, para certos valores de x (por exemplo, no caso<br />

log x tem de se assumir x > 0) é preciso primeiro aplicar T (x) e só depois se verifica<br />

se é necessário diferenciar (já que uma prévia diferenciação impossibilitaria a aplicação da<br />

transformação (veja-se o exemplo a seguir).<br />

Na figura 6-8 representa-se a série de preços do Dow Jones de 1969 a 2004. A variância<br />

(assim como a média) não é constante.<br />

Se se começasse por diferenciar P, a variância continuaria a ser uma função de t. Veja-<br />

se, com efeito, o gráfico de {∆Pt} (∆Pt = Pt − Pt−1) representado na figura 6-9. A figura<br />

mostra claramente que a variância aumenta com t. Assim, antes de se diferenciar o processo,<br />

10 Pela fórmula de Taylor, tem-se T (yt) ≈ T (η t) + T ′ (η t) (yt − η t). Assim,<br />

T (yt) − T (η t) ≈ T ′ (η t) (yt − η t)<br />

(T (yt) − T (η t)) 2 ≈ (T ′ (η t)) 2 (yt − η t) 2<br />

Var (T (yt)) ≈ (T ′ (η t)) 2 Var (yt) = (T ′ (η t)) 2 h (η t)<br />

Imponha-se Var (T (yt)) = c, i.e, (T ′ (η t)) 2 h (η t) = c ou<br />

Esta equação diferencial tem solução imediata:<br />

<br />

T (x) =<br />

T ′ (η t) =<br />

c<br />

h (ηt) .<br />

1<br />

h (x) dx (c = 1).<br />

147


14005<br />

12005<br />

10005<br />

8005<br />

6005<br />

4005<br />

2005<br />

P (preços)<br />

5<br />

Sep­69 Sep­74 Sep­79 Sep­84 Sep­89 Sep­94 Sep­99 Sep­04<br />

Figura 6-8: Série de Preços do Dow Jones (1969-2004)<br />

600<br />

400<br />

200<br />

0<br />

­200<br />

­400<br />

­600<br />

Preços Diferenciados<br />

­800<br />

Jan­69 May­73 Sep­77 Jan­82 May­86 Sep­90 Jan­95 May­99 Sep­03<br />

Figura 6-9: Série de preços diferenciados, {∆Pt} , onde ∆Pt = Pt − Pt−1, do Dow Jones<br />

(1969-2004)<br />

148


4000<br />

3500<br />

3000<br />

2500<br />

2000<br />

1500<br />

1000<br />

500<br />

0<br />

Sep­69 Aug­77 Jul­85 Jun­93 May­01<br />

1.40E+07<br />

1.20E+07<br />

1.00E+07<br />

8.00E+06<br />

6.00E+06<br />

4.00E+06<br />

2.00E+06<br />

0.00E+00<br />

Figura 6-10: Média e Variância estimada ao longo do tempo da séries diária do Dow Jones<br />

(1969 a 2004)<br />

10<br />

9.5<br />

9<br />

8.5<br />

8<br />

7.5<br />

7<br />

6.5<br />

6<br />

5.5<br />

log(P)<br />

5<br />

Sep­69 Sep­74 Sep­79 Sep­84 Sep­89 Sep­94 Sep­99 Sep­04<br />

media(t)<br />

var(t)<br />

Figura 6-11: Série de log-Preços do Dow Jones (1969-2004)<br />

estacionarize-se primeiro a variância. Na figura 6-10 apresenta-se<br />

E (yt) = 1<br />

t<br />

t<br />

i=1<br />

Pi, Var (yt) = 1<br />

t<br />

t <br />

Pi − E (yt) 2 ao longo do tempo, onde E (yt) e Var (yt) são estimativas para a média e a variância de y no<br />

momento t. A figura sugere que a variância de yt é proporcional ao quadrado da média, i.e.,<br />

Var (yt) ∝ η 2 t . De acordo com a tabela 6.3 deve-se usar a transformação logarítmica para<br />

estacionarizar a variância.<br />

A figura 6-11 sugere que a variância é constante ao longo do tempo, mas não a média.<br />

Faça-se então a diferenciação da variável log Pt:<br />

i=1<br />

rt = log (Pt) − log (Pt−1)<br />

cuja representação gráfica é dada na figura 6-12. É interessante verificar que a série dos<br />

retornos deve ser estudada não só devido às razões invocadas no ponto 2.3 mas também<br />

149


0.15<br />

0.1<br />

0.05<br />

0<br />

­0.05<br />

­0.1<br />

­0.15<br />

­0.2<br />

­0.25<br />

­0.3<br />

Sep­69 Sep­74 Sep­79 Sep­84 Sep­89 Sep­94 Sep­99 Sep­04<br />

Figura 6-12: Série dos retornos do Dow Jones<br />

Utilização do<br />

modelo<br />

Etapa 1: Identificação<br />

Etapa 2: Estimação<br />

Etapa 3: Avaliação do<br />

diagnóstico<br />

SIM<br />

Escolha de um<br />

modelo<br />

Estimação dos<br />

parâmetros<br />

Adequação do<br />

modelo escolhido<br />

Modelo<br />

satisfatório<br />

Figura 6-13: Metodologia de Box-Jenkins<br />

porque as transformações estacionarizantes discutidas neste ponto conduzem precisamente à<br />

variável rt = log (Pt) − log (Pt−1) .<br />

6.4 Modelação ARMA<br />

O objectivo fundamental da modelação ARMA é o de definir um modelo parcimonioso (em<br />

termos de parâmetros) que exiba boas propriedades estatísticas e descreva bem a série em<br />

estudo. Para alcançarmos esse objectivo podemos seguir a metodologia de Box-Jenkins.<br />

Propõe três etapas: identificação, estimação e avaliação do diagnóstico (veja-se a figura 6-<br />

13).<br />

150<br />

NÃO


Etapa 1: Identificação<br />

• Estacionarização da série;<br />

• Identificação da ordem p e q através da FAC e FACP.<br />

Etapa 2: Estimação<br />

Uma vez seleccionado, na primeira etapa, o modelo ARMA(p,q), é necessário estimar os<br />

parâmetros desconhecidos (pelo método da máxima verosimilhança 11 ).<br />

Etapa 3: Avaliação do Diagnóstico<br />

É necessário analisar os seguintes aspectos:<br />

• significância estatística dos parâmetros;<br />

• invertibilidade e estacionaridade (dispensa-se este último aspecto se y for um processo<br />

estacionário);<br />

• análise da matriz de correlação dos estimadores;<br />

• redundância entre as estimativas;<br />

• branqueamento dos resíduos;<br />

• se existir mais do que um modelo que cumpra as condições anteriores é necessário<br />

seleccionar o melhor (à luz de determinado critério).<br />

Remete-se a questão da análise da matriz de correlação dos estimadores para Murteira et<br />

al. (1993). A significância estatística dos parâmetros é óbvia e a questão da invertibilidade<br />

foi já tratada.<br />

O problema da redundância ocorre quando φ (L) e θ (L) partilham raízes comuns. Por<br />

exemplo, no caso<br />

(1 − 0.8L) yt = (1 − 0.8L) ut<br />

(6.6)<br />

ambos os polinómio possuem a mesma raiz (1/0.8). Observe-se que os polinómios cancelam<br />

um com o outro:<br />

(1 − 0.8L) yt = (1 − 0.8L) ut ⇔ yt = ut<br />

11 Veja-se, no ponto 8.9, a aplicação do método a um modelo mais geral.<br />

151


e, portanto, o processo y definido por (6.6) é, de facto, um ruído branco e não um ARMA(1,1),<br />

como se poderia pensar. Na presença de redundância pode provar-se que a matriz de infor-<br />

mação de Fisher é singular. Em aplicações, é uma impossibilidade as raízes dos polinómios<br />

AR e MA estimados (respectivamente, ˆ φ (L) e ˆ θ (L)) virem exactamente iguais. De qualquer<br />

forma, se existirem raízes do polinómio AR aproximadamente iguais às do polinómio MA,<br />

surge um problema de quase redundância, e a matriz de Fisher embora invertível, apresenta<br />

um determinante próximo de zero. Como consequência, os erros padrão das estimativas<br />

vêm muitos baixos, as estatísticas-t muito altas e o determinante da matriz de variâncias-<br />

covariâncias (estimada) aproximadamente de zero. É fácil cair-se em problemas de (quase)<br />

redundância que, naturalmente, devem ser evitados.<br />

Veja-se agora a questão do “branqueamento dos resíduos”. Considere-se o ARMA(1,1)<br />

yt = φyt−1 + θ1ut−1 + ut.<br />

Suponha-se que se estima (por engano) o AR(1)<br />

yt = φyt−1 + η t<br />

onde η t representa o erro da equação anterior. Como detectar o erro de especificação? Como<br />

η t = θ1ut−1 + ut é natural esperar que os resíduos ˆη t venham autocorrelacionados.<br />

É muito importante que os resíduos venham branqueados, i.e. não exibam autocorre-<br />

lações; caso contrário, parte da média condicional não foi modelada.<br />

Apresentam-se de seguida, sem comentários, os ensaios habituais os testes de significân-<br />

cia dos coeficientes de autocorrelação dos resíduos:<br />

Teste Kendal e Stuart H0: ρ k (û) = 0<br />

√ n (ˆρk (û) + 1/n)<br />

<br />

d<br />

−→ N (0, 1) , ˆρ k (û) ≈ N − 1 1<br />

,<br />

n<br />

Rejeita-se H0 ao n.s. de (aprox.) 5% se |ˆρ k (û)| > 2/ √ n (supondo 1/n ≈ 0)<br />

Teste Ljung-Box H0: ρ 1 (û) = ... = ρ m (û) = 0<br />

Q = n (n + 2)<br />

m<br />

k=1<br />

1<br />

n − k ˆρ2<br />

d<br />

k (û) −→ χ 2 (m−p−q).<br />

152<br />

√ n<br />

<br />

.


Teste Jenkis e Daniels H0: φ kk (û) = 0<br />

√ n ˆ φkk (û)<br />

d<br />

−→ N (0, 1) ,<br />

ˆ φkk (û) ≈ N<br />

<br />

<br />

Rejeita-se H0 ao n.s. de (aprox.) 5% se ˆ <br />

<br />

φkk (û) > 2/ √ n<br />

<br />

0, 1<br />

<br />

√ .<br />

n<br />

Finalmente, discuta-se a última questão. Pode suceder que dois ou mais modelos cumpram<br />

as condições anteriores. Como seleccionar o ‘melhor’? Se o objectivo da modelação é<br />

a previsão, pode-se avaliar a qualidade preditiva dos vários modelos concorrentes e de-<br />

pois selecciona-se o que apresentar melhores resultados (discutiremos esta questão no ponto<br />

6.6.6). Outra abordagem consiste em escolher o modelo mais preciso (melhor ajustamento)<br />

com o menor n o de parâmetros (parcimónia). Há certamente um trade-off a resolver: maior<br />

precisão implica menor parcimónia.<br />

O coeficiente de determinação ajustado é, provavelmente, o indicador mais utilizado. É<br />

um bom indicador no âmbito do modelo de regressão linear clássico, com distribuição nor-<br />

mal. Mais gerais são os critérios de informação de Akaike e de Schwarz porque se baseiam<br />

no valor da função de verosimilhança.<br />

Seja<br />

log Ln =<br />

n<br />

log f (yt| Ft−1)<br />

t<br />

o valor (máximo) da função log-verosimilhança e k o número de parâmetros estimados. O<br />

critério de informação de Akaike (AIC) é dado pela expressão<br />

O critério de Schwarz é dado pela expressão<br />

log Ln 2k<br />

AIC = −2 +<br />

n n .<br />

log Ln k<br />

SC = −2 + log n.<br />

n n<br />

Tendo em conta que o modelo é tanto mais preciso quanto mais alto for log Ln, e tanto<br />

mais parcimonioso quanto menor for o número de parâmetros, k, conclui-se que deve dar-se<br />

preferência ao modelo que minimiza as estatísticas AIC e SC (note que os modelos só são<br />

comparáveis se as variáveis se encontrarem na mesma unidade - por exemplo, não devemos<br />

comparar um modelo em y e outro em log y).<br />

Em certos casos, um modelo pode minimizar apenas um dos critérios (por exemplo, um<br />

153


modelo A minimiza o AIC e o modelo B minimiza o SC). Como proceder nestes casos?<br />

Vários estudos têm revelado o seguinte:<br />

• o critério SC, em grandes amostras tende a escolher o modelo correcto; em peque-<br />

nas/médias amostras pode seleccionar um modelo muito afastado do modelo correcto;<br />

• o critério AIC, mesmo em grandes amostras tende a seleccionar o modelo errado,<br />

embora não seleccione modelos muito afastados do correcto.<br />

Como consequência, para grandes amostras o SC pode ser preferível.<br />

Naturalmente, estes critérios podem clarificar a identificação da ordem p e q do modelo<br />

ARMA. Por exemplo, suponha-se que os modelos ARMA(1,1) e AR(3) são bons à luz de<br />

vários critérios. Os critérios de informação, podem contudo sugerir o ARMA(1,1) e, desta<br />

forma, p = 1, q = 1.<br />

6.5 Variáveis Impulse-Dummy em Modelos de Regressão:<br />

Cuidados a Observar<br />

As variáveis dummy ou variáveis artificiais são, como temos visto, bastante úteis pois per-<br />

mitem estimar o impacto de certas variáveis qualitativas ou de eventos sobre a variável de-<br />

pendente. No entanto, há cuidados a ter no uso destas variáveis.<br />

Num modelo de previsão o uso de variáveis artificiais (VA) estocásticas associados a<br />

eventos que podem ocorrer no futuro deve ser evitado se as probabilidades condicionais da<br />

VA forem desconhecidas. Com efeito, que sentido faz especificar yt = α + γdt + ut (d é<br />

uma VA) se depois, no período de previsão, o comportamento probabilístico da variável d é<br />

completamente desconhecido?<br />

Um caso especialmente delicado ocorre com as chamadas impulse-dummies no âmbito<br />

da inferência estatística 12 .<br />

12 Algumas das conclusões que seguem foram-me transmitidas pelo Prof. João Santos Silva em comunicação<br />

privada. Veja-se também Hendry e Santos (2005).<br />

154


6.5.1 Inconsistência do Estimador<br />

Impulse-dummies são VAs que assumem o valor 1 apenas uma vez na amostra. Para ilustrar<br />

a situação considere-se o modelo<br />

onde ut<br />

Seja<br />

yt = α + γdt + ut, t = 1, 2, ..., n<br />

i.i.d.<br />

∼ N (0, σ 2 ) e dt é uma impulse-dummy<br />

dt =<br />

⎧<br />

⎨<br />

⎩<br />

1 t = t∗<br />

0 t = t∗.<br />

⎡ ⎤<br />

1<br />

⎢ 1<br />

⎢ .<br />

⎢ 1<br />

⎢<br />

X = ⎢ 1<br />

⎢ 1<br />

⎢ .<br />

⎢ 1<br />

⎣<br />

0<br />

⎥<br />

0 ⎥<br />

. ⎥<br />

0 ⎥<br />

1 ⎥ ,<br />

⎥<br />

0 ⎥<br />

. ⎥<br />

0 ⎥<br />

⎦<br />

X<br />

1 0<br />

′ ⎡<br />

n<br />

X = ⎣<br />

1<br />

⎤<br />

1<br />

⎦ ,<br />

1<br />

X ′ ⎡<br />

y = ⎣<br />

É fácil observar que o estimador OLS é<br />

Tem-se<br />

<br />

E ˆβ<br />

<br />

Var ˆβ<br />

ˆβ =<br />

=<br />

⎡<br />

⎣ ˆα<br />

⎤ ⎡ ⎤<br />

n<br />

⎦ = ⎣<br />

1<br />

⎦<br />

ˆγ<br />

⎡<br />

1 1<br />

⎣<br />

−1<br />

n−1<br />

n<br />

t=1 yt<br />

n−1<br />

− yt∗<br />

n−1<br />

−1 ⎡<br />

⎣<br />

n<br />

t=1 yt + n<br />

n−1 yt∗<br />

<br />

= E (X ′ X) −1 X ′ <br />

y<br />

= σ 2 (X ′ X) −1 = σ 2<br />

<br />

= E<br />

⎡<br />

⎣ 1<br />

n−1<br />

−1<br />

n−1<br />

n<br />

t=1 yt<br />

⎤<br />

yt∗<br />

⎡<br />

⎦ = ⎣<br />

⎤<br />

⎦ =<br />

⎡<br />

⎣ 1<br />

n−1<br />

−1<br />

n−1<br />

n t=1,t=t∗ yt<br />

n−1<br />

− n (¯y − yt∗)<br />

n−1<br />

(X ′ X) −1 X ′ <br />

(Xβ + u)<br />

⎤<br />

−1<br />

n−1<br />

n<br />

n−1<br />

⎦ .<br />

155<br />

−1<br />

n−1<br />

n<br />

n−1<br />

⎤<br />

n<br />

t=1 yt<br />

yt∗<br />

⎤ ⎡<br />

⎦ ⎣<br />

⎤<br />

⎦<br />

n<br />

t=1 yt<br />

yt∗<br />

⎤<br />

⎦<br />

⎦ . (6.7)<br />

<br />

= β E (X ′ X) −1 X ′ <br />

u = β


Não se verifica ˆγ p<br />

−→ γ porque<br />

n<br />

lim Var [ˆγ] = lim σ2<br />

n→∞ n→∞ n − 1<br />

= σ2<br />

ou seja, ˆγ é centrado mas não é consistente (a precisão de ˆγ não melhora quando n aumenta<br />

e depende da variância do ruído). Este resultado deve-se ao facto de ser usada apenas uma<br />

observação para estimar γ. A propriedades do estimador para ˆα não são afectadas.<br />

6.5.2 Inconsistência do Teste-t<br />

O rácio-t associado a ˆγ (supondo σ conhecido) é<br />

τ ˆγ =<br />

=<br />

ˆγ<br />

Var [ˆγ] =<br />

<br />

n yt∗ − ¯y<br />

n − 1 σ<br />

n − (¯y − yt∗)<br />

n−1<br />

σ n<br />

n−1<br />

yt∗ − ¯y<br />

.<br />

σ<br />

Ora a distribuição de yt∗−¯y<br />

depende da distribuição dos erros. No caso do modelo de re-<br />

σ<br />

gressão habitual, mesmo que os erros não tenham distribuição normal, o rácio-t para grandes<br />

amostras tem distribuição aproximadamente normal, pelo teorema do limite central, e a in-<br />

ferência habitual pode fazer-se sem problemas. No entanto, o rácio-t associado a variáveis<br />

impulse-dummies depende da distribuição dos erros. Assim, se a distribuição dos erros é<br />

desconhecida não é possível usar-se os testes t habituais. Mesmo que se possa usar o rácio-t<br />

(por exemplo, se houver garantias que ut<br />

sentido: para qualquer valor crítico com nível de significância α,<br />

i.i.d.<br />

∼ N (0, σ 2 )) o teste-t é inconsistente no seguinte<br />

P (|τ ˆγ| > cα| H1 : γ = 0) não tende para 1<br />

quando n → ∞. A situação habitual (por exemplo, no âmbito do modelo de regressão linear<br />

clássico) é a seguinte: quando n → ∞ a probabilidade de rejeitar H0 quando H1 é verdadeira<br />

tende para 1 (se H1 é verdadeira, um teste consistente acaba sempre, para amostras suficien-<br />

temente grandes, por decidir correctamente a favor de H1). Mas, com impulse-dummies isto<br />

não sucede.<br />

156


6.5.3 Uma Solução para ensaiar H0 : γ = 0<br />

Uma forma de testar H0 : γ = 0 no caso em que a distribuição dos erros é desconhecida<br />

envolve a aplicação de procedimentos bootstrap. Quando a amostra é grande o ensaio H0 :<br />

γ = 0 vs. por exemplo H1 : γ > 0 pode ser conduzido da seguinte forma, muito simples<br />

(equivalente ao bootstrap): estima-se o modelo de regressão<br />

yt = x ′ tβ + εt<br />

(onde x ′ t é um vector linha das variáveis explicativas) sem dummy e obtém-se o resíduo ˆεt∗<br />

associado ao momento t = t∗. Se este resíduo é elevado (em módulo) então é provável que<br />

no momento t∗ tenha ocorrido uma “quebra de estrutura”; neste caso a variável dummy d<br />

será, em princípio, importante na explicação de y (no momento t∗). Para grandes amostras<br />

não só a estimativa ˆγ associada ao modelo<br />

yt = x ′ tβ + γdt + ut<br />

é (aproximadamente) igual ˆεt∗ como também, sob H0 : γ = 0, a distribuição do estimador<br />

ˆγ é (aproximadamente) igual à distribuição de εt; assim, a avaliação da significância de<br />

γ ao nível de α100%, equivale a verificar se ˆεt∗ está acima do quantil de ordem 1 − α da<br />

distribuição de εt (recorde-se que H1 : γ > 0). Como a distribuição de εt é desconhecida usa-<br />

se a distribuição empírica dos resíduos ˆεt - este é o princípio do bootstrap. Concretamente,<br />

rejeita-se H0 : γ = 0 em favor de H1 : γ > 0 ao nível de significância de α100% se ˆεt∗ for<br />

maior do que o quantil de ordem 1 − α da distribuição empírica dos resíduos. A proposição<br />

seguinte fundamenta o procedimento.<br />

Proposição 6.5.1 Considerem-se os modelo de regressão em notação matricial<br />

y = Xβ 1 + γd + u, y = Xβ 0 + ε<br />

onde d = (dt) , dt∗ = 1, dt = 0 para t = t∗ e X é a matriz das variáveis explicativas<br />

fortemente exógena. Suponha-se<br />

X ′ X<br />

n<br />

Então a) ˆγ p<br />

−→ γ + ut∗ e b) ˆγ/ˆεt∗<br />

p<br />

−→ Q (definida positiva).<br />

p<br />

−→ 1.<br />

157


Dem. Apêndice 6.G.<br />

6.5.4 Impulse-dummies e a matriz de White<br />

Um caso que conduz a conclusões incorrectas ocorre quando se usa simultaneamente impulse-<br />

dummies com a matriz de White.<br />

Para simplificar considere-se novamente o modelo<br />

onde ut<br />

yt = α + γdt + ut, t = 1, 2, ..., n<br />

i.i.d.<br />

∼ N (0, σ 2 ) e dt é uma impulse-dummy<br />

dt =<br />

⎧<br />

⎨<br />

⎩<br />

1 t = t∗<br />

0 t = t∗.<br />

Se é razoável assumir normalidade e ausência mas não heterocedasticidade pode argumentar-<br />

se que a significância estatística de γ pode ser avaliada usando o rácio-t baseado na matriz<br />

de White. Esta suposição é incorrecta e traduz provavelmente o caso mais grave dos vários<br />

que analisámos. Como se sabe a matriz de White tem a forma<br />

<br />

Var ˆβ = (X ′ X) −1 X ′ WX (X ′ X) −1<br />

onde W é uma matriz diagonal com elementos {û 2 1, ..., û 2 n} . No caso mais simples que<br />

analisamos a matriz de White correspondente a ˆγ é<br />

Var [ˆγ] =<br />

Deixa-se como exercício verificar que<br />

Var [ˆγ] =<br />

n t=1<br />

n t=1<br />

n t=1<br />

n t=1<br />

<br />

di − ¯ d û2 t<br />

<br />

di − ¯ d 2 =<br />

Assim, atendendo a (6.7) o rácio-t associado a ˆγ é<br />

τ ˆγ =<br />

=<br />

ˆγ<br />

=<br />

Var [ˆγ]<br />

n √ yt∗ − ¯y<br />

n<br />

n − 1 ˆσ<br />

<br />

di − ¯ d û2 t<br />

<br />

di − ¯ d 2 .<br />

n<br />

n−1 (yt∗ − ¯y)<br />

1<br />

n(n−1)<br />

1<br />

n (n − 1)<br />

n<br />

t=1 û2 t<br />

=<br />

√ n yt∗ − ¯y<br />

.<br />

ˆσ<br />

158<br />

n<br />

t=1<br />

û 2 t .<br />

n<br />

n−1 (yt∗ − ¯y)<br />

<br />

2 ˆσ<br />

n


Embora (yt∗ − ¯y) /ˆσ possa ter distribuição aproximadamente N (0, 1) para amostras grandes<br />

√ n (yt∗ − ¯y) /ˆσ não têm certamente distribuição N (0, 1) . Se (yt∗ − ¯y) /ˆσ tem distribuição<br />

aproximadamente normal então √ n (yt∗ − ¯y) /ˆσ terá distribuição N (0, n) . Este resultado<br />

sugere que se for usada a matriz de White numa amostra razoavelmente grande, qualquer<br />

impulse-dummy é sempre interpretada como significativa à luz da distribuição habitual do<br />

rácio-t (observe-se √ n (yt∗ − ¯y) /ˆσ → ∞ quando n → ∞).<br />

6.5.5 Conclusão<br />

O uso de impulse-dummies envolve vários problemas (inconsistência do estimador, incon-<br />

sistência do teste t, e quando usado simultaneamente com a matriz de White, os rácio-t são<br />

inflacionados). Quer isto dizer que o uso de impulse-dummies é inapropriado? A resposta<br />

é negativa. Vimos que o estimador OLS do parâmetro da impulse-dummy é centrado. Por<br />

outro lado, existem procedimentos válidos que poderão ser usados para testar a significân-<br />

cia do parâmetro da impulse-dummy. Finalmente, o uso impulse-dummy em modelos de<br />

regressão é importante quando se pretende estimar o efeito de um acontecimento isolado,<br />

mantendo todas as demais variáveis explicativas constantes.<br />

Exemplo 6.5.1 Suponha-se que se pretende analisar o efeito de um anúncio público no dia<br />

t∗ sobre as cotações da empresa ABC. Suspeita-se que o efeito é positivo sobre a empresa<br />

ABC e nulo ou irrelevante para o mercado. Pretende-se, assim, verificar se o valor esperado<br />

do retorno da empresa ABC no dia t∗ é positivo. Suponha-se ainda que, nesse dia t∗, o<br />

mercado em geral observou uma forte queda. Para testar esse efeito uma possibilidade<br />

consiste em considerar a regressão<br />

rt = β 0 + γdt + ut<br />

onde rt é o retorno da empresa ABC e dt é uma impulse-dummy<br />

dt =<br />

⎧<br />

⎨<br />

⎩<br />

1 t = t∗<br />

0 t = t∗.<br />

Contudo, poderá suceder, atendendo à quebra do mercado, que γ venha negativo ou não<br />

significativo. Concluir-se-ía que o anúncio teve um impacto negativo ou nulo sobre o retorno<br />

da empresa ABC. Mas esta conclusão pode ser errónea porque o efeito do mercado não é<br />

159


levado em conta. Assim, é necessário controlar ou fixar o efeito do mercado através da<br />

regressão<br />

rt = β 0 + β 1rt,m + γdt + ut<br />

onde rt,m é o retorno do mercado (retorno associado a um índice abrangente de cotações do<br />

mercado).<br />

6.6 Previsão<br />

6.6.1 Introdução<br />

Temos um modelo M (yt, yt−1, ...; θ) para y baseado em n observações {y1, y2, ..., yn} . O<br />

objectivo agora é:<br />

• prever y para n + 1, n + 2, ...;<br />

• estabelecer intervalos de confiança para as previsões.<br />

Que propriedades devemos exigir a um previsor para yn+h? Seja ˜µ n+h,n um previsor para<br />

yn+h. Devemos exigir:<br />

• E <br />

˜µ n+h,n = E (yn+h) (propriedade do não enviesamento).<br />

• Var <br />

˜µ n+h,n = Var (yn+h) (˜µ n+h,n deve reproduzir a variabilidade de yn+h);<br />

• forte correlação entre ˜µ n+h,n e yn+h.<br />

Para não haver “batota” o previsor ˜µ n+h,n para yn+h deve ser Fn-mensurável, isto é, se<br />

prevemos y para o instante n+h e o momento em que efectuamos a previsão é n, só podemos<br />

utilizar informação até n.<br />

Em certos casos podemos permitir algum enviesamento do estimador desde que outras<br />

propriedades mais do que compensem esse enviesamento. Na figura 6-14, qual é o previsor<br />

preferível? O previsor 1 é enviesado; o previsor 2 não é. No entanto, o previsor 1 parece<br />

preferível pois os erros de previsão são, na maior parte das vezes, inferiores.<br />

Seja ˜e (h) = yn+h − ˜µ n+h,n o erro de previsão. O erro quadrático médio (EQM) de<br />

previsão E ˜e (h) 2 pondera os três aspectos acima expostos: enviesamento, variabilidade e<br />

160


12<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

1 2 3 4 5 6 7 8 9 10 11 12 13 14<br />

Figura 6-14: Qual dos dois previsores é preferível?<br />

Observado<br />

Previsor 1<br />

Previsor 2<br />

correlação. Com efeito, prova-se a seguinte decomposição do EQM de previsão E ˜e (h) 2 =<br />

yn+h <br />

2<br />

E − ˜µ n+h,n :<br />

E ˜e (h) 2 = E (yn+h) − E 2 ˜µ n+h,n + (σy − σ˜µ) 2 <br />

+ 2σyσµ 1 − ρy,˜µ . (6.8)<br />

O primeiro termo do lado direito mede o enviesamento, o segundo, compara a variabili-<br />

dade entre y e ˜µ e o terceiro mede a correlação entre yn+h e ˜µ n+h,n (quanto mais baixa a<br />

correlação maior é o EQM). Na figura 6-14, o previsor 1, embora apresente um enviesamento<br />

elevado (i.e., E (yn+h) − E 2 ˜µ n+h,n é alto), os valores dos termos (σy − σ˜µ) 2 e<br />

<br />

2σyσµ 1 − ρy,˜µ são relativamente baixos. O previsor 2 apresenta um valor baixo na componente<br />

E (yn+h) − E 2 ˜µ n+h,n (enviesamento reduzido ou nulo) mas valores altos em<br />

(σy − σ˜µ) 2 <br />

e 2σyσµ 1 − ρy,˜µ . Graficamente parece que o estimador 1 é preferível, isto é,<br />

ponderando todos os aspectos, o gráfico sugere que o EQM do previsor 1 é inferior ao EQM<br />

do previsor 2.<br />

Será possível definir um previsor óptimo, à luz do EQM, qualquer que seja o modelo em<br />

análise? A resposta é afirmativa.<br />

Proposição 6.6.1 O previsor com EQM mínimo é<br />

i.e., verifica-se<br />

E (yn+h| Fn)<br />

E (yn+h − E (yn+h| Fn)) 2 yn+h <br />

2<br />

≤ E − ˜µ n+h,n<br />

161


onde ˜µ n+h,n ∈ Fn é um outro qualquer previsor Fn-mensurável.<br />

(A demonstração é similar à da proposição 4.3.1). Usaremos também a notação µ n+h,n<br />

para E (yn+h| Fn) . A proposição 6.6.1 permite concluir que o previsor E (yn+h| Fn) min-<br />

imiza os três termos do lado direito da equação (6.8), no conjunto de todos os previsores<br />

Fn-mensuráveis; em particular, o primeiro termo é zero.<br />

Recorda-se do capítulo 4 que<br />

E (yn+h − E (yn+h| G)) 2 ≤ E (yn+h − E (yn+h| H)) 2 , H ⊆ G.<br />

Como referimos, esta desigualdade resulta do facto de em G existir mais informação. É<br />

natural esperar que um previsor que use mais informação face a um outro, tenha um EQM<br />

inferior.<br />

6.6.2 Previsão Pontual<br />

Tendo em conta a proposição 6.6.1, vamos utilizar como previsor para yn+h a expressão<br />

E (yn+h| Fn) . O procedimento geral para obter a previsão pontual de yn+h é:<br />

1. Definir o modelo yn+h (com base no modelo especificado).<br />

2. Calcular E (yn+h| Fn) .<br />

Vamos ver alguns exemplos.<br />

MA(2)<br />

Tem-se<br />

Previsão a um passo h = 1<br />

Previsão a dois passos h = 2<br />

yn+1 = µ + θ1un + θ2un−1 + un+1<br />

E (yn+1| Fn) = µ + θ1un + θ2un−1<br />

yn+2 = µ + θ1un+1 + θ2un + un+2<br />

162


Tem-se<br />

Tem-se<br />

Previsão a h passos (h > 2)<br />

MA(q)<br />

Deixa-se como exercício verificar:<br />

E (yn+2| Fn) = µ + θ2un.<br />

yn+h = µ + θ1un+h−1 + θ2un+h−2 + un+h<br />

E (yn+h| Fn) = µ<br />

⎧<br />

⎨ µ +<br />

E (yn+h| Fn) =<br />

⎩<br />

q i=h θiun+h−i para h = 1, ..., q<br />

µ para h = q + 1, ...<br />

Sugestão: comece por verificar que, para h = q + 1, q + 2, ... tem-se E (yn+h| Fn) = µ.<br />

AR(1)<br />

Na previsão dos processos AR, é útil considerar-se a previsão já realizada nos passos<br />

intermédios. Considere-se novamente a notação µ n+h,n (igual por definição a E (yn+h| Fn)).<br />

Previsão a um passo h = 1<br />

yn+1 = c + φ 1yn + un+1<br />

µ n+1,n = E (yn+1| Fn) = E (c + φ 1yn + un+1| Fn) = c + φ 1yn.<br />

Previsão a dois passos h = 2<br />

yn+2 = c + φ 1yn+1 + un+2<br />

µ n+2,n = E (yn+2| Fn) = E (c + φ 1yn+1 + un+2| Fn) = c + φ 1 E (yn+1| Fn)<br />

= c + φ 1µ n+1,n<br />

Previsão a h passos<br />

yn+h = c + φ 1yn+h−1 + un+h<br />

163


µ n+h,n = E (yn+h| Fn)<br />

= E (c + φ 1yn+h−1 + un+2| Fn) = c + φ 1µ n+h−1,n<br />

Conclui-se que o modelo de previsão no modelo AR(1) (h > 1) é<br />

µ n+h,n = c + φ 1µ n+h−1,n<br />

(6.9)<br />

Observação 6.6.1 Podemos reescrever a equação (6.9) como função do valor observado em<br />

n. Por exemplo, a previsão a dois passos (h = 2) é<br />

µ n+2,n = c + φ 1µ n+1,n. (6.10)<br />

Como, por sua vez, a previsão a um passo é µ n+1,n = c + φ 1µ n,n = c + φ 1yn podemos<br />

substituir µ n+1,n = c + φ 1yn na equação (6.10). Assim a previsão a dois passos pode ser<br />

escrita na forma<br />

De igual forma, a previsão a três passos é<br />

Seguindo este raciocínio conclui-se que<br />

µ n+2,n = c + φ 1µ n+1,n<br />

= c + φ 1 (c + φ 1yn)<br />

= c + cφ 1 + φ 2<br />

1yn.<br />

µ n+3,n = c + φ1µ n+2,n<br />

=<br />

<br />

c + φ1 c + cφ1 + φ 2 <br />

1yn<br />

= c + cφ 1 + cφ 2<br />

1 + φ 2<br />

1yn.<br />

µ n+h,n = c + cφ1 + cφ 2<br />

1 + ... + cφ h−1<br />

1 + φ h<br />

1yn. (6.11)<br />

Do ponto de vista prático é irrelevante prever o modelo com base no modelo (6.9) ou com<br />

base em (6.11), pois as expressões são equivalentes. No âmbito dos modelos dinâmicos,<br />

a equação (6.9) designa-se por equação às diferenças finitas linear de primeira ordem (a<br />

equação de juros compostos é também uma equação do tipo) cuja solução, dada a condição<br />

164


inicial µ n,n = yn, é precisamente a equação (6.11). Atendendo a que<br />

1 + φ1 + φ 2<br />

1 + ... + φ h−1<br />

1 = 1 − φh<br />

1 − φ<br />

podemos dar um novo aspecto às equação (6.11):<br />

(soma de uma progressão geométrica)<br />

µ n+h,n = c 1 + φ1 + φ 2<br />

1 + ... + φ h−1<br />

h<br />

1 + φ1yn =<br />

1 − φh<br />

c + φh<br />

1 − φ<br />

1yn. (6.12)<br />

Em suma, para obter µ n+h,n é indiferente considerar (6.9), (6.11) ou (6.12).<br />

AR(2)<br />

Previsão a um passo h = 1<br />

µ n+1,n = E (yn+1| Fn)<br />

Previsão a dois passos h = 2<br />

yn+1 = c + φ 1yn + φ 2yn−1 + un+1<br />

= E (c + φ 1yn + φ 2yn−1 + un+1| Fn) = c + φ 1yn + φ 2yn−1<br />

µ n+2,n = E (yn+2| Fn)<br />

yn+2 = c + φ 1yn+1 + φ 2yn + un+2<br />

= E (c + φ 1yn+1 + φ 2yn + un+2| Fn) = c + φ 1 E (yn+1| Fn) + φ 2yn<br />

= c + φ 1µ n+1,n + φ 2yn<br />

Previsão a h passos (h > 2)<br />

yn+h = c + φ 1yn+h−1 + φ 2yn+h−2 + un+h<br />

165


Dependent Variable: Y<br />

Sample: 3 1000<br />

Included observations: 998<br />

Variable Coefficient Std. Error t­Statistic Prob.<br />

C 10.81186 1.196611 9.035402 0.0000<br />

Y(­1) 0.469309 0.030095 15.59406 0.0000<br />

Y(­2) 0.314900 0.030098 10.46238 0.0000<br />

R­squared 0.521901 Mean dependent var 50.10264<br />

Adjusted R­squared 0.520940 S.D. dependent var 0.722051<br />

S.E. of regression 0.499762 Akaike info criterion 1.453631<br />

Sum squared resid 248.5130 Schwarz criterion 1.468378<br />

Log likelihood ­722.3618 F­statistic 543.0800<br />

Durbin­Watson stat 2.010668 Prob(F­statistic) 0.000000<br />

Figura 6-15: Estimação de um AR(2)<br />

µ n+h,n = E (yn+h| Fn)<br />

= E (c + φ 1yn+h−1 + φ 2yn+h−2 + un+2| Fn)<br />

= c + φ 1µ n+h−1,n + φ 2µ n+h−2,n<br />

Conclui-se que o modelo de previsão no modelo AR(2) (para h > 2) é<br />

µ n+h,n = c + φ 1µ n+h−1,n + φ 2yn+h−2,n.<br />

Exemplo 6.6.1 Estimou-se um processo AR(2), cujos resultados estão apresentados na figura<br />

6-15.<br />

Tem-se n = 1000 e sabe-se que yn−1 =50.4360, yn =50.0207. Pretende-se obter uma<br />

previsão para y para os período 1001, 1002 e 1003 (previsão a um passo, a dois passos e a<br />

três passos).<br />

Previsão a um passo:<br />

µ n+1,n = c + φ 1yn + φ 2yn−1<br />

ˆµ n+1,n = 10.81186 + 0.469309 × 50.0207 + 0.3149 × 50.436 = 50.169.<br />

Previsão a dois passos:<br />

µ n+2,n = c + φ 1µ n+1,n + φ 2yn<br />

ˆµ n+2,n = 10.81186 + 0.469309 × 50.169 + 0.3149 × 50.0207 = 50.108.<br />

166


Previsão a três passos:<br />

AR(p)<br />

µ n+3,n = c + φ 1µ n+2,n + φ 2µ n+1,n<br />

ˆµ n+2,n = 10.81186 + 0.469309 × 50.108 + 0.3149 × 50.169 = 50.126.<br />

Previsão a um passo h = 1<br />

yn+1 = c + φ 1yn + ... + φ pyn+1−p + un+1<br />

E (yn+1| Fn) = E <br />

c + φ1yn + ... + φpyn+1−p + un+1<br />

Fn<br />

Previsão a dois passos h = 2<br />

= c + φ 1yn + ... + φ pyn+1−p<br />

yn+2 = c + φ 1yn+1 + ... + φ pyn+2−p + un+2<br />

E (yn+1| Fn) = E <br />

c + φ1yn+1 + ... + φpyn+1−p + un+2<br />

Fn<br />

Previsão a h passos (h > p)<br />

ARMA(1, 1)<br />

= c + φ 1 E (yn+1| Fn) + ... + φ pyn+1−p<br />

= c + φ 1µ n+1,n... + φ pyn+1−p<br />

yn+h = c + φ 1yn+h−1 + ... + φ pyn+h−p + un+h<br />

µ n+h,n = E (yn+h| Fn)<br />

= E c + φ1yn+h−1 + ... + φpyn+h−p + un+h<br />

Fn<br />

= c + φ 1µ n+h−1,n + φ 2yn+h−2,n + ... + φ pµ n+h−p,n<br />

167


Previsão a um passo h = 1<br />

Previsão a dois passos h = 2<br />

Previsão a h passos (h > 1)<br />

yn+1 = c + φ 1yn + un+1 + θ1un<br />

µ n+1,n = E (yn+1| Fn)<br />

= E (c + φ 1yn + un+1 + θ1un| Fn)<br />

= c + φ 1yn + θ1un<br />

yn+2 = c + φ 1yn+1 + un+2 + θ1un+1<br />

µ n+2,n = E (yn+2| Fn)<br />

= E (c + φ 1yn+1 + un+2 + θ1un+1| Fn)<br />

= c + φ 1µ n+1,n<br />

yn+h = c + φ 1yn+h−1 + un+h + θ1un+h−1<br />

µ n+h,n = E (yn+h| Fn)<br />

= E (c + φ 1yn+h−1 + un+h + θ1un+h−1| Fn)<br />

= c + φ 1µ n+h−1,n<br />

6.6.3 Intervalos de Previsão I<br />

Vimos até agora a chamada previsão pontual. Vamos agora estabelecer um intervalo de<br />

confiança, IC, (ou de previsão) para yn+h. Um IC para yn+h a 95% baseia-se na probabilidade<br />

P (l1 < yn+h < l2| Fn) = 0.95.<br />

168


O intervalo de confiança é portanto (l1, l2) , ou seja, yn+h estará no intervalo (l1, l2) com 0.95<br />

de probabilidade dado Fn. Como determinar l1 e l2? Assuma-se que<br />

ou seja,<br />

Tem-se assim,<br />

yn+n| Fn ∼ N (E (yn+h| Fn) , Var (yn+h| Fn))<br />

Z = yn+h − E (yn+h| Fn)<br />

Var (yn+h| Fn)<br />

<br />

<br />

<br />

<br />

Fn ∼ N (0, 1) .<br />

P (l1 < yn+h < l2| Fn) = 0.95<br />

<br />

l1 − E (yn+h| Fn)<br />

⇔ P <br />

Var (yn+h| Fn) < yn+h − E (yn+h| Fn)<br />

<br />

Var (yn+h| Fn) < l2<br />

<br />

− E (yn+h| Fn)<br />

<br />

<br />

<br />

Var (yn+h| Fn)<br />

e, portanto,<br />

Fn<br />

l1 − E (yn+h| Fn)<br />

Var (yn+h| Fn) = −1.96 ⇒ l1 = E (yn+h| Fn) − 1.96 Var (yn+h| Fn)<br />

l2 − E (yn+h| Fn)<br />

Var (yn+h| Fn) = 1.96 ⇒ l2 = E (yn+h| Fn) + 1.96 Var (yn+h| Fn)<br />

Assim, um IC a 95% para yn+h é<br />

Em termos gerais, um IC a (1 − α) 100% é<br />

E (yn+h| Fn) ± 1.96 Var (yn+h| Fn).<br />

<br />

E (yn+h| Fn) ± z1−α/2 Var (yn+h| Fn)<br />

<br />

= 0.95<br />

onde z1−α/2 é tal que P <br />

Z ≤ z1−α/2 = 1 − α/2 e Z ∼ N (0, 1) . É também habit-<br />

ual apresentar-se o IC a partir da variável erro de previsão a h passos, en (h) = yn+h −<br />

E (yn+h| Fn). Como Var (en (h)) = Var (yn+h| Fn) e usando a notação µ n+h,n = E (yn+h| Fn) ,<br />

o IC a 95% para yn+h pode apresentar-se também na forma<br />

µ n+h,n ± 1.96 Var (e (h)). (6.13)<br />

169


Na prática µ n+h,n é desconhecido, pois envolve parâmetros desconhecidos. Em lugar de<br />

µ n+h,n devemos usar ˆµ n+h,n (por exemplo, na previsão a um passo do modelo AR(1), em<br />

lugar de µ n+1,n = c + φ 1yn deve-se considerar ˆµ n+1,n = ĉ + ˆ φ 1yn). A substituição de<br />

µ n+h,n por ˆµ n+h,n aumenta a variância do erro de previsão numa quantidade proporcional<br />

a 1/n (no apêndice 6.H discute-se esta questão). Para amostra grandes pode-se assumir<br />

1/n 0 e, assim, podemos continuar a usar a expressão (6.13), substituindo os parâmetros<br />

desconhecidos pela respectivas estimativas consistentes. Vamos ver alguns exemplos.<br />

MA(2)<br />

Tem-se<br />

Previsão a um passo h = 1<br />

yn+1 = µ + θ1un + θ2un−1 + un+1<br />

E (yn+1| Fn) = µ + θ1un + θ2un−1<br />

en (1) = yn+1 − E (yn+1| Fn) = un+1 ∼ N 0, σ 2 .<br />

Logo Var (en (1)) = σ 2 e, assim, um IC a 95% é<br />

Tem-se<br />

Previsão a dois passos h = 2<br />

µ + θ1un + θ2un−1 ± 1.96 Var (en (1)) i.e.,<br />

µ + θ1un + θ2un−1 ± 1.96σ<br />

yn+2 = µ + θ1un+1 + θ2un + un+2<br />

E (yn+2| Fn) = µ + θ2un<br />

yn+2 − E (yn+2| Fn) = θ1un+1 + un+2 ∼ N 0, θ 2<br />

1 + 1 σ 2<br />

Logo Var (en (2)) = θ 2<br />

1 + 1 σ 2 e, assim, um IC a 95% é<br />

θ2 µ + θ2un ± 1.96 1 + 1 σ2 170


Dependent Variable: Y<br />

Method: Least Squares<br />

Sample(adjusted): 1950:04 2005:05<br />

Included observations: 662 after adjusting endpoints<br />

Variable Coefficient Std. Error t­Statistic Prob.<br />

C 10.01857 0.042397 236.3054 0.0000<br />

MA(1) 0.373267 0.037900 9.848702 0.0000<br />

MA(2) ­0.231256 0.037917 ­6.099047 0.0000<br />

R­squared 0.162759 Mean dependent var 10.01838<br />

Adjusted R­squared 0.160218 S.D. dependent var 1.042205<br />

S.E. of regression 0.955072 Akaike info criterion 2.750462<br />

Sum squared resid 601.1155 Schwarz criterion 2.770833<br />

Log likelihood ­907.4029 F­statistic 64.05464<br />

Durbin­Watson stat 2.002569 Prob(F­statistic) 0.000000<br />

Inverted MA Roots .33 ­.70<br />

Figura 6-16: Estimação de um MA(2)<br />

Exemplo 6.6.2 Estimou-se um MA(2) (dados mensais), cujos resultados estão apresentados<br />

na figura 6-16. A última observação, yn, reporta-se ao período 2005:05 (Maio de 2005, na<br />

notação do EVIEWS). Tem-se ainda a seguinte informação: ûn−1 = −0.655 e ûn = 0.055.<br />

As estimativas dos parâmetros são 13 :<br />

ˆ θ1 = 0.37326,<br />

ˆ θ2 = −0.231256.<br />

Pretende-se um intervalo de previsão para 2005:6 (yn+1) e 2005:7 (yn+2) a 95%, supondo<br />

inovações (erros) normais. Previsão a um passo:<br />

µ n+1,n = µ + θ1un + θ2un−1<br />

ˆµ n+1,n = ˆµ + ˆ θ1ûn + ˆ θ2ûn−1<br />

= 10.01857 + 0.37326 × 0.055 − 0.231256 × (−0.655)<br />

= 10.191<br />

13 O output do EVIEWS apresenta as raízes invertidas do polinómio MA. Desta forma, o modelo é invertível<br />

sse as raízes invertidas são em módulo inferiores a um. Como as raízes são em módulo inferiores a um concluise<br />

que o processo é invertível. Outra forma de chegarmos a esta conclusão consiste em verificar se as seguintes<br />

condições são válidas:<br />

θ1 + θ2 > −1, θ1 − θ2 < 1, −1 < θ2 < 1.<br />

Também por aqui se conclui que o modelo é invertível verificando as desigualdades:<br />

ˆ θ1 + ˆ θ2 = 0.37326 − 0.231256 > −1,<br />

ˆ θ1 − ˆ θ2 = 0.37326 + 0.231256 < 1,<br />

−1 < −0.231256 < 1.<br />

171


IC para yn+1 a 95%:<br />

13<br />

12<br />

11<br />

10<br />

Previsão a dois passos:<br />

IC para yn+2 a 95%:<br />

9<br />

8<br />

7<br />

2005:06 2005:07<br />

YF ± 2 S.E.<br />

Figura 6-17: Previsão do modelo MA(2) fornecida pelo EVIEWS<br />

µ + θ1un + θ2un−1 ± 1.96σ<br />

10.191 ± 1.96 × 0.955072 ou (8.32, 12.06) .<br />

µ n+2,n = µ + θ2un<br />

ˆµ n+2,n = ˆµ + ˆ θ2un<br />

= 10.01857 − 0.231256 × 0.055<br />

= 10.005<br />

θ2 µ + θ2un ± 1.96 1 + 1 σ2 10.005 ± 1.96 (0.37326 2 + 1) × 0.955072 2 ou (8.01, 12.00) .<br />

No EVIEWS o gráfico da previsão a dois passos é dada pela figura 6-17 (há uma ligeira<br />

diferença entre os IC acima calculados e os IC fornecidos pelo EVIEWS. Porquê?)<br />

MA(q)<br />

172


Deixa-se como exercício verificar:<br />

Tem-se<br />

⎧<br />

⎨ µ +<br />

E (yn+h| Fn) =<br />

⎩<br />

q i=h θiun+h−i para h = 1, ..., q<br />

µ para h = q + 1, ...<br />

h−1<br />

en (h) = yn+h − E (yn+h| Fn) = θiun+h−i , (θ0 = 1)<br />

e, assumindo normalidade, o IC a 95% é<br />

AR(1)<br />

µ +<br />

i=0<br />

E e 2 n (h) = σ 2<br />

h−1<br />

i=0<br />

θ 2<br />

i<br />

<br />

q<br />

<br />

h−1<br />

θiun+h−i ± 1.96σ2<br />

i=h<br />

i=0<br />

θ 2<br />

i<br />

(6.14)<br />

A determinação dos intervalos de previsão não é imediata nos processos AR e ARMA<br />

em geral.<br />

Previsão a um passo h = 1<br />

yn+1 = c + φ 1yn + un+1<br />

µ n+1,n = E (yn+1| Fn)<br />

= E (c + φ 1yn + un+1| Fn) = c + φ 1yn<br />

en (1) = un+1<br />

Previsão a dois passos h = 2<br />

µ n+2,n = E (yn+2| Fn)<br />

yn+2 = c + φ 1yn+1 + un+2<br />

= E (c + φ 1yn+1 + un+2| Fn) = c + φ 1 E (yn+1| Fn)<br />

= c + φ 1µ n+1,n<br />

173


en (2) =?<br />

Para determinar en (h) e consequentemente os IC a ideia consiste em representar yn+h<br />

na forma MA. Precisamos, portanto, de uma fórmula geral que forneça en (h) e Var (en (h))<br />

(veremos isso a seguir).<br />

6.6.4 Intervalos de Previsão II - Variância do Erro de Previsão no mod-<br />

elo ARMA<br />

Para determinarmos en (h) considere-se o ARMA(p, q)<br />

φ p (L) yn+h = θq (L) un+h<br />

yn+h = φ −1<br />

=<br />

p<br />

∞<br />

(L) θq (L) un+h (6.15)<br />

j=0<br />

ψ jun+h−j (ψ 0 = 1).<br />

A expressão E (yn+h| Fn) pode ser obtida recursivamente como vimos no caso AR(p) com<br />

h = 2 . Agora interessa-nos representar E (yn+h| Fn) numa outra forma equivalente para<br />

que possamos obter en (h) .<br />

tem-se<br />

Como<br />

E (yn+h| Fn)<br />

<br />

∞ <br />

<br />

= E ψjun+h−j <br />

j=0<br />

Fn<br />

<br />

yn+h =<br />

∞<br />

ψjun+h−j j=0<br />

= E ψ0un+h + ψ1un+h−1 + ... + ψh−1un+1 + ψhun + ψh+1un−1 + ... <br />

Fn<br />

= ψ hun + ψ h+1un−1 + .. .<br />

174


Logo<br />

Portanto,<br />

en (h) = yn+h − E (yn+h| Fn)<br />

= ψ 0un+h + ψ 1un+h−1 + ... + ψ h−1un+1 + ψ hun + ψ h+1un−1 + ...<br />

−ψ hun − ψ h+1un−1 − ...<br />

= ψ 0un+h + ψ 1un+h−1 + ... + ψ h−1un+1<br />

=<br />

h−1<br />

ψjun+h−j. j=0<br />

E (en (h)) = 0<br />

Var (en (h)) = E e 2 n (h) = σ 2<br />

h−1<br />

j=0<br />

ψ 2<br />

j, ψ 0 = 1 (6.16)<br />

No processo MA(q) tem-se θi = ψ i e, com esta igualdade, confirma-se a equação (6.14).<br />

Exemplo 6.6.3 Retome-se o exemplo 6.6.1:<br />

Dependent Variable: Y<br />

Sample: 3 1000<br />

Included observations: 998<br />

Variable Coefficient Std. Error t­Statistic Prob.<br />

C 10.81186 1.196611 9.035402 0.0000<br />

Y(­1) 0.469309 0.030095 15.59406 0.0000<br />

Y(­2) 0.314900 0.030098 10.46238 0.0000<br />

R­squared 0.521901 Mean dependent var 50.10264<br />

Adjusted R­squared 0.520940 S.D. dependent var 0.722051<br />

S.E. of regression 0.499762 Akaike info criterion 1.453631<br />

Sum squared resid 248.5130 Schwarz criterion 1.468378<br />

Log likelihood ­722.3618 F­statistic 543.0800<br />

Durbin­Watson stat 2.010668 Prob(F­statistic) 0.000000<br />

Vimos:<br />

Sabendo que<br />

ˆµ n+1,n = 50.169, ˆµ n+2,n = 50.108, ˆµ n+3,n = 50.126.<br />

1<br />

1 − 0.469309L − 0.31490L 2 = 1 + 0.469L + 0.535L2 + 0.399L 3 + ...<br />

determine um IC a 95% para as previsões em n + 1, n + 2 e n + 3. Vimos que a expressão<br />

175


geral do IC a 95% (com erros Gaussianos) é dada pela expressão<br />

ou<br />

ou<br />

E (yn+h| Fn) ± 1.96 Var (en (h))<br />

µ n+h,n ± 1.96 Var (en (h))<br />

<br />

ˆµ n+h,n ± 1.96 Var (en (h))<br />

No caso dos modelos MA a expressão Var (en (h)) determina-se facilmente, como vimos<br />

atrás. No caso dos modelos AR (ou ARMA) temos de usar a expressão (6.16)<br />

Var (en (h)) = σ 2<br />

h−1<br />

ψ 2<br />

j ou Var (en (h)) = ˆσ 2<br />

h−1<br />

j=0<br />

Um IC a 95% para a previsão yn+1 (h = 1) é<br />

Ora ˆµ n+1,n = 50.169 e<br />

Assim<br />

Var (en (1)) = ˆσ 2<br />

1−1<br />

<br />

ˆµ n+1,n ± 1.96 Var (en (1))<br />

j=0<br />

ˆψ 2<br />

j = ˆσ 2<br />

0<br />

j=0<br />

<br />

ˆµ n+1,n ± 1.96 ˆσ 2<br />

Um IC a 95% para a previsão yn+2 (h = 2) é<br />

50.169 ± 1.96 × 0.499762.<br />

<br />

ˆµ n+2,n ± 1.96 Var (en (2)).<br />

176<br />

j=0<br />

ˆψ 2<br />

j<br />

ˆψ 2<br />

j = ˆσ 2 ˆ ψ 2<br />

0 = ˆσ 2 .


Ora ˆµ n+2,n = 50.108 e<br />

Assim<br />

Var (en (2)) = ˆσ 2<br />

2−1<br />

j=0<br />

Um IC a 95% para a previsão yn+3 (h = 3) é<br />

Ora ˆµ n+2,n = 50.126 e<br />

Assim<br />

Var (en (2)) = ˆσ 2<br />

3−1<br />

ˆψ 2<br />

j = ˆσ 2<br />

<br />

1 + ˆ ψ 2<br />

1<br />

= 0.499762 2 × 1 + 0.469 2 = 0.30470.<br />

<br />

<br />

ˆµ n+2,n ± 1.96 Var (en (2))<br />

50.108 ± 1.96 √ 0.30470.<br />

<br />

ˆµ n+3,n ± 1.96 Var (en (3)).<br />

j=0<br />

ˆψ 2<br />

j = ˆσ 2<br />

<br />

1 + ˆ ψ 2<br />

1 + ˆ ψ 2<br />

<br />

2<br />

= 0.499762 2 × 1 + 0.469 2 + 0.535 2<br />

= 0.37619.<br />

<br />

ˆµ n+3,n ± 1.96 Var (en (3))<br />

50.126 ± 1.96 √ 0.37619.<br />

6.6.5 Previsão de (muito) Longo Prazo<br />

Previsão de longo prazo significa tomar h muito alto. Qual é a previsão de yn+h quando<br />

h → ∞? Isto é, qual o valor de<br />

lim<br />

h→∞ E (yn+h| Fn)?<br />

Quando n + h é muito alto, quando comparado com n, a informação Fn é praticamente<br />

irrelevante (é qualquer coisa como prever o retorno do PSI20 para daqui a 20 anos, tendo<br />

177


disponível apenas a informação do retorno de hoje). Assim, nestas condições, E (yn+h| Fn)<br />

é praticamente igual a E (yn+h) (quer dizer, podemos dispensar Fn). Tudo isto é verdade se,<br />

obviamente, o processo for estacionário.<br />

Assim, se o processo for estacionário tem-se<br />

lim<br />

h→∞ E (yn+h| Fn) = E (yn+h) = E (y) .<br />

Outra questão tem a ver com os intervalos de previsão. Vimos que os intervalos de previsão<br />

dependem da variância do erro de previsão<br />

Var (en (h)) = σ 2<br />

h−1<br />

onde ψ i são os coeficientes que se obtêm da relação φ −1<br />

p (L) θq (L) , Recorde-se,<br />

yt = φ −1<br />

p (L) θq (L) ut =<br />

j=0<br />

ψ 2<br />

j<br />

∞<br />

ψjut−j. Qual é o valor da expressão Var (en (h)) = σ 2 h−1<br />

j=0 ψ2<br />

j quando h tende para ∞? Temos de<br />

avaliar<br />

<br />

lim<br />

h→∞ σ2<br />

h−1<br />

j=0<br />

Se o processo y é ESO pode-se provar que ∞<br />

j=0 ψ2<br />

j é finito 14 e, portanto, Var (en (∞)) é<br />

14 Vimos em que condições se estabelece a estacionaridade. Outra forma alternativa consiste em considerar<br />

a representação MA(∞) do ARMA. Vimos<br />

Tem-se<br />

yt = φ −1<br />

p (L) θq (L) ut =<br />

j=0<br />

ψ 2<br />

j.<br />

j=0<br />

∞<br />

ψjut−j. j=0<br />

E (yt) = 0<br />

⎛ ⎞<br />

Var (yt) =<br />

∞<br />

Var ⎝ ψ ⎠<br />

jut−j = σ 2<br />

∞<br />

Assim se y é E2O devemos ter Var (yt) = σ2 ∞ j=0 ψ2j < ∞. Logo devemos exigir ∞ j=0 ψ2j < ∞ e, portanto,<br />

∞ j=0 ψ2j < ∞ é condição necessária para que y seja estacionário. Nestas condições<br />

<br />

j=0<br />

Var (en (h)) = E e 2 n (h) = σ 2<br />

h−1<br />

ψ 2 j → Var (yt) .<br />

178<br />

j=0<br />

ψ 2 j


finito. Para que valor tende? Pode-se provar (veja-se o último pé-de-página) que<br />

Var (en (∞)) = Var (y) .<br />

Assim, se y é estacionário e Gaussiano, um intervalo de confiança a 95% para yn+h com h<br />

muito alto (ou h → ∞) é<br />

O que acontece se y não é estacionário?<br />

E (y) ± 1.96 Var (y)<br />

Exemplo 6.6.4 Considere-se o ARIMA(0, 1, 1)<br />

A previsão a um passo é<br />

A dois passos é<br />

A h passos é<br />

yt = yt−1 + ut + θ1ut−1.<br />

µ n+1,n = E (yn+1| Fn) = yn + θ1un.<br />

µ n+2,n = E (yn+2| Fn) = E (yn+1 + un+2 + θ1un+1| Fn)<br />

= E (yn+1| Fn) = yn + θ1un<br />

µ n+h,n = yn + θ1un.<br />

Calcule-se agora a variância do erro de previsão Var (en (h)) = σ 2 h−1<br />

j=0 ψ2<br />

j. Temos de<br />

calcular os ψ i e, para o efeito, começamos por reescrever o processo na forma<br />

(1 − L) yt = (1 + θ1L) ut ou<br />

yt =<br />

(1 + θ1L)<br />

1 − L ut<br />

179


Para determinar ψ i:<br />

Resulta: ⎧⎪ ⎨<br />

(1 + θ1L)<br />

= 1 + ψ<br />

1 − L<br />

1L + ψ2L 2 + ...<br />

1 + θ1L = 1 + ψ1L + ψ2L 2 + ... (1 − L)<br />

⎪⎩<br />

= 1 − L + ψ 1L − ψ 1L 2 + ψ 2L 2 − ψ 2L 3 + ...<br />

= 1 + (ψ 1 − 1) L + (ψ 2 − ψ 1) L 2 + ...<br />

θ1 = ψ 1 − 1<br />

0 = ψ 2 − ψ 1<br />

0 = ψ 3 − ψ 2<br />

...<br />

⎧<br />

⎪⎨<br />

⇔<br />

⎪⎩<br />

ψ 1 = 1 + θ1<br />

ψ 2 = 1 + θ1<br />

ψ 3 = 1 + θ1<br />

(alternativa: série de Taylor ou melhor fórmula de Taylor...).<br />

Logo<br />

e, portanto,<br />

(1 + θ1L)<br />

1 − L<br />

Var (en (h)) = σ 2<br />

h−1<br />

...<br />

= 1 + (1 + θ1) L + (1 + θ1) L<br />

<br />

ψ1 ψ2 2 + ...<br />

j=0<br />

ψ 2<br />

j<br />

= σ 2 1 + (1 + θ1) 2 + ... + (1 + θ1) 2<br />

= σ 2 1 + (h − 1) (1 + θ1) 2<br />

Quando h → ∞ ⇒ Var (en (h)) → ∞ (a amplitude dos IC aumenta com h).<br />

6.6.6 Qualidade da Previsão<br />

Podemos comparar a qualidade de previsão de dois modelos diferentes (por exemplo um AR<br />

versus um MA) comparando a variância do erro de previsão Var (en (h)) dos dois modelos.<br />

Esta é a abordagem paramétrica. Temos uma outra forma, mais eficaz, de avaliarmos a<br />

previsão de um (ou mais) modelo(s) e que é descrita a seguir.<br />

O período de observação da série é dividido em dois sub-períodos: o primeiro é des-<br />

ignado por in-sample estimation period e o segundo por out-of sample forecast. Fixe-se o<br />

período de estimação, por exemplo, de 1 a t1 (veja-se a figura 6-18). Embora as observações<br />

180


In­sample estimation period<br />

Out­of sample<br />

forecast<br />

evaluation period<br />

1 t1<br />

n<br />

Figura 6-18: In-Samples Estimation Period vs. Out-of Sample Forecast Period<br />

disponíveis sejam y1, ..., yt1, ..., yn o modelo é estimado apenas para o período de 1 a t1.<br />

Com base no modelo estimado no período in-sample estimation, geram-se depois as pre-<br />

visões para o período out-of sample forecast e, finalmente comparam-se as previsões com<br />

os valores observados mas não utilizados na estimação. O esforço de previsão no período<br />

pós-estimação é equivalente ao de uma previsão verdadeira 15 .<br />

Seja<br />

(com t1 + h = n).<br />

Avaliação da Previsão I<br />

e (h) = et1 (h) = yt1+h − E (yt1+h| Ft1)<br />

y p<br />

h = E (yt1+h| Ft1)<br />

y o h = yt1+h<br />

Tendo-se calculado os erros e (1) , e (2) , ..., e (h) , podemos agora avaliá-los através das<br />

seguintes medidas:<br />

Erro Médio de Previsão<br />

EMP = 1<br />

h<br />

h<br />

i=1<br />

(y o i − y p 1<br />

i ) =<br />

h<br />

h<br />

e (h)<br />

15 Também se definem as previsões in-sample forecast. Tratam-se de previsões geradas no período de estimação<br />

do modelo. Por exemplo, previsões a h-passos<br />

i=1<br />

E (yt+h| Ft) , t + h ≤ t1.<br />

O esforço de previsão é baixo porque o modelo de previsão usa estimativas ˆθ baseadas nas observações<br />

y1, ..., yt1 (a qualidade da previsão a um passo, h = 1, pode ser avaliada através dos critérios habituais de<br />

ajustamento R2 , ˆσ, etc.).<br />

A avaliação da qualidade da previsão deve basear-se nas previsões out-of-sample.<br />

181


Raiz do Erro Quadrático Médio (REQM ou RMSE)<br />

<br />

<br />

<br />

REQM = 1<br />

h<br />

h<br />

i=1<br />

Erro Absoluto Médio (EAM ou MAE)<br />

EAM = 1<br />

h<br />

h<br />

i=1<br />

(y o i<br />

− yp<br />

i )2 =<br />

|y o i − y p 1<br />

i | =<br />

h<br />

Erro Percentual Absoluto Médio (EPAM ou MAPE)<br />

Coeficiente de Theil<br />

U =<br />

EP AM = 1<br />

h<br />

h<br />

<br />

<br />

<br />

y<br />

<br />

o i − y p<br />

i<br />

yo <br />

<br />

<br />

<br />

i<br />

i=1<br />

REQM<br />

<br />

1 h<br />

h i=1 (yp i )2 +<br />

1<br />

h<br />

= 1<br />

h<br />

<br />

<br />

<br />

1<br />

h<br />

h<br />

e (h) 2<br />

i=1<br />

h<br />

|e (h)|<br />

i=1<br />

h<br />

<br />

<br />

<br />

<br />

i=1<br />

e (h)<br />

y o i<br />

<br />

<br />

<br />

<br />

h i=1 (yo i )2<br />

, 0 ≤ U ≤ 1<br />

EQM penaliza fortemente os erros maiores. A grande maioria das previsões pode ser ex-<br />

celente mas o EQM pode ser alto se existir uma previsão má ou muito má. O EAM não<br />

é tão severo neste aspecto. Se a grande maioria das previsões for boa então o EAM vem<br />

relativamente baixo.<br />

Relativamente ao coeficiente de Theil, quanto mais baixo U melhor é a previsão. O<br />

caso U = 1 é o pior cenário (por exemplo, prever sistematicamente zero quando os valores<br />

observados são diferentes de zero, ou prever sempre valores positivos quando os valores<br />

observados são sempre negativos, etc.).<br />

As estatísticas anteriores avaliam a magnitude do erro de previsão e, com excepção do<br />

EMP, não levam em conta se o erro de previsão é positivo ou negativo. Em certos casos, o<br />

sinal do erro de previsão é importante. Para ilustrar esta situação, considere-se o seguinte<br />

exemplo. Seja y a hora de partida do avião, y p a previsão da hora de chegada ao aeroporto<br />

(para embarcar) e e = y − y p o erro de previsão. Se e > 0, ele ou ela chega adiantado; se<br />

e < 0 chega atrasado e perde o avião. Como poderemos avaliar o erro de previsão? Função<br />

quadrática do tipo EQM? (penalizar de igual forma chegar cedo ou tarde?). Uma função de<br />

182


avaliação poderia ser<br />

⎧<br />

⎨ 999 e < 0<br />

L (e) =<br />

⎩ ke e > 0, k > 0.<br />

(6.17)<br />

Assim, chegar atrasado envolveria uma “perca” de 999 (valor que supomos muito alto), ao<br />

passo que chegar adiantado e unidades de tempo, envolveria uma “perca” proporcional a e<br />

(supondo 999 > ke). Uma estatística de avaliação da qualidade da previsão baseada em<br />

(6.17) é<br />

1<br />

h<br />

h<br />

i=1<br />

Escolhe-se o modelo que minimiza (6.18).<br />

<br />

999I{e(i)0} . (6.18)<br />

Outro caso em que a função perca L (e) é não simétrica aplica-se a modelos de previsão<br />

que visam definir regras de compra e venda. Seja y p<br />

h a previsão do retorno a h passos e yo h o<br />

correspondente valor observado. Considera-se uma previsão correcta quando y p<br />

h apresenta o<br />

mesmo sinal que yo h . A função perca é<br />

⎧<br />

⎨<br />

L (e) =<br />

⎩<br />

1 y p<br />

hyo h < 0<br />

0 y p<br />

hyo h > 0.<br />

(6.19)<br />

Observe-se: se a previsão é correcta y p<br />

h e yo h apresentam o mesmo sinal e, portanto, o produto<br />

y p<br />

hyo h é positivo. Uma estatística de avaliação da qualidade da previsão baseada em (6.19) é<br />

1<br />

h<br />

h<br />

i=1<br />

I {y p<br />

i yo i 0}.<br />

Os erros de previsão podem devem-se, basicamente, às seguinte razões:<br />

• As previsões estão quase sempre acima ou abaixo dos valores observados (exemplo:<br />

valores observado: 10, 11, 9, 12; previsões: 15, 16, 13, 16);<br />

• A variabilidade das previsões é diferente da variabilidade dos valores previstos (exem-<br />

183


plo: valores observados: 10, 11, 9, 12; previsões: 2, 18, 5, 20).<br />

• As previsões estão pouco correlacionadas com os valores observados.<br />

Na metodologia que se segue procura-se identificar estas várias fontes de erro.<br />

Considere-se<br />

e defina-se<br />

s 2 o = 1<br />

h<br />

h<br />

(y o i − ¯y o ) 2 , s 2 p = 1<br />

h<br />

(y<br />

h<br />

i=1<br />

p<br />

i − ¯yp ) 2<br />

1 h<br />

h i=1<br />

r =<br />

(yo i − ¯y o ) (y p<br />

i − ¯yp )<br />

i=1<br />

s0sp<br />

U E = (¯yo − ¯y p ) 2<br />

EQM , U V = (so − sp) 2<br />

EQM , U C =<br />

2 (1 − r) s0sp<br />

EQM<br />

,<br />

respectivamente a proporção do enviesamento, da variância e da covariância. Note-se EQM =<br />

1<br />

h<br />

h<br />

i=1 (yo i − y p<br />

i )2 . A estatística U E mede o erro sistemático, U V mede a capacidade de y p<br />

reproduzir a variabilidade de y o e U C mede o erro não sistemático. A situação ideal (y o i = y p<br />

i )<br />

é U V = U E = 0 e U C = 1. Note-se que U V + U E + U C = 1 (demonstração no apêndice<br />

6.I).<br />

Ao contrário do EMP, da REQM e do EAM as estatísticas EPAM, U de Theil, U V , U E e<br />

U C não dependem da escala da variável. Por exemplo, se a variável em estudo for “entrada de<br />

turistas na fronteira (unidade: n o de indivíduos)” e depois resolvermos passar para “entrada<br />

de turistas na fronteira (unidade: milhares de indivíduos)”, as estatísticas EPAM, U de Theil,<br />

U V , U E e U C não sofrem alteração (porque não dependem da escala da variável).<br />

Exemplo 6.6.5 Na figura seguinte apresentam-se estatísticas referentes a três modelos de<br />

previsão. Analise a qualidade das previsões com base nas estatísticas REQM, U de Theil,<br />

U E , U V , U C e Corr (entre os valores observados e previstos).<br />

Recursive Forecasting vs. Rolling Window<br />

Suponha-se que estamos incumbidos de criar um modelo de previsão a 5 passos. Por<br />

exemplo, podemos estar a trabalhar com dados diários e o nosso objectivo é definir um<br />

modelo de previsão semanal. A qualidade da previsão a h passos, com h = 5 não nos<br />

interessa (só nos interessa a qualidade da previsão a 5 passos). A avaliação da previsão<br />

184


Observado Modelos de Previsão erro quadráticos de previsão<br />

h y yp1 yp2 yp3 modelo1 modelo2 modelo3<br />

1 1 2 2 1 1 1 0<br />

2 2 3 3 3 1 1 1<br />

3 3 2 3 4 1 0 1<br />

4 2 4 4 4 4 4 4<br />

5 4 4 5 7 0 1 9<br />

6 5 5 6 2 0 1 9<br />

7 6 5 7 9 1 1 9<br />

8 7 7 8 3 0 1 16<br />

9 5 4 9 9 1 16 16<br />

10 9 10 10 11 1 1 4<br />

Média 4.4 4.6 5.7 5.3 1 2.7 6.9<br />

Variância 5.64 5.24 6.81 10.61 1.2 20.61 31.29<br />

corr(y,ypi) 0.9124 0.9230 0.6567<br />

UE 0.0400 0.6259 0.1174<br />

UV 0.0074 0.0204 0.1129<br />

UC 0.9526 0.3537 0.7698<br />

U 0.0986 0.1458 0.2341<br />

12<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

1 2 3 4 5 6 7 8 9 10<br />

Figura 6-19: Três modelos em confronto<br />

feita nos pontos anteriores não serve porque as estatísticas REQM, Coeficiente de Theil,<br />

etc., avaliam a qualidade da previsão a vários passos, ponderando de igual forma esses erros.<br />

Como fazer? Para avaliar a qualidade da previsão a 5 passos fazemos variar t1 (veja-se a<br />

figura 6-18). Podemos ainda ter a chamada “previsão recursiva” (recursive forecasting) ou a<br />

“janela móvel” (rolling window). Exemplifica-se a seguir.<br />

Recursive forecasting<br />

• Estima-se o modelo entre as observações 1 a 1000 e prevê-se para 1005;<br />

• Estima-se o modelo entre as observações 1 a 1001 e prevê-se para 1006;<br />

• Estima-se o modelo entre as observações 1 a 1002 e prevê-se para 1007; etc.<br />

Rolling window<br />

• Estima-se o modelo entre as observações 1 a 1000 e prevê-se para 1005;<br />

• Estima-se o modelo entre as observações 2 a 1001 e prevê-se para 1006;<br />

• Estima-se o modelo entre as observações 3 a 1002 e prevê-se para 1007; etc.<br />

185<br />

y<br />

yp1<br />

yp2<br />

yp3


Em ambos os casos, em cada iteração, faz-se sempre uma previsão a 5 passos. Todavia,<br />

com o método rolling window, o período de estimação contém sempre 1000 observações (o<br />

esforço de estimação é constante). Na primeira hipótese o esforço de estimação vai dimin-<br />

uindo à media que se acrescentam mais observações no período da estimação. Ao fim de<br />

várias iterações temos uma amostra de valores observados e valores previstos a 5 passos,<br />

que podemos comparar usando as estatísticas já estudadas (EQM, EAM, etc.). Em termos<br />

formais, seja,Yi k = {yk, yk+1, ..., yi} , yre h,i := E (yi+h| Yi 1) a previsão a h passos usando o<br />

método recursive forecasting, yro h,i := E yi+h| Yi <br />

i−k , i > k, a previsão a h passos usando<br />

o método rolling window e y o i := yi+h os valores observados. Com base em s previsões<br />

out-of-sample, podemos calcular, por exemplo,<br />

EQM re (h) = 1<br />

s<br />

EQM ro (h) = 1<br />

s<br />

s<br />

i=1<br />

s<br />

i=1<br />

Em geral, devemos esperar<br />

Previsão no EVIEWS<br />

o<br />

yi − y re 2 re 1<br />

h,i , EAM (h) =<br />

s<br />

o<br />

yi − y ro 2 re 1<br />

h,i , EAM (h) =<br />

s<br />

s <br />

y o i − y re<br />

<br />

<br />

i=1<br />

h,i<br />

s <br />

o<br />

yi − y ro<br />

<br />

.<br />

i=1<br />

REQM re (1) ≤ REQM re (2) ≤ ... ≤ REQM re (h)<br />

EAM re (1) ≤ EAM re (2) ≤ ... ≤ EAM re (h)<br />

A previsão no EVIEWS é definida na janela “forecast”. Para obter previsões out-of-<br />

sample é necessário, em primeiro lugar, encurtar a amostra na fase da estimação. Para<br />

concretizar, suponha-se que estão disponíveis 1100 observações da série y. Se o período<br />

out-of-sample forecast for 1001-1100, o período de estimação é obviamente 1-1000. Assim,<br />

na opção de estimação deve-se escrever na caixa “sample” 1 1000 (veja-se a figura 6.6.6).<br />

Depois de estimado o modelo, escolhe-se a opção “forecast” e na caixa “Forecast sample”<br />

escreve-se 1001 1100 (veja-se a figura 6-20).<br />

A opção “Dynamic forecast” faz a previsão de y ignorando os valores observados de y no<br />

período 1001-1100 (segue a metodologia exposta em “Avaliação da Previsão I”). Por exem-<br />

plo, no caso da previsão AR(1) usa-se a fórmula ˆµ n+h,n = ĉ + ˆ φ 1ˆµ n+h−1,n. A opção “Static<br />

forecast” segue o espírito da metodologia “Recursive Forecasting vs. Rolling Window” para<br />

h = 1 com a seguinte diferença: o período de estimação mantém sempre fixo. No exem-<br />

186<br />

h,i


Figura 6-20: Previsão no EVIEWS<br />

187


plo em análise o período de estimação é sempre 1-1000. A previsão AR(1) para o período<br />

1001 é ĉ + ˆ φ 1y1000; para o período 1002 é ĉ + ˆ φ 1y1001, etc. Os parâmetros estimados ĉ e ˆ φ 1<br />

baseiam-se sempre na amostra 1-1000. Em qualquer destas opções o EVIEWS calcula várias<br />

estatísticas a partir dos erros de previsão e (i) , i = 1, 2, ... Por razões óbvias a previsão para<br />

além do período de observação da variável (no exemplo em estudo, 1101-) só pode fazer-se<br />

usando a opção “Dynamic forecast”.<br />

6.6.7 Outros Métodos de Previsão Lineares<br />

Médias Móveis<br />

Para “tendências localmente constantes” a previsão de y, para o período n + 1, n + 2, ...,<br />

baseada na informação {y1, ..., yn} é<br />

y p<br />

n+h = yn + yn−1 + ... + yn−N+1<br />

N<br />

, h = 1, 2, ...<br />

onde N é o n o de obs. incluídas em cada média (período da média móvel). A previsão é<br />

constante.<br />

Para “tendência localmente lineares” pode-se usar o método das “médias móveis duplas”<br />

(médias móveis de médias móveis usadas depois numa estrutura linear ...). Estes métodos<br />

podem ser replicados através dos métodos de alisamento exponencial.<br />

Alisamento Exponencial<br />

Para “tendências localmente constantes” a previsão de y, para o período n + 1, n + 2, ...<br />

, baseada na informação {y1, ..., yn} é<br />

y p<br />

n+h = Sn, h = 1, 2, ...<br />

Sn = αyn + (1 − α) Sn−1, 0 < α < 1<br />

188


Pode-se provar que o alisamento exponencial é uma média ponderada de y1, ..., yn e S0 16 :<br />

Sn = αyn +α (1 − α) yn−1 +α (1 − α) 2 yn−2 +...+α (1 − α) n−1 y1 +(1 − α) n S0. (6.21)<br />

Para “tendências localmente lineares” pode-se usar o método de Holt.<br />

Estes métodos podem ser encarados como casos particulares dos modelos ARIMA. Por<br />

exemplo, a previsão do modelo ARIMA(0,1,1) é equivalente à previsão do modelo<br />

Sn = αyn + (1 − α) Sn−1.<br />

Dem. Uma forma de provar esta afirmação consiste em mostrar que, se yt segue um<br />

ARIMA(0,1,1)<br />

yt = yt−1 − θut−1 + ut, µ t = yt−1 − θut−1<br />

então, a previsão para yn+1 pode-se escrever na forma da equação (6.21) 17 . Uma demon-<br />

stração alternativa é a seguinte. No modelo ARIMA(0,1,1) a previsão para yn+1 é E (yn+1| Fn) =<br />

16 Com efeito,<br />

Sn = αyn + (1 − α) Sn−1<br />

= αyn + (1 − α) (αyn−1 + (1 − α) Sn−2)<br />

= αyn + (1 − α) αyn−1 + (1 − α) 2 Sn−2<br />

= αyn + (1 − α) αyn−1 + (1 − α) 2 (αyn−2 + (1 − α) Sn−3)<br />

= αyn + (1 − α) αyn−1 + (1 − α) 2 αyn−2 + (1 − α) 3 Sn−3<br />

= ...<br />

= αyn + α (1 − α) yn−1 + α (1 − α) 2 yn−2 + ... + α (1 − α) n−1 y1 + (1 − α) n S0.<br />

O alisamento exponencial é uma média ponderada de y1, ..., yn e S0.<br />

17 Com efeito, a previsão para yn+1, µ n+1,n, é<br />

µ n+1,n = yn − θun<br />

= yn − θ (yn − µ n)<br />

= yn − θyn + θµ n<br />

= (1 − θ) yn + θ (yn−1 − θun−2)<br />

= (1 − θ) yn + θyn−1 − θ 2 un−2<br />

= (1 − θ) yn + θyn−1 − θ 2 (yn−2 − θun−3)<br />

= (1 − θ) yn + (1 − θ) θyn−1 + θun−3<br />

= ...<br />

= (1 − θ) yn + (1 − θ) θyn−1 + (1 − θ) θ 2 yn−2 + ... + (1 − θ) θ n−1 y1 + θ n y0.<br />

Para verificar que a previsão do modelo ARIMA(0,1,1) é equivalente à previsão do modelo Sn = αyn +<br />

(1 − α) Sn−1 basta comparar a expressão obtida para µ n+1,n com (6.21). Estas expressões são iguais para<br />

α = (1 − θ) (admitindo que S0 = y0). É fácil observar que a previsão para yn+h, h ≥ 1, em ambos os<br />

modelos, é Sn = µ n+1,n.<br />

189


µ n+1,n. Verifique-se agora que<br />

µ t = yt−1 − θut−1<br />

Logo, no modelo ARIMA(0,1,1), tem-se<br />

= yt−1 − θ <br />

yt−1 − µ t−1<br />

= (1 − θ) yt−1 + θµ t−1.<br />

µ n+1,n = (1 − θ) yn + θµ n<br />

ou, redefinindo, Sn = µ n+1,n e α = 1 − θ, vem<br />

Sn = αyn + (1 − α) Sn−1,<br />

que é precisamente a expressão do alisamento exponencial.<br />

Como conclusão: os modelos ARIMA são (muito) mais gerais do que modelos concor-<br />

rentes vistos neste ponto.<br />

6.A Método para Obter a FACP<br />

Considere a regressão linear<br />

yt+s = φ s1yt+s−1 + φ s2yt+s−2 + ... + φ ssyt + ξ t+s<br />

e suponha-se que Var (yt) = 1 e E (yt) = 0 (a correlação parcial e total é independente da<br />

origem e da escala das variáveis). Multiplicando ambos os termos por yt+s−j, j = 1, 2, ..., s,<br />

tomando os valores esperados e dividindo por γ 0 obtém-se o sistema,<br />

ρ j = φ s1ρ j−1 + ... + φ ssρ j−s j = 1, 2, ..., s. (6.22)<br />

Para obter φ 11 considera-se a equação (6.22) para s = 1,<br />

ρ 1 = φ 11ρ 0<br />

190<br />

(ρ 0 = 1).


Donde,<br />

φ 11 = ρ 1.<br />

Para obter φ 22 considera-se o sistema (6.22) com s = 2,<br />

⎧<br />

⎨<br />

⎩<br />

ρ 1 = φ 21 + φ 22ρ 1<br />

ρ 2 = φ 21ρ 1 + φ 22<br />

e resolve-se em ordem a φ 22 (e em ordem a φ 21). Aplicando, por exemplo, a regra de Cramer<br />

obtém-se<br />

<br />

<br />

1 ρ<br />

1 <br />

<br />

<br />

ρ1 ρ2 <br />

φ22 = <br />

<br />

1 ρ<br />

1 <br />

<br />

<br />

ρ1 1 <br />

= ρ2 − ρ2 1<br />

1 − ρ2 .<br />

1<br />

Utilizando o mesmo procedimento pode-se concluir que<br />

φ 33 =<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

1 ρ 1 ρ 1<br />

ρ 1 1 ρ 2<br />

ρ 2 ρ 1 ρ 3<br />

1 ρ 1 ρ 2<br />

ρ 1 1 ρ 1<br />

ρ 2 ρ 1 1<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

= ρ3 − 2ρ1ρ2 + ρ3 1 + ρ1ρ2 2 − ρ2 1ρ3 2ρ2 1ρ2 − ρ2 2 − 2ρ2 .<br />

1 + 1<br />

6.B Transformação de um Processo MA(1) Não Invertível<br />

num Invertível<br />

Mostra-se a seguir que um processo não invertível pode transformar-se num processo in-<br />

vertível com funções de autocorrelação e autocorrelações parciais iguais.<br />

Associado a um processo MA(1) não invertível existe sempre um outro processo MA(1)<br />

invertível com a mesma FAC e FACP. Por exemplo, considere-se o processo MA(1) não<br />

invertível.<br />

yt = 4ut−1 + ut, θ = 4. (6.23)<br />

Este modelo não serve para previsão pois a representação autoregressiva não está bem definida.<br />

191


O processo (6.23) verifica:<br />

e<br />

Ora o processo<br />

ρ1 =<br />

θ<br />

θ 2 4<br />

=<br />

+ 1 42 + 1<br />

ρs = 0 para s > 1<br />

φ 11 = ρ 1 = θ<br />

θ 2 + 1<br />

φ ss = θs 1 − θ 2<br />

1 − θ<br />

˜yt = 1<br />

4 ũt−1 + ũt,<br />

= 4<br />

17<br />

= 4<br />

17<br />

4<br />

= 15<br />

2(s+1) s<br />

1 − 42s+2 tem a mesma FAC e FACP do processo y. Com efeito,<br />

˜ρ 1 = ˜ φ 11 = ˜ θ<br />

˜φ ss =<br />

1<br />

θ<br />

1 − 1<br />

θ<br />

1<br />

θ<br />

˜ θ = 1<br />

4<br />

2 = <br />

˜ 1 2 =<br />

θ + 1 + 1 θ<br />

θ<br />

θ 2 + 1<br />

<br />

s<br />

1 − <br />

1 2<br />

θ<br />

4<br />

= 15<br />

2(s+1)<br />

s<br />

.<br />

1 − 42s+2 = 4<br />

17<br />

Na prática, qual é o alcance deste resultado? Se não ocorrer invertibilidade na fase da es-<br />

timação devemos definir outros valores iniciais para os parâmetros. Por exemplo, se o pro-<br />

grama fornece como estimativa ˆ θ = 4 devemos definir outros valores iniciais até que o<br />

software encontre a estimativa 1/4 para o parâmetro do processo MA. Convém lembrar que<br />

a estimação de processos MA envolve problemas de optimização não linear. Por vezes, a<br />

solução do problema de optimização é um extremante local (e não global, como é dese-<br />

jável). Poderão existir outros extremantes que serão detectados se definirmos outros valores<br />

de inicialização.<br />

6.C Invertibilidade de Processos MA (exemplos)<br />

Observação 6.C.1 Se uma raiz r é complexa, i.e. r = a + bi, o módulo é |r| = √ a 2 + b 2 .<br />

Exemplo 6.C.1 yt = (1 − 0.5L + 0.1L 2 − 0.5L 3 ) ut é invertível?<br />

θ3 (L) = 1 − 0.5L + 0.1L 2 − 0.5L 3 .<br />

192


Resolvendo θ3 (L) = 0 em ordem a L (através de um qualquer software) obtêm-se as<br />

seguintes raízes<br />

Como<br />

−0.42 + 1.3i, −0.42 − 1.3i, 1.05<br />

|−0.42 + 1.3i| = √ .42 2 + 1.3 2 > 1 , |1.05| > 1<br />

conclui-se que o processo yt = (1 − 0.5L + 0.1L 2 − 0.5L 3 ) ut é invertível. O método dos<br />

coeficientes indeterminados permite determinar os parâmetros φ i que figuram do lado direito<br />

da expressão<br />

1<br />

1 − 0.5L + 0.1L 2 − 0.5L 3 = 1 + φ 1L + φ 2L 2 + ...<br />

Multiplicando ambos os termos por (1 − 0.5L + 0.1L 2 − 0.5L 3 ) tem-se<br />

1 = 1 − 0.5L + 0.1L 2 − 0.5L 3 1 + φ 1L + φ 2L 2 + ... .<br />

Depois de se multiplicarem e reordenarem todos os termos do lado direito da expressão<br />

anterior vem,<br />

Desta equação resulta: ⎧⎪ ⎨<br />

1 = 1 + (φ 1 − 0.5) L + (0.1 − 0.5φ 1 + φ 2) L 2 + ...<br />

⎪⎩<br />

φ 1 − 0.5 = 0<br />

0.1 − 0.5φ 1 + φ 2 = 0<br />

Da primeira equação sai φ 1 = 0.5; da primeira e da segunda sai, φ 2 = 0.15, etc. Em suma<br />

e, portanto,<br />

1 − 0.5L + 0.1L 2 − 0.5L 3 −1 = 1 + 0.5L + 0.15L 2 + 0.52 L 3<br />

...<br />

+0.49L 4 + 0.27L 5 + ...<br />

yt = −0.5yt−1 − 0.15yt−2 − 0.52yt−3 − 0.49yt−4 − 0.27yt−5 − ...<br />

Nota final: o programa Mathematica (entre outros) calcula facilmente os parâmetros φ i. A<br />

instrução é<br />

1<br />

Series[<br />

1 − 0.5L + 0.1L2 ,{L,0,5}].<br />

− 0.5L3 193


O programa EVIEWS apresenta as raízes invertidas do polinómio θq (L). Nestas condições,<br />

o processo y é invertível se as raízes invertidas θq (L) forem em módulo inferiores a um (ou<br />

dentro do circulo unitário no plano complexo). Segue-se a explicação. Suponha-se que o<br />

polinómio MA é θ (L) = (1 − 0.2L + 0.4L 2 ) . As raízes de θ (L):<br />

θ (L) = 0 ⇒ L1 = 0.25 − 1.56i, L2 = 0.25 + 1.56i<br />

As raízes estão fora do círculo unitário, pois<br />

|L1| =<br />

<br />

0.25 2 + (−1.56) 2 = 1.58 > 1, |L2| = ... = 1.58 > 1.<br />

Logo o processo yt = θ (L) ut é invertível. O programa EVIEWS apresenta as raízes inver-<br />

tidas. No exemplo em análise, φ (L) = (1 − 0.2L + 0.4L 2 ) , o EVIEWS não apresenta L1 e<br />

L2 mas sim<br />

1<br />

L1<br />

e 1<br />

.<br />

L2<br />

Quando as raízes são reais é óbvio que |L| > 1 implica |1/L| < 1. Quando as raízes são<br />

complexas pode-se provar que |L| > 1 ⇔ |1/L| < 1. Com efeito, suponha-se que uma raiz<br />

de φ (L) é a + bi. Esta raiz está fora do círculo unitário se |a + bi| = √ a 2 + b 2 > 1. Se a<br />

raiz a + bi é invertida, tem-se<br />

e<br />

<br />

<br />

<br />

1 <br />

<br />

a<br />

+ bi<br />

=<br />

Conclui-se, portanto, que<br />

1<br />

a + bi =<br />

a<br />

a2 −<br />

+ b2 b<br />

a2 i<br />

+ b2 <br />

<br />

a<br />

a2 + b2 2 <br />

b<br />

+<br />

a2 + b2 2 =<br />

|a + bi| = √ a2 + b2 <br />

<br />

> 1 ⇔ <br />

1 <br />

<br />

a<br />

+ bi<br />

=<br />

1<br />

√ a 2 + b 2 .<br />

1<br />

√ a 2 + b 2<br />

< 1.<br />

Retomando o exemplo φ (L) = (1 − 0.2L + 0.4L 2 ) o EVIEWS apresenta<br />

1<br />

0.25 − 1.56i<br />

1<br />

0.25 + 1.56i<br />

= 0.100 16 + 0.624 97i<br />

= 0.100 16 − 0.624 97i.<br />

194


Como √ 0.100 16 2 + 0.624 97 2 = 0.632 95 < 1 o processo yt = θ (L) ut é invertível. Em<br />

suma, no programa EVIEWS as raízes invertidas θq (L) devem ser em módulo inferiores a<br />

um (ou dentro do circulo unitário no plano complexo). Veremos ainda que as raízes invertidas<br />

do polinómio AR φ (L) devem também ser em módulo inferiores a um (ou dentro do circulo<br />

unitário no plano complexo) para que o processo seja ESO.<br />

Exemplo 6.C.2 Retome-se o exemplo 6.C.1. O programa EVIEWS em lugar de fornecer as<br />

raízes<br />

−0.42 + 1.3i, −0.42 − 1.3i, 1.05<br />

fornece as raízes invertidas, i.e., o lado direito das seguintes expressões:<br />

1<br />

−0.42 + 1.3i<br />

1<br />

= −0.225 + 0.696i,<br />

−0.42 − 1.3i<br />

= −0.225 − 0.696i,<br />

1<br />

1.05<br />

= 0.952.<br />

Assim, no programa EVIEWS as raízes invertidas de θq (L) devem ser em módulo inferiores<br />

a um (ou dentro do circulo unitário no plano complexo). Verifique que |−0.225 − 0.696i| <<br />

1, |−0.225 + 0.696i| < 1, |0.952| < 1.<br />

6.D Estacionaridade de 2 a Ordem do Processo AR(1)<br />

A ESO pode ser discutida a partir de vários conceitos. Para processos lineares é relativamente<br />

fácil estudar a ESO. Considere-se (com c = 0) o processo AR(1)<br />

yt = φyt−1 + ut = φ t y0 + φ t−1 u1 + φ t−2 u2 + ... + φut−1 + ut<br />

(6.24)<br />

(tendo-se admitido que o processo teve início em t0). Questão: para que valores de φ a<br />

média, a variância e a covariância não dependem de t? A média é<br />

E (yt) = E (E (yt| F0)) = φ t E (y0) .<br />

Claramente, se |φ| > 1 então E (yt) → ∞ e o processo não é ESO. Se φ = 1 vem<br />

E (yt) = φ t E (y0) = E (y0) .<br />

195


Nada se pode dizer, por enquanto. Se |φ| < 1 vem E (yt) = φ t E (y0) → 0 quando t → ∞.<br />

Para simplificar admite-se que o processo y é inicializado em condições estacionárias i.e.,<br />

admite-se E (y0) = 0. Nestas condições<br />

Por outro lado, o segundo momento é<br />

E (yt) = φ t E (y0) = 0.<br />

E y 2 t = E E y 2 =<br />

<br />

<br />

t F0<br />

φt E E y0 + φ t−1 u1 + φ t−2 <br />

2 u2 + ... + φut−1 + ut F0<br />

<br />

= E E<br />

<br />

= E φ 2t y 2 0 + φ 2(t−1) σ 2 + φ 2(t−2) σ 2 + ... + φ 2 σ 2 + σ 2<br />

<br />

= φ 2t E y 2 <br />

2<br />

0 + σ φ 2(t−1) + φ 2(t−2) + ... + φ 2 <br />

+ 1 .<br />

φ 2t y 2 0 + φ 2(t−1) u 2 1 + φ 2(t−2) u 2 2 + ... + φ 2 u 2 t−1 + u 2 t + ...<br />

F0<br />

Se φ = 1 vem E (y2 t ) = E (y2 0)+σ 2t → ∞. Se |φ| > 1 vem E (y2 t ) = φ 2t E (y2 2 1−φ2t<br />

0)+σ 1−φ2 →<br />

∞. Se |φ| < 1 vem E (y2 t ) = φ 2t E (y2 2 1−φ2t<br />

0) + σ 1−φ2 → σ2<br />

1−φ2 .<br />

Teoricamente pode-se definir E (y 2 0) = σ2<br />

1−φ 2 e, neste caso, com |φ| < 1, o processo é<br />

apenas ESO assimptoticamente. Se o processo é inicializado em “condições estacionárias”<br />

i.e. E (y 2 0) = σ2<br />

1−φ 2 , então, no caso |φ| < 1, resulta imediato que<br />

E y 2 2t σ<br />

t = φ 2<br />

1 − φ<br />

1 − φ2t σ2<br />

2 + σ2<br />

2 =<br />

1 − φ<br />

2 (constante ∀t).<br />

1 − φ<br />

Relativamente às covariâncias. Suponha-se y0 = 0 (para simplificar). No caso |φ| < 1 já<br />

vimos que γ k = φ k γ 0 e ρ k = φ k . Suponha-se agora φ = 1. Tem-se, a partir de (6.24),<br />

yt = u1 + u2 + ... + ut−1 + ut<br />

196


e, assim,<br />

E (ytyt−k) = E (E (ytyt−k |Ft−k )) = E (yt−k E (yt |Ft−k ))<br />

= E ((u1 + u2 + ... + ut−k) E (yt |Ft−k ))<br />

= E ((u1 + u2 + ... + ut−k) (u1 + u2 + ... + ut−k))<br />

= E u 2 1 + u 2 2 + ... + u 2 <br />

t−k + E (termos cruzados)<br />

= σ 2 (t − k) (depende de t)<br />

= γ t,k<br />

Correlações (ainda o caso φ = 1):<br />

γ t,k<br />

γ 0,k<br />

= σ2 (t − k)<br />

σ 2 t<br />

= t − k<br />

t<br />

= 1 − k<br />

t = ρ t,k<br />

(depende de t). Coligindo todos resultados conclui-se que a média, a variância e a covariân-<br />

cia não dependem de t se |φ| < 1. Em suma,<br />

|φ| < 1 ⇔ yt é ESO<br />

(supondo que a condição inicial tem distribuição estacionária ou que o processo foi iniciado<br />

num passado remoto).<br />

AR(1)<br />

Outra forma de analisar a questão em estudo é a seguinte 18 . Considere-se novamente o<br />

yt = c + φyt−1 + ut<br />

O esqueleto da equação anterior é a equação às diferenças finitas<br />

˜yt = f (˜yt−1) = c + φ˜yt−1, f (x) = c + φx<br />

Satisfeitas outras condições (ver Tong, 1990) o processo y é EE se o ponto fixo ¯y da EDF<br />

˜yt = c + φ˜yt−1 é assimptoticamente estável. O ponto fixo ¯y da equação às diferenças finitas<br />

18 Apenas para o leitor que tenha estudado o problema da estabilidade no âmbito das equações às diferenças<br />

finitas determinísticas.<br />

197


(determinística) é o que resulta de<br />

¯y = f (¯y)<br />

¯y = c + φ¯y ⇒ ¯y = c<br />

1 − φ .<br />

Como se sabe, a condição |f ′ (¯y)| < 1 implica que ¯y é assimptoticamente estável. Ora<br />

f ′ (x) = φ. Portanto, se |φ| < 1, ¯y é assimptoticamente estável e y é EE.<br />

Pode-se também recorrer às proposições 4.5.1 e 4.5.4 notando que, no caso AR(1) a<br />

função g é g (x) = φx e imediatamente se verifica que |g (x)| < |x| se |φ| < 1. Nas<br />

condições das proposições referidas, o processo é EE. É ESO se o momento de segunda<br />

ordem existir. Facilmente se verifica que existe. Nestas condições, o processo AR(1), com<br />

|φ| < 1, é EE e ESO.<br />

6.E Estacionaridade de 2 a Ordem do Processo AR(p)<br />

A ESO pode ser analisada convertendo a equação yt = φ 1yt−1+...+φ pyt−p+ut num sistema<br />

de equações lineares mediante as seguintes mudanças de variáveis:<br />

Tem-se<br />

y1,t = yt, y2,t = yt−1, ..., yp,t = yt−p+1.<br />

y1,t = c + φ 1yt−1 + ... + φ pyt−p + ut<br />

y2,t = y1,t−1<br />

yp,t = yp−1,t.<br />

.<br />

198


De forma compacta, tem-se uma estrutura de um processo vectorial AR(1), habitualmente<br />

designado por VAR(1) (vector AR), yt= c + Ay t−1+g t, i.e.<br />

⎛ ⎞ ⎛<br />

⎞⎛<br />

⎞ ⎛ ⎞<br />

y1,t φ<br />

⎜ ⎟ ⎜ 1<br />

⎜ ⎟ ⎜<br />

⎜ y2,t ⎟ ⎜ 1<br />

⎜ ⎟<br />

⎜ ⎟ = ⎜<br />

⎜ . ⎟ ⎜ .<br />

⎝ ⎠ ⎝<br />

φ2 0<br />

.<br />

· · ·<br />

· · ·<br />

.. .<br />

φn−1 0<br />

.<br />

φn y1,t−1 ut<br />

⎟⎜<br />

⎟ ⎜ ⎟<br />

⎟⎜<br />

⎟ ⎜ ⎟<br />

0 ⎟⎜<br />

y2,t−1 ⎟ ⎜ 0 ⎟<br />

⎟⎜<br />

⎟<br />

⎟⎜<br />

⎟ + ⎜ ⎟<br />

⎜ ⎟<br />

. ⎟⎜<br />

. ⎟ ⎜ . ⎟<br />

⎠⎝<br />

⎠ ⎝ ⎠<br />

<br />

yp,t<br />

<br />

0 0 · · ·<br />

<br />

1 0<br />

<br />

yp,t−1<br />

<br />

0<br />

<br />

yt<br />

A<br />

Resolvendo recursivamente o sistema yt= Ay t−1+g t (dada a condição inicial Y0) obtém-se<br />

yt−1<br />

yt= A t y0+A t−1 g1+A t−2 g2+... + Ag t−1+g t.<br />

É relativamente óbvio que devemos exigir A t → O (matriz nula) quando t → ∞. Por<br />

exemplo se A t → O quando t → ∞ então<br />

E (yt| F0) = A t y0 → 0 (vector nulo)<br />

(isto é E (yt| F0) converge para a sua média marginal, se A t → O). Seja Λ = diag (λ1, ..., λn)<br />

a matriz dos valores próprios de A e P a matriz dos vectores próprios associados (admitem-<br />

se linearmente independentes). Como se sabe da álgebra linear, verifica-se a igualdade<br />

A t = PΛ t P −1 . Logo devemos exigir que todos os valores próprios de A sejam em mó-<br />

dulo menores do que um. Só nestas condições se tem A t → O. Pode-se provar que esta<br />

condição é equivalente à seguinte: o processo AR(p) é estacionário sse as raízes da equação<br />

φ p (L) = 0 estão todas fora do círculo unitário no plano complexo.<br />

6.F Processos ARMA Sazonais<br />

Neste apêndice faz-se uma breve análise dos processos ARMA sazonais ou SARMA.<br />

Muitas sucessões envolvem uma componente sazonal ou periódica de período S (número<br />

de observações por período). Exemplos:<br />

199<br />

gt


0.04<br />

0.03<br />

0.02<br />

0.01<br />

0.00<br />

­0.01<br />

yt Frequência S<br />

Entrada de Turistas Mensal 12<br />

Entrada de Turistas Trimestral 4<br />

Retornos de um Título Diários 5<br />

Crédito Total ao Consumo EUA<br />

­0.02<br />

1980 1981 1982 1983 1984 1985<br />

Considere-se, yt - entrada de turistas na fronteira, dados mensais. É natural esperar:<br />

yt−12 “alto”⇒ yt “alto”<br />

yt−12 “baixo”⇒ yt “baixo”<br />

Se só existisse a componente sazonal teríamos:<br />

Processo AR(P)S<br />

yt = Φ1yt−12 + ut, ou<br />

yt = Φ1yt−12 + Φ1yt−24 + ut.<br />

• AR(1)S yt = Φ1yt−S + ut ut ruído branco<br />

• AR(2)S<br />

• AR(P)S<br />

yt = Φ1yt−S + Φ2yt−2S + ut<br />

yt = Φ1yt−12 + Φ2yt−2s + ... + ΦP yt−P s + ut ou,<br />

1 − Φ1L S − Φ2L 2S − ... − ΦP L P S yt = ut<br />

200<br />

ΦP<br />

L S yt = ut.


Para um AR(1)S, yt = Φ1yt−S + ut, deixa-se como exercício verificar que<br />

yt =<br />

∞<br />

j=0<br />

Var (yt) = σ 2<br />

Φ j<br />

1ut−jS, E (yt) = 0,<br />

∞<br />

j=0<br />

Φ 2j<br />

1 = σ2<br />

1 − Φ 2 1<br />

Relativamente à covariância pode-se concluir:<br />

Donde<br />

Cov (yt, yt+1) =<br />

∞<br />

i=0<br />

i=0<br />

∞<br />

j=0<br />

j=0<br />

Φ i 1Φ j<br />

1 E (ut−iSut+1−jS) = 0<br />

(σ 2 = Var (ut) ),<br />

Cov (yt, yt+2) = Cov (yt, yt+3) = Cov (yt, yt+S−1) = 0<br />

Cov (yt, yt+S) =<br />

∞ ∞<br />

Φ i 1Φ j+1<br />

1 E (ut−iSut−jS) = σ 2<br />

∞<br />

Φ j<br />

1Φ j+1 2 Φ1<br />

1 = σ<br />

1 − Φ2 .<br />

1<br />

Também se pode concluir<br />

⎧<br />

⎨<br />

ρk =<br />

⎩<br />

Φ m 1<br />

i=0<br />

k = mS, m = 0, 1, 2, ...<br />

0 k = mS, m = 0, 1, 2, ...<br />

⎧<br />

⎨ Φ1 k = S<br />

φkk =<br />

⎩ 0 k = S.<br />

Na figura seguinte apresenta-se a FAC e FACP (teóricas) de um processo AR(1)S=12 com<br />

Φ1 = 0.5.<br />

1<br />

0.9<br />

0.8<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

1<br />

0.9<br />

0.8<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

FAC<br />

0 12 24 36 48<br />

FACP<br />

0 12 24 36 48<br />

O processo AR(P)S tem o mesmo comportamento básico do processo AR(P).<br />

Processo MA(Q)S<br />

• MA(1)S yt = −Θ1ut−S + ut, ut ruído branco;<br />

201


• MA(2)S<br />

• MA(Q)S<br />

yt = −Θ1ut−S − Θ2ut−2S + ut;<br />

yt = −Θ1ut−S − Θ2ut−2S − ... − ΘQut−QS + ut ou,<br />

yt = 1 − Θ1L S − Θ2L 2S − ... − ΘQL Qs ut<br />

yt =<br />

S<br />

ΘQ L ut<br />

Para um MA(1)S, yt = −Θ1ut−S + ut, deixa-se como exercício verificar que<br />

Também se pode concluir:<br />

e<br />

E (yt) = 0,<br />

Var (yt) = 1 + Θ 2 2<br />

1 σ<br />

⎧<br />

⎨<br />

ρk =<br />

⎩<br />

⎧<br />

⎨<br />

φkk =<br />

⎩<br />

− Θ1<br />

1+Θ 2 1<br />

(σ 2 = Var (ut) ).<br />

k = S<br />

0 k = S<br />

− Θ1<br />

1+Θ2 1<br />

− Θm 1 (1−Θ2 1)<br />

1−Θ 2(m+1)<br />

1<br />

k = S<br />

k = S.<br />

Na figura seguinte apresenta-se a FAC e FACP (teóricas) de um processo MA(1)S=12 com<br />

Θ1 = −0.5<br />

1<br />

0.9<br />

0.8<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

FAC<br />

0.1<br />

0<br />

0<br />

1<br />

0.9<br />

12 24<br />

FACP<br />

36 48<br />

0.8<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

0 12 24 36 48<br />

O processo MA(Q)S tem o mesmo comportamento básico do processo MA(Q).<br />

Processos Multiplicativos ARMA(p,q)(P,Q)S<br />

Componentes não sazonal e sazonal (modelo ARMA(p,q)(P,Q)S):<br />

φ p (L) ΦP<br />

S<br />

L S<br />

yt = θq (L) ΘQ L ut<br />

202


Exemplo 6.F.1 Modelo ARMA(2,1)(1,0)12<br />

1 − φ1L − φ 2L 2 1 − Φ1L 12 yt = (1 + θ1L) ut<br />

1 − φ1L − φ 2L 2 − Φ1L 12 + φ 1Φ1L 13 + φ 2Φ1L 14 yt = ut + θ1ut−1<br />

yt = φ 1yt−1 + φ 2yt−2 + Φ1yt−12 − φ 1Φ1yt−13 − φ 2Φ1yt−14 + ut + θ1ut−1<br />

Corresponde a um modelo ARMA(14,1) com restrições (não lineares) entre os parâmetros<br />

(incluindo restrições de nulidade).<br />

6.G Demonstração da Proposição 6.5.1<br />

Dem. a) Dado o modelo y = Xβ 1 + γd + u, o estimador OLS de γ é<br />

ˆγ = (d ′ Md) −1 d ′ My, M = I − X (X ′ X) −1 X ′<br />

= (d ′ Md) −1 d ′ M (Xβ 1 + γd + u)<br />

= γ + (d ′ Md) −1 d ′ Mu.<br />

Analise-se a convergência em probabilidade dos termos (d ′ Md) −1 e d ′ Mu (note-se que<br />

ˆ ξ<br />

p<br />

−→ ξ e ˆ ζ<br />

p<br />

−→ ζ implica ˆ ξ ˆ ζ<br />

p<br />

−→ ξζ). Tem-se<br />

d ′ Md = d ′<br />

<br />

I − X (X ′ X) −1 X ′<br />

<br />

d<br />

= d ′ d − d ′ X (X ′ X) −1 X ′ d<br />

= 1 − x ′ t∗ (X′ X) −1 xt∗<br />

= 1 − x′ ′ −1<br />

t∗ X X<br />

xt∗.<br />

n n<br />

Tendo em conta que x ′ t∗ /n −→ 0 e X ′ <br />

X −1 p −1 −→ Q facilmente se conclui que<br />

n<br />

d ′ Md p<br />

−→ 1. (6.25)<br />

203


Por outro lado,<br />

d ′ Mu = d ′<br />

<br />

I − X (X ′ X) −1 X ′<br />

<br />

u<br />

e, usando um raciocínio idêntico, conclui-se que<br />

Devido a (6.25) e (6.26) resulta:<br />

b) Considere-se<br />

Tem-se<br />

e,<br />

Resulta ˆγ<br />

ˆεt∗<br />

p<br />

−→ 1<br />

ˆγ =<br />

= d ′ u − d ′ X (X ′ X) −1 X ′ u<br />

= ut∗ − d ′ ′ −1 ′ X X X u<br />

X<br />

n n<br />

d ′ Md p<br />

−→ ut∗. (6.26)<br />

ˆγ=γ+ (d ′ Md) −1 d ′ Mu p<br />

−→ γ + ut∗.<br />

=<br />

ˆγ<br />

ˆεt∗<br />

y = Xβ 0 + ε, ˆεt∗ = d ′ My.<br />

<br />

1 − x′ ′<br />

t∗ X X<br />

n n<br />

<br />

1 − x′ ′<br />

t∗ X X<br />

n n<br />

=<br />

<br />

1 − x′ t∗<br />

n<br />

−1<br />

−1<br />

X ′ X<br />

n<br />

xt∗<br />

xt∗<br />

−1<br />

−1<br />

−1<br />

xt∗<br />

d ′ My<br />

ˆεt∗<br />

−1<br />

6.H Uma Nota sobre Intervalos de Confiança<br />

Considere-se novamente a equação (6.13). Argumentámos que a substituição de µ n+h,n por<br />

ˆµ n+h,n aumenta a variância do erro de previsão numa quantidade proporcional a 1/n. Veja-se<br />

esta questão mais em pormenor.<br />

204<br />

.


Quando µ n+h,n é desconhecido, a variável yn+h definida em<br />

P (l1 < yn+h < l2| Fn) = 0.95,<br />

deve ser centrada usando-se ˆµ n+h,n (e não µ n+h,n) Observe-se que a variável yn+h − ˆµ n+1,n<br />

continua a possuir distribuição normal de média zero. No entanto, a variância de yn+h −<br />

ˆµ n+1,n é agora,<br />

Var yn+h − ˆµ n+h,n<br />

<br />

Fn<br />

<br />

= Var yn+h − µ n+h,n + ˆµ n+h,n − µ <br />

n+h,n Fn<br />

= Var <br />

yn+h − µ <br />

n+h,n Fn + Var ˆµn+h,n − µ n+h,n<br />

= Var (e (h)) + Var <br />

ˆµ n+h,n − µ <br />

n+h,n Fn<br />

(observe-se que yn+h−µ n+h,n é independente de ˆµ n+h,n−µ n+h,n, pois yn+h−µ n+h,n envolve<br />

apenas erros aleatórios posteriores a n, enquanto ˆµ n+h,n − µ n+h,n envolve variáveis até ao<br />

período n). Como consequência, o IC a 95% construído a partir de ˆµ n+h,n é<br />

<br />

ˆµ n+h,n ± 1.96 Var (e (h)) + Var <br />

ˆµ n+h,n − µ n+h,n<br />

Pode-se provar que Var <br />

ˆµ n+h,n − µ <br />

n+h,n Fn é uma quantidade de ordem O (1/n); assim,<br />

para amostra grandes, Var <br />

ˆµ n+h,n − µ <br />

n+h,n Fn é uma quantidade “pequena” quando comparada<br />

com Var (e (h)) e pode ser negligenciada. A quantidade Var <br />

ˆµ n+h,n − µ <br />

n+h,n Fn<br />

pode ser estimada a partir de uma equação auxiliar. Para exemplificar considere-se a previsão<br />

a um passo de um AR(1). A estimativa de c da equação<br />

yt = c + φ 1 (yt−1 − yn) + ut<br />

fornece uma estimativa para µ n+1,h (i.e., fornece ˆµ n+1,n) pois ˆyn+1 = ĉ + ˆ φ 1 (yn − yn) = ĉ.<br />

Por outro lado, o erro padrão de ĉ = ˆµ n+1,n é uma estimativa para<br />

Var ˆµ n+1,n − µ n+1,n<br />

<br />

Fn<br />

205<br />

<br />

= Var ˆµn+1,n<br />

Fn<br />

Fn<br />

.<br />

.<br />

Fn


6.I U E + U V + U C = 1<br />

Veja-se em primeiro lugar que o EQM pode-se decompor em várias parcelas. Considere-se:<br />

Assim<br />

EQM = 1<br />

h<br />

= 1<br />

h<br />

= 1<br />

h<br />

h<br />

i=1<br />

h<br />

i=1<br />

h<br />

i=1<br />

(y o i − y p<br />

i )2<br />

(y o i − ¯y o + ¯y o − y p<br />

i + ¯yp − ¯y p ) 2<br />

((y o i − ¯y o ) − (y p<br />

i − ¯yp ) + (¯y o − ¯y p )) 2<br />

= 1<br />

h<br />

(y<br />

h<br />

i=1<br />

o i − ¯y o ) 2<br />

<br />

σ2 +<br />

o<br />

1<br />

h<br />

(y<br />

h<br />

i=1<br />

p<br />

i − ¯yp ) 2<br />

<br />

σ2 p<br />

+ (¯y o − ¯y p ) 2 − 2 1<br />

h<br />

(y<br />

h<br />

i=1<br />

o i − ¯y o ) (y p<br />

i − ¯yp )<br />

<br />

ρσ0σp<br />

= σ 2 o + σ 2 p + (¯y o − ¯y p ) 2 − 2ρσ0σp<br />

= (σo − σp) 2 + (¯y o − ¯y p ) 2 + 2 (1 − ρ) σ0σp<br />

EQM = (σo − σp) 2 + (¯y o − ¯y p ) 2 + 2 (1 − ρ) σ0σp<br />

e, portanto, dividindo ambos os termos pelo EQM, obtém-se<br />

1 = EQM<br />

EQM<br />

= (σo − σp) 2<br />

EQM<br />

<br />

U V<br />

+ (¯yo − ¯y p ) 2<br />

EQM<br />

<br />

U E<br />

+ 2 (1 − ρ) σ0σp<br />

206<br />

EQM<br />

<br />

U C


Capítulo 7<br />

Modelação da Média: Abordagem Não<br />

Linear<br />

7.1 Introdução<br />

(Última actualização: 04/2010)<br />

Ao longo das últimas décadas os modelos ARMA têm dominado a abordagem de séries tem-<br />

porais (os primeiros trabalhados datam de 1927 com os modelos autoregressivos estudados<br />

por Yule). Existem razões para o sucesso dos modelos ARMA Gaussianos:<br />

• simplicidade: as equações às diferenças finitas são fáceis de tratar;<br />

• o modelo ARMA Gaussiano é completamente caracterizado pela média, variância e<br />

pelas autocorrelações;<br />

• são fáceis de aplicar e implementar (a maioria dos programas de estatísticas possui um<br />

módulo para tratar os modelos ARMA);<br />

• a teoria está completamente desenvolvida: as principais questões, relacionadas com a<br />

estimação, inferência e previsão estão resolvidas;<br />

• apesar da simplicidade são relativamente flexíveis e úteis na previsão.<br />

Todavia, os modelos ARMA apresentam limitações:<br />

• não são apropriados para dados que exibam súbitas alterações em períodos irregulares;<br />

207


• não são apropriados para dados que exibam forte assimetria e achatamento;<br />

• os coeficiente de autocorrelação e autocorrelação parcial de ordem k são apenas um<br />

dos aspectos da distribuição conjunta de (yt, yt−k) . Pode suceder ρ k e φ kk serem<br />

baixos, mas existir uma forte relação não linear entre yt e yt−k. Por exemplo ρ k (y 2 ) =<br />

Corr y2 t , y2 <br />

t−k pode ser alto;<br />

• não modelam dados que exibam “soluções periódicas estáveis”. Retomaremos este<br />

tema mais à frente.<br />

Discuta-se um pouco mais em detalhe a primeira limitação mencionada. Um modelo<br />

<br />

ARMA Gaussiano estacionário possui momentos de todas as ordens, i.e., E |yt| k<br />

< ∞<br />

para qualquer k ∈ N. Este facto implica que a probabilidade de y assumir (transitoriamente)<br />

valores muito altos ou muito baixos é praticamente nula e, neste sentido, os modelos ARMA<br />

não são apropriados para dados que exibam súbitas alterações em períodos irregulares. Para<br />

esclarecer este ponto, assuma-se que E (y) = 0 e recorde-se que se y possui o momento de<br />

ordem k, então (pela desigualdade de Markov) vem, para c > 0<br />

P (|y| > c) ≤ O c −k<br />

A expressão anterior estabelece que P (|y| > c) é proporcional (ou menos do que propor-<br />

cional) a c −k . Como c −k tende para zero quando c → ∞, P (|y| > c) tende também para<br />

zero nas mesmas condições, e relativamente depressa se k é uma valor alto. Logo, a possi-<br />

bilidade de |y| assumir um valor arbitrariamente grande é praticamente nula. Se y possuir<br />

apenas o primeiro ou segundo momento, P (|y| > c) continua a tender para zero, mas a uma<br />

taxa muito mais baixa, e y pode assumir valores “moderadamente” altos. A existência de<br />

todos os momento como no caso do modelo ARMA Gaussiano, pode, em certos casos, não<br />

ser uma propriedade desejável, pois em última análise impede que o modelo capte dados que<br />

exibam súbitas alterações, excluindo portanto, os casos em que y assume transitoriamente<br />

valores muito altos ou muito baixos.<br />

Enquanto os modelos lineares são definidos apenas pela representação ARMA, o número<br />

de especificações não lineares é virtualmente infinito. Embora a literatura dos modelos não<br />

lineares esteja ainda na sua infância, existem já muitos modelos não lineares propostos na<br />

literatura. Vamos apenas focar alguns modelos não lineares mais utilizados. Mas afinal, o<br />

que é um modelo não linear?<br />

208


Uma forma simples (mas não geral) de introduzir modelos não lineares consiste em ap-<br />

resentar a não linearidade através dos momentos condicionais. Considere-se o modelo<br />

yt = µ t + ut, ut = σtεt<br />

onde εt é um ruído branco, µ t = g (yt−1, yt−2, .., yt−p; ut−1, ut−2, ...ut−q) é a média condi-<br />

cional de yt e σ 2 t = h (yt−1, yt−2, ..., yt−˜p; ut−1, ut−2, ..., ut−˜q) > 0 é a variância condicional<br />

de yt. O modelo é não linear na média se g é uma função não linear dos seus argumentos 1 .<br />

O modelo é não linear na variância se σt é não constante ao longo do tempo pois, neste caso,<br />

o processo {ut}, definido por ut = σtεt, é não linear, por ser um processo multiplicativo.<br />

Vejamos alguns exemplos. No caso<br />

yt = φyt−1 + log 1 + y 2 <br />

t−1 + ut<br />

tem-se um processo não linear na média, pois, µ t = φyt−1 + log 1 + y2 <br />

t−1 é uma função<br />

não linear de yt−1. Também<br />

yt = ξut−1ut−2 + ut<br />

é um processo não linear, pois µ t = ξut−1ut−2 é não linear nos valores passados de ut.<br />

Os modelos não lineares na variância mais conhecidos são os modelos do tipo ARCH;<br />

serão discutidos no capítulo 8.<br />

Uma classe importante de processos não lineares na média baseiam-se na ideia de regime-<br />

switching. Podem ser usados em duas circunstâncias gerais:<br />

• existem alterações bruscas e inesperadas nas trajectórias dos processos (e.g., ataques<br />

especulativos, crashes bolsistas, anúncios públicos de medidas do governo, eventos<br />

políticos e, em geral, eventos extraordinários não antecipados).<br />

• existem alterações da dinâmica do processo sem alterações bruscas nas trajectórias.<br />

Por exemplo, a taxa de juro no período 1993 a 2006 exibe dois períodos com com-<br />

portamento bem diferenciado: no primeiro, as taxas de juro e a volatilidade são rel-<br />

ativamente altas e o processo evidencia uma tendência de reversão para uma média,<br />

seguindo-se, depois de 1995, um período de baixas taxas de juro, baixa volatilidade e<br />

1 Dizemos que uma função é não linear se não for uma função linear afim, i.e., se não verificar a relação<br />

f (x1, ..., xn) = a0 + a1x1 + ... + anxn, onde ai ∈ R.<br />

209


ausência de reversão para uma média. Outro exemplo é a taxa de inflação no período<br />

1974-2006 (basta verificar os níveis de inflação e volatilidade nos anos 70/80 e nos<br />

anos 90).<br />

Para este tipo de fenómenos, os modelos com alterações (estocásticas) de regime (ou<br />

regime-switching) podem ser, no essencial, de dois tipos:<br />

• a mudança de regime é função de uma variável observável; são exemplos, modelos<br />

com variáveis impulso (dummy), os modelos limiares ou threshold AR (TAR), os mod-<br />

elos onde os coeficientes associados às componentes AR são funções não lineares dos<br />

valores passados y (STAR, smoothed transition AR), entre outros;<br />

• a mudança de regime não é observada, incluindo-se, nesta classe, os modelos onde os<br />

regimes são independentes entre si (como, por exemplo, os modelos simple switching<br />

ou de Bernoulli) e os modelos onde existe dependência entre os regimes (como por<br />

exemplo, os modelos MS, Markov-Switching).<br />

Antes de entrarmos nos processos estocásticos não lineares, faz-se, na próxima secção,<br />

uma breve incursão sobre os sistemas autónomos do tipo<br />

yt = g (yt−1)<br />

(determinísticos). O estudo da estabilidade deste tipo de sistemas é relevante para um estudo<br />

mais aprofundado dos processos estocásticos do tipo yt = g (yt−1)+ut (ou, mais geralmente,<br />

yt = g (yt−1, yt−2, ..., yt−p) + ut), pois parte da dinâmica subjacente ao processo estocástico<br />

depende da função g (ou g no caso multivariado).<br />

7.2 Estabilidade em Equações às Diferenças Finitas Deter-<br />

minísticas<br />

Nesta secção vamos analisa-se o sistema autónomo yt = g (yt−1) onde y é um vector de<br />

tipo m × 1 e g é uma função real 2 g : R m → R m . O modelo é determinístico (a condição<br />

inicial é determinística - i.e. é conhecida).<br />

2 O domínio de g poderá ser S ⊂ R m mas neste caso devemos exigir que S ⊆ g (S) (suponha-se que esta<br />

condição não se verifica - então poderia suceder que ξ ∈ S e y1 = g (ξ) /∈ S e não seria possível agora<br />

continuar com y2 = g (y1) = g (g (ξ)) pois g (ξ) /∈ S).<br />

210


7.2.1 Pontos Fixos e Estabilidade de Sistemas Lineares<br />

Definição 7.2.1 (Ponto Fixo de f) Um vector ¯y é designado por ponto fixo de g se g (t, ¯y) =<br />

¯y, para todo o t.<br />

No ponto fixo o sistema dinâmico discreto não varia (está em equilíbrio). Com efeito,<br />

se yt−1 = ¯y e ¯y é um ponto fixo, a variação da solução, ∆yt, é nula, i.e., ∆yt = yt −<br />

yt−1= g (yt−1) − yt−1= ¯y − ¯y = 0.<br />

Por exemplo, considere-se y0 = 2 e a equação às diferenças finitas (EDF) 3 yt = (1/2) yt−1+<br />

1 (note-se m = 1). Iterando a equação é fácil verificar que y1 = 2, y2 = 2, ... Logo ¯y = 2 é<br />

o ponto fixo de g (x) = (1/2) x + 1. Para calcular o ponto fixo de g basta resolver a equação<br />

(1/2) ¯y + 1 = ¯y em ordem a ¯y.<br />

Exemplo 7.2.1 Considere-se yt = 2yt−1 (1 − yt−1) . Tem-se g (x) = 2x (1 − x) . Os pontos<br />

fixos (de g) calculam-se a partir da relação g (¯y) = ¯y, i.e., 2¯y (1 − ¯y) = ¯y. Os pontos fixos<br />

são portanto ¯y = 0 e ¯y = 1/2.<br />

Exemplo 7.2.2 Considere-se o sistema não linear<br />

Tem-se, portanto<br />

⎛<br />

⎝ y1t<br />

g ⎝<br />

com domínio ⎧⎛ ⎨<br />

⎩<br />

y2t<br />

⎛⎛<br />

⎝ x1<br />

⎞<br />

⎝ x1<br />

x2<br />

⎠ =<br />

x2<br />

⎛<br />

⎞⎞<br />

⎝ y2t−1<br />

⎠⎠<br />

=<br />

y2t−1<br />

y1t−1<br />

⎛<br />

⎝ x2<br />

⎞<br />

x2<br />

x1<br />

⎠ .<br />

⎞<br />

⎠<br />

⎞<br />

⎠ ∈ R 2 ⎫<br />

⎬<br />

: x1 = 0<br />

⎭ .<br />

Determinem-se os pontos fixos de g. Para o efeito, resolve-se g (x) = x, i.e.,<br />

⎛<br />

⎝ x2<br />

x2<br />

x1<br />

⎞<br />

⎠ =<br />

⎛<br />

⎝ x1<br />

3 O ramo da matemática que estuda a dinâmica de sistemas determísticos usa, por vezes, uma linguagem um<br />

pouco diferente da que estamos habituados. Por exemplo, a equação yt = φyt−1 é designada por equação às<br />

diferenças finitas homogénas de primeira ordem linear. Mantemos a designação “equação às diferenças finitas”<br />

ou “sistema de equações às diferenças finitas” (consoante o caso) para identificar a equação yt = g (yt−1) .<br />

211<br />

x2<br />

⎞<br />

⎠ .


y t<br />

4<br />

2<br />

e<br />

d<br />

a<br />

­4 ­2 2 4<br />

­2<br />

­4<br />

c<br />

Linha 45º<br />

Figura 7-1: Gráfico Teia de Aranha do PVI yt = 0.5yt−1, y0 = 4<br />

É fácil verificar que o único ponto fixo é<br />

⎛<br />

⎝ 1<br />

1<br />

Proposição 7.2.1 Seja S um intervalo fechado e g : S → R uma função contínua. Se<br />

S ⊆ g (S) então g tem um ponto fixo em S.<br />

Dem. Nicolau (2004).<br />

⎞<br />

⎠ .<br />

Quando m = 1 e a EDF é autónoma é muito útil o gráfico teia de aranha no estudo da<br />

estabilidade. Para ilustrar a interpretação do gráfico representa-se na figura 7-1 o gráfico<br />

teia de aranha associado à equação yt = 0.5yt−1, com valor inicial y0 = 4 (ponto a). No<br />

momento 1 tem-se y1 = 0.5 × 4 = 2 (ponto b ou c). Este valor, y1 = 2, pode ser interpretado<br />

como o valor inicial com respeito a y2; assim, poderíamos colocar y1 = 2 no eixo das<br />

abcissas. Em alternativa, o valor y1 ”parte” da linha de 45 0 (ponto c) e o procedimento é<br />

repetido iterativamente. Assim, no momento 2 tem-se y2 = 0.5 × 2 = 1 (ponto e) e assim<br />

sucessivamente. O gráfico mostra que limt→∞ yt = 0.<br />

Na figura 7-2 representa-se o gráfico teia de aranha da EDF yt = y 2 t−1 (o que sucede<br />

quando o valor inicial se encontra no intervalo (1, ∞) ? E no intervalo (0, 1)? E ainda no<br />

intervalo(−1, 0)?)<br />

212<br />

b<br />

f(x)<br />

y t­1


Figura 7-2: Gráfico Teia de Aranha da Aplicação f (x) = x 2 (estão traçadas duas órbitas<br />

com valores inicias -1.1 e 0.9)<br />

Seja yt = yt (y0) a solução da EDF (ou do sistema de EDF) yt = g (t, yt−1) , dada a<br />

condição inicial y0 (para simplificar admite-se, sem perda de generalidade, que t0 = 0). A<br />

expressão yt (y0) define a solução como uma função explícita da condição inicial y0. No<br />

caso da EDF autónomas é usual considerar-se a notação yt = g t (y0) em lugar de yt = yt (y0)<br />

onde<br />

Exemplo 7.2.3 Se g (x) = 1 , então<br />

1+x<br />

g 2 <br />

1<br />

(x) = g (g (x)) = g<br />

g t (x) := g(...g(g(x))).<br />

<br />

t vezes<br />

<br />

1<br />

=<br />

1 + x 1 + 1 ,<br />

1+x<br />

g 3 <br />

1<br />

(x) = g (g (g (x))) = g g<br />

= g<br />

1 + x<br />

Dada a EDF yt = 1<br />

1+yt−1 , o valor y3 dado y0 = 1 é<br />

g 3 (1) =<br />

1<br />

1 + 1<br />

1+ 1<br />

1+1<br />

= 3<br />

5 .<br />

1<br />

1 + 1<br />

1+x<br />

<br />

=<br />

1<br />

1 + 1<br />

1+ 1<br />

.<br />

1+x<br />

Naturalmente, podemos obter este valor considerando o procedimento iterativo,<br />

y1 = 1<br />

1 + 1<br />

= 1<br />

2 , y2 = 1<br />

1 + 1<br />

2<br />

= 2<br />

3 , y3 = 1<br />

1 + 2<br />

3<br />

A expressão g t (y0) representa o valor de yt dada a condição y0.<br />

= 3<br />

5 .<br />

Definição 7.2.2 (Estabilidade - Caso g : R → R) O ponto fixo ¯y diz-se estável se para cada<br />

ε > 0 existe um δ = δ (t0, ε) tal que, para cada qualquer solução yt (y0) a desigualdade<br />

213


|y0 − ¯y| ≤ δ implica |yt (y0) − ¯y| < ε para todo o t ≥ t0. O ponto fixo ¯y diz-se assimptot-<br />

icamente estável se é estável e se existe um δ0 > 0 tal que a desigualdade |y0 − ¯y| ≤ δ0<br />

implica |yt (y0) − ¯y| → 0 quando t → ∞. O ponto fixo ¯y diz-se instável se não é estável. 4<br />

(A definição adapta-se facilmente ao caso multivariado - basta trocar |·| por · e ajustar<br />

as notações). Grosso modo, um ponto fixo ¯y é estável se yt = yt (y0) permanecer “perto” de<br />

¯y para todo o t sempre que y0 se encontrar “perto” de ¯y. O ponto fixo ¯y é assimptoticamente<br />

estável se for estável e toda a solução inicializada perto de ¯y converge para ¯y.<br />

Exemplo 7.2.4 Considere-se yt = φyt−1 +c, com c = 0. Tem-se g (x) = φx+c. Resolvendo<br />

g (¯y) = ¯y, i.e., φ¯y + c = ¯y conclui-se que o (único) ponto fixo é ¯y = c/ (1 − φ). No<br />

caso φ = 1 não existe ponto fixo (a equação x + c = x é impossível, com c = 0). A<br />

estabilidade do ponto fixo ¯y pode, no caso presente, ser discutida directamente a partir g t<br />

(na generalidade dos casos não lineares não é possível obter g t ). Tem-se, com a condição<br />

inicial y0, yt = gt (y0) = y0φ t + c 1−φt<br />

. Assim<br />

1−φ<br />

g t (y0) − ¯y = y0φ t 1 − φt c<br />

+ c −<br />

1 − φ 1 − φ<br />

<br />

g t (y0) − ¯y = |φ| t<br />

<br />

<br />

<br />

y0 − c<br />

<br />

<br />

<br />

1 − φ<br />

= φt<br />

<br />

= |φ|t |y0 − ¯y| .<br />

y0 − c<br />

<br />

1 − φ<br />

Impondo |g t (y0) − ¯y| < ε vem |φ| t |y0 − ¯y| < ε. Se |φ| < 1 então ¯y é estável. Basta<br />

considerar um δ tal que |y0 − ¯y| ≤ δ < ε. Nestas condições tem-se |g t (y0) − ¯y| < ε para<br />

todo o t > 0. Se |φ| > 1 o termo |g t (y0) − ¯y| tende para ∞ o que significa que não existe<br />

um δ > 0 nos termos da definição de ponto fixo estável; logo ¯y é instável. Analise-se a<br />

estabilidade assimptótica. Tem-se para φ = 1<br />

lim<br />

t→∞ gt <br />

(y0) = lim y0φ<br />

t→∞<br />

t + c<br />

<br />

1 − φt<br />

=<br />

1 − φ<br />

⎧<br />

⎨<br />

⎩<br />

c<br />

1−φ<br />

= ¯y se |φ| < 1<br />

±∞ se |φ| > 1<br />

Assim, se |φ| < 1 o ponto fixo ¯y é assimptoticamente estável; se |φ| > 1, ¯y é instável.<br />

Exemplo 7.2.5 Retome-se o exemplo 7.2.1 (yt = 2yt−1 (1 − yt−1)). Vimos que os pontos<br />

fixos são ¯y = 0 e ¯y = 1.<br />

Discute-se agora a estabilidade a partir do gráfico teia de aranha<br />

2<br />

- ver a figura 7-3. Estão representados três valores iniciais. É fácil concluir que qualquer<br />

ponto que se encontre numa vizinhança do ponto fixo 1/2 (por exemplo ponto A ou B) não<br />

4 Se a EDF é autónoma leia-se g t (y0) em lugar de yt (y0) .<br />

214


0.6<br />

0.4<br />

0.2<br />

C<br />

­0.5 ­0.25 0.25 0.5 0.75 1<br />

­0.2<br />

­0.4<br />

A B<br />

Figura 7-3: Gráfico Teia de Aranha da equação yt = 2yt−1 (1 − yt−1) (representados três<br />

valores iniciais).<br />

só não se afasta de 1/2 como também converge para ¯y = 1/2. Este ponto fixo é portanto<br />

assimptoticamente estável. O ponto fixo zero é instável. Basta observar o que sucede quando<br />

y é inicializado no ponto C.<br />

e seja<br />

Considere-se um sistema de m equações lineares yt = Ay t−1 com a condição inicial y0<br />

r = max {|λi| : λi é um valor próprio de A (i = 1, ..., m)} . (7.1)<br />

A estabilidade de um sistema de equações lineares é estabelecida na seguinte<br />

Proposição 7.2.2 (a) Se r < δ < 1 então existe uma constante C > 0 tal que<br />

yt ≤ Cδ t y0<br />

para t ≥ 0, para qualquer y0 ∈ R. Além disso verifica-se limt→∞ yt = 0.(b) Se r > 1<br />

então algumas soluções do sistema tendem para ∞. (c) Se r ≤ 1 e se a multiplicidade<br />

algébrica de todos os valores próprios que verificam |λ| = 1 for igual a um então existe uma<br />

constante C > 0 tal que yt ≤ C y0 para t ≥ 0.<br />

Dem. Nicolau (2004).<br />

Notar que se λ é número complexo então |λ| = |α + βi| = α 2 + β 2 .<br />

Resulta da proposição anterior que o ponto fixo ¯y = 0 é, assimptoticamente estável se<br />

r < 1, instável se r > 1, e estável se r ≤ 1 e se a multiplicidade algébrica de todos os<br />

215


12<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

­2<br />

­4<br />

0 1 2 3 4 5 6 7 8 9 10 11<br />

Figura 7-4: Trajectórias y1t e y2t<br />

valores próprios que verificam |λ| = 1 for igual a um.<br />

Exemplo 7.2.6 Estude-se a estabilidade do sistema<br />

⎛<br />

⎝ y1t<br />

y2t<br />

⎞ ⎛ ⎞ ⎛<br />

⎠ = ⎝<br />

1 −5<br />

⎠<br />

0.25 −1<br />

⎝ y1t−1<br />

y2t−1<br />

Os valores próprios são ± 1<br />

1<br />

i. Logo r = . Como r < 1 conclui-se que o ponto fixo ¯y = 0<br />

2 2<br />

é assimptoticamente estável. Nas figuras seguintes analisa-se graficamente a dinâmica do<br />

sistema admitindo y0 = (10, 1) T . Na figura 7-4 apresentam-se as trajectórias y1t e y2t. A<br />

figura 7-4 é elucidativa quanto à estabilidade do sistema. Em ambos os casos se observa<br />

y1t → 0, y2t → 0 quanto t → 0.<br />

Exemplo 7.2.7 Considere-se o sistema de EDF<br />

⎛<br />

⎞<br />

cos θ sen θ<br />

yt = ⎝<br />

− sen θ cos θ<br />

⎠ yt−1.<br />

Os valores próprios são λ = cos θ±i sin θ e |cos θ − i sin θ| = |cos θ + i sin θ| = √ cos 2 θ + sin 2 θ =<br />

1. Como a multiplicidade algébrica de todos os valores próprios que verificam |λ| = 1 é<br />

igual a um conclui-se que o ponto fixo ¯y = 0 é estável.<br />

216<br />

⎞<br />

⎠ .<br />

y1<br />

y2


7.2.2 Estabilidade de Sistemas Não Lineares<br />

Linearização<br />

A proposição seguinte fornece um método para analisar a estabilidade assimptótica no caso<br />

escalar (EDF autónomas).<br />

Proposição 7.2.3 Suponha-se que g : R→R tem derivada de primeira ordem contínua num<br />

intervalo aberto contendo o ponto fixo ¯y. Então (a) se |g ′ (¯y)| < 1, ¯y é assimptoticamente<br />

estável; (b) se |g ′ (¯y)| > 1, ¯y é instável.<br />

Dem. (a) Dado que, por definição,<br />

|g (x) − g (¯y)|<br />

lim<br />

x→¯y |x − ¯y|<br />

|g (x) − ¯y|<br />

= lim<br />

x→¯y |x − ¯y| = |g′ (¯y)|<br />

então existe uma vizinhança Vε (¯y) de raio ε > 0, tal que, para |g ′ (¯y)| < α < 1,<br />

|g (x) − ¯y| < α |x − ¯y| , x ∈ Vε (¯y) .<br />

Resulta que x ∈ Vε (¯y) ⇒ g (x) ∈ Vε (¯y) (pela desigualdade anterior, constata-se que g (x)<br />

está mais "perto"de ¯y do que x está de ¯y, por um factor de ordem α < 1). É imediato verificar<br />

que g (x) ∈ Vε (¯y) ⇒ g 2 (x) ∈ Vε (¯y) . Repetindo o argumento conclui-se g t (x) ∈ Vε (¯y) .<br />

Logo,<br />

<br />

g 2 (x) − ¯y = |g (g (x)) − ¯y| < α |g (x) − ¯y| < α 2 |x − ¯y| .<br />

Por indução, conclui-se |g t (x) − ¯y| < α t |x − ¯y|. Como α t → 0 segue-se que ¯y é assimp-<br />

toticamente estável. (b) Utilizando argumentos idênticos conclui-se que g t (x) se afasta cada<br />

vez mais de ¯y à medida que t → ∞.<br />

Exemplo 7.2.8 Retome-se os exemplos 7.2.1 e 7.2.5. Com g (x) = 2x (1 − x) tem-se g ′ (x) =<br />

2 − 4x e, portanto, pela proposição 7.2.3, o ponto fixo 0 é instável pois |g ′ (0)| = 2 > 1 e o<br />

ponto 1/2 é assimptoticamente estável pois |g ′ (1/2)| = 0 < 1.<br />

Analise-se agora a estabilidade de sistemas de EDF. Uma forma de abordar a estabilidade<br />

de sistemas de EDF consiste em linearizar g (x) em torno do ponto fixo ¯y (o caso escalar ap-<br />

resentado atrás baseia-se também no método da linearização). Suponha-se que g (x) possui<br />

derivadas de segunda ordem contínuas. Então, pela fórmula de Taylor vem<br />

217


gi (x) = gi (¯y) + ∂gi (¯y)<br />

∂xT (x − ¯y) + 1<br />

ou, mais compactamente,<br />

2 (x − ¯y)T ∂g2 i (z)<br />

(x − ¯y) , i = 1, ..., m<br />

∂x∂xT g (x) = g (¯y) + g ′ (¯y) (x − ¯y) + h (x) (7.2)<br />

Note-se que g ′ (¯y) é o Jacobiano de g no ponto ¯y (é uma matriz de constantes). Reescreva-se<br />

a equação (7.2) na forma<br />

onde<br />

A = g ′ ⎜<br />

(¯y) = ⎜<br />

⎝<br />

g (x) = Ax + h (x)<br />

⎛<br />

h (x) = g (¯y) − g ′ (¯y) ¯y + 1<br />

2<br />

(note-se que z varia com x). Tem-se agora:<br />

∂g1(¯y)<br />

∂x1<br />

.<br />

∂gm(¯y)<br />

∂x1<br />

⎛<br />

⎜<br />

⎝<br />

· · ·<br />

. ..<br />

· · ·<br />

∂g1(¯y)<br />

∂xm<br />

.<br />

∂gm(¯y)<br />

∂xm<br />

⎞<br />

(x − ¯y) T ∂g2 1 (z)<br />

∂x∂x T (x − ¯y)<br />

.<br />

(x − ¯y) T ∂g2 m(z)<br />

∂x∂x T (x − ¯y)<br />

⎟ , (7.3)<br />

⎠<br />

Proposição 7.2.4 Suponha-se que g : R m →R m tem derivadas de segunda ordem contínuas<br />

num conjunto aberto contendo o ponto fixo ¯y. Dado<br />

r = max {|λi| : λi é um valor próprio de A (i = 1, ..., m)}<br />

e A é dada pela equação (7.3) tem-se, (a) se r < 1 então ¯y é assimptoticamente estável; (b)<br />

se r > 1 então ¯y é instável.<br />

Dem. Kelley e Peterson, (1991), p. 180.<br />

Obviamente esta proposição generaliza a proposição 7.2.3.<br />

218<br />

⎞<br />

⎟<br />


Exemplo 7.2.9 Considere-se o seguinte modelo presa-predador,<br />

y1t−1y2t−1<br />

y1t = (1 + ρ) y1t−1 − 0.001<br />

1 + 0.0001y1t−1<br />

y1t−1y2t−1<br />

y2t = (1 − δ) y2t−1 + 0.00003<br />

1 + 0.0001y1t−1<br />

onde y1t e y2t representa, respectivamente, o número de presas e o número de predadores no<br />

momento t, ρ é a diferença entre a taxa de nascimento e a taxa de mortalidade das presas e<br />

δ é a taxa de mortalidade dos predadores. Suponha-se que ρ = 0.1 e δ = 0.01. Tem-se<br />

⎛<br />

g (x1, x2) := ⎝ g1<br />

⎞ ⎛<br />

(x1, x2)<br />

⎠ = ⎝<br />

g2 (x1, x2)<br />

1.1x1 − 0.001<br />

0.99x2 + 0.00003<br />

x1x2<br />

1+0.0001x1<br />

x1x2<br />

1+0.0001x1<br />

Os pontos fixos resultam da resolução do sistema g (x1, x2) = (x1, x2) . Obtém-se dois<br />

pontos fixos,<br />

⎛<br />

¯y1 = ⎝ 0<br />

⎞ ⎛<br />

⎠ ,<br />

0<br />

¯y2 = ⎝ 344.828<br />

⎞<br />

⎠ .<br />

103.448<br />

Estude-se a estabilidade do ponto fixo ¯y2, recorrendo-se à proposição 7.2.4. Para o efeito<br />

determina-se<br />

⎛<br />

A = g ′ (¯y2) = ⎝<br />

Depois de alguns cálculos obtém-se<br />

∂g1(¯y2)<br />

∂x1<br />

∂gm(¯y2)<br />

∂x1<br />

∂g1(¯y2)<br />

∂xm<br />

∂gm(¯y2)<br />

∂xm<br />

⎛<br />

⎞<br />

1.003<br />

A = ⎝<br />

−0.3333<br />

⎠ .<br />

0.0029 1<br />

Os valores próprios são λ1, λ2 = 1.00167 ± 0.0310466i. Donde<br />

|λ1| = |1.00167 + 0.0310466i| = √ 1.00167 2 + 0.0310466 2 = 1. 002,<br />

|λ1| = |1.00167 − 0.0310466i| = √ 1.00167 2 + 0.0310466 2 = 1. 002,<br />

pelo que r = 1.002 > 1 e, portanto, o ponto fixo ¯y2 é instável. A figura 7-5 ilustra o<br />

comportamento dinâmico do sistema.<br />

219<br />

⎞<br />

⎠ .<br />

⎞<br />

⎠ .


550<br />

450<br />

350<br />

250<br />

150<br />

Método Directo de Liapunov<br />

50<br />

­50 0 100 200 300 400 500 600 700<br />

Figura 7-5: Trajectórias y1t e y2t (t = 0, 1, ..., 800)<br />

Veja-se agora o chamado “Método Directo de Liapunov”. Considere-se um sistema de EDF<br />

yt = g (yt−1) com a condição inicial y0 e seja ¯y um ponto fixo de g. Considere-se uma<br />

função real V de m variáveis nas seguintes condições: V é contínua numa vizinhança Vε (¯y) ,<br />

V (x) > 0 se x = ¯y em Vε (¯y) e V (¯y) = 0. Uma função nestas condições designa-se por<br />

função Liapunov. Defina-se<br />

∆V (x) := V (g (x)) − V (x)<br />

em Vε (¯y) (não confundir a função V com a vizinhança de z de raio ε, Vε (z)).<br />

Proposição 7.2.5 (Método Directo de Liapunov) Seja ¯y um ponto fixo de g e assuma-se<br />

que g é contínua numa certa vizinhança de ¯y. Se (a) ∆V (x) ≤ 0 para todo o x ∈ Vε (¯y)<br />

então a solução ¯y é estável; se (b) ∆V (x) < 0 para todo o x ∈ Vε (¯y) e x = ¯y então a<br />

solução ¯y é assimptoticamente estável; se (c) ∆V (x) > 0 para todo o ε > 0 e x ∈ Vε (¯y) e<br />

x = ¯y então a solução ¯y é instável.<br />

Apresenta-se uma explicação heurística do resultado (no caso escalar). Imagine-se a<br />

função V (x) como uma distância entre x e ¯y com x ∈ Vε (¯y) . Considere-se 0 < δ < ε.<br />

Por hipótese y0 ∈ Vδ (¯y) e, como, V (g (y0)) ≤ V (y0) o ponto y1 = g (y0) não se afasta<br />

de ¯y (y1 não está mais distante de ¯y do que y0 está de ¯y). Logo y1 ∈ Vδ (¯y) . Seguindo o<br />

mesmo raciocínio tem-se que V (g (y1)) ≤ V (y1) implica y2 ∈ Vδ (¯y) . Iterando, conclui-<br />

se que yt ∈ Vδ (¯y) ⊂ Vε (¯y) . Logo a solução ¯y é estável. Suponha-se agora a desigual-<br />

dade estrita V (g (x)) < V (x) . Por hipótese y0 ∈ Vε (¯y) e V (g (y0)) < V (y0) implica<br />

220<br />

y1<br />

y2


|g (y0) − ¯y| < α |y0 − ¯y|, 0 < α < 1. Por seu lado, a desigualdade V (g (y1)) < V (y1) im-<br />

plica |y2 − ¯y| = |g (y1) − ¯y| < α |g (y0) − ¯y| < α 2 |y0 − ¯y| . Iterando, conclui-se |yt − ¯y| <<br />

α t |g (y0) − ¯y| → 0 quando t → ∞. <br />

Exemplo 7.2.10 Considere-se yt = yt−1 − y 3 t−1. O único ponto fixo é ¯y = 0. A proposição<br />

7.2.3 é inconclusivo, pois com g (x) = x − x 3 , tem-se |g ′ (0)| = 1. Considere-se a função<br />

V (x) = x 2 . Vem<br />

∆V (x) = x − x 3 2 − x 2 = x 6 − 2x 4 = x 4 x 2 − 2 < 0<br />

no conjunto x : |x| < √ 2 = V√ 2 (¯y) . Logo o ponto fixo ¯y = 0 é assimptoticamente<br />

estável.<br />

Exemplo 7.2.11 Retome-se o exemplo 7.2.7,<br />

com ponto fixo,<br />

Defina-se<br />

⎛<br />

⎞<br />

cos θ sen θ<br />

yt = ⎝<br />

− sen θ cos θ<br />

V<br />

⎛⎛<br />

⎝<br />

⎛<br />

¯y = ⎝ 0<br />

⎞<br />

⎠ .<br />

0<br />

⎝ x1<br />

x2<br />

⎞⎞<br />

⎠ yt−1<br />

⎠⎠<br />

= x 2 1 + x 2 2.<br />

Facilmente se verifica V (¯y) = 0 e V (x) > 0 para x = ¯y. Tem-se<br />

⎛⎛<br />

∆V (x) = V ⎝⎝<br />

x1<br />

⎞⎞<br />

⎛⎛<br />

cos θ + x2 sen θ<br />

−x1 sen θ + x2 cos θ<br />

⎠⎠<br />

− V ⎝<br />

⎝ x1<br />

x2<br />

⎞⎞<br />

⎠⎠<br />

= (x1 cos θ + x2 sen θ) 2 + (−x1 sen θ + x2 cos θ) 2 − x 2 1 − x 2 2<br />

= 0.<br />

Consequentemente o ponto fixo é estável.<br />

Bacia do Escoadouro<br />

Na literatura é usual designar-se um ponto fixo assimptoticamente estável como um escoad-<br />

ouro (sink) e um ponto fixo instável como fonte (source). A designação escoadouro sugere<br />

221


que o sistema dinâmico inicializado numa vizinhança do escoadouro converge para o escoad-<br />

ouro. Utiliza-se também a designação bacia do escoadouro (basin of the skin) para definir<br />

o conjunto de pontos W tal que se y0 ∈ W então yt = g t (y0) → ¯y (onde ¯y é um es-<br />

coadouro). Analiticamente escreve-se: W (¯y) = {y0 ∈ R m : g t (y0) → ¯y} 5 . No exemplo<br />

7.2.5, onde g (x) = 2x (1 − x) , vimos que o ponto 1/2 é um escoadouro: qualquer ponto<br />

na vizinhança de 1/2 converge para 1/2. Uma inspecção da figura 7-3 sugere que a bacia do<br />

escoadouro é o conjunto (0, 1) , i.e., W (1/2) = (0, 1) .<br />

A proposição seguinte tem aplicação no caso de EDF autónomas (não lineares).<br />

Proposição 7.2.6 Seja E = {x : |g (x) − ¯y| ≤ δ |x − ¯y| , 0 < δ < 1} . Se existe um ε1 > 0<br />

tal que Vε1 (¯y) ⊂ E então<br />

para todo o y0 ∈ Vε1 (¯y) .<br />

Dem. Nicolau (2004).<br />

yt = g t (y0) → ¯y<br />

A proposição 7.2.6 não fornece toda a bacia do escoadouro. Na figura 7-6 a função g (x) ,<br />

com ponto fixo ¯y = 1, está definida na região V para x < 1 e na região III para x > 1. Apenas<br />

os pontos x pertencentes ao intervalo (A, 1) verificam |g (x) − ¯y| < |x − ¯y| . Concretamente,<br />

E = {x : |g (x) − ¯y| < δ |x − ¯y| , 0 < δ < 1} = (A, 1) mas não existe um ε > 0 tal que<br />

Vε (¯y) = Vε (1) ⊂ E e, portanto, a proposição 7.2.6 não é aplicável. Também a proposição<br />

7.2.3 não é aplicável, pois |g ′ (1)| = 1 (admitindo que g ′ (x) existe numa vizinhança de<br />

1). Verifica-se, no entanto, por simples inspecção gráfica, que o sistema dinâmico definido<br />

por g (x) converge para ¯y = 1 se o valor inicial pertencer a (A, 1) . Além disso, qualquer<br />

ponto do intervalo (1, B) tem como aplicação um ponto de (A, 1) . Ou seja, embora não se<br />

verifique |g (x) − ¯y| < |x − ¯y| quando x ∈ (1, B) , os ponto de (1, B) movem-se para (A, 1)<br />

onde aqui se tem |g (x) − ¯y| < |x − ¯y| para x ∈ (A, 1) . Assim, a bacia do escoadouro é<br />

(A, 1) ∪ (1, B) ∪ {1} = (A, B) .<br />

A discussão precedente sugere uma forma de se determinar a bacia do escoadouro.<br />

Suponha-se que E1 é um conjunto de pontos y0 tais que g t (y0) → ¯y e y0 ∈ E1 (este<br />

conjunto pode determinar-se através da proposição 7.2.6). Num segundo passo determina-se<br />

o conjunto E2 = {x : g (x) ∈ E1} e, por recorrência, Ei+1 = {x : g (x) ∈ Ei} . Se em dado<br />

momento Ek+1 = Ek então a bacia do escoadouro é dado pela união dos conjuntos E ′ is.<br />

5 No caso não autónomo deve ler-se W (¯y) = {y0 ∈ R n : yt (y0) → ¯y} .<br />

222


2.5<br />

2<br />

1.5<br />

1<br />

0.5<br />

A B<br />

­0.5 0.5 1 1.5 2<br />

f(x)<br />

2.5<br />

­0.5<br />

V<br />

VI<br />

IV<br />

III<br />

Figura 7-6: Bacia do Escoadouro<br />

Exemplo 7.2.12 Considere-se g (x) = (3x − x 3 ) /2 (figura 7-7). Os pontos fixos são −1, 0, 1.<br />

Analise-se o ponto 1. É fácil verificar que E1 = (0, b) = 0, 1/2 −1 + √ 17 ⊂ W (1) (a<br />

proposição 7.2.6 é aplicável: numa vizinhança do ponto 1, a função g (x) encontra-se nas<br />

regiões II e V; no entanto, a proposição fornece um primeiro conjunto contido em E1). Tem-<br />

se agora<br />

E2 = {x : g (x) ∈ E1} = {x : 0 < g (x) < b} = (e, c) ∪ (b, d) ⊂ W (1)<br />

onde e = −2, 11569, c = − √ 3, d = √ 3. Este procedimento pode ser continuado com<br />

E3 = {x : g (x) ∈ E2}, E4, etc.<br />

Exemplo 7.2.13 Considere-se g (x) = tan x, −π/2 < x < π/2. O ponto fixo é ¯y = 0 (pois<br />

g (0) = 0). Na figura 7-8 verifica-se que a função g (x) não se encontra nem na região II<br />

nem na região V (neste caso concreto, qualquer que seja o valor inicial, o sistema dinâmico<br />

afasta-se cada vez mais de ¯y = 0). Assim, ¯y = 0 não é escoadouro.<br />

Exemplo 7.2.14 Considere-se g (x) = 3x (1 − x) . Verifica-se que os pontos fixo são 0 e<br />

2/3. Na figura 7-9 analisa-se o ponto fixo 2/3 (tendo-se representado para o efeito as<br />

curvas x e −x + 2¯y = −x + 4/3). A proposição 7.2.3 não esclarece a natureza do ponto<br />

fixo ¯y = 2/3 pois |g ′ (2/3)| = 1. Também a proposição 7.2.6 não é aplicável pois embora<br />

E = {x : |g (x) − 2/3| < |x − 2/3|} = (0, 2/3) não existe um ε > 0 tal que Vε (2/3) ⊂<br />

E. Também não se pode concluir imediatamente que o intervalo (0, 2/3) pertence à bacia<br />

223<br />

I<br />

II


V<br />

a e c 1 b<br />

IV<br />

VI<br />

Figura 7-7: Bacia do Escoadouro da Aplicação f (x) = (3x − x 3 ) /2<br />

V<br />

VI<br />

­1 ­0.5 0.5 1<br />

IV<br />

1.5<br />

0.5<br />

­0.5<br />

­1<br />

­1.5<br />

1<br />

I<br />

I<br />

III<br />

d<br />

III<br />

Figura 7-8: g (x) = tg x<br />

224<br />

II<br />

II


1.5<br />

0.5<br />

­0.5<br />

1<br />

V<br />

VI<br />

IV<br />

0.2 0.4 0.6 0.8 1<br />

I<br />

III<br />

Figura 7-9: g (x) = 3x (1 − x)<br />

Figura 7-10: Trajectória de yt = 3yt−1 (1 − yt−1), y0 = 0.5 (t = 1, ..., 50)<br />

do escoadouro (verifique-se isso através de inspecção gráfica). Este exemplo mostra as<br />

limitações das proposições 7.2.3 e 7.2.6. Pode-se provar que o ponto 2/3 não é de facto<br />

um escoadouro 6 (i.e. um ponto fixo assimptoticamente estável) pelo que não há lugar à<br />

determinação da bacia do escoadouro. Na figura representa-se a trajectória yt com t =<br />

1, ..., 50.<br />

Um resultado que ultrapassa, em certas circunstâncias, as limitações apontadas às proposições<br />

7.2.3 e 7.2.6 e, além disso, é directamente aplicável a sistemas de equações às diferenças<br />

consiste no seguinte.<br />

6 Prova-se que não existe um ε > 0 tal que f (2/3 − ε) − 2/3 > 2/3 − f 2 (2/3 − ε) .<br />

225<br />

II


Proposição 7.2.7 Admitam-se as condições da proposição 7.2.5 e suponha-se ∆V (x) < 0<br />

para todo o x ∈ Vε (¯y) e x = ¯y. Se y0 ∈ Vε (¯y) então g t (y0) → ¯y quando t → ∞.<br />

Logo Vε (¯y) ⊆ W (¯y) .<br />

Exemplo 7.2.15 Considere-se<br />

y1t =<br />

2<br />

y2t−1 − y2t−1 y1t−1 + y 2 <br />

2t−1<br />

y2t =<br />

2<br />

y1t−1 − y1t−1 y1t−1 + y 2 <br />

2t−1 .<br />

Estude-se a estabilidade do ponto fixo ¯y = (0, 0) T e determine-se a respectiva bacia do<br />

escoadouro. Para o efeito tome-se a função V (x1, x2) = x 2 1 + x 2 2. Vem<br />

no conjunto<br />

∆V (x) = 2<br />

x2 − x2 x1 + x 22 2<br />

2 + x1 − x1 x1 + x 22 2<br />

2 − x1 + x 2 2<br />

= ...<br />

= x 2 1 + x 2 2<br />

< 0<br />

2 2<br />

−2 + x1 + x 2 2<br />

<br />

(x1, x2) : x2 1 + x2 2 < √ <br />

2 = V√ 2 (¯y) ⊆ W (¯y) .<br />

Exemplo 7.2.16 Retome-se o exemplo 7.2.10, yt = yt−1−y 3 t−1. Resulta óbvio que V√ 2 (¯y) ⊆<br />

W (¯y) .<br />

Exemplo 7.2.17 Retome-se o exemplo 7.2.12, yt = 3yt−1 − y2 <br />

t−1 /2. Analise-se a bacia<br />

do escoadouro do ponto ¯y = 1 e, para o efeito, considere-se V (x) = (x − 1) 2 . Tem-se<br />

∆V (x) = 3x − x 2 /2 − 1 2 − (x − 1) 2<br />

= 9<br />

4 x2 − x − 3<br />

2 x3 + 1<br />

4 x4<br />

= 1<br />

4 (x − 4) (x − 1)2 x.<br />

A função ∆V (x) está representada na figura 7-11, a qual permite concluir que V1 (1) =<br />

{x : |x − 1| < 1} ⊆ W (1) . No exemplo 7.2.12 foi-se um pouco mais longe. De facto,<br />

observou-se que V1 (1) ⊂ W (1).<br />

A terminar esta secção mostra-se que se um ponto pertence a uma certa bacia de escoad-<br />

ouro então esse ponto não pode pertencer a outra bacia de escoadouro. Assim,<br />

226


2<br />

1<br />

0<br />

­0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0<br />

­1<br />

­2<br />

­3<br />

­4<br />

Figura 7-11: Gráfico da função ∆V (x) = 1<br />

4 (x − 4) (x − 1)2 x<br />

Proposição 7.2.8 Se ¯y1 e ¯y2 são escoadouros e ¯y1 = ¯y2 então W (¯y1) ∩ W (¯y2) = ∅.<br />

Dem. Mostra-se que W (¯y1) ∩ W (¯y2) = ∅ ⇒ ¯y1 = ¯y2. Seja y0 ∈ W (¯y1) ∩ W (¯y2) .<br />

Então para cada ε > 0 existe um n1 ∈ N tal que t ≥ n1 implica g t (y0) − ¯y1 < ε/2 e<br />

existe um n2 ∈ N tal que t ≥ n2 implica g t (y0) − ¯y2 < ε/2. Logo as duas desigual-<br />

dades verificam-se simultaneamente para o maior dos n ′ s, i.e. definindo n3 = max {n1, n2}<br />

tem-se que t ≥ n3 implica g t (y0) − ¯y1 < ε/2 e g t (y0) − ¯y2 < ε/2. Utilizando a<br />

desigualdade triangular para t ≥ n3 vem<br />

¯y1 − ¯y2 = ¯y1 − g t (y0) − ¯y2 − g t (y0) <br />

≤ ¯y1 − g t (y0) + ¯y2 − g t (y0) <br />

< ε ε<br />

+<br />

2 2<br />

= ε.<br />

Como a distância entre ¯y1 e ¯y2 é menor do que ε para cada ε > 0, deverá ter-se ¯y1 = ¯y2.<br />

7.2.3 Pontos Periódicos<br />

Definições<br />

Definição 7.2.3 Um vector p ∈ R m é um ponto periódico de período k se<br />

g k (p) = p (7.4)<br />

e k é o menor inteiro positivo tal que (7.4) se verifica (i.e., g s (p) = p para s = 1, 2, ..., k −<br />

1). A órbita de valor inicial p diz-se uma órbita periódica de período k.<br />

227


Note-se que se p é um ponto periódico de período 2 então p é um ponto fixo de g 2 . O<br />

recíproco não é verdade. Por exemplo, um ponto fixo de g 2 pode ser também um ponto fixo<br />

de g e, neste caso, de acordo com a definição, este ponto tem período 1.<br />

Considere-se uma órbita de valor inicial p, i.e., {p, g (p) , g 2 (p) , ...} . Se p é um ponto<br />

periódico de período 3, p deve repetir-se de três em três iterações. Por exemplo, {p, g (p) , g 2 (p) , p, ...} .<br />

Mas g (p) e g 2 (p) também se repetem de três em três iterações, {.., p, g (p) , g 2 (p) , p, g (p) , g 2 (p) , p...} .<br />

Neste exemplo, é suficiente identificar a órbita de período 3 através dos três elementos<br />

{p, g (p) , g 2 (p)} (se p é ponto fixo de g e, portanto, ponto periódico de período 1, en-<br />

tão a órbita periódica de período 1 é constituída apenas pelo elemento {p}). Naturalmente,<br />

b = g (p) e c = g 2 (p) são também pontos periódicos de período 3. A proposição seguinte<br />

estabelece este resultado.<br />

Proposição 7.2.9 Seja p um ponto periódico de g de período k. Então<br />

são também pontos periódicos de período k.<br />

g (p) , g 2 (p) , ..., g k−1 (p)<br />

Dem. Considere-se um ponto genérico do conjunto g (p) , g 2 (p) , ..., g k−1 (p) , pi =<br />

g i (p) , com i = 1, 2, ..., k − 1. Mostra-se em primeiro lugar que pi não é um ponto fixo de<br />

g s com s < k, caso contrário pi não poderia ser candidato a ponto periódico de período k<br />

(definição 7.2.3). Suponha-se no entanto que pi é ponto fixo de g s . Viria<br />

g s (pi) = pi ⇔ g s g i (p) = g i (p) ⇔ g s+i (p) = g i (p)<br />

o que significa que p repete de s em s iterações, ou seja que p é ponto fixo de g s . Esta<br />

conclusão contradiz a hipótese de p ser ponto periódico de período k > s (i.e., a primeira<br />

vez que p se repete é após k iterações). Basta agora ver que pi = g i (p) é ponto fixo de g k .<br />

Vem<br />

g k (pi) = g k g i (p) = g i g k (p) = g i (p) = pi.<br />

Exemplo 7.2.18 Considere-se a equação yt = ayt−1 (1 − yt−1) . Tem-se portanto g (x) =<br />

ax (1 − x) . Investigue-se se existem pontos periódicos de período 2. Determine-se g 2 (x)<br />

g 2 (x) = g (g (x)) = a (g (x)) (1 − g (x)) = a (ax (1 − x)) (1 − ax (1 − x)) .<br />

228


Poderíamos também obter g 2 (x) considerando<br />

yt = ayt−1 (1 − yt−1)<br />

= a (ayt−2 (1 − yt−2)) (1 − (ayt−2 (1 − yt−2)))<br />

o que permitiria deduzir g 2 (x) = a (ax (1 − x)) (1 − ax (1 − x)) . Para determinar eventu-<br />

ais pontos periódicos resolve-se a equação g 2 (x) = x em ordem a x. Factorizando g 2 (x)−x<br />

obtém-se<br />

−x (1 − a + a x) 1 + a − a x − a 2 x + a 2 x 2 = 0<br />

pelo que se conclui que os pontos fixos de g 2 são<br />

x1 = 0, x2 =<br />

x4 =<br />

1<br />

2<br />

+ 1<br />

2<br />

<br />

1 1 1<br />

−1 + a + a + (−3 − 2a + a2 )<br />

2 2 2<br />

, x3 =<br />

, (7.5)<br />

<br />

a<br />

a<br />

1 a − (−3 − 2a + a2 )<br />

2<br />

. (7.6)<br />

a<br />

Estes valores serão pontos periódicos de período 2 se não forem pontos fixos de g. Ora<br />

resolvendo<br />

g (x) = x<br />

sai ¯y = 0 e ¯y = −1+a<br />

a . Retome-se os pontos fixos apresentados em (7.5) e (7.6). Conclui-se<br />

que os pontos 0 e (−1 + a) /a não são pontos periódicos de período 2 pois eles são pontos<br />

fixos de g (e, portanto são pontos periódicos de período 1). Relativamente a x3 conclui-se<br />

que<br />

se a = 1, e<br />

1<br />

2<br />

+ 1<br />

2<br />

1<br />

2<br />

<br />

1 a + (−3 − 2a + a2 )<br />

2<br />

a<br />

+ 1<br />

2<br />

= −1 + a<br />

<br />

1 a + (−3 − 2a + a2 )<br />

2<br />

a<br />

a<br />

se a = −1. Logo x3 é ponto periódico de período 2 se a = 1 e a = −1. Seguindo o<br />

mesmo raciocínio conclui-se que x4 é ponto periódico de período 2 se a = 3 e a = −1.<br />

= 0<br />

Para concretizar suponha-se que a = 3.3. Tem-se ¯y = 0, ¯y = −1+a<br />

a<br />

= . 696 97, x3 = .<br />

823 6 e x4 = . 479 43. Na figura 7-12 é evidente que {0. 823 6, 0.47943} forma uma órbita<br />

de período 2.<br />

Outra forma (embora pouco eficiente) de confirmarmos as conclusões emergentes da<br />

figura 7-12 consiste em se calcular iterativamente a trajectória y. A tabela seguinte fornece<br />

229


0.9<br />

0.8<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

y<br />

1 8 15 22 29 36 43<br />

Figura 7-12: Trajectória de yt = 3.3yt−1 (1 − yt−1) , y0 = 0.1<br />

t: 0 1 2 3 4 5 6 7 8 9 10 11 12 13<br />

yt: 0.1000 0.2970 0.6890 0.7071 0.6835 0.7139 0.6740 0.7251 0.6577 0.7429 0.6303 0.7690 0.5863 0.8004<br />

t: 14 15 16 17 18 19 20 21 22 23 24 25 26 27<br />

yt: 0.5271 0.8226 0.4816 0.8239 0.4788 0.8235 0.4796 0.8236 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236<br />

t: 28 29 30 31 32 33 34 35 36 37 38 39 40 41<br />

yt: 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236<br />

Figura 7-13: Sucessão yt = 3.3yt−1 (1 − yt−1) , y0 = 0.1, t = 1, ..., 41<br />

os valores de yt ao longo do tempo, com y0 = 0.1. É óbvio, a partir de certo valor de t<br />

(digamos, a partir de t = 20) yt repete os valores .8236 e .4794 de duas em duas iterações.<br />

É também interessante confirmarmos que .823 6 e .47943 são pontos periódico de período<br />

2 a partir do gráfico teia de aranha, figura 7-14.<br />

Exemplo 7.2.19 Retome-se o exemplo 7.2.2. Tem-se<br />

e<br />

⎛<br />

⎛⎛<br />

g 2 (x) = g ⎝g ⎝<br />

⎛<br />

⎛<br />

g 3 (x) = g ⎝g ⎝g ⎝<br />

⎝ x1<br />

⎛⎛<br />

x2<br />

⎝ x1<br />

x2<br />

⎞⎞⎞<br />

⎛⎛<br />

⎠⎠⎠<br />

= g ⎝<br />

⎞⎞⎞⎞<br />

⎝ x2<br />

⎠⎠⎠⎠<br />

= g ⎝<br />

x2<br />

x1<br />

⎛⎛<br />

⎝ x2<br />

x1<br />

1<br />

x1<br />

⎞⎞<br />

⎛<br />

⎠⎠<br />

= ⎝<br />

⎞⎞<br />

x2<br />

x1<br />

x2<br />

x 1<br />

x2<br />

⎛<br />

⎠⎠<br />

= ⎝<br />

⎞<br />

⎠ =<br />

1<br />

x1<br />

1<br />

x 1<br />

x 2<br />

x 1<br />

⎞<br />

t<br />

⎛<br />

⎠ =<br />

⎝ x2<br />

x1<br />

1<br />

x1<br />

⎛<br />

⎞<br />

⎠<br />

⎝ 1<br />

x1<br />

1<br />

x2<br />

Deixa-se como exército verificar que não existem ponto periódicos de período 2 e existem<br />

três pontos periódicos de período 3.<br />

Um modelo que pode gerar pontos periódico é o modelo linear por troços (ou, simples-<br />

mente, modelo limiar). Assume-se um comportamento diferenciado do sistema dinâmico<br />

consoante o estado do sistema no momento t − 1, concretamente, consoante yt−1 se encontre<br />

230<br />

⎞<br />

⎠ .


0.8<br />

0.6<br />

0.4<br />

0.2<br />

­0.5 ­0.25 0.25 0.5 0.75 1<br />

­0.2<br />

­0.4<br />

Figura 7-14: Gráfico Teia de Aranha da equação yt = 3.3yt−1 (1 − yt−1)<br />

abaixo ou acima de certo limiar γ. No caso mais simples o modelo corresponde a<br />

yt =<br />

⎧<br />

⎨<br />

⎩<br />

c1 + φ 1yt−1, yt−1 < γ<br />

c2 + φ 2yt−1, yt−1 ≥ γ.<br />

A função g (x) pode não ser contínua (no limiar γ), como o exemplo precedente mostra.<br />

O modelo seguinte, com c1 = γ (φ 2 − φ 1) + c2, define uma função contínua no ponto γ.<br />

yt =<br />

A função g (x) é portanto<br />

⎧<br />

⎨<br />

⎩<br />

γ (φ 2 − φ 1) + c2 + φ 1yt−1, yt−1 < γ<br />

c2 + φ 2yt−1, yt−1 ≥ γ.<br />

⎧<br />

⎨ γ (φ2 − φ1) + c2 + φ1x, x < γ<br />

g (x) =<br />

⎩ c2 + φ2x, x ≥ γ.<br />

Logo g (γ) = c2 + φ 2γ e limx↑γ g (x) = γ (φ 2 − φ 1) + c2 + φ 1γ = c2 + γφ 2. Podemos ainda<br />

exigir a existência de um ponto fixo no ponto γ fazendo<br />

γ (φ 2 − φ 1) + c2 + φ 1x = x, Solução: x = −γφ 2 + γφ 1 − c2<br />

φ 1 − 1<br />

c2 + φ 2x = x, Solução: x = − c2<br />

φ 2 − 1<br />

231


e, agora resolvendo, −γφ 2 +γφ 1 −c2<br />

φ 1 −1<br />

ou<br />

Veja-se que<br />

e<br />

= − c2<br />

φ 2 −1 , sai c2 = γ (1 − φ 2) . Assim, tem-se<br />

⎧<br />

⎨ γ (φ2 − φ1) + γ (1 − φ2) + φ1x, x < γ<br />

g (x) =<br />

⎩ γ (1 − φ2) + φ2x, x ≥ γ.<br />

Estabilidade dos Pontos Periódicos<br />

⎧<br />

⎨ γ (1 − φ1) + φ1x, x < γ<br />

g (x) =<br />

⎩ γ (1 − φ2) + φ2x, x ≥ γ.<br />

g (γ) = γ (1 − φ 2) + φ 2γ = γ<br />

lim g (x) = γ (1 − φ1) + φ1γ = γ.<br />

x↑γ<br />

Tal como no caso dos pontos fixos de g, pontos periódicos podem ser estáveis ou instáveis.<br />

Intuitivamente, um ponto periódico de período k é estável se qualquer trajectória iniciada<br />

numa vizinhança desse ponto não se afasta desse ponto de k em k iterações, para todo o t (da<br />

mesma forma se interpreta ponto periódico assimptoticamente estável e instável). O facto<br />

essencial é que um ponto periódico de g de período k é um ponto fixo de g k . Desta forma,<br />

a definição de estabilidade para pontos periódicos pode basear-se na definição 7.2.2, sendo<br />

que agora deverá ler-se g k em lugar de g (g t deverá ler-se g kt ). Em geral são aplicáveis as<br />

proposições precedentes, desde que se procedam às necessárias adaptações. Por exemplo, a<br />

proposição 7.2.3 estabelece que ¯y é assimptoticamente estável se |g ′ (¯y)| < 1 e instável no<br />

caso contrário. Se as condições da proposição 7.2.3 se aplicarem, e fazendo h (x) = g k (x) ,<br />

podemos estabelecer que o ponto periódico p de período k é assimptoticamente estável se<br />

|h ′ (p)| < 1 e instável no caso contrário.<br />

Vimos na proposição 7.2.9 que, se p é ponto periódico de período k então a aplicação<br />

g admite adicionalmente k − 1 pontos periódicos. Se p exibe uma certa característica qual-<br />

itativa que conclusões podemos tirar para os demais pontos periódicos? A proposição e a<br />

demonstração seguintes mostra que todos os pontos periódicos partilham das mesmas pro-<br />

priedades qualitativas. Desta forma pode-se falar de órbitas periódicas estáveis e instáveis<br />

(em alternativa a pontos periódicos estáveis e instáveis).<br />

232


Proposição 7.2.10 Seja g uma aplicação de classe C 1 em R e seja {p1, p2, ..., pk} uma órbita<br />

periódica de período k. Então {p1, ..., pk} é assimptoticamente estável (escoadouro) se<br />

e instável (fonte) se<br />

Dem. Nicolau (2004).<br />

|g ′ (pk) ...g ′ (p1)| < 1<br />

|g ′ (pk) ...g ′ (p1)| > 1.<br />

Pode-se provar que se pi é um ponto periódico assimptoticamente estável (instável) da<br />

órbita {p1, ...pk} então pj é também um ponto periódico assimptoticamente estável (instável).<br />

Exemplo 7.2.20 Considere-se a EDF yt = 3.5x (1 − x) . Utilizando-se um programa de<br />

Matemática obtiveram-se os seguintes resultados:<br />

forma<br />

k Pontos Fixos de g k (os pontos periódicos estão em negrito)<br />

1 {0, 0.714286}<br />

2 {0, 0.714286, 0.428571, 0.857143}<br />

3 {0, 0.714286}<br />

4 {0, 0.714286, 0.428571, 0.857143, 0.38282, 0.500884, 0.826941, 0.874997}<br />

Analisa-se agora a estabilidade dos pontos periódicos na tabela seguinte.<br />

k Análise da Estabilidade dos Pontos Periódicos (proposição 7.2.10)<br />

1 |g ′ (0)| = 3.5, |g ′ (0, 0.714286)| = 1.5<br />

<br />

2<br />

′ ′ ′<br />

g (0.428571) g (0.857143) = 1.25<br />

3 −<br />

4 |g ′ (0.38282) g ′ (0.500884) g ′ (0.826941) g ′ (0.874997)| = 0.03<br />

Os resultados apresentados na tabela anterior podem também ser obtidos da seguinte<br />

<br />

<br />

g 2 (0.428571) ′ <br />

<br />

= g 2 (0.857143) ′ <br />

= 1.25<br />

<br />

<br />

g 4 (0.38282) ′ <br />

<br />

= g 4 (0.500884) ′ <br />

<br />

= g 4 (0.826941) ′ <br />

<br />

= g 4 (0.874997) ′ <br />

= 0.03.<br />

233


1<br />

f<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0.2 0.4 0.6 0.8 1 x<br />

Figura 7-15: Gráfico Teia de Aranha da equação yt = 3.5yt−1 (1 − yt−1)<br />

Naturalmente esta segunda alternativa é bastante mais trabalhosa. Conclui-se que todos os<br />

pontos periódicos de período k = 4 são assimptoticamente estáveis; todos os outros pontos<br />

em análise são instáveis. O gráfico 7-15 permite identificar um comportamento periódico<br />

de período k = 4.<br />

Tem interesse ainda observar o gráfico teia de aranha do modelo g 4 (x) - ver figura 7-16.<br />

Observe-se (talvez com alguma dificuldade) que a função g 4 corta o eixo de 45 o oito vezes<br />

(considerando também o ponto zero). Este facto corrobora a primeira tabela deste exemplo<br />

(última linha).<br />

7.3 Modelo Limiar Autoregressivo (Threshold AR - TAR)<br />

7.3.1 Introdução<br />

Como argumentámos na introdução deste capítulo, uma classe importante de processos não<br />

lineares na média baseia-se na ideia de regime-switching. Nesta secção apresentam-se vários<br />

modelos onde a mudança de regime depende de uma variável observável. Provavelmente o<br />

modelo mais conhecido desta família (onde os regimes dependem de variáveis observáveis)<br />

é o modelo Threshold AR ou TAR. Para exemplificar, considere-se um modelo TAR com<br />

234


dois regimes<br />

y<br />

1.0<br />

0.9<br />

0.8<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0.0<br />

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0<br />

Figura 7-16: Gráfico Teia de Aranha do Modelo g 4 (x)<br />

yt =<br />

⎧<br />

⎨<br />

⎩<br />

φ 10 + φ 11yt−1 + ut qt−d < γ<br />

φ 20 + φ 21yt−1 + ut qt−d > γ<br />

x<br />

(7.7)<br />

onde γ é o valor do limiar (threshold values), qt−d é a variável limiar e d > 0 é um inteiro.<br />

No caso especial em que qt−d = yt−d o modelo (7.7) designa-se por Self-Exciting TAR ou<br />

SETAR (é o próprio processo y que determina a mudança de regime).<br />

A ideia principal do modelo pode ser exposta da seguinte forma. Se certo fenómeno y<br />

é não linear na média, então é incorrecto assumir que y se comporta linearmente em todo o<br />

seu domínio. A solução que está implícita no modelo TAR consiste em assumir linearizações<br />

diferenciadas, consoante o valor de y. Em lugar de se ter uma aproximação linear global, têm-<br />

se várias linearizações em sub-intervalos do espaço de estados 7 . Por exemplo, no modelo<br />

(7.7), com qt−d = yt−1, pode admitir-se que a representação linear φ 10 + φ 11yt−1 + ut é uma<br />

boa aproximação para o comportamento de yt quando yt−1 < γ. Todavia, quando yt−1 sai do<br />

intervalo (−∞, γ) , yt passa a ser melhor caracterizado pelo segundo ramo da especificação<br />

(7.7).<br />

7A este respeito a fórmula de Taylor é instrutiva. Suponha-se que f : R → R possui derivada contínua<br />

de primeira ordem. Pela fórmula de Taylor tem-se f (x) = f (a) + f ′ <br />

(a) (x − a) + O |x − a| 2<br />

. Esta<br />

fórmula diz-nos que f (x) pode ser arbitrariamente bem aproximada através da expressão linear (em x) f (a) +<br />

f ′ (a) (x − a). Note-se que a, f (a) e f ′ (a) são constantes e o erro envolvido na aproximação é de ordem<br />

|x − a| 2 . Se procuramos aproximarf (x) quando x se afasta de a a aproximação piora significativamente,<br />

tendo em conta o erro envolvido O |x − a| 2<br />

. Assim, podemos usar a fórmula de Taylor na forma linear,<br />

repetidamente, para vários valores de a, e assim obter boas aproximações de f em todo o seu domínio. É este<br />

o princípio que está subjacente ao modelo TAR.<br />

235


Outra interpretação do TAR é sugerida pela seguinte representação equivalente de (7.7):<br />

yt = <br />

φ10I{qt−d≤γ} + φ11I{qt−d≤γ}yt−1 + =<br />

<br />

φ20I{qt−d>γ} + φ21I{qt−d>γ}yt−1 + ut.<br />

<br />

φ10I{qt−d≤γ} + φ20I{qt−d>γ} +<br />

<br />

φ0 (yt−1)<br />

<br />

φ11I{qt−d≤γ} + φ21I{qt−d>γ} <br />

φ1 (yt−1)<br />

= φ 0 (qt−d) + φ 1 (qt−d) yt−1 + ut.<br />

yt−1 + ut<br />

Observa-se, assim, que o modelo TAR pode ser interpretado como um processo AR de coe-<br />

ficientes aleatórios com dependência em qt−d.<br />

7.3.2 Soluções Periódicas<br />

Considere-se o processo linear, yt = c + φyt−1 + ut, |φ| < 1. Recorde-se que o esqueleto<br />

da equação estocástica é a correspondente equação determinística com ut ≡ 0, i.e., ˜yt =<br />

c + φ˜yt−1. De acordo com a definição 7.2.1, o ponto fixo da equação yt = g (yt−1) é o valor<br />

¯y tal que g (¯y) = ¯y. No caso linear, g (x) = c + φx, a solução de g (¯y) = ¯y é ¯y = c/ (1 − φ) .<br />

Recorda-se que se ˜yt for inicializado no ponto fixo, ˜yt permanece no valor do ponto fixo<br />

para todo o t . Com efeito, se yt−1 = ¯y e ¯y é um ponto fixo, a variação da solução, ∆yt, é<br />

nula, i.e., ∆yt = yt − yt−1 = g (yt−1) − yt−1 = ¯y − ¯y = 0. Se a solução não é inicializada<br />

numa vizinhança do ponto fixo, mas |φ| < 1, então ˜yt tenderá para ¯y, quando t → ∞.<br />

Quando a equação é linear (de primeira ordem) existe apenas o ponto fixo ¯y = c/ (1 − φ),<br />

que poderá ser ou não assimptoticamente estável (dependendo do valor de φ). Uma das<br />

características dos processos não lineares é o de admitirem esqueletos com vários pontos<br />

fixos e com periodicidade superior a um. Esta possibilidade permite modelar dados que<br />

exibam “soluções periódicas estáveis”.<br />

Para concretizar considere-se o exemplo:<br />

O esqueleto da equação é<br />

yt =<br />

⎧<br />

⎨<br />

⎩<br />

1 + 0.5yt−1 + ut<br />

yt−1 < 0<br />

−1 − 0.5yt−1 + ut yt−1 ≥ 0.<br />

⎧<br />

⎨ 1 + 0.5˜yt−1, yt−1 < 0<br />

˜yt =<br />

⎩ −1 − 0.5˜yt−1, yt−1 ≥ 0<br />

236<br />

(7.8)<br />

(7.9)


yt<br />

= 1+ 0.<br />

5yt<br />

−<br />

4<br />

2<br />

­4 ­2 2 4<br />

1<br />

­2<br />

­4<br />

yt<br />

= −1−<br />

0.<br />

5yt<br />

−<br />

Figura 7-17: Gráfico Teia de Aranha do modelo (7.9). Os valores 0.4 e -1.2 são pontos<br />

periódicos de período 2<br />

6<br />

5<br />

4<br />

3<br />

2<br />

1<br />

0<br />

­1<br />

­2<br />

­3<br />

­4<br />

y<br />

1 6 11 16 21 26 31<br />

e a função g (x) representa-se na forma<br />

Figura 7-18: Trajectória de (7.10) com y0 = 5<br />

⎧<br />

⎨ 1 + 0.5x x < 0<br />

g (x) =<br />

⎩ −1 − 0.5x x ≥ 0.<br />

1<br />

t<br />

(7.10)<br />

As figuras 7-17 e 7-18 mostram que os valores 0.4 e -1.2 são pontos periódicos 8 de período<br />

2. Estes pontos são assimptoticamente estáveis. Qualquer que seja o valor de inicialização,<br />

a solução ˜yt é atraída para a órbita {0.4, −1.2} .<br />

Não faz sentido falar-se em soluções periódicas do modelo estocástico definido em (7.8).<br />

8 É possível obter estes pontos resolvendo g (g (x)) = x em ordem a x.<br />

237


Figura 7-19: Gráfico dos pares (yt−1, yt) após se ter gerado uma trajectória do processo 7.8<br />

(traçam-se também as rectas 1 + .5x e −1 − 0.5x)<br />

A componente estocástica impede, de facto, que yt possa oscilar entre os pontos 0.4 e -1.2.<br />

Todavia, o comportamento periódico subjacente ao esqueleto está parcialmente presente no<br />

modelo estocástico, tal como mostra a figura 7-19, onde se apresenta o gráfico scatter (i.e. o<br />

gráfico dos pares (yt−1, yt)) depois de se ter simulado uma trajectória.<br />

Como o processo é EE (veja-se o exemplo 4.5.9), pode também indagar-se que tipo<br />

de distribuição estacionária define o processo. A expressão analítica desta distribuição é<br />

desconhecida, mas pode estimar-se de várias formas. Provavelmente o procedimento mais<br />

simples consiste em gerar uma trajectória suficientemente longa e, depois de se desprezarem<br />

os primeiros valores 9 (digamos os primeiros 10), estima-se a função de densidade marginal<br />

f (x) através do estimador<br />

ˆf (x) = 1<br />

nSh<br />

nS<br />

<br />

x − yi<br />

K<br />

h<br />

i=1<br />

(7.11)<br />

onde h é a bandwidth, nS é o número de observações simuladas usadas na estimação e K<br />

é, por exemplo, o Kernel (ou núcleo) Gaussiano (para uma discussão alargada do estimador<br />

ˆf ver o ponto 10.2). Sob certas condições sabe-se que ˆ f (x)<br />

p<br />

−→ f (x) onde f não é mais<br />

do que a densidade estacionária. Naturalmente, é necessário considerar vários valores de<br />

9 A justificação: o valor incial y0, a partir da qual é gerada a trajectória, não é obtido em condições esta-<br />

cionárias porque estas são desconhecidas.<br />

238


Figura 7-20: Densidade Estacionária de 7.8 estimada a partir de 50000 observações simuladas.<br />

x na expressão (7.11) para se ter uma ideia do comportamento de f no espaço de estados<br />

da variável. Como ns está sob nosso controle, a função f pode ser estimada de forma ar-<br />

bitrariamente precisa. Na figura 7-20 apresenta-se a densidade estacionária estimada ˆ f (x) .<br />

A existência de duas modas acaba por não surpreender tendo em conta a estrutura do es-<br />

queleto (recorde-se a existência de dois pontos periódicos). Já a assimetria da distribuição<br />

não é clara (pelo menos à primeira vista). A probabilidade de y se encontrar abaixo de zero<br />

é cerca de 0.562 ( I{yt≤0}/n) e E (y) = −0.333. O gráfico teia de aranha talvez possa<br />

explicar estes valores. Observe-se que na estrutura determinística, um valor negativo inferior<br />

a −2 é seguido por outro valor negativo, enquanto um valor positivo passa imediatamente<br />

a negativo. Este facto explica por que razão a probabilidade de y se encontrar abaixo de<br />

zero é superior a 0.5 e, de certa forma, também explica a existência de uma média marginal<br />

negativa.<br />

239


7.3.3 Estacionaridade<br />

A estacionaridade estrita pode ser analisada no contexto das proposições apresentadas no<br />

ponto 4.5. Por exemplo, no modelo mais geral<br />

yt =<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

se a condição max1≤i≤k<br />

φ 10 + φ 11yt−1 + ... + φ 1pyt−p + ut yt−d < γ 1<br />

... ...<br />

φ k0 + φ k1yt−1 + ... + φ kpyt−p + ut yt−d > γ k<br />

<br />

p <br />

j=1<br />

φji<br />

<br />

< 1 se verificar, então o processo é EE, atendendo<br />

à proposição 4.5.4. Esta condição é apenas suficiente, mas não necessária. Como tal,<br />

pode ser demasiado exigente. Para certos modelos particulares são conhecidas as condições<br />

necessárias e suficientes. É o caso do modelo<br />

yt =<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

c1 + φ 1yt−1 + ut<br />

yt−d < γ 1<br />

c2 + φ 2yt−1 + ut γ 1 ≤ yt−d ≤ γ 2<br />

c3 + φ 3yt−1 + ut<br />

yt−d > γ 2<br />

(7.12)<br />

Proposição 7.3.1 O processo {yt} definido pelo sistema (7.12) é EE sse qualquer uma das<br />

seguintes condições se verificar:<br />

(i) φ 1 < 1, φ 3 < 1, φ 1φ 3 < 1;<br />

(ii) φ 1 = 1, φ 3 < 1, c1 > 0;<br />

(iii) φ 1 < 1, φ 3 = 1, c3 < 0;<br />

(iv) φ 1 = 1, φ 3 = 1, c3 < 0 < c1;<br />

(v) φ 1φ 3 = 1, φ 1 < 1, c1 + φ 3c1 > 0;<br />

O resultado apresentado não envolve qualquer restrição sobre o regime 2. Mesmo no<br />

caso de k regimes AR(1), o teorema acima continua a aplicar-se (neste caso o regime 3 é<br />

encarado como o último regime).<br />

240


7.3.4 Exemplo (Bounded Random Walk)<br />

Um caso muito interessante é o seguinte:<br />

yt =<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

c1 + φ 1yt−1 + ut<br />

c2 + yt−1 + ut<br />

c3 + φ 3yt−1 + ut<br />

yt−1 < γ 1<br />

γ 1 ≤ yt−1 ≤ γ 2<br />

yt−1 > γ 2<br />

(7.13)<br />

Assuma-se |φ 1| < 1 e |φ 3| < 1. Observe-se que o processo no regime 2 é integrado de ordem<br />

1, i.e., exibe o comportamento de um random walk. No entanto y é EE, pela proposição<br />

7.3.1.<br />

Se P (γ 1 ≤ yt ≤ γ 2) é uma probabilidade alta, então durante a maior parte do tempo<br />

y comporta-se como um random walk. Sempre que os limiares γ 2 ou γ 1 são atingidos o<br />

processo passa a exibir reversão para uma certa média e, deste modo, y é globalmente esta-<br />

cionário e, portanto, limitado em probabilidade (ou contrário do random walk). Na figura<br />

7-21 apresenta-se uma trajectória simulada a partir do processo<br />

yt =<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

0.9yt−1 + ut<br />

yt−1 + ut<br />

0.9yt−1 + ut<br />

yt−1 < −3<br />

−3 ≤ yt−1 ≤ 3<br />

yt−1 > 3<br />

onde {ut} é uma sucessão de v.a. i.i.d. com distribuição N (0, 0.2 2 ) .<br />

(7.14)<br />

Processos do tipo (7.14) confundem-se facilmente com passeios aleatórios. Por esta<br />

razão, o teste Dickey-Fuller tende a não rejeitar a hipótese nula de raiz unitária quando a<br />

alternativa é um processo estacionário do tipo (7.14); por outras palavras, o teste Dickey-<br />

Fuller é pouco potente contra alternativas do tipo (7.14). No contexto do modelo (7.13),<br />

pode mostrar-se que a potência do teste Dickey-Fuller diminui quando γ 1 é baixo e γ 2 é alto<br />

ou φ 1, φ 2 < 1 são altos ou Var (ut) é baixa.<br />

7.3.5 Estimação<br />

Considere-se, sem perda de generalidade, o modelo com dois regimes:<br />

yt =<br />

⎧<br />

⎨<br />

⎩<br />

φ 10 + φ 11yt−1 + ... + φ 1pyt−p + ut qt−d ≤ γ<br />

φ 20 + φ 21yt−1 + ... + φ 2pyt−p + ut qt−d > γ<br />

241<br />

(7.15)


Figura 7-21: Trajectória Simulada a partir do Processo (7.14)<br />

onde se assume que {ut} é um ruído branco com Var (ut) = σ2 . Os parâmetros desconhecidos<br />

são d, γ, σ2 <br />

e φ = φ ′<br />

1 φ ′<br />

′ <br />

′<br />

onde φ 2<br />

i = φi0 φi1 ... φ . Reescreva-se (7.15)<br />

ip<br />

na forma<br />

yt = <br />

φ10 + φ11yt−1 + ... + φ1pyt−p I{qt−d≤γ}<br />

+ <br />

φ20 + φ21yt−1 + ... + φ2pyt−p I{qt−d>γ} + ut.<br />

Seja x ′ t = (1, yt−1, ..., yt−p) . Observe-se que cada um dos “ramos” pode escrever-se como<br />

<br />

φ10 + φ11yt−1 + ... + φ1pyt−p I{qt−d≤γ} =<br />

<br />

<br />

1 yt−1 ...<br />

<br />

x<br />

yt−p<br />

<br />

′ t<br />

φ1I{qt−d≤γ} = x ′ tφ1I{qt−d≤γ} <br />

<br />

φ20 + φ21yt−1 + ... + φ2pyt−p I{qt−d>γ} = 1 yt−1 ... yt−p<br />

<br />

242<br />

xt<br />

= x ′ tφ 2I{qt−d>γ}.<br />

<br />

φ 2I{qt−d>γ}


Assim, (7.15) pode ainda escrever-se na forma<br />

ou ainda, com xt (γ) ′ =<br />

yt = x ′ tφ1I{qt−d≤γ} + x ′ tφ2I{qt−d>γ} + ut<br />

<br />

<br />

=<br />

⎛<br />

⎝ φ ⎞<br />

1 ⎠ + ut<br />

<br />

x ′ tI{qt−d≤γ} x ′ tII {qt−d >γ}<br />

x ′ tI{qt−d≤γ} x ′ tII {qt−d >γ}<br />

Se {ut} é um ruído branco Gaussiano então<br />

<br />

yt = xt (γ) ′ φ + ut.<br />

yt| Ft−1 ∼ N xt (γ) ′ φ, σ 2<br />

e o método da máxima verosimilhança é equivalente ao método dos mínimos quadrados<br />

condicionados. Assim, o estimador para φ, dado γ, é<br />

ˆφ (γ) = X (γ) ′ X (γ) −1 X (γ) y (7.16)<br />

onde X (γ) é a matriz das variáveis “explicativas” endógenas desfasadas (dado γ), tendo<br />

por linha genérica o vector-linha xt (γ) ′ e y é o vector das observações {yt} . Claro que o<br />

estimador ˆ φ (γ) depende de γ, que é desconhecido. Como estimar γ? Seja<br />

ˆσ 2 (γ) =<br />

φ 2<br />

<br />

n<br />

t=1<br />

yt − xt (γ) ′ 2 φ ˆ (γ)<br />

a soma dos quadrados dos resíduos. Supondo d conhecido, toma-se para estimativa de γ o<br />

valor que minimiza ˆσ 2 (γ) , i.e.,<br />

n<br />

ˆγ = arg min<br />

γ∈Γ ˆσ2 (γ) . (7.17)<br />

O conjunto Γ é o espaço do parâmetro γ (todos os valores que γ pode assumir). Claramente<br />

Γ = R. Como a derivada de ˆσ 2 (γ) em ordem a γ não está definida, o problema de esti-<br />

mação (7.17) é não standard. Uma forma expedita de obter a sua solução consiste em fazer<br />

percorrer γ no conjunto Γ e, depois, seleccionar o valor que minimiza ˆσ 2 (γ) . Felizmente, a<br />

243


escolha dos valores relevantes para γ é relativamente pequena. Sejam y(1), y(2), ..., y(n) são<br />

as estatística de ordem tais que<br />

y(1) ≤ y(2) ≤ ... ≤ y(n).<br />

Como ˆσ 2 (γ) não se altera quando γ varia entre duas estatísticas de ordem, o problema de<br />

optimização (7.17) é equivalente a<br />

ˆγ = arg min<br />

γ∈˜ ˆσ<br />

Γ<br />

2 (γ) ,<br />

<br />

Γ ˜ = y(1), ..., y(n)<br />

(7.18)<br />

ou seja, para obter ˆγ basta percorrer γ no conjunto ˜ Γ e seleccionar, depois aquele que mini-<br />

miza ˆσ 2 (γ). Na prática, impõe-se que cada regime possua pelo menos uma certa fracção π<br />

de observações (efectivamente, não faz sentido, tomar ˆγ = y(1) ou ˆγ = y(n)). Assim, deve<br />

restringir-se o conjunto ˜ Γ, passando a ser <br />

y((π(n−1))), ..., y((1−π)(n−1)) onde (.) representa a<br />

parte inteira do número. Neste novo conjunto ˜ Γ não fazem parte as π100% mais baixas nem<br />

as (1 − π) 100% mais altas.<br />

Falta-nos ainda tratar a estimação de d, que é também não standard tendo em conta que<br />

d ∈ N. Como ˆσ 2 depende de d, escolhe-se d num certo conjunto D = {1, 2, ..., d ∗ } de forma<br />

a minimizar ˆσ 2 . Logo,<br />

onde, agora,<br />

e<br />

ˆσ 2 (γ, d) = n −1<br />

<br />

ˆγ, ˆ <br />

d = arg min<br />

γ∈˜ ˆσ<br />

Γ,d∈D<br />

2 (γ, d)<br />

n <br />

yt − xt (γ, d) ′ φ ˆ (γ, d)<br />

t=1<br />

ˆφ (γ, d) = X (γ, d) ′ X (γ, d) −1 X (γ, d) y.<br />

Em suma, os passos na estimação dos parâmetros são o seguintes:<br />

1. para cada γ ∈ ˆ Γ e para cada d ∈ D, construir X (γ, d) e estimar ˆ φ (γ, d) e ˆσ 2 (γ, d);<br />

2. tomar para estimativa de γ e de d o par (γ, d) que minimiza ˆσ 2 (γ, d); seja esse par<br />

<br />

dado por ˆγ, ˆ <br />

d .<br />

3. tomar para estimativa de φ, o valor ˆ <br />

φ ˆγ, ˆ <br />

d .<br />

244<br />

2


Exemplo 7.3.1 Considere<br />

yt =<br />

⎧<br />

⎨<br />

⎩<br />

φ 1yt−1 + ut se yt−d ≤ γ<br />

φ 2yt−1 + ut se yt−d > γ<br />

com Var [ut] = σ 2 . Suponha que os resultados na fase da estimação são:<br />

Valores de ˆσ 2 em função de γ e d<br />

γ ↓<br />

d →<br />

1 2<br />

-1 15.5 16<br />

-0.7 12.4 13.5<br />

-0.1 12.1 12.3<br />

-.001 3.5 2.5<br />

0.0 1.2 2.4<br />

1.2 2.5 2.8<br />

1.5 5.5 7<br />

Resulta do quadro (veja o valor a negrito) que ˆγ = 0, ˆ d = 1 e ˆσ 2 = 1.2. Por outras<br />

palavras<br />

(0, 1) = arg min ˆσ 2 (γ, d) e min ˆσ 2 (0, 1) = 1.2.<br />

Para ilustrar a matriz X (γ, d), suponha que os dois últimos valores de y são yn−1 = 1.5<br />

e yn = −1.5; então a última linha da matriz X (γ, d) é<br />

xn<br />

<br />

ˆγ, ˆ ′ <br />

d =<br />

(o valor yn = −1.5 não entra na matriz X).<br />

7.3.6 Inferência<br />

yn−1I{yn−1≤0} yn−1I{yn−1>0}<br />

<br />

= 0 1.5<br />

Pode mostrar-se que o estimador para d é super-consistente, isto é, possui uma variância pro-<br />

porcional a 1/n α com α > 1 (os estimadores habituais possuem uma variância proporcional<br />

a 1/n). A distribuição assimptótica é também conhecida (Hansen, 2000). Dada a super-<br />

consistência de ˆ d podemos, para efeitos de inferência estatística sobre os demais parâmetros,<br />

assumir que d é conhecido.<br />

245


Inferência sobre φ<br />

Sob certas condições (incluindo estacionaridade estrita) tem-se<br />

√ <br />

n ˆφ d <br />

(ˆγ) − φ0 −→ N 0, I (γ0) −1 , (7.19)<br />

onde I (γ 0) = σ −2 E (xt (γ 0) xt (γ 0)) (γ 0 e φ 0 são, de acordo com a notação habitual, os<br />

verdadeiros, mas desconhecidos valores dos parâmetros γ e φ). Supomos, naturalmente, que<br />

ˆγ é um estimador consistente para γ 0. A matriz I (γ 0) é estimada consistentemente por<br />

1<br />

n<br />

n<br />

t=1<br />

xt (ˆγ) xt (ˆγ) ′ .<br />

O resultado (7.19) indica-nos que, em grandes amostras, a inferência estatística sobre os<br />

parâmetros φ ij conduz-se da forma habitual.<br />

Inferência sobre a existência de Threshold<br />

Uma questão importante é saber se o modelo TAR é preferível ao simples AR. Para o efeito,<br />

testa-se H0 : φ 1 = φ 2 pois, sob esta hipótese, o TAR reduz-se ao AR. Aparentemente, o<br />

resultado (7.19) permite ensaiar H0, no quadro do teste de Wald. Esta ideia é incorrecta,<br />

pois sob a hipótese nula o parâmetro γ não identificável. Este é um problema que ocorre<br />

tipicamente em modelos não lineares (veja-se, por exemplo, o modelo Markov-switching,<br />

no ponto 7.4). Observe-se que, sob a hipótese nula, a função de verosimilhança deixa de<br />

depender do parâmetro γ (é indiferente o valor que γ assume) 10 . Nestas circunstâncias, a<br />

matriz de informação é singular e não é possível usar os resultados assimptóticos habituais.<br />

Hansen (2000) sugere o seguinte procedimento:<br />

1. obter Fn = n ˜σ 2 n − ˆσ 2<br />

2<br />

n /ˆσ n onde ˜σ 2 n é a variância dos erros de regressão do modelo<br />

AR (sob H0) e ˆσ 2<br />

n resulta de (7.18);<br />

2. simular u ∗ t , t = 1, ..., n com distribuição i.i.d. N (0, 1) ;<br />

3. y ∗ t = u ∗ t ;<br />

4. fazer a regressão de y ∗ t sobre xt =<br />

<br />

1 yt−1 ... yt−p<br />

<br />

e obter ˜σ ∗2<br />

n<br />

10 Veja-se mais um exemplo. No caso yt = βx γ + ut, x > 0, ocorre uma situação similar com H0 : β = 0<br />

ou com H0 : γ = 0. Por exemplo, sob a hipótese β = 0, γ desaparece da especificação; como consequência, a<br />

verosimilhança deixa de depender de γ. Já o ensaio H0 : β = β 0 com β 0 = 0 não levanta problemas.<br />

246


5. obter ˆγ = arg min γ∈ ˜ Γ ˆσ ∗2<br />

n (γ) onde ˆσ ∗2<br />

n (γ) resulta da regressão de y ∗ t sobre xt (γ);<br />

6. obter F ∗ n = n ˜σ ∗2<br />

n − ˆσ ∗2<br />

∗2<br />

n /ˆσ n<br />

7. repetir os passos 2-6 B vezes<br />

8. valor-p = percentagem de vezes (em B) em que F ∗ n ≥ Fn.<br />

A fundamentação do teste baseia-se na prova segundo a qual F ∗ n possui a mesma dis-<br />

tribuição assimptótica de Fn, sob H0. Observe-se, com efeito, que F ∗ n é construída sob a<br />

hipótese de ausência de threshold. Assim, existe indício de violação da hipótese nula quando<br />

˜σ 2 n é significativamente superior a ˆσ 2<br />

n, de tal forma que Fn tende a ser geralmente alto quando<br />

comparado com F ∗ n. Nestas circunstâncias raramente ocorre F ∗ n ≥ Fn (nas B simulações) e<br />

o valor-p vem baixo.<br />

Inferência sobre o threshold<br />

Seja<br />

Sabe-se que (Hansen, 1997)<br />

2<br />

ˆσ n (γ) − ˆσ<br />

Fn (γ) = n<br />

2<br />

Fn (γ 0)<br />

ˆσ 2<br />

n (ˆγ)<br />

d<br />

−→ ξ<br />

n (ˆγ)<br />

<br />

. (7.20)<br />

onde P (ξ ≤ x) = 1 − e −x/2 2 . Com base neste resultado, Hansen (1997) recomenda o<br />

seguinte procedimento para a construção de um intervalo de confiança para γ:<br />

1. Calcular Fn (γ) para γ ∈ ˜ Γ<br />

2. Determinar o conjunto Cα = γ : Fn (γ) ≤ q ξ α<br />

onde q ξ α é o quantil da distribuição de<br />

ξ (inclui, portanto, todos os γ tais que Fn (γ) é menor ou igual a q ξ α).<br />

Como P (γ 0 ∈ Cα) → α (quando n → ∞), o intervalo de confiança a α100% é precisa-<br />

mente Cα.<br />

Usando a função de distribuição de ξ, tem-se q ξ<br />

0.90 = 5.94, q ξ<br />

0.95 = 7.35 e q ξ<br />

0.99 = 10.59.<br />

Ilustre-se o procedimento com o seguinte exemplo artificial. Admita-se que se obser-<br />

vam os valores da tabela 7.1. Note-se que a estimativa para γ é ˆγ = 1.2 pois Fn (1.2) =<br />

0. Tendo em conta que q ξ<br />

0.95 = 7.35, o intervalo de confiança para γ a 95% é C0.95 =<br />

{γ : 1.15 ≤ γ ≤ 1.45} .<br />

247


γ Fn<br />

1 12.2<br />

1.1 10.2<br />

1.15 7.35<br />

1.2 0<br />

1.35 6.31<br />

1.45 7.35<br />

1.6 15<br />

Tabela 7.1: Intervalo de Confiança para o Threshold: Ilustração do método de Hansen<br />

7.4 Modelo Markov-Switching<br />

7.4.1 Introdução<br />

Outro modelo importante baseado na ideia de regime switching é o modelo Markov-Switching<br />

(MS). Nos modelos apresentados no ponto anterior a mudança de regime é baseada em var-<br />

iáveis observáveis. No modelo MS a mudança de regime não é observável.<br />

Considere-se o modelo<br />

onde dt é uma variável dummy<br />

dt =<br />

yt = c1 + δ1dt + φyt−1 + ut<br />

⎧<br />

⎨<br />

⎩<br />

1 se evento A ocorre<br />

0 se o evento A não ocorre.<br />

(7.21)<br />

Sabemos exactamente quando o evento A ocorre. Por exemplo, o evento A pode represen-<br />

tar “segunda-feira”. Trata-se de um evento obviamente determinístico. Suponhamos agora<br />

que A não é observável. Como modelar, estimar e prever y? São estas as questões que<br />

abordaremos ao longo deste ponto.<br />

Para trabalharmos com alguma generalidade, admita-se que estão definidos N regimes.<br />

Por exemplo, um modelo relativamente simples com dois regimes, N = 2, é<br />

yt =<br />

⎧<br />

⎨<br />

⎩<br />

c1 + φyt−1 + ut<br />

se yt está no regime 1<br />

c1 + δ1 + φyt−1 + ut se yt está no regime 2<br />

(7.22)<br />

O regime 1 pode estar associado, por exemplo, ao evento “A não ocorre” e o regime 2 “A<br />

ocorre”. Este modelo é, em vários aspectos, similar ao modelo (7.21); há, no entanto, um<br />

diferença apreciável: agora não se sabe quando é que y está no regime 1 ou 2. Seja St o<br />

248


egime em que o processo y se encontra no momento t (assim, se St = i, então yt está<br />

no regime i). No modelo anterior, equação (7.22), S pode assumir os valores St = 1 ou<br />

St = 2. A sucessão {St} é claramente um processo estocástico com espaço de estados<br />

(finito) E = {1, 2, ..., N}.<br />

É necessário, naturalmente, especificar um modelo para St. Admita-se E = {1, 2} . Se<br />

o valor que S assume em t nada tem a ver com o valor que S assume em t − 1, t − 2,<br />

..., então {St} é uma sucessão de v.a. i.i.d. com distribuição de Bernoulli de parâmetro<br />

p que pode ser identificado com o regime 1, isto é, P (St = 1) = p. O processo y vai<br />

“saltando” entre os regimes 1 e 2 de forma independente de acordo com a probabilidade<br />

p. Num dado momento t, y está no regime 1 com probabilidade p (independentemente do<br />

regime anterior assumido). Na prática, a independência entre os sucessivos valores de St não<br />

é apropriada para um grande número de aplicações. Por exemplo, suponha-se que y é a taxa<br />

de crescimento do produto. Admita-se ainda que y se comporta diferentemente consoante a<br />

economia está em expansão ou em recessão. Temos, assim dois regimes St = 1 (recessão),<br />

St = 2 (expansão). A sucessão {St} não é provavelmente independente: se a economia, num<br />

certo momento, está em expansão (St−1 = 2), é mais provável que no momento seguinte a<br />

economia se encontre em expansão do que em recessão. Formalmente,<br />

P (St = 2| St−1 = 2) > P (St = 1| St−1 = 2) .<br />

Logo {St} é formado por uma sucessão de v.a. dependentes. Uma sucessão ou trajectória de<br />

S, poderá ser, por exemplo, {1, 1, 1, 1, 2, 2, 2, 2, 1, 1, 1, ...} .<br />

7.4.2 Cadeias de Markov em tempo discreto com espaço de estados dis-<br />

cretos finito<br />

Um modelo conveniente para caracterizar {St} , num cenário de dependência temporal, é<br />

a cadeia de Markov homogénea em tempo discreto com espaço de estados discretos finito.<br />

A teoria das cadeias de Markov tem aplicações em muitas áreas, como por exemplo, em<br />

modelos de inventário, em genética, em filas de espera, etc. Iremos apresentar as ideias<br />

principais.<br />

Uma cadeia de Markov é um processo de Markov no seguinte sentido:<br />

P (St = j| St−1 = i, ..., S0 = i0) = P (St = j| St−1 = i)<br />

249


isto é, St é independente de St−2, St−3, ..., S0 dado St−1.<br />

Uma cadeia de Markov é completamente caracterizada pela chamada matriz de probabil-<br />

idades de transição a um passo (ou simplesmente matriz de probabilidades de transição) e,<br />

eventualmente, por uma condição inicial. No caso de dois regimes, E = {1, 2} , esta matriz<br />

define-se da seguinte forma<br />

P =<br />

⎛<br />

⎝ P (St = 1| St−1 = 1) P (St = 2| St−1 = 1)<br />

P (St = 1| St−1 = 2) P (St = 2| St−1 = 2)<br />

No caso geral (N regimes) tem-se<br />

A matriz P respeita as condições:<br />

⎛<br />

⎜<br />

P = ⎜<br />

⎝<br />

• 0 ≤ pij ≤ 1, (i, j = 1, ..., N) ;<br />

p11 · · · p1N<br />

.. . . .<br />

pN1 · · · pNN<br />

• N<br />

j=1 pij = 1, (i = 1, ..., N) (as linhas soma 1).<br />

⎞<br />

⎟<br />

⎠ .<br />

⎞<br />

⎠ =<br />

⎛<br />

⎝ p11 p12<br />

p21 p22<br />

Exemplo 7.4.1 Convencione-se que St = 1 representa o estado “economia em recessão no<br />

momento t”; St = 2 representa o estado “economia em expansão no momento t”. Suponha-<br />

se que a matriz de probabilidades de transição é<br />

⎛ ⎞<br />

0.7<br />

P = ⎝<br />

0.3<br />

⎠ .<br />

0.2 0.8<br />

Se a economia está em expansão no período t − 1, i.e., St−1 = 2, a probabilidade da<br />

economia se encontrar ainda em expansão no período t é 0.8 e a probabilidade de ela passar<br />

para recessão é 0.2.<br />

Podemos estar interessados em calcular uma probabilidade de transição a dois passos,<br />

por exemplo,<br />

P (St = 1| St−2 = 2) .<br />

250<br />

⎞<br />

⎠ .


Neste caso, pela lei das probabilidades totais, vem com N = 2<br />

P (St = 1| St−2 = 2) =<br />

=<br />

=<br />

2<br />

P (St = 1, St−1 = i| St−2 = 2)<br />

i=1<br />

2<br />

P (St = 1| St−1 = i, St−2 = 2) P (St−1 = i| St−2 = 2)<br />

i=1<br />

2<br />

P (St = 1| St−1 = i) P (St−1 = i| St−2 = 2)<br />

i=1<br />

= elemento (2, 1) da matriz P 2 = P × P.<br />

Relativamente ao exemplo 7.4.1, calcule-se a matriz P 2 . Tem-se:<br />

⎛ ⎞ ⎛ ⎞ ⎛<br />

⎞<br />

0.7<br />

⎝<br />

0.3 0.7<br />

⎠ ⎝<br />

0.3 0.55<br />

⎠ = ⎝<br />

0.45<br />

⎠ .<br />

0.2 0.8 0.2 0.8 0.3 0.7<br />

Assim, P (St = 1| St−2 = 2) = 0.3 (elemento (2, 1) da matriz P 2 ).<br />

O resultado geral é dado pelas designadas equações de Chapman-Kolmogorov:<br />

#E <br />

P (Sm+n = j| S0 = i) = P (Sm = k| S0 = i) P (Sm+n = k| Sm = j) .<br />

Deduz-se da expressão anterior que<br />

Note-se ainda o seguinte:<br />

k=1<br />

P (Sn+h = j| Sn = i) = elemento (i, j) da matriz P h . (7.23)<br />

P (St = 1| St−k = 2) = P (St+k = 1| St = 2) .<br />

Não interessa o momento em que a probabilidade é calculada. O que é relevante é o des-<br />

fasamento temporal entre as variáveis. Na equação anterior o desfasamento é k. Esta pro-<br />

priedade resulta de se ter uma matriz de probabilidades de transição que não depende de t.<br />

Diz-se nestes casos que a matriz de probabilidades de transição é homogénea.<br />

Em certos problemas é importante obter probabilidades relacionadas com eventos a longo<br />

prazo. No exemplo 7.4.1, é interessante saber a probabilidade da economia se encontrar<br />

em expansão (ou recessão) no longo prazo, dado que no momento presente a economia se<br />

251


encontra em expansão. Formalmente, a questão é<br />

lim<br />

n→∞ P (St+n = 2| St = 2) . (7.24)<br />

Tendo em conta a observação anterior, a probabilidade em questão corresponde ao elemento<br />

(2, 2) da matriz limite<br />

Observe-se<br />

⎛<br />

⎝<br />

⎛<br />

⎝<br />

⎛<br />

⎝<br />

É intuitivo admitir-se que<br />

0.7 0.3<br />

0.2 0.8<br />

0.7 0.3<br />

0.2 0.8<br />

0.7 0.3<br />

0.2 0.8<br />

lim<br />

n→∞<br />

⎛<br />

⎝<br />

lim<br />

n→∞<br />

⎞<br />

⎠<br />

⎞<br />

⎠<br />

⎞<br />

⎠<br />

10<br />

20<br />

40<br />

⎛<br />

⎝<br />

=<br />

=<br />

=<br />

0.7 0.3<br />

0.2 0.8<br />

0.7 0.3<br />

0.2 0.8<br />

⎞<br />

⎠<br />

n<br />

.<br />

⎛<br />

⎞<br />

0.40059<br />

⎝<br />

0.59941<br />

⎠<br />

0.39961 0.60039<br />

⎛ ⎞<br />

0.4<br />

⎝<br />

0.6<br />

⎠<br />

0.4 0.6<br />

⎛ ⎞<br />

0.4<br />

⎝<br />

0.6<br />

⎠ .<br />

0.4 0.6<br />

⎞<br />

⎠<br />

n<br />

⎛ ⎞<br />

0.4<br />

= ⎝<br />

0.6<br />

⎠ .<br />

0.4 0.6<br />

Logo limn→∞ P (St+n = 2| St = 2) = 0.6, mas também limn→∞ P (St+n = 2| St = 1) =<br />

0.6. Isto é, a probabilidade da economia se encontrar em expansão (ou recessão) no longo<br />

prazo é independente do estado inicial, o que é bastante intuitivo (no longo prazo é irrelevante<br />

saber se hoje a economia está ou não em expansão).<br />

Nem todas as cadeias de Markov admitem estas probabilidades limites. Sob certas<br />

condições pode-se provar a<br />

Proposição 7.4.1 Se S é recorrente 11 positiva aperiódica com espaço de estados finito {1, 2, ..., N} 12<br />

11 Um regime ou estado i é recorrente sse, depois de o processo se iniciar em i, a probabilidade de retornar<br />

a i, ao fim de algum tempo finito, é igual a um. Se S é contável e se todos os estados comunicam, então todos<br />

os estados são recorrentes ou transientes (Taylor e Karlin, 1984).<br />

12 O caso infinito adapta-se facilmente.<br />

252


então, o vector (linha) das probabilidades estacionárias<br />

onde<br />

satisfaz as equações<br />

<br />

<br />

π = π1 π2 · · · πN<br />

πi = lim<br />

n→∞ P (St+n = i| St = j) (para qualquer j)<br />

= P (St = i) ≥ 0<br />

π = πP,<br />

N<br />

πi = 1.<br />

{πi; i = 1, 2, ..., N} é a distribuição estacionária da cadeia S.<br />

Exemplo 7.4.2 Considere-se o exemplo 7.4.1,<br />

i=1<br />

⎛ ⎞<br />

0.7<br />

P = ⎝<br />

0.3<br />

⎠ .<br />

0.2 0.8<br />

O vector das probabilidades estacionárias pode ser determinar da seguinte forma:<br />

<br />

<br />

π1 π2<br />

π1 π2<br />

Tem-se, ⎧⎪ ⎨<br />

⎪⎩<br />

Exemplo 7.4.3 Considere<br />

⎛<br />

<br />

<br />

=<br />

=<br />

<br />

<br />

π1 π2<br />

π1 = 0.7π1 + 0.2π2<br />

π2 = 0.3π1 + 0.8π2<br />

π1 + π2 = 1<br />

⎝ p11 1 − p11<br />

1 − p22 p22<br />

⎛<br />

⎝<br />

0.7 0.3<br />

0.2 0.8<br />

⎞<br />

⎠<br />

0.7π1 + 0.2π2 0.3π1 + 0.8π2<br />

⎞<br />

⎧<br />

⎪⎨<br />

π1 = 0.4<br />

⇔ π2 = 0.6<br />

⎪⎩ π1 + π2 = 1.<br />

⎠ , 0 < p11, p22 < 1.<br />

Pela proposição 7.4.1 é fácil concluir que as probabilidades estacionárias são dadas por<br />

π1 =<br />

1 − p22<br />

1 − p11<br />

, π2 =<br />

.<br />

2 − p11 − p22 2 − p11 − p22<br />

253


Retomando o exemplo 7.4.2, facilmente se obtém:<br />

π1 =<br />

1 − 0.8<br />

2 − 0.7 − 0.8 = 0.4, π2 =<br />

1 − 0.7<br />

2 − 0.7 − 0.8<br />

= 0.6.<br />

Observação 7.4.1 Um método para determinar P n é o seguinte. Como se sabe, quando os<br />

vectores próprios de P são independentes verifica-se P = VΛV −1 onde V é a matriz dos<br />

vectores próprios de P e Λ é a matriz diagonal dos valores próprios. Ora se V•1 é vector<br />

próprio de P e λ1 é o valor próprio associado V•1 então V•1 é ainda vector próprio de P n<br />

e λ n<br />

1 é o valor próprio associado. Logo P n = VΛ n V permite obter facilmente P n .<br />

7.4.3 Modelos Markov-Switching<br />

Seja y a variável dependente. Um exemplo de um modelo MS com dois regimes E = {1, 2}<br />

é, por exemplo,<br />

yt =<br />

⎧<br />

⎨<br />

⎩<br />

c1 + φ 1yt−1 + σ1εt se St = 1<br />

c2 + φ 2yt−1 + σ2εt se St = 2<br />

(7.25)<br />

onde St é uma cadeia de Markov homogénea (escondida ou latente por St não ser observável)<br />

com matriz de probabilidades de transição<br />

Uma representação equivalente é<br />

P =<br />

⎛<br />

⎝ p11 p12<br />

p21 p22<br />

⎞<br />

⎠ .<br />

yt = c1 + (c2 − c1) I{St=2} + <br />

φ1 + (φ2 − φ1) I{St=2} yt−1<br />

+ <br />

σ1 + (σ2 − σ1) I{St=2}t εt.<br />

Outra representação sugestiva:<br />

onde<br />

yt = c (St) + φ (St) yt−1 + σ (St) εt<br />

⎧<br />

⎧<br />

⎧<br />

⎨ c1 se St = 1 ⎨ φ1 se St = 1 ⎨ σ1 se St = 1<br />

c (St) =<br />

, φ (St) =<br />

, σ (St) =<br />

⎩ c2 se St = 2 ⎩ φ2 se St = 2 ⎩ σ2 se St = 2.<br />

254<br />

(7.26)


A representação (7.26) sugere que o modelo MS (7.25) pode ser escrito como um processo<br />

AR(1) com coeficientes aleatórios (vários outros modelos não lineares podem também ser<br />

representados como um AR(1) com coeficientes aleatórios).<br />

7.4.4 Função densidade de probabilidade de y<br />

Vamos caracterizar a fdp f (yt| Ft−1) que é essencial no âmbito da estimação, inferência e<br />

previsão.<br />

Retome-se o modelo<br />

yt =<br />

⎧<br />

⎨<br />

⎩<br />

c1 + φ 1yt−1 + σ1εt se St = 1<br />

c2 + φ 2yt−2 + σ2εt se St = 2.<br />

Se assumirmos εt ∼ N (0, 1) então as fdp condicionadas associadas aos regimes 1 e 2<br />

(N = 2) são respectivamente<br />

f (yt| Ft−1, St = 1) =<br />

f (yt| Ft−1, St = 2) =<br />

1 1 2σ e−<br />

2 σ12π 2 (yt−c1−φ1 yt−1)<br />

1<br />

2<br />

1 1 2σ e−<br />

2 σ22π 2 (yt−c2−φ2 yt−1)<br />

2<br />

2<br />

.<br />

Como obter f (yt| Ft−1)? Recordando a regra da probabilidade total<br />

P (A) = <br />

P (A| Bi) P (Bi)<br />

i<br />

(ou fx (x) = <br />

i fx|y (x| yi) fy (yi) no caso em que y é uma v.a. discreta) tem-se que fdp<br />

condicionada de y é<br />

f (yt| Ft−1) = f (yt| Ft−1, St = 1) P (St = 1| Ft−1)<br />

+f (yt| Ft−1, St = 2) P (St = 2| Ft−1)<br />

= σ 2 12π −1/2 −<br />

e 1<br />

2σ2 (yt−c1−φ1 yt−1)<br />

1<br />

2<br />

P (St = 1| Ft−1)<br />

+ σ 2 22π −1/2 −<br />

e 1<br />

2σ2 (yt−c2−φ2 yt−1)<br />

2<br />

2<br />

P (St = 2| Ft−1) .<br />

Se identificarmos, para simplificar, f (yt| Ft−1, St = i) = fit tem-se<br />

f (yt| Ft−1) = f1tP (St = 1| Ft−1) + f2tP (St = 2| Ft−1) .<br />

255


Claro que P (St = 1| Ft−1)+P (St = 2| Ft−1) = 1. É interessante observar que a fdp condi-<br />

cionada é igual à média ponderada das fdp condicionadas associadas aos vários regimes. Os<br />

ponderadores são naturalmente P (St = 1| Ft−1) e P (St = 1| Ft−1) (e somam 1). Por ex-<br />

emplo, se num determinado momento, P (St = 1| Ft−1) é muito alto (perto de 1) a função<br />

f (yt| Ft−1) dependerá sobretudo de f1t e pouco de f2t.<br />

No caso geral com N regimes, a expressão da fdp é<br />

f (yt| Ft−1) =<br />

7.4.5 Probabilidades Associadas aos Regimes<br />

N<br />

fitP (St = i| Ft−1) . (7.27)<br />

i=1<br />

A expressão (7.27) envolve as probabilidades P (St = i| Ft−1) , i = 1, 2, ..., N que são<br />

necessário caracterizar.<br />

Regimes Independentes<br />

No caso mais simples em que {St} é uma sucessão de v.a. independentes (não só dos seus<br />

valores passados e futuros como também de Ft−1) tem-se<br />

e, portanto,<br />

P (St = i| Ft−1) = P (St = i) = pi<br />

f (yt| Ft−1) =<br />

N<br />

i=1<br />

fitpi.<br />

(7.28)<br />

Esta hipótese é conhecida pelo menos desde 1972 com os trabalhos de Goldfeld e Quandt,<br />

entre outros.<br />

que<br />

O caso de regimes independentes é um caso particular da cadeia de Markov. Notando<br />

P (St = i| St−1 = j) = P (St = i)<br />

para qualquer i e j ∈ E, conclui-se que este caso induz uma matriz de probabilidades de<br />

256


transição com colunas iguais,<br />

⎛<br />

⎞<br />

P (St = 1)<br />

⎜ P (St = 1)<br />

P = ⎜ .<br />

⎝<br />

P (St = 2)<br />

P (St = 2)<br />

.<br />

· · ·<br />

· · ·<br />

. ..<br />

P (St = N)<br />

⎟<br />

P (St = N) ⎟ .<br />

. ⎟<br />

⎠<br />

P (St = 1) P (St = 2) · · · P (St = N)<br />

A probabilidade de atingir, por exemplo, o regime 1 é sempre igual a P (St = 1) não im-<br />

portando o regime em que S se encontre no período anterior (ou seja, o evento St = 1 é<br />

independente de St−1).<br />

Regimes Seguem uma Cadeia de Markov<br />

Sob esta hipótese, St dado St−1, não depende de Ft−1. Isto é,<br />

P (St = i| St−1 = j, Ft−1) = P (St = i| St−1 = j) = pji. (7.29)<br />

Tem-se, pela regra da probabilidade total, com N = 2<br />

P (St = 1| Ft−1) = P (St = 1| St−1 = 1, Ft−1) P (St−1 = 1| Ft−1)<br />

De uma forma geral,<br />

+P (St = 1| St−1 = 2, Ft−1) P (St−1 = 2| Ft−1)<br />

= P (St = 1| St−1 = 1) P (St−1 = 1| Ft−1)<br />

+P (St = 1| St−1 = 2) P (St−1 = 2| Ft−1)<br />

= p11P (St−1 = 1| Ft−1) + p21P (St−1 = 2| Ft−1) .<br />

P (St = i| Ft−1) =<br />

N<br />

pj1P (St−1 = i| Ft−1) (7.30)<br />

j=1<br />

Estas expressões envolvem uma estrutura recursiva que iremos expor a seguir. Tendo em<br />

conta a expressão (7.30), calcule-se P (St−1 = i| Ft−1) . Observe-se, em primeiro lugar, que<br />

P (St−1 = 1| Ft−1) = P (St−1 = 1| yt−1, Ft−2) = g (yt−1, St−1 = 1| Ft−2)<br />

.<br />

f (yt−1| Ft−2)<br />

A primeira igualdade verifica-se por definição. A segunda envolve a regra P (A| B, C) =<br />

257


P (A, B| C) /P (B| C) , sendo g a função de probabilidade conjunta de (yt−1, St−1) . Tem-se<br />

assim, pela regra das probabilidades totais (com N = 2)<br />

P (St−1 = 1| Ft−1) = g (yt−1, St−1 = 1| Ft−2)<br />

f (yt−1| Ft−2)<br />

Para simplificar, defina-se<br />

=<br />

f (yt−1| Ft−2, St−1 = 1) P (St−1 = 1| Ft−2)<br />

N j=1 f (yt−1|<br />

. (7.31)<br />

Ft−2, St−1 = j) P (St−1 = j| Ft−2)<br />

pit = P (St = i| Ft−1)<br />

pi,t−1 = P (St−1 = i| Ft−2)<br />

Em suma, com N = 2, a expressão da fdp é<br />

onde<br />

fi,t−1 = f (yt−1| Ft−2, St−1 = i) .<br />

f (yt| Ft−1) = f1tp1t + f2tp2t = f1tp1t + f2t (1 − p1t)<br />

p1t = p11P (St−1 = 1| Ft−1) + p21P (St−1 = 2| Ft−1)<br />

= p11P (St−1 = 1| Ft−1) + p21 (1 − P (St−1 = 1| Ft−1))<br />

= p11<br />

+p21<br />

f1,t−1p1,t−1<br />

(7.32a)<br />

f1,t−1p1,t−1 + f2,t−1 (1 − p1,t−1)<br />

<br />

<br />

f1,t−1p1,t−1<br />

1 −<br />

. (7.32b)<br />

f1,t−1p1,t−1 + f2,t−1 (1 − p1,t−1)<br />

Observe-se a estrutura recursiva: dadas as condições iniciais<br />

f1,0, f2,0 e p1,0,<br />

obtém-se (para t = 1) p1,1 e depois f (y1| F0) . Com os valores<br />

f1,1, f2,1 e p1,1<br />

obtém-se (para t = 2) p1,2 e depois f (y2| F1) . O procedimento recursivo é repetido até se<br />

obter f (yn| Fn−1) .<br />

258


Regimes dependentes de St−1 e de Ft−1<br />

Assume-se para simplificar N = 2. Sob esta hipótese a cadeia de Markov é não homogénea<br />

(varia ao longo do tempo). Desta forma, as probabilidades P (St = 1| St−1 = 1, Ft−1) e<br />

P (St = 2| St−1 = 2, Ft−1) dependem de Ft−1. Suponha-se, para simplificar, que estas prob-<br />

abilidades dependem apenas de yt−1. Uma forma de relacionarmos as probabilidades com<br />

yt−1 consiste, por exemplo, em formular uma representação probit para as probabilidades:<br />

P (St = 1| St−1 = 1, Ft−1) = Φ (α0 + α1yt−1) ,<br />

P (St = 2| St−1 = 2, Ft−1) = Φ (β 0 + β 1yt−1)<br />

onde Φ é a função de distribuição normal (como é usual na representação probit). A matriz<br />

de probabilidades de transição é agora<br />

⎡<br />

Pt = ⎣ p11t p12t<br />

p21t p22t<br />

⎤<br />

⎦ =<br />

⎡<br />

⎣ Φ (α0 + α1yt−1) 1 − Φ (α0 + α1yt−1)<br />

1 − Φ (β 0 + β 1yt−1) Φ (β 0 + β 1yt−1)<br />

O procedimento anterior (ponto “Regimes Seguem uma Cadeia de Markov”) mantém-se<br />

válido, havendo apenas que substituir pij por pijt.<br />

Regimes dependentes apenas de Ft−1<br />

Assume-se para simplificar N = 2. Sob esta hipótese, St dado Ft−1, não depende de St−1.<br />

Por exemplo, suponha-se que St depende de yt−1. Desta forma, a probabilidade P (St = i| Ft−1)<br />

pode ser estimada no quadro do modelo probit ou logit. Considerando a representação probit,<br />

tem-se<br />

P (St = 1| Ft−1) = Φ (β 0 + β 1yt−1) . (7.33)<br />

Esta hipótese, mais restritiva do que a precedente, simplifica consideravelmente a cal-<br />

culatória já que a função densidade de probabilidade condicional pode agora expressar-se<br />

simplesmente na forma f (yt| Ft−1) = 2<br />

i=1 fitP (St = i| Ft−1) = f1tΦ (β 0 + β 1yt−1) +<br />

f2t (1 − Φ (β 0 + β 1yt−1)) .<br />

259<br />

⎤<br />


7.4.6 Estacionaridade<br />

Considere-se<br />

yt =<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

c1 + φ 11yt−1 + ... + φ 1pyt−p + ut se St = 1<br />

...<br />

cN + φ N1yt−1 + ... + φ Npyt−p + ut se St = N<br />

(7.34)<br />

onde ut é um ruído branco e S é uma cadeia de Markov estacionária com vector de proba-<br />

bilidades estacionárias (π1, π2) . O modelo anterior pode escrever-se na forma<br />

ou ainda na forma Markoviana<br />

yt<br />

yt = c (St) + φ 1 (St) yt−1 + ... + φ p (St) yt−p + ut<br />

⎛ ⎞ ⎛<br />

⎞⎛<br />

⎞ ⎛<br />

⎞<br />

⎜<br />

⎝<br />

yt<br />

yt−1<br />

yt−2<br />

.<br />

φ<br />

⎟ ⎜ 1 (St)<br />

⎟ ⎜<br />

⎟ ⎜ 1<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎟ = ⎜ 0<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎟ ⎜ .<br />

⎠ ⎝<br />

φ2 (St)<br />

0<br />

1<br />

.<br />

· · ·<br />

· · ·<br />

· · ·<br />

. ..<br />

φp (St) yt−1 c (St) + ut<br />

⎟⎜<br />

⎟ ⎜<br />

⎟<br />

⎟⎜<br />

⎟ ⎜<br />

⎟<br />

0 ⎟⎜<br />

yt−2 ⎟ ⎜ 0 ⎟<br />

⎟⎜<br />

⎟ ⎜<br />

⎟<br />

⎟⎜<br />

⎟ ⎜<br />

⎟<br />

0 ⎟⎜<br />

yt−3 ⎟ + ⎜ 0 ⎟.<br />

⎟⎜<br />

⎟ ⎜<br />

⎟<br />

⎟⎜<br />

⎟ ⎜<br />

⎟<br />

. ⎟⎜<br />

. ⎟ ⎜ 0 ⎟<br />

⎠⎝<br />

⎠ ⎝<br />

⎠<br />

<br />

yt−p+1<br />

<br />

0 0<br />

<br />

· · · 0<br />

<br />

yt−p<br />

<br />

0<br />

<br />

At<br />

Stelzer (2009) estabelece a seguinte<br />

yt−1<br />

Ct<br />

(7.35)<br />

Proposição 7.4.2 Considere-se o processo (7.34) na representação (7.35) e assuma-se: {u}<br />

é um processo EE, E log + A0 < ∞, E log + C0 < ∞ e<br />

γ = lim<br />

n→∞ 1/ (n + 1) E log + A0A−1...A−t < 0.<br />

Então y é EE. Além disso, se {At} é um processo EE então E log + A0 < 0 implica<br />

γ < 0.<br />

Proposição 7.4.3 Considere-se yt = c (St) + φ 1 (St) yt−1 + ut com dois regimes N = 2. Se-<br />

jam π1 e π2 as probabilidades estacionárias da cadeia de Markov S. Se {ut} é um processo<br />

EE com segundo momento finito e |φ 11| π1 |φ21| π2 < 1 então y é EE.<br />

260


Dem. Considerando a norma Euclidiana e a desigualdade de Jensen, tem-se<br />

E log + C0 =<br />

<br />

E log +<br />

<br />

c2 (St) + u2 <br />

t = 1<br />

2 E log + c 2 (St) + u 2 t<br />

≤ 1<br />

2 log E c 2 (St) + E u 2 t < ∞.<br />

Como a cadeia de Markov é estritamente estacionária (tem distribuição estacionária π =<br />

(π1, π2), segue-se que {At} é um processo EE, pelo que basta verificar E log + A0 < 0.<br />

No caso em análise a “matriz” A0 reduz-se ao elemento A0 = φ 1 (St) . Tem-se<br />

e, portanto,<br />

⎧<br />

⎨<br />

log |φ1 (St)| =<br />

⎩<br />

E log + A0 = E (log |φ 1 (St)|)<br />

log |φ 11| St = 1<br />

log |φ 21| St = 2<br />

= P (St = 1) log |φ 11| + P (St = 2) log |φ 21|<br />

= π1 log |φ 11| + π2 log |φ 21|<br />

= log (|φ 11| π1 |φ21| π2 ) .<br />

Segue-se que |φ 11| π1 |φ21| π2 < 1 implica E log + A0 < 0.<br />

Exemplo 7.4.4 Considere-se<br />

yt =<br />

⎧<br />

⎨<br />

⎩<br />

2yt−1 + ut se St = 1<br />

0.6yt−1 + ut se St = 2<br />

⎛ ⎞<br />

0.1<br />

P = ⎝<br />

0.9<br />

⎠ (7.36)<br />

0.2 0.8<br />

onde ut é um processo ruído branco. Um processo AR(1) com coeficente φ = 2 não só é não<br />

estacionário como é explosivo (tende para mais infinito em tempo finito). No entanto, yt é<br />

EE. Com efeito, a partir de P obtém-se π1 = 0.1818 e π2 = 1 − π1 = 0.8182 (conferir a<br />

proposição 7.4.1 e o exemplo 7.4.3). Por outro lado, invocando a proposição 7.4.3, tem-se<br />

|φ 11| π1 |φ21| π2 = 2 0.1818 0.6 0.8182 = 0.746 < 1. Logo y é EE. Este resultado é interessante.<br />

De facto poderíamos pensar que o comportamento explosivo de yt no regime 1 implicaria<br />

um processo não estacionário. Isto não sucede porque a probabilidade do sistema estar num<br />

dado momento no regime estável é relativamente elevada. O processo pode, episodicamente,<br />

entrar no regime 1 e atingir valores extremamente elevados, mas num intervalo de tempo<br />

261


Figura 7-22: Simulação de uma trajectória do processo (7.36) onde ut ∼ N (0, 1) (10000<br />

observações)<br />

relativamente curto o process reentra no regime 2 com probabilidade elevda, e o valor do<br />

processo retorna ao intervalo dos valores “moderados” do processo (diríamos ao centro de<br />

gravidade da distribuição estacionária). A figura apresenta uma trajectória simulado do<br />

processo.<br />

No contexto dos modelos MS com heterocedasticidade condicional, Bauwens et al. (2006)<br />

o seguinte modelo<br />

onde<br />

yt =<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

c1 + σ1tεt se St = 1<br />

...<br />

cN + σNtεt se St = N<br />

σ 2 it = ωi + αiu 2 t−1 + β iσ 2 t−1.<br />

Supõe-se ainda que a cadeia St depende de yt−1,<br />

2<br />

P (St = i| Ft−1) = pit yt−1 , i = 1, 2, ..., N<br />

Sem perda de generalidade, seleccione-se o regime 1 como sendo o regime “estável”, α1 +<br />

β 1 < 1. Bauwens et al. (2006) estabelecem a<br />

262


Proposição 7.4.4 Suponha-se: (a) {εt} é uma sucessão de v.a. i.i.d. de média zero e variân-<br />

cia um, com função de densidade contínua em R; (b) αi > 0, βi > 0, para i = 1, 2, ..., N;<br />

<br />

2 2 2 (c) α1 + β1 < 1 e (d) p1t yt−1 > 0 e pit yt−1 → 1 quando yt−1 → ∞. Então y é EE.<br />

A proposição assegura que o processo retorna ao regime estável sempre que yt tende a<br />

assumir valores muito altos (alínea d)).<br />

No caso especial em que as probabilidades são constantes, pit = πi, é válido a seguinte<br />

Proposição 7.4.5 Suponham-se verificadas as condições (a) e (b) da proposição anterior.<br />

Se<br />

então é EE.<br />

N<br />

j=1<br />

7.4.7 Estimação e Inferência<br />

πj<br />

<br />

βj + αj < 1<br />

Comece-se por analisar o modelo (7.25) e seja θ o vector dos parâmetros a estimar. Como ha-<br />

bitualmente, o estimador de máxima verosimilhança é dado por ˆ θn = arg maxθ<br />

onde<br />

lt (θ) = log f (yt| Ft−1; θ) = log (f1tp1t + f2t (1 − p1t)) .<br />

n<br />

t=1 lt (θ) ,<br />

Se os regimes são independentes, p1t é dado pela equação (7.28); se seguem uma cadeia de<br />

Markov, p1t é dada por (7.32a); finalmente, se os regimes são Ft−1 mensuráveis, p1t é dado<br />

por (7.33) ou (??).<br />

Pode-se mostrar:<br />

√ <br />

n ˆθn d <br />

− θ0 −→ N 0, I (θ0) −1<br />

onde I (θ0) é a matriz de informação de Fisher. Verifica-se I (θ0) = A (θ0) = B (θ0) onde<br />

A (θ) = − E<br />

Estimadores consistentes de A e B são<br />

2 ∂ lt (θ)<br />

∂θ∂θ ′<br />

<br />

, B (θ) = E<br />

Ân = − 1<br />

n<br />

ˆBn = 1<br />

n<br />

t=1<br />

n<br />

∂ 2 lt<br />

∂θ<br />

<br />

ˆθn<br />

∂lt (θ)<br />

∂θ<br />

∂θ∂θ<br />

t=1<br />

′<br />

p<br />

−→ A (θ0)<br />

<br />

n ∂lt ˆθn ∂lt ˆθn<br />

p<br />

−→ B (θ0) .<br />

263<br />

∂θ ′<br />

∂lt (θ)<br />

∂θ ′<br />

<br />

.


Os ensaios individuais para os parâmetros da média e da variância condicional (GARCH)<br />

podem ser feitos como habitualmente. Isto é, podem basear-se no resultado<br />

ˆ θi,n<br />

a<br />

∼ N (θi, ˆvii)<br />

onde θi é o parâmetro (escalar) i, e vii é o elemento ii da matriz I (θ0) −1 /n.<br />

No ensaio, um regime versus dois regimes, H0 : c1 = c2, φ 1 = φ 2, σ1 = σ2, H1 : H0 é<br />

falsa, a situação é similar ao do ensaio H0 : φ 1= φ 2 no contexto do modelo TAR: os testes<br />

assimptóticos habituais (rácio de verosimilhanças, Wald e multiplicador de Lagrange) não<br />

podem ser empregues. Sob a hipótese nula (um regime) vários parâmetros não são identi-<br />

ficáveis (o score com respeito a estes parâmetros é identicamente nulo e a matriz informação<br />

de Fisher resulta singular). Uma forma de lidar com este tipo de ensaio não standard é<br />

proposto por Davies (1987), que obtém um limite superior para o nível de significância do<br />

teste rácio de verosimilhança quando q parâmetros apenas são identificáveis sob a hipóteses<br />

alternativa:<br />

P (sup LR > LRobs) ≤ P χ2 <br />

q > LRobs<br />

+V.LR (q−1)/2<br />

obs . exp {−LRobs} 2−q/2<br />

Γ(q/2) .<br />

(7.37)<br />

onde Γ é a função gama, LRobs = 2 (log L 1 n − log L 0 n) e L 1 n e L 0 n são os valores da função de<br />

log-verosimilhança sob H1 e H0, respectivamente. Se a função o rácio de verosimilhanças<br />

admite um máximo global então V = 2 √ LRobs. Os passos para implementar o teste no<br />

contexto do modelo (7.25) são os seguintes:<br />

1. Estimar o modelo AR(1) e obter L 0 n;<br />

2. Estimar o MS (7.25) e obter L 1 n;<br />

3. Calcular LRobs, P χ2 <br />

q > LRobs , V, etc.;<br />

4. Calcular o limite superior de P (sup LR > LRobs) usando a expressão (7.37).<br />

Suponhamos que se obtém P (sup LR > LRobs) ≤ 0.02. Então rejeita-se H0 ao n.s. de<br />

5% pois o verdadeiro p-value é inferior a 0.02. Suponhamos que P (sup LR > LRobs) ≤<br />

0.06. Nada se pode concluir ao n.s. de 5% pois o verdadeiro p-value pode ser 0.04 ou 0.055.<br />

Tudo o que sabemos é que é inferior a 0.06.<br />

Outro teste, designado por teste-J, é proposto por Garcia e Perron (1996) e baseia-se na<br />

264


significância estatística do parâmetro δ (teste-t) da regressão<br />

onde ˆ X (1)<br />

t<br />

e ˆ X (2)<br />

t<br />

Xt = (1 − δ) ˆ X (1)<br />

t + δ ˆ X (2)<br />

t + εt<br />

são os previsores dos modelos com um e dois regimes, respectivamente (o<br />

teste generaliza-se imediatamente ao caso em que ˆ X (1)<br />

t<br />

é o previsor do modelo com menos<br />

regimes). Assim, a rejeição de H0: δ = 0 mostra evidência a favor do modelo com mais<br />

regimes.<br />

7.4.8 Previsão<br />

Suponha-se que y segue um modelo MS com dois regimes e estão disponíveis em n ob-<br />

servações de y, {y1, y2, ..., yn} . Usando, como previsor para yn+h a função E (yn+h| Fn) ,<br />

tem-se<br />

E (yn+h| Fn) = E (yn+h| Fn, Sn+h = 1) P (Sn+h = 1| Fn)<br />

+ E (yn+h| Fn, Sn+h = 2) P (Sn+h = 2| Fn)<br />

onde E (yn+h| Fn, Sn+h = i) é, como já vimos, a média condicional do regime i (no contexto<br />

do modelo (7.25) tem-se E (yn+h| Fn, Sn+h = 1) = E (c1 + φ 1yn+h−1| Fn)). A probabili-<br />

dade P (Sn+h = i| Fn) depende da hipótese que se tem sobre S. Se admitirmos que S segue<br />

uma cadeia de Markov, vem<br />

P (Sn+h = 1| Fn) =<br />

Tendo em conta (7.23), resulta<br />

=<br />

=<br />

2<br />

P (Sn+h = 1, Sn = i| Fn)<br />

i=1<br />

2<br />

P (Sn+h = 1| Sn = i, Fn) P (Sn = i| Fn)<br />

i=1<br />

2<br />

P (Sn+h = 1| Sn = i) P (Sn = i| Fn) .<br />

i=1<br />

P (Sn+h = j| Sn = i) = P h<br />

i,j = elemento (i, j) da matriz P h .<br />

265


Finalmente, tendo em conta a equação (7.31),<br />

7.4.9 Aplicação<br />

P (Sn = i| Fn) =<br />

f (yn| Sn = i, Fn−1) P (Sn = i| Fn−1)<br />

N j=1 f (yn| Sn = j, Fn−1) P (Sn = j| Fn−1) .<br />

Analisa-se a taxa de juros FED fund 13 (EUA) no período Julho de 1954 a Outubro de 2006<br />

(628 observações mensais).<br />

A literatura dos modelos de taxas de juro (a um factor) sugere que a volatilidade da taxa<br />

de juro depende do nível da taxa de juro. Um dos modelos mais usados em matemática<br />

financeira (tempo contínuo) é o processo CIR (devido a Cox, Ingersoll e Ross):<br />

drt = β (τ − rt) dt + σ √ rtdWt, β, τ, σ > 0 (7.38)<br />

onde rt é a taxa de juro spot instantânea e W é o chamado processo de Wiener. Todos<br />

os parâmetros podem ser estimados consistente e eficientemente pelo método da máxima<br />

verosimilhança. A discretização do processo (i.e. a passagem para um processo em tempo<br />

discreto que aproximadamente traduz a dinâmica de (7.38)) simplifica a análise (embora no<br />

caso presente não seja necessário). A discretização pelo esquema de Euler (supondo para<br />

simplificar que o hiato entre duas observações consecutivas, ∆, é constante e igual a um)<br />

conduz ao modelo,<br />

rt = c + φrt−1 + σ √ rt−1εt<br />

(7.39)<br />

onde c = βτ, φ = (1 − β). Esta discretização de Euler envolveu a troca de drt por rt − rt−1,<br />

dt por ∆ = 1, e dWt por √ ∆×εt. Estas trocas representam apenas aproximações e envolvem,<br />

por isso, erros.<br />

Resultados preliminares mostram que existe forte presença de heterocedasticidade e que<br />

a sua dinâmica é compatível com a que está subjacente ao modelo (7.39).<br />

A estimação dos parâmetros do modelo (7.39), pelo método da máxima verosimilhança,<br />

assumindo normalidade, conduziu aos resultados que se apresentam na figura 7-23.<br />

Vários autores têm sugerido a existência de diferentes dinâmicas ou regimes no compor-<br />

tamento da taxa de juro (veja-se, por exemplo, Gray, 1996). Concretamente, argumenta-se o<br />

seguinte: quando as taxas de juro são altas (anos 80) a volatilidade é alta e o processo exibe<br />

13 É oficialmente designada por Federal funds effective rate, com maturidade overnight.<br />

266


Mean log­likelihood ­1.07420<br />

Number of cases 628<br />

Covariance of the parameters computed by the following method:<br />

QML covariance matrix<br />

Parameters Estimates Std. err. Gradient<br />

­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­c<br />

0.0764 0.0394 0.0000<br />

fhi 0.9878 0.0091 0.0000<br />

sigma 0.0355 0.0052 0.0000<br />

Figura 7-23: Resultados da estimação do modelo (7.39)<br />

Mean log­likelihood ­0.767141<br />

Number of cases 628<br />

Covariance of the parameters computed by the following method:<br />

Inverse of computed Hessian<br />

Parameters Estimates Std. err. Gradient<br />

­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­c1<br />

0.0937 0.0508 0.0000<br />

fhi1 0.9848 0.0077 0.0000<br />

sigma1 0.5497 0.0183 0.0000<br />

c2 0.2100 0.1357 0.0000<br />

fhi2 0.9697 0.0157 0.0000<br />

sigma2 0.0866 0.0093 0.0000<br />

p11 0.9976 0.0024 0.0000<br />

p22 0.9912 0.0083 0.0000<br />

Figura 7-24: Resultados da estimação do modelo (7.39)<br />

reversão para uma média de longo prazo; quando as taxas de juro são baixas, a volatilidade<br />

é baixa e observa-se ausência de reversão para uma média. Este argumento sugere a existên-<br />

cia de dois regimes: um regime de altas taxas de juro e alta volatilidade e um regime de<br />

baixas taxas de juro e baixa volatilidade. Depois de vários ensaios seleccionou-se o seguinte<br />

modelo:<br />

yt =<br />

⎧<br />

⎨<br />

⎩<br />

c1 + φ 1yt−1 + σ1εt<br />

c2 + φ 2yt−1 + σ2<br />

se St = 1<br />

√ yt−1εt se St = 2<br />

(7.40)<br />

cujos resultados de estimação, pelo método da máxima verosimilhança, assumindo normali-<br />

dade, estão apresentados na figura 7-24.<br />

A figura 7-25 apresenta a sucessão das probabilidades estimadas<br />

<br />

ˆP (St = 1| Ft−1) ; t = 2, ..., n .<br />

Recorde-se que P (St = 1| Ft−1) é a probabilidade de y se encontrar no regime 1 no mo-<br />

mento t, dado Ft−1. Podemos observar, a partir da figura 7-25, que o processo y se encontrou,<br />

com alta probabilidade, no regime 1 durante as décadas de 80 e 90. Durante os anos 2003-<br />

2005 o processo encontrou-se, com alta probabilidade no regime 2. Em 2006, o processo<br />

não está totalmente em nenhum dos regimes.<br />

267


Figura 7-25: Taxa de juro e probabilidades P (St = 1| Ft−1) estimadas<br />

Página em branco<br />

268


Capítulo 8<br />

Modelação da Heterocedasticidade<br />

Condicionada - Caso Univariado<br />

8.1 Introdução<br />

(Última actualização: 3/2010)<br />

Vimos no capítulo 3 que fortes variações dos retornos são normalmente seguidas de fortes<br />

variações dos retornos em ambos os sentidos, e que baixas variações dos retornos são normal-<br />

mente seguidas de baixas variações dos retornos, também, em ambos os sentidos (veja-se,<br />

por exemplo, a figura 3-17). Este facto estilizado indica muito claramente que a volatilidade<br />

não é constante ao longo do tempo. Uma forma mais subtil de mostrar que a volatilidade<br />

não é constante consiste em constatar que a série dos quadrados dos resíduos (ou mesmo os<br />

quadrados dos retornos) é autocorrelacionada.<br />

8.1.1 Por que razão a volatilidade não é constante?<br />

• Uma parte da volatilidade pode ser relacionada com a especulação. Em certos mode-<br />

los distingue-se duas classes de investidores: investidores racionais que tendem a “em-<br />

purrar” o preço dos activos na direcção do valor fundamental ou intrínseco da empresa<br />

(normalmente formalizado como o valor actual dos fluxos financeiros que o investidor<br />

espera vir a receber no futuro) e especuladores que baseiam as suas decisões em in-<br />

formações estatísticas geradas pelo mercado, como por exemplo, os preços passados<br />

e o volume de transacções. Quando a proporção de especuladores é alta e os sinais<br />

269


de mercado são interpretados de forma análoga pela maior parte dos especuladores,<br />

formam-se tendências fortes de compra ou de venda que se reflectem no preço e na<br />

volatilidade.<br />

• Episódios de extrema volatilidade ocorrem quando uma “bolha especulativa” rebenta,<br />

i.e., quando depois de um período considerável de crescimento dos preços, sucede<br />

uma repentina e inesperada quebra do mercado. Estas “bolhas especulativas” estão<br />

normalmente associadas a uma nova tecnologia (por exemplo, o boom da electrónica<br />

nos anos 60, da biotecnologia nos anos 80 ou da internet no fim dos anos 90) ou<br />

a um novo negócio (mais uma vez o caso da internet no fim dos anos 90). Gera-<br />

se um ambiente de euforia em torno dos títulos associados a uma certa tecnologia<br />

e/ou negócio e emerge um comportamento irracional de grupo totalmente desligado<br />

do valor intrínseco dos títulos.<br />

• Graves crises económicas e políticas também explicam momentos de alta volatilidade.<br />

• Uma outra explicação (em certa medida complementar com as precedentes) relaciona<br />

a volatilidade com a chegada de informação aos mercados. Suponha-se, num cenário<br />

ideal ou hipotético, que o mercado está em equilíbrio (não há flutuação dos preços).<br />

Quando chega informação ao mercado os agentes reavaliam as suas carteiras (perante<br />

a nova informação, deixam de ser “óptimas”); tenderão, por conseguinte, a vender<br />

ou a comprar activos até que se atinja um novo equilíbrio. A acção de comprar e<br />

vender títulos tende a alterar os preços. A hipótese crucial é a de que a informação não<br />

chega de forma homogénea e contínua ao mercado. Quando a chegada de informação<br />

é reduzida e pouco relevante os mercados tenderão a exibir baixa volatilidade; pelo<br />

contrário, quando a informação é intensa e relevante, poderão ocorrer períodos de<br />

forte volatilidade. A informação relevante aqui deve ser entendida como a informação<br />

que, de alguma forma, afecta a rendibilidade dos activos. Por exemplo, a libertação de<br />

notícias relacionadas com inflação, taxas de juro, PIB, etc., geralmente têm impacto<br />

sobre a volatilidade e sobre os preços.<br />

O modelo que se apresenta a seguir procura replicar o fenómeno de volatilidade não<br />

constante a partir do conceito de chegada de informação. Seja Nt o número de notícias no<br />

dia t. Quando uma notícia chega ao mercado supõe-se que existe uma revisão do preço de um<br />

certo activo. Essa revisão traduz-se numa variação do preço numa quantidade aleatória dada<br />

270


por εi,t (i = 1, ..., Nt). Se existir uma notícia (relevante) num certo dia t, o logaritmo do preço<br />

no dia t é representado por log Pt = log Pt−1 + µ + ε1,t; se existirem duas notícias o modelo<br />

passa a ser representado por log Pt = log Pt−1 + µ + ε1,t + ε2,t (e assim sucessivamente).<br />

Assuma-se que {εi,t; i = 1, 2, ..., Nt} é uma sucessão de v.a. i.i.d. com distribuição N (0, σ 2 )<br />

e independentes de Nt. Tem-se assim que o retorno do activo é dado por<br />

Nt <br />

rt = µ + εi,t. (8.1)<br />

Resulta do modelo que a variância de rt dado Nt é não constante, pois<br />

i=1<br />

Var (rt| Nt = nt) = ntσ 2<br />

(de acordo com este modelo, quanto maior é o número de notícias que chegam ao mercado,<br />

maior é a volatilidade). É razoável admitir-se uma distribuição de Poisson de parâmetro λ<br />

para a v.a. Nt, i.e., Nt ∼ P (λt). Podemos ainda refinar o modelo, incorporando persistência<br />

em Nt, i.e. permitindo que Nt seja alto (baixo) sempre que Nt−1 é alto (baixo). Por outras<br />

palavras, o volume de informação tende a ser alto (baixo) em períodos seguidos. Nestas<br />

circunstâncias, passa a assumir-se Nt ∼ P (λt) com λt = Nt−1 + 1 (o número médio de<br />

notícias no dia t é igual ao número de informações do período anterior mais uma unidade)<br />

(adiciona-se uma unidade para evitar que λt = 0 para algum t). Na figura 8-1 representa-se<br />

uma trajectória simulada de (8.1) para µ = 0, σ = 0.0015 e Nt ∼ P (λt) , λt = Nt−1 + 1.<br />

Podemos observar que a trajectória simulada replica algumas das características típicas das<br />

séries financeiras.<br />

Retome-se a equação (8.1). Esta equação sugere a especificação<br />

rt = µ + ut, ut = σtεt.<br />

O essencial nesta equação é a ideia de que ut tem variância condicional σ 2 t não constante.<br />

Suponha-se de agora em diante que σ 2 t é Ft−1-mensurável (i.e., σ 2 t depende apenas de var-<br />

iáveis observadas no momento t − 1) 1 .<br />

1 No exemplo anterior, σ 2 t = ntσ 2 não é Ft−1-mensurável.<br />

271


0.03<br />

0.025<br />

0.02<br />

0.015<br />

0.01<br />

0.005<br />

0<br />

­0.005<br />

­0.01<br />

­0.015<br />

­0.02<br />

­0.025<br />

1 101 201 301 401 501 601 701 801 901<br />

Figura 8-1: Simulação de uma trajectória de rt, assumindo µ = 0, σ = 0.0015 e Nt ∼ P (λt)<br />

onde λt = Nt−1 + 1.<br />

8.1.2 Processos Multiplicativos<br />

Considere-se ut = σtεt e as seguintes hipóteses:<br />

H1 {εt} é uma sucessão de v.a. i.i.d. com E (εt) = 0 e Var (εt) = 1;<br />

H2 εt é independente de ut−k, k ∈ N;<br />

H3 σt é Ft−1 mensurável.<br />

Tem-se:<br />

E (ut| Ft−1) = E (σtεt| Ft−1) = σt E (εt| Ft−1) = 0<br />

Var (ut| Ft−1) = E u 2 t<br />

<br />

Ft−1<br />

= E σ 2 t ε 2 t<br />

t<br />

<br />

Ft−1<br />

= σ 2 t E ε 2 t<br />

<br />

Ft−1<br />

= σ 2 t .<br />

Assim, processos multiplicativos do tipo ut = σtεt, com σt não constante, são processos het-<br />

erocedásticos (variância não constante). Este tipo de modelos estão presentes na abordagem<br />

tradicional da heterocedasticidade. Por exemplo, se zt−1 > 0 é exógena e ut = αzt−1εt,<br />

então a expressão Var (ut| zt−1) = α 2 z 2 t−1 não é constante.<br />

Processos estocásticos com heterocedasticidade condicional (HC) (variância não con-<br />

stante ao longo do tempo), são também definidos a partir de um processo multiplicativo do<br />

tipo ut = σtεt mas, comparativamente ao caso tradicional, a forma como σ 2 t é especificado<br />

varia substancialmente, como veremos a seguir. Que função especificar para σt ou σ 2 t ? Vimos<br />

que uma das características das séries financeiras é exibir volatility clustering: fortes vari-<br />

ações são normalmente seguidas de fortes variações em ambos os sentidos, devendo ocorrer,<br />

272


portanto, Corr u2 t−1, u2 <br />

t > 0. Suponha-se, por um momento que ut representa a série fi-<br />

nanceira. Portanto, se u 2 t−1 é um valor alto (baixo), em média, u 2 t será também um valor alto<br />

(baixo). Nestas circunstâncias, faz sentido escrever o seguinte modelo para σ 2 t :<br />

Com efeito, tem-se esquematicamente:<br />

σ 2 t = ω + α1u 2 t−1, ω > 0, α1 ≥ 0. (8.2)<br />

u 2 t−1 é “alto” ⇒ σ 2 t é “alto” ⇒ u 2 t é “alto” (recorde-se ut = σtεt).<br />

No caso clássico de heterocedasticidade, a variância depende da evolução de uma ou mais<br />

variáveis exógenas, determinadas fora do modelo (zt−1 no exemplo anterior); no modelo de<br />

HC, a volatilidade σ 2 t é uma variável aleatória função de choques aleatórios determinada<br />

dinamicamente, a partir do próprio modelo:<br />

u 2 t−1 → σ 2 t → u 2 t → σ 2 t+1 → ...<br />

Se ut é encarado como uma v.a. residual do modelo<br />

yt = µ t + ut<br />

é fácil ver que a heterocedasticidade definida em ut é transmitida a yt:<br />

Var (yt| Ft−1) = E (yt − µ t) 2 <br />

Ft−1 = Var (ut| Ft−1) = σ 2 t .<br />

8.1.3 Distribuições de Caudas Pesada<br />

Uma característica muito importante dos modelos de HC é o de implicar (sob certas condições)<br />

distribuições marginais leptocúrticas. Retome-se o modelo ut = σtεt sob as hipóteses H1-<br />

H3. Admita-se ainda que o choque aleatório εt tem distribuição N (0, 1) . Tem-se<br />

E (ut) = 0<br />

Var (ut) = E u 2 t = E σ 2 t<br />

E u 3 t = 0 ⇒ skweness = 0.<br />

273


Mostre-se que a distribuição marginal de u é leptocúrtica. Para o efeito, calcule-se o coefi-<br />

ciente de kurtosis de u,<br />

e verifique-se que ku > 3. Ora<br />

pelo que<br />

ku = E (u 4 t )<br />

E (u 2 t ) 2<br />

E u 4 t = E σ 4 t ε 4 t = E σ 4 σ <br />

4 2 2<br />

t E εt = E t E ε 4 t<br />

> E σ 22 t E ε 4 t = E u 22 t E ε 4 t = E u 22 t 3<br />

ku = E (u4 t )<br />

E (u2 t ) 2 > E (u2 t ) 2 3<br />

E (u2 t )<br />

2 = 3.<br />

Este resultado sugere que um modelo de HC pode ser adequado para modelar retornos, pois<br />

acomoda uma das características mais importantes das séries financeiras que é a dos retornos<br />

seguirem uma distribuição leptocúrtica.<br />

8.1.4 O papel da Média Condicional e o Modelo de Heterocedasticidade<br />

Condicionada<br />

Vimos que fortes variações de y são normalmente seguidas de fortes variações em ambos os<br />

sentidos. Teoricamente, este efeito pode ser modelado através da média condicional. Esta<br />

seria a situação ideal. Se a média condicional modelasse este efeito, conseguiríamos prever<br />

razoavelmente as variações de y e, nestas circunstâncias, não só o erro ut = yt − µ t seria<br />

baixo como também a volatilidade de y poderia ser baixa e mesmo constante ao longo do<br />

período. No entanto, vimos que a média condicional é geralmente uma componente muito<br />

fraca do modelo (recorde-se a questão dos mercados eficientes). Isto é, se considerarmos o<br />

modelo yt = µ t + ut, a média condicional µ t (representada, por exemplo, por um AR ou<br />

MA), é uma componente pouco explicativa do modelo. Assim, quando y 2 t é alto, u 2 t também<br />

é alto (porque a média condicional não acompanha as flutuações de yt) e, consequentemente,<br />

espera-se que u 2 t esteja fortemente correlacionado com u 2 t−1.<br />

8.1.5 Vantagens dos modelos de Heterocedasticidade Condicionada<br />

Antes do artigo seminal de Engle (1982) as dependências temporais nos momentos superi-<br />

ores a um eram tratadas como simples ruído. Engle mostrou que as dependências temporais<br />

274


do segundo momento, podem explicar razoavelmente a evolução da volatilidade ao longo do<br />

tempo. A volatilidade condicional (doravante volatilidade) da série pode ser identificada com<br />

a variância condicional, σ 2 t , ou, simplesmente, com σt (em princípio, é preferível identificar<br />

a volatilidade com σt, pois σt está na escala da variável).<br />

Iremos ver que os modelos de HC permitem:<br />

• modelar a volatilidade (e as covariâncias condicionais, no caso multivariado); como<br />

se sabe, a volatilidade é uma variável fundamental na análise do risco de mercado, na<br />

construção de portfolios dinâmicos, na valorização de opções, etc.;<br />

• estimar de forma mais eficiente os parâmetros definidos na média condicional (por<br />

exemplo, se um processo ARMA exibir heterocedasticidade condicional, a estimação<br />

conjunta dos parâmetros da média e dos parâmetros da variância permite estimar efi-<br />

cientemente os parâmetros da média);<br />

• estabelecer intervalos de confiança correctos para y. Isto é, se y exibe HC e esta é neg-<br />

ligenciada, os intervalos de previsão para y são incorrectos. Observe-se, com efeito,<br />

que os intervalos de confiança dependem da variância do erro de previsão e o erro de<br />

previsão depende (entre outros aspectos) da variância (condicional) da v.a. residual.<br />

8.2 Modelo ARCH<br />

Considere-se o seguinte modelo<br />

yt = µ t + ut,<br />

µ t = E (yt| Ft−1) média condicional<br />

ut = σtεt<br />

Assumam-se as hipóteses H1-H3.<br />

Definição 8.2.1 ut segue um modelo ARCH(q) (ou tem representação ARCH(q)) se<br />

ut = σtεt<br />

σ 2 t = ω + α1u 2 t−1 + ... + αqu 2 t−q, ω > 0, αi ≥ 0<br />

275


etornos<br />

4<br />

2<br />

0<br />

­2<br />

­4<br />

retornos<br />

15<br />

10<br />

5<br />

0<br />

­5<br />

­10<br />

­15<br />

Panel (a)<br />

r(t) sigma(t)<br />

Panel (c)<br />

r(t) sigma(t)<br />

volatilidade<br />

20<br />

15<br />

10<br />

5<br />

0<br />

volatilidade<br />

20<br />

15<br />

10<br />

5<br />

0<br />

retornos<br />

15<br />

10<br />

5<br />

0<br />

­5<br />

­10<br />

­15<br />

retornos<br />

30<br />

20<br />

10<br />

0<br />

­10<br />

­20<br />

­30<br />

Panel (b)<br />

r(t) sigma(t)<br />

Panel (d)<br />

r(t) sigma(t)<br />

volatilidade<br />

20<br />

15<br />

10<br />

5<br />

0<br />

volatilidade<br />

Figura 8-2: Simulação de 4 trajectórias ARCH de acordo com o modelo (8.3).<br />

É importante constatar que σ 2 t ∈ Ft−1.<br />

Como a volatilidade exibe forte dependência temporal, raramente se considera q =<br />

1. Discute-se a seguir esta questão através de um exercício de simulação. Na figura 8-2<br />

apresenta-se as trajectórias simuladas para o retorno (rt) e σt considerando diferentes val-<br />

ores para os parâmetros αi. O modelo simulado é<br />

rt = ut, (µ t = 0)<br />

ut = σtεt, εt RB Gaussiano com variância 1 (8.3)<br />

σ 2 t = ω + α1u 2 t−1 + ... + α8u 2 t−8.<br />

Em todos os casos ω = 1. Na figura 8-2 tem-se:<br />

• Painel (a) ARCH(0) α1 = ... = α8 = 0;<br />

• Painel (b) ARCH(1) α1 = 0.8, α2 = ... = α8 = 0;<br />

• Painel (c) ARCH(3) α1 = 0.3, α2 = 0.3, α3 = 0.2, α4 = ... = α8 = 0;<br />

• Painel (d) ARCH(8) α1 = 0.2, α2 = ... = α8 = 0.1<br />

276<br />

20<br />

15<br />

10<br />

5<br />

0


Na figura 8-2 os gráficos que mais fielmente reproduzem o fenomeno de volatility clus-<br />

tering (volatilidades altas (baixas) são geralmente seguidas por volatilidades altas (baixas))<br />

e exibem alguma persistência no comportamento da volatilidade (tal como vimos nos pontos<br />

3.2.2 e 3.2.3), correspondem aos painéis (c) e (d). A simulação sugere que é mais apropriado<br />

em aplicações empíricas considerar-se um q elevado (não obstante, veremos adiante que é<br />

problemático estimar-se um modelo com q elevado).<br />

8.2.1 Dois Primeiros Momentos de ut<br />

Como εt é independente de ut−k, k ∈ N, segue-se que σ 2 t (que é uma função de ut−k, k ∈ N)<br />

é independente de εt. Logo,<br />

E (ut) = E (σtεt) = E (σt) E (εt) = 0,<br />

Var (ut) = E u 2 t = E σ 2 t ε 2 t = E σ 2 2<br />

t E εt = E σ 2 t . (8.4)<br />

Por outro lado, como {ut} é uma diferença de martingala, pois E (|ut|) < ∞ e E (ut| Ft−1) =<br />

0, resulta pela proposição 4.4.1, que ut é não autocorrelacionado, i.e. Cov (ut, ut−k) = 0.<br />

8.2.2 Representação AR de um ARCH<br />

Vimos, já por várias ocasiões, que existem dependências no segundo momento do processo.<br />

A representação autoregressiva do processo ARCH mostra exactamente esse aspecto. Tem-<br />

se,<br />

σ 2 t = ω + α1u 2 t−1<br />

u 2 t + σ 2 t = ω + α1u 2 t−1 + u 2 t<br />

u 2 t = ω + α1u 2 t−1 + u 2 t − σ 2 t<br />

<br />

u 2 t = ω + α1u 2 t−1 + vt<br />

Como E (vt| Ft−1) = E (u 2 t − σ 2 t | Ft−1) = E (u 2 t | Ft−1) − σ 2 t = 0, conclui-se pela definição<br />

4.4.3, que {vt} (admitindo que E (|vt|) < ∞) é uma diferença de martingala e, portanto,<br />

um processo não autocorrelacionado (E (vt) = 0 e Cov (vt, vt−k) = 0). Logo, tem-se o<br />

importante resultado: se ut segue um modelo ARCH(1) então u 2 t segue um processo AR(1).<br />

277<br />

vt


Esquematicamente:<br />

ut ∼ ARCH(1) ⇒ u 2 t ∼ AR(1).<br />

Assim, o processo u 2 t é autocorrelacionado (se α1 > 0) e apresenta as características básicas<br />

de um processo AR(1). De igual forma se conclui:<br />

ut ∼ ARCH(q) ⇒ u 2 t ∼ AR(q).<br />

8.2.3 Estacionaridade de Segunda Ordem do ARCH(q)<br />

Estude-se a ESO de u. Vimos que E (ut) e Cov (ut, ut−k) são finitos e não dependem de t;<br />

só falta estudar Var (ut). Em que condições Var (ut) = E (u 2 t ) não depende de t e é finita?<br />

Considere-se o ARCH(1) na sua representação autoregressiva:<br />

u 2 t = ω + α1u 2 t−1 + vt, α1 ≥ 0.<br />

Da estrutura autoregressiva conclui-se que a condição |α1| < 1 (ou equivalentemente: a raiz<br />

do polinómio AR (1 − α1L) = 0 é, em módulo, superior a um) implica E (u 2 t ) = σ 2 <<br />

∞. Se adicionarmos a esta condição, a restrição α1 ≥ 0, a condição de ESO passa a ser<br />

simplesmente,<br />

Se u é um processo ESO vem<br />

0 ≤ α1 < 1.<br />

E u 2 t = ω + α1 E u 2 <br />

t−1<br />

E u 2 t = ω + α1 E u 2 t ⇒ E u 2 ω<br />

t =<br />

1 − α1<br />

Considere-se agora o ARCH(q) na sua representação autoregressiva:<br />

u 2 t = ω + α1u 2 t−1 + ... + αqu 2 t−q + vt, αi ≥ 0.<br />

Da estrutura autoregressiva conclui-se que, se as raízes do polinómio AR (1 − α1L − ... − αqL q ) =<br />

0, estiverem todas fora do circulo unitário (complexo), então E (u 2 t ) = σ 2 < ∞. Se adicion-<br />

armos a esta condição, as restrições αi ≥ 0, a condição de ESO simplifica-se e, pode-se<br />

provar, é igual a<br />

α1 + α2 + ... + αq < 1, (αi ≥ 0).<br />

278


Neste caso, depois de algumas contas, obtém-se<br />

Var (ut) = E u 2 t =<br />

ω<br />

1 − (α1 + α2 + ... + αq) .<br />

Observação 8.2.1 Embora a expressão Var (ut| Ft−1) seja variável, Var (ut) é constante.<br />

Assim: ut é condicionalmente heterocedástico (heterocedasticidade condicional) mas em<br />

termos não condicionais ou marginais, ut é homocedástico. De forma análoga, também<br />

num processo estacionário, a média condicional é variável e a não condicional é constante.<br />

Por exemplo, num processo AR(1) estacionário, a média condicional é variável ao longo do<br />

tempo e dada por µ t = c + φyt−1; no entanto, a média marginal c/ (1 − φ) é constante.<br />

8.2.4 FAC e FACP de um u 2 t e Identificação do Processo ARCH(q)<br />

Suponha-se que o momento de ordem quatro de u é finito não depende de t. A FAC de u 2 t é<br />

dada por<br />

2<br />

ρk u Cov<br />

= ρk =<br />

u2 t , u2 <br />

t−k<br />

<br />

Var (u2 t ) Var u2 <br />

t−k<br />

, Var u 2 t = E u 4 t − E u 2 t<br />

Vimos que se ut segue um ARCH(q), então u 2 t segue um AR(q). Assim, a FAC e a FACP<br />

teóricas de u 2 exibem o comportamento típico de um AR:<br />

• (FAC) ρk não se anula e ρk → 0;<br />

⎧<br />

⎨ não se anula se k = 1, 2, ..., q<br />

• (FACP) φkk =<br />

⎩ 0 se k = q + 1, q + 2, ...<br />

Em particular, tem-se num ARCH(1):<br />

ρ k = α k 1, k ≥ 1<br />

φ 11 = α e φ kk = 0, k ≥ 2.<br />

Observação 8.2.2 Num ARCH(1) o 4 o momento existe se 3α 2 1 < 1 i.e. se α1 < 0.5774 e esta<br />

condição é, na prática, um pouco severa.<br />

Passos para a identificação da ordem q de um processo ARCH(q)<br />

1. Estima-se o modelo yt = µ t + ut supondo σ 2 t constante;<br />

279<br />

2


0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

­0.1<br />

FAC de u^2<br />

1 5 9 13 17 21 25 29<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

­0.1<br />

FACP de u^2<br />

1 5 9 13 17 21 25 29<br />

Figura 8-3: Simulou-se (n = 5000) um ARCH(q). Qual a ordem de q?<br />

2. Obtêm-se os resíduos ût = yt − ˆµ t, t = 1, ..., n;<br />

3. Calcula-se û 2 t , t = 1, ..., n;<br />

4. Calcula-se a FAC e a FACP de û 2 t e identifica-se a ordem q.<br />

Na figura 8-3 simulou-se um ARCH(q) com n = 5000 observações. Qual a ordem de q?<br />

8.2.5 Características da Distribuição Marginal de ut<br />

Suponha-se que εt é um ruído branco Gaussiano N (0, 1) . Então a distribuição condicional<br />

de ut é N (0, σ 2 ) , i.e., ut = σtεt| Ft−1 ∼ N (0, σ 2 t ) . Sob certas condições, a distribuição<br />

marginal de ut, f (ut), é dada pela expressão<br />

f (ut) = lim<br />

s→−∞ f (ut| Fs) .<br />

Como na prática não se consegue obter a expressão para o limite anterior, f é geralmente<br />

desconhecida; podemos ainda assim investigar algumas propriedades de f calculando alguns<br />

momentos:<br />

E (ut) = 0<br />

Var (ut) = E u 2 E<br />

ω<br />

t =<br />

1 − (α1 + ... + αq)<br />

u 3 t = 0 ⇒ skweness = 0<br />

ku = E (u 4 t )<br />

E (u 2 t ) 2 > kε = 3 (já vimos).<br />

Tem-se a seguinte importante conclusão: ku ≥ kε. A distribuição de u tem caudas mais<br />

pesadas do que a distribuição de ε. Se, como habitualmente, se assumir εt ∼ N (0, 1) , então<br />

280


kurtosis<br />

25<br />

20<br />

15<br />

10<br />

5<br />

0<br />

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0<br />

alfa 1<br />

Figura 8-4: Valor de kurtosis como função do parâmetro α1, associada a um ARCH(1)<br />

a distribuição marginal de u é leptocúrtica! Note-se, em esquema:<br />

ut| Ft−1 = σtεt| Ft−1 ∼ N 0, σ 2 t<br />

⇒ ut ∼ Dist.Leptocúrtica.<br />

Podemos obter uma expressão exacta para ku. Por exemplo, suponha-se ut ∼ ARCH(1),<br />

εt<br />

i.i.d.<br />

∼ N (0, 1) e 3α 2 1 < 1. Deixa-se como exercício mostrar que<br />

E u 4 t = 3 E σ 4 t ,<br />

E σ 4 ω<br />

t =<br />

2 (1 + α1)<br />

(1 − α1) (1 − 3α2 1) ,<br />

ku = E (u4 t )<br />

E (u2 t ) 2 = 3 (1 − α21) 1 − 3α2 1<br />

= 3 + 6α2 1<br />

1 − 3α 2 1<br />

> 3.<br />

Vimos que a distribuição de u tem caudas mais pesadas do que a distribuição de ε. A<br />

proposição seguinte caracteriza as caudas da distribuição marginal.<br />

Proposição 8.2.1 Seja ut = σtεt onde εt é um ruído branco Gaussiano N (0, 1) e σ 2 t =<br />

ω + α1u 2 t−1. Suponha-se α1 ∈ (0, 2e γ ) onde γ é a constante de Euler, γ 0.5772. Seja<br />

κ > 0 a solução única da equação<br />

α κ 1 E Z 2κ = 1 ⇔<br />

κ <br />

(2α1)<br />

√ Γ κ +<br />

π 1<br />

<br />

= 1 (8.5)<br />

2<br />

onde Γ é a função Gama e Z ∼ N (0, 1) . Então quando x → ∞, a probabilidade P (ut > x)<br />

281


converge para<br />

c<br />

2 x−2κ , c > 0.<br />

A proposição 8.2.1 basicamente estabelece que as abas da fdp f (x) de ut têm caudas de<br />

Pareto (i.e., para x suficientemente “grande” P (ut > x) - como função de x - e f (x) apre-<br />

sentam um decaimento polinomial). Este resultado está de acordo com os factos estilizados<br />

analisados no capítulo 3. É interessante verificar, mais uma vez, que embora a distribuição<br />

condicional seja normal a distribuição marginal é leptocúrtica e apresenta caudas pesadas<br />

(light-value input causes heavy-tailed output). O parâmetro κ obtém-se da resolução da<br />

equação (8.5). Não há, no entanto, uma solução explícita para κ (em função de α1) - a<br />

equação (8.5) deve resolver-se numericamente.<br />

Algumas conclusões:<br />

• Embora {ut} seja um processo não autocorrelacionado, {ut} não é uma sucessão<br />

de variáveis independentes (basta observar, por exemplo, E u2 t u2 <br />

t−1 = 0 ou que<br />

E (u 2 t | Ft−1) depende de u 2 t−1);<br />

• Mesmo que ut seja condicionalmente Gaussiano a distribuição marginal não é Gaus-<br />

siana. Em particular, se ut é condicionalmente Gaussiano então a distribuição marginal<br />

é leptocúrtica.<br />

8.2.6 Momentos e Distribuição de y<br />

Seja<br />

yt = µ t + ut<br />

ut = σtεt<br />

(assumem-se as hipóteses habituais para εt). Deixa-se como exercício verificar que:<br />

• E (yt| Ft−1) = µ t;<br />

• Var (yt| Ft−1) = σ 2 t ;<br />

• Se εt é Gaussiano então yt| Ft−1 ∼ N (µ t, σ 2 t ) ;<br />

• E (yt) = E (µ t) ;<br />

• Var (yt) = Var (E (yt| Ft−1)) + E (Var (yt| Ft−1)) = Var (µ t) + E (σ 2 t ) .<br />

282


4<br />

3<br />

2<br />

1<br />

0<br />

­1<br />

­2<br />

­3<br />

­4<br />

Retorno A<br />

8.2.7 Volatilidade: Definições<br />

t<br />

4<br />

3<br />

2<br />

1<br />

0<br />

­1<br />

­2<br />

­3<br />

­4<br />

Retorno B<br />

Figura 8-5: Qual é o retorno mais volátil?<br />

A volatilidade condicional no momento t (= σt) é uma medida da magnitude das variações<br />

(ou flutuações) não explicadas dos preços no momento t. No entanto, como µ t é quase<br />

sempre uma componente pouco explicativa de y (i.e. µ t ≈ 0, pelo menos para dados de<br />

frequência alta - dados semanais ou diários) podemos dizer (sem grande margem de erro)<br />

que a volatilidade condicional é uma medida da magnitude das variações (ou flutuações)<br />

dos preços no momento t. Esta é a definição usual de volatilidade do ponto de vista das<br />

instituições financeiras:<br />

“[. . . ] practitioners often refer to the term volatility when speaking of movements<br />

in financial prices and rates.” RiskMetrics<br />

Um título A pode exibir, comparativamente a um outro título B, maior volatilidade condi-<br />

cional em certos momentos do tempo mas, globalmente A pode ser menos volátil do que<br />

B. Nas figuras 8-5 o retorno A exibe episódios de grande volatilidade, mas B é (global-<br />

mente) mais volátil (i.e. considerando o período todo).<br />

Definimos volatilidade não condicional (ou marginal) como uma medida da magnitude<br />

das variações (ou flutuações) dos preços num hiato de tempo (meses ou anos) (que não são<br />

explicadas). Pode ser medida através da estatística<br />

ou se yt ∼ ARCH(q)<br />

Var (ut) =<br />

Var (ut) =<br />

n<br />

t=1<br />

n<br />

ût 2<br />

ˆω<br />

1 − (ˆα1 + ... + ˆαq) , (α1 + α2 + ... + αq < 1).<br />

283<br />

.<br />

t


No exemplo acima, a volatilidade marginal de B é maior do que a de A, embora B exiba<br />

volatilidade constante.<br />

8.3 Modelo GARCH<br />

Tendo em conta a forte dependência temporal da volatilidade, era usual, nas primeiras apli-<br />

cações, considerar-se um ARCH de ordem elevada. Um ARCH de ordem elevada levanta<br />

problemas de estimação (mais concretamente, de convergência dos algoritmos de optimiza-<br />

ção) e, não raras vezes obtêm-se máximos locais (e não globais, como é desejável). Como<br />

consequência, alguns das estimativas dos parâmetros podem vir desprovidos de significado<br />

(por exemplo, podem vir negativos) 2 . Para superar este problema, foram tentadas várias<br />

soluções (a maioria ad-hoc e sem muita relevância). Contudo, a melhor solução apareceu<br />

com o modelo GARCH. Veremos adiante este aspecto.<br />

Definição 8.3.1 ut segue um modelo GARCH(p,q) (ou tem representação GARCH(p,q)) se<br />

ut = σtεt<br />

σ 2 t = ω + α1u 2 t−1 + ... + αqu 2 t−q + β 1σ 2 t−1 + .. + β pσ 2 t−p<br />

ω > 0, αi ≥ 0, β ≥ 0 (ver no entanto a observação 8.3.1).<br />

Surpreendentemente, o modelo mais simples GARCH(1,1), σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1,<br />

veio a revelar-se suficiente em muitas aplicações.<br />

8.3.1 GARCH(p,q) representa um ARCH(∞)<br />

Considere-se o GARCH(p,q):<br />

σ 2 t = ω + α1u 2 t−1 + ... + αqu 2 t−q + β 1σ 2 t−1 + ... + β pσ 2 t−p<br />

σ 2 t = ω + (α1L + ... + αqL q )<br />

<br />

A(L)<br />

u 2 t + β 1L + ... + β pL<br />

(1 − B (L)) σ 2 t = ω + A (L) u 2 t .<br />

P<br />

σ 2 t<br />

<br />

B(L)<br />

2 No método dos mínimos quadrados (OLS) a estimação é relativamente simples e imediata, mesmo que o<br />

número de parâmetros a estimar seja alto. Afinal, o “algoritmo de optimização” converge numa única iteração.<br />

Já no âmbito dos modelos ARCH a estimação é mais complicada pois a função a minimizar é altamente não<br />

linear e os estimadores não podem ser escritos através de uma fórmula “fechada”.<br />

284


Assim,<br />

(1 − B (L)) σ 2 t = ω + A (L) u 2 t<br />

σ 2 t =<br />

ω A (L)<br />

+<br />

1 − B (L) 1 − B (L) u2 σ<br />

t =<br />

2 t =<br />

ω<br />

1 − B (1) + d1L + d2L 2 + ... u 2 t<br />

=<br />

ω<br />

1 − B (1) +<br />

∞<br />

diu 2 t−i.<br />

i=1<br />

ω<br />

1 − B (L) + D (L) u2 t<br />

Em suma, o modelo GARCH(p,q) pode ser representado como um ARCH(∞):<br />

σ 2 t =<br />

ω<br />

1 − β 1 − ... − β p<br />

+ d1u 2 t−1 + d2u 2 t−2 + ...<br />

Os parâmetros di podem ser determinados pelo método dos coeficientes indeterminados 3 ou<br />

a partir da fórmula de Taylor (veja-se o exemplo seguinte).<br />

Exemplo 8.3.1 Represente-se o GARCH(1,2) num ARCH(∞). Tem-se<br />

σ 2 t = ω + α1u 2 t−1 + α2u 2 t−2 + β 1σ 2 t−1<br />

σ 2 t = ω + α1L + α2L 2<br />

u<br />

<br />

A(L)<br />

2 t + (β<br />

1L)<br />

<br />

B(L)<br />

Assim, o GARCH(1,2) pode representar-se na forma<br />

σ 2 t =<br />

σ 2 t .<br />

ω A (L)<br />

+<br />

1 − B (1) 1 − B (L) u2t = ω<br />

+<br />

1 − β1 α1L + α2L2 1 − β1L u2t .<br />

Podemos obter os primeiros termos do desenvolvimento em série (de potências de L) de<br />

α1L+α2L 2<br />

1−β 1 L<br />

3 Considere-se<br />

no programa Mathematica através da instrução<br />

Series[ α1L + α2L2 , {L, 0, 7}].<br />

1 − β1L A (L)<br />

= D (L)<br />

1 − B (L)<br />

⇔ α1L + α2L 2 + ... + αqL q<br />

1 − β 1L − ... − β pL P<br />

= d1L + d2L 2 + ...<br />

⇔ α1L + α2L 2 + ... + αqL q = d1L + d2L 2 + ... 1 − β 1L − ... − β pL P .<br />

A partir da última equação igualam-se os coeficientes homólogos e resolvem-se as igualdades obtidas em ordem<br />

a di.<br />

285


O output do programa fornece:<br />

Assim,<br />

α1L + α2L 2<br />

1 − β 1L<br />

= α1L + (α2 + α1β1) L 2 + α2β1 + α1β 2<br />

3<br />

1 L<br />

+ α2β 2<br />

1 + α1β 3<br />

1<br />

+ α2β 4<br />

1 + α1β 5<br />

1<br />

L 4 + α2β 3<br />

L 6 + α2β 5<br />

1 + α1β 4<br />

1<br />

1 + α1β 6<br />

1<br />

L 5<br />

L 7 + ...<br />

d1 = α1, d2 = α2 + α1β 1, d3 = α2β 1 + α1β 2<br />

1, etc.<br />

Em geral di = β 1di−1, i = 3, 4...<br />

Observação 8.3.1 A condição ω > 0, αi ≥ 0, β ≥ 0 certamente implica σ 2 t > 0 mas não<br />

é necessário exigir tanto. Vimos atrás que σ 2 t = ω<br />

1−B(1) + ∞<br />

i=1 diu 2 t−i. Logo, para se ter<br />

σ 2 t > 0 basta exigir<br />

Por exemplo, no GARCH(1,2) vimos:<br />

Assim, temos apenas de garantir<br />

ω > 0 e di ≥ 0, i = 1, 2, ...<br />

d1 = α1, d2 = α2 + α1β 1, di = β 1di−1<br />

α1 ≥ 0, β 1 ≥ 0, α2 ≥ −α1β 1<br />

(verifique que os valores α1 = 0.2, α2 = −0.05, β 1 = 0.5 são admissíveis).<br />

8.3.2 Representação ARMA de um GARCH<br />

Para simplificar considere-se o GARCH(1,1): σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1. Some-se a ambos<br />

os termos a variável u 2 t :<br />

u 2 t + σ 2 t = ω + α1u 2 t−1 + u 2 t + β 1σ 2 t−1,<br />

286


isole-se u 2 t no lado esquerdo da equação e simplifique-se a equação até se obter o ARMA<br />

implícito:<br />

u 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1 + u 2 t − σ 2 t<br />

<br />

= ω + α1u 2 t−1 + β1σ 2 t−1 + β1u 2 t−1 − β1u 2 t−1 + vt<br />

= ω + (α1 + β1) u 2 2<br />

t−1 − β1 ut−1 − σ 2 <br />

t−1 + vt<br />

<br />

vt<br />

vt−1<br />

= ω + (α1 + β 1) u 2 t−1 − β 1vt−1 + vt.<br />

Como E (vt) = 0 e Cov (vt, vt−k) = 0 conclui-se: u 2 t ∼ ARMA(1, 1). No caso geral<br />

pode-se mostrar<br />

Por exemplo,<br />

ut ∼ GARCH(p,q) ⇒ u 2 t ∼ ARMA(max {p, q} , p).<br />

ut ∼ GARCH(1,2) ⇒ u 2 t ∼ ARMA(2,1)<br />

ut ∼ GARCH(2,1) ⇒ u 2 t ∼ ARMA(2,2)<br />

ut ∼ GARCH(2,2) ⇒ u 2 t ∼ ARMA(2,2)<br />

Em geral é problemático identificar o GARCH a partir das FAC e FACP de u 2 t . Por duas<br />

razões: 1) o GARCH implica uma estrutura ARMA para u 2 t e, como se sabe, no ARMA,<br />

nenhuma das funções de autocorrelação (FAC ou FACP) é nula a partir de certa ordem em di-<br />

ante (e, é esta característica que facilita a identificação das ordens do AR ou do MA, mas não<br />

do ARMA); 2) não existe uma correspondência perfeita entre a estruturas ARMA e GARCH<br />

(por exemplo, um ARMA(2,2) para u 2 t pode ser um GARCH(2,1) ou um GARCH(2,2) para<br />

ut). Quer isto dizer que as funções de autocorrelação não são interessantes nesta fase? De<br />

forma alguma, por duas razões: 1) se FAC e a FACP de u 2 t não apresentarem coeficientes<br />

significativos então não existe efeito ARCH; 2) a existência de vários coeficientes de auto-<br />

correlação e de autocorrelação parcial significativos é indício forte da presença de efeitos<br />

ARCH 4 .<br />

4 Coeficientes de autocorrelação de u 2 t estatisticamente significativos podem ainda dever-se a um erro de especificação<br />

do modelo (veremos isso adiante) ou à presença de outros modelos não lineares, como por exemplo,<br />

o modelo bilinear.<br />

287


Como regra geral, não devemos usar o ARCH; o GARCH é preferível. A identificação<br />

das ordens p e q do GARCH faz-se na fase da estimação.<br />

Estacionaridade de Segunda Ordem num GARCH(p,q)<br />

Como se sabe E (ut) = Cov (ut, ut−k) = 0, ∀k ∈ N. Assim, para discutir a ESO do<br />

processo u, basta analisar E (u 2 t ) .<br />

Vimos<br />

De facto, pode-se mostrar<br />

Tem-se assim<br />

ut ∼ GARCH(p,q) ⇒ u 2 t ∼ ARMA(max {p, q} , p).<br />

u 2 t = ω +<br />

= ω +<br />

q<br />

i=1<br />

max{p,q} <br />

i=1<br />

αiu 2 t−i +<br />

p<br />

βiu 2 t−i −<br />

i=1<br />

(αi + β i) u 2 t−i −<br />

p<br />

i=1<br />

p<br />

i=1<br />

β ivt−i + vt<br />

β ivt−i + vt<br />

= ω + (A (L) + B (L)) u 2 t−i + (1 − B (L)) vt.<br />

(1 − A (L) − B (L)) u 2 t = ω + (1 − B (L)) vt.<br />

A ESO de ut depende das raízes do polinómio autoregressivo, (1 − A (L) − B (L)). Conc-<br />

retamente, para que se tenha E (u 2 t ) = σ 2 < ∞ é necessário e suficiente que as raízes do<br />

polinómio autoregressivo estejam fora do circulo unitário. Se adicionarmos a esta condição,<br />

as restrições αi ≥ 0 e β i ≥ 0, a condição de ESO simplifica-se e, pode-se provar, é igual a<br />

8.4 Modelo IGARCH<br />

q<br />

i=1<br />

αi +<br />

p<br />

βi < 1.<br />

i=1<br />

Definição 8.4.1 ut segue um modelo IGARCH(p,q) (ou tem representação IGARCH(p,q)) se<br />

e<br />

ut = σtεt<br />

σ 2 t = ω + α1u 2 t−1 + ... + αqu 2 t−q + β 1σ 2 t−1 + .. + β pσ 2 t−p<br />

q<br />

i=1<br />

αi +<br />

p<br />

βi = 1<br />

i=1<br />

288


i.e., a soma dos parâmetros α ′ s e β ′ s é igual a um.<br />

Vamos analisar apenas o IGARCH(1,1): σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1, onde α1 + β 1 = 1.<br />

A designação Integrated GARCH resulta do facto de u 2 t possuir uma raiz unitária:<br />

u 2 t = ω + (α1 + β<br />

1)<br />

<br />

1<br />

u 2 t−1 − β 1vt−1 + vt<br />

u 2 t = ω + u 2 t−1 − β 1vt−1 + vt<br />

(1 − L) u 2 t = ω − β 1vt−1 + vt<br />

(logo u 2 t é um ARIMA(0,1,1)). Nestas condições ut não é ESO. Durante algum tempo<br />

pensou-se que ut seria também não estacionário em sentido estrito. Daniel Nelson mostrou<br />

que um IGARCH poderia ser estritamente estacionário (EE). Concretamente mostrou: 1) a<br />

condição necessária e suficiente para que ut seja EE 5 é<br />

E log β1 + α1ε 2 t < 0;<br />

2) e que esta condição acaba por ser menos exigente que a condição de ESO, α1 + β 1 < 1.<br />

Se E (log (β 1 + α1ε 2 t )) < 0, então a distribuição conjunta de (u1, u2, ..., uk) é igual à<br />

distribuição conjunta de (ut, ut+1, ..., ut+k) para todo o t e k e, em particular, as funções<br />

densidade de probabilidade são constantes no tempo f (ut) = f (us) , ∀t, s; pode-se ainda<br />

mostrar que σ 2 t é uma variável aleatória limitada em probabilidade (não tende para ∞, como<br />

à primeira vista poderíamos pensar) e σ 2 t<br />

p<br />

−→ σ 2 (ω) (σ 2 (ω) é uma v.a.) (embora não<br />

exista o segundo momento). Vários estudos mostram que os testes assimptóticos habituais<br />

permanecem válidos 6 . Para assentar ideias, suponha-se εt ∼ N (0, 1) . Então:<br />

• se α1 + β 1 < 1 ⇒ ut é ESO;<br />

• se α1 + β 1 < 1 vem, pela desigualdade de Jensen,<br />

E log β1 + α1ε 2 t ≤ log E β1 + α1ε 2 t = log (β1 + α1) < 0<br />

e, portanto, α1 + β 1 < 1 ⇒ log E (β 1 + α1ε 2 t ) < 0; isto é, se o processo é ESO então<br />

5 Na proposição 4.5.5 e exemplo 4.5.13 aborda-se, do ponto de vista teórico, esta questão.<br />

6 Esta conclusão contrasta com o processos integrados na média, por exemplo do tipo, yt = yt−1 + εt que,<br />

como se sabe, não são nem estacionários de segunda ordem nem estritamente estacionários e onde os testes<br />

habituais não são válidos.<br />

289


1<br />

β1<br />

α + β < 1<br />

1<br />

1<br />

2 [ log(<br />

β + ) ] < 0<br />

E αε<br />

1<br />

t<br />

α + β > 1<br />

1<br />

1<br />

2 [ log(<br />

β + ) ] < 0<br />

E αε<br />

1<br />

t<br />

α + β > 1<br />

1<br />

1<br />

2 [ log(<br />

β + ) ] > 0<br />

E αε<br />

1 3<br />

Figura 8-6: Regiões no espaço dos parâmetros (α1, β 1) onde o processo {ut} é E2O e EE<br />

é também EE;<br />

• pode-se provar que α1 + β 1 = 1 ⇒ E (log (β 1 + α1ε 2 t )) < 0 (este valor esperado<br />

pode ser calculado de forma exacta 7 ). Como referimos, o processo IGARCH é EE. A<br />

condição de ESO acaba por ser mais exigente do que a condição de EE. A primeira<br />

exige a existência do momento de segunda ordem enquanto EE exige que toda a es-<br />

trutura probabilística (leia-se função de distribuição finita) seja estável ao longo do<br />

tempo, independentemente dos momentos serem finitos ou não.<br />

• E (log (β 1 + α1ε 2 t )) < 0 ⇒ α1 + β 1 < 1<br />

A figura 8-6 mostra três regiões no espaço dos parâmetros (α1, β 1). Na região {(α1, β 1) ∈ R 2 : α1 + β 1 <<br />

o processo {ut} é ESO e EE. Na região {(α1, β 1) ∈ R 2 : α1 + β 1 > 1, E (log (β + αε 2 )) < 0}<br />

o processo {ut} não é ESO mas é EE. Na região {(α1, β 1) ∈ R 2 : α1 + β 1 > 1, E (log (β + αε 2 )) > 0}<br />

o processo {ut} não é ESO nem EE.<br />

8.4.1 Persistência na Variância<br />

Certos processos exibem reversão para a média; outros não (e.g. RW). É usual chamar a estes<br />

últimos processos persistentes no sentido em que choques nas inovações exercem um efeito<br />

7 Com efeito, a variável aleatória Z = log β1 + α1ε 2 tem distribuição conhecida. Por exemplo, basta<br />

fazer uma transformação de variável e atender ao facto de ε 2 ∼ χ 2 (1) .<br />

290<br />

1<br />

t<br />

α1


120<br />

115<br />

110<br />

105<br />

100<br />

95<br />

90<br />

85<br />

fhi = 0.1<br />

80<br />

1 26 51 76 101 126 151 176<br />

120<br />

115<br />

110<br />

105<br />

100<br />

95<br />

90<br />

85<br />

fhi = 0.98<br />

80<br />

1 26 51 76 101 126 151 176<br />

120<br />

115<br />

110<br />

105<br />

100<br />

95<br />

90<br />

85<br />

fhi = 0.8<br />

80<br />

1 26 51 76 101 126 151 176<br />

120<br />

110<br />

100<br />

90<br />

80<br />

fhi = 1<br />

70<br />

1 26 51 76 101 126 151 176<br />

Figura 8-7: Persistência e o processo AR(1)<br />

persistente no nível do processo. Na literatura, variam não só as definições de persistência<br />

como também as ferramentas estatísticas usadas para a avaliar.<br />

Considere-se por exemplo o AR(1)<br />

yt = µ (1 − φ) + φyt−1 + εt, ut ruído branco<br />

Uma medida de persistência pode basear-se em φ. Se φ = 1 o processo é persistente. Se |φ| <<br />

1 não é persistente. Poderíamos ainda discutir “níveis de persistência” (quanto mais perto φ<br />

estiver de 1 maior é a “persistência”). Na figura 8-7 mostram-se 4 trajectórias simuladas de<br />

yt = µ (1 − φ) + φyt−1 + εt, (εt ruído branco Gaussiano) para µ = 100, y0 = 80. Apenas<br />

φ varia (tudo o resto é igual, incluindo as inovações εt). Consideram-se os casos φ = 0.1,<br />

φ = 0.8, φ = 0.98 e φ = 1. Procura-se verificar a velocidade da reversão do processo<br />

face à sua média de longo prazo (no caso φ = 1 não existe média de longo prazo) dada uma<br />

condição inicial y0 = 80 relativamente afastada da média de longo prazo. Isto é, tende ou não<br />

o processo rapidamente para a sua média de longo prazo? A figura mostra que quanto maior<br />

é o valor do parâmetro φ mais lenta é a reversão e, portanto, maior é o nível de persistência.<br />

291


Existem outras medidas de persistência. Por exemplo a half-life é o valor de h tal que<br />

E (yt+h − µ| Ft) ≤ 1<br />

2 (yt − µ) , (supondo yt > µ)<br />

Suponha-se que em t existe um desvio de y face à sua média de longo prazo igual a yt − µ.<br />

Questão: quantos períodos são necessários para que metade desse desvio seja eliminado (em<br />

média)? Ou, em quanto tempo o processo elimina metade do desvio yt − µ? A resposta é h.<br />

Para exemplificar, considere-se o processo AR(1), yt = φyt−1 + ut (note-se, µ = 0).<br />

Como se viu atrás<br />

E (yt+h| Ft) = φ h yt.<br />

Assim, a half-life é o valor de h tal que φ h yt = 1<br />

2 yt. Logo<br />

φ h yt = 1<br />

2 yt ⇒ h =<br />

log (1/2)<br />

log φ .<br />

Se temos dados diários (t = 1 corresponde a uma dia) e, por exemplo, φ = 0.8, então<br />

h = log (1/2) / log (0.8) = 3.1 é o número de dias necessários para que, em média, metade<br />

do desvio de y face à sua média de longo prazo seja eliminado. Valores altos de h indicam<br />

maior persistência (o processo demora mais tempo a eliminar desvios face à média de longo<br />

prazo e, neste caso, o processo exibe uma reversão para a média mais lenta). No caso φ →<br />

1 ⇒ h → ∞ e o processo é persistente. Obviamente, se E (yt+h| Ft) não converge quando<br />

h → ∞ o processo y é persistente.<br />

Tradicionalmente, o conceito de persistência aplica-se à média do processo. Com o<br />

GARCH surgiu a ideia da persistência em variância. Choques na variância são rapidamente<br />

eliminados e σ 2 t tende rapidamente para E (σ 2 t ) ou, pelo contrário, os choques têm um efeito<br />

duradouro na variância?<br />

Podemos também definir uma half-life para a variância. Trata-se do valor de h tal que<br />

E σ 2 t+h − σ 2 <br />

<br />

1 2<br />

Ft ≤ σt − σ<br />

2<br />

2<br />

(supondo σ 2 t > σ 2 )<br />

onde σ 2 = E (σ 2 t ) . Para exemplificar, considere-se o GARCH(1,1). Vem σ 2 = ω/ (1 − α1 − β 1)<br />

e<br />

E σ 2 t+h − σ 2 <br />

Ft = (α1 + β1) h σ 2 t − σ 2<br />

(este resultado mostra-se no capítulo da previsão). Assim a half-life é o valor de h tal que<br />

292


(α1 + β 1) h (σ 2 t − σ 2 ) = 1<br />

2 (σ2 t − σ 2 ) . Logo<br />

(α1 + β1) h σ 2 t − σ 2 = 1 2<br />

σt − σ<br />

2<br />

2 ⇒ h =<br />

log (1/2)<br />

log (α1 + β 1) .<br />

Quando α1+β 1 tende para 1, h tende para mais infinito e o processo é persistente na variância<br />

(ou a volatilidade é persistente).<br />

Uma das dificuldades na análise dos processos GARCH em geral, e dos IGARCH em<br />

particular, é o de que certos processos podem ser persistentes num certo modo de convergên-<br />

cia e não ser num outro modo de convergência. Pode-se provar que os IGARCH, embora<br />

persistentes de acordo com a medida E σ2 t+h − σ2 <br />

Ft não são persistentes no modo<br />

de convergência designado “quase certamente” ou “com probabilidade 1” (como notámos<br />

σ 2 t<br />

q.c.<br />

−→ σ 2 (ω) , i.e. σ 2 t converge quase certamente para uma variável aleatória, apesar de<br />

E (σ 2 t ) não existir).<br />

Em muitas aplicações empíricas observa-se que a estimativa para α1 + β 1 se encontra<br />

muito perto de um, sugerindo que a volatilidade pode ser persistente (forte dependência<br />

temporal) e que Var (yt) pode não existir. Este facto está de acordo com os factos estilizados<br />

discutido no ponto no capítulo 3.<br />

Um modelo estacionário mas em que a volatilidade exibe memória longa é o FIGARCH<br />

(GARCH fraccionário).<br />

8.4.2 Alterações de Estrutura e o IGARCH<br />

Modelos aparentemente IGARCH podem também dever-se a alterações de estrutura (tal<br />

como processos aparentemente do tipo yt = yt−1 + ut podem dever-se a alterações de estru-<br />

tura). Por exemplo, considere-se a seguinte simulação de Monte Carlo:<br />

yt = ut, ut = σtεt, t = 1, 2, ..., 1000<br />

σ 2 t = ω + αu 2 t−1 + βσ 2 t−1, (8.6)<br />

⎧<br />

⎨ 0.5 t = 1, 2, ..., 500<br />

α = 0.1, β = 0.6, ω =<br />

⎩ 1.5 t = 501, 502, ..., 1000<br />

Este modelo foi simulado 500 vezes. Na figura 8-8 representa-se uma das 500 trajectórias<br />

simuladas.<br />

Em cada simulação (ou trajectória simulada) estimaram-se os parâmetros. Embora o<br />

293


10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

­2<br />

­4<br />

­6<br />

­8<br />

1 101 201 301 401 501 601 701 801 901<br />

Figura 8-8: Uma trajectória simulada de acordo com o modelo 8.6<br />

modelo simulado não seja claramente um IGARCH (note-se que α + β = 0.7), concluiu-se<br />

que:<br />

• em 83% das simulações a soma dos parâmetros ˆα + ˆ β esteve acima de 0.99;<br />

• em 99.6% das simulações a soma dos parâmetros ˆα + ˆ β esteve acima de 0.95;<br />

• em todos os casos ˆα + ˆ β esteve acima de 0.9.<br />

Este exercício de simulação ilustra o impacto de alterações de estrutura sobre os coefi-<br />

cientes α e β. A mensagem é clara: num aplicação empírica, se ˆα + ˆ β estiver próximo de<br />

um, convém verificar se o modelo subjacente é de facto um IGARCH ou, pelo contrário, se<br />

existem alterações de estrutura que causem um falso IGARCH . Não obstante, quer se veri-<br />

fique α + β = 1 ou o caso de ω não ser constante ao longo da amostra, o processo subjacente<br />

é sempre não estacionário de segunda ordem. No primeiro caso a variância não é finita; no<br />

segundo não é constante. Quebras de estrutura ocorrem frequentemente quando o período<br />

de análise é muito extenso. Nestes casos, ou se modela a quebra de estrutura (em princípio<br />

é a melhor estratégia) ou se encurta o período de observação (se os objectivos da aplicação<br />

empírica assim o permitirem).<br />

8.4.3 EWMA (Exponential Weighted Moving Averages)<br />

Considere-se a seguinte estimativa para a volatilidade no momento t<br />

σ 2 t (h) = 1<br />

h<br />

h<br />

i=1<br />

y 2 t−i = 1 2<br />

yt−1 + y<br />

h<br />

2 t−2 + ... + y 2 <br />

t−h<br />

294


0.0007<br />

0.0006<br />

0.0005<br />

0.0004<br />

0.0003<br />

0.0002<br />

0.0001<br />

0<br />

Jan­89<br />

Jun­90<br />

Nov­91<br />

Apr­93<br />

Sep­94<br />

Feb­96<br />

Jul­97<br />

Dec­98<br />

May­00<br />

Oct­01<br />

Mar­03<br />

Aug­04<br />

Jan­06<br />

Vol30<br />

Vol60<br />

Vol120<br />

Vol240<br />

Figura 8-9: Estimativas da volatilidade do índice Dow Jones ao longo do período, baseadas<br />

no estimador σ 2 (h) para diferentes valores de h (e.g., Vol30 = σ 2 t (30) , Vol60 = σ 2 t (60) ,<br />

etc.)<br />

(supomos E (yt| Ft−1) = 0).<br />

Na figura 8-9 mostram-se várias estimativas da volatilidade do índice Dow Jones ao longo<br />

do período, baseadas no estimador σ 2 (h) para diferentes valores de h (e.g., Vol30 = σ 2 t (30) ,<br />

Vol60 = σ 2 t (60) , etc.)<br />

O estimador σ 2 t (h) levanta as seguintes questões e objecções:<br />

• qual o melhor valor de h? É um pouco arbitrária a escolha de h;<br />

• o estimador σ 2 t (h) implica que todas as observações no período (t − h, t − 1) têm o<br />

mesmo peso na determinação do valor de σ 2 t (h) . Por exemplo, com<br />

σ 2 t (240) = 1<br />

240<br />

240<br />

i=1<br />

y 2 t−i = 1 2<br />

yt−1 + y<br />

240<br />

2 t−2 + ... + y 2 <br />

t−240<br />

todas as observações têm um peso de 1/240. No entanto, seria preferível dar mais peso<br />

às observações mais recentes;<br />

• o estimador σ 2 t (h) implica que todas as observações fora do período (t − h, t − 1)<br />

têm peso zero. Como consequência, pode suceder o seguinte. Se na janela amostral<br />

(t − h, t − 1) existir uma observação extrema, a volatilidade é sobrestimada; quando<br />

essa observação sai da janela amostra, a volatilidade estimada cai depois abruptamente.<br />

O estimador Exponential Weighted Moving Averages (EWMA, proposto pela J.P. Mor-<br />

gan) resolve algumas das fragilidades dos estimador acima descrito, dando mais peso às<br />

295


observações mais recentes:<br />

σ 2 t = (1 − λ)<br />

∞<br />

i=1<br />

λ i−1 y 2 t−i, 0 < λ < 1<br />

= (1 − λ) y 2 t−1 + λy 2 t−2 + λ 2 y 2 t−3 + ... .<br />

Quanto mais alto for λ, mais peso o estimador dá às observações mais antigas (o decréscimo<br />

dos ponderadores é, no entanto, sempre exponencial).<br />

Os ponderadores, ωi = (1 − λ) λ i , somam 1,<br />

∞<br />

ωi = (1 − λ) 1 + λ + λ 2 + ... = 1<br />

i=1<br />

(recorde-se a soma de uma progressão geométrica). Por exemplo, com λ = 0.5 vem<br />

σ 2 t = (1 − λ) y 2 t−1 + λy 2 t−2 + λ 2 y 2 t−3 + ... <br />

= 0.5 × y 2 t−1 + 0.5y 2 t−2 + 0.25y 2 t−3 + 0.125y 2 t−4 + ... .<br />

A expressão de σ 2 t pode ser reescrita de uma forma mais sugestiva. Notando que<br />

temos<br />

σ 2 t−1 = (1 − λ) y 2 t−2 + λy 2 t−3 + λ 2 y 2 t−4 + ... <br />

σ 2 t = (1 − λ) y 2 t−1 + λσ 2 t−1. (8.7)<br />

Qual a relação entre o IGARCH e o EWMA? Considere-se um processo y com média<br />

condicional igual a zero e com especificação IGARCH(1,1): yt = ut, ut = σtεt. Vem<br />

σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1, α1 + β 1 = 1<br />

= ω + (1 − β 1) y 2 t−1 + β 1σ 2 t−1.<br />

Se ω = 0 conclui-se que um IGARCH(1,1) corresponde ao modelo EWMA. Assim, o mod-<br />

elo EWMA é um caso muito particular do IGARCH.<br />

296


8.5 Modelo CGARCH<br />

Considere-se o GARCH(1,1):<br />

σ 2 t = ω + α1u 2 t−1 + β1σ 2 t−1<br />

=<br />

2<br />

ω + α1 ut−1 − σ 2 2<br />

+ β1 σt−1 − σ 2 + α1σ 2 + β1σ 2<br />

= σ 2 (1 − α1 − β1) + α1σ 2 + β1σ 2 2<br />

+ α1 ut−1 − σ 2 2<br />

+ β1 σt−1 − σ 2<br />

= σ 2 2<br />

+ α1 ut−1 − σ 2 2<br />

+ β1 σt−1 − σ 2<br />

Esta equação relaciona σ 2 t com a respectiva média de longo prazo e mostra como se processa<br />

a dinâmica de ajustamento de σ 2 t face à constante σ 2 .<br />

O Component GARCH model (CGARCH) permite representar:<br />

σ 2 t =<br />

<br />

2 2<br />

qt + α1 ut−1 − qt−1 + β1 σt−1 − qt−1<br />

qt = σ 2 + ρ qt−1 − σ 2 + φ u 2 t−1 − σ 2 <br />

t−1<br />

(8.8)<br />

onde σ 2 = E (σ 2 t ) . O ajustamento de curto prazo de σ 2 t faz-se agora em relação à v.a. qt,<br />

a qual tende, no “longo prazo”, para σ 2 . A primeira equação é designada de componente<br />

transitória e a segunda equação de componente de longo prazo. O modelo CGARCH é um<br />

GARCH(2,2) com restrições sobre os parâmetros. Com efeito, substituindo<br />

na equação (8.8) vem<br />

σ 2 t = σ2 (1 − ρ) + φ u2 t−1 − σ2 t−1<br />

(1 − ρL)<br />

<br />

+β 1<br />

qt = σ2 (1 − ρ) + φ u2 t−1 − σ2 t−1<br />

(1 − ρL)<br />

<br />

+ α1<br />

<br />

σ 2 t−1 − σ2 (1 − ρ) + φ u2 t−2 − σ2 t−2<br />

(1 − ρL)<br />

<br />

u 2 t−1 − σ2 (1 − ρ) + φ u2 t−2 − σ2 t−2<br />

(1 − ρL)<br />

<br />

= ... =<br />

= (1 − α1 − β 1) (1 − ρ) σ 2 + (α1 + φ) u 2 t−1 − (α1ρ + (α1 + β 1) φ) u 2 t−2<br />

+ (β 1 − φ + ρ) σ 2 t−1 + ((α1 + β 1) φ − β 1ρ) σ 2 t−2.<br />

Atendendo à condição de ESO do GARCH(p,q) é fácil concluir que o processo CGARCH é<br />

297


ESO sse<br />

Nestas circunstâncias,<br />

Var (ut) =<br />

ρ (1 − α1 − β 1) + α1 + β 1 < 1.<br />

(1 − α1 − β 1) (1 − ρ) σ 2<br />

1 − (ρ (1 − α1 − β 1) + α1 + β 1) = σ2 .<br />

A principal vantagem do CGARCH está na interpretação da dinâmica de ajustamento, e não<br />

necessariamente no ajustamento da variância (um GARCH(2,2), sem restrições nos parâmet-<br />

ros, ajusta melhor, i.e., o valor da função de verosimilhança não decresce).<br />

O caso φ = 0 sugere a presença de um GARCH(1,1). Com efeito, se φ = 0, vem<br />

qt = σ 2 + ρ (qt−1 − σ 2 ) . Para simplificar, suponha-se que q0 = σ 2 . Se φ = 0 ⇒ qt = σ 2<br />

(verifique!). No caso q0 = σ 2 tem-se qt → σ 2 (se |ρ| < 1). Esta convergência é deter-<br />

minística (a velocidade de ajustamento depende de ρ). Em qualquer dos casos (q0 = σ 2 ou<br />

q0 = σ2 ), e supondo |ρ| < 1, tem-se, ao fim de algum tempo, um ajustamento dinâmico, de<br />

acordo com o modelo σ2 t = σ2 <br />

2 + α1 ut−1 − σ2 <br />

2 + β1 σt−1 − σ2 . Assim, o caso φ = 0,<br />

sugere a presença de um GARCH(1,1).<br />

O parâmetro ρ está associado à reversão de qt para σ 2 . Quanto mais alto (mais próximo<br />

de um) mais lenta é a velocidade de reversão e, portanto, maior é o nível de persistência na<br />

variância condicional. Note-se que a reversão de σ 2 t para σ 2 é feita através de qt, i.e., σ 2 t →<br />

qt → σ 2 .<br />

8.6 Modelo GJR-GARCH<br />

O modelo GJR-GARCH é devido a Glosten, Jagannathan e Runkle. Uma das característi-<br />

cas das séries de retornos de títulos é o Leverage Effect (i.e. momentos de maior volatili-<br />

dade são despoletados por variações negativas nos preços). Vimos no ponto 3.2.4 que este<br />

efeito pode ser detectado através da medida (naive) Cov (y 2 t , yt−1) < 0. Veremos agora uma<br />

forma bastante mais eficiente de estimar esse efeito. Comece-se por observar que o mod-<br />

elo ARCH/GARCH apenas detecta o chamado “efeito magnitude”. Isto é, a volatilidade só<br />

responde à magnitude do valor de ut. Em esquema:<br />

↑ u 2 t−1 ⇒ ↑ σ 2 t (efeito magnitude)<br />

298


Para modelar o efeito assimétrico é necessário que a volatilidade responda assimetricamente<br />

ao sinal de ut. Mais precisamente, a volatilidade deve aumentar mais quando ut < 0 (“má<br />

notícia”) do que quando ut > 0 (“boa notícia”).<br />

O modelo GJR-GARCH (assim como o EGARCH, AARCH, etc.) modela não só o efeito<br />

magnitude como também o efeito assimétrico. A especificação mais simples (suficiente para<br />

um grande número de aplicações) é<br />

σ 2 t = ω + α1u 2 t−1 + β1σ 2 t−1 + γ1u 2 t−1I{ut−1


volatilidade é comparativamente maior quando ut−1 < 0.<br />

Vol(t)<br />

12<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

­4 ­3 ­2 ­1 0 1 2 3 4<br />

u(t­1)<br />

NIC GARCH<br />

GJR­GARCH<br />

NIC GARCH e GJR-GARCH para α1 = 0.2, β 1 = 0.5, ω = 0.1, γ 1 = 0.4<br />

Para ensaiar o efeito assimétrico podemos considerar o ensaio H0: γ 1 = 0 (através, por<br />

exemplo, do teste de Wald). Pode-se provar que a condição de ESO (no caso em que a<br />

distribuição de ε é simétrica) é α1 + γ 1/2 + β 1 < 1. Nesta circunstâncias,<br />

Var (ut) = E σ 2 t =<br />

ω<br />

1 − (α1 + γ 1/2 + β 1)<br />

Este modelo é designado por TGARCH no EVIEWS.<br />

8.7 Modelo GARCH-M<br />

A teoria financeira postula uma relação entre rendimento esperado e o risco associado. Em<br />

geral deve-se esperar que os activos com maior risco estejam associados aos activos com<br />

maior rendimento.<br />

yt = c + λg σ 2 t<br />

Especificações mais utilizadas:<br />

+ ut, ut = σtεt, σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1.<br />

g σ 2 t = σt, g σ 2 t = log σt<br />

300


Dada a estreita relação entre os parâmetros da média e da variância condicional, um erro de<br />

especificação da variância condicional afecta a consistência dos estimadores dos parâmetros<br />

da média condicional.<br />

8.8 Modelo de Heterocedasticidade Condicionada com Var-<br />

iáveis Explicativas<br />

Considere-se um modelo GARCH(1,1) (poderia ser outro modelo qualquer) com variáveis<br />

explicativas:<br />

yt = µ t + ut<br />

ut = σtεt<br />

σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1 + g (xt)<br />

onde a função g é tal que σ 2 t > 0 (com probabilidade 1). Que variáveis poderemos considerar<br />

para xt? Vejamos alguns exemplos:<br />

• Dias da semana (ou qualquer outro efeito de calendário):<br />

σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1 + δ1St + δ2Tt + δ3Q a t + δ5Q u t<br />

onde St = 1 se t é uma segunda-feira, etc. (deverá ter-se ω+min {δi} > 0 ⇒ σ 2 t > 0).<br />

• Ocorrência de factos, notícias significativas. Por exemplo 8 ,<br />

goodt =<br />

badt =<br />

⎧<br />

⎨<br />

σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1 + δ1goodt + δ2badt<br />

1 t = são divulgados resultados da empresa ABC acima do esperado<br />

⎩ 0 0<br />

⎧<br />

⎨ 1 t = são divulgados resultados da empresa ABC abaixo do esperado<br />

⎩<br />

0 0<br />

8 A chamada “armadilha das variáveis artificiais” não ocorre no exemplo (embora pareça) pois as notícias<br />

podem ser “boas”, “más” ou simplesmente não ocorrerem (e, neste caso, vem goodt = badt = 0).<br />

301


• Variação do preço do crude.<br />

• Medida de volatilidade de outro activo/mercado<br />

• Volume de transacções:<br />

σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1 + δ1vol ∗ t−1<br />

onde vol ∗ t−1 pode ser especificada como vol ∗ t−1 = volt−1<br />

σvol ou vol∗ t−1 = log (volt−1) ou<br />

vol ∗ t−1 = volt−1/volt−2, sendo vol o volume de transacções. Observe-se que o vol-<br />

ume de transacções pode ser considerado como uma variável proxy da variável não<br />

observada “chegada de informação”.<br />

• Qualquer outra variável (estacionária) que supostamente afecte a volatilidade.<br />

No ponto 7.4.9 vimos que o modelo em tempo discreto, compatível com o processo CIR,<br />

em tempo contínuo, drt = β (τ − rt) dt + σ √ rtdWt conduz ao modelo,<br />

rt = c + φrt−1 + ut<br />

ut = σtεt<br />

σ 2 t = σ 2 rt−1<br />

Inspirados nesta especificação, certos autores modelam a taxa de juro em tempo discreto<br />

combinando as características do GARCH com as características do processo de difusão<br />

(modelo CIR):<br />

rt = c + φrt−1 + ut<br />

ut = σtεt<br />

σ 2 t = ω + α1u 2 t−1 + βσ 2 t−1 + γrt−1.<br />

O ensaio H0: γ = 0 vs. H1 : γ > 0 permite analisar se a nível da taxa de juro influencia pos-<br />

itivamente a volatilidade. Geralmente conclui-se γ > 0. A figura 8-10 sugere (claramente)<br />

γ > 0.<br />

302


18<br />

16<br />

14<br />

12<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

Jan­54<br />

May­56<br />

Sep­58<br />

Jan­61<br />

May­63<br />

8.9 Estimação<br />

Sep­65<br />

Jan­68<br />

May­70<br />

Sep­72<br />

Jan­75<br />

May­77<br />

Sep­79<br />

Figura 8-10: Taxa de Juro (Bilhetes do Tesouro a 3 meses -EUA)<br />

Seja yt = µ t+ut onde ut = σtεt. Suponha-se que v.a. εt tem distribuição conhecida (normal,<br />

t-Student ou outra) de média zero e variância um. O vector dos parâmetros desconhecidos,<br />

θ, envolve parâmetros definidos na média condicional e na variância condicional.<br />

Jan­82<br />

A média condicional µ t pode depender de uma variável xt (esta variável pode ser encar-<br />

ada também como um vector de variáveis explicativas). Por exemplo, podemos ter,<br />

May­84<br />

Sep­86<br />

Jan­89<br />

May­91<br />

yt = γ 0 + γ 1xt + φ 1yt−1 + ut<br />

ut = σtεt, εt ∼ N (0, 1)<br />

σ 2 t = ω + α1u 2 t−1<br />

θ = (γ 0, γ 1, φ 1, ω, α1) ′ .<br />

A estimação do vector θ poderia ser feita da seguinte forma (tome-se como referência o<br />

modelo acima apresentado):<br />

Passo 1 Estimação OLS de γ 0, γ 1 e φ 1 com base na equação yt = γ 0 + γ 1xt + φ 1yt−1 + ut.<br />

Passo 2 A partir do passo 1, obtêm-se os resíduos û 2 t . Como σ 2 t = ω + α1u 2 t−1 implica<br />

uma representação AR(1) para σ 2 t = ω + α1u 2 t−1, ou seja, u 2 t = ω + α1u 2 t−1 + vt<br />

(vejam-se os pontos 8.2.2 e 8.3.2), os parâmetros ω e α1 estimam-se a partir da equação<br />

û 2 t = ω + α1û 2 t−1 + vt, considerando o estimador OLS.<br />

303<br />

Sep­93<br />

Jan­96<br />

May­98<br />

Sep­00<br />

Jan­03<br />

May­05


O procedimento acima descrito envolve estimadores consistentes mas altamente inefi-<br />

cientes, pois em ambos os casos os erros das equações são heterocedásticos (no caso da<br />

estimação ω e α1, a situação é particularmente grave, pois, pode mostra-se, vt tende a exibir<br />

forte heterocedasticidade).<br />

O método de estimação mais utilizado é o método da máxima verosimilhança (o GMM<br />

também pode ser utilizado) que se descreve a seguir.<br />

8.9.1 Estimador de Máxima Verosimilhança<br />

Assuma-se que todos os parâmetros de interesse, incluídos em θ, apenas aparecem na densi-<br />

dade conjunta condicional f (Yn| Xn; θ) , onde Yn = (yn, yn−1, ..., y1) e Xn = (xn, xn−1, ..., x1) .<br />

Para simplificar a exposição, admite-se (sem perda de generalidade) que as condições inici-<br />

ais Y0 são conhecidas. Tem-se assim, que a densidade relevante, para a estimação de θ, é<br />

f (Yn| Y0, Xn; θ) .<br />

Proposição 8.9.1 Se yt é condicionalmente independente de (xn, ..., xt+1) (n > t) dado<br />

(Yt−1, Xt), i.e.,<br />

então<br />

f (yt| Yt−1, Xn) = f (yt| Yt−1, Xt) ,<br />

f (Yn| Y0, Xn; θ) = f (yn| Yn−1, Xn; θ) × f (yn−1| Yn−2, Xn−1; θ)<br />

Dem. (esboço) Tem-se<br />

Desenvolva-se a expressão (*):<br />

=<br />

×... × f (y1| Y0, x1; θ)<br />

n<br />

f (yt| Yt−1, Xt; θ) (8.11)<br />

t=1<br />

f (Yn| Y0, Xn; θ) = f (yn| Yn−1, Xn; θ) f (Yn−1| Y0, Xn; θ)<br />

<br />

(∗)<br />

f (Yn−1| Y0, Xn; θ) = f (yn−1| Yn−2, Xn; θ) f (Yn−2| Y0, Xn; θ)<br />

= f (yn−1| Yn−2, Xn−1; θ) f (Yn−2| Y0, Xn; θ)<br />

<br />

<br />

por hipótese<br />

304<br />

(∗)<br />

(8.12)<br />

(8.13)


Desenvolva-se a nova expressão (*):<br />

f (Yn−2| Y0, Xn; θ) = f (yn−2| Yn−3, Xn; θ) f (Yn−3| Y0, Xn; θ)<br />

= f (yn−2| Yn−3, Xn−2; θ) f (Yn−3| Y0, Xn; θ)<br />

<br />

<br />

por hipótese<br />

(∗)<br />

(8.14)<br />

A nova expressão (*) pode ser desenvolvida de forma similar. Coligindo as equações (8.12)-<br />

(8.14), obtém-se (8.11).<br />

A hipótese definida na proposição anterior, estabelece que yt não depende dos valores<br />

futuros xt+1, xt+2 dado It = Yt−1 ∪ Xt ou, por outras palavras, xt dado Xt−1 não depende<br />

de Yt−1 (ou ainda, y não causa à Granger x). Doravante assume-se esta hipótese.<br />

A função de verosimilhança (supondo que as condições iniciais Y0 são dadas) é<br />

Ln (θ) = f (Yn| Y0, Xn; θ) =<br />

n<br />

f (yt| It; θ) (8.15)<br />

onde It = Yt−1 ∪Xt (na prática, se a ordem máxima do desfasamento das variáveis definidas<br />

na média condicional for p, deverá ler-se no produtório, “t = p + 1” e não “t = 1”; para<br />

simplificar, continue a assumir-se “t = 1”).<br />

O estimador de máxima verosimilhança é, como habitualmente,<br />

ˆθn = arg max<br />

θ<br />

log Ln (θ) = arg max log<br />

θ<br />

n<br />

t=1<br />

t=1<br />

f (yt| It; θ) = arg max<br />

θ<br />

n<br />

log f (yt| It; θ) .<br />

Sob certas hipóteses, incluindo, {(yt, xt)} é um processo estacionário e fracamente depen-<br />

dente, o estimador de máxima verosimilhança é consistente e assimptoticamente eficiente.<br />

A sua distribuição é dada por<br />

√ <br />

n ˆθn<br />

d <br />

− θ0 −→ N 0, I (θ0) −1<br />

onde I (θ0) é a matriz de informação de Fisher. Verifica-se I (θ0) = A (θ0) = B (θ0) onde<br />

A (θ) = − E<br />

2 ∂ lt (θ)<br />

∂θ∂θ ′<br />

<br />

, B (θ) = E<br />

lt (θ) = log f (yt| It; θ) .<br />

305<br />

∂lt (θ)<br />

∂θ<br />

t=1<br />

∂lt (θ)<br />

∂θ ′


Sob certas condições, A e B podem ser estimados consistentemente por<br />

Ân = − 1<br />

n<br />

ˆBn = 1<br />

n<br />

t=1<br />

n<br />

∂ 2 lt<br />

∂θ<br />

<br />

ˆθn<br />

∂θ∂θ<br />

t=1<br />

′<br />

p<br />

−→ A (θ0)<br />

<br />

n ∂lt ˆθn ∂lt ˆθn<br />

p<br />

−→ B (θ0) .<br />

A aplicação do método da máxima verosimilhança exige (em princípio) o conhecimento<br />

da fdp condicional de yt dado It; ou seja, é necessário conhecer-se f (yt| It) . Num modelo<br />

de heterocedasticidade condicional do tipo yt = µ t + ut onde ut = σtεt, a fdp f resulta<br />

imediatamente da distribuição dos erros ε. Por exemplo, suponha-se εt<br />

e, portanto,<br />

ut| It = σtεt| It ∼ N 0, σ 2 t<br />

∂θ ′<br />

<br />

⇒ yt| It ∼ N µ t, σ 2 t .<br />

i.i.d<br />

∼ N (0, 1) . Logo,<br />

log f (yt| It; θ) = − 1 1<br />

log (2π) −<br />

2 2 log σ2 1<br />

t (θ) −<br />

2σ2 t (θ) (yt − µ t (θ)) 2 . (8.16)<br />

Implementação no programa EVIEWS<br />

Considere-se, a título de exemplo, o modelo<br />

yt = γ 0 + γ 1xt + φ 1yt−1 + ut<br />

ut = σtεt, εt ∼ N (0, 1)<br />

σ 2 t = ω + α1u 2 t−1 + α1u 2 t−2 + β 1σ 2 t−1 + δ0segt + δvolumet−1<br />

onde segt é uma variável dummy que assume 1 se t corresponde a uma segunda feira. Para<br />

estimar o modelo no EVIEWS, através do método da máxima verosimilhança, basta selec-<br />

cionar “estimate” e depois “ARCH"em method. Ver a figura 8-11.<br />

Escolhendo 1 em “Threshold order” poderia estimar-se o GJR-GARCH.<br />

Eficiência do Estimador de MV vs. Estimador OLS<br />

Considere-se o modelo de regressão linear<br />

yt = x ′ tβ + ut, ut = εtσt, εt<br />

306<br />

i.i.d<br />

∼ N (0, 1)


onde x ′ t =<br />

<br />

Figura 8-11: Estimação do GARCH no EVIEWS<br />

1 x1t · · · xkt<br />

<br />

. Como {ut} é não autocorrelacionado e marginalmente<br />

homocedástico resulta que o estimador OLS ˜ β n = (X ′ X) −1 X ′ y é BLUE (best linear unbi-<br />

ased estimator). Significa que é o melhor estimador? Não. O estimador de MV (não linear)<br />

para β, ˆβ n, é assimptoticamente mais eficiente. Pode-se provar que a matrix<br />

<br />

Var ˜βn − Var ˆβn<br />

é semidefinida positiva. Isto implica, em particular, que as variâncias dos estimadores OLS<br />

são maiores ou iguais às correspondentes variâncias dos estimadores de máxima verosimil-<br />

hança. Para confirmarmos esta ideia, simulou-se 1000 vezes o modelo<br />

yt = β 1 + β 2xt + ut, xt<br />

i.i.d<br />

∼ N (0, 1) , t = 1, ..., 1000<br />

β 1 = 10, β 2 = 5,<br />

ut = εtσt, εt<br />

i.i.d<br />

∼ N (0, 1)<br />

σ 2 t = 0.05 + 0.2u 2 t−1 + 0.75σ 2 t−1<br />

Em cada simulação estimaram-se os β 1 e β 2 pelo método OLS e pelo método da MV (us-<br />

ando este último método estimaram-se ainda os parâmetros da variância condicional). Os<br />

resultados estão presentes na tabela 8.1. Por exemplo, o erro quadrático médio do estimador<br />

307


β1 β2 (1) OLS (2) MV (1)/(2) (3) OLS (4) MV (3)/(4)<br />

Erro Quad.Médio 0.001 0.0006 1.667 0.0011 0.0006 1.833<br />

Tabela 8.1: Eficiência do Estimador OLS vs. Estimador de MV<br />

Figura 8-12: Distribuições do Estimadores OLS e de MV de β 2 (obtidas a partir de uma<br />

simulação Monte Carlo)<br />

OLS relativamente ao parâmetro β 1 é<br />

1<br />

1000<br />

1000<br />

i=1<br />

<br />

(i) 2<br />

˜β<br />

1 − 10<br />

e ˜ β (i)<br />

1 é a estimativa OLS para β 1 obtida na i-ésima simulação).<br />

A tabela 8.1 sugere que o estimador ML é substancialmente mais preciso do que o esti-<br />

mador OLS. Com base nas 1000 estimativas OLS e de MV do parâmetro β 2, apresenta-se na<br />

figura 8-12 as fdp estimadas (não parametricamente) dos estimadores OLS e de MV.<br />

A figura 8-12 confirma a tabela 8.1: o estimador de MV é mais eficiente do que o esti-<br />

mador OLS (i.e., é mais preciso ou apresenta menor variabilidade). A figura 8-12 também<br />

sugere que ambos os estimadores são asimptoticamente centrados.<br />

Prova-se (sob as condições usuais de regularidade) que o estimador de máxima verosim-<br />

ilhança apresenta as propriedades habituais, isto é, é consistente, assimptoticamente eficiente<br />

e tem distribuição assimptótica normal (como vimos). O estimador OLS é consistente para<br />

308


os parâmetros da média condicional mas, como vimos, não é assimptoticamente eficiente.<br />

8.9.2 Estimador de Pseudo Máxima Verosimilhança<br />

Na prática, a distribuição de εt não é conhecida. Podemos ainda assim supor, por exemplo,<br />

εt ∼ N (0, 1) ou εt ∼ t (n)? A resposta é afirmativa no seguinte sentido: mesmo que a<br />

verdadeira distribuição seja desconhecida, podemos ainda assim “trabalhar” com a hipótese<br />

εt ∼ N (0, 1) ou εt ∼ t (n) e obter, sob certas condições, estimadores consistentes. Seja<br />

yt = µ t (yt−1, yt−2, ..., xt, xt−1, ...; θ) + ut<br />

ut = σt (ut−1, ut−2, ...; θ) εt εt ∼ ?<br />

Suponhamos que a verdadeira mas desconhecida fdp condicional de ε é f. O estimador de<br />

máxima verosimilhança<br />

ˆθn = arg max<br />

θ<br />

n<br />

log f (yt| It; θ)<br />

t=1<br />

não pode ser implementado, pois a função f é desconhecida. O estimador de pseudo máxima<br />

verosimilhança usa como pseudo verdadeira fdp a função h (que na generalidade dos casos<br />

é diferente de f),<br />

ˆθ pmv<br />

n<br />

= arg max<br />

θ<br />

n<br />

log h (yt| xt, ...x1, yt−1, yt−2, ...y1; θ)<br />

t=1<br />

Sob certas condições, mesmo que h = f, o estimador de pseudo máxima verosimilhança<br />

apresenta boas propriedades. As condições são:<br />

• h pertence à família das densidades exponenciais quadráticas (a normal e a t-Student,<br />

entre muitas outras distribuições, pertencem a esta família);<br />

• yh (y| It) dy = µ t (a média condicional está bem especificada);<br />

• (y − µ t) 2 h (y| It) dy = σ 2 t (a variância condicional está bem especificada).<br />

Pode-se provar, sob estas condições:<br />

ˆθ pmv<br />

n<br />

p<br />

−→ θ0<br />

√ <br />

pmv<br />

n ˆθ d <br />

n − θ0 −→ N 0, A (θ0) −1 B (θ0) A (θ0) −1<br />

309


Se, por acaso, a função h é a própria função f, i.e., f = h, então o estimador de pseudo<br />

máxima verosimilhança é o estimador de máxima verosimilhança e, neste caso, tem-se<br />

A (θ0) = B (θ0) e, portanto, A (θ0) −1 B (θ0) A (θ0) −1 = A −1 (θ0) .<br />

Em suma, mesmo que a distribuição de εt não seja conhecida podemos supor, por exem-<br />

plo, εt ∼ N (0, 1) (ou εt ∼ D tal que a densidade h satisfaça as condições estabelecidas),<br />

porque ˆ θ pmv<br />

n<br />

é, ainda assim, um estimador consistente (embora não assimptoticamente efi-<br />

ciente) e tem distribuição assimptótica normal. O único cuidado adicional é tomar como<br />

matriz de variâncias-covariâncias (assimptótica) a expressão 9 A (θ0) −1 B (θ0) A (θ0) −1 e<br />

não I (θ0) −1 .<br />

8.9.3 Método da Máxima Verosimilhança com Distribuições Não Nor-<br />

mais<br />

No âmbito do método da máxima (ou da pseudo máxima) verosimilhança, normalmente<br />

assume-se εt ∼ N (0, 1). Contudo, verifica-se habitualmente que os resíduos estandardiza-<br />

dos, ˆε = ût/ˆσt apresentam um valor de kurtosis quase sempre acima do valor 3, i.e., kˆε > 3.<br />

Este resultado é, até certo ponto, inesperado. O que é habitual é ter-se kû > 3. Quando ût<br />

são ponderados por ˆσt seria natural esperar-se uma redução significativa do valor da kurtosis<br />

pois os valores muito altos e muito baixos de ût serão ponderados por valores altos de ˆσt.<br />

Embora ocorra uma redução do valor da estatística de kurtosis quando se passa de ût para<br />

ˆεt = ût/ˆσt, normalmente observa-se ainda kˆε > 3 (embora kˆε < kû). Assim, também a<br />

distribuição condicional ut| Ft−1 (e não só a marginal) é leptocúrtica.<br />

Já vimos uma forma de lidar com este problema: basta tomar o estimador de pseudo<br />

máxima verosimilhança. Uma alternativa consiste em formular uma distribuição leptocúrtica<br />

para εt tal que E (εt) = 0 e Var (εt) = 1. É importante assegurar E (εt) = 0 e Var (εt) = 1.<br />

Com efeito, suponha-se que Var (εt) = λ 2 = 1. Vem então Var (ut| Ft−1) = λ 2 σ 2 t e deix-<br />

amos de poder identificar a variância condicional como σ 2 t . Vejamos algumas distribuições<br />

habitualmente consideradas na literatura.<br />

Hipótese: εt ∼ t-Student(v)<br />

A implementação desta distribuição envolve uma (pequena) dificuldade: se X ∼ t-<br />

Student(v) então Var (X) = v/ (v − 2) . Mas deverá ter-se Var (εt) = 1 (pois só assim<br />

9 Esta opção no EVIEWS é dada por “heteroskedasticity consistent covariance (Bollerslev-Wooldrige)” no<br />

menu “options” da estimação.<br />

310


Var (ut| Ft−1) = σ 2 t - caso contrário ter-se-á Var (ut| Ft−1) = σ 2 t v/ (v − 2)). A solução é<br />

simples. Basta reparametrizar a variável:<br />

εt = X (v − 2) /v ⇒ Var (εt) = 1, kε = kx = 3 + 6<br />

v − 4<br />

Considere-se assim a distribuição t-Student T(0,1) (de média zero e variância 1):<br />

g (x) =<br />

1 Γ<br />

<br />

π (v − 2)<br />

<br />

v+1<br />

2<br />

Γ <br />

1 + v<br />

2<br />

x2<br />

v+1<br />

− 2<br />

.<br />

v − 2<br />

Para aplicar o método da máxima verosimilhança é necessário conhecer-se f (yt| It−1) .<br />

Pode-se provar 10<br />

f (yt| It) = 1<br />

<br />

yt − µ t<br />

g<br />

= 1<br />

σt<br />

σt<br />

σt<br />

1 Γ<br />

<br />

π (v − 2)<br />

<br />

v+1<br />

2<br />

Γ ⎛<br />

<br />

⎜<br />

v ⎝1 +<br />

2<br />

Assim, o estimador de máxima verosimilhança é ˆθn = arg maxθ<br />

v) onde<br />

lt (θ) = log f (yt| It) = log<br />

1 Γ<br />

<br />

2 σt π (v − 2)<br />

<br />

v+1<br />

2<br />

Γ ⎛<br />

<br />

⎜<br />

v ⎝1 +<br />

2<br />

= − 1<br />

2 log σ2t − 1 1<br />

log π − log (v − 2)<br />

2 2<br />

+ log Γ <br />

v+1<br />

2<br />

Γ <br />

v + 1<br />

− log 1 + v 2<br />

2<br />

1 (yt − µ t)<br />

v − 2<br />

2<br />

σ2 <br />

t<br />

Hipótese: εt ∼ GED (Generalized Error Distribution)<br />

2 yt−µt<br />

σt<br />

v − 2<br />

⎞<br />

⎟<br />

⎠<br />

− v+1<br />

2<br />

n<br />

t=1 lt (θ) , (θ inclui<br />

2 yt−µt<br />

σt<br />

v − 2<br />

⎞<br />

⎟<br />

⎠<br />

− v+1<br />

2<br />

<br />

10 x<br />

Seja g (x) a fdp de ε e G (x) = g (x) dx a respectiva função de distribuição. Qual é a fdp de<br />

−∞<br />

yt = µ t + σtεt condicionada a Ft−1, sabendo que (1) a fdp de εt é dada pela função g e (2) µ t e σt são<br />

conhecidos dado Ft−1 (ou It)? Trata-se de um problema clássico de mudança de variáveis. Comece-se por<br />

analisar a função de distribuição condicional<br />

P (yt ≤ y| Ft−1) = P (µ t + σtεt ≤ y| Ft−1) = P<br />

<br />

εt ≤ y − µ t<br />

σt<br />

<br />

<br />

<br />

Ft−1<br />

<br />

y − µt<br />

= G<br />

Logo, a fdp de yt condicionada a Ft−1 é, pelo teorema da derivada da função composta, dada pela expressão<br />

f (y| Ft−1) = dP (yt ≤ y| Ft−1)<br />

dy<br />

= G ′<br />

<br />

y−µt<br />

y − d<br />

<br />

µt σt y − µt 1<br />

= g<br />

y<br />

311<br />

σt<br />

σt<br />

σt<br />

.<br />

σt<br />

.


g(x)<br />

2.5<br />

2.0<br />

1.5<br />

1.0<br />

0.5<br />

­3 ­2 ­1 0 1 2 3<br />

Figura 8-13: Distribuição GED no caso v = 1/2<br />

Diz-se que εt tem distribuição GED se a sua fdp é dada por<br />

g (εt) = v exp − 1<br />

<br />

εt <br />

2 λ<br />

v<br />

λ2 (1+1/v)Γ(1/v) , Γ função Gama, λ =<br />

x<br />

<br />

2 −2/v Γ (1/v)<br />

Γ (3/v)<br />

Pode-se provar E (εt) = 0 e V ar (εt) = 1. Se v = 2 ⇒ distribuição normal padronizada, se<br />

v < 2 ⇒ g é leptocúrtica. Na figura 8-13 traça-se a g com v = 1/2.<br />

Implementação no programa EVIEWS<br />

Considere-se, a título de exemplo, o modelo<br />

yt = γ 0 + γ 1xt + φ 1yt−1 + ut<br />

ut = σtεt, εt ∼ t (v)<br />

σ 2 t = ω + α1u 2 t−1 + α1u 2 t−2 + β 1σ 2 t−1 + δ0segt + δvolumet−1<br />

onde segt é uma variável dummy que assume 1 se t corresponde a uma segunda feira. Para<br />

estimar o modelo no EVIEWS, através do método da máxima verosimilhança, basta selec-<br />

cionar “Student’s t” em “Error distribution”. Ver a figura 8.9.3. O output fornece também<br />

uma estimativa para o número de graus de liberdade da distribuição t-Student. Esta estima-<br />

tiva é interessante pois fornece informação sobre o achatamento da distribuição condicional.<br />

8.10 Ensaios Estatísticos<br />

Há basicamente dois momentos de interesse na realização de ensaios estatísticos. Num<br />

primeiro momento, interessa verificar se existe evidência do efeito ARCH. Posteriormente,<br />

depois da estimação, haverá que analisar a adequabilidade do modelo estimado.<br />

312


8.10.1 Ensaios Pré-Estimação<br />

Teste ARCH (teste multiplicador de Lagrange)<br />

Considere-se<br />

yt = µ t + ut<br />

ut = σtε<br />

σ 2 t = ω + α1u 2 t−1 + ... + αqu 2 t−q.<br />

Existe efeito ARCH se pelo menos um parâmetro αi for diferente de zero. Se todos forem<br />

zero, não existe efeito ARCH. Pode-se provar, sob a hipótese H0: α1 = α2 = ... = αq = 0<br />

que<br />

nR 2 d<br />

−→ χ 2 (q)<br />

onde R 2 é o coeficiente de determinação da regressão de û 2 t sobre as variáveis<br />

<br />

1 û 2 t−1 ... û 2 t−q<br />

<br />

(8.17)<br />

(û é o resíduo supondo σ 2 t constante). Suponha-se que q é elevado e a hipótese nula é<br />

rejeitada. Então é conveniente considerar o GARCH. Na verdade, pode-se provar que o teste<br />

multiplicador de Lagrange do efeito GARCH baseia-se também na regressão de û 2 t sobre as<br />

variáveis û 2 t−i.<br />

313


Para a realização do teste os passos são:<br />

1. Estima-se o modelo yt = µ t + ut supondo σ 2 t constante;<br />

2. obtêm-se os resíduos ût = yt − ˆµ t, t = 1, ..., n; (resíduos OLS, depois da regressão<br />

OLS de y sobre as variáveis explicativas, ou resíduos ARMA);<br />

3. regressão OLS de û 2 t sobre as variáveis definidas em (8.17);<br />

4. obtenção de R 2 da equação anterior e cálculo do valor-p<br />

FAC de û 2 t<br />

P χ 2 (q) ≥ nR 2 .<br />

Como se viu, a existência de um processo GARCH implica a correlação das variáveis u 2 t<br />

e u2 t−k . O teste Ljung-Box é assimptoticamente equivalente ao teste ARCH. A sua hipótese<br />

nula é H0: ρ 1 (û 2 t ) = ... = ρ m (û 2 t ) = 0, sendo ρ i (û 2 t ) o coeficiente de autocorrelação entre<br />

û 2 t e û 2 t−i. Sob H0 tem-se<br />

Q = n (n + 2)<br />

m<br />

i=1<br />

1<br />

n − i ˆρ2<br />

2 d 2<br />

i ût −→ χ(m−k) onde k é o número de parâmetros estimados menos o termo constante. Evidência contra a<br />

hipótese nula sugere a existência de um efeito ARCH.<br />

Implementação no programa EVIEWS<br />

O programa EVIEWS fornece o valor-p do teste multiplicador de Lagrange. Para obter<br />

esse valor é necessário estimar primeiro o modelo sem efeito ARCH. No exemplo a seguir<br />

(figura 8-14) considerou-se<br />

yt = c + θut−1 + ut.<br />

onde y são os retornos do PSI20 (Jan 93 a Out 04). O modelo foi estimado através da in-<br />

strução y c ma(1). Uma vez estimado o modelo, o programa EVIEWS oferece a opção<br />

“ARCH LM test...” em “view”-“Residual Tests”. A figura 8-14 mostra que o valor-p é zero,<br />

pelo que existe forte evidência contra a hipótese nula; por outras palavras, existe forte ev-<br />

idência da presença de efeito ARCH. O teste Ljung-Box (ver a figura 8-15) corrobora as<br />

conclusões do teste ARCH.<br />

314


ARCH Test:<br />

F­statistic 23.58130 Probability 0.000000<br />

Obs*R­squared 218.9822 Probability 0.000000<br />

Test Equation:<br />

Dependent Variable: RESID^2<br />

Method: Least Squares<br />

Included observations: 2925 after adjustments<br />

Variable Coefficient Std. Error t­Statistic Prob.<br />

C 5.64E­05 8.24E­06 6.840992 0.0000<br />

RESID^2(­1) 0.183900 0.018517 9.931537 0.0000<br />

RESID^2(­2) 0.058698 0.018824 3.118322 0.0018<br />

RESID^2(­3) 0.019230 0.018745 1.025890 0.3050<br />

RESID^2(­4) 0.040301 0.018739 2.150692 0.0316<br />

RESID^2(­5) 0.004380 0.018741 0.233690 0.8152<br />

RESID^2(­6) 0.036872 0.018741 1.967414 0.0492<br />

RESID^2(­7) 0.032363 0.018739 1.727034 0.0843<br />

RESID^2(­8) 0.109910 0.018745 5.863338 0.0000<br />

RESID^2(­9) ­0.020103 0.018824 ­1.067965 0.2856<br />

RESID^2(­10) 0.029723 0.018517 1.605224 0.1086<br />

R­squared 0.074866 Mean dependent var 0.000112<br />

Adjusted R­squared 0.071691 S.D. dependent var 0.000391<br />

S.E. of regression 0.000376 Akaike info criterion ­12.92829<br />

Sum squared resid 0.000413 Schwarz criterion ­12.90579<br />

Log likelihood 18918.62 F­statistic 23.58130<br />

Durbin­Watson stat 1.999284 Prob(F­statistic) 0.000000<br />

Figura 8-14: Output do EVIEWS associado ao teste multiplicador de Lagrange H0: α1 =<br />

α2 = ... = α10 = 0 (o p-value está destacado)<br />

Figura 8-15: FAC de û 2 t (e valores-p da estatística Ljung-Box)<br />

315


Existem muitos outros testes para ensaiar efeitos e modelos específicos (ver por exemplo,<br />

Franses e van Dijk, 2000). Estes testes têm como objectivo sugerir a especificação da estru-<br />

tura de σ 2 t e, portanto, são realizados antes da fase da estimação (final) do modelo. Como<br />

alternativa, podemos discutir esses efeitos específicos (por exemplo, efeito assimétrico) na<br />

fase da estimação, a partir dos ensaios habituais de significância e dos critérios SC e AIC.<br />

Por exemplo, suponha-se que se pretende ensaiar a presença do efeito assimétrico. Em<br />

alternativa aos testes apresentados em Franses e van Dijk (2000), pode-se ensaiar a hipótese<br />

γ 1 = 0 (já na fase da estimação) no contexto do modelo<br />

σ 2 t = ω + α1u 2 t−1 + β1σ 2 t−1 + γ1u 2 ⎧<br />

⎨ 1 se ut−1 < 0<br />

t−1I{ut−1


k = 5 e H0: θ4 + 2θ5 = 3 tem-se q = 1 e<br />

⎛<br />

⎜<br />

<br />

⎜<br />

θ4 + 2θ5 = 3 ⇔ 0 0 0 1 2 ⎜<br />

⎜<br />

R ⎜<br />

⎝<br />

θ1<br />

θ2<br />

θ3<br />

θ4<br />

θ5<br />

⎞<br />

<br />

θ<br />

⎟ = 3<br />

⎟<br />

⎠<br />

<br />

r<br />

Para obter a estatística de teste associada a H0: Rθ0 = r considera-se, a partir de (8.18),<br />

e, consequentemente 11 ,<br />

√ <br />

n Rˆ <br />

d<br />

θn − r −→ N (0, RV0R ′ )<br />

<br />

n Rˆ ′<br />

θn − r (RV0R ′ <br />

−1<br />

) Rˆ <br />

d 2<br />

θn − r −→ χ(q). (8.19)<br />

O programa EVIEWS permite aplicar de forma muito fácil o teste de Wald. No exemplo<br />

anterior, e depois de estimado o modelo GARCH, bastaria seleccionar “view”-“coefficient<br />

tests”-“Wald” e depois escrever “c(4)+2*c(5)=3”. É possível também ensaiar relações não<br />

lineares entre os parâmetros, como por exemplo, “c(4)^2+c(5)^2=1”. 12<br />

Testes individuais (por exemplo, do tipo H0: θ2 = 0) baseiam-se na relação<br />

ˆθn<br />

a<br />

∼ N<br />

<br />

θ0, ˆV0<br />

n<br />

devido a (8.18) (para n finito mas suficientemente alto, ˆθn tem distribuição aproximadamente<br />

igual a N (θ0, V0/n)). Assim, para ensaiar, por exemplo, H0: θ2 = 0 considera-se o rácio-t<br />

tˆ θn,2 =<br />

se<br />

ˆθn,2 <br />

ˆθn,2<br />

<br />

com distribuição N (0, 1) onde se ˆθn,2 é o erro padrão de ˆθn,2 (é a raiz quadrada do ele-<br />

11 Note-se que se X é um vector aleatório dimensão q × 1 com distribuição N (µ, Σ) , então<br />

(x − µ) ′ Σ −1 (x − µ) ∼ χ 2 (q) .<br />

12 Neste caso não linear seria necessário adaptar a estatística de teste (8.19). Observe-se que Rθ0 expressa<br />

uma relação linear.<br />

317<br />

<br />

<br />

.


mento (2,2) da matriz ˆV0/n). O programa EVIEWS fornece automaticamente os rácios-t.<br />

Testes de Diagnóstico<br />

O modelo em análise é<br />

yt = µ t + ut, ut = σtεt.<br />

e as hipóteses são E (εt) = 0, Var (εt) = 1 (verificam-se sempre, por construção), {εt} é um<br />

processo diferença de martingala ou ruído branco e {εt} é um processo homocedástico.<br />

Nestas circunstância, se o modelo está bem especificado, deve ter-se: {εt} deve ser não<br />

autocorrelacionado e {εt} deve ser condicionalmente homocedástico.<br />

Assim, se<br />

(a) y é, por exemplo, um ARMA e a média condicional não captar esta estrutura, os proces-<br />

sos {ut} e {εt} exibirão autocorrelação;<br />

(b) de igual forma, se y segue um GARCH e a variância condicional não captar esta estrutura<br />

ε 2 t = u 2 t /σ 2 t exibirá autocorrelação;<br />

(c) finalmente, se ε segue uma distribuição leptocúrtica então kˆε > 3.<br />

Para analisar (a) e (b), devemos:<br />

1. estimar um modelo ARMAX+GARCH;<br />

2. obter os resíduos ût;<br />

3. obter os resíduos estandardizados ˆεt = ût/ˆσt;<br />

4. (Análise da questão (a)). Efectuar o teste Ljung-Box tomando como hipótese nula,<br />

H0: ρ 1 (ˆεt) = ... = ρ m (ˆεt) = 0 (ρ i (ˆεt) é o coeficiente de autocorrelação entre ˆεt e<br />

ˆεt−i) e estatística de teste<br />

Q = n (n + 2)<br />

m<br />

i=1<br />

1<br />

n − i ˆρ2<br />

d<br />

i (ˆεt) −→ χ 2 (m−k)<br />

onde k é o número de parâmetros AR e MA estimados. Evidência contra a hipótese<br />

nula sugere que ˆεt é autocorrelacionado. Neste caso é necessário rever a especificação<br />

da média condicional.<br />

318


5. (Análise da questão (b)). Efectuar o teste Ljung-Box tomando como hipótese nula,<br />

2<br />

2<br />

2<br />

2<br />

H0: ρ1 ˆε t = ... = ρm ˆε t = 0 (ρi ˆε t é o coeficiente de autocorrelação entre ˆε t e<br />

ˆε 2<br />

t−i) e estatística de teste<br />

Q = n (n + 2)<br />

m<br />

i=1<br />

1<br />

n − i ˆρ2 i<br />

2 d 2<br />

ˆε t −→ χ(m−k) onde k é o número de parâmetros estimados (McLeod e Li, 1983, sugere que k pode<br />

ser apenas o número de parâmetros dinâmicos estimados na variância condicional; por<br />

exemplo, 2 no GARCH(1,1)). Evidência contra a hipótese nula sugere que ˆε 2<br />

t é auto-<br />

correlacionado. Neste caso é necessário rever a especificação da variância condicional.<br />

Taylor (2005), p. 258, aponta outros procedimentos alternativos.<br />

Teste Alternativo<br />

Uma forma alternativa de analisar a questão (b) atrás referida consiste em verificar a<br />

presença de efeitos ARCH remanescentes através da especificação (Franses e van Dijk, 2000,<br />

e Lundbergh e Teräsvirta, 2002):<br />

yt = µ t + ut<br />

ut = σtεt<br />

εt = et<br />

<br />

1 + π1ε 2 t−1 + ... + πmε 2 t−m<br />

Sob H0: π1 = π2 = ... = πm = 0 (não existem efeitos ARCH remanescentes), tem-se<br />

nR 2 d<br />

−→ χ 2 (m)<br />

onde R 2 é o coeficiente de determinação da regressão de ˆε 2<br />

t sobre as variáveis<br />

onde<br />

<br />

1 ˆε 2<br />

t−1 ... ˆε 2<br />

t−m ˆxt<br />

ˆxt = 1<br />

ˆσt<br />

e η ′ é o vector de parâmetros especificados em σ 2 t . Calcule-se ∂σ2 t<br />

∂η ′ no caso σ 2 t = ω+α1u 2 t−1+<br />

319<br />

∂ˆσ 2<br />

t<br />

∂η ′


β 1σ 2 t−1. Tem-se<br />

Suponha-se ∂σ2 0<br />

∂ω<br />

∂σ2 t<br />

=<br />

∂η ′<br />

= 0. Vem<br />

<br />

∂<br />

∂σ 2 t<br />

ω α1 β 1<br />

=<br />

∂σ 2 t<br />

∂ω<br />

∂σ 2 t<br />

∂α1<br />

∂σ 2 t<br />

∂β 1<br />

∂σ2 t<br />

∂ω = 1 + β ∂σ<br />

1<br />

2 t−1<br />

∂ω = 1 + β <br />

∂σ<br />

1 1 + β1 2 <br />

t−2<br />

= ... =<br />

∂ω<br />

= 1 + β1 + β 2<br />

1 + ... + β t−1<br />

1 =<br />

Deixa-se como exercício verificar que<br />

∂σ2 <br />

t<br />

t<br />

=<br />

∂η ′ i=1 βi−1 1<br />

t<br />

i=1<br />

t<br />

i=1 βi−1<br />

1 û 2 t−i<br />

<br />

.<br />

β i−1<br />

1 = 1 t<br />

β1 − 1<br />

β1 − 1<br />

.<br />

t i=1 βi−1 1 ˆσ 2<br />

t−i<br />

Nota: O programa EVIEWS “esquece o vector ˆxt”. Como consequência, o valor da<br />

estatística nR 2 apurado no EVIEWS depois da estimação ARCH/GARCH está subestimado<br />

e, assim, a probabilidade P (rejeitar H0| H1 é verdadeira) vem baixa. Tenderemos a concluir<br />

quase sempre que o modelo está bem especificado, mesmo nos casos em que ainda existem<br />

efeitos ARCH remanescentes. No EVIEWS, é bem mais simples considerar o teste Ljung-<br />

Box (aplicado a ˆε 2<br />

t ).<br />

8.11 Previsão<br />

A previsão no contexto do modelo ARCH/GARCH envolve habitualmente a previsão de yt<br />

e de σ 2 t . Todavia, em várias aplicações, como por exemplo, estimação do risco de mercado,<br />

construção de portfolios dinâmicos, valorização de opções, etc., a previsão da volatilidade é<br />

mais importante do que a previsão de yt.<br />

Vamos analisar a previsão de yt e de σ 2 t e estabelecer os respectivos intervalos de con-<br />

fiança (ICs) ou de previsão. Concretamente, temos um modelo do tipo ARMA+GARCH,<br />

baseado em n observações, {y1, y2, ..., yn} e procura-se,<br />

• prever yn+1, yn+2, ...;<br />

• estabelecer ICs para yn+1, yn+2, ...;<br />

320<br />

<br />

.


• prever σ 2 n+1, σ 2 n+2, ...;<br />

• estabelecer ICs para σ 2 n+1, σ 2 n+2, ...;<br />

8.11.1 Previsão da Variância Condicional<br />

Vimos que o previsor com EQM mínimo para yn+h (dada a informação em Fn) é E (yn+h| Fn) .<br />

De igual forma, o previsor com EQM mínimo para σ 2 n+h (dada a informação em Fn) é (nat-<br />

uralmente)<br />

E σ 2 n+h<br />

Note-se que E u2 <br />

<br />

n+h Fn = E σ2 n+hε2 <br />

<br />

n+h Fn = E σ2 <br />

<br />

n+h Fn . Para facilitar a notação<br />

considere-se σ2 n+h,n := E σ2 <br />

<br />

n+h Fn . Vejam-se os exemplos seguintes.<br />

Modelo ARCH(1) σ 2 t = ω + α1u 2 t−1<br />

Previsão a um passo h = 1<br />

Como σ 2 n+1 = ω + α1u 2 n tem-se<br />

σ 2 n+1,n = E ω + α1u 2 n<br />

<br />

Fn<br />

<br />

.<br />

Fn<br />

= ω + α1u 2 n<br />

(na prática, como σ 2 n+1,n é desconhecido deve considerar-se ˆσ 2<br />

n+1,n = ˆω + ˆα1û 2 n).<br />

Previsão a dois passos h = 2<br />

Como σ 2 n+2 = ω + α1u 2 n+1 tem-se<br />

σ 2 n+2,n = E ω + α1u 2 n+1<br />

<br />

<br />

Fn<br />

= ω + α1 E u 2 <br />

n+1 Fn<br />

= ω + α1 E σ 2 <br />

n+1 Fn<br />

= ω + α1σ 2 n+1,n<br />

Podemos ainda escrever σ 2 n+2,n como função do valor u 2 n. Basta substituir na expressão an-<br />

terior, σ 2 n+1,n por ω + α1u 2 n. Vem<br />

σ 2 n+2,n = ω + α1σ 2 n+1,n<br />

<br />

= ω + α1 ω + α1u 2 n<br />

= ω (1 + α) + α1u 2 n<br />

321


Previsão a h passos<br />

σ 2 n+h,n = E ω + α1u 2 n+h−1<br />

<br />

<br />

Fn<br />

= ω + α1 E u 2 <br />

n+h−1 Fn<br />

= ω + α1 E σ 2 <br />

n+h−1 Fn<br />

= ω + α1σ 2 n+h−1,n.<br />

Tal como anteriormente, podemos escrever σ 2 n+h,n como função de u2 n. Pode-se provar que<br />

Se 0 ≤ α1 < 1, conclui-se<br />

σ 2 n+h,n = ω + α1σ 2 n+h−1,n = ω 1 − αh 1<br />

1 − α1<br />

σ 2 n+h,n → ω<br />

1 − α1<br />

<br />

<br />

<br />

<br />

+ α h 1u 2 n<br />

= Var (ut) (quando h → ∞).<br />

O caso α1 = 1 é analisado adiante, no contexto do GARCH.<br />

Modelo GARCH(1,1) σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1<br />

Previsão a um passo h = 1<br />

Como σ 2 n+1 = ω + α1u 2 n +β 1σ 2 n tem-se<br />

σ 2 n+1,n = E ω + α1u 2 n + β 1σ 2 n<br />

<br />

Fn<br />

= ω + α1u 2 n + β 1σ 2 n<br />

(na prática, como σ 2 n+1,n é desconhecido deve considerar-se ˆσ 2<br />

n+1,n = ˆω + ˆα1û 2 n + β 1ˆσ 2<br />

n).<br />

Previsão a dois passos h = 2<br />

Como σ 2 n+2 = ω + α1u 2 n+1 +β 1σ 2 n+1 tem-se<br />

σ 2 n+2,n = E ω + α1u 2 n+1 + β1σ 2 <br />

<br />

n+1 Fn<br />

= ω + α1 E u 2 <br />

<br />

n+1 Fn + β1 E σ 2 <br />

n+1<br />

= ω + (α1 + β 1) σ 2 n+1,n<br />

322<br />

Fn


Previsão a h passos<br />

σ 2 n+h,n = E ω + α1u 2 n+h−1 + β1σ 2 <br />

<br />

n+h−1 Fn<br />

= ω + α1 E u 2 <br />

<br />

n+h−1 Fn + β1 E σ 2 <br />

n+h−1<br />

= ω + (α1 + β 1) σ 2 n+h−1,n<br />

Fn<br />

Um pouco à semelhança do que fizemos para a previsão no ARCH, a expressão<br />

σ 2 n+h,n = ω + (α1 + β 1) σ 2 n+h−1,n<br />

<br />

(8.20)<br />

pode ser reescrita, como função de u 2 n e σ 2 n. Pode-se provar que a solução da equação (8.20),<br />

sob a condição 0 ≤ α1 + β 1 < 1 (e dada a condição inicial σ 2 n+1,n = ω + α1u 2 n + β 1σ 2 n) é<br />

σ 2 n+h,n =<br />

<br />

ω 1 − (α1 + β1) h<br />

1 − α1 − β 1<br />

Assim, no caso α1 + β 1 < 1, tem-se<br />

σ 2 n+h,n →<br />

ω<br />

1 − α1 − β 1<br />

No caso α1 + β 1 = 1 (IGARCH(1,1)) vem<br />

e, portanto,<br />

σ 2 n+2,n = ω + σ 2 n+1,n<br />

+ (α1 + β1) h−1 α1u 2 n + β1σ 2 n .<br />

= Var (ut) (quando h → ∞).<br />

σ 2 n+3,n = ω + σ 2 n+2,n = ω + ω + σ 2 2<br />

n+1,n = 2ω + σn+1,n ...<br />

σ 2 n+h,n = (h − 1) ω + σ 2 n+1,n<br />

σ 2 n+h,n = σ 2 n+1,n, se ω = 0<br />

σ 2 n+h,n → ∞, se ω > 0 (quando h → ∞).<br />

Para além da estimação pontual de σ2 n+h,n , há interesse também em estabelecer ICs. Esta<br />

questão é tratada no ponto 8.11.3.<br />

323


8.11.2 A Previsão da Variável Dependente y<br />

Qualquer que seja o modelo para y, o previsor de yn+h com EQM mínimo, baseia-se, como<br />

vimos, no valor esperado condicionado de y. Assim, a previsão pontual de yn+h não envolve<br />

qualquer novidade face ao que foi já exposto no ponto 6.6. Todavia, a estimação por inter-<br />

valos deve agora reflectir a presença de heterocedasticidade condicional. Seja (l1, l2) o IC a<br />

(1 − α) 100% associado a yn+h, i.e, l1 e l2 são tais que<br />

P (l1 < yn+h < l2| Fn) = 1 − α ⇔<br />

<br />

l1 − E (yn+h| Fn)<br />

P <br />

Var (yn+h| Fn) < yn+1 − E (yn+h| Fn)<br />

<br />

Var (yn+h| Fn) < l2<br />

<br />

− E (yn+h| Fn)<br />

<br />

<br />

<br />

Var (yn+h| Fn)<br />

Fn<br />

<br />

= 1 − α.<br />

Seja Zn+h = (yn+h − E (yn+h| Fn)) / Var (yn+h| Fn) e q1−α/2 o quantil de ordem 1 − α/2<br />

da distribuição da v.a. Zn+h| Fn. Como também se tem<br />

P <br />

−q1−α/2 < Zn+h < q1−α/2<br />

Fn = 1 − α<br />

(supondo que a distribuição de Z| Fn é simétrica) conclui-se<br />

l1 − E (yn+h| Fn)<br />

<br />

Var (yn+h| Fn) = −q1−α/2 e l2 − E (yn+h| Fn)<br />

<br />

Var (yn+h| Fn)<br />

Resolvendo estas igualdades em ordem a l1 e a l2,<br />

l1 = E (yn+h| Fn)−q1−α/2<br />

= q1−α/2.<br />

<br />

Var (yn+h| Fn), l2 = E (yn+h| Fn)+q1−α/2 Var (yn+h| Fn)<br />

obtém-se o seguinte IC 13 a (1 − α) 100% para yn+h:<br />

<br />

E (yn+h| Fn) ± q1−α/2 Var (yn+h| Fn)<br />

13Note-se que Var (yn+h| Fn) = Var (en (h)| Fn) onde en (h) = yn+h−E (yn+h| Fn) é o erro de previsão<br />

a h passos. Assim, o IC (1 − α) 100% pode ser também apresentado da seguinte forma:<br />

<br />

E (yn+h| Fn) ± q1−α/2 Var (en (h)| Fn).<br />

324


Por exemplo, assuma-se que yn+h| Fn tem distribuição N (E (yn+h| Fn) , Var (yn+h| Fn))<br />

e, portanto, Zn+h| Fn ∼ N (0, 1). Nestas condições, o IC a 95% para yn+h é<br />

E (yn+h| Fn) ± 1.96 Var (yn+h| Fn).<br />

Infelizmente esta expressão só está correcta para h = 1. O problema é o de que yn+h| Fn<br />

para h > 1 não tem geralmente distribuição normal na presença de efeitos ARCH/GARCH,<br />

mesmo que as inovações εt sejam Gaussianas e, portanto, mesmo que yn+1| Fn tenha dis-<br />

tribuição normal. No ponto 8.11.3 apresentamos um procedimento de bootstrap que permite<br />

obter IC correctos para yn+h, com h ≥ 1.<br />

Outro caso de interesse é o da previsão de longo prazo. Se o processo é ESO (e ergódico),<br />

a previsão de yt e de σ 2 t no longo prazo, i.e. quando t → ∞ é, respectivamente, E (y) =<br />

limh→∞ E (yn+h| Fn) e Var (y) = limh→∞ Var (yn+h| Fn) (tratam-se afinal dos momentos<br />

marginais da distribuição de y). O IC a (1 − α) 100% para a previsão de longo prazo de y é,<br />

desta forma,<br />

E (y) ± ζ 1−α/2<br />

Var (y)<br />

onde ζ 1−α/2 é o quantil de ordem 1 − α/2 da distribuição marginal de y. Este quantil pode<br />

ser estimado a partir da distribuição empírica da sucessão de valores observados {y1, ..., yn} .<br />

Analise-se nesta secção apenas a previsão a um passo e deixe-se o caso da previsão a<br />

h > 1 passos para o ponto 8.11.3<br />

Exemplo 8.11.1 Considere-se o modelo AR(1)+GARCH(1,1)<br />

yt = c + φyt−1 + ut,<br />

σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1.<br />

Se ut| Ft−1 ∼ N (0, σ 2 t ) então um IC a 95% para yn+1 é E (yn+h| Fn)±1.96 Var (yn+h| Fn)<br />

ou seja<br />

Modelo de Regressão<br />

Considere-se o modelo de regressão<br />

c + φyn ± 1.96 ω + α1u 2 n + β 1σ 2 n.<br />

yt = x ′ tβ + ut<br />

325


onde x ′ t é um vector linha de dimensão k e β vector coluna de dimensão k. Supomos que u e<br />

X são independentes e ainda que ut| Ft−1 ∼ N (0, σ 2 t ) . O previsor de yn+1 de EQM mínimo<br />

é<br />

E (yn+1| Fn, xn+1) = x ′ n+1β<br />

Por que razão o valor esperado é condicionado também a xn+1? A razão é a seguinte: a<br />

previsão de y no momento n + 1 depende de xn+1, e, portanto, xn+1 tem de ser conhecido.<br />

Na prática, só em casos muito especiais se conhece xn+1 no momento n (mesmo assim,<br />

podemos estar interessados em prever yn+1 admitindo um dado cenário ou hipótese para<br />

xn+1).<br />

Assim, um IC para yn+1 a 95% é<br />

x ′ n+1β ± 1.96 Var (yn+1| Fn) ⇔ x ′ n+1β ± 1.96σn+1,n.<br />

Analise-se agora uma questão que é normalmente descurada no âmbito das séries tempo-<br />

rais (mas não na área da econometria). O intervalo de previsão acima estabelecido assume<br />

que β é conhecido. Ao substituirmos β pela respectiva estimativa, introduz-se uma nova<br />

fonte de variabilidade, que deve ser incorporada no intervalo de previsão. Para se ter em<br />

conta a variabilidade de ˆβ, é necessário obter a distribuição da variável yn+1 − x ′ n+1 ˆβ. A<br />

representação<br />

yn+1 − x ′ n+1 ˆ β = x ′ n+1β + un+1 − x ′ n+1 ˆ β = un+1 + x ′ n+1<br />

<br />

β − ˆ <br />

β = en (1)<br />

permite concluir que yn+1 −x ′ n+1 ˆ β tem distribuição normal de média E (en (1)| Fn, xn+1) =<br />

0 e variância<br />

<br />

Var (en (1)| Fn, X) = Var x ′ <br />

n+1 β − ˆ <br />

<br />

β + un+1<br />

Fn, xn+1<br />

= x ′ <br />

n+1 Var β − ˆ <br />

<br />

β Fn, xn+1 xn+1 + E u 2 <br />

<br />

n+1 Fn, xn+1<br />

= x ′ <br />

n+1 Var ˆβ<br />

xn+1 + σ 2 n+1,n<br />

(assumindo-se E (un+1| X) = 0). Considerando (1 − α) 100% = 95% tem-se<br />

P (l1 < yn+h < l2| Fn) = 0.95 ⇔<br />

<br />

l1 − x<br />

P<br />

′ n+1 ˆ β<br />

<br />

Var (en (1)| Fn, xn+1) <<br />

yn+1 − x ′ n+1 ˆ β<br />

<br />

Var (en (1)| Fn, xn+1) <<br />

l2 − x ′ n+1 ˆ <br />

β<br />

<br />

<br />

<br />

Var (en (1)| Fn, xn+1)<br />

326<br />

Fn<br />

<br />

= 0.95.


Obtém-se assim o seguinte IC a 95% para yn+1:<br />

x ′ n+1 ˆ β ± 1.96<br />

<br />

x ′ n+1 Var<br />

<br />

ˆβ xn+1 + σ2 n+1,n. (8.21)<br />

Para amostra grandes podemos continuar a usar a aproximação x ′ n+1 ˆβ ± 1.96ˆσn dado que<br />

x ′ <br />

n+1 Var ˆβ xn+1 é aproximadamente proporcional a 1/n e, portanto, tende para zero as-<br />

simptoticamente (por outras palavras, é uma quantidade “pequena” quando comparada com<br />

σ 2 n+1,n).<br />

8.11.3 Intervalos de Confiança para y e para a Volatilidade baseados<br />

em Boostrap<br />

Vimos até agora as seguintes questões:<br />

• intervalos de confiança para yn+1;<br />

• previsão de σ 2 t para os períodos n + 1, n + 2, ...;<br />

Estas questões são relativamente simples tratar. Já a obtenção de intervalos de confiança<br />

para yn+h, h > 1 e para σ2 n+h , h ≥ 1 é problemática, pois não são conhecidas as distribuições<br />

de interesse. Estas questões resolvem-se de forma muito satisfatória recorrendo ao bootstrap.<br />

Para exemplificar considere-se o modelo<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

yt = c + φyt−1 + ut<br />

ut = σtεt<br />

σ 2 t = ω + αu 2 t−1 + βσ 2 t−1.<br />

(8.22)<br />

onde ε tem distribuição desconhecida de média nula e variância um. O algoritmo é o<br />

seguinte:<br />

1. Estimar o modelo (8.22) e obter<br />

{ˆεt, t = 1, ..., n} , onde ˆεt = ût<br />

ˆσt<br />

ˆσ 2 ˆω<br />

=<br />

1 − ˆα − ˆ ĉ<br />

, ˆµ =<br />

β 1 − ˆ φ<br />

<br />

ˆθ = ĉ, ˆ φ, ˆω, ˆα, ˆ ′<br />

β<br />

327


2. Simular o modelo ⎧⎪ ⎨<br />

⎪⎩<br />

y ∗ t = ĉ + ˆ φy ∗ t−1 + u ∗ t<br />

u ∗ t = σ ∗ t ε ∗ t<br />

σ ∗2<br />

t = ˆω + ˆαu ∗2<br />

t−1 + ˆ βσ ∗2<br />

t−1<br />

(8.23)<br />

com os seguintes valores iniciais: σ ∗2<br />

0 = ˆσ 2 e y ∗ 0 = ˆµ. Os valores de ε ∗ t são retirados<br />

aleatoriamente com reposição do conjunto {ˆε1, ..., ˆεn} .<br />

3. Estimar o modelo (8.23) e obter as seguintes previsões:<br />

⎧<br />

⎨<br />

⎩<br />

y∗ n+h = ĉ∗ + ˆ φ ∗<br />

y∗ n+h−1<br />

ˆσ ∗2<br />

n+h = ˆω ∗ + ˆα ∗ u∗2 n+h−1 + ˆ β ∗<br />

ˆσ ∗2<br />

n+h−1<br />

Note-se que ˆ θ ∗<br />

<br />

= ĉ∗ , ˆ φ ∗<br />

, ˆω ∗ , ˆα ∗ , ˆ β ∗ ′<br />

é o vector das estimativas obtidas no contexto<br />

do modelo simulado (8.23).<br />

4. Repetir os passos 2 e 3 B vezes. Com este procedimento obtêm-se as seguintes séries:<br />

<br />

<br />

y ∗(1)<br />

n+j , y∗(2) n+j , ..., y∗(B) n+j<br />

∗2 (1)<br />

ˆσ<br />

∗2 (2)<br />

n+j , ˆσ n+j , ..., ˆσ<br />

<br />

, j = 1, ..., h,<br />

<br />

, j = 1, ..., h.<br />

∗2 (B)<br />

n+j<br />

5. Um intervalo de previsão a (1 − α) 100% para yn+j é<br />

onde q α<br />

2<br />

e q1− α<br />

2<br />

q α<br />

2<br />

<br />

, q1−<br />

α<br />

2<br />

<br />

são os quantis empíricos da amostra<br />

6. Um intervalo de previsão a (1 − α) 100% para σ 2 n+j é<br />

onde agora q α<br />

2<br />

e q1− α<br />

2<br />

q α<br />

2<br />

<br />

, q1−<br />

α<br />

2<br />

y ∗(1)<br />

n+j<br />

<br />

são os quantis empíricos da amostra<br />

, y∗(2) n+j , ..., y∗(B) n+j<br />

∗2 (1)<br />

ˆσ<br />

∗2 (2)<br />

<br />

.<br />

n+j , ˆσ n+j , ..., ˆσ<br />

∗2 (B)<br />

n+j<br />

Com o passo 3 incorpora-se a variabilidade do estimador de ˆ θ na construção dos ICs (esta<br />

ideia é idêntica à que conduz a considerar o valor x ′ <br />

n+1 Var ˆβ xn+1 na expressão 8.21).<br />

Para mais pormenores veja-se Pascuala et al. (2006).<br />

328<br />

<br />

.


8.12 Problema dos Erros de Especificação na Média Condi-<br />

cional<br />

Considere o modelo<br />

yt = µ t + ut, E u 2 t Ft−1<br />

<br />

= σ 2 constante<br />

Em aplicações desconhece-se a verdadeira função µ t. Suponha-se que se propõe (errada-<br />

mente) para a média condicional a especificação mt = µ t. Ou seja propõe-se<br />

yt = mt + vt,<br />

onde vt é tomada como a v.a. residual. Nestas condições pode existir um efeito ARCH<br />

espúrio.<br />

Para exemplificar, suponha-se que o verdadeiro processo é<br />

yt = c + φyt−1 + ut, ut RB Gaussiano N 0, σ 2<br />

Por erro de especificação supõe-se mt = c. Nestas condições existe um efeito ARCH es-<br />

púrio. O modelo considerado (erradamente) é<br />

onde vt é tomada como a v.a. residual. Ora<br />

yt = c + vt, vt = φyt−1 + ut<br />

v 2 t = (φyt−1 + ut) 2 = φ 2 y 2 t−1 + u 2 t + 2φyt−1ut<br />

= φ 2 (c + vt−1) 2 + u 2 t + 2φyt−1ut<br />

= φ 2 c 2 + φ 2 2cvt−1 + φ 2 v 2 t−1 + u 2 t + 2φyt−1ut.<br />

Tomando o valor esperado condicional e reagrupando os termos vem:<br />

E v 2 t<br />

<br />

Ft−1<br />

= c ∗ 1 + c ∗ 2vt−1 + φ 2 v 2 t−1.<br />

Significa que vt exibe um efeito do tipo ARCH, apesar do modelo inicial ser condicional-<br />

mente homocedástico.<br />

329


Considere-se agora um caso mais geral.<br />

Modelo Verdadeiro : yt = µ t + ut,<br />

Modelo Especificado Incorrectamente : yt = mt + vt,<br />

com mt = µ t. Tem-se vt = µ t −mt +ut. Como µ t e mt pertencem a Ft−1 e E (ut| Ft−1) = 0<br />

vem<br />

E v 2 t<br />

<br />

Ft−1<br />

<br />

= E (µ t − mt + ut) 2 <br />

Ft−1<br />

= E (µ t − mt) 2 + 2 (µ t − mt) ut + u 2 t<br />

= E (µ t − mt) 2 <br />

Ft−1 + E u 2 <br />

<br />

t Ft−1 .<br />

<br />

Ft−1<br />

• Se E (u2 t | Ft−1) = σ2 então a variância condicional de vt, E (v 2 t | Ft−1), não é constante,<br />

pois E (µ t − mt) 2 <br />

Ft−1 não é constante.<br />

• Se E (u 2 t | Ft−1) = σ 2 t então a variância condicional associada ao modelo incorrecto<br />

yt = mt + vt será superior à verdadeira variância condicional σ 2 t . Com efeito,<br />

E v 2 t<br />

<br />

Ft−1<br />

<br />

= E (µ t − mt) 2 <br />

2<br />

Ft−1 + σt .<br />

A conclusão deste ponto é óbvia: é importante especificar bem a média condicional.<br />

Como nota final registe-se que, na prática, a média condicional que especificamos é<br />

E yt| F ∗ <br />

∗<br />

t−1 onde Ft−1 é o “nosso” conjunto de informação, necessariamente limitado, e<br />

não o conjunto de todos os acontecimentos ω ∈ Ω que geram y no momento t − 1. Como<br />

resultado a média condicional que especificamente envolve quase sempre erros de especifi-<br />

cação. A existência do efeito ARCH pode dever-se ou acentua-se na presença desses erros<br />

de especificação. É interessante observar Engle (1982): “the ARCH regression model is an<br />

approximation to a more complex regression which has no-ARCH disturbances. The ARCH<br />

specification might then picking up the effect of variables omitted from the estimated model.<br />

The existence of an ARCH effect would be interpreted as evidence of misspecification”.<br />

330


8.13 Modelos Não Lineares na Média combinados com o<br />

GARCH<br />

8.13.1 Modelo Limiar Autoregressivo com Heterocedasticidade Condi-<br />

cionada<br />

O modelo TAR tal como foi apresentado na secção 7.3 não é apropriado para séries tem-<br />

porais financeiras, pois assume que a variância condicional é constante ao longo do tempo.<br />

Podemos, no entanto, generalizar o TAR de forma a acomodar heterocedasticidade condi-<br />

cionada. Se admitirmos o caso mais geral em que o padrão de heterocedasticidade se dis-<br />

tingue consoante o regime, o modelo a considerar, com dois regimes e um desfasamento<br />

(veja-se Gospodinov, 2005) é<br />

yt = (φ 10 + φ 11yt−1) I{qt−d≤γ} + (φ 20 + φ 21yt−1) I{qt−d>γ} + ut. (8.24)<br />

onde ut = σtεt e {εt} é uma sucessão de v.a. i.i.d. de média zero e variância um e<br />

σ 2 t = ω1 + α1u 2 t−1 + β1σ 2 <br />

t−1 I{qt−d≤γ} + ω2 + α2u 2 t−1 + β2σ 2 <br />

t−1 I{qt−d>γ}. (8.25)<br />

Aborda-se a seguir a estimação do modelo. Suponha-se que ε é um ruído branco Gaussiano.<br />

Assim,<br />

yt| Ft−1 ∼ N µ t, σ 2 t<br />

onde µ t = (φ 10 + φ 11yt−1) I{qt−d≤γ} + (φ 20 + φ 21yt−1) I{qt−d>γ} e σ 2 t é dado pela equação<br />

(8.25). Seja θ o vector de todos parâmetros do modelo com excepção de γ.A função log-<br />

verosimilhança vem<br />

log Ln (θ, γ) =<br />

n<br />

log f (yt| Ft−1; θ, γ)<br />

t=1<br />

log f (yt| It; θ, γ) = − 1 1<br />

log (2π) −<br />

2 2 log σ2 1<br />

t (θ, γ) −<br />

2σ2 t (θ, γ) (yt − µ t (θ, γ)) 2 .<br />

O problema de optimização maxθ<br />

<br />

n<br />

t=1 log f (yt| Ft−1; θ, γ) não é standard, pois a derivada<br />

de log Ln (θ, γ) em ordem a γ não existe. O princípio do método de máxima verosimilhança<br />

mantém-se, todavia: é necessário maximizar a função em ordem aos parâmetros. A esti-<br />

mação dos parâmetros processa-se da seguinte forma:<br />

331


Parâmetro Estimativa Erro Padrão<br />

c 0.0478 0.0075<br />

φ 0.2332 0.0112<br />

ω 0.0118 0.0015<br />

α 0.1111 0.0073<br />

β 0.8812 0.0074<br />

Log-Veros.= −11439.3<br />

Tabela 8.2: Resultados da estimação do modelo AR+GARCH<br />

1. Escolha-se um valor para γ no conjunto ˜ Γ (sobre o conjunto ˜ Γ veja-se o ponto 7.3.5).<br />

Seja γ ∗ esse valor.<br />

2. Resolva-se o problema de optimização maxθ log Ln (θ, γ ∗ ) em ordem a θ; seja ˆ θn (γ ∗ )<br />

o valor que maximiza Ln (θ, γ ∗ ) (dado γ ∗ ), i.e., ˆ θn (γ ∗ ) = arg maxθ log Ln (θ, γ ∗ ) .<br />

3. Registe-se o valor de log Ln<br />

<br />

ˆθn (γ∗ ) , γ∗ <br />

.<br />

4. Repitam-se os passos 1-3 até se exaurir o conjunto ˜ Γ.<br />

5. A estimativa para γ é aquela que maximiza a função de verosimilhança; seja ˆγ n esse<br />

valor.<br />

6. A estimativa para θ é, naturalmente, ˆ θn (ˆγ n) .<br />

Exemplo 8.13.1 Considere o retorno diário em percentagem, yt = 100 × log (Pt/Pt−1),<br />

associados ao índice NASDAQ, no período 5-02-1971 a 13-10-2006 (9006 observações).<br />

Na tabela 8.2 apresentam-se os resultados da estimação do modelo AR(1)+GARCH(1,1).<br />

De seguida, estimou-se o modelo SETAR (8.24)-(8.25), com qt−d = yt−1. Seguiram-se<br />

os seis passos do procedimento descrito atrás. Obteve-se ˆγ n = −0.356 (trata-se do valor<br />

que maximiza a função de log-verosimilhança log Ln (θ, γ)). A figura 8-16 mostra o valor<br />

de log Ln como função de γ (observe-se que ˆγ n = −0.356 maximiza log Ln). Para o valor<br />

ˆγ n estimado, obtiveram-se os resultados que constam da tabela 8.3. O primeiro regime mod-<br />

ela os retornos quando estes estão em queda, mais precisamente, quando o retorno anterior<br />

é inferior a −0.356%. A média marginal deste regime é −.1718/ (1 − .0563) = −.182%.<br />

Tendo em conta este valor, há tendência para o processo sair do regime 1, mantendo, ainda<br />

assim, uma rendibilidade negativa. Talvez o dado mais significativo é a forte persistência<br />

da volatilidade neste regime, associada a valores altos de volatilidade (w1 > w2). Este<br />

resultado está de acordo com os factos estilizados habitualmente observados em dados fi-<br />

nanceiros, segundo os quais, a volatilidade tende a ser superior quando as cotações estão<br />

332


Figura 8-16: Valor da máximo da função log-Verosimilhança como função do parâmetro γ.<br />

Estimativa de γ : −0.358316<br />

Parâmetro Estimativa Erro Padrão<br />

φ 10 -0.1718 0.0312<br />

φ 11 0.0563 0.0310<br />

ω1 0.0233 0.0075<br />

α1 0.0982 0.0097<br />

β 1 0.9776 0.0152<br />

φ 20 0.0426 0.0099<br />

φ 21 0.2384 0.0177<br />

ω2 0.0175 0.0024<br />

α2 0.0733 0.0073<br />

β 2 0.8575 0.0093<br />

Log-Veros.= −11344.5<br />

Tabela 8.3: Resultados da estimação do modelo SETAR+GARCH<br />

a descer. A volatilidade associada ao regime 1 pode ser identificada como a “má volatili-<br />

dade”, i.e., aquela que está ligada à queda dos preços.<br />

8.13.2 Modelo Markov-Switching com Heterocedasticidade Condicionada<br />

Vimos na secção 7.4 que a separação das dinâmicas do processo em estudo em dois ou mais<br />

regimes permite, na maior parte dos casos, obter diferentes valores para σi (veja-se o mod-<br />

elo (7.25)). Significa isto que os erros são heterocedásticos. No entanto, é possível ir um<br />

pouco mais longe se admitirmos, mesmo em cada regime, erros heterocedásticos. Em séries<br />

financeiras, o modelo (7.25) pode mostrar-se insuficiente para modelar a volatilidade típica<br />

333


das séries financeiras. O caminho está assim indicado: é necessário admitir, em cada regime,<br />

uma especificação dinâmica para a volatilidade. Entendeu-se inicialmente (e.g. Hamilton)<br />

que os modelos Markov-switching com efeitos GARCH eram intratáveis e impossíveis de<br />

serem estimados, devido à dependência da variância condicional de toda a trajectória passada<br />

(em última análise, a estrutura que se admitia para um Markov-Switching com N regimes<br />

obrigaria posteriormente a expandir o número de regimes para N n sendo n o número de<br />

observações). Gray (1996) propôs um modelo que resolve a dependência da variância condi-<br />

cional de toda a trajectória passada.<br />

O modelo MS+GARCH com dois regimes é<br />

yt =<br />

⎧<br />

⎨<br />

⎩<br />

c1 + φ 1yt−1 + σ1tεt se St = 1<br />

c2 + φ 2yt−2 + σ2tεt se St = 2<br />

onde σit seguem a representação sugerida por Gray(1996),<br />

sendo<br />

σ 2 it = ωi + αiu 2 t−1 + βσ 2 t−1, (8.26)<br />

ut = yt − E (yt| Ft−1) , σ 2 t = Var (yt| Ft−1) .<br />

Pode mostrar-se que o problema da “dependência da variância condicional” surge quando se<br />

define σ 2 it como função de ui,t−1 (erro no período t − 1 associado ao regime i) e de σ 2 i,t−1. A<br />

especificação (8.26) evita esse problema; observe-se que σ 2 it depende ut−1 e σ 2 t−1.<br />

Momentos de y<br />

Determinem-se os momentos do processo. Seja µ it = E (yt| Ft−1, St = i) . No contexto<br />

do modelo (7.25) tem-se:<br />

E (yt| Ft−1, St = 1) = c1 + φ 1yt−1, E (yt| Ft−1, St = 2) = c2 + φ 2yt−1.<br />

334


Tem-se<br />

µ t = E (yt| Ft−1)<br />

= E (yt| Ft−1, St = 1) P (St = 1| Ft−1)<br />

+ E (yt| Ft−1, St = 2) P (St = 2| Ft−1)<br />

= µ 1tp1t + µ 2tp1t.<br />

E (yt| Ft−1) é, portanto, a média ponderada dos valores esperados condicionais dos regimes<br />

1 e 2. Por outro lado,<br />

σ 2 t = Var (yt| Ft−1) = E y 2 <br />

<br />

t Ft−1 − (E (yt| Ft−1)) 2<br />

= E y 2 <br />

<br />

t Ft−1, St = 2 P (St = 1| Ft−1)<br />

+ E y 2 <br />

<br />

t Ft−1, St = 2 P (St = 2| Ft−1) − µ 2 t<br />

= µ 2 1t + σ 2 <br />

1t p1t + µ 2 2t + σ 2 <br />

2t p2t − µ 2 t .<br />

8.A Estabilidade de EDF e a Estacionaridade (Caso mod-<br />

elo ARCH)<br />

Apresenta-se uma abordagem alternativa para analisar a ESO. A ideia é tomar, num primeiro<br />

passo, os valores esperados marginais como função de t, e verificar depois em que condições<br />

esses valores esperados não dependem de t. Considere-se o ARCH(1). Como se sabe neste<br />

caso tem-se<br />

E u 2 t<br />

<br />

ηt = ω + α1E u 2 <br />

t−1 ,<br />

<br />

ηt−1 i.e.<br />

η t = ω + α1η t−1<br />

O ponto fixo da equação às diferenças finitas (EDF) 14 , η t = ω + α1η t−1, é<br />

14 Ver a definição de ponto fixo na secção 7.2.<br />

ω<br />

.<br />

1 − α1<br />

335


Este ponto é assimptoticamente estável se |α1| < 1; além disso, se a condição inicial é ω<br />

1−α1<br />

então ηt = ω<br />

1−α1 , ∀t. Quando a condição inicial é η0 = ω pode-se provar que a solução da<br />

1−α1<br />

EDF η t = ω + α1η t−1 é<br />

Se |α1| < 1 ⇒<br />

η t = ω (1 − αt 1)<br />

1 − α1<br />

η t = ω (1 − αt 1)<br />

1 − α1<br />

+ α t 1η 0<br />

(Solução)<br />

+ α t 1η 0 → ω<br />

1 − α1<br />

Se a condição inicial não é igual à solução de longo prazo, ω<br />

1−α1 , o processo ut é “assimptot-<br />

icamente estacionário” (ou ESO se o processo teve início num passado remoto). Em suma,<br />

se α1 < 1 (por hipótese α1 ≥ 0) (e a condição inicial for ω/ (1 − α1)) então<br />

e o processo ut é ESO.<br />

Donde<br />

E u 2 t<br />

ω<br />

= , ∀t<br />

1 − α1<br />

No caso ARCH(2), tem-se σ 2 t = ω + α1u 2 t−1 + α2u 2 t−2, ω > 0, α1 ≥ 0, α2 ≥ 0. Assim,<br />

Var (ut) = E u 2 t = E σ 2 t<br />

= E ω + α1u 2 t−1 + α2u 2 t−2<br />

<br />

= ω + α1 E u 2 <br />

t−1 + α2 E u 2 <br />

t−2<br />

E u 2 t = ω + α1E<br />

<br />

ηt u 2 <br />

t−1 + α2E<br />

<br />

ηt−1 u 2 <br />

t−2 ,<br />

<br />

i.e.<br />

ηt−2 η t = ω + α1η t−1 + α2η t−2<br />

1 − α1L − α2L 2 η t = ω<br />

Pode-se provar que η t converge se as raízes de (1 − α1L − α2L 2 ) estiverem fora do circulo<br />

unitário, i.e.,<br />

α1 + α2 < 1, α2 − α1 < 1, −1 < α2 < 1.<br />

Como α1 ≥ 0, α2 ≥ 0, a única condição que precisamos de verificar é α1 + α2 < 1.<br />

336


Nestas condições, se η 0 =<br />

ω<br />

1−(α1+α2) e α1 + α2 < 1 o processo u é ESO e<br />

E u 2 t = ω + α1 E u 2 t + α2 E u 2 t ⇒ E u 2 t =<br />

337<br />

ω<br />

1 − (α1 + α2) .


Página em branco<br />

338


Capítulo 9<br />

Modelação da Heterocedasticidade<br />

Condicionada - Caso Multivariado<br />

9.1 Introdução<br />

(Última actualização: 3/2011)<br />

Vimos no ponto 3.2.6 que muitas séries financeiras (por exemplo, índices bolsistas ou co-<br />

tações de acções) apresentam co-movimentos de rendibilidade e volatilidade, isto é, quando<br />

a rendibilidade e a volatilidade de uma série aumenta (diminui), a rendibilidade e a volatili-<br />

dade das outras tende, em geral, a aumentar (diminuir).<br />

A estimação destes co-movimentos de rendibilidade e volatilidade deve ser naturalmente<br />

feita no quadro da estimação multivariada (por multivariada entendemos várias equações).<br />

Esta análise é relevante, por exemplo, no âmbito da selecção de portfolios, da gestão do risco,<br />

etc. Permite também discutir questões do tipo:<br />

• como se transmite a volatilidade de um mercado aos demais mercados? qual a magni-<br />

tude do impacto da volatilidade de um mercado sobre outro?<br />

• os mercados “globais” influenciam a volatilidade de outros mercados (regionais ou<br />

nacionais) sem serem por eles influenciados (“contagiados”)?<br />

• A volatilidade de um activo transmite-se a outro directamente (através da sua variância<br />

condicional) ou indirectamente (através das covariâncias condicionais)?<br />

339


• Como se comportam as correlações condicionais? São variáveis ao longo do tempo?<br />

Tendem a aumentar ou a diminuir em períodos de alta volatilidade e instabilidade dos<br />

mercados?<br />

Para tratar estas questões vai considerar-se um modelo genérico, envolvendo m equações:<br />

y1t = µ 1t + u1t,<br />

...<br />

ymt = µ mt + umt<br />

onde µ it := E (yit| Ft−1) para i = 1, ..., m. Para usarmos uma notação mais compacta,<br />

definam-se os seguintes vectores-coluna m dimensionais:<br />

⎛<br />

⎜<br />

yt = ⎜<br />

⎝<br />

y1t<br />

.<br />

ymt<br />

⎞<br />

⎟<br />

⎠ , µ ⎛ ⎞<br />

⎜<br />

t = ⎜<br />

⎝<br />

µ 1t<br />

.<br />

µ mt<br />

⎟<br />

⎠ , ut<br />

⎛<br />

⎜<br />

= ⎜<br />

⎝<br />

De forma compacta, o modelo pode representar-se na forma<br />

yt = µ t + ut.<br />

A média condicional µ t não é aqui relevante, mas pode supor-se que yt é bem mode-<br />

lado por um VARMA (vector ARMA, ou mesmo vector ARMAX). Tem-se um modelo de<br />

heterocedasticidade condicional multivariado se ut é um processo multiplicativo do tipo,<br />

ut = H 1/2<br />

t εt<br />

onde εt é um vector de v.a. i.i.d. (condicionalmente homocedástico) tal que<br />

u1t<br />

.<br />

umt<br />

⎞<br />

⎟<br />

⎠ .<br />

E (εt) = 0, Var (εt) = Im (matriz identidade de ordem m)<br />

e Ht é uma matriz quadrada de ordem m, simétrica, definida positiva e Ft−1 mensurável<br />

(Ft é a σ-algebra gerada por (yt, yt−1, ..)). A notação H 1/2<br />

t<br />

menos que Ht seja uma matriz diagonal, H 1/2<br />

t<br />

dos elementos de Ht. H 1/2<br />

t<br />

matriz H 1/2<br />

t<br />

merece alguns comentários. A<br />

não representa naturalmente a raiz quadrada<br />

é uma matriz quadrada ordem m tal que H 1/2<br />

<br />

t H 1/2<br />

′<br />

t = Ht. A<br />

pode ser obtida utilizando a factorização de Cholesky.<br />

340


Dadas as hipóteses, tem-se<br />

Var (yt| Ft−1) = Var (ut| Ft−1) = E (utu ′ t| Ft−1)<br />

<br />

H 1/2<br />

′<br />

t<br />

= H 1/2<br />

t Var (εt| Ft−1)<br />

<br />

Var(εt)=Im<br />

9.2 Densidade e Verosimilhança<br />

= Ht.<br />

Para simplificar a exposição assuma-se normalidade dos erros: εt ∼ N (0, I m) . Nestas<br />

circunstâncias, tem-se a seguinte relação:<br />

εt ∼ N (0, I m) ⇒ ut| Ft−1 ∼ N (0, H t) ⇒ yt| Ft−1 ∼ N (µ t, H t) .<br />

Assim, a densidade conjunta condicional de yt é<br />

f (yt| Ft−1) = (2π) −m/2 |Ht| −1/2 <br />

exp − 1<br />

2 (yt − µ t) ′ H −1<br />

<br />

t (yt − µ t) .<br />

A função log-verosimilhança é então<br />

log Ln (θ) =<br />

n<br />

log f (yt| Ft−1)<br />

t=1<br />

= − nm<br />

2<br />

log (2π) − 1<br />

2<br />

n<br />

t=1<br />

log |Ht| − 1<br />

2<br />

n<br />

t=1<br />

(yt − µ t) ′ H −1<br />

t (yt − µ t)<br />

= − nm<br />

n 1<br />

log (2π) − log |Ht (θ)|<br />

2 2<br />

t=1<br />

−<br />

(9.1)<br />

1<br />

n<br />

(yt − µ t (θ))<br />

2<br />

′ H −1<br />

t (θ) (yt − µ t (θ))<br />

t=1<br />

(a última equação destaca a dependência face a θ). No caso univariado (i.e. m = 1), vem<br />

Ht = σ 2 t e log f (yt| Ft−1) é dada pela equação (8.16).<br />

Nesta fase é necessário definir uma hipótese sobre a estrutura de µ t e de Ht. A média<br />

condicional µ t pode ser definida através de um VAR(1) (vector autoregressivo) ou VARMA(1,1)<br />

(vector ARMA), etc. Não abordaremos aqui a especificação da média condicional. Neste<br />

capítulo estamos interessados sobretudo na especificação de Ht. Nos pontos seguintes dis-<br />

cutiremos possíveis especificação para Ht.<br />

341


9.3 Modelo VECH (ou VEC)<br />

É necessário, em primeiro lugar, introduzir o operador vech . Considere-se, por exemplo,<br />

⎛<br />

⎜<br />

A = ⎜<br />

⎝<br />

a11 a12 a13<br />

a21 a22 a23<br />

a31 a32 a33<br />

O operador vech selecciona os elementos abaixo da diagonal principal (elementos dentro dos<br />

quadrados) e passa-os para um vector-coluna:<br />

⎛<br />

⎜<br />

vech (A) = ⎜<br />

⎝<br />

Obviamente que não se perde informação com esta operação se A é uma matriz (real)<br />

simétrica, hipótese que doravante se assume, sempre que se empregar tal operador.<br />

O modelo VECH (ou VEC) (Engle e Kroner, 1995) propõe uma estrutura GARCH(p,q)<br />

a11<br />

a21<br />

a22<br />

a31<br />

a32<br />

a33<br />

⎞<br />

⎞<br />

⎟<br />

⎠ .<br />

⎟ .<br />

⎟<br />

⎠<br />

multivariada. No caso GARCH(1,1), a matriz Ht é tal que<br />

vech (Ht) = w + A1 vech ut−1u ′ t−1<br />

+ B1 vech (Ht−1) . (9.2)<br />

No caso m = 2 (processo bivariado) e GARCH(1,1) a expressão (9.2) toma a forma<br />

vech (Ht) =<br />

⎛<br />

⎜<br />

⎝<br />

h11,t<br />

h12,t<br />

h22,t<br />

⎛<br />

⎜<br />

+ ⎜<br />

⎝<br />

⎞<br />

⎛<br />

⎟<br />

⎠ =<br />

⎜<br />

⎝<br />

w11<br />

w12<br />

w22<br />

β 11 β 12 β 13<br />

β 21 β 22 β 23<br />

β 31 β 32 β 33<br />

⎞<br />

⎛<br />

⎟<br />

⎠ +<br />

⎜<br />

⎝<br />

⎞ ⎛<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎠ ⎝<br />

h11,t−1<br />

h12,t−1<br />

h22,t−1<br />

α11 α12 α13<br />

α21 α22 α23<br />

α31 α32 α33<br />

⎞<br />

⎟<br />

⎠<br />

⎞ ⎛<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎠ ⎝<br />

u 2 1,t−1<br />

u1,t−1u2,t−1<br />

u 2 2,t−1<br />

(h11,t := σ 2 1t, ht,22 := σ 2 2t, h12,t := σt12). Note-se, por exemplo, que a covariância condi-<br />

342<br />

⎞<br />

⎟<br />


cionada h12,t := E (u1tu2t| Ft−1) é igual a<br />

w12 + α21u 2 1,t−1 + α23u 2 2,t−1 + α22u1,t−1u2,t−1 + β 21h11,t−1 + β 22h12,t−1 + β 23h22,t−1 (9.3)<br />

Como subproduto do método, obtêm-se as correlações condicionais entre os retornos 1<br />

ρ ij,t =<br />

hij,t<br />

, i, j = 1, ..., m.<br />

hii,thjj,t<br />

A condição de ESO no caso GARCH(1,1) é a seguinte: {ut} é ESO se todos os valores<br />

próprios de A1 + B1 forem em módulo menores do que um (i.e., sse as raízes em λ de<br />

|A1+B1 − λI| forem em módulo menores do que um) 2 . Nestas condições:<br />

E (vech (utu ′ t)) = E (vech (Ht)) = (I − A1−B1) −1 w.<br />

A principal vantagem do modelo VEC é a sua grande flexibilidade, pois permite que<br />

todos os elementos de Ht dependam de todos os produtos cruzados de vech ut−1u ′ <br />

t−1 e de<br />

todos os elementos de Ht−1. No entanto, as suas desvantagens superam largamente as suas<br />

vantagens. As duas principais desvantagens do modelo VEC são as seguintes:<br />

• O número de parâmetros a estimar é excessivamente alto. No GARCH(1,1) multivari-<br />

ado com m equações, o número de parâmetros a estimar é (m (m + 1) /2) (1 + (m (m + 1)))<br />

(veja-se a tabela 9.1) 3 .<br />

• Por definição a matriz Ht deve ser definida positiva, mas não é fácil garantir isso a<br />

partir das matrizes A e B. Se Ht não é definida positiva, é possível, por exemplo, obter<br />

1 É indiferente identicar ρij,t como as correlações condicionais entre os retornos ou entre os erros, pois,<br />

por definição, ρ ij,t = Corr (yit, yjt| Ft−1) = Corr (uit, ujt| Ft−1) . Já as correlações marginais não são<br />

necessariamente iguais, isto é, em geral, tem-se Corr (yit, yjt) = Corr (uit, ujt).<br />

2 Com efeito, pode-se provar que<br />

E (vech (Ht)| F0) =<br />

<br />

I+ (A1 + B1) + ... + (A1 + B1) t−1<br />

w+ (A1 + B1) t vech (H1)<br />

sendo vech (H1) ∈ F0). Se (A1 + B1) t → 0 (quando t → ∞) então E (vech (Ht)| F0) converge para o<br />

momento estacionário E (vech (Ht)) = (I− (A1+B1)) −1 . Ora, (A1 + B1) t → 0 sse os valores próprios de<br />

A1 + B1 são em módulo menores do que 1.<br />

3 Com efeito, note-se que A1 e B1 são matrizes quadradas de ordem m (m + 1) /2 e o vector w possui<br />

m (m + 1) /2 elementos. Assim, o número total de elementos a estimar é 2 (m (m + 1) /2) 2 +m (m + 1) /2 =<br />

(m (m + 1) /2) (1 + (m (m + 1))) .<br />

343


m (m (m + 1) /2) (1 + (m (m + 1)))<br />

2 21<br />

3 78<br />

4 210<br />

Tabela 9.1: Número de parâmetros a estimar no VEC<br />

coeficientes de correlação superiores a um e/ou variâncias negativas (i.e. ρ ij,t > 1 ou<br />

ht,ii < 0).<br />

Estas duas desvantagens acabam por limitar, de facto, a aplicação do modelo. Mesmo no<br />

caso m = 2 têm-se 21 parâmetros (tabela 9.1). Estimar 21 parâmetros usando o OLS é fácil<br />

(desde que o número de graus de liberdade assim o permita). Mas estimar 21 parâmetros<br />

maximizando a função log-verosimilhança (9.1) é extremamente difícil. Frequentemente,<br />

implementa-se o modelo VEC impondo várias restrições de nulidade sobre A1 e B1, como<br />

podemos ver no exemplo seguinte.<br />

Exemplo 9.3.1 Existem efeitos de rendimento e de volatilidade do PSI20 que possam ser<br />

antecipados através do Dow Jones (DJ)? Seja y1t e y2t o retorno diário associado, respec-<br />

tivamente, aos índices, PSI20 e DJ. Para reduzir o número de parâmetros a estimar, as var-<br />

iáveis y1t e y2t foram previamente centradas (e, como consequência, os termos constantes<br />

das equações foram eliminados). Depois de vários ensaios, definiu-se o seguinte modelo<br />

onde<br />

vech (Ht) =<br />

⎛<br />

⎝ y1t<br />

⎛<br />

⎜<br />

⎝<br />

y2t<br />

⎞<br />

h11,t<br />

h12,t<br />

h22,t<br />

⎠ =<br />

⎞<br />

⎛<br />

⎝ φ 11 φ 12<br />

0 φ 22<br />

⎛<br />

⎟<br />

⎠ =<br />

⎜<br />

⎝<br />

0<br />

0<br />

w22<br />

⎞<br />

⎛<br />

⎞ ⎛<br />

β<br />

⎜ 11<br />

⎜<br />

+ ⎜ 0<br />

⎝<br />

0<br />

0<br />

0<br />

0<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎠ ⎝<br />

0 0 β33 ⎞ ⎛<br />

⎠<br />

⎟<br />

⎠ +<br />

⎜<br />

⎝<br />

⎝ y1,t−1<br />

⎛<br />

h11,t−1<br />

h12,t−1<br />

h22,t−1<br />

y2,t−1<br />

⎞<br />

α11 0 α13<br />

0 0 0<br />

0 0 α33<br />

⎞ ⎛<br />

⎠ + H 1/2 εt<br />

⎞ ⎛<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎠ ⎝<br />

u 2 1,t−1<br />

u1,t−1u2,t−1<br />

⎞<br />

⎟<br />

⎠ +<br />

γvolt−1 ⎜ ⎟<br />

⎜ ⎟<br />

⎜ 0 ⎟<br />

⎝ ⎠<br />

0<br />

u 2 2,t−1<br />

(vol é uma medida do volume de transacções do mercado português). Todas as matrizes<br />

quadradas são triangulares superiores, porque se assume que o DJ influencia o PSI20 e<br />

não existem efeitos de feedback (o PSI20 não influencia o DJ). Usando os dados no período<br />

344<br />

⎞<br />

⎟<br />


31/12/92 a 15/03/99 (1496 observações) obteve-se,<br />

Assim,<br />

ˆy1t = .2343<br />

(.028) y1t−1 + .1430<br />

(.023) y2t−1, ˆy2t = .0753<br />

(.023) y2t−1<br />

ˆh1t = .3132<br />

(.0466) û21t−1 + .0466<br />

(.0151) û22t−1 + .6053<br />

(.0459)<br />

ˆh2t = 1.25 × 10 −6<br />

(5.2×10 −7 )<br />

⎛<br />

⎞<br />

.3132<br />

⎜<br />

Â1 = ⎜ 0<br />

⎝<br />

0<br />

0<br />

.0466<br />

⎟<br />

0 ⎟<br />

⎠<br />

0 0 .0903<br />

,<br />

ˆh1t−1 + .0254<br />

(.0062) volt−1<br />

+ .0903<br />

(.0195) û22t−1 + .897 ˆh2t−1, h12,t = 0.<br />

(.0227)<br />

⎛<br />

⎞<br />

.6053<br />

⎜<br />

ˆB1<br />

⎜<br />

= ⎜ 0<br />

⎝<br />

0<br />

0<br />

0<br />

0<br />

⎟<br />

⎠<br />

0 0 .897<br />

Os valores próprios (estimados) da matriz Â1 + ˆB1 são {0.987, 0.918, 0} . Conclui-se: (1)<br />

O comportamento do índice DJ afecta significativamente o comportamento do PSI20, quer<br />

em termos de rendimento quer em termos de volatilidade; (2) ganhos do DJ afectam favo-<br />

ravelmente o PSI20; (3) aumentos ou diminuições de volatilidade do DJ afectam no mesmo<br />

sentido o PSI20; (4) os valores próprios respeitam a condição de ESO (note-se, todavia, que<br />

estão sujeitos a variabilidade amostral). As conclusões (1)-(3) são válidas, naturalmente,<br />

no muito curto prazo (um, dois dias). As possibilidades de ganho são muito reduzidas,<br />

pois grande parte das variações dos índices não são explicadas (alta volatilidade). Como<br />

nota final registe-se que a hipótese h12,t = 0 não é realísta, pois implica que as correlações<br />

condicionais são zero. Ora a literatura mostra que as correlações condicionais entre índices<br />

bolsistas é quase sempre significativa.<br />

345


9.4 Modelo Diagonal VECH<br />

Podem obter-se modelos VECH com menos parâmetros impondo que as matrizes A1 e B1<br />

sejam diagonais. Por exemplo, no caso m = 2, vem<br />

vech (Ht) =<br />

⎛ ⎞<br />

⎜<br />

⎝<br />

h11,t<br />

h12,t<br />

⎟<br />

⎠<br />

h22,t<br />

=<br />

⎛ ⎞<br />

⎜<br />

⎝<br />

w11<br />

w12<br />

⎟<br />

⎠<br />

w22<br />

+<br />

⎛<br />

⎞ ⎛<br />

α11 ⎜ 0<br />

⎝<br />

0<br />

α22<br />

0<br />

0<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎠ ⎝<br />

⎛<br />

⎞ ⎛<br />

0 0<br />

⎞<br />

α33<br />

β<br />

⎜ 11<br />

⎜<br />

+ ⎜ 0<br />

⎝<br />

0<br />

β22 0<br />

0<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎠ ⎝<br />

h11,t−1<br />

h12,t−1<br />

⎟<br />

⎠<br />

0 0 β33 h22,t−1<br />

u 2 1,t−1<br />

u1,t−1u2,t−1<br />

u 2 2,t−1<br />

(este princípio aplica-se naturalmente no caso de modelos multivariados GARCH(p,q)).<br />

Com matrizes A1 e B1 diagonais pode optar por escrever o modelo diagonal VECH na<br />

forma equivalente<br />

Ht = ω + a1 ◦ ut−1u ′ t−1 + b1 ◦ Ht−1<br />

onde ω, a1 e b1 são matrizes simétricas de tipo m × m e “◦” é o produto de Hadamard 4 . Por<br />

exemplo, no caso m = 2, o modelo anterior escreve-se<br />

⎛<br />

⎝ h11,t h12,t<br />

h12,t h22,t<br />

⎞<br />

⎠ =<br />

⎛<br />

⎝ w11 w12<br />

⎛<br />

w12 w22<br />

⎝ b11 b12<br />

b12 b22<br />

⎞<br />

⎞<br />

⎠ +<br />

⎠ ◦<br />

⎛<br />

⎛<br />

⎝ a11 a12<br />

a12 a22<br />

⎞<br />

⎠ ◦<br />

⎝ h11,t−1 h12,t−1<br />

h12,t−1 h22,t−1<br />

onde a11 = α11, a12 = α22, a22 = α33, etc. Note-se, portanto, que<br />

⎛<br />

⎞<br />

⎟<br />

⎠<br />

⎝ u2 1,t−1 u1,t−1u2,t−1<br />

⎞<br />

⎠<br />

h11,t = ω11 + a11u 2 1,t−1 + b11h11,t−1<br />

h12,t = ω12 + a12u1,t−1u2,t−1 + b12h12,t−1<br />

h22,t = ω22 + a22u 2 2,t−1 + b22h22,t−1.<br />

u1,t−1u2,t−1<br />

u 2 2,t−1<br />

4 Dadas duas matrizes A = (aij) m×m e B = (bij) m×m , o produto Hadamard define-se como A ◦<br />

B = (aijbij) m×m . Por exemplo,<br />

1 2<br />

3 4<br />

<br />

5 6<br />

◦<br />

7 8<br />

346<br />

<br />

=<br />

5 12<br />

21 32<br />

<br />

.<br />

⎞<br />

⎠ +


A vantagem do modelo em análise face ao modelo VECH é a de reduzir o número de<br />

parâmetros a estimar. Num modelo multivariado GARCH(1,1) com m equações, o número<br />

total de parâmetros a estimar no modelo Diagonal VECH é de apenas 3m (m + 1) /2. To-<br />

davia há uma desvantagem face ao VECH. Para ilustrar este ponto considere-se o caso<br />

m = 2. No modelo Diagonal VECH é fácil verificar que hii,t só depende dos termos u 2 i,t−1<br />

e hii,t−1, e h12,t só depende dos termos u1,t−1u2,t−1 e h12,t−1. Desta forma, a especificação<br />

Diagonal VECH elimina a possibilidade de interacção entre as diferentes variâncias e co-<br />

variâncias condicionais. Por outro lado, a matriz Ht, por construção, não resulta definida<br />

positiva. Há várias formas de ultrapassar este último problema no âmbito da especificação<br />

Diagonal VECH. Uma possibilidade consiste em reespecificar o modelo na forma<br />

Ht = ˜ω1 (˜ω1) ′ + ã1 (ã1) ′ ◦ ut−1u ′ t−1 + ˜b1<br />

com ω = ˜ω1 (˜ω1) ′ , a1 = ã1 (ã1) ′ e b1 = ˜ b1<br />

˜b1<br />

′<br />

◦ Ht−1<br />

′<br />

˜b1 e ˜ω1, ã1 e ˜ b1 são matrizes quadradas<br />

de ordem m. As matrizes ω, a1 e b1 assim construídas implicam uma matriz Ht definida<br />

positiva. Esta forma de definir o modelo resulta claro com o seguinte exemplo univariado.<br />

Suponha-se que os parâmetros β 0 e β 1 do modelo yt = β 0 + β 1xt + ut têm de ser positivos.<br />

Podemos impor essa restrição estimando yt = ˜ β 2<br />

0 + ˜ β 2<br />

1xt + ut e assumindo que β0 = ˜ β 2<br />

0<br />

e β1 = ˜ β 2<br />

1. Desta forma β0 e β1 vêm sempre positivos quaisquer que sejam os valores de<br />

˜β 0 e ˜ β1. Em termos matriciais, o produto ã1 (ã1) ′ resulta sempre numa matriz semidefinida<br />

positiva, e o produto de Hadamard ã1 (ã1) ′ ◦ ut−1u ′ t−1 = diag (ut−1) ã1 (ã1) ′ diag (ut−1) é,<br />

por definição, uma matriz semidefinida positiva (ou definida positiva se ã1 tiver característica<br />

m). Várias versões deste modelo são estimadas pelo software EVIEWS 6.<br />

Um modelo ainda mais restritivo (mas que é usado com algum sucesso na modelação<br />

de sistemas com muitas equações) foi desenvolvido pela J.P. Morgan (1996). Basicamente<br />

usa o princípio exponentially weighted moving average (EWMA) para captar a dinâmica das<br />

variâncias e covariâncias condicionais,<br />

hij,t = (1 − λ) ui,t−1uj,t−1 + λhij,t−1.<br />

347


O modelo EWMA, no caso m = 2, tem a seguinte representação VECH:<br />

⎛<br />

⎜<br />

⎝<br />

h11,t<br />

h12,t<br />

h22,t<br />

⎞<br />

⎟<br />

⎠ =<br />

⎛<br />

⎞ ⎛<br />

1 − λ<br />

⎜ 0<br />

⎝<br />

0<br />

1 − λ<br />

0<br />

0<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎠ ⎝<br />

0 0 1 − λ<br />

u 2 1,t−1<br />

u1,t−1u2,t−1<br />

u 2 2,t−1<br />

⎞<br />

⎟<br />

⎠ +<br />

⎛ ⎞ ⎛<br />

λ<br />

⎜ 0<br />

⎝<br />

0<br />

λ<br />

0<br />

⎟ ⎜<br />

⎟ ⎜<br />

0 ⎟ ⎜<br />

⎠ ⎝<br />

0 0 λ<br />

h11,t−1<br />

h12,t−1<br />

h22,t−1<br />

Existe uma redução dramática do número de parâmetros a estimar (passamos para apenas 1,<br />

qualquer que seja o número de equações do modelo).<br />

9.5 Modelo BEKK<br />

O modelo BEKK (devido a Baba, Engle, Kroner e Kraft; veja-se Engle et al. 1993) assegura<br />

por construção que Ht é definida positiva. No caso mais simples BEEK(1,1), a matriz de<br />

variâncias-covariâncias condicionais é igual a<br />

Ht = W + A ′ 1<br />

<br />

ut−1u ′ <br />

t−1 A1 + B ′ 1Ht−1B1<br />

onde W, A1 e B1 são matrizes de tipo m × m, com W simétrica e definida positiva. Ht é<br />

definida positiva por construção pois W é definida positiva e os demais termos estão expres-<br />

sos como formas quadráticas definidas positivas. No caso m = 2 tem-se<br />

Ht =<br />

⎛<br />

⎝ w11 w12<br />

⎛<br />

w12 w22<br />

⎝ α11 α12<br />

+<br />

α21 α22<br />

⎛<br />

⎞<br />

⎠ +<br />

⎞<br />

⎠<br />

⎝ β 11 β 12<br />

β 21 β 22<br />

′ ⎛<br />

⎝ u2 1,t−1 u1,t−1u2,t−1<br />

⎞<br />

⎠<br />

u1,t−1u2,t−1<br />

′ ⎛<br />

⎝ h11,t−1 h12,t−1<br />

h12,t−1 h22,t−1<br />

u 2 2,t−1<br />

⎞ ⎛<br />

Depois de algumas contas, pode-se concluir, por exemplo, que:<br />

h11,t = w11 + α 2 11u 2 1,t−1 + α12α21u 2 2,t−1<br />

⎠<br />

+α11α12u1,t−1u2,t−1 + α11α21u1,t−1u2,t−1<br />

⎞ ⎛<br />

⎠<br />

⎝ β 11 β 12<br />

β 21 β 22<br />

⎝ α11 α12<br />

α21 α22<br />

⎞<br />

⎠ .<br />

+β 2<br />

11h11,t−1 + β 11β 12h12,t−1 + β 11β 21h12,t−1 + β 12β 21h22,t−1.<br />

348<br />

⎞<br />

⎠<br />

⎞<br />

⎟<br />

⎠ .


Figura 9-1: Simulação do modelo BEKK (m = 2).<br />

Com o modelo BEKK há ainda uma redução de número de parâmetros a estimar: passam<br />

agora a existir (m + 5m 2 ) /2. Na figura seguinte mostra-se uma simulação com dois activos.<br />

9.6 Modelo de Correlações Condicionais Constantes<br />

O modelo VEC sem restrições é (quase) impossível de ser implementado. O modelo BEKK<br />

envolve ainda muitos parâmetros e a maximização da função de verosimilhança é extrema-<br />

mente difícil para m moderadamente elevado. A hipótese de Bollerslev (1990) consiste em<br />

admitir correlações condicionais constantes (i.e. iguais às correlações marginais): ρ ij,t = ρ ij.<br />

Esta hipótese reduz significativamente o número de parâmetros a estimar. Tem-se<br />

ρij = ρij,t = hij,t<br />

<br />

σ2 itσ2jt 349<br />

⇒ ht,ij = ρ ijσitσjt.


Logo<br />

Ht =<br />

=<br />

VEC BEEK Correl.Const.<br />

m (m (m + 1) /2) (1 + (m (m + 1))) m+5m2<br />

2<br />

3m + 1m<br />

(m − 1)<br />

2<br />

2 21 11 7<br />

3 78 24 12<br />

Tabela 9.2: Número de parâmetros a estimar<br />

⎛<br />

⎜<br />

⎝<br />

σ2 1t<br />

ρ12σ1tσ2t ρ12σ1tσ2t σ<br />

· · · ρ1mσ1tσmt 2 .<br />

2t<br />

.<br />

· · ·<br />

. ..<br />

ρ2mσ2tσmt .<br />

ρ1mσ1tσmt ρ2mσ2tσmt · · · σ2 ⎞<br />

⎟<br />

⎠<br />

⎛<br />

⎞⎛<br />

mt<br />

⎞⎛<br />

⎞<br />

σ1t<br />

⎜ 0<br />

⎜ .<br />

⎝<br />

0<br />

σ2t<br />

.<br />

· · ·<br />

· · ·<br />

. ..<br />

0<br />

0<br />

.<br />

⎟⎜<br />

⎟⎜<br />

⎟⎜<br />

⎟⎜<br />

⎟⎜<br />

⎟⎜<br />

⎠⎝<br />

1<br />

ρ12 .<br />

ρ12 1<br />

.<br />

· · ·<br />

· · ·<br />

. ..<br />

ρ1m σ1t<br />

⎟⎜<br />

⎟⎜<br />

ρ2m ⎟⎜<br />

0<br />

⎟⎜<br />

⎟⎜<br />

. ⎟⎜<br />

.<br />

⎠⎝<br />

0<br />

σ2t<br />

.<br />

· · ·<br />

· · ·<br />

. ..<br />

0<br />

0<br />

.<br />

⎟<br />

⎠<br />

<br />

0 0 · · ·<br />

<br />

σmt<br />

<br />

ρ1m ρ2m · · ·<br />

<br />

1<br />

<br />

0 0 · · ·<br />

<br />

σmt<br />

<br />

= DtRDt.<br />

Dt<br />

Supondo que σ 2 it = ωi + αiu 2 i,t−1 + β iσ 2 i,t−1, cada elemento σ 2 it envolve 3 parâmetros.<br />

Por outro lado, a matriz R envolve m (m − 1) /2 parâmetros. Na tabela 9.2 comparam-se os<br />

modelos VEC, BEEK e de correlações constantes (na versão “GARCH(1,1)”.<br />

Não só o número de parâmetros a estimar é menor como também a maximização da<br />

função de log-verosimilhança é mais fácil. Retome-se a equação (9.1):<br />

log Ln (θ) = − nm<br />

2<br />

log (2π) − 1<br />

2<br />

n<br />

t=1<br />

R<br />

log |Ht| − 1<br />

2<br />

Pode-se simplificar esta expressão atendendo aos seguintes resultados:<br />

Ht = DtRDt,<br />

n<br />

t=1<br />

Dt<br />

(yt − µ t) ′ H −1<br />

t (yt − µ t) .<br />

log |Ht| = log |DtRDt| = log |Dt| + log |R| + log |Dt| = 2 log |Dt| + log |R| ,<br />

(yt − µ t) ′ H −1<br />

t (yt − µ t) = (yt − µ t) ′ D −1<br />

t R −1 D −1<br />

t (yt − µ t) = v ′ tR −1 vt.<br />

350


Observe-se que vt representa o vector das variáveis aleatórias estandardizadas:<br />

Assim,<br />

v ′ t = (yt − µ t) ′ D −1<br />

<br />

y1t−µ<br />

t =<br />

1t<br />

σ1t<br />

log Ln (θ) = − nm<br />

2<br />

log (2π) −<br />

n<br />

t=1<br />

y2t−µ 2t<br />

σ2t<br />

· · ·<br />

log |Dt| − n 1<br />

log |R| −<br />

2 2<br />

ymt−µ mt<br />

σmt<br />

<br />

.<br />

n<br />

v ′ tR −1 vt.<br />

Podemos simplificar log Ln (θ) se substituirmos R pela expressão que representa a solução<br />

da equação matricial ∂ log Ln (θ) /∂R = 0. Pode-se provar que tal solução é<br />

n t=1 R =<br />

vtv ′ t<br />

.<br />

n<br />

A função log-verosimilhança que assim se obtém designa-se função log-verosimilhança con-<br />

centrada:<br />

log Ln (θ) = const. −<br />

n<br />

log |Dt| − n<br />

2 log<br />

<br />

<br />

<br />

<br />

t=1<br />

n<br />

t=1 vtv ′ t<br />

n<br />

<br />

<br />

<br />

<br />

− 1<br />

2<br />

n<br />

t=1<br />

v ′ t<br />

t=1<br />

n t=1 v′ −1 tvt<br />

vt.<br />

n<br />

Sabendo log |Dt| = log (σ1t + ... + σmt) , e utilizando-se mais algumas propriedades ele-<br />

mentares do cálculo matricial, a expressão da função log-verosimilhança pode ainda apresentar-<br />

se na forma simplificada:<br />

log Ln (θ) = const. −<br />

n<br />

log (σ1t + ... + σmt) − n<br />

2 log<br />

<br />

n <br />

<br />

<br />

t=1<br />

Note-se que | n<br />

t=1 vtv ′ t| é naturalmente o determinante de n<br />

t=1 vtv ′ t. Nos modelos VEC e<br />

BEEK, é necessário inverter a matriz Ht para cada t e para cada iteração do algoritmo de<br />

maximização. Esta dificuldade é superada com o presente modelo. A principal desvantagem<br />

do modelo em análise é o de assumir correlações condicionais constantes.<br />

9.7 Modelo DCC<br />

O modelo DCC (Dynamic Conditional Correlation), devido a Engle (2002), é uma extensão<br />

do modelo de correlações condicionais constantes (CCC).<br />

No modelo de CCC a matriz de variâncias-covariâncias é definida como Ht = DtRDt,<br />

351<br />

t=1<br />

vtv ′ t<br />

<br />

<br />

<br />

<br />

.


sendo R a matriz de correlações condicionais (constante). Esta matriz é, por definição,<br />

E (vtv ′ t| Ft−1) e calcula-se da seguinte forma:<br />

E (vtv ′ t| Ft−1) = E D −1<br />

t (yt − µ t) (yt − µ t) ′ D −1<br />

<br />

t<br />

Ft−1<br />

−1<br />

= Dt HtD −1<br />

t = R.<br />

Nos modelos VEC e BEKK (entre outros) a matriz E (vtv ′ t| Ft−1) é variável ao longo<br />

do tempo. Este resultado decorre das hipóteses formuladas para Ht (é, portanto, uma conse-<br />

quência da forma como Ht é especificada). No modelo DCC E (vtv ′ t| Ft−1) também é var-<br />

iável, mas este resultado decorre directamente da forma como a matriz E (vtv ′ t| Ft−1) é para-<br />

metrizada. A ideia consiste em propor um modelo para Rt = E (vtv ′ t| Ft−1) . Considere-se<br />

Como parametrizar ou modelar ρ ij,t?<br />

** incompleto**<br />

9.8 Modelo “Triangular”<br />

⎛<br />

⎞<br />

⎜<br />

Rt = ⎜<br />

⎝<br />

1<br />

ρ12,t .<br />

ρ12,t 1<br />

.<br />

· · ·<br />

· · ·<br />

. ..<br />

ρ1m,t ⎟<br />

ρ2m,t ⎟ .<br />

. ⎟<br />

⎠<br />

ρ1m,t ρ2m,t · · · 1<br />

9.8.1 Introdução e Formalização do Modelo<br />

O modelo que designamos de triangular é inspirado em Christiansen (2007).<br />

Em certas aplicações é admissível supor que a média de y1t condicionada a F y1<br />

t−1 =<br />

{y1,t−1, y1,t−2, ...} não depende de F y2<br />

t−1 = {y2,t−1, y2,t−2, ...} , i.e.,<br />

E y1t| F y1<br />

t−1 ∪ F y2<br />

<br />

t−1 = E y1t| F y1<br />

<br />

t−1 .<br />

Diz-se, nestes casos, que y2 não causa à Granger y1. Para concretizar, suponha-se que y1t<br />

é o retorno do NASDAQ e y2t é o retorno do PSI20. Dadas as dimensões relativas dos<br />

mercados, não faz sentido, supor-se que y1 (NASDAQ) dado todo o seu passado, possa ser<br />

influenciado pelos valores atrasados de y2 (PSI20). Também em termos de volatilidade,<br />

idêntica conjectura pode ser estabelecida, i.e., a variância de y1t condicionada em F y1<br />

t−1 não<br />

depende dos valores passados de y2, F y2<br />

t−1. No entanto, y2 (PSI20) dado F y2<br />

t−1 pode depender<br />

352


de F y1<br />

t−1 (valores passados do NASDAQ).<br />

Para processos y1 e y2 com as características acima descritas, é possível definirem-se<br />

processos multivariados simplificados.<br />

Para se ilustrar o modelo, considere-se o processo y = (y1, y2, y3) e suponham-se as<br />

seguintes relações: y1 ↣ y2 ↣ y3 onde “y1 ↣ y2” significa y1 influencia y2 dado F y2<br />

t−1 e<br />

y2 não influencia y1 dado F y1<br />

t−1. Suponha-se ainda que y segue um processo VAR(1) (vector<br />

autoregressivo de ordem 1). Sob a hipótese y1 ↣ y2 ↣ y3 e VAR(1), o processo y tem a<br />

seguinte representação:<br />

⎛<br />

⎜<br />

⎝<br />

y1t<br />

y2t<br />

y3t<br />

⎞<br />

⎛<br />

⎟<br />

⎠ =<br />

⎜<br />

⎝<br />

c1<br />

c2<br />

c3<br />

⎞<br />

⎟<br />

⎠ +<br />

⎛<br />

φ<br />

⎜ 11<br />

⎜ φ21 ⎝<br />

0<br />

φ22 0<br />

0<br />

φ 31 φ 32 φ 33<br />

⎞ ⎛<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎠ ⎝<br />

y1,t−1<br />

y2,t−1<br />

y3,t−1<br />

⎞<br />

⎛<br />

⎟<br />

⎠ +<br />

⎜<br />

⎝<br />

u1t<br />

u2t<br />

u3t<br />

⎞<br />

⎟ . (9.5)<br />

⎠<br />

A matriz dos coeficientes autoregressivos é triangular, porque na média condicional y1,t ape-<br />

nas depende de y1,t−1, y2t depende de y1,t−1 e y2,t−1 e y3t depende de y1,t−1, y2,t−1 e y3,t−1.<br />

Como definir a estrutura de dependências do segundo momento condicional, continuando<br />

a assumir a relação y1 ↣ y2 ↣ y3? Uma forma simples e que facilita extraordinariamente a<br />

estimação do modelo, consiste em admitir que<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

u1t = e1t<br />

u2t = ae1t + e2t<br />

u3t = be1t + ce2t + e3t<br />

⎛ ⎞ ⎛ ⎞⎛<br />

⎞<br />

⎜<br />

⇔ ⎜<br />

⎝<br />

u1t<br />

u2t<br />

1<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎟ = ⎜ a<br />

⎠ ⎝<br />

0<br />

1<br />

0 e1t ⎟⎜<br />

⎟<br />

⎟⎜<br />

⎟<br />

0 ⎟⎜<br />

e2t ⎟<br />

⎠⎝<br />

⎠<br />

<br />

u3t<br />

<br />

b c<br />

<br />

1<br />

<br />

e3t<br />

<br />

onde se admite que (e1t, e2t, e3t) são independentes entre si, e eit| Ft−1 ∼ N (0, σ 2 it) , σ 2 it =<br />

ωi + αie 2 i,t−1 + β iσ 2 i,t−1. Observe-se que u2t depende de e2t (efeitos idiossincrásicos) e ainda<br />

dos choques idiossincrásicos da primeira equação. Por seu turno, u3t depende de e3t (efeitos<br />

idiossincrásicos) e ainda dos choques idiossincrásicos da primeira e da segunda equação. A<br />

volatilidade que decorre dos efeitos não idiossincrásicos designa-se de volatility spillover.<br />

ut<br />

A designação “modelo triangular” é agora óbvia: a equação matricial (9.5) representa-se<br />

na forma,<br />

yt = c + Φy t−1 + Ψet<br />

Ψ<br />

et<br />

(9.6)<br />

sendo Φ e Ψ matrizes triangulares inferiores. Naturalmente que se perde a relação y1 ↣<br />

y2 ↣ y3, se as matrizes Φ e Ψ não forem triangulares inferiores.<br />

353


Dadas as hipótese sobre o vector et, defina-se<br />

Σt := Var (et| Ft−1) =<br />

⎛<br />

⎜<br />

⎝<br />

Tendo em conta σ 2 it = ωi + αie 2 i,t−1 + β iσ 2 i,t−1, tem-se<br />

⎛<br />

⎞<br />

Σt =<br />

ω1 ⎜ 0<br />

⎝<br />

0<br />

ω2<br />

0<br />

0<br />

⎟<br />

⎠<br />

0 0 ω3<br />

+<br />

⎛<br />

⎜<br />

⎝<br />

⎛<br />

β<br />

⎜ 1σ<br />

⎜<br />

+ ⎜<br />

⎝<br />

2 1,t−1<br />

0<br />

0<br />

β2σ 0<br />

2 2,t−1 0<br />

0 0 β3σ 2 ⎞<br />

⎟<br />

⎠<br />

⎛<br />

⎞<br />

3,t−1<br />

=<br />

ω1 ⎜ 0<br />

⎝<br />

0<br />

ω2<br />

0<br />

0<br />

⎟<br />

⎠<br />

0<br />

⎛<br />

0 ω3<br />

⎞ ⎛<br />

α1 ⎜<br />

+ ⎜ 0<br />

⎝<br />

0<br />

α2<br />

0<br />

0<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎟ ◦ ⎜<br />

⎠ ⎝<br />

<br />

0 0<br />

<br />

α3<br />

<br />

A<br />

σ 2 1,t 0 0<br />

0 σ 2 2,t 0<br />

0 0 σ 2 3,t<br />

α1e 2 1,t−1 0 0<br />

0 α2e 2 2,t−1 0<br />

⎞<br />

⎟<br />

⎠ .<br />

0 0 α3e 2 3,t−1<br />

⎞<br />

⎟<br />

⎠<br />

e 2 1,t−1 e1,t−1e2,t−1 e1,t−1e3,t−1<br />

e1,t−1e2,t−1 e 2 2,t−1 e2,t−1e3,t−1<br />

e1,t−1e3,t−1 e2,t−1e3,t−1 e2 <br />

et−1e<br />

3,t−1<br />

<br />

′ t−1<br />

⎛<br />

⎞ ⎛<br />

β<br />

⎜ 1<br />

⎜<br />

+ ⎜ 0<br />

⎝<br />

0<br />

β2 0<br />

0<br />

σ<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎟ ◦ ⎜<br />

⎠ ⎝<br />

<br />

0 0<br />

<br />

B<br />

β3 <br />

2 1,t−1<br />

0<br />

0<br />

σ<br />

0<br />

2 2,t−1 0<br />

0 0 σ2 ⎞<br />

⎟<br />

⎠<br />

<br />

3,t−1<br />

<br />

= W + A ◦ et−1e ′ t−1 + B ◦ Σt−1<br />

onde “◦” é o produto de Hadamard e A e B são matrizes diagonais, tendo como elementos<br />

genéricos αi e β i, respectivamente.<br />

Para se estudar a relação entre Var (et| Ft−1) (= Σt) e Var (ut| Ft−1) (= Ht) comece-se<br />

354<br />

Σt−1<br />

⎞<br />

⎟<br />


por observar que<br />

e, portanto,<br />

ut = Ψet,<br />

et = Ψ −1 ut,<br />

ete ′ t = Ψ −1 utu ′ −1<br />

t Ψ ′<br />

.<br />

Ht = Var (ut| Ft−1) = Var (Ψet| Ft−1) = Ψ Var (et| Ft−1) Ψ ′ = ΨΣtΨ ′ .<br />

Desta última relação (i.e., Ht = ΨΣtΨ ′ ), sai Σt = Ψ −1 Ht (Ψ −1 ) ′ . Em suma,<br />

Ht = ΨΣtΨ ′<br />

= ΨWΨ ′ + Ψ A ◦ et−1e ′ t−1<br />

= ΨWΨ ′ + Ψ<br />

<br />

A ◦ Ψ −1 ut−1u ′ t−1<br />

Ψ ′ + Ψ (B ◦ Σt−1) Ψ ′<br />

−1<br />

Ψ ′ <br />

Ψ ′ <br />

+ Ψ B ◦ Ψ −1 −1<br />

Ht−1 Ψ ′ <br />

Ψ ′ .<br />

Esta última relação escreve Ht como função dos termos ui,t−1uj,t−1 e hij,t−1. Expandindo<br />

a expressão anterior e depois de cálculos simples mas fastidiosos obtém-se, por exemplo,<br />

h22,t = a 2 ω1 + ω2 + a 2 (α1 + α2) u 2 1,t−1<br />

−2aα2u1,t−1u2,t−1 + a 2 (β 1 + β 2) h11,t−1 − 2aβ 2h12,t−1 + β 2h22,t−1<br />

(todas as expressões hij,t podem ser assim obtidas).<br />

É também interessante obter Ht como função das expressões σ 2 i,t:<br />

Ht = ΨΣtΨ ′<br />

⎛ ⎞ ⎛<br />

=<br />

1<br />

⎜ a<br />

⎝<br />

0<br />

1<br />

0<br />

⎟ ⎜<br />

⎟ ⎜<br />

0 ⎟ ⎜<br />

⎠ ⎝<br />

b<br />

⎛<br />

c 1<br />

=<br />

⎜<br />

⎝<br />

σ 2 1,t 0 0<br />

0 σ 2 2,t 0<br />

0 0 σ 2 3,t<br />

σ 2 1,t aσ 2 1,t bσ 2 1,t<br />

⎞ ⎛ ⎞<br />

1<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎟ ⎜ 0<br />

⎠ ⎝<br />

a<br />

1<br />

b<br />

⎟<br />

c ⎟<br />

⎠<br />

0 0 1<br />

⎞<br />

aσ 2 1,t a 2 σ 2 1,t + σ 2 2,t abσ 2 1,t + cσ 2 2,t<br />

bσ 2 1,t abσ 2 1,t + cσ 2 2,t b 2 σ 2 1,t + c 2 σ 2 2,t + σ 2 3,t<br />

355<br />

⎟ . (9.7)<br />


A partir de (9.7), deduzem-se também os coeficientes de correlação condicionados:<br />

ρ 12,t =<br />

ρ 13,t =<br />

ρ 23,t =<br />

<br />

σ2 <br />

1,t<br />

aσ 2 1,t<br />

a 2 σ 2 1,t + σ 2 2,t<br />

bσ 2 1,t<br />

=<br />

<br />

σ2 <br />

1,t b2σ2 1,t + c2σ2 2,t + σ2 3,t<br />

<br />

a2σ2 1,t + σ2 <br />

2,t<br />

abσ 2 1,t + cσ 2 2,t<br />

aσ1,t<br />

<br />

a 2 σ 2 1,t + σ 2 2,t<br />

=<br />

b 2 σ 2 1,t + c 2 σ 2 2,t + σ 2 3,t<br />

bσ1,t<br />

<br />

b 2 σ 2 1,t + c 2 σ 2 2,t + σ 2 3,t<br />

Os sinais dos coeficientes a, b e c são decisivos nos sinais dos coeficientes de correlação<br />

condicionados.<br />

Observação 9.8.1 Tendo em conta as relação Vec (ABC) = (B ′ ⊗ A) Vec (C) e Vec (A ◦ B) =<br />

diag (Vec (A)) Vec (B) onde ⊗ é o produto de Kronecker e diag é definido como<br />

⎛⎛<br />

diag ⎝<br />

⎝ x1<br />

x2<br />

⎞⎞<br />

⎠⎠<br />

=<br />

⎛<br />

⎝ x1 0<br />

0 x2<br />

é possível reescrever Ht usando o operador Vec. Depois de algumas contas, obtém-se<br />

onde<br />

Vec (Ht) = ˜W + Ã Vec ut−1u ′ <br />

t−1 + ˜B Vec (Ht−1) (9.8)<br />

˜W = (Ψ ⊗ Ψ) Vec (W) ,<br />

.<br />

⎞<br />

⎠ ,<br />

à = (Ψ ⊗ Ψ) diag (Vec (A)) Ψ −1 ⊗ Ψ −1 ,<br />

˜B = (Ψ ⊗ Ψ) diag (Vec (B)) Ψ −1 ⊗ Ψ −1 .<br />

Como a equação (9.8) está basicamente na forma da equação (9.2) deduz-se que a condição<br />

de ESO do processo {ut} estabelece que todos os valores próprios de à + ˜B sejam, em mó-<br />

dulo, menores do que um. Pode-se provar que os valores próprios de à + ˜B são {0, 0, 0, 0, 0, 0, α1+<br />

β 1, α2 + β 3, α3 + β 3}. Logo, dado αi, β i ≥ 0, o processo é ESO sse αi + β i < 1, i = 1, 2, 3.<br />

Conclui-se que a condição de segunda ordem coincide com a do processo {et} .<br />

356


9.8.2 Estimação<br />

Considere a representação yt = c + Φy t−1 + Ψet (equação (9.6)), isto é,<br />

y1t = c1 + φ 11y1,t−1 + e1t (9.9)<br />

y2t = c2 + φ 21y1,t−1 + φ 22y2,t−1 + ae1t + e2t (9.10)<br />

y3t = c3 + φ 31y1,t−1 + φ 32y2,t−1 + φ 33y3,t−1 + be1t + ce2t + e3t (9.11)<br />

onde eit| Ft−1 ∼ N (0, σ 2 it) , σ 2 it = ωi + αie 2 i,t−1 + β iσ 2 i,t−1. A estimação do modelo pode ser<br />

conduzida da seguinte forma:<br />

1. Estimar a equação (9.9), pelo método da máxima verosimilhança, e obter os resíduos<br />

{ê1t} .<br />

2. Substituir, na equação (9.10), e1t por ê1t e estimar o modelo. Obter os resíduos {ê2t} .<br />

3. Substituir, na equação (9.11), e1t por ê1t e e2t por ê2t e estimar o modelo.<br />

Estuda-se a seguir a verosimilhança associada ao modelo em análise. A função log-<br />

verosimilhança é dada pela expressão (9.1). Tendo em conta a estrutura “triangular” do<br />

modelo é possível simplificar a log-verosimilhança e decompô-la em três parcelas, como se<br />

mostra a seguir. Observe-se, em primeiro lugar,<br />

Tem-se assim,<br />

(yt − µ t) ′ H −1<br />

t (yt − µ t) = u ′ t (Ψ ′ ) −1 Σ −1<br />

t Ψ −1 ut<br />

= 1<br />

σ2 u<br />

1t<br />

2 1t + 1<br />

σ2 (u2t − au1t)<br />

2t<br />

2<br />

log |Ht| = log |ΨΣtΨ ′ | = log |Ψ| 2 |Σt| <br />

+ 1<br />

σ2 (u3t − (b − ac) u1t − cu2t)<br />

3t<br />

2<br />

= log |Ψ| 2 + log (|Σt|) = log (1) + log σ 2 1tσ 2 2tσ 2 3t<br />

= log σ 2 <br />

2 2<br />

1t + log σ2t + log σ3t (b − ac) u1t − cu2t = −be1t − ce2t.<br />

357


log Ln (θ) = − nm 1<br />

log (2π) −<br />

2 2<br />

= − nm 1<br />

log (2π) −<br />

2 2<br />

− 1<br />

n<br />

<br />

1<br />

2<br />

t=1<br />

n<br />

t=1<br />

n<br />

t=1<br />

log |Ht| − 1<br />

2<br />

n<br />

t=1<br />

(yt − µ t) ′ H −1<br />

t (yt − µ t) .<br />

<br />

2 2 2<br />

log σ1t + log σ2t + log σ3t σ2 u<br />

1t<br />

2 1t + 1<br />

σ2 (u2t − au1t)<br />

2t<br />

2<br />

+ 1<br />

σ2 (u3t − (b − ac) u1t − cu2t)<br />

3t<br />

2<br />

= − nm<br />

n 1 <br />

2 2 2<br />

log (2π) − log σ1t + log σ2t + log σ3t 2 2<br />

t=1<br />

− 1<br />

n<br />

<br />

1<br />

2 σ<br />

t=1<br />

2 u<br />

1t<br />

2 1t + 1<br />

σ2 (u2t − ae1t)<br />

2t<br />

2 + 1<br />

σ2 3t<br />

= − nm<br />

<br />

log (2π) + −<br />

2 1<br />

n<br />

log<br />

2<br />

t=1<br />

σ 2 <br />

n 1 1<br />

1t −<br />

2 σ<br />

t=1<br />

2 u<br />

1t<br />

2 <br />

1t<br />

<br />

log Ln,1<br />

<br />

+ − 1<br />

n<br />

log<br />

2<br />

t=1<br />

σ 2 <br />

n 1 1<br />

2t −<br />

2 σ<br />

t=1<br />

2 (u2t − ae1t)<br />

2t<br />

2<br />

<br />

<br />

log Ln,2<br />

<br />

− 1<br />

n<br />

log<br />

2<br />

t=1<br />

σ 2 <br />

n 1 1<br />

3t −<br />

2 σ<br />

t=1<br />

2 (u3t − be1t − ce2t)<br />

3t<br />

2<br />

<br />

<br />

log Ln,3<br />

= log Ln,1 + log Ln,2 + log Ln,3<br />

<br />

(u3t − be1t − ce2t) 2<br />

<br />

(9.12)<br />

(9.13)<br />

(9.14)<br />

A decomposição log Ln (θ) = log Ln,1+log Ln,2+log Ln,3, mostra que a estimação pode<br />

ser feita consistentemente de acordo com os passos acima indicados. A primeira parcela,<br />

log Ln,1, só depende do vector<br />

θ1 = (c1, φ 11, ω1, α1, β 1) ′ .<br />

Estes parâmetros são estimados de forma consistente e eficiente maximizando (apenas) log Ln,1<br />

(trata-se, portanto, da estimação, pelos métodos habituais, da equação (9.9)). A segunda<br />

parcela, log Ln,2, depende do vector,<br />

θ2 = (c2, φ 21, φ 22, ω2, α2, β 2, a) ′<br />

358


e ainda de θ1, através dos erros {e1t} . A estimação de θ2 através da maximização de log Ln,2<br />

pode ser feita de forma consistente, mas não eficiente, substituindo os erros {e1t} por {ê1t} .<br />

A estimação é consistente pois {ê1t} baseiam-se no estimador consistente ˆ θ1, obtido no<br />

primeiro passo. Claro que a maximização de log Ln,2 corresponde à estimação da equação<br />

(9.10), pelos métodos habituais ((com {ê1t} em lugar de {e1t}). Este raciocínio aplica-se de<br />

forma análoga a log Ln,3.<br />

Como nota final, observe-se que a estimação do modelo pode ser totalmente eficiente<br />

se a maximização de log Ln for simultânea (confiram-se as equações (9.12)-(9.14)). Como<br />

se sabe, o problema da maximização de log Ln é, entre outros, o dos valores iniciais dos<br />

parâmetros a estimar. Este problema é mitigado no presente contexto: basta fornecer como<br />

valores iniciais as estimativas obtidas na estimação em três passos, acima apresentada.<br />

9.8.3 Testes e Rácios de Variância<br />

Considere-se novamente<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

u1t = e1t<br />

u2t = ae1t + e2t<br />

u3t = be1t + ce2t + e3t<br />

,<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

h11,t = σ 2 1t<br />

h22,t = a 2 σ 2 1t + σ 2 2t<br />

h33,t = b 2 σ 2 1t + c 2 σ 2 2t + σ 2 3t.<br />

Observámos que u2t depende de e2t (efeitos idiossincrásicos) e ainda dos choques idiossin-<br />

crásicos da primeira equação. Por seu turno, u3t depende de e3t (efeitos idiossincrásicos) e<br />

ainda dos choques idiossincrásicos da primeira e da segunda equação. Como referimos, a<br />

volatilidade que decorre dos efeitos não idiossincrásicos designa-se de volatility spillover.<br />

Desta forma, existem efeitos de volatility spillover do mercado 1 para o mercado 2 se a = 0<br />

e dos mercados 1 e 2 para o mercado 3 se b = 0 e c = 0.<br />

Pode-se ainda obter informação sobre a evolução da transmissão da volatilidade ao longo<br />

do tempo através de rácios de volatilidade. Seja RV i,j<br />

t<br />

a proporção da variância do mercado<br />

j que é causada pelo efeito de volatility spillover do mercado i (efeito do mercado i para j,<br />

i ↦→ j). Tem-se<br />

RV 1,2<br />

t = a2σ2 1t<br />

h22,t<br />

RV 1,3<br />

t = b2 σ 2 1t<br />

h33,t<br />

,<br />

359<br />

RV 2,3<br />

t<br />

= c2σ2 2t<br />

.<br />

h33,t


Dependent Variable: R1<br />

Method: ML ­ ARCH<br />

Sample (adjusted): 6/01/1993 4/09/2009<br />

Included observations: 4055 after adjustments<br />

Variable Coefficient Std. Error z­Statistic Prob.<br />

C 0.052202 0.013247 3.940658 0.0001<br />

R1(­1) ­0.017161 0.017808 ­0.963644 0.3352<br />

Variance Equation<br />

C 0.007049 0.001077 6.546092 0.0000<br />

RESID(­1)^2 0.066257 0.004820 13.74617 0.0000<br />

GARCH(­1) 0.929667 0.005114 181.7812 0.0000<br />

Figura 9-2: Estimação, primeiro passo - ver equação (9.9)<br />

Dependent Variable: R2<br />

Method: ML ­ ARCH<br />

Sample (adjusted): 6/01/1993 4/09/2009<br />

Included observations: 4055 after adjustments<br />

Por exemplo, RV 2,3<br />

t<br />

Variable Coefficient Std. Error z­Statistic Prob.<br />

C 0.052704 0.013123 4.016235 0.0001<br />

R1(­1) 0.449084 0.019369 23.18547 0.0000<br />

R2(­1) ­0.179191 0.015456 ­11.59382 0.0000<br />

RES1 0.552914 0.015972 34.61746 0.0000<br />

Variance Equation<br />

C 0.009916 0.002944 3.367632 0.0008<br />

RESID(­1)^2 0.068232 0.010502 6.497201 0.0000<br />

GARCH(­1) 0.923938 0.010928 84.55149 0.0000<br />

Figura 9-3: Estimação, segundo passo - ver equação (9.10)<br />

representa a proporção da variância condicional do mercado 3 que é<br />

causada pelo efeito volatility spillover do mercado 2.<br />

9.8.4 Exemplo<br />

Pinto (2010) analisou a transmissão de volatilidade do mercado Norte-Americano (US) para<br />

o mercado Europeu (EU) e, em particular, as repercussões destes dois mercados no mercado<br />

Português (PT), através de um modelo triangular. O período analisado foi 4 de Janeiro de<br />

1993 a 4 de Setembro de 2009. As variáveis em análise são: r1t - retorno do SP500, r2t -<br />

retorno do DJ Euro 50 e r3t - retorno do PSI 20. Nas figuras 9-2 a 9-4 apresentam-se os<br />

modelos estimados (na versão mais simples).<br />

É fácil constatar que existe evidência estatística de efeitos de volatility spillover do mer-<br />

cado US para o mercado EU (â = 0.55291 e rejeita-se a hipótese a = 0 com p-value = 0 - ver<br />

figura 9-3) e dos mercados US e EU para o mercado PT ( ˆ b = 0.233, ĉ = 0.4066 e rejeitam-se<br />

as hipóteses b = 0 e c = 0 - ver figura 9-4).<br />

360


Dependent Variable: R3<br />

Method: ML ­ ARCH<br />

Sample (adjusted): 6/01/1993 4/09/2009<br />

Included observations: 4055 after adjustments<br />

Variable Coefficient Std. Error z­Statistic Prob.<br />

C 0.043610 0.010837 4.024173 0.0001<br />

R1(­1) 0.222423 0.010966 20.28223 0.0000<br />

R2(­1) ­0.093210 0.012230 ­7.621611 0.0000<br />

R3(­1) 0.143101 0.016376 8.738563 0.0000<br />

RES1 0.233364 0.007759 30.07544 0.0000<br />

RES2 0.406663 0.008429 48.24352 0.0000<br />

Variance Equation<br />

C 0.027709 0.002862 9.681126 0.0000<br />

RESID(­1)^2 0.158430 0.009900 16.00381 0.0000<br />

GARCH(­1) 0.815877 0.010650 76.60615 0.0000<br />

Figura 9-4: Estimação, terceiro passo - ver equação (9.11)<br />

Na figura 9-5 apresentam-se os coeficientes de correlação condicionados (valores médios<br />

mensais). Podem ser retiradas algumas conclusões:<br />

• As correlações condicionadas entre os mercados US e EU e entre os mercados EU e<br />

PT são, em média, relativamente fortes.<br />

• A correlação menos expressiva, mas significativa, é entre o mercado US e o mercado<br />

PT, embora se assista ao longo do período a um aumento dessa correlação.<br />

• Tendo em conta que as correlações são positivas, os retornos tendem a flutuar na<br />

mesma direcção; por outro lado, verifica-se uma tendência de crescimento das corre-<br />

lações, ou seja, uma tendência crescente de interligação entre os diferentes mercados.<br />

• Alguns dos valores mais altos dos coeficientes de correlação coincidem com algumas<br />

crises financeiras 5 . Este facto é particularmente notório com a crise do subprime de<br />

2008.<br />

Na figura 9-6 analisa-se a transmissão da volatilidade dos mercados EU e US para o<br />

mercado PT através dos rácios de volatilidade. São considerados os seguintes rácios<br />

RV _USt = RV 1,3<br />

t<br />

RV _EUt = RV 2,3<br />

t<br />

= ˆb 2ˆσ 2<br />

1t<br />

ˆh33,t<br />

= ĉ2ˆσ 2<br />

2t<br />

ˆh33,t<br />

RV _P Tt = 1 − RV _USt − RV _EUt.<br />

5 As principais crises financeiras no período em análise são as seguintes: Recessão do Japão, 1991; Crise do<br />

México, 1994/1995; Bolha Dot.com, 2000; Crise de 2001 (ataque às Twin Towers); Crise da Argentina, 2002;<br />

Crise do Subprime, 2007/2008.<br />

361<br />

,<br />

,


.9<br />

.8<br />

.7<br />

.6<br />

.5<br />

.4<br />

.3<br />

.2<br />

.1<br />

94 96 98 00 02 04 06 08<br />

PT­EU PT­US EU­US<br />

Figura 9-5: Coeficientes de Correlação Condicional<br />

Podem ser retiradas algumas conclusões:<br />

• A volatilidade do mercado PT decorre em larga medida do seu próprio mercado (efeito<br />

idiossincrático), embora este efeito tenha a vindo a diminuir ao longo do tempo. Por<br />

outras palavras, o efeito de volatilidade spillover dos mercados EU e US sobre o mer-<br />

cado PT tem vindo a aumentar ao longo do tempo.<br />

• O efeito de volatilidade spillover do mercado EU (para o mercado PT) é geralmente<br />

mais forte do que o do mercado US. No entanto, no período da crise do subprime, o<br />

mercado US transmitiu mais volatilidade ao mercado PT do que o mercado EU.<br />

• Nos períodos de crise o efeito idiossincrático tende em geral a diminuir. Observe-se<br />

por exemplo, as crise de 2000 (das “dot.com”), de 2001 e de 2008.<br />

• Verifica-se uma tendência de crescimento do rácio de volatilidade US para o mercado<br />

PT.<br />

9.9 GARCH Ortogonal<br />

À semelhança do modelo “triangular”, a principal vantagem do GARCH ortogonal é a de<br />

podermos estimar um GARCH multivariado através de GARCH’s univariados.<br />

362


1.0<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0.0<br />

94 96 98 00 02 04 06 08<br />

RV_EU RV_PT RV_US<br />

Figura 9-6: Rácios de Volatilidade<br />

Seja yt = (y1t, y2t, ..., ymt) ′ o vector das observações no momento t (t = 1, ..., n). Se<br />

quisermos normalizar as variáveis consideramos<br />

xit = yit − E (yit)<br />

.<br />

(substituir E (yit) e σi pelos respectivos momentos da amostra, caso os parâmetros sejam<br />

desconhecidos). Logo E (xit) = 0 e Var (xit) = 1. Para simplificar suponha–se E (yit) = 0.<br />

Nestas condições podemos escrever<br />

⎛<br />

⎞⎛<br />

⎞<br />

σ1<br />

⎜ 0<br />

yt= ⎜ .<br />

⎝<br />

0<br />

σ2<br />

.<br />

· · ·<br />

· · ·<br />

. ..<br />

0<br />

0<br />

.<br />

⎟⎜<br />

⎟⎜<br />

⎟⎜<br />

⎟⎜<br />

⎟⎜<br />

⎟⎜<br />

⎠⎝<br />

x1t<br />

x2t<br />

.<br />

⎟ = Σxt.<br />

⎟<br />

⎠<br />

<br />

0 0 · · ·<br />

<br />

σm<br />

<br />

xmt<br />

<br />

Σ<br />

Suponha-se que é possível encontrar matrizes Pt de tipo m × 1 e W de tipo m × m nas<br />

seguintes condições:<br />

σi<br />

xt = WPt<br />

xt<br />

PtP ′ t é diagonal. (9.15)<br />

363


Suponha-se que W é não aleatório dado Ft−1. Vem<br />

Tendo em conta (9.15) vem<br />

E (PtP ′ t| Ft−1) =<br />

Cov (yt| Ft−1) = Cov (Σxt| Ft−1)<br />

⎛<br />

⎜<br />

⎝<br />

= E (Σxtx ′ tΣ| Ft−1)<br />

= Σ E (xtx ′ t| Ft−1) Σ<br />

= Σ E (WPtP ′ tW ′ | Ft−1) Σ<br />

= ΣW E (PtP ′ t| Ft−1) W ′ Σ<br />

E (P 2<br />

t1| Ft−1) 0 · · · 0<br />

0 E (P 2 2t| Ft−1) · · · 0<br />

.<br />

.<br />

. .. .<br />

0 0 · · · E (P 2 mt| Ft−1)<br />

Vantagem da especificação Cov (yt| Ft−1) = ΣW E (PtP ′ t| Ft−1) W ′ Σ ? Supondo que se<br />

conhecem as matrizes Σ e W, modelar Cov (yt| Ft−1) equivale a modelar apenas as variân-<br />

cias condicionais de Pit. Não temos que nos preocupar com a modelação das covariâncias<br />

condicionais! Além disso Cov (yt| Ft−1) é definida positiva, por construção.<br />

Obter a matriz W<br />

<br />

Seja X a matriz das observações estandardizadas, X =<br />

x•1 x•2 · · · x•m<br />

⎞<br />

⎟ .<br />

⎟<br />

⎠<br />

<br />

de tipo<br />

n × m (por exemplo, x•1 representa o vector das observações estandardizadas da variável 1)<br />

e<br />

ˆV = X′ X<br />

n .<br />

V é a matriz de correlações de yt. Por exemplo, o elemento (1, 2) de V é<br />

Considerar<br />

x ′ •1x•2<br />

n<br />

=<br />

=<br />

n<br />

t=1 x1tx2t<br />

1<br />

n<br />

n<br />

x ′ •1x•2<br />

n =<br />

n<br />

t=1<br />

y1t−E(y1t) y2t−E(y2t)<br />

n<br />

=<br />

σ1<br />

n<br />

σ2<br />

t=1 (y1t − E (y1t)) (y2t − E (y2t))<br />

.<br />

σ1σ2<br />

1 n<br />

n t=1 (y1t − ¯y1) (y2t − ¯y2)<br />

ˆσ1ˆσ2<br />

se os momentos E (y1t), E (y2t), σ1 e σ2 forem desconhecidos.<br />

364


Como se sabe, se W•i é vector próprio de V e λi é o valor próprio associado a W•i então<br />

Compactamente<br />

<br />

onde W =<br />

W•1 ... W•m<br />

ˆVW•i = λiW•i, i = 1, ..., m<br />

ˆVW = WΛ<br />

<br />

é a matriz dos vectores próprios associada a V e Λ = diag (λ1, ..., λm) .<br />

Note-se que W ′ W = I ( ˆV é simétrica, logo é possível obter W tal que W ′ W = I ). Como<br />

tem-se<br />

X = PW ′ ⇔ P = X (W ′ ) −1 = XW<br />

P ′ P = W ′ X ′ XW<br />

= nW ′ ˆVW<br />

= nW ′ WΛ<br />

= nΛ.<br />

Portanto, se W é a matriz dos vectores próprios associada a V então P ′ P é uma matriz<br />

diagonal.<br />

Passos:<br />

1. Estandardizar Y e obter X. Estimar<br />

2. Calcular ˆV = X ′ X/n.<br />

⎛<br />

⎞<br />

σ1<br />

⎜ 0<br />

Σ = ⎜ .<br />

⎝<br />

0<br />

σ2<br />

.<br />

· · ·<br />

· · ·<br />

. ..<br />

0<br />

0<br />

.<br />

⎟ ,<br />

⎟<br />

⎠<br />

σi =<br />

0 0 · · · σm<br />

Var (yit)<br />

3. Calcular os vector próprios (W) de ˆV.<br />

4. Obter P = XW.<br />

5. Modelar separadamente as coluna de P através de um GARCH.<br />

365


Figura 9-7: Aplicação (rendabilidade do índice de mercado: NASDAQ; INDUSTRIAL,<br />

COMPUTER)<br />

6. Para cada t considerar<br />

Cov (yt| Ft−1) = ΣW E (PtP ′ t| Ft−1) W ′ Σ.<br />

Modelação de Sistemas de Grande Dimensão<br />

É possível reduzir a calculatória considerando apenas certos vectores de P = XW - estes<br />

vectores designam-se de componentes principais. Para explicar esta ideia, considere-se<br />

P ′ P<br />

= Λ (9.16)<br />

n<br />

Logo Λ pode ser considerado uma estimativa da matriz de variâncias-covariâncias de P.<br />

Como<br />

<br />

P =<br />

P•1 ... P•m<br />

366


tem-se<br />

P ′ ⎛<br />

P<br />

⎜<br />

P = ⎜<br />

⎝<br />

′ •1P•1<br />

0<br />

0<br />

P<br />

· · · 0<br />

′ .<br />

•2P•2<br />

.<br />

· · ·<br />

.. .<br />

0<br />

.<br />

0 0 · · · P ′ ⎞<br />

⎟<br />

⎠<br />

•mP•m<br />

e, atendendo a (9.16), conclui-se que a variância da componente principal i é igual a<br />

P ′ •iP•i<br />

n<br />

Por outro lado, atendendo a X = PW ′ , tem-se<br />

X ′ X<br />

n =WP′ PW ′<br />

n<br />

= λi.<br />

= WΛW ′ .<br />

Em suma, a proporção da variação total de X que é explicada pela i-ésima componente<br />

principal é λi/ m<br />

j=1 λi = λi/m. Quanto maior for λi mais peso tem a i-ésima componente<br />

principal na explicação da variação total de X. As componentes principais cujos valores<br />

próprios são muitos baixos podem ser descartados. Na prática procede-se assim:<br />

• ordenam-se os valores próprios por ordem descendente , i.e. λ1 > λ2 > ...<br />

• ordenam-se os vectores próprios de acordo com os valores próprios ordenados, i.e., a<br />

primeira coluna de W, W•1, é o vector próprio associado a λ1, a segunda coluna de<br />

W•2 é o vector próprio associado a λ2, etc.<br />

Em lugar de se trabalhar com W trabalha-se com uma submatriz de W, seja W ∗ essa<br />

matriz, constituída pelas primeiras k colunas. Como resultado passa-se a ter apenas as k<br />

componentes principais mais significativas:<br />

P ∗ = XW ∗<br />

que tem dimensão n × k. Nestas circunstâncias é necessário modelar apenas estas k compo-<br />

nentes principais. Assim,<br />

Cov (yt| Ft−1) ≈ ΣW ∗ E P ∗ t (P ∗ t ) ′ <br />

∗ ′<br />

Ft−1 (W ) Σ<br />

367


e<br />

E P ∗ t (P ∗ t ) ′ ⎛<br />

⎜<br />

E (P<br />

⎜<br />

⎜<br />

Ft−1 = ⎜<br />

⎝<br />

2 1t| Ft−1)<br />

0<br />

0<br />

E (P<br />

· · · 0<br />

2 .<br />

2t| Ft−1)<br />

.<br />

· · ·<br />

. ..<br />

0<br />

.<br />

0 0 · · · E (P 2<br />

tk | Ft−1)<br />

(P ∗ t é a linha t da matriz P ∗ ).<br />

Passos:<br />

1. Estandardizar Y e obter X. Estimar<br />

2. Calcular ˆV = X ′ X/n.<br />

⎛<br />

⎞<br />

σ1<br />

⎜ 0<br />

Σ = ⎜ .<br />

⎝<br />

0<br />

σ2<br />

.<br />

· · ·<br />

· · ·<br />

. ..<br />

0<br />

0<br />

.<br />

⎟ ,<br />

⎟<br />

⎠<br />

σi =<br />

0 0 · · · σm<br />

Var (yit)<br />

3. Calcular os valores próprios e vector próprios de ˆV (ordenam-se os valores próprios<br />

por ordem descendente , i.e. λ1 > λ2 > ...e ordenam-se os vectores próprios de acordo<br />

com os valores próprios ordenados).<br />

4. A partir do passo 3 obter W ∗ e P ∗ = XW ∗ .<br />

5. Modelar separadamente coluna de P ∗ através de um GARCH.<br />

6. Para cada t considerar<br />

9.10 Testes de Diagnóstico<br />

Cov (yt| Ft−1) ≈ ΣW ∗ E P ∗ t (P ∗ t ) ′ <br />

∗ ′<br />

Ft−1 (W ) Σ.<br />

Nos vários modelos, a hipótese de partida é ut| Ft−1 ∼ N (0, H t) ou, de forma equiva-<br />

lente, ut = H 1/2<br />

t εt onde εt ∼ N (0, I m) . Se o modelo estiver correctamente especificado,<br />

{εt} deve ser uma sucessão de vectores i.i.d., com matriz de variâncias-covariâcias (con-<br />

temporânea) dada por Im. Naturalmente que εt é desconhecido, mas pode ser estimado da<br />

368<br />

⎞<br />

⎟ .<br />

⎟<br />


seguinte forma<br />

ˆεt = ˆH −1/2<br />

t ût.<br />

ˆεt é o vector dos resíduos estandardizados (e ût é o vector dos resíduos). A matriz ˆH −1/2<br />

t<br />

pode obter-se a partir da decomposição Cholesky, seguindo os seguintes passos. 1) Dado<br />

ˆHt, obter uma matriz triangular ˆH 1/2<br />

t , usando a decomposição de Cholesky, i.e., obter uma<br />

matriz ˆH 1/2<br />

t tal que ˆHt = ˆH 1/2<br />

<br />

ˆH t<br />

1/2<br />

′<br />

t ; 2) Inverter ˆH 1/2<br />

t . Por exemplo, considere-se um<br />

sistema de duas equações (m = 2)<br />

Ht =<br />

⎡<br />

⎣ σ2 1t<br />

σ12,t<br />

σ12,t σ 2 2t<br />

A decomposição de Cholesky fornece<br />

H 1/2<br />

t<br />

(verifique que o produto H 1/2<br />

<br />

t<br />

H −1/2<br />

t<br />

=<br />

H 1/2<br />

t<br />

⎡<br />

⎤<br />

⎡<br />

σ 2 1t<br />

⎦ = ⎣<br />

ρtσ1tσ2t ⎣ σ1t 0<br />

<br />

2 ρtσ2t σ2t 1 − ρt ′<br />

⎡<br />

= ⎣<br />

−<br />

é Ht). Assim,<br />

1<br />

σ1t<br />

ρ √t σ1t 1−ρ2 t<br />

0<br />

ρ tσ1tσ2t<br />

⎤<br />

√1 σ2t 1−ρ2 t<br />

<br />

(Deixa-se como exercício mostrar que E (εt) = 0 e Var (εt) = Var<br />

forma (continuando o exemplo) a expressão ˆεt = ˆH −1/2<br />

t ût vale<br />

⎡<br />

⎣ ˆε1t<br />

ˆε2t<br />

⎤<br />

⎡<br />

⎦ = ⎣<br />

−<br />

1<br />

ˆσ1t<br />

ˆρ √t 2<br />

ˆσ1t 1−ˆρ t<br />

0<br />

√1 ˆσ2t 1−ρ2 t<br />

⎤ ⎡<br />

⎦<br />

⎣ û1t<br />

û2t<br />

⎤<br />

⎡<br />

⎦ = ⎣<br />

⎦ .<br />

σ 2 2t<br />

⎤<br />

⎦ .<br />

û2t √<br />

2<br />

ˆσ2t 1−ˆρ t<br />

⎤<br />

⎦ .<br />

H −1/2<br />

t ut<br />

û1t<br />

ˆσ1t<br />

− û1tˆρ √ t<br />

2<br />

ˆσ1t 1−ˆρ t<br />

<br />

= In). Desta<br />

Vários testes podem ser invocados. Para avaliar se os efeitos de heterocedasticidades<br />

estão convenientemente modelados, Engle (2002) sugere o seguinte procedimento. Primeiro<br />

passo: regressão de ˆε 2<br />

1t sobre as seguintes variáveis (para além de um termo constante):<br />

• resíduos quadráticos ˆε 2<br />

i,t−k, com i = 1, ..., m e k = 1, ..., L (L desfasamentos) e<br />

• termos cruzados ˆεi,t−kˆεj,t−k, com i, j = 1, ..., m e k = 1, ..., L.<br />

369<br />

⎤<br />

⎦ .


Por exemplo no caso m = 2 e L = 1, a regressão envolveria as seguintes variáveis:<br />

2<br />

1, ˆε 1t−1, ˆε 2<br />

<br />

2t−1, ˆε1,t−1ˆε2,t−1 .<br />

Segundo passo: teste F de nulidade de todos os parâmetros com excepção do do termo in-<br />

dependente. Se existir evidência estatística contra a hipótese nula, podemos suspeitar que<br />

a matriz Ht não foi convenientemente modelada. Nos passos seguintes repete-se o proced-<br />

imento, tomando sucessivamente ˆε 2<br />

i,t i = 2, ..., m como variável dependente na regressão<br />

auxiliar.<br />

Naturalmente é conveniente verificar também se ˆεt é um ruído branco. O procedimento<br />

anterior pode ser repetido substituindo os resíduos estandardizados ao quadrado simples-<br />

mente pelos resíduos estandardizados e eliminando os termos cruzados.<br />

370


Capítulo 10<br />

Regressão Não Paramétrica<br />

10.1 Introdução<br />

***<br />

(Última actualização: 1/2010. Preliminar e incompleto)<br />

10.2 Estimação Não Paramétrica da Função Densidade de<br />

Probabilidade<br />

10.2.1 Introdução<br />

Suponha-se que X é uma v.a. discreta. A estimação da função de probabilidade, f (x) , é<br />

imediata: ˆ f (x) pode ser estimado como a proporção de valores na amostra {x1, x2, ..., n}<br />

que são iguais a x, i.e.,<br />

ˆf (x) = 1<br />

n<br />

n<br />

t=1<br />

I{xi:xi=x}.<br />

Se X é uma variável contínua, a probabilidade do evento {xt = x} é zero e, desta forma, a<br />

estimação da fdp f (x) deve envolver a proporção de valores xt que se encontram perto de<br />

x, digamos numa vizinhança x ± h/2 (h dá a largura do intervalo).<br />

Se tomarmos<br />

1<br />

n<br />

n<br />

t=1<br />

I xt−x {xt:| h |< 1<br />

1<br />

=<br />

2} n<br />

n<br />

I 1<br />

{xt:− 2<br />

t=1<br />

< xt−x 1<br />

< h 2}<br />

temos simplesmente a proporção de observações na amostra que se encontram no intervalo<br />

371


(x − h, x + h) . Esta proporção deve ser dividia por h :<br />

ˆf (x) = 1 1<br />

h n<br />

n<br />

t=1<br />

I xt−x {xt:| h |< 1 . (10.1)<br />

2}<br />

Tem-se assim que ˆ f (x) representa a proporção de observações por unidade relativa de fre-<br />

quencia. Naturalmente, podemos fazer variar h. Um valor maior implica um maior alisa-<br />

mento da estimativa (mais observações são consideradas), diminuindo a variabilidade de ˆ f.<br />

Todavia, valores muitos altos de h podem distorcer a estimativa de f (x), na medida em que<br />

podem entrar observações muito afastadas de x, não traduzindo, portanto, o comportamento<br />

local de f no ponto x.<br />

X é<br />

Pode-se mostrar que<br />

∞<br />

−∞<br />

ˆf (x) dx = 1.<br />

Apresenta-se a seguir a derivação formal de ˆ f. Por definição, a função de distribuição de<br />

A respectiva fdp é<br />

ou, equivalentemente,<br />

P (X ≤ x) = F (x) =<br />

x<br />

−∞<br />

f (u) du<br />

f (x) = F ′ F (x + h) − F (x)<br />

(x) = lim<br />

h→0 h<br />

F (x + h/2) − F (x − h/2)<br />

f (x) = lim<br />

h→0<br />

h<br />

= lim<br />

h→0<br />

= lim<br />

h→0<br />

P (x − h/2 < X < x + h/2)<br />

h<br />

P <br />

X−x 1 < h 2<br />

h<br />

Dada esta definição de f (x) , é imediato concluir que uma estimativa da última expressão é<br />

1 n<br />

n t=1 I {xt:| xt−x h |< 1<br />

2}<br />

h<br />

que é exactamente a expressão obtida em (10.1). Esta estimativa pode também ser escrita da<br />

seguinte forma<br />

ˆf (x) = 1<br />

nh<br />

n<br />

<br />

xt − x<br />

K<br />

h<br />

t=1<br />

372


onde<br />

K (u) = 1<br />

2 I{u:|u|


Note-se que O (h 4 ) representa um termo de ordem h 4 ou inferior. Por outras palavras,<br />

O (h 4 ) é proporcional ou menos do que proporcional a h 4 , podendo ser, por exemplo, 2h 4 .<br />

Obviamente limh→0 O (h 4 ) = 0 e limh→0 O (h 4 ) /h 4 é uma constante.<br />

Proposição 10.2.2 Tem-se ˆ f (x)<br />

p<br />

−→ f (x) .<br />

A demonstração é obvia tendo em conta a proposição 10.2.1:<br />

lim<br />

n→∞ E<br />

<br />

ˆf (x)<br />

lim<br />

n→∞ Var<br />

<br />

ˆf (x)<br />

= f (x)<br />

= 0,<br />

pois n → ∞ arrasta h → 0 e nh → ∞. A hipótese A4 é crucial. Nestas condições, o<br />

estimador ˆ f (x) é consistente (em probabilidade).<br />

√nh <br />

Proposição 10.2.3 Tem-seVar f ˆ(x) → f (x) K2 (u) du<br />

Proposição 10.2.4 Sob as hipóteses A1-A4 e K (u) 2+δ du < ∞ tem-se<br />

√ <br />

nh ˆf (x) − E ˆf d<br />

(x) −→ N 0, f (x)<br />

K 2 <br />

(u) du<br />

Proposição 10.2.5 Sob as hipóteses da proposição anterior e A5 tem-se<br />

10.2.3 Escolha de h<br />

√ <br />

nh ˆf d<br />

(x) − f (x) −→ N 0, f (x)<br />

K 2 <br />

(u) du<br />

Na prática como escolher K e h? A escolha do kernel é, geralmente, pouco relevante, já<br />

que os resultados finais dependem pouco da escolha do kernel. Muito mais relevante é a<br />

escolha de h. Sabemos que h deve depender de n, tendo em conta as hipóteses A4 e A5. Se<br />

definirmos h = γn α , sendo α e γ parâmetros a determinar, sabe-se que α tem de ser menor<br />

do que zero tendo em conta que h → 0. Por outro lado, como nh = γn 1+α → ∞, α deve<br />

respeitar a relação 1 + α > 0. Dada a hipótese A5<br />

√ nh 5/2 = n 1/2 γ (n α ) 5/2 = γn 1/2 n 5α/2 = γn (1+5α)/2 → 0<br />

deverá ter-se (1 + 5α) < 0. Coligindo todas as desigualdades obtém-se −1 < α < −1/5. É<br />

preciso todavia encontrar um valor para α e γ. Para o efeito, é necessário usar um critério de<br />

374


selecção. Existem vários propostos na literatura, mas focaremos apenas o Mean Integrated<br />

Squared Error:<br />

MISE (h) = E<br />

<br />

2<br />

ˆf (x) − f (x) dx .<br />

<br />

Em princípio, poderíamos escolher h a partir do critério mais simples E ˆf 2<br />

(x) − f (x) <br />

;<br />

mas existe um inconveniente: queremos que ˆ f (x) seja uma boa estimativa para todos os<br />

valores de x que a variável X pode assumir, e não apenas para um x particular. Por isso<br />

integramos o erro quadrático no domínio ou espaço de estados de X.<br />

Fazendo a troca do operador de valor esperado com o do integral, considerando os valores<br />

<br />

aproximados de E ˆf (x) e Var ˆf (x) e notando que<br />

<br />

E ˆf 2<br />

(x) − f (x) 2 Var ˆf (x) + f (x) − E ˆf (x)<br />

tem-se<br />

MISE (h) =<br />

=<br />

<br />

f (x) K 2 (u) du<br />

K 2 (u) du<br />

nh<br />

Resolvendo o problema de optimização<br />

nh<br />

+ h4 σ 4 K<br />

4<br />

<br />

2 K (u) du<br />

min<br />

+<br />

h nh<br />

h4σ4 <br />

K<br />

4<br />

<br />

= f (x) K2 (u) du<br />

+<br />

nh<br />

h4 (f ′′ (x)) 2 σ4 K<br />

4<br />

+ h4 (f ′′ (x)) 2 σ 4 K<br />

4<br />

(f ′′ (x)) 2 dx.<br />

(f ′′ (x)) 2 <br />

dx<br />

obtém-se o valor óptimo de h (de acordo com o critério MISE):<br />

hopt =<br />

<br />

2 K (u) du<br />

<br />

(f ′′ 2<br />

(x)) dx<br />

σ 4 K<br />

1/5<br />

n −1/5 .<br />

Usando o kernel Gaussiano, tem-se K 2 (u) du 0.282 e σ 4 K = 1. O valor de hopt depende<br />

ainda de f ′′ (x) que é desconhecido. Este valor pode ser estimado não parametricamente.<br />

Uma alternativa mais simples consiste em assumir que f (x) ∼ N (µ, σ 2 ) (vários estudos<br />

indicam que esta escolha é relativamente robusta desde que a verdadeira densidade não seja<br />

bimodal ou excessivamente assimétrica). Com estas simplificações obtém-se<br />

ˆhopt = 1.06ˆσn −1/5<br />

375<br />

<br />

dx


(ˆσ desvio padrão estimado de xt).<br />

Exemplo 10.2.1 Dow Jones*** retornos<br />

10.2.4 Estimação localmente linear da Média Condicional<br />

Vamos considerar como modelo base<br />

yt = µ (xt) + ut<br />

ut = σ 2 (xt) εt<br />

onde εt é um ruído branco e tal que E (εt| xt) = 0, µ (xt) é a média condicional e σ 2 (xt)<br />

é a variância condicional. Os momentos condicionais dependem apenas de xt (é natural-<br />

mente possível generalizar). Para simplificar admitiremos que xt = yt−1 (mas é possível<br />

generalizar). O problema de estimação é o dos momentos condicionais µ (x) e σ 2 (x) . À<br />

semelhança da estimação de f (x) , a estimação de µ (x) (e σ 2 (x)) faz-se localmente, i.e.,<br />

estima-se µ (x) separadamente para cada x. Por exemplo, seleccionando x = 1 estimamos<br />

µ (1) = E (yt| xt = 1)<br />

e repete-se o procedimentos para outros pontos x e assim obtemos uma ideia do comporta-<br />

mento de µ (x) .<br />

Na análise da estimação local da média condicional, o ponto de partida é a fórmula de<br />

376


Taylor de µ (xt) numa vizinhança de x :<br />

∂µ (x)<br />

µ (xt) = µ (x) +<br />

∂x ′ (xt − x) + ∂2 µ (x∗ )<br />

∂x2 (xt − x) 2<br />

onde x ∗ é um valor entre xt e x. Desta forma yt pode ser representado pela expressão<br />

∂µ (x)<br />

yt = µ (x) +<br />

∂x ′ (xt − x) + ∂2 µ (x∗ )<br />

∂x2 Se o modelo é linear, por exemplo, um AR(1), vem<br />

∂µ (x)<br />

yt = µ (x) +<br />

∂x ′ (xt − x) + ∂2 µ (x∗ )<br />

∂x2 = c + φx + φ (xt − x1) + 0 + ut<br />

= c + φxt + ut.<br />

2<br />

(xt − x) 2<br />

+ ut.<br />

2<br />

(xt − x) 2<br />

Se µ (x) é não linear o erro de aproximação é não nulo e aumenta quando xt se afasta de<br />

x. Desta forma, obtém-se uma boa aproximação de µ (x) se usarmos apenas as observações<br />

que se encontram “perto” de x. Em alternativa, pode-se usar todas as observações mas damos<br />

mais peso às observações que se encontram “perto” de x.<br />

Trade-off na estimação de µ (x) :<br />

2<br />

+ ut<br />

• não considerar todas as observações ou não dar peso significativo a parte das obser-<br />

vações acarreta um custo: aumento da variância do estimador.<br />

• considerar demasiadas observações, diminui a variância do estimador mas aumenta o<br />

erro de aproximação R i.e. aumenta o enviesamento do estimador.<br />

O peso a dar às observações é controlado pelo kernel K (u) . Seja x ∈ R. Como atribuir<br />

mais ou menos peso às observações xt?<br />

1<br />

h K<br />

<br />

xt − x<br />

=<br />

h<br />

1<br />

<br />

1<br />

√ exp −<br />

0.1 2π 1<br />

<br />

2<br />

u − 1<br />

2 .01<br />

h : bandwidth ou parâmetro de alisamento.<br />

Aproximação de ordem zero (estimador de Nadaraya-Watson):<br />

Considera-se a aproximação yt = c + vt onde vt = ∂µ(x)<br />

∂x ′ (xt − x) + R (xt, x) + ut e<br />

c = µ (x) . O objectivo é estimar c dando mais peso às observações próximas de x. Tem-se<br />

377


2.0<br />

1.5<br />

1.0<br />

0.5<br />

­4 ­3 ­2 ­1 0 1 2 3 4<br />

Figura 10-1: 1<br />

√1 exp<br />

0.2 2π<br />

2.0<br />

1.5<br />

1.0<br />

0.5<br />

<br />

− 1<br />

2<br />

<br />

u−1 2<br />

0.2<br />

­4 ­3 ­2 ­1 0 1 2 3 4<br />

Figura 10-2: 1<br />

√1 exp<br />

1 2π<br />

378<br />

<br />

− 1<br />

2<br />

<br />

u−1 2<br />

1


assim,<br />

ˆµ NW (x, h) = ĉ = arg min<br />

c<br />

wt = 1<br />

hK <br />

xt−x . Resolvendo obtém-se<br />

h<br />

Aproximação linear:<br />

Considera-se a aproximação<br />

ĉ =<br />

n n yt = µ (x) +<br />

t=2 K xt−x<br />

h<br />

n<br />

t=2<br />

t=2 K xt−x<br />

h<br />

yt<br />

(yt − c) 2 wt<br />

.<br />

∂µ (x)<br />

∂x ′ (xt − x) + et<br />

= c + c1 (xt − x) + et<br />

onde et = R (xt, x) + ut. O objectivo é estimar c dando mais peso às observações próximas<br />

de x. Tem-se assim<br />

ˆµ (x, h) = ĉ<br />

e ĉ obtém-se a partir do problema de optimização<br />

Notando que<br />

{ĉ, ĉ1} = arg min<br />

{c,c1}<br />

=<br />

=<br />

n<br />

t=im+1<br />

n<br />

t=im+1<br />

n<br />

t=im+1<br />

n<br />

(yt − c − c1 (xt − x)) 2 wt<br />

t=2<br />

(yt − c − c1 (xt − x)) 2 wt<br />

<br />

(yt − c − c1 (xt − x)) w 1/2<br />

2 t<br />

<br />

ytw 1/2<br />

t − cw 1/2<br />

t<br />

− c1w 1/2<br />

2 t (xt − x) ,<br />

o problema de optimização pode ser encarado como um problema de estimação OLS relati-<br />

vamente à seguinte especificação:<br />

ytw 1/2<br />

t<br />

= cw 1/2<br />

t<br />

+ c1w 1/2<br />

t (xt − x) + errot<br />

onde c é o parâmetro de interesse (c = µ (x)). Fixado o valor de h e dado o valor de x é<br />

379


imediata a construção das variáveis<br />

ytw 1/2<br />

t , w 1/2<br />

t<br />

(xt1 − x1) , etc.<br />

O problema de optimização pode também ser encarado como um problema de estimação<br />

GLS relativamente à especificação<br />

yt = c + c1 (xt − x) + errot<br />

assumindo-se uma pseudo heterocedasticidade da forma Var (yt| xt) = 1/wt. O estimador<br />

GLS corresponde ao estimador OLS aplicado sobre as variáveis transformadas. Tem-se:<br />

onde<br />

⎡<br />

⎣ ĉ<br />

ĉ1<br />

Z (x) =<br />

y =<br />

⎤<br />

⎦ = (Z ′ (x) W (x, h) Z (x)) −1 Z ′ (x) W (x, h) y<br />

⎡ ⎤<br />

1<br />

⎢ .<br />

⎣<br />

x2 − x<br />

⎥<br />

. ⎥<br />

⎦<br />

1<br />

⎡<br />

xn − x<br />

⎤<br />

⎢<br />

⎣<br />

y2<br />

.<br />

yn<br />

⎥<br />

⎦<br />

e a estimativa de interesse ĉ é dada por<br />

<br />

ĉ = 1 0<br />

W (x, h) = diag {w2, ..., wn}<br />

<br />

(Z ′ (x) W (x, h) Z (x)) −1 Z ′ (x) W (x, h) y.<br />

O estimador de Nadaraya-Watson é um caso particular:<br />

e Z (x) = Z = 11×(n−2).<br />

ĉ = (Z ′ (x) W (x, h) Z (x)) −1 Z ′ (x) W (x, h) y<br />

Podíamos estar interessados em E (∆yt| xt = x) e não em E (yt| xt = x) . Nesse caso<br />

tudo se mantém com a seguinte excepção: em lugar de yt deve-se considerar ∆yt, por exem-<br />

380


plo,<br />

Propriedades<br />

<br />

E (∆yt| xt<br />

= x) =<br />

1 0<br />

<br />

(Z ′ (x) W (x, h) Z (x)) −1 Z ′ (x) W (x, h) ∆y<br />

Vamos considerar primeiro o caso em que xt é i.i.d., por ser mais fácil tratar.<br />

B1 xt é i.i.d. e E (ut| xt) = 0, Var (ut| xt) = σ 2 (xt)<br />

B2 As funções m ′′ (x) e f ′′ (x) são contínuas e limitada numa vizinhança de x.<br />

B3 (nh) 1/2 h 2 → 0 quando n → ∞,<br />

Sob as hipóteses A1-A4 e B1 e B2, tem-se<br />

Proposição 10.2.6<br />

E (ˆµ NW (x)) = µ (x) + h2<br />

Var (ˆµ NW (x)) = 1<br />

nh<br />

Proposição 10.2.7<br />

Proposição 10.2.8<br />

2f (x) (µ′′ (x) f (x) + 2f ′ (x) µ ′ (x)) σ 2 K + o h 2<br />

σ2 <br />

(x)<br />

K<br />

f (x)<br />

2 <br />

1<br />

(u) du + o<br />

nh<br />

E (ˆµ (x)) = µ (x) + h2<br />

2 µ′′ (x) σ 2 K + o h 2<br />

<br />

1<br />

.<br />

nh<br />

Var (ˆµ (x)) = σ2 (x)<br />

nhf (x) σ2 K + o<br />

ˆµ NW (x)<br />

ˆµ (x)<br />

p<br />

−→ µ (x)<br />

p<br />

−→ µ (x)<br />

<br />

Proposição 10.2.9 Sob as hipóteses anteriores e E |u| 2+δ<br />

< ∞ e K (u) 2+δ du < ∞<br />

√ nh (ˆµNW (x) − E (ˆµ NW (x)))<br />

<br />

d<br />

−→ N 0, σ2 (x) K2 <br />

(u) du<br />

f (x)<br />

381


Proposição 10.2.10 Sob as hipóteses anteriores e B3 tem-se<br />

<br />

√ d<br />

nh (ˆµNW (x) − µ NW (x)) −→ N 0, σ2 (x) K2 <br />

(u) du<br />

f (x)<br />

<br />

√ d<br />

nh (ˆµ (x) − µ (x)) −→ N 0, σ2 (x) K2 <br />

(u) du<br />

f (x)<br />

O caso em que xt envolve valores desfasados de yt é mais difícil de tratar. De todo o<br />

modo é possível provar que se yt é um processo EE e fracamente dependente, os resultados<br />

anteriores mantêm-se.<br />

10.2.5 Estimação localmente linear da Variância Condicional<br />

10.A Demonstrações<br />

Demonstração da proposição 10.2.1<br />

Tem-se<br />

<br />

E ˆf (x)<br />

=<br />

<br />

n<br />

<br />

1 xt − x<br />

E K<br />

nh h<br />

t=1<br />

<br />

=<br />

<br />

1<br />

E<br />

h K<br />

=<br />

<br />

xt − x<br />

(devido a A1)<br />

h<br />

<br />

1<br />

h K<br />

=<br />

<br />

ξ − x<br />

f (ξ) dξ<br />

h<br />

<br />

1<br />

ξ − x<br />

K (u) f (uh + x) hdu (mudança de variável = u)<br />

h h<br />

<br />

= K (u) f (uh + x) du<br />

=<br />

<br />

K (u) f (x) + huf ′ (x) + h2u2 2 f ′′ =<br />

<br />

<br />

(x) + ... du (invocando a fórmula de Taylor)<br />

<br />

K (u) f (x) du + K (u) huf ′ <br />

(x) du + K (u) h2u2 2 f ′′ (x) du + ...<br />

<br />

K (u) u 2 du + ...<br />

= f (x) + h2 f ′′ (x)<br />

2<br />

= f (x) + h2 f ′′ (x) σ 2 K<br />

2<br />

+ O h 4<br />

A última equação decorre de A2. Note-se que todos os termos do tipo K (u) u k du são zero<br />

quando k é ímpar. O termo O (h 4 ) inclui todos os restantes termos são de ordem igual ou<br />

inferior a h 4 no seguinte sentido limh→0 O (h 4 ) /h 4 = constante.<br />

382


Por outro lado,<br />

<br />

Var ˆf (x)<br />

<br />

n<br />

<br />

1 xt − x<br />

= Var K<br />

nh h<br />

t=1<br />

<br />

= 1<br />

<br />

n<br />

<br />

1 xt − x<br />

Var K<br />

n2 h h<br />

<br />

t=1<br />

= 1<br />

n2 Var (w1 + w2 + ... + wn) (com wt = h −1 K ((xt − x) /h)<br />

= 1<br />

n2 n<br />

Var (wt) +<br />

t=1<br />

2<br />

n2 <br />

Cov (wi, wj)<br />

= 1<br />

n Var (wt) + 2 n−1<br />

<br />

1 −<br />

n<br />

t<br />

<br />

Cov (w1, wt+1) (devido a A1).<br />

n<br />

t=1<br />

Analise-se separadamente cada um destes termos.<br />

<br />

1<br />

Var (wt) = Var<br />

h K<br />

<br />

xt − x<br />

h<br />

= 1<br />

<br />

xt − x<br />

Var K<br />

h2 h<br />

= 1<br />

h2 <br />

E K 2<br />

<br />

2<br />

xt − x<br />

xt − x<br />

− E K<br />

h<br />

h<br />

= 1<br />

h2 K 2<br />

<br />

2<br />

ξ − x<br />

ξ − x<br />

f (ξ) dξ − K f (ξ) dξ<br />

h<br />

h<br />

= 1<br />

h2 K 2 <br />

<br />

2<br />

(u) f (hu + x) hdu − K (u) f (hu + x) hdu<br />

= 1<br />

h 2<br />

<br />

K 2 <br />

(u) f (x) + huf ′ (x) + h2u2 2 f ′′ <br />

(x) + ...<br />

hdu<br />

− 1<br />

h2 <br />

K (u) f (x) + huf ′ (x) + h2u2 2 f ′′ =<br />

2 (x) + ... hdu<br />

1<br />

<br />

K<br />

h<br />

2 <br />

(u) f (x) du + K 2 (u) uf ′ (x) du + ...<br />

<br />

<br />

− K (u) f (x) du + K (u) huf ′ 2 (x) du + ...<br />

= f (x)<br />

<br />

h<br />

K 2 (u) du + O (1)<br />

(note-se que o termo de ordem O (1) definido na última equação inclui todos os demais<br />

termos não presentes na equação e que são relativamente pequenos em comparação com<br />

f (x) h−1 K2 (u) du quando n é grande e h é pequeno).<br />

Analise-se 2 n−1 <br />

t<br />

n t=1 1 − Cov (w1, wt+1). Notando que Cov (w1, wt+1) = ρ n<br />

t Var (w1) ,<br />

383


devido a A1, tem-se<br />

2 n−1<br />

n<br />

t=1<br />

<br />

1 − t<br />

<br />

|Cov (w1, wt+1)| =<br />

n<br />

2 n−1<br />

n<br />

Desta forma,<br />

<br />

Var ˆf (x)<br />

= 2 Var (w1)<br />

≤<br />

= 1<br />

n Var (wt) + 2<br />

n<br />

= f (x)<br />

nh<br />

<br />

t=1<br />

<br />

1 − t<br />

<br />

|ρ<br />

n<br />

t| Var (w1)<br />

n−1<br />

<br />

1 −<br />

n<br />

t=1<br />

t<br />

<br />

|ρ<br />

n<br />

t|<br />

<br />

Var (w1) n−1<br />

<br />

2 1 −<br />

n<br />

t<br />

<br />

C2e<br />

n<br />

−α2t<br />

<br />

t=1<br />

= Var (w1)<br />

O (1)<br />

n <br />

1<br />

= O (pois Var (w1) = O<br />

nh<br />

n−1<br />

t=1<br />

K 2 (u) du + O<br />

Demonstração da proposição 10.2.2<br />

Demonstração da proposição 10.2.3<br />

Seja πn =<br />

<br />

1 − t<br />

n<br />

<br />

1<br />

).<br />

h<br />

(devido a A1)<br />

<br />

Cov (w1, wt+1) (devido a A1).<br />

<br />

1<br />

.<br />

nh<br />

√ <br />

n−1<br />

<br />

Var nhf ˆ(x) = h Var (wt) + 2h 1 − t<br />

<br />

Cov (w1, wt+1)<br />

n<br />

t=1<br />

<br />

√h 1 onde [x] designa aqui a parte inteira de x. Tem-se<br />

n−1<br />

<br />

2h 1 −<br />

t=1<br />

t<br />

<br />

πn <br />

<br />

Cov (w1, wt+1) = 2h 1 −<br />

n<br />

t=1<br />

t<br />

<br />

Cov (w1, wt+1)<br />

n<br />

<br />

Para 1 ≤ t ≤ πn tem-se<br />

J1,n<br />

n−1<br />

<br />

+2h 1 −<br />

t=πn+1<br />

t<br />

<br />

Cov (w1, wt+1)<br />

n<br />

<br />

384<br />

J2,n


|Cov (w1, wt+1)| ≤ E |w1wt+1|<br />

<br />

<br />

= E <br />

K <br />

x1 − x 1<br />

h h K<br />

<br />

xt+1 − x <br />

h<br />

= 1<br />

h2 <br />

<br />

x1 <br />

− x xt+1 − x<br />

K K<br />

h<br />

h<br />

<br />

<br />

<br />

<br />

= <br />

K (u) K (u + v) f1,t+1 (x, x) dudv + O (h) <br />

<br />

Assim<br />

t=1<br />

= O (1) .<br />

f1,t+1 (xt, xt+1) dxtdxt+1<br />

πn <br />

<br />

h<br />

√ <br />

J1,n ≤ h Cov (w1, wt+1) = hO (πn) = O (hπn) = O √h = O h = o (1) .<br />

Para t > πn considera-se o seguinte argumento:<br />

Assim,<br />

pois n−1<br />

t=πn+1<br />

Cov (w1, wt+1) ≤ ρ t Var (w1)<br />

J2,n = 2h<br />

≤ 2<br />

= 2<br />

→ 0<br />

n−1<br />

t=πn+1<br />

n−1<br />

t=πn+1<br />

<br />

f (x)<br />

<br />

f (x)<br />

= ρt K<br />

h<br />

2 <br />

(u) du + O (1)<br />

= ρ <br />

t<br />

f (x) K<br />

h<br />

2 <br />

(u) du + O (h) .<br />

<br />

1 − t<br />

<br />

1 − t<br />

n<br />

n<br />

<br />

Cov (w1, wt+1)<br />

<br />

ρ t<br />

<br />

f (x)<br />

K 2 (u) du + O (h)<br />

K 2 <br />

(u) du + O (h)<br />

n−1<br />

<br />

t=πn+1<br />

<br />

1 − t<br />

<br />

ρt n<br />

<br />

t 1 − ρt ≤ n<br />

n−1 t=πn+1 ρt → 0 quando n → ∞ e πn → ∞.<br />

Demonstração da proposição 10.2.4<br />

Demonstração da proposição 10.2.5<br />

Demonstração da proposição 10.2.6<br />

385


Seja ψt = xt−x.<br />

Tem-se<br />

h<br />

Por outro lado,<br />

ˆµ NW (x) =<br />

=<br />

=<br />

=<br />

yt = µ (x) + µ ′ (x) (xt − x) + µ ′′ (x ∗ ) (xt − x) 2<br />

+ ut<br />

= µ (x) + hµ ′ (x) ψ t + µ ′′ (x ∗ ) h2 ψ 2<br />

t<br />

2<br />

2<br />

+ ut.<br />

n t=2 K (ψt) yt<br />

n t=2 K (ψ <br />

t)<br />

n<br />

t=2 K (ψt) yt<br />

n t=2 K (ψt) (nh) −1 n t=2 K (ψ <br />

t) µ (x) + hµ ′ (x) ψt + µ ′′ (x∗ ) h2ψ2 t<br />

2<br />

(nh) −1 n t=2 K (ψt) (nh) −1 n t=2 K (ψ <br />

t) µ (x) + hµ ′ (x) ψt + µ ′′ (x∗ ) h2ψ2 t<br />

2<br />

ˆf (x)<br />

+ ut<br />

+ ut<br />

= (nh)−1 n t=2 K (ψt) µ (x) + (nh) −1 n t=2 K (ψt) hµ ′ (x) ψt +<br />

ˆf (x)<br />

+ (nh)−1 n t=2 K (ψt) µ ′′ (x∗ ) h2ψ2 t<br />

2 + (nh)−1 n t=2 K (ψt) ut<br />

ˆf (x)<br />

= µ (x) + µ′ (x) 1<br />

ˆf (x) n<br />

n<br />

t=2<br />

K (ψ t) ψ t + hµ′′ (x ∗ )<br />

2 ˆ f (x)<br />

Considerem-se os dois primeiros momentos condicionais:<br />

E ( ˆµ NW (x)| x1, ..., xn) = µ (x) + µ′ (x) 1<br />

ˆf (x) n<br />

n<br />

t=2<br />

386<br />

1<br />

n<br />

n<br />

t=2<br />

K (ψ t) ψ t + hµ′′ (x ∗ )<br />

2 ˆ f (x)<br />

<br />

<br />

K (ψt) ψ 2<br />

t + 1<br />

ˆf (x)<br />

1<br />

n<br />

n<br />

t=2<br />

1<br />

nh<br />

n<br />

K (ψt) ut.<br />

t=2<br />

K (ψ t) ψ 2<br />

t .


Pela teorema do valor esperado iterado, vem<br />

E (ˆµ NW (x)) = E (E ( ˆµ NW (x)| x1, ..., xn))<br />

Por outro lado,<br />

<br />

= E µ (x) + µ′ n (x) 1<br />

K (ψ<br />

ˆf (x) n<br />

t) ψt +<br />

t=2<br />

hµ′′ (x∗ )<br />

2 ˆ n 1<br />

K (ψ<br />

f (x) n<br />

t) ψ<br />

t=2<br />

2<br />

<br />

t<br />

= µ (x) + µ ′ <br />

K (u) u<br />

(x) E<br />

+<br />

ˆf (x)<br />

hµ′′ (x∗ <br />

) K (u) u<br />

E<br />

2<br />

2<br />

<br />

ˆf (x)<br />

= µ (x) + µ ′ 2 2 h σKf (x)<br />

′ (x)<br />

+ o<br />

f (x)<br />

h 2<br />

+ µ′′ (x∗ 2 2 ) h σKf (x)<br />

2 f (x) + o h 2<br />

= µ (x) + h2 σ 2 K<br />

2f (x) (µ′′ (x ∗ ) f (x) + 2f ′ (x) µ ′ (x)) + o h 2<br />

= µ (x) + h2 σ 2 K<br />

2f (x) (µ′′ (x) f (x) + 2f ′ (x) µ ′ (x)) + o h 2 .<br />

Var ( ˆµ NW (x)| x1, ..., xn) = 1<br />

ˆf 2 (x)<br />

1<br />

n 2 h 2<br />

n<br />

t=2<br />

K 2 (ψ t) σ 2 (xt) .<br />

Dado que o segundo termo da expressão Var (ˆµ NW (x)) = E (Var ( ˆµ NW (x)| x1, ..., xn)) +<br />

Var (E ( ˆµ NW (x)| x1, ..., xn)) é zero, vem<br />

E<br />

<br />

1<br />

h K (ψt) σ 2 <br />

(xt)<br />

Var (ˆµ NW (x)) = E (Var ( ˆµ NW (x)| x1, ..., xn))<br />

= 1<br />

nh E<br />

<br />

1<br />

ˆf 2 1<br />

(x) nh<br />

= 1<br />

nh E<br />

<br />

1<br />

ˆf 2 1<br />

(x) nh<br />

= 1<br />

nh E<br />

<br />

1<br />

ˆf 2 1<br />

(x)<br />

n<br />

t=2<br />

n<br />

t=2<br />

K 2 (ψ t) σ 2 (xt)<br />

K 2 (ψ t) σ 2 (xt)<br />

h K2 (ψ t) σ 2 (xt)<br />

= 1<br />

<br />

K<br />

h<br />

2<br />

<br />

ξ − x<br />

σ<br />

h<br />

2 =<br />

<br />

(ξ) f (ξ) dξ =<br />

<br />

K 2 (u) σ 2 (x) f (x) + o (h) du<br />

= σ 2 <br />

(x) f (x) K 2 (u) du + o (h) .<br />

387<br />

<br />

<br />

<br />

K 2 (u) σ 2 (x + uh) f (x + uh) du


Desta forma,<br />

Var (ˆµ NW (x)) = 1<br />

nh E<br />

<br />

1<br />

ˆf 2 1<br />

(x) h K2 (ψt) σ 2 <br />

=<br />

(xt)<br />

1 σ<br />

nh<br />

2 <br />

(x)<br />

K<br />

f (x)<br />

2 <br />

1<br />

(u) du + o .<br />

nh<br />

Demonstração da proposição 10.2.7<br />

Demonstração da proposição 10.2.8<br />

Demonstração da proposição 10.2.9<br />

388


Parte III<br />

Aplicações<br />

389


Página em branco<br />

390


Capítulo 11<br />

Eficiência do Mercado de Capitais<br />

(Última actualização: Maio/2010)<br />

11.1 Introdução e Definições<br />

O mercado de capitais diz-se eficiente se os preços dos produtos financeiros reflectirem toda<br />

a informação disponível. Quando é libertada uma informação relevante (por exemplo, um<br />

anúncio de distribuição de dividendos de valor superior ao esperado, um anúncio de fusões<br />

ou aquisições, etc.) num mercado eficiente os agentes reagem imediatamente comprando ou<br />

vendendo de acordo com a informação e os preços ajustam-se imediatamente.<br />

Num mercado eficiente, supõe-se que os agentes interpretam correctamente a infor-<br />

mação. Caso contrário o preço pode não se ajustar rapidamente e abrem-se oportunidades<br />

para a realização de rendibilidades anormais. Por exemplo, um investidor que compre ime-<br />

diatamente acções após a divulgação de uma “boa notícia” pode obter um retorno anormal<br />

se o preço de mercado se ajustar lentamente à informação disponível. Com efeito, bastará ao<br />

investidor vender as acções depois do preço se ajustar a um nível mais alto.<br />

É difícil imaginar um mercado completamente eficiente em todos os períodos de tempo.<br />

Pode suceder que em certos momentos e face a determinadas notícias o mercado apresente<br />

ineficiências que podem ser exploradas. Faz também sentido admitir que existem mercados<br />

mais eficientes do que outros (mercados emergentes tendem a ser menos eficientes).<br />

A eficiência dos mercados está intimamente relacionada com a informação disponível.<br />

Fama (1970) propôs três formas de eficiência consoante a natureza da informação disponível:<br />

• um mercado é eficiente na forma fraca se os preços dos títulos reflectirem toda a infor-<br />

mação sobre os preços passados; como consequência, as cotações passadas não podem<br />

391


ser utilizadas para obter rentabilidades anormais;<br />

• um mercado é eficiente na forma semi-forte se os preços dos títulos reflectirem toda<br />

a informação disponível ao público; a “informação disponível ao público” inclui os<br />

preços passados, situação económica e financeira da empresa e, em geral, toda a infor-<br />

mação não confidencial que o público em geral pode aceder;<br />

• um mercado é eficiente na forma forte se os preços dos títulos reflectirem toda a in-<br />

formação disponível, pública e privada; a informação privada é conhecida apenas dos<br />

gestores da empresa.<br />

A hipótese dos mercados eficientes admite que todas as informações relevantes estão<br />

disponíveis (a baixo custo) e que as cotações reflectem o conjunto dessas informações. Desta<br />

forma, não é possível com base na informação disponível, obter ganhos persistentes acima<br />

do “retorno normal”; se o mercado é ineficiente, os preços não traduzem o seu valor “justo”<br />

ou valor “intrínseco” e é possível obter rendibilidades anormais.<br />

A questão que normalmente se coloca consiste em saber se é possível obter rendibilidades<br />

anormais de forma persistente utilizando uma estratégia de investimento. Uma forma para<br />

analisar esta questão consiste em comparar a rendibilidade que se obtém a partir de uma certa<br />

estratégia de investimento com a “rendibilidade normal” ou esperada deduzida em função de<br />

um modelo de equilíbrio como o CAPM ou APT. Outra metodologia baseia-se em saber se<br />

os retornos são ou não “previsíveis”. Esta análise pode ser conduzida a partir de um modelo<br />

do tipo<br />

rt = f (xt−1) + ut<br />

onde xt−1 é um vector de variáveis cujos valores são conhecidos no momento t−1. Assim, rt<br />

é previsível se xt−1 explicar rt (por outras palavras, rt é previsível se E (rt| Ft−1) = E (rt)).<br />

O vector xt−1 pode incluir rt−1 ou fundamental variables como por exemplo, variáveis fi-<br />

nanceiras (treasury bill rates, bonds returns, dividend yield (dividendo por acção/cotação),<br />

price-earning ratios (cotação/lucro), etc.) ou variáveis macroeconómicas (produto, inflação,<br />

etc.).<br />

11.2 Teste à Eficiência Fraca de Mercado<br />

Analisa-se se é possível obter rendibilidades anormais de forma persistente utilizando uma<br />

estratégia de investimento baseada apenas nos preços passados.<br />

392


Para simplificar admita-se que o retorno normal, E (rt) = µ > 0 é constante. Se o<br />

mercado é eficiente então é indiferente usar ou não usar a informação disponível Ft−1 para<br />

prever rt e, desta forma tem-se<br />

E (rt| Ft−1) = E (rt) . (11.1)<br />

Note-se que E (rt) representa a previsão de rt não baseada em qualquer informação especí-<br />

fica, a não ser nas “características gerais do processo”. Pelo contrário, se<br />

E (rt| Ft−1) = E (rt)<br />

então, a informação disponível Ft−1 é relevante para prever os retornos futuros. Nestas<br />

circunstâncias, existe alguma informação sobre a “tendência provável” de rt, e será possível,<br />

em princípio, obter rentabilidades anormais, usando a informação disponível Ft−1.<br />

A equação (11.1) pode ser violada de inúmeras formas. Por exemplo, rt pode ser au-<br />

tocorrelacionado ou rt pode ser uma função não linear de rt−1 (se rt seguir um qualquer<br />

dos modelos discutidos anteriormente, como por exemplo, o modelo Markov-Switching ou o<br />

Limiar Autoregressivo, a equação (11.1) é violada). As regras de compra e venda baseadas<br />

na “análise técnica” baseiam-se também em relações não lineares entre os preços correntes<br />

e os seus valores passados, ou sejam, supõem que a igualdade (11.1) é violada.<br />

Certos autores formalizam o modelo de mercado eficiente estabelecendo que o preço ou<br />

o logaritmo do preço é um passeio aleatório 1 ,<br />

log Pt = log Pt−1 + ut<br />

sendo {ut} um processo ruído branco ou, em termos mais gerais, uma diferença de martin-<br />

gala. Esta formalização implica (11.1) e ainda que log Pt é uma martingala,<br />

E (log Pt| Ft−1) = log Pt−1.<br />

1 A rigor é um impossibilidade o preço ser um passeio aleatório,<br />

Pt = Pt−1 + ut<br />

uma vez que Pt, neste modelo, é não limitado em probabilidade. Isto significa que pode assumir valores<br />

negativos com probabilidade um quando t tende para ∞. De facto, prova-se que Pt visita os estados −∞ e<br />

+∞ infinitas vezes quando t → ∞. Como os preços não podem ser negativos, por definição, o preço não pode<br />

ser um passeio aleatório.<br />

393


Esta formalização é contra intuitiva pois assume que o valor esperado do retorno é zero<br />

(E (rt) = 0) e, portanto, que o prémio de risco é negativo. Todavia, se o retorno for con-<br />

venientemente ajustado ao risco, a propriedade de martingala deve verificar-se (vejam-se as<br />

referências em Campbell et al., 1997, pág. 31).<br />

Um modelo mais natural e compatível com (11.1) é o modelo de passeio aleatório com<br />

deriva (positiva),<br />

log Pt = c + log Pt−1 + ut, c > 0.<br />

Considerando rt = log Pt −log Pt−1, o modelo de passeio aleatório com deriva é equivalente<br />

a rt = c + ut e, portanto, E (rr| Ft−1) = E (rt) = c.<br />

11.2.1 Testes de Autocorrelação<br />

Analise-se o exemplo seguinte.<br />

Exemplo 11.2.1 Suponha-se rt = c + φrt−1 + ut, |φ| < 1, onde ut é um ruído branco.<br />

Então<br />

E (rt) = c<br />

1 − φ , E (rt| Ft−1) = c + φrt−1<br />

e a equação (11.1) é violada. Note-se também que r é autocorrelacionado.<br />

Um teste à eficiência fraca dos mercados consiste, por exemplo, em ensaiar H0: ρ 1 =<br />

... = ρ m = 0 através da estatística<br />

Q = n (n + 2)<br />

m<br />

k=1<br />

1<br />

n − k ˆρ2<br />

k<br />

d<br />

−→ χ 2 (m)<br />

A rejeição de H0 pode sugerir ineficiência de mercado, mas não a implica necessariamente.<br />

Com efeito, pode suceder que a rejeição de H0 se faça com coeficientes de autocorrelação<br />

demasiadamente baixos para oferecerem qualquer possibilidade de ganhos anormais, depois<br />

de deduzidos os custos transacção. Seria necessário investigar se a estrutura de autocorre-<br />

lação detectada implicaria uma rendibilidade superior a um portfolio de referência. Por outro<br />

lado, a não rejeição de H0 não implica aceitação da eficiência da forma fraca porque pode<br />

suceder que E (rt| Ft−1) seja uma função não linear de Ft−1 com fraca dependência linear.<br />

394


11.2.2 Regras de Compra e Venda e a Análise Técnica<br />

Uma forma popular entre traders and financial professionals de definir regras de compra e<br />

venda assenta na chamada “análise técnica”. A análise técnica baseia-se num conjunto de<br />

indicadores estatísticos gerados pelo mercado, tais como preços e volume, visando estabele-<br />

cer regras de compra e venda de activos cotados em bolsa 2 . A generalidade dos indicadores<br />

procura detectar tendências de subida ou descida das cotações. Analisam-se três regras de<br />

compra e venda (provavelmente as mais utilizadas e conhecidas, mas existem muitas out-<br />

ras regras) e discutem-se procedimentos econométricos destinados a aferir a qualidade das<br />

regras. A previsibilidade associada às regras de compra e venda não significa necessaria-<br />

mente ineficiência de mercado. Para argumentar que um mercado é ineficiente é necessário<br />

demonstrar que a regra de investimento seleccionada é superior a um porfolio de referência.<br />

Regra Média Móvel<br />

Seja<br />

Mt (k) = Pt + Pt−1 + ... + Pt−k+1<br />

k<br />

uma média móvel (MM) de ordem k da variável P, no momento t. A estatística Mt (k)<br />

fornece uma medida de tendência local de P. Quanto maior for k mais informação atrasada<br />

a média móvel contém e, também, mais alisada é a tendência. Pelo contrário, se k é baixo, a<br />

estatística Mt (k) fornece apenas a tendência recente de P. Defina-se assim a MM de curto<br />

prazo, Mt (c) , onde c é uma valor “baixo” e a MM de longo prazo, Mt (l) onde l é um valor<br />

“alto”. Tipicamente, para dados diários, c e l são escolhido nos intervalos, 1 ≤ c ≤ 5 e<br />

50 ≤ l ≤ 250. Do confronto entre a MM de curto e longo prazo argumenta-se que é possível<br />

projectar uma tendência futura de P. Mais concretamente, se Mt (c) > Mt (l) , os preços<br />

mais recentes estão mais altos do que os preços mais antigos. Isto sugere que os preços<br />

seguem uma tendência positiva. A regra prescreve uma compra para o período t + 1. Se as<br />

duas médias são aproximadamente iguais, a tendência futura sobre os preços não é clara, e<br />

neste caso não há lugar a compra ou venda. Esta regra pode ser melhorada, estabelecendo um<br />

sinal de compra ou venda apenas quando a diferença entre Mt (c) e Mt (l) for significativa,<br />

digamos acima de um certo limiar B (bandwidth). Assim, as regras de compra e venda para<br />

2 A abordagem fundamental analysis, ao contrário, estabele regras de compra e venda com base em factores<br />

financeiros e económicos. Por exemplo, analisam-se variáveis financeiras (treasury bill rates, bonds returns,<br />

dividend yield (dividendo por acção/cotação), price-earning ratios (cotação/lucro), etc.) ou macroeconómicas<br />

(produto, inflação, etc.).<br />

395


2380<br />

2280<br />

2180<br />

2080<br />

1980<br />

1880<br />

NASDAQ composite<br />

1780<br />

Jan­05 Mar­05 May­05 Jul­05 Sep­05 Nov­05 Jan­06<br />

comprar = 1, vender = 0<br />

1<br />

0.9<br />

0.8<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

Jan­05 Mar­05 May­05 Jul­05 Sep­05 Nov­05 Jan­06<br />

P<br />

MM curta<br />

MM longa<br />

Figura 11-1: Regra Média Móvel - Aplicação ao NASDAQ composite Jan-05 a Mar-06<br />

o dia t + 1, passariam a ser: comprar se Mt (c) > Mt (l) + B; vender se Mt (c) < Mt (l) − B<br />

e não transaccionar se |Mt (c) − Mt (l)| ≤ B.<br />

Na figura 11-1 ilustra-se a regra média móvel ao NASDAQ composite (Jan-05 a Mar-<br />

06). Fixou-se c = 10 e l = 50. Em princípio deveriamos escolher um valor de c entre 1 e<br />

5; todavia, a escolha c = 10 permite identificar melhor graficamente a média móvel Mt (10)<br />

(com c ≤ 5 a série Mt (c) praticamente não se distingue, graficamente, de P ).<br />

Regra Canal<br />

À semelhança da regra média móvel, também esta regra se baseia numa hipótese sobre a<br />

evolução futura da tendência dos preços. Antevê-se uma subida ou descida dos preços com<br />

base na comparação entre o valor actual do preço Pt e o valor mínimo ou máximo atingido<br />

pelos preços nos últimos L dias. Sejam,<br />

mt−1 = min (Pt−1, Pt−2, ..., Pt−L) ,<br />

Mt−1 = max (Pt−1, Pt−2, ..., Pt−L)<br />

respectivamente os valores mínimo e máximo atingidos pelos preços nos últimos L dias. A<br />

ideia é a seguinte: se no dia t houve uma indicação de compra e Pt é significativamente<br />

396


t<br />

t + 1<br />

Comprar Vender Neutro<br />

Comprar Pt > (1 + B) mt−1 Pt < (1 − B) mt−1 outros casos<br />

Vender Pt > (1 + B) Mt−1 Pt < (1 − B) Mt−1 outros casos<br />

Neutro Pt > (1 + B) Mt−1 Pt < (1 − B) mt−1 outros casos<br />

Tabela 11.1: Regras de Compra e Venda Baseadas no procedimento Canal<br />

2380<br />

2280<br />

2180<br />

2080<br />

1980<br />

1880<br />

NASDAQ composite<br />

1780<br />

Jan­05 Mar­05 May­05 Jul­05 Sep­05 Nov­05 Jan­06<br />

comprar = 1, vender = 0<br />

1<br />

0.9<br />

0.8<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

Jan­05 Mar­05 May­05 Jul­05 Sep­05 Nov­05 Jan­06<br />

Figura 11-2: Regra Canal - Aplicação ao NASDAQ composite Jan-05 a Mar-06<br />

superior a mt−1 então antevê-se uma tendência de crescimento dos preços e a indicação<br />

deve ser de compra; de igual forma, se no dia t houve uma indicação de venda e Pt é sig-<br />

nificativamente inferior a Mt−1 então antevê-se uma tendência de queda dos preços e a in-<br />

dicação deve ser de venda. Diz-se que Pt é “significativamente” superior (inferior) a Mt−1<br />

se Pt > (1 + B) Mt−1 (respectivamente Pt < (1 + B) Mt−1) e B é um parâmetro positivo<br />

(bandwidth), calibrado com base na experiência passada. Formalmente, as regras canal de<br />

compra e venda estão apresentadas na tabela 11.1.<br />

Na figura 11-2 ilustra-se a regra canal ao NASDAQ composite (Jan-05 a Mar-06). Fixou-<br />

se L = 50 e B = 0.<br />

397


Regra Modelo ARMA<br />

t<br />

t + 1<br />

Comprar Vender Neutro<br />

Comprar<br />

Vender<br />

Neutro<br />

µ t+1,t > 0<br />

µ t+1,t > B<br />

µ t+1,t > B<br />

µ t+1,t < −B<br />

µ t+1,t < 0<br />

µ t+1,t < −B<br />

outros casos<br />

outros casos<br />

outros casos<br />

Tabela 11.2: Regras de Compra e Venda Baseadas num ARMA<br />

Seja µ t+1,t a previsão do retorno para o momento t + 1 dado Ft, baseado num certo modelo<br />

ARMA. Na tabela 11.2 definem-se as regras de compra e venda. A posição (1,1) na tabela<br />

11.2, estabelece o seguinte: se no período t houve uma indicação de compra e µ t+1,t > 0<br />

então antecipa-se uma tendência de subida dos preços e a indicação é de compra para o<br />

período t + 1 . A posição (2,1) estabelece o seguinte: se no período t houve uma indicação<br />

de venda e µ t+1,t > B então a indicação é de compra para o período t+1. O período t+1 é de<br />

compra apenas se a previsão do retorno for suficientemente alta, digamos, acima de B > 0.<br />

Se µ t+1,t > 0 mas µ t+1,t < B entende-se que não existe indicação suficientemente clara<br />

de compra dado que no período anterior o dia foi de venda e, nestas circunstâncias, o dia é<br />

considerado neutro, isto é, não há lugar a venda ou compra. As demais células interpretam-se<br />

de forma similar.<br />

O parâmetro B pode ser estimado com base na informação passada: selecciona-se o valor<br />

que maximiza o lucro.<br />

Medidas de Previsibilidade<br />

Embora as duas primeiras regras atrás apresentadas envolvam preços, as medidas de pre-<br />

visibilidade, por exigirem a aplicação do teorema do limite central e a lei dos grandes<br />

números, são construídas a partir dos retornos, dado que estes são (em princípio) proces-<br />

sos estacionários.<br />

Considere-se um certa regra de compra e venda e defina-se, C o conjunto dos índices t<br />

onde há um sinal de compra para o período seguinte, t+1, e V o conjunto dos índices t onde<br />

há um sinal de venda para o período seguinte, t + 1. Por exemplo, se nos dias 3, 7 e 9 há<br />

sinais de compra para os respectivos períodos seguintes, e nos dias 6 e 11 há sinais de venda<br />

para os períodos seguintes então, C = {3, 7, 9} e V = {6, 11} . Seja nC o cardinal de C, nV<br />

398


o cardinal de V (no exemplo dado nC = 3 e nV = 2),<br />

¯rC = 1<br />

nC<br />

<br />

t∈C<br />

rt+1<br />

a média empírica dos retornos em que houve um sinal de compra e<br />

¯rV = 1<br />

nV<br />

<br />

t∈V<br />

rt+1<br />

a média empírica dos retornos em que houve um sinal de venda.<br />

Se a regra de compra e venda é informativa então<br />

E (rt+1| t ∈ C) = E (rt+1| t ∈ V )<br />

i.e., o valor esperado dos retornos depende da informação de compra ou venda e, por isso, os<br />

dois valores esperados são diferentes. Se, pelo contrário, E (rt+1| t ∈ C) = E (rt+1| t ∈ V )<br />

então o comportamento dos retornos no período t + 1 não reflecte a expectativa de subida ou<br />

descida dos preços, dada pela regra de compra e venda.<br />

Numa regra informativa devemos esperar E (rt+1| t ∈ C) > E (rt+1| t ∈ V ) , i.e., o sinal<br />

de compra (venda) está associado a uma expectativa de subida (descida) sustentada dos<br />

preços.<br />

Temos várias formas de testar se uma regra de compra e venda é informativa. Uma<br />

possibilidade consiste em realizar o teste diferença de média. Admitindo que os retornos são<br />

i.i.d., tem-se que, sob a hipótese nula, H0: E (rt+1| t ∈ C) = E (rt+1| t ∈ V ) a estatística<br />

tem distribuição assimptótica N (0, 1) .<br />

z = ¯rC − ¯rV<br />

<br />

2 ˆσ C<br />

nC + ˆσ2 V<br />

nV<br />

(11.2)<br />

Um teste preferível que não exige independência dos retornos e pode acomodar autocor-<br />

relação e heterocedasticidade dos erros consiste na análise da significância do parâmetro β 1<br />

na regressão<br />

rt = β 0 + β 1It−1,C + β 2It−1,N + ut<br />

(11.3)<br />

(com erros padrão robustos) onde It,C e It,N são variáveis dummies; It,C assume o valor 1<br />

quando no período t houve uma indicação de compra e It,N que assume o valor 1 quando no<br />

399


período t houve uma indicação neutra. O chamado “grupo base” consiste na “indicação de<br />

venda”. Da equação (11.3) tem-se<br />

E (rt+1| t ∈ C) = β 0 + β 1, E (rt+1| t ∈ V ) = β 0<br />

e, portanto, se β 1 = 0 então E (rt+1| t ∈ C) = E (rt+1| t ∈ V ) . Pelo contrário, se β 1 > 0<br />

então E (rt+1| t ∈ C) > E (rt+1| t ∈ V ) . Deve-se então realizar o ensaio H0 : β 1 = 0 vs.<br />

H1 : β > 0.<br />

11.3 Teste à Eficiência Semi-Forte de Mercado<br />

Analisa-se se é possível obter rendibilidades anormais de forma persistente utilizando uma<br />

estratégia de investimento baseada nos preços passados e na informação pública disponível.<br />

Seja It = Ft ∪F X t onde F X t é o conjunto de toda a informação pública disponível, como<br />

por exemplo, balanços, relatórios da empresa, notícias divulgados pela empresa, etc. Se o<br />

mercado é eficiente no sentido semi-forte então é indiferente usar ou não usar a informação<br />

disponível It−1 para prever rt e, desta forma tem-se<br />

Pelo contrário, se<br />

E (rt| It−1) = E (rt)<br />

E (rt| It−1) = E (rt)<br />

então, a informação disponível It é relevante para prever os retornos futuros. Nestas circun-<br />

stâncias, existe alguma informação sobre a “tendência provável” de rt, e será possível, em<br />

princípio, obter rentabilidades anormais, usando a informação disponível It.<br />

Existem inúmeros procedimentos e conjuntos de informação It usados para testar a efi-<br />

ciência (semi-forte) de mercado. A literatura tem estudado (entre muitos outros) os seguintes<br />

tópicos:<br />

• Efeito do tamanho da empresa. A questão é: apresentarão as empresas pequenas, em<br />

termos da sua capitalização de mercado, rendibilidades médias superiores às empresas<br />

grandes, com nível de risco semelhante?<br />

• Reacção do mercado à chegada de informação. Este tópico é importante na análise da<br />

eficiência e é analisado em detalhe na secção 11.3.1.<br />

400


• Valor de mercado versus valor contabilístico. Entende-se que um valor de mercado<br />

baixo face ao valor contabilístico pode indicar, em certas circunstâncias, que as acções<br />

estão subavaliadas.<br />

• Rácio preço/lucro ou price-earnings ratio (P/E). Valores baixos significam que as<br />

acções da empresa em análise são transaccionados a um preço relativamente baixo<br />

face ao valor dos lucros e, portanto, a cotação da empresa poderá estar “barata”;<br />

• Impacto de outras variáveis financeiras como por exemplo, taxas de juro de obrigações<br />

de tesouro, dividendos por acção (dividend yield), etc.<br />

• Impacto de variáveis económicas, como por exemplo, produto, inflação, etc.<br />

• Impacto de outras “anomalias” mercado, como por exemplo, efeito dos dias da semana,<br />

efeito de fim de semana, fim de ano, etc. (efeitos de calendário - algumas destes tópicos<br />

foram já abordados na secção 3.1.6).<br />

Se o objectivo é analisar a eficiência do mercado (e, de certa forma a previsibilidade dos<br />

retornos) com base na variável x (e.g. taxa de juro) a variável x deverá entrar no modelo de<br />

regressão com um ou mais desfasamentos. Só assim é possível testar a previsibilidade de r.<br />

O modelo seria assim do tipo<br />

rt = c + βxt−1 + ut.<br />

Pode até suceder que o modelo rt = c + βxt + ut (com xt e não com xt−1) produza um<br />

ajustamento superior; mas neste caso o modelo não pode testar a previsibilidade de r com<br />

base em x (note-se de passagem que este último modelo é o CAPM se xt é a rendibilidade<br />

de mercado). Para se obterem rendibilidades anormais com base num modelo de previsão<br />

é necessário saber, com alguma antecipação, a tendência futura dos preços (e daí x entrar<br />

desfasado no modelo).<br />

11.3.1 Reacção do Mercado à Chegada de Informação<br />

Se o mercado é totalmente eficiente os activos respondem imediatamente à chegada de in-<br />

formação relevante ao mercado. A informação relevante poderá ser informação específica<br />

sobre a empresa, como por exemplo, o anúncio de lucros ou dividendos, o anúncio de fusões<br />

e aquisições, etc. Poderá também ser o anúncio de medidas de política económica ou outros<br />

eventos que tenham impacto sobre a rendibilidades dos activos financeiros.<br />

401


A questão é, portanto, óbvia: trata-se de identificar as informações similares relevantes<br />

e verificar se na vizinhança da data da divulgação da notícia as rendibilidades apresentaram<br />

um comportamento “anormal”.<br />

Para simplificar divida-se o estudo do impacto da chegada da informação sobre as rendibil-<br />

idades em duas áreas: A) impacto de notícias similares sobre um conjunto de empresas e B)<br />

impacto de notícias similares sobre uma empresa específica. No caso A) começa-se por<br />

recolher uma amostra de N empresas que estiveram expostas a anúncios não antecipados e<br />

observam-se as rendibilidades anormais na vizinhança das datas dos anúncios. A rendibili-<br />

dade anormal, ra, do activo i no período t é<br />

rat,i = rt,i − rendibilidade esperada do activo i no momento t.<br />

sendo rt,i o retorno do activo i no momento t. Como avaliar a rendibilidade esperada do<br />

activo i no momento t? A abordagem habitual consiste em tomar um modelo de equilíbrio<br />

como o CAPM ou a APT. Tomando o CAPM vem<br />

<br />

rat,i = rt,i − ˆαi + ˆ <br />

βirm,t onde rm,t é a rendibilidade do mercado no momento t. Sejam<br />

rat =<br />

N i=1 rat,i<br />

, s<br />

N<br />

2 N t =<br />

i=1 (rat,i − rat) 2<br />

,<br />

N − 1<br />

respectivamente, a média e a variância empírica seccional das rendibilidades anormais das<br />

empresas na data t. Estas estatísticas podem ser calculadas para qualquer t, mas tem sobre-<br />

tudo interesse analisar rat e s 2 t para t numa vizinhança do anúncio. Convencionando que o<br />

anúncio ocorre na data 0 e fixando uma janela temporal de d períodos para antes e depois do<br />

anúncio, rat e s 2 t podem ser calculadas para t = −d, ..., −1, 0, 1, ...d.<br />

Suponha-se que é divulgada uma notícia “boa”, como por exemplo, um anúncio de div-<br />

idendos acima do esperado. Se as rendibilidades anormais se concentram em t = 0 não<br />

podemos rejeitar a hipótese de o mercado ser eficiente. Pelo contrário, se existirem rendibil-<br />

idades anormais apenas para t > 0 poderão existir indícios de ineficiência, sobretudo se t é<br />

medido em dias. Em geral é preferível usarem-se dados intra-diários, por exemplo, períodos<br />

de 5, 10 ou 15 minutos.<br />

É possível aprofundar a análise construindo uma sucessão {rat} para todas as obser-<br />

402


vações disponíveis (e não apenas na vizinhança da data do anúncio). Com este procedimento<br />

é possível comparar rat nos períodos vizinhos e não vizinhos do anúncio, por exemplo,<br />

analisando a significância de β 2 na regressão,<br />

rat = β 0 + β 1I0,t + β 2I1,t + ut.<br />

onde I0,t e I1,t são variáveis dummies. I0,t assume o valor 1 quando t corresponde à data de<br />

anúncio e I1,t assume o valor 1 quando t corresponde a uma data imediatamente a seguir à<br />

data de anúncio . Se β 2 é significante então é possível que o mercado seja ineficiente (ou não<br />

totalmente eficiente). Se, pelo contrário, apenas β 1 é significante então o impacto do anúncio<br />

concentra-se no período do anúncio e não há razões para rejeitar a hipótese de eficiência. A<br />

análise poderá ser mais fina, adicionando-se mais variáveis dummies.<br />

Se o objectivo é avaliar o impacto de notícias similares sobre uma empresa específica -<br />

caso B) - o procedimento mais simples consiste em formular a equação de regressão<br />

rt = β 0 + β 1I0,t + β 2I1,t + β 3rm,t + ut. (11.4)<br />

A introdução da variável rm,t é importante porque permite isolar o efeito do anúncio do<br />

efeito de mercado. Com efeito, suponha-se que o anúncio tem impacto sobre a rendibilidade<br />

do mercado. Como a rendibilidade do mercado está correlacionado com a rendibilidade da<br />

acção em análise, o anúncio acaba por influenciar a rendibilidade da acção através do com-<br />

portamento global do mercado. Um modelo de regressão sem a variável rm,t não permite<br />

isolar o efeito do anúncio sobre a empresa. Por exemplo, neste modelo mais reduzido, se<br />

o parâmetro β 2 vem diferente de zero não se sabe se β 2 = 0 se deve ao efeito retardado<br />

do anúncio sobre a empresa ou ao efeito do mercado sobre a empresa induzido pelo anún-<br />

cio. Pode haver outra razão para introduzir rm,t. Suponha-se que os anúncios coincidem<br />

com movimentos de alta do mercado. Se rm,t não está no modelo os anúncios não podem<br />

distinguir-se dos movimentos de alta.<br />

403


Página em branco<br />

404


Capítulo 12<br />

Selecção de Portfolios<br />

(Última actualização: 2/2010)<br />

Vai analisar-se o problema da determinação dos pesos óptimos de uma carteira consti-<br />

tuída por m activos com risco e um activo sem risco por parte de um investidor individual.<br />

Os resultados principais devem-se a Markowitz (prémio Nobel 1990), James Tobin (prémio<br />

Nobel 1981) e William Sharpe (prémio Nobel 1990). O objectivo deste capítulo consiste em<br />

apresentar a teoria básica e ilustrar o problema da determinação dos pesos óptimos a partir<br />

de momentos marginais e condicionais da distribuição dos retornos.<br />

Os modelos de heterocedastiocidade multivariada são particularmente úteis quando os<br />

pesos óptimos se baseiam em momentos condicionais.<br />

12.1 Portfolio Baseado em Momentos Marginais<br />

Assumem-se as seguintes hipóteses:<br />

1. Os retornos seguem uma distribuição marginal normal multivariada;<br />

2. As correlações entre os retornos são fixas ao longo do tempo;<br />

3. O investidor é racional, tem aversão ao risco, usa toda a informação disponível e<br />

procura o máximo lucro, para um determinado nível de risco;<br />

4. Não existem custos de transacção;<br />

5. O investidor é price taker, isto é, não tem capacidade de influenciar os preços;<br />

6. O investidor pode emprestar e pedir emprestado sem restrições;<br />

405


7. Todos os activos podem ser convenientemente fraccionados.<br />

12.1.1 Todos os Activos Envolvem Risco<br />

Para além das hipóteses anteriores suponha-se que não existe o activo sem risco, i.e., todos<br />

os activos envolvem risco.<br />

Estabeleça-se a seguinte notação:<br />

• vector dos retornos: rt = (R1t, ..., Rmt) ′ ;<br />

• vector do valor esperado dos retornos: µ = (E (R1t) , ..., E (Rmt)) ′ ;<br />

• matriz das variâncias-covariâncias dos retornos: Var (rt) = H;<br />

• vector dos pesos da carteira: ω = (ω1, ..., ωm) ′ ;<br />

• retorno do portfolio: Rpt = m<br />

i=1 ωiRit = ω ′ rt<br />

• valor esperado do portfolio: E (Rpt) = E (ω ′ rt) = ω ′ µ<br />

• Variância do portfolio σ 2 p = Var (Rpt) = Var (ω ′ rt) = ω ′ Var (rt) ω = ω ′ Hω.<br />

Naturalmente que m<br />

i=1 ωi = 1 ⇔ ω ′ 1 = 1 onde 1 (a negrito) representa um vector-<br />

coluna de 1’s. Para simplificar, assume-se que todos os activos envolvem risco e que alguns<br />

pesos ωi (mas não todos) podem ser negativos. Na teoria financeira um peso pode ser nega-<br />

tivo quando há lugar a uma venda a descoberto ou short selling 1 . Esta hipótese simplifica o<br />

problema de optimização.<br />

Em condições normais, qualquer investidor procura dois objectivos antagónicos: max-<br />

imizar o lucro (ou valor do retorno) e minimizar o risco. Os objectivos são contraditórios<br />

porque, em geral, os activos com maior (menor) retorno (em média) são os que possuem<br />

maior (menor) variabilidade. Para conciliar estes objectivos, pode-se, por exemplo, (i) fixar<br />

um valor para o retorno esperado do portfolio e, para esse valor, procurar os activos com a<br />

menor variabilidade possível; ou (ii) fixar um valor para o risco do portfolio (variância) e,<br />

depois, procurar os activos com o maior retorno esperado possível.<br />

1 Venda a descoberto ocorre quando se vende um activo financeiro ou derivado que não se possui, esperando<br />

que o preço caia para depois comprá-lo e lucrar na transação. O mecanismo é o seguinte: o agente A pede<br />

(digamos) uma acção a B e promete-lhe todo o rendimento subjacente ao título. A vende imediatamente a<br />

acção a C; mais tarde, A compra no mercado a acção para a devolver a B. Se o preço da acção cair, esta<br />

operação é vantajosa para A.<br />

406


Suponha-se que se opta pelo procedimento (i). O problema de optimização é então<br />

⎧<br />

⎨<br />

⎩<br />

minωi<br />

Var (Rpt)<br />

s.a E (Rpt) = µ p e m<br />

i=1 ωi = 1<br />

Considere-se a função Lagrangeana,<br />

⎧<br />

⎨ minωi<br />

⇔<br />

⎩<br />

ω′ Hω<br />

s.a ω ′ µ = µ p e ω ′ 1 = 1<br />

L (ω) = ω ′ <br />

Hω + λ1 µp − ω ′ µ + λ2 (1 − ω ′ 1)<br />

(12.1)<br />

(λ1 e λ2 são os multiplicadores de Lagrange). Resolvendo o sistema, que se obtém a partir<br />

das condições de primeira ordem (∂L/∂ω = 0, ω ′ µ = µ p e ω ′ 1 = 1), e notando que L é<br />

uma função convexa 2 , obtém-se a solução do problema de optimização:<br />

onde<br />

ω ∗ = ω ∗ <br />

µ p = g+µph (12.2)<br />

g = β<br />

δ H−1 1− α<br />

δ H−1 µ, h = γ<br />

δ H−1 µ− α<br />

δ H−1 1,<br />

α = µ ′ H −1 1, β = µ ′ H −1 µ, γ = 1 ′ H −1 1, δ = βγ − α 2 ,<br />

1 = (1, 1, ..., 1) ′ .<br />

A expressão ω∗ <br />

µ p mostra que os pesos óptimos dependem de µp (fosse definido outro<br />

valor para µ p, e os pesos óptimos seriam outros).<br />

Resulta que a variância mínima associada ao retorno µ p é<br />

σ 2 ∗′ ∗<br />

p = Vp µp = ω Hω .<br />

O problema (ii) é equivalente ao problema (i) no seguinte sentido. Suponha-se que se<br />

<br />

fixa Vp µp como restrição e se procura maximizar o retorno, i.e.<br />

⎧<br />

⎨<br />

⎩<br />

maxωi E (Rpt)<br />

s.a Var (Rpt) = Vp<br />

m µp e i=1 ωi = 1.<br />

2 ′ A função ω Hω é estritamente convexa se H for uma matriz definida positiva (hipótese pacífica). As<br />

funções λ1 µp − ω ′ µ e λ2 (1 − ω ′ 1) são convexas por serem lineares (funções lineares são, por definição,<br />

côncavas e convexas).<br />

407


Então, pode-se provar, a solução deste problema optimização é precisamente µ p. Desta forma<br />

basta estudar o problema formulado na equação (12.1).<br />

Na prática os valores esperados µ e H são desconhecidos. É necessário estimá-los a<br />

partir dos valores observados. Supondo que {rt} é um processo estacionário fracamente<br />

dependente, µ e H podem ser estimados usando os seguintes estimadores consistentes:<br />

⎛<br />

⎜<br />

ˆµ = ⎜<br />

⎝<br />

¯r1<br />

.<br />

¯rm<br />

⎞<br />

⎟<br />

⎠ ,<br />

onde ˆ hij é o elemento (i, j) da matriz ˆH, dado por<br />

ˆhij = 1<br />

n<br />

<br />

ˆH = ˆhij<br />

i,j=1,..,m<br />

n<br />

(rit − ¯ri) (rjt − ¯rj) .<br />

t=1<br />

Exemplo 12.1.1 Considere-se um portfolio constituído pelas acções A1, A2 e A3. Vai ser<br />

tomada uma decisão de investimento no valor de 1 milhão de Euros. A questão é: quanto<br />

comprar de cada um desses activos? Com base em observações diárias suponha-se que se<br />

obtém 3 :<br />

⎛ ⎞<br />

5.22<br />

⎜ ⎟<br />

⎜ ⎟<br />

ˆµ = ⎜ 6.05 ⎟<br />

⎝ ⎠<br />

5.98<br />

⎛<br />

⎞<br />

1.549<br />

⎜<br />

ˆH<br />

⎜<br />

= ⎜ 0.9534<br />

⎝<br />

0.9534<br />

2.093<br />

0.465<br />

⎟<br />

1.0416 ⎟<br />

⎠<br />

0.465 1.0416 1.265<br />

.<br />

As rendibilidades estão anualizadas e em percentagem. Suponha-se que se pretende obter<br />

um retorno esperado do portfolio de µ p = 5.85. Usando a expressão (12.2) obtém-se<br />

ˆω ∗ ⎛ ⎞<br />

0.176<br />

⎜ ⎟<br />

(5.85) = ˆg+µ ˆh<br />

⎜ ⎟<br />

p = ⎜ 0.104 ⎟<br />

⎝ ⎠<br />

0.720<br />

.<br />

3 Estimativas baseadas nos retornos dos índices SP500, DowJones e PSI20, no período 04/01/1993-<br />

04/09/2009.<br />

408


Desta forma, a variância mínima do portfolio associado à rendibilidade 5.85 é<br />

Vpt (5.85) = ˆω ∗′ Hˆω ∗<br />

⎛<br />

⎞ ⎛ ⎞<br />

=<br />

<br />

0.176 0.104<br />

1.549<br />

⎜<br />

0.72 ⎜ 0.9534<br />

⎝<br />

0.9534<br />

2.093<br />

0.465 0.176<br />

⎟ ⎜ ⎟<br />

⎟ ⎜ ⎟<br />

1.0416 ⎟ ⎜ 0.104 ⎟ = 1.03.<br />

⎠ ⎝ ⎠<br />

0.465 1.0416 1.265 0.720<br />

O vector de pesos óptimo associado à combinação √ <br />

σp, µ p = 1.03, 5.85 diz-nos que a<br />

composição do portfolio deve ser de 17.6% de A1, 10.4% de A2 e 72% de A3.<br />

No exemplo anterior o investidor pode estar interessado em analisar outras combinações<br />

de retorno versus risco (mínimo). Desta forma, podemos fixar outros valores para µ p e, as-<br />

sim, obter as correspondentes variâncias mínimas do portfolio. No exemplo anterior, µ p pode<br />

variar entre 5.22 e 6.05. Faça-se uma grelha de valores para µ p, por exemplo, escrevam-se<br />

100 valores equidistantes para µ p no intervalo [5.22; 6.05] e obtenham-se as correspondentes<br />

variâncias mínimas:<br />

µ p<br />

.<br />

<br />

Vp µp<br />

5.85 1.03<br />

.<br />

6.05 1.32<br />

<br />

O gráfico definido pelos pares ordenados<br />

Vp<br />

.<br />

.<br />

<br />

µp , µp onde µ p é maior ou igual ao re-<br />

torno associado à variância mínima de todos os portfolios designa-se por fronteira eficiente.<br />

<br />

Na figura 12-1 traçam-se todos os pontos Vp µp , µp . O ponto A representa o par<br />

Vp <br />

ordenado (µ min), µ min onde Vp (µ min) é o valor da variância mínima de todos os<br />

portfolios e µ min é o retorno esperado associado (também mínimo). A fronteira eficiente<br />

é dada pelo segmento AB. O ponto C não faz parte da fronteira eficiente, pois existe um<br />

ponto D com igual variância mas retorno esperado superior. Assim, só os pontos sobre a<br />

curva AB são relevantes para o investidor e, por isso, no gráfico definido pelos pares orde-<br />

<br />

nados Vp µp , µp só interessam os pontos onde µ p é maior ou igual ao valor da orde-<br />

<br />

nada do ponto A. O investidor deve agora decidir qual o par µp , µp sobre a curva<br />

AB que mais lhe interessa, tendo em conta a sua maior ou menor aversão ao risco. Se for<br />

<br />

averso ao risco tenderá a escolher um par µp , µp mais próximo do ponto A; se tiver<br />

Vp<br />

maior apetência pelo risco tenderá a escolher uma solução mais próxima do ponto B. Contin-<br />

409<br />

Vp


Figura 12-1: Fronteira Eficiente: Curva AB<br />

uando o exemplo anterior, suponha-se que a combinação preferida do investidor é <br />

σp, µ p =<br />

√ ′<br />

1.03, 5.85 . Tendo em conta que o vector de pesos é ω = (0.176, 0.104, 0.72) , o inves-<br />

timento de 1 milhão de Euros seria então alocado da seguinte forma: 176000 Euros em A1,<br />

104000 em A2 e 720000 em A3.<br />

A fronteira eficiente dada pelo segmento AB é uma função não linear. Esta conclusão é<br />

imediata tendo em conta a representação paramétrica da função:<br />

<br />

Vp<br />

<br />

g+µph µp , µp =<br />

′ <br />

H g+µph <br />

, µ p =<br />

Se c0 = c1 = 0 a função seria linear.<br />

c0 + c1µ p + c2µ 2 p, µ p<br />

Como determinar analiticamente o valor da variância mínima de todos os portfolios efi-<br />

Vp <br />

cientes? Trata-se, afinal, de determinar as coordenadas do ponto A = (µ min), µ min<br />

da figura 12-1. Para o efeito resolve-se o problema de optimização livre<br />

cuja solução é<br />

<br />

dVp µp<br />

dµ p<br />

= d (ω∗′ Hω ∗ )<br />

dµ p<br />

µ min = − g′ Hh<br />

h ′ Hg .<br />

410<br />

= 0,<br />

<br />

.


Inserindo este valor em Vp () obtém-se<br />

Vp (µ min) = g ′ Hg− (g′ Hh) 2<br />

h ′ Hh<br />

Aplicando estas fórmula aos valores do exemplo anterior obtém-se µ min = 5.63 e Vp (µ min) =<br />

0.919.<br />

12.1.2 Modelo com Activo Sem Risco<br />

O porfolio inclui agora o activo sem risco (por exemplo, obrigações e os títulos do Tesouro 4 ).<br />

Tem rendibilidade certa µ f (e, por isso, tem variância e covariâncias nulas com os demais ac-<br />

tivos). A rendibilidade do portfolio é agora ω ′ µ+ (1 − ω ′ 1) µ f. O problema de optimização<br />

passa a ser ⎧ ⎨<br />

⎩<br />

minωi ω′ Hω<br />

s.a ω ′ µ+ (1 − ω ′ 1) µ f = µ p.<br />

Note-se que os pesos ω ′ 1, (1 − ω ′ 1) , somam um. A matriz H mantém-se naturalmente<br />

inalterada e, por isso, a função objectivo é a mesma. Apenas as restrições são modificadas.<br />

Pode-se provar que a solução é<br />

c <br />

µ p =<br />

ω ∗ <br />

µ p = c µp ¯ω,<br />

µ p − µ f<br />

µ−µf1 ′ H −1 µ−µ f1 , ¯ω = H−1 µ−µ f1 .<br />

Resulta que a variância mínima associada ao retorno µ p é<br />

∗′ ∗ ′ 2 ′<br />

Vp µp = ω Hω = c µp ¯ω Hc µp ¯ω =c µp ¯ω H¯ω.<br />

Nesta formulação a composição da carteira dos activos com risco é fixa, dado µ f, qual-<br />

quer que seja o valor µ p. Com efeito, ω∗ é proporcional a ¯ω e a constante de proporcionalidade<br />

é c ′<br />

µ p . Por exemplo, suponha-se que se tem dois activos com risco e ¯ω = (0.3, 0.6) .<br />

Então dado o valor de µ f, o número de acções do activo 2 é sempre o dobro do do activo 1,<br />

qualquer que seja o valor que queiramos para a rendibilidade do portfolio.<br />

A observação anterior sugere que o valor do portfolio pode ser dado como uma combi-<br />

4 Naturalmente, em condições normais, o estado não entra em falência. Não há portanto risco de incumprimento.<br />

Mas é preciso notar que as obrigações e os títulos do Tesouro têm o risco da taxa de juro (risco da taxa<br />

de juro subir e do preço dos títulos descer).<br />

411


nação linear de um portfolio constituído apenas por activos de risco e o activo sem risco.<br />

Este portfolio, constituído apenas por activos de risco, designa-se por tangency portfolio. Os<br />

pesos deste portfolio não poderão ser exactamente dados por ¯ω dado que os pesos ¯ω ′ is não<br />

somam um. Assim defina-se<br />

ωT =<br />

¯ω<br />

m<br />

i=1 ¯ωi<br />

= ¯ω<br />

¯ω ′ 1 .<br />

Note-se agora que a soma dos pesos do vector ωT somam um e ¯ω = ωT ¯ω ′ 1. Podemos assim<br />

escrever<br />

ω ∗ = c ′<br />

µ p ¯ω =c µp ¯ω 1ωT = aωT , a = c ′<br />

µ p ¯ω 1.<br />

O retorno do portfolio pode ser escrito como uma combinação linear entre o retorno do<br />

tangency portfolio, µ T e o retorno do activo sem risco, µ f:<br />

µ p = ω ∗′ µ+ (1 − ω ∗′ 1) µ f = aω ′ T µ + (1−a)µ f = aµ T + (1 − a) µ f.<br />

Por seu lado a variância do portfolio pode também ser escrita em função de ωT :<br />

∗′ ∗ ′<br />

Vp µp = ω Hω = aω T HaωT = a 2 ω ′ T HωT = a 2 σ 2 T<br />

e o desvio padrão do portfolio σp = aσT<br />

A fronteira eficiente é linear no espaço <br />

σp, µ p . Com efeito, usando algumas expressões<br />

já deduzidas, tem-se<br />

<br />

σp, µ p = aσT , aµ T + (1 − a) µ f .<br />

Esta representação paramétrica da fronteira eficiente permite deduzir<br />

σp = aσT ⇒ a = σp<br />

e, substituindo o valor de a em µ p = aµ T + (1 − a) µ f, resulta que a fronteira eficiente no<br />

espaço <br />

σp, µ p é dada pela recta (na forma reduzida)<br />

σT<br />

µ p = µ f + sσp, s = µ T − µ f<br />

.<br />

Na figura 12-2 a fronteira eficiente é representada pela recta bT, i.e. µ p = µ f + sσp. O<br />

declive da recta é s = (a − b) /c (na figura a representa µ T , b representa µ f e c representa<br />

σT . O valor s é designado por rácio de Sharpe.<br />

412<br />

σT


Figura 12-2: Fronteira Eficiente de um Portfolio com Activo Sem Risco (Recta)<br />

12.2 Portfolio Baseado em Momentos Condicionais<br />

O problema de optimização de um portfolio baseado nos dois primeiros momentos marginais<br />

da distribuição dos retornos implica que a decisão de investimento se mantém fixa ao longo<br />

do tempo, pois se o processo dos retornos é estacionário, como se admite na fase da esti-<br />

mação dos parâmetros, os momentos Var (Rpt) e E (Rpt) são constantes ao longo tempo e,<br />

por isso, a solução óptima é sempre a mesma, quaisquer que sejam as condições de mercado.<br />

Naturalmente, nenhum gestor de fundos segue esta estratégia de investimento, mesmo que<br />

as suas decisões se baseiem nos princípios do portfolio definido no ponto precedente. Na<br />

prática podem estimar ˆµ e ˆH usando médias móveis ou alisamentos exponenciais para de-<br />

sprezarem a informação antiga e actualizarem os parâmetros µ e H com informação mais<br />

recente. Desta forma os peso ωi podem variar ao longo do tempo, e as decisões de investi-<br />

mento podem ajustar-se de acordo com as condições de mercado. Mas a percepção de que<br />

as condições de mercado se alteram ao longo do tempo exige uma abordagem diferente.<br />

Uma decisão de investimento tomada no momento t−1, resulta da avaliação das condições<br />

de mercado e, em geral, da informação disponível no momento t − 1. Esta decisão tomada<br />

no período t − 1 pode naturalmente alterar-se no momento t, se as condições de mercado<br />

e a informação disponível em t se alterarem também. Desta forma, a selecção dos activos<br />

deve basear-se em momentos condicionais e não em momentos marginais. Recorde-se que<br />

as melhores previsões dos retornos e da volatilidade para o período t, dada toda a informação<br />

413


disponível até ao momento t − 1, são dadas pelos dois primeiros momentos condicionais. A<br />

determinação dos pesos óptimos usando momentos condicionais assenta na ideia de que o<br />

portfolio pode ajustar-se continuamente ao longo do tempo em função das condições de mer-<br />

cado. Esta abordagem tem ainda a vantagem de contornar as criticas que se fazem às duas<br />

primeiras hipóteses definidas na secção anterior (os retornos seguem uma distribuição mar-<br />

ginal normal multivariada, e as correlações entre os retornos são fixas ao longo do tempo).<br />

Como se sabe, no quadro de um modelo baseado em momentos condicionais variáveis, não<br />

só a distribuição marginal não é (em condições muito gerais) normal, como também as cor-<br />

relações (condicionais) podem ser variáveis ao longo do tempo.<br />

Na formulação que a seguir apresentaremos, a decisão de investimento é tomada no mo-<br />

mento t − 1, baseada numa suposição sobre o comportamento dos retornos esperados e do<br />

risco envolvido no momento t. Na verdade as perdas ou ganhos que eventualmente ocorram<br />

vão concretizar-se no momento t. É por esta razão que os momentos condicionais envolvem<br />

variáveis aleatórias no momento t, dada a informação disponível em t − 1.<br />

Estabeleça-se a seguinte notação:<br />

• vector do valor esperado condicional dos retornos: µ t = (E (R1t| Ft−1) , ..., E (Rmt| Ft−1)) ′ ;<br />

• matriz das variâncias-covariâncias condicionais dos retornos: Var (rt| Ft−1) = Ht;<br />

• vector dos pesos da carteira no momento t: ωt = (ω1t, ..., ωmt) ′ ;<br />

• retorno do portfolio: Rpt = m<br />

i=1 ωitRit = ω ′ trt<br />

• valor esperado condicional do portfolio: E (Rpt| Ft−1) = E (ω ′ trt| Ft−1) = ω ′ tµ t<br />

• Variância condicional do portfolio Vpt = Var (Rpt| Ft−1) = Var (ω ′ trt| Ft−1) =<br />

ω ′ t Var (rt| Ft−1) ωt = ω ′ tHtωt.<br />

Os principais resultados foram já obtidos nos pontos precedentes. Substituindo os mo-<br />

mentos marginais pelos momentos condicionais têm-se os seguintes resultados:<br />

• Pesos óptimos de um portfolio sem o activo sem risco, dado um determinado nível de<br />

retorno µ p,t:<br />

ω ∗ t = ω ∗ t<br />

<br />

µp,t = gt+µ p,tht<br />

414


onde<br />

gt = βt H<br />

δt<br />

−1<br />

t 1− αt<br />

H<br />

δt<br />

−1<br />

t µ, h t= γ t<br />

H<br />

δt<br />

−1<br />

t µ t− αt<br />

δt<br />

H −1<br />

t 1<br />

αt = µ ′ tH −1<br />

t 1, β t = µ ′ tH −1<br />

t µ t, γ t = 1 ′ tH −1<br />

t 1, δt = β tγ t − α 2 t ,<br />

1 = (1, 1, ..., 1) ′ .<br />

• Pesos óptimos de um portfolio com o activo sem risco, dado um determinado nível de<br />

retorno µ p,t:<br />

c <br />

µ p =<br />

ω ∗ <br />

µ p,t = c µp,t ¯ωt,<br />

µ p,t − µ f<br />

µt−µ f1 ′ H −1<br />

t<br />

µt−µ f1 , ¯ωt= H −1<br />

t<br />

• A fronteira eficiente no espaço <br />

σp, µ p com o activo sem risco é<br />

µ p,t = µ f + stσp,t, st = µ T,t − µ f<br />

σT,t<br />

.<br />

µt−µ f1 .<br />

Este rácio de Sharpe depende de t, pois, em última análise, depende de µ t e Ht.<br />

Se o horizonte do investimento fosse h períodos e admitíssemos que não haveria lugar a<br />

alterações do portfolio durante o período do investimento, os momentos condicionais rele-<br />

vantes passariam a ser<br />

E (rt+h| Ft) , Var (rt+h |Ft ) .<br />

Quando o horizonte de previsão é elevado, os momentos condicionais são, em condições<br />

ergódicas, aproximadamente iguais aos momentos marginais.<br />

Naturalmente os valores esperados condicionais µ t e Ht são desconhecidos. É necessário<br />

estimá-los, por exemplo, a partir de um modelo GARCH multivariado.<br />

415


Página em branco<br />

416


Capítulo 13<br />

Risco de Mercado e o Valor em Risco<br />

13.1 Introdução<br />

(Última actualização: 2/2011)<br />

Em resposta aos desastres financeiros ocorridos no passado recente, a gestão do risco sofreu<br />

uma revolução nos últimos anos. O valor em risco ou Value at Risk (VaR) iniciou essa<br />

revolução e tem ganho reconhecimento como medida fundamental na análise e na gestão do<br />

risco de mercado das instituições financeiras. Presentemente, muitas instituições reportam<br />

medidas de risco relacionadas com o VaR para o público em geral e, em certos casos, também<br />

para agências reguladoras. Por exemplo, os bancos comerciais estão sujeitos a requisitos<br />

mínimos de capital para cobrirem o seu risco de crédito e de mercado. O Acordo Basiléia II<br />

estabelece taxas de segurança baseadas em modelos VaR.<br />

A literatura financeira enumera vários tipos de risco, como por exemplo, risco de mer-<br />

cado, risco de crédito, risco de liquidez, risco operacional (associado ao risco de fraude,<br />

erros de transacção e de apreçamento, etc.) e risco sistémico (associado, por exemplo, a<br />

situações de incumprimento devido a reacções em cadeia). Neste capítulo aborda-se o risco<br />

de mercado, isto é, o risco associado às variações (inesperadas) de preços e taxas e algumas<br />

metodologias de mensuração desse risco.<br />

Para introduzir o VaR é instrutivo, em primeiro lugar, pensar-se em análise de cenários.<br />

Neste tipo de análise, formulam-se vários resultados possíveis de acordo com a informação<br />

disponível e, quando tal é possível, atribuem-se probabilidades aos diversos cenários. Em<br />

geral, dá-se especial atenção aos piores cenários pois são estes que maior impacto têm sobre<br />

o funcionamento normal da organização.<br />

417


Para avaliar os piores cenários, podemos começar por formular a questão: “Qual é a<br />

perda máxima que a organização pode sofrer num certo período de tempo?”. A resposta<br />

não é particularmente informativa, pois a perda máxima significa perder tudo (com prob-<br />

abilidade praticamente nula). Se reformularmos ligeiramente a questão, obtemos a me-<br />

dida VaR: “Quanto é que podemos perder com probabilidade α > 0 num certo período<br />

de tempo?”. Impõe-se que α seja não nulo mas razoavelmente pequeno com vista a avaliar<br />

os eventos que embora raros podem ocorrer e afectar o funcionamento normal da organi-<br />

zação. VaR é portanto a perda que pode ocorrer num lapso de tempo determinado, com<br />

certa probabilidade α, supondo que o portfolio não é gerido durante o período de análise.<br />

Em termos probabilísticos, o VaR é o quantil de ordem α (em módulo) 1 da distribuição<br />

teórica de ganhos e perdas. Para concretizar, seja ∆Vn+h := Vn+h − Vn a variação do<br />

valor do capital investido não gerido durante o horizonte de risco de h dias. Por exem-<br />

plo, considere-se a compra de 200,000 acções 2 de um título no período n , ao preço de<br />

Pn = 5 Euros. O investimento é de Vn = 5 × 200, 000 = 1, 000, 000 Euros. Suponha-se<br />

que no momento n + h o preço do título passa para Pn+h = 5.5 Euros. A variação do cap-<br />

ital é de ∆Vn+h = 1, 100, 000 − 1, 000, 000 = 100, 000. O retorno (em tempo discreto) é<br />

Rn+h = (Pn+h − Pn) /Pn = 0.1. É importante notar que o retorno pode também ser obtido<br />

através da expressão Rn+h = ∆Vn+h/Vn. 3 Pode supor-se que Vt é observado no período<br />

t = 1, 2, ..., n, mas não em n + 1, n + 2, ... Os valores que V vier a assumir no periodo<br />

n + 1, n + 2, ..., n + h dizem respeito ao perído de investimento e, portanto, Vn+h, é descon-<br />

hecido para h ≥ 1.<br />

que<br />

O VaR a 100α% baseado na distribuição marginal de ganhos e perdas é o valor VaR tal<br />

P (∆Vn+h < −V aR) = α.<br />

Por seu turno, o VaR a 100α% baseado na distribuição condicional é o valor VaR tal que<br />

P (∆Vn+h < −V aR| Fn) = α.<br />

1 O quantil de ordem α < 0.05 da distribuição de ganhos e perdas é um valor negativo. Para que o VaR<br />

represente efectivamente uma “perda”, considera-se esse quantil em valor absoluto.<br />

2 Seguimos a notação anglo-saxónica: a vírgula separa os milhares.<br />

3 Este facto é relevante, pelo seguinte. Como iremos ver mais à frente uma das abordagens possíveis ao VaR<br />

consiste em modelar parametricamente o processo {∆Vt} . Ora este processo é quase sempre não estacionário.<br />

Para confirmar este facto, veja-se a figura 6-9, no ponto 6.3.2, onde se exibe uma trajectória típica de ∆Vt.<br />

Desta forma, usando a relação Rn+h = ∆Vn+h/Vn, pode-se modelar ∆Vn+h via retornos, que é geralmente<br />

um processo estacionário.<br />

418


O VaR (condicional) é uma medida que depende explicitamente de n, h e α e, portanto,<br />

pode ser escrita como V aRn,n+h,α. A estimação do VaR envolve princípios e procedimentos<br />

até certo ponto similares com a da previsão de ∆Vn+h. Em ambos os casos, a lei de prob-<br />

abilidades relevante é a distribuição condicional de ∆Vn+h dado Fn, i.e., f (·| Fn) . Com<br />

efeito, o previsor óptimo para ∆Vn+h dado Fn (de acordo com o critério do EQM) corre-<br />

sponde ao primeiro momento da distribuição f (·| Fn), i.e., E (∆Vn+h| Fn) . Por seu turno,<br />

o V aRn,n+h,α é o quantil de ordem α da distribuição de f (·| Fn). Em ambos os casos, as<br />

quantidades de interesse são parâmetros da distribuição f (·| Fn) .<br />

Uma vantagem do VaR é a de poder agregar numa única medida diferentes tipos de risco.<br />

Pelo contrário, as medidas tradicionais de risco não são agregáveis. Revejam-se algumas<br />

medidas tradicionais de risco.<br />

O risco associado com uma obrigação do tesouro é o risco da taxa de juro e a medida<br />

tradicional deste risco é a duração (medida de volatilidade do preço da obrigação face a vari-<br />

ações da taxa de rendimento até à maturidade). O principal risco associado com obrigações<br />

emitidas por entidades particulares é o risco de incumprimento (default risk), o qual pode<br />

ser medido através de um sistema de rakings, disponibilizados em vários casos por agências<br />

de crédito. Para portfolios de acções o risco é normalmente avaliado através da volatilidade<br />

do portfolio, que é função das volatilidades individuais e das correlações entre os diferentes<br />

activos. O risco de taxa de câmbio tipicamente inclui spreads e volatilidades das taxas de<br />

câmbio. Os risco associados a swaps e opções também está sujeito a um tratamento especial.<br />

Em geral, as medidas tradicionais de risco não podem ser agregadas numa única medida<br />

(por exemplo, a duração de uma obrigação não pode ser comparada com a volatilidade de<br />

um portfolio). Pelo contrário, uma das grandes vantagens da metodologia VaR é a de poder<br />

agregar diferentes tipos de risco numa única intuitiva medida de risco.<br />

tivo.<br />

Para simplificar admite-se inicialmente que o portfolio é constituído por apenas um ac-<br />

13.2 Abordagem Não Paramétrica<br />

Seja<br />

∆Vn+1 = ∆Vn+1<br />

Vn = Rn+1Vn<br />

Vn<br />

419


variação do capital ao fim de um período. Por definição tem-se<br />

ou, equivalentemente,<br />

P (∆Vn+1 < −V aRn,n+1,α| Fn) = α<br />

P (Rn+1Vn < −V aRn,n+1,α| Fn) = α,<br />

<br />

<br />

V aRn,n+1,α <br />

P Rn+1 < − <br />

Vn<br />

Fn<br />

<br />

= α,<br />

<br />

= α.<br />

P Rn+1 < q R α Fn<br />

Resulta V aRn,n+1,α = −q R α Vn onde q R α é o quantil de ordem α da distribuição de Rn+1 dado<br />

Fn.<br />

Se assumirmos<br />

P Rn+1 < q R α Fn<br />

o VaR pode estimado a partir da expressão<br />

<br />

<br />

= P Rn+1 < q R α<br />

V aRn,n+1,α = −˜q R α Vn<br />

onde ˜q R α é o quantil empírico de ordem α da série de retornos {Rt} 4 . Observe-se que nen-<br />

huma hipótese é estabelecida sobre a distribuição (marginal) dos retornos - daí a designação<br />

de “abordagem não paramétrica”.<br />

No caso h > 1, considera-se<br />

∆Vn+h = ∆Vn+h<br />

Para determinar V aRn,n+h,α resolve-se a expressão<br />

Vn<br />

Vn = Rn+h (h) Vn<br />

P (∆Vn+h < −V aRn,n+h,α| Fn) = α<br />

4 Na literatura existem diferentes fórmulas para calcular o quantil empírico de ordem α. Usaremos a seguinte<br />

convenção: o quantil empírico ˜q R α corresponde à estatística de ordem [nα] , sendo [x] o inteiro de x. Por<br />

exemplo, na amostra de dimensão n = 6, {1, 4, 2, 7, 15, 0} , as estatísticas de ordem são: y (1) = 0, y (2) = 1,<br />

y (3) = 2, y (4) = 4, y (5) = 7, y (6) = 15. O quantil de ordem α = 0.9 é a estatística de ordem [0.9 × 6] = 5,<br />

isto é, y (5) = 7.<br />

420


em ordem a V aRn,n+h,α ou, equivalentemente, resolve-se a expressão<br />

P (Rn+h (h) Vn < −V aRn,n+h,α| Fn) = α<br />

<br />

<br />

V aRn,n+h,α <br />

P Rn+h (h) < − <br />

Vn<br />

Fn<br />

<br />

= α<br />

<br />

= α<br />

P Rn+h (h) < q R α Fn<br />

em ordem a q R α e obtém-se depois V aRn,n+1,α = −q R α Vn. Se assumirmos<br />

o VaR pode estimado a partir da expressão<br />

P (Rn+h (h) < qα| Fn) = P (Rn+h (h) < qα)<br />

V aRn,n+h,α = −˜q R α Vn<br />

onde ˜q R α é o quantil empírico de ordem α da série de retornos {Rn+h (h) , n = 1, 2, ...}.<br />

Naturalmente, o VaR pode ser obtido a partir directamente da distribuição empírica das<br />

variações de capital {∆Vn+h, n = 1, 2, ...} . Neste caso viria V aRn,n+h,α = −˜q ∆V<br />

α , onde ˜q ∆V<br />

α<br />

é o quantil empírico de ordem α da série {∆Vn+h, n = 1, 2, ...}.<br />

Se a análise incide sobre um portfolio linear, na construção da série histórica dos retornos<br />

Rp,t = ω1R1,t + ω2R2,t + ... + ωnRn,t,<br />

onde ωi são os pesos do capital investido no activo i ( n<br />

i=1 ωi = 1), os pesos devem per-<br />

manecer fixos durante todo o período histórico.<br />

A abordagem não paramétrica embora tenha a vantagem de ser simples, sofre dos seguinte<br />

problemas:<br />

• Embora a distribuição não esteja especificada (por isso mesmo é que o procedimento<br />

se designa por não paramétrico) assume-se (incorrectamente) que a distribuição rele-<br />

vante para obter o VaR é a distribuição marginal de Rn+h e não a distribuição condi-<br />

cional. Mas o VaR está associado a uma previsão dos retornos dada (obviamente) a<br />

informação disponível Fn e, por isso, é a distribuição condicional que nos interessa.<br />

Assim, mesmo que no período n se registe, por exemplo, alta volatilidade e perdas<br />

acentuadas, essa informação é negligenciada para obter o VaR.<br />

421


• Quando α é muito baixo por exemplo α = 0.01 ou inferior o estimador ˜q R α é muito im-<br />

preciso. A justificação teórica é dada pelo seguinte resultado assimptótico. Suponha-<br />

se que {Xt, t = 1, ..., n} é uma sucessão de variáveis i.i.d. com função distribuição<br />

F e função densidade de probabilidade f e seja qα = inf {x : F (x) ≥ α} . O quantil<br />

empírico ˜qα (isto, é a estatística de ordem [nα]) tem distribuição assimptótica dada por<br />

√ n (˜qα − qα)<br />

<br />

d<br />

−→ N 0,<br />

α (1 − α)<br />

(f (qα)) 2<br />

<br />

.<br />

A variância assimptótica de ˜qα “explode” quando a fdp no ponto valor qα, f (qα) , é<br />

aproximadamente zero. Isto sucede quando qα é um valor extremo (i.e., muito afastado<br />

do centro da distribuição), isto é, quando α é um valor muito baixo, perto de zero, (ou<br />

muito alto, perto de 1). Em suma, a variância do quantil empírico é alta nas abas e<br />

baixa no centro da distribuição.<br />

• Até onde coligir os dados? Considerar todo o passado disponível? Ou só o pas-<br />

sado recente? Esta questão é mais relevante neste procedimento do que em outros,<br />

pois a metodologia exposta atribui o mesmo peso a todas as observações. Normal-<br />

mente considera-se o passado recente pois dados muito antigos podem não reflectir<br />

a dinâmica do processo no presente e no futuro imediato (será relevante atribuir im-<br />

portância ao crash de 1929-31 para obter o VaR num futuro próximo?). Por outro lado,<br />

também não convém definir janelas de observações muitas curtas pois a eficiência do<br />

estimador do quantil de ordem α pode ser severamente afectada, sobretudo quando α<br />

é muito baixo. Vários estudos indicam como razoável considerar-se os últimos dois<br />

ou três anos de observações.<br />

13.3 Abordagem Paramétrica<br />

Considere-se novamente a expressão para o caso h = 1:<br />

∆Vn+1 = ∆Vn+1<br />

Vn<br />

Vn = Rn+1Vn rn+1Vn.<br />

Esta expressão mostra que a distribuição condicional de rn+1Vn apenas depende da dis-<br />

tribuição de rn+1 (no momento n, Vn é conhecido). Podemos assim concentrar-nos apenas<br />

sobre a distribuição de rn+1. Assuma-se rn+1| Fn ∼ D µ n+1, σ2 <br />

n+1 onde D é uma<br />

422


distribuição qualquer de média µ n e variância σ 2 n. Tem-se<br />

Estandardizando rn+1, isto é, considerando<br />

vem<br />

P<br />

P (∆Vn+1 < −V aRn,n+1,α| Fn) = α<br />

<br />

<br />

V aRn,n+1,α <br />

P rn+1 < − = α.<br />

<br />

V aR − Vn − µ n+1<br />

σn+1<br />

Zn+1 <<br />

Vn<br />

Fn<br />

Zn+1 = rn+1 − µ n+1<br />

σn+1<br />

− V aRn,n+1,α<br />

Vn<br />

σn+1<br />

<br />

− µ <br />

n+1 <br />

<br />

Fn<br />

= q Z α ⇒ V aRn,n+1,α = − µ n+1 + qZ <br />

α σn+1 Vn<br />

(q Z α é o quantil de ordem α da distribuição da variável Zn+1).<br />

No caso h > 1 tem-se<br />

∆Vn+h = ∆Vn+h<br />

Vn<br />

Vn<br />

<br />

= α (13.1)<br />

≈ (rn+1 + rn+2 + ... + rn+h) Vn, rn+i = log (Pn+i/Pn+i−1)<br />

= rn+h (h) Vn.<br />

(13.2)<br />

Não é por mero acaso que se passa de ∆Vn+h para rn+h (h) Vn. A ideia é obter a distribuição<br />

de ∆Vn+h a partir da distribuição de rn+h (h) . Claro que, formalmente, ∆Vn+h é igual a<br />

Rn+h (h) Vn (onde Rn+h (h) são os retornos discretos multi-períodos). O problema com esta<br />

relação decorre do facto da distribuição de Rn+h (h) ser geralmente difícil de tratar.<br />

Para determinar V aRn,n+h,α considera-se<br />

P (rn+h (h) Vn < −V aRn,n+h,α| Fn) = α<br />

<br />

<br />

V aRn,n+h,α <br />

P rn+h (h) < − = α<br />

423<br />

Vn<br />

Fn


e, estandardizando 5 rn+h (h), i.e.,<br />

vem<br />

Conclui-se<br />

P<br />

<br />

Zn+h <<br />

Zn+h = rn+h (h) − E (rn+h (h)| Fn)<br />

<br />

Var (rn+h| Fn)<br />

V aRn,n+h,α<br />

− Vn<br />

V aRn,n+h,α<br />

− Vn<br />

<br />

− E (rn+h (h)| Fn) <br />

<br />

<br />

Var (rn+h| Fn)<br />

Fn<br />

<br />

= α.<br />

− E (rn+h (h)| Fn)<br />

= q<br />

Var (rn+h (h)| Fn)<br />

Z α<br />

<br />

⇒ V aRn,n+h,α = − E (rn+h (h)| Fn) + qZ <br />

α Var (rn+h (h)| Fn) Vn<br />

Estas fórmulas gerais serão agora adaptadas a casos mais simples.<br />

13.3.1 Modelo Gaussiano Simples<br />

O caso mais simples consiste em assumir<br />

(13.3)<br />

rt = µ + ut, (13.4)<br />

onde {ut} é um ruído branco Gaussiano, ut ∼ N (0, σ 2 ) . Assim, rn+1 ∼ N (µ, σ 2 ) . No caso<br />

h = 1, tem-se, pela fórmula (13.2)<br />

V aRn,n+1,α = − µ + q Z α σ Vn<br />

onde q Z α é o quantil de ordem α da distribuição N (0, 1) (observe-se que a variável Zn+1<br />

na expressão (13.1) tem distribuição N (0, 1)). No caso h > 1 é necessário deduzir-se<br />

a distribuição condicional de rn+h (h). Como, por hipótese, rn+h (h) não depende Fn, a<br />

distribuição condicional coincide com a distribuição marginal. Pelas propriedades habituais<br />

da distribuição normal vem rn+h (h) = rn+1 + rn+2 + ... + rn+h ∼ N (hµ, hσ 2 ) . Assim,<br />

E (rn+h (h)| Fn) = E (rn+h (h)) = hµ<br />

Var (rn+h (h)| Fn) = Var (rn+h (h)) = hσ 2<br />

5 Admitindo que faz sentido a estandardizazção. Veremos que no caso geral a distribuição de Wn+h é<br />

desconhecida.<br />

424


e, portanto, pela aplicação da fórmula (13.3), vem<br />

<br />

V aRn,n+h,α = − hµ + √ hσq Z <br />

α Vn.<br />

Se µ = 0 deduz-se V aRn,n+h,α = √ hV aRn,n+1,α<br />

13.3.2 Modelo RiskMetrics<br />

As hipóteses de normalidade e variância condicional constante, assumidas no modelo an-<br />

terior, são, como se sabe, bastante limitativas. Um modelo relativamente simples, mas<br />

assumindo variância condicional não constante corresponde ao modelo RiskMetrics desen-<br />

volvido pela J.P. Morgan para o cálculo do VaR. A metodologia baseia-se no modelo EWMA<br />

(equação (8.7)):<br />

rt = σtεt, σ 2 t = (1 − λ) r 2 t−1 + λσ 2 t−1<br />

onde {εt} é um ruído branco de média nula e variância 1. O modelo assenta na hipótese<br />

IGARCH(1,1) com termo constante nulo, ω = 0, e média condicional nula, µ t = 0. Para<br />

obter V aRn,n+h,α aplica-se uma vez mais a fórmula (13.3). Para o efeito estude-se a dis-<br />

tribuição condicional de rn+h (h) . Comece-se por verificar que<br />

E (rn+i| Fn) = 0, E σ 2 n+i<br />

<br />

Fn<br />

= σ 2 n<br />

Logo, tendo em conta que E (rtrt+i) = 0, vem<br />

E (rn+h (h)| Fn) = 0<br />

Var (rn+h (h)| Fn) = Var (rn+1 + ... + rn+h| Fn)<br />

(Ver previsão IGARCH, ponto 8.11.1).<br />

= Var (rn+1| Fn) + ... + Var (rn+h| Fn)<br />

= E σ 2 <br />

<br />

n+1 Fn + ... + E σ 2 <br />

<br />

n+h Fn<br />

= hσ 2 n.<br />

425


São conhecidos os dois primeiros momentos. Falta conhecer-se a lei de probabilidade de<br />

rn+h (h) . Assuma-se que rn+h (h)| Fn tem distribuição aproximadamente normal 6<br />

rn+h (h)| Fn<br />

Pela fórmula (13.3) vem<br />

a<br />

∼ N (E (rn+h (h)| Fn) , Var (rn+h (h)| Fn)) .<br />

<br />

V aRn,n+h,α = − q Z √ <br />

α hσn Vn<br />

onde q Z α é o quantil de ordem α da distribuição N (0, 1) .<br />

Naturalmente outras distribuições podem ser consideradas. Note-se finalmente V aRn,n+h,α =<br />

√ hV aRn,n+1,α.<br />

13.3.3 Modelo ARMA-GARCH<br />

Assuma-se agora<br />

φ p (L) rt = µ + θq (L) ut<br />

ut = σtεt, ut ∼ GARCH.<br />

6 A distribuição de rn+h (h)| Fn é geralmente desconhecida. Mesmo no caso em que rn+1| Fn tem<br />

distribuição normal, rn+i| Fn para i = 2, 3, ... não tem distibuição normal. Relembre-se que, sob certas<br />

condições, a distribuição de rn+i| Fn quando i → +∞ converge para a distribuição marginal que geralmente<br />

é diferente da distribuição condicional. Pode-se mostrar que a função de distribuição de rn+h (h)| Fn é<br />

<br />

Fn,h (x) =<br />

rn(h)≤x<br />

<br />

h−1<br />

f (rn+h (h)| Fn+h−1) f (rn+i| Fn+i−1) drn+1...drn+h.<br />

Esta expressão só é conhecida no caso h = 1. Para h > 1 a expressão anterior é intratável. Neste caso a<br />

fdp rn+h (h)| Fn pode considerar-se desconhecida (Tsay (2001), cap.7 conclui erradamente que εn ∼ Normal<br />

⇒ rn+h (h)| Fn ∼ Normal). Apesar destas observações, podemos assumir<br />

por duas razões:<br />

i=1<br />

rn+h (h)| Fn ≈ N (E (rn+h (h)| Fn) , Var (rn+h (h)| Fn))<br />

• se h = 1 e ε ∼ N (0, 1) , rn+h (h)| Fn terá certamente distribuição normal. A distribuição de<br />

rn+h (h)| Fn no caso h = 2 ou h = 3 não deverá, em princípio, afastar-se muito da distribuição<br />

normal;<br />

• com h alto e supondo r estacionário e fracamente dependente, pode-se invocar o teorema do limite<br />

central. Com efeito rn+h (h)| Fn/ Var (rn+h (h)| Fn) é uma soma normalizada que, sob certas<br />

condições, converge em distribuição para Z ∼ N (0, 1).<br />

426


Tal como no caso anterior, temos de obter a distribuição de rn+h (h)| Fn. Tem-se<br />

E (rn+h (h)| Fn) = µ n+1,n + ... + µ n+h,n<br />

onde µ n+i,n = E (rn+i| Fn) é a previsão de r para o momento n + i dada a informação<br />

disponível no momento n. Para obter Var (rn+h (h)| Fn) comece-se por observar que<br />

Como<br />

resulta<br />

Var (rn+h (h)| Fn) =<br />

rn+1 E + ... + rn+h − <br />

2 µ n+1,n + ... + µ n+h,n Fn<br />

= E (en (1) + ... + en (h)) 2 <br />

Fn<br />

(13.5)<br />

Vimos no ponto 6.6.4 que<br />

h−1<br />

en (h) = ψ0un+h + ψ1un+h−1 + ... + ψh−1un+1 =<br />

en (1) = un+1,<br />

en (2) = un+2 + ψ 1un+1,<br />

...,<br />

<br />

ψjun+h−j. j=0<br />

en (h) = un+h + ψ 1un+h−1 + ... + ψ h−1un+1<br />

h−1<br />

en (1) + ... + en (h) = un+1 + (un+2 + ψ1un+1) + ... +<br />

Como {ut} é um RB vem<br />

= un+h + (1 + ψ 1) un+h−1 + ... +<br />

Var (rn+h (h)| Fn) = E (en (1) + ... + en (h)) 2 <br />

Fn<br />

<br />

ψjun+h−j j=0<br />

<br />

h−1<br />

<br />

<br />

ψj j=0<br />

un+1.<br />

= Var (un+h| Fn) + (1 + ψ 1) 2 Var (un+h−1| Fn)<br />

+... +<br />

h−1<br />

<br />

ψj j=0<br />

427<br />

2<br />

Var (un+1| Fn) . (13.6)


Falta conhecer-se a lei de probabilidade de rn+h (h) . Sob a hipótese<br />

rn+h (h)| Fn<br />

e atendendo à formula (13.3) vem<br />

a<br />

∼ N (E (rn+h (h)| Fn) , Var (rn+h (h)| Fn))<br />

<br />

V aRn,n+h,α = − E (rn+h (h)| Fn) + q Z <br />

α Var (rn+h (h)| Fn) Vn<br />

onde E (rn+h (h)| Fn) e Var (rn+h (h)| Fn) são dados pelas expressões (13.5) e (13.6).<br />

Exemplo 13.3.1 Considere-se o modelo<br />

Tendo em conta que<br />

resulta<br />

σ 2 n+k,n =<br />

rt = σtεt, σ 2 t = ω + α1r 2 t−1 + β 1σ 2 t−1.<br />

ω<br />

+ (α1 + β<br />

1 − α1 − β<br />

1)<br />

1<br />

k−1 α1r 2 n + β1σ 2 n , (un = rn)<br />

Var (rn+h (h)| Fn) = Var (un+h| Fn) + Var (un+h−1| Fn) + ... + Var (un+1| Fn)<br />

=<br />

h<br />

Tem-se<br />

e<br />

V aRn,n+h,α = −<br />

<br />

q Z α<br />

=<br />

=<br />

k=1<br />

σ 2 n+k,n<br />

h<br />

<br />

ω<br />

+ (α1 + β<br />

1 − α1 − β<br />

1)<br />

k=1<br />

1<br />

k−1 α1r 2 n + β1σ 2 n<br />

<br />

1<br />

<br />

hω −<br />

1 − α1 − β1 α1r 2 n + β1σ 2 n<br />

<br />

(α1 + β1) h <br />

− 1 .<br />

rn+h (h)| Fn ∼ N (0, Var (rn+h (h)| Fn))<br />

<br />

1<br />

1 − α1 − β 1<br />

<br />

hω − (α1r2 n + β1σ 2 <br />

n) (α1 + β1) h <br />

− 1<br />

<br />

Vn.<br />

Exemplo 13.3.2 Na tabela seguinte apresentam-se os resultados da estimação GARCH dos<br />

retornos do Dow Jones (28317 observações diárias).<br />

428


VaR<br />

0.15<br />

0.10<br />

0.05<br />

0.00<br />

0 1 2 3 4 5 6 7 8 9 10<br />

Figura 13-1: Value at Risk como função de h. V aRn+h,n,0.01 traço grosso; V aRn+h,n,0.05<br />

traço fino.<br />

Dependent Variable: retornos do Dow JOnes<br />

Method: ML ­ ARCH<br />

Included observations: 28317 after adjusting endpoints<br />

Coefficient Std. Error z­Statistic Prob.<br />

C 0.000416 4.54E­05 9.155216 0.0000<br />

Variance Equation<br />

C 1.17E­06 5.17E­08 22.67097 0.0000<br />

ARCH(1) 0.085080 0.001263 67.38911 0.0000<br />

GARCH(1) 0.905903 0.001542 587.6203 0.0000<br />

R­squared ­0.000450 Mean dependent var 0.000188<br />

Adjusted R­squared ­0.000556 S.D. dependent var 0.010753<br />

S.E. of regression 0.010756 Akaike info criterion ­6.640694<br />

Sum squared resid 3.275823 Schwarz criterion ­6.639529<br />

Log likelihood 94026.27 Durbin­Watson stat 1.921149<br />

Sabe-se que rn = −0.0101, ˆσ 2<br />

n = 0.00014.<br />

Dado que o modelo envolve um termo constante c, o V aRn,n+h,α estimado, supondo<br />

Vn = 1, corresponde à expressão<br />

−ĉh + q Z α<br />

<br />

1<br />

1 − ˆα1 − ˆ β 1<br />

<br />

hˆω − ˆα1û 2 n + ˆ β1σ 2 <br />

n<br />

ˆα1 + ˆ <br />

h<br />

β1 − 1<br />

onde ûn = rn − ĉ = −0.0101 − 0.000416 = −.01051. Na figura 13-1 representa-se o V aR<br />

para α = 0.01 e para α = 0.05 em função de h.<br />

Exemplo 13.3.3 Considere-se o modelo<br />

rt = c + φrt−1 + ut, ut = σtεt (13.8)<br />

σ 2 t = ω + γu 2 t−1I{ut−1


Tem-se,<br />

E (rn+h (h)| Fn) = µ n+1,n + ... + µ n+h,n.<br />

Tendo em conta a estrutura AR(1), vem pela equação (6.12),<br />

Assim,<br />

E (rn+h (h)| Fn) =<br />

1 − φh<br />

µ n+h,n = c<br />

1 − φ + φhyn. <br />

1 − φ1<br />

c<br />

1 − φ + φ1 <br />

1 − φh<br />

yn + ... + c<br />

1 − φ + φh <br />

yn<br />

= yn (−1 + φ) φ −1 + φ h + c h (1 − φ) + φ −1 + φ h<br />

(−1 + φ) 2<br />

Por outro lado, para calcular Var (rn+h (h)| Fn) é necessário obter ψ i (confira-se (13.6)).<br />

Como se sabe, ψ j são os coeficientes que resultam da equação ψ (L) = φ −1<br />

p (L) θ (L) (veja-<br />

se a equação (6.15)). No caso AR(1) facilmente se conclui que ψ (L) = 1+φL+...+φ k L k +<br />

..., pelo que ψ i = φ i . A aplicação da fórmula (13.6) envolve também Var (un+h| Fn) :=<br />

σ 2 n+h,n<br />

que é necessário estabelecer. Para o modelo definido em (13.9) tem-se,<br />

σ 2 n+1,n = ω + γu 2 nI{un


O valor de Var (rn+h (h)| Fn), dado pelo programa Mathematica, é igual a<br />

1<br />

−<br />

(−1 + φ) 2 <br />

hω +<br />

(−1 + β∗) φ −1 + φ h −2 − φ + φ 1+h<br />

−1 + φ 2<br />

+σ 2 h ω<br />

n+1,n 1 − β∗ + 1 − β h<br />

∗<br />

+<br />

−1 + β∗ ω + σ 2 n+1,n (β∗ − 1) ×<br />

⎛<br />

⎜<br />

φ<br />

× ⎜<br />

⎝<br />

2+2h<br />

β∗<br />

φ2 <br />

h<br />

− 1<br />

φ 2 φ<br />

− 2<br />

− β∗ 1+h<br />

⎞⎞<br />

h<br />

β∗<br />

− 1<br />

φ ⎟⎟<br />

⎟⎟<br />

φ − β ⎠⎠<br />

∗<br />

.<br />

13.4 Generalização: Portfolio com m Activos<br />

Obtenha-se agora o VaR supondo que o portfolio é constituído por m acções. Para simplificar<br />

assuma-se que<br />

rt = (R1t, ..., Rmt) ′ Ft−1 ∼ N (µ t, Ht)<br />

onde µ t := E (rt| Ft−1) e Var (rt| Ft−1) := Ht. No momento n o portfolio vale Vn, por<br />

exemplo, uma alocação de 1 milhão de Euros no título 1 e 2 mihões no título 2, traduz-se por<br />

um investimento no valor de Vn = 3 milhões, sendo ω1 = 1/3 desse valor investido no título<br />

1 e ω2 = 2/3 investido no título 2. A obtenção do VaR é similar ao do caso de um portfolio<br />

com apenas 1 activo:<br />

Estandardizando Rp,n+1, isto é, considerando<br />

vem<br />

V aRn,n+1,α<br />

− Vn<br />

P (∆Vn+1 < −V aRn,n+1,α| Fn) = α<br />

<br />

∆Vn+1<br />

<br />

P Vn < −V aRn,n+1,α<br />

Vn<br />

Fn<br />

<br />

= α<br />

<br />

<br />

V aRn,n+1,α <br />

P Rp,n+1 < − = α.<br />

Vn<br />

Fn<br />

Zn+1 = Rp,n+1 − E (Rp,n+1| Fn)<br />

<br />

Var (Rp,n+1| Fn)<br />

<br />

<br />

V aRn,n+1,α<br />

− − E (Rp,n+1| Fn) <br />

Vn<br />

<br />

P Zn+1 < <br />

Var (Rp,n+1| Fn) Fn<br />

<br />

= α<br />

− E (Rp,n+1| Fn)<br />

= q<br />

Var (Rp,n+1| Fn)<br />

Z <br />

α ⇒ V aRn,n+1,α = − E (Rp,n+1| Fn) + q Z <br />

<br />

α Var (Rp,n+1| Fn)<br />

431<br />

Vn


Tendo em conta que Rp,n+1 = m<br />

i=1 ωiRi,n+1 = ω ′ rn+1, tem-se Rp,n+1 = E (Rp,n+1| Fn) =<br />

ω ′ µ n+1 e Var (Rp,n+1| Fn) = ω ′ Hn+1ω e, finalmente<br />

V aRn,n+1,α = − ω ′ µ n+1 + qN √<br />

α ω ′<br />

Hn+1ω Vn<br />

onde q N α é o quantil de ordem α da distribuição N (0, 1) .<br />

Exemplo 13.4.1 Considere-se um portfolio, no momento n, constituído por de 1 milhão de<br />

Euros no título 1 e 2 mihões no título 2. Admita-se a seguinte distribuição<br />

⎛<br />

⎝ R1,n+1<br />

Tem-se para α = 0.05<br />

R2,n+1<br />

<br />

<br />

<br />

<br />

<br />

V aRn,n+1,α = 1.645<br />

1/3 2/3<br />

⎞<br />

<br />

<br />

⎠<br />

<br />

Fn<br />

⎛⎛<br />

∼ N ⎝⎝<br />

0<br />

⎞ ⎛<br />

⎞⎞<br />

0.01 0.002<br />

⎠ , ⎝ ⎠⎠<br />

.<br />

0 0.002 0.005<br />

⎛<br />

⎝<br />

⎞ ⎛<br />

0.01 0.002<br />

⎠ ⎝<br />

0.002 0.005<br />

1/3<br />

⎞<br />

⎠ × 3 = 0.32 milhões.<br />

2/3<br />

O valor em risco com uma probabilidade de 0.05 para um horizonte temporal de h = 1<br />

período é de cerca de 0.32 milhões de euros.<br />

Se considerassemos os dois activos separadamente teríamos:<br />

V aR do título 1 = 1.645 √ 0.01 × 1 = 0.164<br />

V aR do título 2 = 1.645 √ 0.005 × 2 = 0.232.<br />

Observa-se que a soma dos VaR individuais, 0.164 + 0.232 = 0.396, é maior do que o VaR<br />

do portfolio.<br />

13.5 Abordagem pela Teoria dos valores Extremos<br />

A teoria dos valores extremos é um ramo da estatística que se preocupa essencialmente com<br />

o comportamento probabilístico dos valores extremos da amostra e, portanto, centra a sua<br />

análise nas caudas da distribuição. Esta análise é importante em todos os fenómenos em<br />

que a ocorrência de valores muitos altos e muitos baixos é relevante, como por exemplo,<br />

ocorrência de cheias, furacões, recordes desportivos, etc. A teoria dos valores extremos tem<br />

432


também sido aplicada na actividade seguradora e, mais recentemente, nas área das finanças,<br />

no cálculo do VaR.<br />

Recorde-se a abordagem não paramétrica. Vimos que o VaR pode estimado a partir da<br />

expressão<br />

V aRn,n+1,α = −˜q r αVn<br />

(13.10)<br />

onde ˜q r α é o quantil empírico de ordem α da série de retornos {Rt} (também poderia ser a<br />

partir de {rt}). Como referimos no ponto 13.2, a estimativa ˜qα é muito imprecisa quando<br />

α é muito baixo (ou muito alto). Como iremos ver a teoria dos valores extremos tem uma<br />

resposta para este problema. O objectivo deste ponto é obter uma estimativa para qa via<br />

teoria dos valores extremos.<br />

13.5.1 Introdução à Teoria e Estimação. VaR Marginal<br />

A teoria dos valores extremos trata habitualmente os eventos extremos que ocorrerm na<br />

aba direita da distribuição. Seguiremos esta lógica na introdução e, depois, por analogia,<br />

focaremos a aba esquerda que é a relevante para o cálculo do VaR. O leitor poderá consultar<br />

o livro de Franke et. al (2008) para mais pormenores sobre a teoria.<br />

Seja {yt; i = 1, 2, ..., n} uma sucessão de v.a. i.i.d. e Mn = max {y1, y2, ..., yn} o máx-<br />

imo da amostra. Pode-se provar que se existirem constantes normalizadoras cn > 0, dn ∈ R<br />

e uma distribuição não degenerada H (isto é, que não atribui toda a massa de probabilidade<br />

a um único ponto) tal que c−1 d<br />

n (Mn − dn) −→ H, então H é da forma<br />

<br />

Hξ (x) = exp − (1 + ξx) −1/ξ<br />

, 1 + ξx > 0, ξ = 0.<br />

Nestas circunstâncias, para n suficientemente grande, tem-se P (c−1 n (Mn − dn) ≤ x) <br />

<br />

Hξ (x) (ou, P (Mn ≤ x) Hξ para algum λ ∈ R e δ > 0). O caso ξ = 0 deve<br />

x−λ<br />

δ<br />

ser interpretado no seguinte sentido: H0 (x) = limξ→0 Hξ (x) = e−e−x. H é designado na<br />

literatura por Generalised Extreme Value distribution (GEV)<br />

Quando o resultado anterior se verifica para a v.a. y, com função de distribuição F e<br />

distribuição limite H, diz-se que F pertence ao domínio máximo de atracção da distribuição<br />

H e, neste caso, escreve-se F ∈ DM (H).<br />

A metodologia de estimação que iremos apresentar, intitulada POT (peaks-over-threshold),<br />

assenta na seguinte proposição:<br />

433


Proposição 13.5.1 Suponha-se que {yt} é uma sucessão de v.a. com função de distribuição<br />

F . Então as seguintes proposições são equivalentes: 1) F ∈ DM (H); 2) para alguma<br />

função β : R + → R + ,<br />

onde<br />

<br />

lim sup Fu (x) − Gξ,β(u) (x)<br />

u↑xF 0 0, x > 0 se ξ = 0<br />

β<br />

1 − e−x , x ≥ 0 se ξ = 0.<br />

Gξ,β é a função de distribuição generalizada de Pareto e Fu (x) é a designada excess<br />

distribuition function. A equação (13.11) basicamente estabelece que (na classe das funções<br />

F tais que F ∈ DM (H)), para valores altos de u, Fu é aproximadamente igual a Gξ,β e,<br />

portanto, uma estimativa para Fu pode basear-se em Gξ,β (sempre que u é relativamente<br />

alto). Tendo em conta que, por definição,<br />

1 − Fu (x) = P (y − u ≥ x| y > u) =<br />

1 − F (x + u)<br />

1 − F (u)<br />

segue-se (considerando o primeiro e o terceiro termo da expressão anterior)<br />

1 − F (x + u) = (1 − F (u)) (1 − Fu (x))<br />

ou (fazendo a substituição de x + u por x, passando agora x a ser definido por x > u),<br />

1 − F (x) = (1 − F (u)) (1 − Fu (x − u)) , u < x < ∞. (13.12)<br />

Esta relação juntamente com (13.11) constitui o essencial do método que se expõe para a<br />

estimação do VaR. Como F e consequentemente Fu são funções desconhecidas, a expressão<br />

do lado direito de (13.12) pode ser estimada da seguinte forma<br />

<br />

1 − ˆ <br />

F (u) 1 − ˆ <br />

Fu (x − u)<br />

434


onde,<br />

1 − ˆ F (u) = 1<br />

n<br />

n<br />

I{yj>u} =<br />

j=1<br />

A estimativa do lado direito de (13.12) é<br />

<br />

1 − ˆ <br />

F (u) 1 − ˆ <br />

Fu (x − u) = N (u)<br />

n<br />

Substitua-se na expressão (13.12), x por qδ:<br />

1 − F (qδ) =<br />

1 − δ =<br />

Resolvendo esta equação para ˆqδ obtém-se<br />

ˆqδ = u + ˆ β<br />

ˆ ξ<br />

N (u)<br />

n , ˆ Fu (x − u) = ˆ Gˆ ξ, ˆ β (x − u) .<br />

<br />

1 − ˆ <br />

Gˆξ, β ˆ (x − u) = N (u)<br />

N (u)<br />

n<br />

N (u)<br />

n<br />

<br />

1 + ˆ ξ ˆqδ − u<br />

ˆβ<br />

<br />

1 + ˆ ξ ˆqδ − u<br />

ˆβ<br />

−1/ ˆ ξ<br />

−1/ ˆ ξ<br />

n<br />

.<br />

<br />

1 + ˆ −1/ ˆξ x − u<br />

ξ .<br />

ˆβ<br />

<br />

−ˆξ n<br />

(1 − δ) − 1 . (13.14)<br />

N (u)<br />

Se δ não for um valor muito alto (perto de 1) podemos usar para estimativa de ˜qδ a<br />

estatística de ordem [nδ] . Vimos, no entanto, que se δ for um valor muito alto a variância<br />

assimptótica deste quantil empirico aproxima-se de mais infinito. Nestas circunstâncias, a<br />

teoria dos valor extremos tem uma solução que consiste em estimar qδ pela expressão (13.14).<br />

Existem ainda três questões por analisar: 1) Como estimar ξ e β?; 2) como escolher u? e<br />

3) como obter o VaR?<br />

Estimação de ξ e β<br />

Sejam y (1) , y (2) , ..., y (n) as estatísticas de ordem tais que<br />

y (1) ≥ y (2) ≥ ... ≥ y (N(u)) ≥ ... ≥ y (n)<br />

e Yi = y (i) − u (nota: y (1) é o valor máximo, y (2) é o segundo valor mais alto etc.; relembra-<br />

se o leitor que usámos y(1) para o mínimo, y(2) para o segundo mais baixo, etc. Resulta da<br />

notação que y (1) = y(n), y (n) = y(1), etc.). Para estimar ξ e β dado que N (u) = m é fixo,<br />

assume-se que Y1, Y2, ..., Ym é uma sucessão de v.a. i.i.d. com distribuição Gξ,β (y) (ξ > 0) .<br />

435


Logo, a função log-verosimilhança é<br />

log Lm (ξ, β| Y1, Y2, ..., Ym, N (u) = m) = −m log β −<br />

<br />

1 + 1<br />

<br />

m<br />

<br />

log 1 +<br />

ξ<br />

j=1<br />

ξ<br />

β Yj<br />

<br />

.<br />

(13.15)<br />

Os estimadores de máxima verosimilhança ˆ ξ e ˆ β obtém-se a partir da maximização de<br />

log Lm. Pode-se provar que, para ξ > −1/2 e m → ∞<br />

⎛<br />

√<br />

m ⎝ ˆξ − ξ<br />

⎞<br />

⎠<br />

− 1<br />

d<br />

⎛⎛<br />

−→ N ⎝⎝<br />

0<br />

⎞ ⎛<br />

⎠ , ⎝<br />

0<br />

(1 + ξ)2 − (1 + ξ)<br />

− (1 + ξ) 2 (1 + ξ)<br />

ˆβ<br />

β<br />

Como escolher u?<br />

⎞<br />

⎠<br />

−1⎞<br />

Quando u é muito alto o valor de N (u) é baixo (significa que o número de observações<br />

efectivamente usadas na estimação é baixo) e a variância do estimador tende a ser alta.<br />

Quando u é baixo, a aproximação para Fu (x) , usando a distribuição Gξ,β (x) tenderá a<br />

ser pobre e, como consequência o estimador ˆqδ pode vir fortemente enviesado.<br />

Para ajudar na escolha de u considera-se o seguinte resultado: se Z ∼ Gξ,β e 0 ≤ ξ < 1,<br />

então the average excess function é linear:<br />

e (u) = E (Z − u| Z > u) = β ξ<br />

+ u, u ≥ 0, 0 ≤ ξ < 1.<br />

1 + ξ 1 + ξ<br />

Este resultado sugere seleccionar o limiar u de forma que a função estimada para e (u) ,<br />

en (v) , para os valores v ≥ u seja (aproximadamente) linear. Pode-se provar que<br />

en (u) = 1<br />

N (u)<br />

n<br />

max {(yj − u) , 0} .<br />

j=1<br />

Para verificar se en (v) é (aproximadamente) linear pode-se analisar no plano o gráfico dos<br />

pontos <br />

y(k), en onde y(1), y(2), ..., y(n) são as estatísticas de ordem tais que<br />

y(k)<br />

y(1) ≤ y(2) ≤ ... ≤ y(n).<br />

<br />

Devido à alta variabilidade de en y(k) quando k alto, recomenda-se a eliminação desses<br />

pontos na análise gráfica.<br />

Como obter o VaR?<br />

Como focámos a cauda direita da distribuição (e a que interessa é a esquerda) assume-<br />

436<br />

⎠ .


se yt = −rt. Assim, se ˆqδ é o quantil de ordem δ associada à variável y, então ˆq r α = −ˆqδ<br />

com α = 1 − δ, é o quantil de ordem α associado à variável r. Pela equação (13.10), uma<br />

estimativa para o VaR é<br />

V aR = −ˆq r αVn = ˆqδVn, δ = 1 − α.<br />

Para obter o VaR a α100% pode-se seguir os seguintes passos:<br />

1. Definir yt = −rt;<br />

2. Definir δ = 1 − α;<br />

3. Seleccionar u;<br />

<br />

4. Obter ˆξ, βˆ<br />

, maximizando (13.15);<br />

5. Calcular ˆqδ usando a equação (13.14);<br />

6. Obter o V aR = ˆqδVn<br />

13.5.2 VaR Condicional<br />

O ponto anterior assentou na hipótese de {rt; i = 1, 2, ..., n} ser uma sucessão de v.a. i.i.d.<br />

Esta hipótese é irrealista. O VaR calculado sob esta hipótese não reflecte a volatilidade cor-<br />

rente no momento n (seria de esperar o VaR aumentasse quando no momento n a volatilidade<br />

é alta). McNeil e Frey (2000) propõem uma abordagem condicional do VaR no âmbito da<br />

teoria dos valores extremos. A ideia assenta no modelo ARMA-GARCH rt = µ t +σtεt. Se o<br />

modelo estiver bem especificado será de esperar que εt se comporte aproximadamente como<br />

uma sucessão de v.a. i.i.d. Como os resultados principais da teoria dos valores extremos<br />

se aplicam a sequências i.i.d., é preferível aplicá-los à sucessão {εt} do que directamente<br />

a {rt} , pois esta sucessão não é geralmente i.i.d., devido à presença de volatilidade não<br />

constante.<br />

Seja ˆq ε α o quantil da distribuição de εt obtido seguindo a metodologia do ponto anterior.<br />

Tem-se assim,<br />

P (εn+1 < q ε α| Fn) = α<br />

<br />

rn+1 − µ n+1<br />

P<br />

< q<br />

σn+1<br />

ε <br />

<br />

<br />

α<br />

Fn<br />

<br />

= α<br />

<br />

= α.<br />

P rn+1 < µ n+1 + q ε <br />

ασn+1 Fn<br />

437


Em suma, uma vez apurado ˆq ε α, o quantil da distribuição condicional de rn+1 vem igual a<br />

Como {εt} não é observado, toma-se<br />

q r α = µ n+1 + q ε ασn+1.<br />

ˆεt = rt − ˆµ t<br />

ˆσt<br />

onde ˆµ t e ˆσt são estimativas da média e da variância condicional baseadas em estimadores<br />

consistentes. Finalmente,<br />

ˆq r α = ˆµ n+1 + ˆq ˆε αˆσn+1.<br />

13.6 Avaliação do VaR (Backtesting)<br />

Neste ponto avalia-se a qualidade da estimativa proposta para o VaR. Esta avaliação é impor-<br />

tante por várias razões. As empresas (sobretudo bancos) que usam o VaR são pressionadas<br />

interna e externamente (por directores, auditores, reguladores, investidores) para produzirem<br />

VaR precisos. Um VaR preciso é fundamental na gestão e controle do risco e na alocação de<br />

capital. Por essa razão é essencial que empresa teste regularmente as suas medidas de risco,<br />

na linha das recomendações adoptadas em acordo internacionais. Por outro lado, embora a<br />

definição de VaR seja muito precisa e objectiva, existem diferentes métodos de estimação do<br />

VaR, que produzem diferentes estimativas (algumas bastante díspares); por isso, é importante<br />

identificar a melhor abordagem para o problema concreto em análise.<br />

Christoffersen e Diebold (2000) analisam a qualidade e a precisão dos intervalos de con-<br />

fiança produzidos para uma certa série. Parte da metodologia pode ser adaptada na análise<br />

da qualidade do VaR. Seja V aRt,t−1,α uma estimativa para o VaR a α100% para o período t<br />

baseado na informação t − 1. Sendo este VaR construído no período t − 1 não se sabe, an-<br />

tecipadamente, se no período t se tem ou não ∆Vt < −V aRt,t−1,α. Intuitivamente, é natural<br />

esperar que a desigualdade ∆Vt < −V aRt,t−1,α, com t a variar, ocorra α100% das vezes.<br />

Considere-se o evento aleatório,<br />

It =<br />

⎧<br />

⎨<br />

⎩<br />

V aRt,t−1,α<br />

1 se ∆Vt < −V aRt,t−1,α ou rt < − Vt−1<br />

0 no caso contrário.<br />

438


Diz-se que a previsão do VaR produz uma cobertura marginal correcta (correct uncondi-<br />

cional coverage) se<br />

P (It = 1) = α ⇔ E (It) = α.<br />

Se esta condição se verifica então em α100% dos casos deverá observar-se ∆Vt < −V aRt,t−1,α.<br />

É exactamente este raciocínio que se estabelece a priori quando se procura definir o VaR a<br />

α100%. Interessa depois saber se, na prática, essa desigualdade se verifica efectivamente<br />

em α100% das vezes. Esta condição é, naturalmente, necessária mas não suficiente para<br />

identificar uma medida VaR como apropriada. Suponha-se, como habitualmente nas séries<br />

financeiras, que se tem o fenómeno de volatility clustering. Momentos de alta (baixa) volatil-<br />

idade são seguidos por momentos de alta (baixa) volatilidade. Nestas circunstâncias, o VaR<br />

deve ser alto nos momentos de alta volatilidade e baixo nos momentos de baixa volatilidade.<br />

Se o V aRt,t−1,α não reflecte o fenómeno de volatility clustering (nem em termos gerais as<br />

propriedades da distribuição condicional) então o VaR tenderá a falhar como medida de risco<br />

em períodos consecutivos. Um VaR assim definido traz a seguinte implicação sobre {It}: em<br />

momentos de alta volatilidade os 1 ′ s tendem a repetir-se (por exemplo, It = 1, It+1 = 1,<br />

It+2 = 1, etc.), pois tenderá a observar-se em períodos seguidos ∆Vt < −V aRt,t−1,α e, em<br />

momentos de baixa volatilidade, uma repetição de 0 ′ s. Ou seja a sucessão It tenderá a ap-<br />

resentar dependência temporal (será autocorrelacionada). Mesmo neste caso, de autocorre-<br />

lação de It, poderá ter-se E (It) = α. Por esta razão a cobertura marginal embora necessária<br />

não é suficiente para identificar o VaR como uma medida precisa.<br />

Diz-se que a previsão do VaR produz uma cobertura condicional correcta (correct condi-<br />

cional coverage) se<br />

P (It = 1| Ft−1) = α ⇔ E (It| Ft−1) = α.<br />

Esta condição implica ausência de autocorrelação, pois, tendo em conta a lei do valor esper-<br />

ado iterado,<br />

Cov (It, It−k) = E (ItIt−k) − E (It) E (It−k)<br />

= E (It−k E (It| Ft−k)) − E (E (I| Ft−1)) E (E (It−k| Ft−k−1))<br />

= E (It−k E (E (It| Ft−1)| Ft−k)) − E (E (I| Ft−1)) E (E (It−k| Ft−k−1))<br />

= E (It−k E (α| Ft−k)) − E (α) E (α) = α E (It−k) − α 2 = 0.<br />

439


Existem várias formas de testar a cobertura marginal e condicional. Por exemplo, se {It}<br />

é uma sucessão de v.a. i.i.d. e E (It) = α, então ambas as coberturas são válidas. Outra<br />

possibilidade consiste em analisar somente a cobertura condicional pois, pela lei do valor<br />

esperado iterado, tem-se, com vimos atrás,<br />

E (It| Ft−1) = α ⇒ E (It) = E (E (It| Ft−1)) = E (α) = α.<br />

Analise-se o teste de independência de It. Uma possibilidade neste sentido baseia-se no<br />

runs test. Procede-se da seguinte forma. Seja X o número sequências seguidas de 1 ′ s ou<br />

0 ′ s (X é o número de runs) 7 . Por exemplo, na sucessão {0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0} temos<br />

X = 5. Sejam n0 e n1 o número de zeros e uns, respectivamente, e n = n0 + n1 a dimensão<br />

da amostra. O número X fornece informação sobre se a amostra é aleatória ou não. Se<br />

ocorrem poucas sequências de 1 ′ s ou 0 ′ s, como no exemplo,<br />

{0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1} , (X = 2)<br />

há indicação de dependência temporal na sucessão. Se ocorrem “demasiadas” sequências,<br />

como no exemplo,<br />

{1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1} (X = 13)<br />

também podemos suspeitar algum tipo de dependência temporal (flutuações cíclicas de período<br />

curto). Sob a hipótese, H0: {It} é uma sucessão de v.a. independentes, a distribuição de X<br />

dado n0 e n1 é conhecida. Quando n0 > 20 ou n1 > 20 é mais conveniente usar-se o<br />

resultado assimptótico. Sob H0 tem-se<br />

Z = X − E (X)<br />

Var (X)<br />

d<br />

−→ N (0, 1)<br />

7O número máximo que X pode assumir é<br />

<br />

2 min {n0, n1} se n0 = n1<br />

max X =<br />

2 min {n0, n1} + 1 se n0 = n1.<br />

440


onde<br />

E (X) = 2n0n1<br />

+ 1<br />

n<br />

Var (X) = 2n0n1 (2n0n1 − n)<br />

n2 .<br />

(n − 1)<br />

O teste é bilateral (afastamento à hipótese nula pode dever-se quando X é alto ou baixo).<br />

Rejeita-se H0 se a probabilidade P (|Z| > |zobs|) estiver abaixo do nível de significância<br />

fixado.<br />

Se a hipótese H0 não pode ser rejeitada pelos dados, pode-se assumir que {It} é uma<br />

sucessão de v.a. i.i.d. com distribuição de Bernoulli de parâmetro E (It) . Interessa agora<br />

investigar a cobertura marginal, i.e. se E (It) coincide com α. Seja Sn = n<br />

i=1 Ii = n1 a<br />

soma dos 1 ′ s que, como se sabe, tem distribuição Binomial de parâmetros (n, E (It)) . Sob a<br />

hipótese<br />

H0: E (It) = α<br />

a estatística de teste (rácio de verosimilhanças)<br />

RV = −2 log<br />

L (α| H0)<br />

L (ˆα) = −2 log αn1 (1 − α) n0<br />

ˆα n1 (1 − ˆα) n0<br />

tem distribuição assimptótica χ 2 (1) . ˆα é o estimador de máxima verosimilhança, ˆα = n1/n e<br />

α é a probabilidade previamente fixada para o VaR (por exemplo, α = 0.01 ou α = 0.05).<br />

Exemplo 13.6.1 Suponha-se que numa amostra de 800 observações foi calculado o VaR a<br />

5% (α = 0.05). Observou-se n0 = 750, n1 = 50, X = 90 (na amostra a desigualdade<br />

∆Vt < −V aRt,t−1,α verificou-se 50 vezes). Haverá razões para pensar que o VaR a 5<br />

% é inapropriado? Considere-se primeiro a hipótese, H0: {It} é uma sucessão de v.a.<br />

independentes. Tem-se:<br />

zobs = 90 − 2n0n1<br />

n<br />

+ 1<br />

<br />

2n0n1(2n0n1−n)<br />

n2 (n−1)<br />

= 90 − 94.75<br />

3.298<br />

= −1.43.<br />

Como o valor-p P (|Z| > 1.43) 0.15 é relativamente alto não se rejeita H0. Considere-se<br />

agora H0: E (It) = 0.05. Tem-se ˆα = n1/n = 0.0625 e<br />

RVobs = −2 log 0.05n1 (1 − 0.05) n0<br />

ˆα n1 (1 − ˆα) n0<br />

441<br />

= 2.447.


Como o valor-p P χ2 <br />

(1) > 2.477 0.118 é relativamente alto não se rejeita H0.<br />

Assim, existe evidência de que o VaR estimado é uma medida adequada.<br />

Se It segue uma cadeia de Markov (em tempo discreto, com espaço de estado {0, 1}), o<br />

teste run pode apresentar baixa potência 8 , isto é, se o usamos o teste run quando It segue<br />

uma cadeia de Markov, a probabilidade de rejeitar independência pode ser baixa.<br />

Suponha-se que It segue uma cadeia de Markov com a seguinte matriz de probabilidades<br />

de transição<br />

P =<br />

⎛<br />

⎝ 1 − p01 p01<br />

1 − p11 p11<br />

onde pij = P (It = j| It−1 = i) . Só no caso muito particular p01 = p11, {It} é uma sucessão<br />

de v.a. i.i.d. (com distribuição de Bernoulli). Com efeito, sob a hipótese de independência,<br />

p01 = P (It = 1| It−1 = 0) = P (It = 1| It−1 = 1) = p11<br />

ou seja, a probabilidade de It = 1 não depende do valor assumido por I no período anterior<br />

(e, pode provar, também não depende da história passada de I). Nesta condições It é não<br />

autocorrelacionado 9 . Imagine-se, pelo contrário, a seguinte matriz de probabilidades,<br />

⎛<br />

⎝<br />

0.8 0.2<br />

0.1 0.9<br />

Calcule-se a probabilidade de It = 1. Se It−1 = 1 a probabilidade de It = 1 é 0.9, mas se<br />

It−1 = 0 a probabilidade de I passar para o estado 1 é de apenas 0.2. Observa-se, portanto,<br />

forte dependência temporal na sucessão It.<br />

Para ensaiar independência, a hipótese nula mantém-se no essencial como no teste runs<br />

test, H0: {It} é uma sucessão de v.a. independentes ou seja H0: p01 = p11. Para a avaliarmos<br />

o rácio de verosimilhanças é necessário obter-se, em primeiro lugar, a função de verosimil-<br />

⎞<br />

⎠ .<br />

hança associada a sucessão {I1, ..., In}; facilmente se conclui que<br />

L (pij) = (1 − p01) n00 p n01<br />

01 (1 − p11) n10 p n11<br />

11 ,<br />

onde nij é o número de vezes em que I passou de i para j. As estimativas de máxima<br />

8 A potência de um teste é a probabilidade de rejeitar H0 dado que H1 é verdadeira.<br />

9 Pode-se provar que Corr (It, It−1) = p11 − p01. Logo se p11 = p01 a correlação entre It e It−1 é nula.<br />

Nestas condições pode-se também provar que Corr (It, It−k) = 0, para k ∈ N.<br />

442<br />

⎞<br />


verosimilhança de pij obtêm-se facilmente a partir de L (pij) ,<br />

ˆp01 = n01/n, ˆp11 = n11/n.<br />

Por outro lado, sob H0: p01 = p11 (substitua-se p01 e p11 por p1)<br />

RV = −2 log L (pij| H0)<br />

L (ˆpij)<br />

= −2 log<br />

(1 − ˆp1) n00+n10 n01+n11 ˆp 1<br />

(1 − ˆp01) n00 n01 ˆp 01 (1 − ˆp11) n10 n11 ˆp 11<br />

d<br />

−→ χ 2 (1)<br />

onde ˆp1 = (n01 + n11) /n. Uma variante interessante deste teste consiste em tomar como<br />

hipótese nula H0: p01 = p11 = α (não só se testa a independência como também a cobertura<br />

marginal, E (It) = α). Com se têm agora duas restrições impostas em H0 (p01 = p11,<br />

p01 = α), a estatística de teste é<br />

RV = −2 log<br />

(1 − α) n00+n10 α n01+n11<br />

(1 − ˆp01) n00 n01 ˆp 01 (1 − ˆp11) n10 n11 ˆp 11<br />

d<br />

−→ χ 2 (2).<br />

A vantagem deste teste do ponto de vista prático é clara: de uma vez só, ensaia-se a cobertura<br />

marginal e condicional.<br />

Estes testes, baseados no modelo da cadeia de Markov sofrem no entanto de uma lim-<br />

itação: baseiam-se em dependências de primeira ordem. Ora, pode suceder que It dado<br />

It−1 dependa ainda de It−2. Neste caso, os testes baseados no modelo da cadeia de Markov,<br />

podem perder bastante potência.<br />

Clements e Taylor (2003) generalizam a abordagem anterior. A hipótese E (It| Ft−1) =<br />

α sugere que It dado Ft−1 apenas depende de uma constante, α. Assim, se It depende de<br />

alguma variável Ft−1 mensurável, a hipótese E (It| Ft−1) = α deve ser rejeitada. Para testar<br />

a possibilidade de It depender de alguma variável Ft−1 mensurável, uma possibilidade con-<br />

siste em fazer uma regressão de It sobre as variáveis definidas em Ft−1 (como por exemplo,<br />

It−1, It−2, ..., variáveis dummy reportadas a t − 1, t − 2, etc., retornos, etc.),<br />

It = α0 +<br />

k<br />

i=1<br />

αiIt−i + x ′ t−1β + ut<br />

onde x ′ t−1 é um vector 1 × m de variáveis Ft−1 mensuráveis (que de alguma forma podem<br />

estar parcialmente correlacionadas com It) e β é um vector de parâmetros m × 1. A hipótese<br />

de correcta cobertura marginal e condicional envolve o ensaio H0 : α1 = 0, ..., αk = 0, β =<br />

0, α0 = α. Naturalmente a estatística F pode ser usada. Tendo em conta a natureza da<br />

443


variável I, em princípio seria mais apropriado uma regressão binária. No entanto, Sarma et<br />

al. (2003) refere que na presença de forte assimetria dos dados (mais de 95% ou 99% dos<br />

dados são 0’s ou 1’s) a regressão binária envolve problemas técnicos. Para grande amostras<br />

o estimador OLS é apropriado.<br />

444


Página em branco<br />

445


Referências<br />

(referências incompletas!)<br />

Basrak, B., R. Davis e T. Mikosch (2002). Regular variation of GARCH processes. Sto-<br />

chastic Processes and their Applications 99(1), pp. 95-115.<br />

Christiansen, C. (2007). Volatility-Spillover Effects in European Bond Markets. European<br />

Financial Management, 13 (5), pp. 923-948.<br />

Bauwens, L., A. Preminger e J. Rombouts (2006). Regime switching GARCH models.<br />

Département des Sciences Economiques Working Paper 2006-6.<br />

Christoffersen, P. e F, Diebold (2000). How Relevant is Volatility Forecasting for Financial<br />

Risk Management? Review of Economics and Statistics 82(1), pp. 12-22<br />

Davies, (1987). Hypothesis testing when a nuisance parameter is present only under the<br />

alternative. Biometrika 74, pp. 33-43.<br />

Dimson E., P. Marsh e M. Staunton (2002). Triumph of the Optimists:101 Years of Global<br />

Investment Returns, Princeton University Press.<br />

Engle R. (1982). Autoregressive Conditional Heteroscedasticity with Estimates of the Vari-<br />

ance of United Kingdom Inflation. Econometrica 50 pp. 987-1007.<br />

Engle R. (2001). Financial Econometrics - a New Discipline with new Methods. Journal<br />

of Econometrics 100, pp. 53-56.<br />

Engle, R. (2002). Dynamic Conditional Correlation: A Simple Class of Multivariate Gen-<br />

eralized Autoregressive Conditional Heteroskedasticity Models. Journal of Business<br />

& Economic Statistics, 20(3), pp. 339-50.<br />

Fama, E. (1970). Efficient Capital Markets: A Review of Theory and Empirical Work.<br />

Journal of Finance 25 (2), pp. 383-417.<br />

Engle R. e K. Kroner (1995). Multivariate Simultaneous Generalized ARCH. Econometric<br />

Theory 11, pp. 122-150.<br />

Fan, J. e Q. Yao (2005), Nonlinear Time Series, Springer Series in Statistics, New York.<br />

446


Franke, J., W. Hardle e C. Hafner (2008). Statistics of Financial Markets: An Introduction,<br />

2 a ed., Springer, Berlin Heidelberg New-York.<br />

Franses, P. e van Dijk, D. (2000). Nonlinear Time Series Models in Empirical Finance,<br />

Cambridge University Press, Cambridge.<br />

Gospodinov, N. (2005). Testing For Threshold Nonlinearity in Short-Term Interest Rates.<br />

Journal of Financial Econometrics, 3(3), pp. 344-371.<br />

Gray, S., (1996). Modeling the Conditional Distribution of Interest Rates as a Regime-<br />

Switching Process. Journal of Financial Economics, 42(1), pp. 27-62.<br />

Groeneveld, R.A. e G. Meeden (1984). Measuring skewness and kurtosis. The Statistician,<br />

33, pp. 391-399.<br />

Lundbergh, S. e T. Teräsvirta (2002). Evaluating GARCH models. Journal of Econometrics<br />

110(2), pp. 417-435 .<br />

McNeil, A. e R. Frey (2000). Estimation of Tail-Related Risk Measures for Heteroscedastic<br />

Financial Time Series: an Extreme Value Approach. Journal of Empirical Finance 7,<br />

pp. 271-300.<br />

Mokkadem, A. (1985). Le Modèle Non Linéaire AR(1) Général. Ergodicité et Ergodicité<br />

Géometrique. Comptes Rendues Academie Scientifique Paris 301(I), pp. 889-892.<br />

Morgan J., (1996). RiskMetrics Technical Document, Part II: Statistics of Financial Mar-<br />

ketReturns, 4th edition, New York.<br />

Murteira, B. (1990). Probabilidades e Estatística, Vol. I e II. Mc Graw-Hill.<br />

Nelson, D. (1990). Stationarity and persistence in the GARCH(1,1) model. Econometric<br />

Theory 6, pp. 318-334.<br />

Nicolau, J. (2004). Equações Diferenciais & Equações às Diferenças, Texto de Apoio n o<br />

28, CEMAPRE-ISEG/UTL.<br />

Pascuala L. , J. Romob e E. Ruiz (2006). Bootstrap Prediction for Returns and Volatilities<br />

in GARCH models. Computational Statistics & Data Analysis, 50(9), pp. 2293-2312.<br />

Pinto, S. (2010), Transmissão de Volatilidade nos Mercados Financeiros durante Períodos<br />

de Crises, Tese de Mestrado em Matemática <strong>Financeira</strong>, ISEG/UTL.<br />

447


Stelzer, R. (2009). On Markov-Switching Arma Processes? Stationarity, Existence of Mo-<br />

ments, and Geometric Ergodicity. Econometric Theory, 25(1), pp. 43-62.<br />

Taylor, H. e S. Karlin (1984). An Introduction to Stochastic Modeling. Academic Press,<br />

New York.<br />

Taylor S. (2005). Asset Price Dynamics, Volatility, and Prediction, Princeton University<br />

Press.<br />

Wooldridge, J. (1994). Estimation and Inference for Dependent Processes, in Handbook<br />

of Econometrics, Vol. 4 , pp. 2641-2700., edited by Engle R.F. and McFadden D.L.<br />

Elsevier Science B.V. , Amsterdam.<br />

448

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!