Econometria Financeira - Arquivo Escolar
Econometria Financeira - Arquivo Escolar
Econometria Financeira - Arquivo Escolar
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Econometria</strong> <strong>Financeira</strong><br />
João Nicolau<br />
ISEG/UTL e CEMAPRE<br />
Abril 2011<br />
(Versão preliminar e incompleta)
Notas Prévias<br />
Comentários são bem vindos (nicolau@iseg.utl.pt). Neste documento abordam-se métodos<br />
econométricos relevantes para finanças. Veremos algumas aplicações financeiras, mas a ên-<br />
fase deste documento está na componente econométrica. A leitura deste documento supõe<br />
conhecimentos sobre inferência estatística e o modelo de regressão linear múltiplo, no que<br />
diz respeito à estimação e à inferência estatísticas sob as hipóteses clássicas.<br />
Notação e Convenções<br />
Escreve-se f (x) para designar a função densidade de probabilidade (fdp) de uma variável<br />
aleatória X. Quando estão em causa duas variáveis aleatórias X e Y, escreve-se, geralmente,<br />
fx e fy para designar, respectivamente, as fdp de X e Y (f (x) e f (y) é, em princípio,<br />
incorrecto). O uso simultâneo das notações f (x) (fdp de X) e f (x, y) (fdp conjunta de<br />
(X, Y )) é conflituoso, pois f ou é uma aplicação de R em R + ou é uma aplicação de R 2<br />
em R + (e, portanto, f não poderá designar simultaneamente ambas as aplicações). A rigor<br />
deverá escrever-se fx e fx,y. No entanto, se não existir perigo de confusão, opta-se pela<br />
notação mais simples e habitual f (x) e f (x, y). Escreve-se também f (y| x) ou fy|x para<br />
designar a fdp condicionada de Y dado X = x. Em suma, nesta versão do documento,<br />
adoptam-se as notações que se entendem necessárias e convenientes de forma a não causar<br />
confusão. Por exemplo, num certo contexto, pode escrever-se f (x, y) e, noutro diferente,<br />
pode escrever-se fy,x.<br />
O processo estocástico {yt, t = 1, 2, ...} escreve-se indiferentemente como {yt} ou y.<br />
a := b significa, a é igual a b por definição. Por exemplo, se quisermos identificar a letra<br />
µ como a média de X, escrevemos µ := E (X). Para este tipo de relações, certos autores<br />
usam µ ≡ E (X) .<br />
Em séries temporais usamos os termos “amostra grande” (ou “amostra pequena”) para<br />
identificar séries temporais longas (ou curtas).<br />
3
Acrónimos e Siglas Frequentemente Usados<br />
An<br />
a<br />
d<br />
∼ N - An tem distribuição aproximadamente normal (usamos −→ para a convergên-<br />
cia em distribuição).<br />
EE - Estritamente estacionário.<br />
EDF - Equação às diferenças Finitas.<br />
EQM - Erro Quadrático Médio.<br />
ESO - Estacionário de segunda ordem ou Estacionaridade de Segunda Ordem.<br />
FAC - Função de Autocorrelação.<br />
FACP - Função de Autocorrelação Parcial.<br />
fdp - Função Densidade de Probabilidade.<br />
HC- Heterocedasticidade Condicional.<br />
IC - Intervalo de Confiânça (ou de previsão, consoante o contexto).<br />
i.i.d. - Independente e Identicamente Distribuído.<br />
RB - Ruído Branco.<br />
v.a. - Variável Aleatória.<br />
4
Conteúdo<br />
I Introdução 13<br />
1 Objecto e Método da <strong>Econometria</strong> <strong>Financeira</strong> 15<br />
2 Preços e Retornos 17<br />
2.1 Retornos Discretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />
2.1.1 Retorno Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />
2.1.2 Retorno Multi-Períodos . . . . . . . . . . . . . . . . . . . . . . . 19<br />
2.1.3 Retornos de Portfolios . . . . . . . . . . . . . . . . . . . . . . . . 20<br />
2.1.4 Retornos Ajustados aos Dividendos . . . . . . . . . . . . . . . . . 22<br />
2.1.5 Retornos Ajustados à Inflação . . . . . . . . . . . . . . . . . . . . 22<br />
2.1.6 Retornos Anualizados . . . . . . . . . . . . . . . . . . . . . . . . 23<br />
2.2 Retornos Contínuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />
2.2.1 Retorno Multi-Períodos . . . . . . . . . . . . . . . . . . . . . . . 26<br />
2.2.2 Retornos de Portfolio . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />
2.2.3 Retornos Ajustados aos Dividendos . . . . . . . . . . . . . . . . . 27<br />
2.2.4 Retornos Ajustados à Inflação . . . . . . . . . . . . . . . . . . . . 27<br />
2.2.5 Retornos Anualizados . . . . . . . . . . . . . . . . . . . . . . . . 28<br />
2.3 Retornos Contínuos vs. Retornos Discretos . . . . . . . . . . . . . . . . . 30<br />
2.A Outra Interpretação de rt . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />
2.B Notas Técnicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32<br />
2.B.1 Retorno Multi-Períodos como Função dos Retornos Simples . . . . 32<br />
2.B.2 r e R: Série de Taylor . . . . . . . . . . . . . . . . . . . . . . . . 32<br />
3 Factos Empíricos Estilizados de Séries Temporais <strong>Financeira</strong>s 33<br />
3.1 Regularidade Empíricas relacionadas com a Distribuição Marginal . . . . . 33<br />
3.1.1 Prémio de Risco Positivo . . . . . . . . . . . . . . . . . . . . . . . 34<br />
5
3.1.2 Desvios Padrão Diferentes Consoante os Activos . . . . . . . . . . 35<br />
3.1.3 Retornos de Acções e de Índices tendem a Apresentar Assimetria<br />
Negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />
3.1.4 Retornos Apresentam Distribuições Leptocúrticas . . . . . . . . . . 37<br />
3.1.5 Aumento da Frequência das Observações Acentua a Não Normali-<br />
dade das Distribuições . . . . . . . . . . . . . . . . . . . . . . . . 43<br />
3.1.6 Efeitos de Calendário . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />
3.1.7 Distribuições Teóricas para os Retornos . . . . . . . . . . . . . . . 47<br />
3.1.8 Estimação Não Paramétrica da Função Densidade de Probabilidade 54<br />
3.2 Regularidade Empíricas relacionadas com a Distribuição Condicional . . . 55<br />
3.2.1 Autocorrelações Lineares Baixas entre os Retornos . . . . . . . . . 55<br />
3.2.2 Volatility Clustering . . . . . . . . . . . . . . . . . . . . . . . . . 58<br />
3.2.3 Forte Dependência Temporal da Volatilidade . . . . . . . . . . . . 60<br />
3.2.4 Efeito Assimétrico . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />
3.2.5 Aumento da Frequência das Observações Acentua a Não Linearidade 64<br />
3.2.6 Co-Movimentos de Rendibilidade e Volatilidade . . . . . . . . . . 64<br />
4 Processos Estocásticos: Revisões 67<br />
4.1 Processo Estocástico e Filtração . . . . . . . . . . . . . . . . . . . . . . . 67<br />
4.2 Valores Esperados Condicionais: Principais Resultados . . . . . . . . . . . 68<br />
4.3 Distribuição Condicional versus Distribuição Marginal . . . . . . . . . . . 72<br />
4.4 Processos Estocásticos Elementares, Estacionaridade e Fraca Dependência . 77<br />
4.4.1 Processos Estocásticos Elementares . . . . . . . . . . . . . . . . . 77<br />
4.4.2 Estacionaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79<br />
4.4.3 Fraca Dependência . . . . . . . . . . . . . . . . . . . . . . . . . . 83<br />
4.5 Processos Ergódicos e Estritamente Estacionários . . . . . . . . . . . . . . 87<br />
4.5.1 Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87<br />
4.5.2 Modelos Não Lineares do tipo yt = g (yt−1, yt−2, ..., yt−p) + ut . . . 96<br />
4.5.3 Estabilidade em EDF . . . . . . . . . . . . . . . . . . . . . . . . . 99<br />
4.5.4 Modelos Não Lineares do tipo yt = Atyt−1+Bt . . . . . . . . . . 100<br />
4.5.5 Modelos Não Lineares do tipo yt = g (yt−1, u t) . . . . . . . . . . . 104<br />
4.A Demonstrações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106<br />
6
II Modelos 109<br />
5 O Problema da Especificação 111<br />
5.1 O Axioma da Correcta Especificação do Modelo . . . . . . . . . . . . . . . 111<br />
5.2 Modelação da Média Condicional e Modelos Dinamicamente Completos . . 113<br />
5.2.1 Modelos Dinamicamente Completos . . . . . . . . . . . . . . . . . 113<br />
5.2.2 Média Condicional Não Linear . . . . . . . . . . . . . . . . . . . . 115<br />
5.3 Modelação da Variância Condicional . . . . . . . . . . . . . . . . . . . . . 116<br />
5.4 Distribuição de Condicional . . . . . . . . . . . . . . . . . . . . . . . . . 116<br />
6 Modelação da Média: Abordagem Linear 119<br />
6.1 Definições Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120<br />
6.1.1 Autocorrelação de Ordem s (FAC) . . . . . . . . . . . . . . . . . . 120<br />
6.1.2 Autocorrelação Parcial de Ordem s (FACP) . . . . . . . . . . . . . 120<br />
6.1.3 Operador de Diferença e de Atraso . . . . . . . . . . . . . . . . . . 122<br />
6.2 Processos Lineares Estacionários . . . . . . . . . . . . . . . . . . . . . . . 123<br />
6.2.1 Processos Média Móvel . . . . . . . . . . . . . . . . . . . . . . . 123<br />
6.2.2 Processos Autoregressivos . . . . . . . . . . . . . . . . . . . . . . 127<br />
6.2.3 Processos ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . 135<br />
6.3 Processos Lineares Não Estacionários . . . . . . . . . . . . . . . . . . . . 139<br />
6.3.1 Não Estacionaridade na Média . . . . . . . . . . . . . . . . . . . . 139<br />
6.3.2 Não Estacionaridade na Variância . . . . . . . . . . . . . . . . . . 146<br />
6.4 Modelação ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150<br />
6.5 Variáveis Impulse-Dummy em Modelos de Regressão: Cuidados a Observar 154<br />
6.5.1 Inconsistência do Estimador . . . . . . . . . . . . . . . . . . . . . 154<br />
6.5.2 Inconsistência do Teste-t . . . . . . . . . . . . . . . . . . . . . . . 156<br />
6.5.3 Uma Solução para ensaiar H0 : γ = 0 . . . . . . . . . . . . . . . . 156<br />
6.5.4 Impulse-dummies e a matriz de White . . . . . . . . . . . . . . . . 157<br />
6.5.5 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159<br />
6.6 Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160<br />
6.6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160<br />
6.6.2 Previsão Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . 162<br />
6.6.3 Intervalos de Previsão I . . . . . . . . . . . . . . . . . . . . . . . . 168<br />
7
6.6.4 Intervalos de Previsão II - Variância do Erro de Previsão no modelo<br />
ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174<br />
6.6.5 Previsão de (muito) Longo Prazo . . . . . . . . . . . . . . . . . . 177<br />
6.6.6 Qualidade da Previsão . . . . . . . . . . . . . . . . . . . . . . . . 180<br />
6.6.7 Outros Métodos de Previsão Lineares . . . . . . . . . . . . . . . . 188<br />
6.A Método para Obter a FACP . . . . . . . . . . . . . . . . . . . . . . . . . . 190<br />
6.B Transformação de um Processo MA(1) Não Invertível num Invertível . . . 191<br />
6.C Invertibilidade de Processos MA (exemplos) . . . . . . . . . . . . . . . . . 192<br />
6.D Estacionaridade de 2 a Ordem do Processo AR(1) . . . . . . . . . . . . . . 195<br />
6.E Estacionaridade de 2 a Ordem do Processo AR(p) . . . . . . . . . . . . . . 198<br />
6.F Processos ARMA Sazonais . . . . . . . . . . . . . . . . . . . . . . . . . . 199<br />
6.G Demonstração da Proposição 6.5.1 . . . . . . . . . . . . . . . . . . . . . . 203<br />
6.H Uma Nota sobre Intervalos de Confiança . . . . . . . . . . . . . . . . . . . 204<br />
6.I U E + U V + U C = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206<br />
7 Modelação da Média: Abordagem Não Linear 207<br />
7.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207<br />
7.2 Estabilidade em Equações às Diferenças Finitas Determinísticas . . . . . . 210<br />
7.2.1 Pontos Fixos e Estabilidade de Sistemas Lineares . . . . . . . . . . 211<br />
7.2.2 Estabilidade de Sistemas Não Lineares . . . . . . . . . . . . . . . 217<br />
7.2.3 Pontos Periódicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 227<br />
7.3 Modelo Limiar Autoregressivo (Threshold AR - TAR) . . . . . . . . . . . 234<br />
7.3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234<br />
7.3.2 Soluções Periódicas . . . . . . . . . . . . . . . . . . . . . . . . . 236<br />
7.3.3 Estacionaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240<br />
7.3.4 Exemplo (Bounded Random Walk) . . . . . . . . . . . . . . . . . . 241<br />
7.3.5 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242<br />
7.3.6 Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245<br />
7.4 Modelo Markov-Switching . . . . . . . . . . . . . . . . . . . . . . . . . . 248<br />
7.4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248<br />
7.4.2 Cadeias de Markov em tempo discreto com espaço de estados dis-<br />
cretos finito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249<br />
7.4.3 Modelos Markov-Switching . . . . . . . . . . . . . . . . . . . . . 254<br />
8
7.4.4 Função densidade de probabilidade de y . . . . . . . . . . . . . . . 255<br />
7.4.5 Probabilidades Associadas aos Regimes . . . . . . . . . . . . . . . 256<br />
7.4.6 Estacionaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260<br />
7.4.7 Estimação e Inferência . . . . . . . . . . . . . . . . . . . . . . . . 263<br />
7.4.8 Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265<br />
7.4.9 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266<br />
8 Modelação da Heterocedasticidade Condicionada - Caso Univariado 269<br />
8.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269<br />
8.1.1 Por que razão a volatilidade não é constante? . . . . . . . . . . . . 269<br />
8.1.2 Processos Multiplicativos . . . . . . . . . . . . . . . . . . . . . . 272<br />
8.1.3 Distribuições de Caudas Pesada . . . . . . . . . . . . . . . . . . . 273<br />
8.1.4 O papel da Média Condicional e o Modelo de Heterocedasticidade<br />
Condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274<br />
8.1.5 Vantagens dos modelos de Heterocedasticidade Condicionada . . . 274<br />
8.2 Modelo ARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275<br />
8.2.1 Dois Primeiros Momentos de ut . . . . . . . . . . . . . . . . . . . 277<br />
8.2.2 Representação AR de um ARCH . . . . . . . . . . . . . . . . . . . 277<br />
8.2.3 Estacionaridade de Segunda Ordem do ARCH(q) . . . . . . . . . . 278<br />
8.2.4 FAC e FACP de um u 2 t e Identificação do Processo ARCH(q) . . . . 279<br />
8.2.5 Características da Distribuição Marginal de ut . . . . . . . . . . . . 280<br />
8.2.6 Momentos e Distribuição de y . . . . . . . . . . . . . . . . . . . . 282<br />
8.2.7 Volatilidade: Definições . . . . . . . . . . . . . . . . . . . . . . . 283<br />
8.3 Modelo GARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284<br />
8.3.1 GARCH(p,q) representa um ARCH(∞) . . . . . . . . . . . . . . . 284<br />
8.3.2 Representação ARMA de um GARCH . . . . . . . . . . . . . . . 286<br />
8.4 Modelo IGARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288<br />
8.4.1 Persistência na Variância . . . . . . . . . . . . . . . . . . . . . . . 290<br />
8.4.2 Alterações de Estrutura e o IGARCH . . . . . . . . . . . . . . . . 293<br />
8.4.3 EWMA (Exponential Weighted Moving Averages) . . . . . . . . . 294<br />
8.5 Modelo CGARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297<br />
8.6 Modelo GJR-GARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298<br />
8.7 Modelo GARCH-M . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300<br />
9
8.8 Modelo de Heterocedasticidade Condicionada com Variáveis Explicativas . 301<br />
8.9 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303<br />
8.9.1 Estimador de Máxima Verosimilhança . . . . . . . . . . . . . . . . 304<br />
8.9.2 Estimador de Pseudo Máxima Verosimilhança . . . . . . . . . . . . 309<br />
8.9.3 Método da Máxima Verosimilhança com Distribuições Não Normais 310<br />
8.10 Ensaios Estatísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312<br />
8.10.1 Ensaios Pré-Estimação . . . . . . . . . . . . . . . . . . . . . . . . 313<br />
8.10.2 Ensaios Pós-Estimação . . . . . . . . . . . . . . . . . . . . . . . . 316<br />
8.11 Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320<br />
8.11.1 Previsão da Variância Condicional . . . . . . . . . . . . . . . . . . 321<br />
8.11.2 A Previsão da Variável Dependente y . . . . . . . . . . . . . . . . 324<br />
8.11.3 Intervalos de Confiança para y e para a Volatilidade baseados em<br />
Boostrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327<br />
8.12 Problema dos Erros de Especificação na Média Condicional . . . . . . . . 329<br />
8.13 Modelos Não Lineares na Média combinados com o GARCH . . . . . . . . 331<br />
8.13.1 Modelo Limiar Autoregressivo com Heterocedasticidade Condicionada331<br />
8.13.2 Modelo Markov-Switching com Heterocedasticidade Condicionada 333<br />
8.A Estabilidade de EDF e a Estacionaridade (Caso modelo ARCH) . . . . . . 335<br />
9 Modelação da Heterocedasticidade Condicionada - Caso Multivariado 339<br />
9.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339<br />
9.2 Densidade e Verosimilhança . . . . . . . . . . . . . . . . . . . . . . . . . 341<br />
9.3 Modelo VECH (ou VEC) . . . . . . . . . . . . . . . . . . . . . . . . . . . 342<br />
9.4 Modelo Diagonal VECH . . . . . . . . . . . . . . . . . . . . . . . . . . . 346<br />
9.5 Modelo BEKK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348<br />
9.6 Modelo de Correlações Condicionais Constantes . . . . . . . . . . . . . . 349<br />
9.7 Modelo DCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351<br />
9.8 Modelo “Triangular” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352<br />
9.8.1 Introdução e Formalização do Modelo . . . . . . . . . . . . . . . . 352<br />
9.8.2 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357<br />
9.8.3 Testes e Rácios de Variância . . . . . . . . . . . . . . . . . . . . . 359<br />
9.8.4 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360<br />
9.9 GARCH Ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362<br />
10
9.10 Testes de Diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368<br />
10 Regressão Não Paramétrica 371<br />
10.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371<br />
10.2 Estimação Não Paramétrica da Função Densidade de Probabilidade . . . . 371<br />
10.2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371<br />
10.2.2 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373<br />
10.2.3 Escolha de h . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374<br />
10.2.4 Estimação localmente linear da Média Condicional . . . . . . . . . 376<br />
10.2.5 Estimação localmente linear da Variância Condicional . . . . . . . 382<br />
10.A Demonstrações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382<br />
III Aplicações 389<br />
11 Eficiência do Mercado de Capitais 391<br />
11.1 Introdução e Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391<br />
11.2 Teste à Eficiência Fraca de Mercado . . . . . . . . . . . . . . . . . . . . . 392<br />
11.2.1 Testes de Autocorrelação . . . . . . . . . . . . . . . . . . . . . . . 394<br />
11.2.2 Regras de Compra e Venda e a Análise Técnica . . . . . . . . . . . 395<br />
11.3 Teste à Eficiência Semi-Forte de Mercado . . . . . . . . . . . . . . . . . . 400<br />
11.3.1 Reacção do Mercado à Chegada de Informação . . . . . . . . . . . 401<br />
12 Selecção de Portfolios 405<br />
12.1 Portfolio Baseado em Momentos Marginais . . . . . . . . . . . . . . . . . 405<br />
12.1.1 Todos os Activos Envolvem Risco . . . . . . . . . . . . . . . . . . 406<br />
12.1.2 Modelo com Activo Sem Risco . . . . . . . . . . . . . . . . . . . 411<br />
12.2 Portfolio Baseado em Momentos Condicionais . . . . . . . . . . . . . . . 413<br />
13 Risco de Mercado e o Valor em Risco 417<br />
13.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417<br />
13.2 Abordagem Não Paramétrica . . . . . . . . . . . . . . . . . . . . . . . . . 419<br />
13.3 Abordagem Paramétrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 422<br />
13.3.1 Modelo Gaussiano Simples . . . . . . . . . . . . . . . . . . . . . 424<br />
13.3.2 Modelo RiskMetrics . . . . . . . . . . . . . . . . . . . . . . . . . 425<br />
11
13.3.3 Modelo ARMA-GARCH . . . . . . . . . . . . . . . . . . . . . . . 426<br />
13.4 Generalização: Portfolio com m Activos . . . . . . . . . . . . . . . . . . . 431<br />
13.5 Abordagem pela Teoria dos valores Extremos . . . . . . . . . . . . . . . . 432<br />
13.5.1 Introdução à Teoria e Estimação. VaR Marginal . . . . . . . . . . . 433<br />
13.5.2 VaR Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . 437<br />
13.6 Avaliação do VaR (Backtesting) . . . . . . . . . . . . . . . . . . . . . . . 438<br />
12
Parte I<br />
Introdução<br />
13
Página em branco<br />
14
Capítulo 1<br />
Objecto e Método da <strong>Econometria</strong><br />
<strong>Financeira</strong><br />
(Última actualização: 11/2009)<br />
Entende-se que “Financial econometrics is simply the application of econometric tools to<br />
financial data” (Engle, 2001). A econometria financeira é, portanto, uma disciplina econométrica<br />
(baseada em métodos estatísticos e matemáticos) vocacionada para analisar dados finan-<br />
ceiros. Esta análise serve de suporte a variadíssimos estudos como por exemplo,<br />
• avaliação do risco (por exemplo, através do Value at Risk);<br />
• avaliação de obrigações, opções, etc.;<br />
• previsão da volatilidade;<br />
• gestão de portfolios;<br />
• análise da previsibilidade e eficiência dos mercados, etc.<br />
Sendo a econometria financeira a aplicação de métodos econométricos adequados a da-<br />
dos financeiros, todos os métodos estatísticos que de uma forma ou outra se apliquem a dados<br />
financeiros, interessam à econometria financeira. De todo o modo, a área proeminente em<br />
econometria financeira é a das séries temporais. Estuda-se, por exemplo, a evolução tempo-<br />
ral das cotações, taxas de câmbio, taxas de juro, etc. Por esta razão, este documento analisa<br />
essencialmente métodos econométricos para séries temporais, sobretudo os métodos que de<br />
alguma forma se adequam às característica próprias das séries financeiras (como sejam, a<br />
não linearidade e a não normalidade).<br />
15
É conveniente distinguir séries temporais de natureza macroeconómica das de natureza<br />
financeira. As principais diferenças são as seguintes:<br />
• dados de natureza macroeconómica (consumo, produto, taxa de desemprego) podem<br />
ser observados mensalmente, trimestralmente ou anualmente; dados financeiros, como<br />
por exemplo, retornos de acções ou taxas de câmbio podem ser observados com uma<br />
frequência muito superior; nalguns casos, com intervalos de minutos ou segundos entre<br />
duas observações consecutivas;<br />
• como consequência do ponto anterior, o número de observações disponíveis de dados<br />
financeiros situa-se na ordem das centenas de milhares. Normalmente, prefere-se tra-<br />
balhar com dados diários (evitando-se os problemas das microestruturas de mercado);<br />
nestes casos trabalham-se com algumas unidades de milhares de observações. Com<br />
as séries macroeconómicas raramente se passam das poucas centenas de observações<br />
(quando, na melhor das hipóteses, se têm observações mensais);<br />
• os dados macroeconómicos são menos fiáveis, i.e., estão mais sujeitos a erros de<br />
medição. Com efeito, os valores apurados não resultam de valores efectivamente ob-<br />
servados no mercado, como sucede com a generalidade das séries financeiras, mas<br />
antes de valores apurados de acordo com certa metodologia e decorrentes de inquéri-<br />
tos preliminares;<br />
• todavia, a principal diferença qualitativa decorre das propriedades estatísticas dos dois<br />
tipos de séries. Ao contrário das séries macroeconómicas, as séries financeiras exibem<br />
habitualmente fortes efeitos não lineares e distribuições não normais. As propriedades<br />
estatísticas das séries financeiras serão estudadas no capítulo 3.<br />
16
Capítulo 2<br />
Preços e Retornos<br />
(Última actualização: 2/2011)<br />
O ponto de partida para a análise estatística é normalmente uma série de preços (por<br />
exemplo, a série das cotações de fecho do Banco XYZ num certo intervalo de tempo). De<br />
uma forma geral, o preço pode ser, por exemplo, o valor a que um intermediário financeiro<br />
informa estar disposto a pagar pela compra de um determinado activo, opção ou futuro (bid<br />
price), o valor a que um intermediário financeiro informa estar disposto a receber pela venda<br />
de um determinado activo, opção ou futuro (ask price), o valor final da transacção, o valor<br />
definido num mercado de futuros, entre outros.<br />
O intervalo de tempo entre dois preços consecutivos é uma variável aleatória com valores<br />
em R + . Isto significa que se poderia considerar uma sucessão de preços {Pt1, Pt2, ..., Ptn}<br />
com δi = ti − ti−1 não constante. Não obstante, prefere-se normalmente trabalhar com<br />
uma periodicidade fixa. Por exemplo, se análise empírica de certo fenómeno aconselha o<br />
tratamento diário dos preços, a sucessão pertinente passará a ser {P1, P2, ..., Pn} onde Pt<br />
representa habitualmente o valor de fecho no dia t. O tratamento estatístico do caso em que<br />
δi = ti − ti−1 é encarado como uma variável aleatória, é um pouco mais delicada, e insere-se<br />
na área dos modelos de muita alta-frequência.<br />
Depois de coligidos os preços, calculam-se os retornos associados (veremos nos pon-<br />
tos seguintes duas fórmulas alternativas de cálculo). Na figura 2-1 apresentam-se preços e<br />
retornos da Microsoft no período Janeiro de 1988 a Fevereiro de 2006.<br />
Prefere-se geralmente a sucessão dos retornos ou das rendibilidades à sucessão dos preços.<br />
Por um lado, a sucessão dos retornos fornece tanta informação sobre a oportunidades de in-<br />
vestimento quanto a sucessão dos preços. Deste ponto de vista é indiferente trabalhar-se<br />
17
60<br />
50<br />
40<br />
30<br />
20<br />
10<br />
0<br />
Jan88<br />
0.2<br />
0.15<br />
0.1<br />
0.05<br />
0<br />
0.05<br />
0.1<br />
0.15<br />
0.2<br />
Jan88<br />
Jan90<br />
Jan90<br />
Jan92<br />
Jan92<br />
Jan94<br />
Preços Microsoft<br />
Jan96<br />
Jan98<br />
Retornos Microsoft<br />
Jan94<br />
Jan96<br />
Figura 2-1: Preços e Retornos diários da Microsoft no período Jan 88 a Fev 06<br />
com qualquer das sequências. Há, todavia, uma razão de peso para se preferir a sucessão<br />
dos retornos: esta é mais fácil de modelar. Veremos adiante, com mais pormenor, que a<br />
sucessão dos preços é quase sempre não estacionária, ao passo que a sucessão dos retornos<br />
é tendencialmente estacionária (facilitando, por isso, a aplicação de resultados essenciais,<br />
como sejam, a lei dos grande números e o teorema do limite central) 1 .<br />
Há duas formas de obtermos o retorno associado ao preço que descreveremos a seguir.<br />
2.1 Retornos Discretos<br />
Seja Pt a cotação de um certo activo no momento t. Suponhamos que P é observado nos<br />
momentos t = 1, 2, ..., n (podemos supor que temos n observações diárias).<br />
1 Taxas de câmbio real e taxas de juro podem ser analisadas nos níveis e não nas primeiras diferenças, se<br />
existir evidência de estacionaridade.<br />
18<br />
Jan98<br />
Jan00<br />
Jan00<br />
Jan02<br />
Jan02<br />
Jan04<br />
Jan04<br />
Jan06<br />
Jan06
2.1.1 Retorno Simples<br />
O retorno simples em tempo discreto de um certo investimento no momento t (retorno do<br />
dia t − 1 para o dia t) é definido como<br />
Rt = Pt − Pt−1<br />
Pt−1<br />
= Pt<br />
− 1 (2.1)<br />
Pt−1<br />
(na literatura anglo-saxónica Rt é designado por simple net return e 1 + Rt = Pt/Pt−1 como<br />
simple gross return). Naturalmente, também se tem<br />
Pt = Pt−1 (1 + Rt) .<br />
Esta última expressão mostra que Rt representa, efectivamente, a taxa de rendibilidade de um<br />
certo investimento, adquirido por Pt−1 e vendido por Pt. Se Pt−1 representa o preço unitário<br />
de um activo financeiro e K o número de acções adquiridas em t − 1, a taxa de rendibilidade<br />
do investimento de valor KPt−1 é também, naturalmente, Rt, pois Pt = Pt−1 (1 + Rt) ⇔<br />
PtK = Pt−1K (1 + Rt).<br />
2.1.2 Retorno Multi-Períodos<br />
Suponha-se que {P1, P2, ..., Pn} é a sucessão de preços diários. Podemos estar interessados,<br />
por exemplo, no retorno semanal e, para o efeito, basta considerar<br />
Rt (5) = Pt − Pt−5<br />
Pt−5<br />
(admitindo que se observam cinco preços por semana). De uma forma geral,<br />
Rt (m) = Pt − Pt−m<br />
Pt−m<br />
= Pt<br />
− 1. (2.2)<br />
Pt−m<br />
Para calcular Rt (m) basta atender à expressão (2.2). Suponhamos, no entanto, que Pt e<br />
Pt−m não são conhecidos. A questão é, como calcular Rt (m) a partir dos retornos simples<br />
em t = 1, 2, ...? Pode-se provar (ver apêndice 2.B.1)<br />
Rt (m) = Pt − Pt−m<br />
Pt−m<br />
=<br />
19<br />
t<br />
j=t−m+1<br />
(1 + Rj) − 1.
2.1.3 Retornos de Portfolios<br />
Admita-se que o capital em t − 1 é igual K (unidades monetárias) e existem dois activos<br />
A e B, cujas taxas de rendibilidade são, respectivamente, RA,t e RB,t. Um certa fracção do<br />
capital, ωA, é investido em A e, a parte restante, ωB = 1 − ωA, é investido em B. Desta<br />
forma, o valor do investimento no período seguinte, t, é igual a<br />
e o retorno do portfolio é<br />
K (ωA (1 + RA,t) + ωB (1 + RB,t))<br />
Rp,t = K (ωA (1 + RA,t) + ωB (1 + RB,t)) − K<br />
K<br />
= ωA (1 + RA,t) + ωB (1 + RB,t) − 1<br />
= ωARA,t + ωBRB,t.<br />
Com m activos, tem-se ω1 + ... + ωm = 1 e<br />
Rp,t = ω1R1,t + ω2R2,t + ... + ωmRm,t<br />
m<br />
= ωiRi,t. (2.3)<br />
i=1<br />
Conclui-se portanto que o retorno de um portfolio é igual a uma média ponderada dos vários<br />
retornos do portfolio.<br />
A variância do retorno de um portfolio tende a ser inferior à variância dos retornos do<br />
portfolio. Para analisar esta questão, considere-se<br />
Var (Rp,t) = Var<br />
= ω 2 i<br />
m<br />
m<br />
i=1<br />
i=1<br />
ωiRi,t<br />
<br />
=<br />
m<br />
i=1<br />
m−1 <br />
Var (Ri,t) + 2<br />
m−1 <br />
Var (ωiRi,t) + 2<br />
m<br />
j=1 i=j+1<br />
m<br />
j=1 i=j+1<br />
ωiωi−j Cov (Ri,t, Ri−j,t) .<br />
Cov (ωiRi,t, ωi−jRi−j,t)<br />
Simplifique-se esta expressão. Admita-se que os retornos têm variância igual, Var (Ri,t) =<br />
σ 2 e que os pesos são iguais, ωi = 1/m (estas hipóteses significam que se tomam títulos com<br />
idêntica variabilidade e com o mesmo peso na carteira). Seja<br />
ˆγ =<br />
m−1 m j=1 i=j+1 Cov (Ri,t, Ri−j,t)<br />
m(m−1)<br />
2<br />
20
a “covariância média”, isto é, a média aritmética dos valores de todas as covariâncias distintas<br />
(que são em número de m (m − 1) /2). Sob estas hipóteses, vem<br />
Var (Rp,t) = σ2<br />
m<br />
1<br />
+ 2<br />
m2 ˆγN (m − 1)<br />
2<br />
= σ2<br />
m<br />
ˆγ (m − 1)<br />
+<br />
m<br />
.<br />
Nestas circunstâncias, é fácil verificar que Var (Rp,t) < Var (Ri,t) é equivalente a σ 2 > ˆγ.<br />
Assim, se a variabilidade dos activos (tomados isoladamente) for superior à média aritmética<br />
dos valores de todas as covariâncias distintas, o retorno do portfolio apresenta menor variân-<br />
cia do que a dos activos que a constituem. A desigualdade σ 2 > ˆγ verifica-se trivialmente<br />
se os retornos forem independentes (ˆγ = 0) ou se as covariâncias forem negativas (ˆγ < 0).<br />
A desigualdade σ 2 > ˆγ tende a verificar-se quando as covariâncias são baixas e/ou existem<br />
várias covariâncias negativas. Deve notar-se que a hipótese de independência é inverosímil,<br />
pois os activos partilham aspectos comuns relacionados com o comportamento geral do mer-<br />
cado (risco de mercado).<br />
Uma forma mais convincente de sugerir Var (Rp,t) < Var (Ri,t) é a seguinte. Assuma-<br />
se: (i) os retornos têm variância igual, Var (Ri,t) = σ 2 , (ii) os pesos são iguais, ωi = 1/m e<br />
(iii) as covariâncias são iguais. Resulta por construção que a Var (Rp,t) < Var (Ri,t) . Com<br />
efeito, comece-se por observar que Cov (Ri,t, Ri−j,t) = ρσ 2 (ρ é o coeficiente de correlação).<br />
Nestas condições vem m−1<br />
j=1<br />
m<br />
i=j+1 ρσ2 = ρσ 2 m (m − 1) /2 e, portanto,<br />
Var (Rp,t) = σ2<br />
m<br />
+ 2 1<br />
m 2<br />
ρσ2m (m − 1)<br />
.<br />
2<br />
Verifica-se agora que Var (Rp,t) < Var (Ri,t) é equivalente a ρ < 1. Como, por definição ρ é<br />
menor do que 1, a desigualdade Var (Rp,t) < Var (Ri,t) verifica-se sempre, sob as hipóteses<br />
assumidas. Claro que, na prática, nenhuma das hipóteses (i), (ii) e (iii) se verifica de forma<br />
exacta, mas é seguro dizer-se que, em condições gerais, a diversificação (i.e. m > 1) baixa a<br />
variabilidade do portfolio.<br />
21
2.1.4 Retornos Ajustados aos Dividendos<br />
Se no período t (ou se algures entre t−1 e t) há lugar ao pagamento de dividendos, o retorno<br />
deve reflectir esse acréscimo de rendimento. O retorno total vem<br />
Rt = Pt + Dt − Pt−1<br />
Pt−1<br />
= Pt − Pt−1<br />
Pt−1<br />
+ Dt<br />
Pt−1<br />
onde (Pt − Pt−1) /Pt−1 é, por vezes, referido como capital gain e Dt/Pt−1 como dividend<br />
yield.<br />
2.1.5 Retornos Ajustados à Inflação<br />
Até agora considerámos retornos nominais. Em certos estudos, sobretudo de carácter macro-<br />
económico, tem interesse analisar o retorno real. Para obtermos este retorno, é necessário<br />
expurgar do ganho de capital o “efeito do crescimento geral de preços”. Suponhamos que<br />
a inflação foi de 4% e o retorno (anualizado) foi de 3%. Houve ganho real no investimento<br />
realizado? Se atendermos ao efeito “crescimento geral de preços” a resposta é negativa. É<br />
tentador dizer que a perda real é de 1%. Efectivamente é quase 1%, mas não chega, como<br />
se mostra a seguir. Para obtermos o retorno real, R real<br />
t<br />
considera-se<br />
R real<br />
t<br />
= P real<br />
t<br />
− P real<br />
t−1<br />
P real<br />
t−1<br />
, P real<br />
t = Pt<br />
IP Ct<br />
(ajustado, portanto, da inflação),<br />
sendo IP Ct o índice de preços ao consumidor (índice construído pelo INE, Instituto Na-<br />
cional de Estatística). Observe-se que P real<br />
t<br />
real do activo. Simples álgebra, permite concluir que<br />
R real<br />
t<br />
= P real<br />
t<br />
− P real<br />
t−1<br />
P real<br />
t−1<br />
é o preço deflacionado ou simplesmente o preço<br />
= Pt IP Ct−1<br />
− 1 =<br />
Pt−1 IP Ct<br />
Rt − πt<br />
πt + 1<br />
onde πt = (IP Ct − IP Ct−1) /IP Ct−1. Retomemos o exemplo acima, com Rt = 0.03 e<br />
πt = 0.04; logo,<br />
R real<br />
t<br />
= 0.03 − 0.04<br />
0.04 + 1<br />
= −0.0096<br />
isto é, os retornos reais caiem aproximadamente 1%, para sermos mais exactos, caiem 0.96%.<br />
Quando a inflação é relativamente baixa (por exemplo, se R real<br />
t<br />
22<br />
são retornos reais mensais) é
válida a aproximação,<br />
R real<br />
t<br />
Rt − πt.<br />
Como o IPC está, no máximo, disponível mensalmente, não é possível calcular-se retornos<br />
reais diários.<br />
2.1.6 Retornos Anualizados<br />
Para compararmos, por exemplo, o retorno diário do investimento A com o retorno mensal<br />
do investimento B, é necessário converter as diferentes taxas de rendibilidades a um mesmo<br />
período. Toma-se normalmente como período de referência o ano pelo que, as taxas de<br />
rendibilidade depois de convertidas em rendibilidades anuais dizem-se anualizadas. Supon-<br />
hamos que um certo investimento de valor P0 foi realizado no momento 0. Ao fim de T anos<br />
(T pode ser por exemplo 0.5, isto é, 6 meses) o mesmo investimento vale Pn. A questão que<br />
deveremos colocar é a seguinte: qual é a taxa de rendibilidade anual, RA, tal que, aplicada<br />
a um investimento P0 permite ao fim de T anos obter o investimento Pn? Ou seja, qual é o<br />
valor RA que resolve a equação<br />
P0 (1 + RA) T = Pn ?<br />
Tomando RA como incógnita, facilmente se obtém<br />
1<br />
Pn<br />
T<br />
RA =<br />
P0<br />
− 1. (2.4)<br />
Se os preços P0, P1, ...Pn são diários e se admitirmos que num ano se observam 250 preços,<br />
então T = n/250 (por exemplo, com n = 500 observações diárias, o período de investimento<br />
corresponde a dois anos, T = 500/250 = 2). Nestas condições, a fórmula (2.4) pode-se<br />
reescrever na forma<br />
250<br />
Pn<br />
n<br />
RA =<br />
P0<br />
Em termos gerais, se num ano se observam N preços (por exemplo, N = 12 se as obser-<br />
− 1.<br />
vações são mensais) e dispomos de n observações sobre os preços, então T = n/N e<br />
N<br />
Pn<br />
n<br />
RA =<br />
P0<br />
23<br />
− 1. (2.5)
Exemplo 2.1.1 Queremos comparar os seguintes investimentos:<br />
• O investimento 1 foi adquirido ao preço 1.5. Ao fim de 800 dias (isto é, 800/250 = 3.2<br />
anos) valia 1.9.<br />
• O investimento 2 foi adquirido ao preço 105. Ao fim de 50 meses (isto é, 50/12 = 4.17<br />
anos) valia 121.<br />
Questão: qual dos investimento foi preferível? Para os investimento 1 e 2, as taxa de<br />
rendibilidade anualizadas foram respectivamente de<br />
e,<br />
RA,1 =<br />
RA,2 =<br />
250<br />
1.9 800<br />
− 1 = 0.0766<br />
1.5<br />
12<br />
121 50<br />
− 1 = 0.034,<br />
105<br />
ou seja de 7.66% para o investimento 1 e 3.4% para o investimento 2. O investimento 1 foi,<br />
portanto, preferível.<br />
Quando o período de observação dos preços é relativamente curto as taxas de rendibili-<br />
dade anualizadas podem fornecer valores aberrantes. Por exemplo, se numa semana, devido<br />
à variabilidade dos preços, se observar P0 = 1 e P5 = 1.1, a taxa anualizada é de 1046.7%.<br />
2.2 Retornos Contínuos<br />
Sejam P0 e P1, respectivamente o capital inicial e o capital ao fim de um período. Se o<br />
capital se valorizou continuamente nesse período, qual é a taxa de rendibilidade instantânea<br />
associada? Para discutirmos esta questão, admita-se, para simplificar, que o período é o ano.<br />
Se a capitalização fosse anual, a taxa de rendibilidade Ra resultaria da resolução da equação<br />
P1 = P0 (1 + Ra) em ordem a Ra. Se a capitalização fosse semestral, a taxa de rendibilidade<br />
(semestral) Rs resultaria da resolução da equação<br />
P1 = P0<br />
<br />
1 + Rs<br />
<br />
1 +<br />
2<br />
Rs<br />
<br />
= P0 1 +<br />
2<br />
Rs<br />
2 2<br />
em ordem a Rs. De igual forma, numa capitalização trimestral, ter-se-ia P1 = P0 (1 + Rtr/4) 4 .<br />
Se a capitalização é contínua (capitalização minuto a minuto, segundo a segundo, etc.) então<br />
24
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
0.1<br />
0.2<br />
0.3<br />
Jan00<br />
Jul00<br />
Jan01<br />
Jul01<br />
Jan02<br />
Jul02<br />
Jan03<br />
Jul03<br />
Jan04<br />
Jul04<br />
Jan05<br />
Jul05<br />
Figura 2-2: Retornos mensais da IBM<br />
o capital P1 pode interpretar-se como o limite de<br />
Como limn→∞<br />
<br />
P1 = lim P0<br />
n→∞<br />
1 + r<br />
n<br />
n<br />
.<br />
<br />
r n r 1 + = e , a taxa de rendibilidade instantânea r resulta da resolução da<br />
n<br />
equação P1 = P0e r em ordem a r (pode-se obter P1 = P0e r resolvendo a equação diferencial<br />
P ′<br />
t = rPt - veja-se o apêndice 2.A). Logaritmizando a equação e resolvendo em ordem a r,<br />
obtém-se<br />
r = log P1 − log P0.<br />
Considere-se agora uma sucessão de preços {P1, P2, ..., Pn} . Define-se a taxa de rendibili-<br />
dade instantânea ou simplesmente o retorno contínuo de um certo investimento no momento<br />
t como<br />
Naturalmente esta expressão é equivalente a<br />
rt = log Pt − log Pt−1 = log Pt<br />
rt = log Pt − log Pt−1.<br />
Pt−1<br />
<br />
= log 1 + Pt<br />
<br />
− 1 = log (1 + Rt) .<br />
Pt−1<br />
Para dados diários, semanais ou mensais pode assumir-se rt Rt (ver apêndice 2.B.2). Na<br />
figura 2-2 as diferenças entre Rt e rt são relativamente pequenas. Se os dados fossem diários<br />
as diferenças seriam ainda mais pequenas.<br />
25<br />
R<br />
r
2.2.1 Retorno Multi-Períodos<br />
Suponha-se que {P1, P2, ..., Pn} é a sucessão de preços diários. Podemos estar interessados,<br />
por exemplo, no retorno semanal e, para o efeito, basta considerar<br />
<br />
Pt<br />
rt (5) = log<br />
Pt−5<br />
(admitindo que se observam cinco preços por semana). De uma forma geral,<br />
<br />
Pt<br />
rt (m) = log = log (Pt) − log (Pt−m) .<br />
Pt−m<br />
Seguindo o mesmo raciocínio que vimos atrás, suponhamos, no entanto, que Pt e Pt−m<br />
não são conhecidos. A questão é, como calcular rt (m) a partir dos retornos contínuos em<br />
t = 1, 2, ...? Para exemplificar, suponha-se que se têm retornos diários e procura-se o retorno<br />
semanal, i.e., admita-se o seguinte:<br />
retorno 2 a feira r1 = log P1 − log P0<br />
retorno 3 a feira r2 = log P2 − log P1<br />
retorno 4 a feira r3 = log P3 − log P2<br />
retorno 5 a feira r4 = log P4 − log P3<br />
retorno 6 a feira r5 = log P5 − log P4<br />
retorno da semana log P5 − log P0 = r1 + r2 + ... + r5<br />
A tabela anterior sugere que o retorno da semana é igual à soma dos retornos da semana.<br />
Com efeito,<br />
log P5 − log P0 = log P5 − log P4<br />
<br />
r5<br />
+log P2 − log P1<br />
<br />
r2<br />
+ log P4 − log P3<br />
<br />
r4<br />
+ log P1 − log P0<br />
<br />
+ log P3 − log P2<br />
<br />
(observe-se que no lado direito da expressão anterior, apenas os termos log P5 e P0 não<br />
cancelam). Em termos gerais,<br />
rt (m) = rt + rt−1 + ... + rt−m+1.<br />
26<br />
r1<br />
r3
2.2.2 Retornos de Portfolio<br />
Pode imaginar-se o retorno contínuo do portfolio como sendo o valor rp,t tal que, aplicado<br />
ao capital inicial K (i.e., Ke rp,t ) permite obter o valor do portfolio calculado através dos m<br />
retornos (i.e., K m<br />
i=1 ωie ri,t ). Assim, rp,t é tal que K m<br />
i=1 ωie ri,t = Ke rp,t . Resolvendo<br />
esta equação em função de rp,t obtém-se rp,t = log ( m<br />
i=1 ωie ri,t ) . Tendo em conta que<br />
ri,t = log (1 + Ri,t) e m<br />
i=1 ωi = 1, podemos ainda escrever<br />
<br />
m<br />
rp,t = log ωie ri,t<br />
<br />
m<br />
<br />
= log ωi (1 + Ri,t) = log 1 +<br />
i=1<br />
i=1<br />
m<br />
i=1<br />
ωiRi,t<br />
<br />
= log (1 + Rp,t) .<br />
Ao contrário dos retornos discretos, o retorno contínuo do portfolio não é igual à soma<br />
ponderada dos retornos contínuos dos vários activos, i.e., rp,t = n<br />
i=1 ωiri,t. Este facto<br />
constitui uma desvantagem da versão contínua dos retornos. No entanto, quando Rp,t não é<br />
muito alto, rp,t ≈ Rp,t.<br />
2.2.3 Retornos Ajustados aos Dividendos<br />
O retorno contínuo ajustado aos dividendos é definido como<br />
Note-se também:<br />
<br />
Pt + Dt<br />
rt = log<br />
= log (Pt + Dt) − log (Pt−1) .<br />
Pt−1<br />
rt = log (1 + Rt) , Rt = Pt + Dt − Pt−1<br />
.<br />
2.2.4 Retornos Ajustados à Inflação<br />
O retorno contínuo ajustado à inflação é definido como<br />
r real<br />
t<br />
Pt−1<br />
<br />
Pt/IP Ct<br />
Pt<br />
IP Ct<br />
= log<br />
= log − log<br />
= rt − πt<br />
Pt−1/IP Ct−1 Pt−1 IP Ct−1<br />
onde agora a taxa de inflação πt é definida como πt = log (IP Ct/IP Ct−1). Note-se também:<br />
r real<br />
t<br />
= log 1 + R real<br />
t .<br />
27
2.2.5 Retornos Anualizados<br />
Tal como no caso dos retornos discretos, também no caso dos retornos contínuos é possível<br />
obter uma taxa de rendibilidade (agora instantânea) anualizada ou simplesmente retorno an-<br />
ualizado, rA. Pode começar-se por perguntar: qual é a taxa de rendibilidade anual, rA, tal<br />
que, aplicada a um investimento P0 permite ao fim de T anos (de valorização contínua) obter<br />
o investimento Pn? Ou seja, qual é o valor rA que resolve a equação<br />
P0e rAT = Pn ?<br />
Tomando rA como incógnita, facilmente se obtém<br />
rA = 1<br />
T log<br />
Pn<br />
P0<br />
<br />
. (2.6)<br />
Também se chega a esta expressão a partir da definição habitual rA = log (1 + RA) .<br />
Com efeito,<br />
rA = log (1 + RA) = log<br />
<br />
1 +<br />
Pn<br />
P0<br />
1<br />
T<br />
− 1<br />
(T representa o número de anos do investimento).<br />
<br />
= log<br />
Pn<br />
P0<br />
1<br />
T<br />
= 1<br />
T log<br />
Pn<br />
Se os preços P0, P1, ...Pn são diários e se admitirmos que num ano se observam 250<br />
preços, então deduz-se a relação T = n/250. Nestas condições, a fórmula (2.6) pode-se<br />
reescrever na forma<br />
rA = 250<br />
n log<br />
Pn<br />
Em termos gerais, se num ano se observam N preços (por exemplo, N = 12 se as obser-<br />
vações são mensais) e dispomos de n observações sobre os preços, então T = n/N e<br />
rA = N<br />
n log<br />
P0<br />
Pn<br />
Em muitas aplicações estuda-se uma sucessão de retornos {r1, r2, ..., rn} e obtém-se de<br />
seguida um conjuntos de estatísticas, como por exemplo a média empírica dos retornos,<br />
¯r = 1<br />
n<br />
28<br />
P0<br />
n<br />
ri.<br />
i=1<br />
<br />
.<br />
<br />
.<br />
P0
Uma questão interessante consiste em obter rA como função de ¯r. Tendo em conta que<br />
log (Pn/P0) = n<br />
i=1 ri tem-se<br />
rA = N<br />
n log<br />
Pn<br />
P0<br />
<br />
= N<br />
n<br />
n<br />
ri = N ¯r.<br />
Uma forma alternativa de obtermos rA = N ¯r e que tem a vantagem de fornecer também<br />
uma medida para o valor da volatilidade anualizada é a seguinte. Suponha-se, tal como<br />
anteriormente, que num ano é possível observar N preços. Então, a variável aleatória que<br />
representa o retorno anual é dado por<br />
i=1<br />
X = log PN − log P0 =<br />
N<br />
rt.<br />
Supondo E (r1) = E (r2) = ... = E (rN) , tem-se que o retorno médio anual é dado por<br />
E (X) = N E (rt) .<br />
Logo, uma estimativa de E (X) é, precisamente, rA = N ¯r . Por outro lado, suponha-se que<br />
a sucessão {rt} é não autocorrelacionada e que Var (rt) = σ 2 . Nestas condições, a variância<br />
anual (i.e., a variância associada a rt (N)) é dada por<br />
Var (X) = Var<br />
N<br />
t=1<br />
rt<br />
<br />
t=1<br />
= Nσ 2 . (2.7)<br />
Resulta da equação (2.7) a famosa square root of time rule segundo a qual, a volatilidade<br />
anual de um activo, obtém-se a partir da regra √ Nσ onde σ é o desvio padrão associado<br />
a um medida intra anual (assume-se o desvio padrão como medida da volatilidade). Por<br />
exemplo, se os dados são diários, a regra estabelece √ 250σd (σd é o desvio padrão associado<br />
aos dados diários); se os dados são mensais, vem √ 12σm (σm é o desvio padrão associado<br />
aos dados mensais). A informação anualizada pode ser dada em percentagem:<br />
N ¯r × 100%,<br />
√ Nσ × 100%.<br />
Com efeito o retorno anual em percentagem é X × 100 pelo que E (X × 100) = N E (rt) ×<br />
100 e Var (X × 100) = Nσ 2 100 2 ⇒ Var (X × 100) = √ Nσ100.<br />
Note-se, finalmente, que o retorno anualizado na versão discreta é uma função do retorno<br />
29
anualizado na versão contínua, dada pela expressão RA = e rA − 1 (veja a equação (2.5)).<br />
2.3 Retornos Contínuos vs. Retornos Discretos<br />
Neste documento dá-se preferência à análise dos retornos contínuos. Por várias razões:<br />
• A esmagadora maioria dos investigadores usa rt. Se queremos que os nossos resultados<br />
sejam comparáveis devemos usar rt.<br />
• Como vimos, os retornos contínuos multi-períodos são aditivos (por exemplo, o re-<br />
torno contínuo entre o período 5 e 0 é igual à soma dos retornos contínuos entre o<br />
período 5 e 0). Já os retornos discretos multi-períodos não são. Em certas aplicações é<br />
necessário modelar retornos multi-períodos a partir do conhecimento das distribuições<br />
de r ou R. Neste caso, prefere-se interpretar o retorno na sua versão contínua, pois a<br />
modelação de uma soma<br />
log Pt − log P0 =<br />
t<br />
i=1<br />
é bem mais fácil do que a modelação de um produto<br />
Pt − P0<br />
P0<br />
=<br />
ri<br />
t<br />
(1 + Rj) − 1.<br />
j=1<br />
Além disso, a soma t<br />
i=1 ri preserva propriedades que podem ser interessantes. Por<br />
exemplo, se {ri} é uma sucessão de v.a. i.i.d. com distribuição N (µ, σ 2 ), segue-se<br />
imediatamente que log Pt−log P0 = t<br />
i=1 ri tem ainda distribuição normal N (tµ, tσ 2 ) .<br />
Já no caso discreto, se {Ri} é uma sucessão de v.a. i.i.d. com distribuição normal, a<br />
t<br />
v.a. (Pt − P0) /P0 = (1 + Rj) − 1 não tem distribuição normal.<br />
j=1<br />
O facto dos retornos discretos não ser aditivos pode conduzir a conclusões erradas.<br />
Considere-se o seguinte exemplo (veja-se a tabela 2.1). No momento t = 0 um certo<br />
activo vale 100, depois em t = 1 vale 110 e, finalmente, em t = 2 volta a valer 100.<br />
Obviamente que o retorno de t = 0 para t = 2 é zero, quer se considere a fórmula<br />
(P2 − P0)/P0 ou log P2 − log P0. No entanto, a média empírica dos retornos discretos<br />
é positiva, podendo sugerir, incorrectamente, que o activo se valorizou entre o período<br />
t = 0 e t = 2. Já a média empírica dos retornos contínuos traduz correctamente a<br />
valorização do activo.<br />
30
t Pt Rt = Pt−Pt−1<br />
Pt−1<br />
rt = log Pt − log Pt−1<br />
0 100<br />
1 110 0.10 (10%) 0.0953<br />
2 100 -0.0909 (-9.09%) -0.0953<br />
média > 0 = 0<br />
Tabela 2.1: Retornos discretos não são aditivos - mais um exemplo<br />
• O retorno discreto aplicado a um investimento inicial pode sugerir que o investimento<br />
possa vir negativo. Isto é uma impossibilidade. Suponha-se P0 = 100. O pior cenário<br />
no período 1 é P1 = 0 (perde-se todo o investimento). Mas, aplicando o retorno<br />
discreto pode-se obter P1 < 0 se R1 < −1. Por exemplo, se R1 = −1.05 tem-se<br />
P1 = (1 − 1.05) P0 = −0.05 × 100 = −5.<br />
É um impossibilidade obter-se P1 < 0 e, este facto, traduz uma fraqueza teórica do<br />
modelo de retorno discreto. No caso do retorno contínuo, não há possibilidade de P1<br />
ser negativo, pois, r1 = log (P1) − log (P0) implica P1 = P0e r > 0, por definição.<br />
O retorno discreto conserva, no entanto, uma vantagem apreciável: o retorno discreto<br />
do portfolio é igual à soma ponderada dos retornos discretos dos vários activos e, esta pro-<br />
priedade, não é partilhada, como vimos, pelo retorno contínuo do portfolio.<br />
2.A Outra Interpretação de rt<br />
Seja Pt o valor de um certo capital no momento t (podemos convencionar: t = 1 representa<br />
um ano). Se o capital se valoriza em tempo discreto, a variação do capital Pt num certo<br />
intervalo de tempo ∆ > 0 pode ser traduzida pela igualdade (Pt+∆ − Pt) /Pt = r∆ (r é a<br />
taxa de retorno) ou seja<br />
Pt+∆ − Pt<br />
∆<br />
= rPt<br />
Se o capital se valoriza continuamente, i.e., se assumirmos ∆ → 0, o lado esquerdo da<br />
equação anterior é a derivada de P em ordem a t, i.e., P ′ . Desta forma tem-se a equação<br />
diferencial linear de primeira ordem (determinística)<br />
P ′<br />
t = rPt<br />
31<br />
(2.8)
que estabelece a forma como Pt evolui em tempo contínuo. Pode-se provar que a solução<br />
geral de (2.8) é<br />
Pt = ce rt , c ∈ R<br />
(c depende do capital inicial). Com o capital inicial P0, a solução particular é Pt = P0e rt .<br />
Ao fim de um período t = 1 o capital vale P1 = P0e r . Resolvendo esta equação em ordem a<br />
r vem r = log (P1/P0) = log P1 − log P0.<br />
2.B Notas Técnicas<br />
2.B.1 Retorno Multi-Períodos como Função dos Retornos Simples<br />
Como calcular Rt (m) a partir dos retornos simples em t = 1, 2, ...? Basta considerar<br />
Rt (m) = Pt − Pt−m<br />
Pt−m<br />
= Pt Pt−1<br />
...<br />
Pt−1 Pt−2<br />
Pt−m+1<br />
Pt−m<br />
=<br />
<br />
1 +<br />
− 1<br />
Pt<br />
Pt−1<br />
<br />
− 1 1 + Pt−1<br />
<br />
− 1 ... 1 +<br />
Pt−2<br />
Pt−m+1<br />
Pt−m<br />
<br />
− 1 − 1<br />
= (1 + Rt) (1 + Rt−1) ... (1 + Rt−m+1) − 1<br />
t<br />
= (1 + Rj) − 1.<br />
j=t−m+1<br />
2.B.2 r e R: Série de Taylor<br />
A série de Taylor da função log (1 + Rt) em torno de Rt = 0 é, como se sabe,<br />
rt = log (1 + Rt) = Rt − 1<br />
2 R2 t + 1<br />
3 R3 t − ... (−1) n−1 Rn t<br />
n<br />
Este desenvolvimento em série de potência de Rt é válido para todo o Rt tal que |Rt| <<br />
1. Quando Rt é relativamente pequeno, os termos R 2 t , R 3 t , etc., são ainda mais pequenos<br />
(por exemplo, Rt = 0.005 implica R 2 t = 2.5 × 10 −5 , R 3 t = 1.25 × 10 −7 , etc.) pelo que,<br />
nestas circunstâncias, R 2 t 0, R 3 t 0, etc., e, assim, rt Rt. Se os dados são diários,<br />
semanais ou mensais as rendibilidades R são geralmente pequenas (quando comparadas com<br />
as rendibilidades anuais). Assim, para este tipo de rendibilidades, pode assumir-se rt Rt.<br />
32<br />
+ ...
Capítulo 3<br />
Factos Empíricos Estilizados de Séries<br />
Temporais <strong>Financeira</strong>s<br />
(Última actualização: 2/2011)<br />
Vários estudos empíricos têm documentado que há um conjunto de regularidades em-<br />
píricas que são partilhadas por um leque grande de séries temporais financeiras observadas<br />
com frequência elevada (diária ou semanal). Essas regularidades têm a ver com caracterís-<br />
ticas das distribuições marginais e condicionais que são comuns a muitas séries temporais<br />
financeiras.<br />
3.1 Regularidade Empíricas relacionadas com a Distribuição<br />
Marginal<br />
Comece-se por considerar a fdp marginal 1 f de um certo retorno rt. Estamos interessados<br />
em saber algo sobre f (que é geralmente desconhecida). Obtém-se alguma informação sobre<br />
f calculando vários momentos da amostra. É este o procedimento que começaremos por<br />
seguir. Pelo método dos momentos, os parâmetros populacionais desconhecidos,<br />
µ = E (r) , σ = Var (r), sk = E (r − µ) 3<br />
σ 3<br />
, k = E (r − µ) 4<br />
σ 4<br />
1 Para simplificar, admite-se que f é homogénea com respeito ao tempo, i.e., não depende de t. Desta forma,<br />
f (rt) = f (rt−1) = ... = f (r1). Como consequência é indiferente escrever f (rt) ou simplesmente f (r) (e,<br />
por um raciocínio similar, é indiferente escrever E (rt) ou simplesmente E (r)).<br />
33
podem ser estimados de forma consistente (sob certas condições de regularidade), respecti-<br />
vamente, pelos estimadores<br />
¯r =<br />
n t=1 rt<br />
<br />
n<br />
, ˆσ =<br />
n<br />
sk = n−1 n t=1 (rt − ¯r) 3<br />
ˆσ 3<br />
t=1 (rt − ¯r) 2<br />
,<br />
n<br />
, ˆ k = n−1 n<br />
t=1 (rt − ¯r) 4<br />
ˆσ 4 .<br />
Os factos empíricos estilizados que descreveremos a seguir envolvem explicitamente estes<br />
momentos. Concretamente, mostraremos a seguir que<br />
• ¯r tende a ser maior do que o retorno do investimento sem risco;<br />
• ˆσ depende da natureza do activo financeiro;<br />
• sk tende a ser negativo;<br />
• ˆ k tende a ser superior a 3.<br />
3.1.1 Prémio de Risco Positivo<br />
De acordo com a teoria financeira o valor esperado do retorno de um investimento no mer-<br />
cado de capitais deve exceder, no longo prazo, o retorno do investimento sem risco. A essa<br />
diferença designa-se prémio de risco (Equity Risk Premia). Este prémio deve ser positivo<br />
pois, caso contrário, não haveria motivação para aceitar um investimento com retornos in-<br />
certos, quando a alternativa é um retorno garantido.<br />
A estimação do prémio de risco deve envolver um período relativamente longo (o retorno<br />
de um investimento no mercado de capitais é estável no médio/longo prazo, mas instável<br />
no curto prazo - pode até ser fortemente negativo em curtos períodos de tempo). Dim-<br />
son, Marsh e Staunton (2002) fizeram o seguinte exercício, com base em dados financeiros<br />
norte-americanos: se tivesse sido investido 1 dólar em acções norte americanas (digamos,<br />
num índice representativo do mercado de acções norte-americano) e 1 dólar em bilhetes do<br />
tesouro (investimento sem risco), ambos no início do ano 1900, quais seriam os retornos<br />
desses investimentos ao fim de 101 anos (i.e. se fossem levantados no final do ano 2000).<br />
Os resultados apurados mostram que o investimento de 1 dólar em acções seria vendido<br />
por 16797 dólares em 2000 (apesar das inúmeras crises económicas e financeiras durante<br />
o século, como por exemplo, as duas guerras mundiais, a grande depressão, os choques<br />
34
A% ˆσA% sk ˆ k<br />
ˆP (|rt−¯r|>3ˆσ)<br />
P (|Z|>3)<br />
Cotações de Acções<br />
Microsoft (01-88 a 7-05) 23.9% 36.3% -.097 6.8 3.85<br />
Coca-Cola (11-86 a 12-05) 7.2% 33.2% -0.97 18.1 4.53<br />
PT (6-95 a 12-05) 12.3% 33.2% -0.06 6.39 5.02<br />
Índices Bolsistas<br />
Dax (11-90 a 11-05) 8.4% 22.1% -0.196 6.66 5.79<br />
CAC40 (03-90 a 11-05) 5.7% 20.5% -0.101 5.77 5.61<br />
Nikkei225 (01-84 a 11-05) 1.6% 20.5% -0.116 10.77 3.71<br />
FTSE100 (04-84 a 11-05) 7.3% 15.8% -0.545 11.12 2.44<br />
PSI20 (01-93 a 03-06) 8.6% 15.8% -0.61 10.9 5.99<br />
Taxas de Câmbio<br />
USD/EUR(12-98 a 11-05) 0.1% 7.9% -0.05 4.86 4.55<br />
YEN/USD (1-71 a 7-05) -3.4% 9.4% -0.78 14.2 1.67<br />
Na última coluna assume-se que Z ∼ N (0, 1) ; ˆσA% = √ 250ˆσ100%<br />
Tabela 3.1: Estatísticas Descritas de Algumas Acções, índices e Taxas de Câmbio<br />
petrolíferos, etc.), enquanto os bilhetes de tesouro seriam vendidos por 119 dólares. Os<br />
retornos anualizados (usando a fórmula RA) seriam de 10.1% para as acções, i.e.<br />
RA100% =<br />
<br />
(16797) 1 <br />
101 − 1 100% = 10.1%<br />
e de 4.8% para os bilhetes do tesouro (valores nominais, i.e. não descontando a inflação).<br />
Ver Taylor (2005) para mais detalhes sobre o prémio de risco.<br />
3.1.2 Desvios Padrão Diferentes Consoante os Activos<br />
A tabela 3.1 mostra que os activos com maior variabilidade (e, portanto com maior risco<br />
associado) são os títulos de empresas, seguidos dos índices bolsistas e taxas de câmbio (bil-<br />
hetes do tesouro - resultados não apresentados - apresentam a menor variabilidade). No<br />
âmbito dos títulos de acções, vários estudos indicam (ver por exemplo, Taylor, 2005) que a<br />
variabilidade dos retornos tende a diminuir à medida que a dimensão das empresas aumenta<br />
(títulos de empresas pequenas apresentam maior variabilidade).<br />
3.1.3 Retornos de Acções e de Índices tendem a Apresentar Assimetria<br />
Negativa<br />
A assimetria de uma distribuição é normalmente aferida através do coeficiente de assimetria<br />
sk anteriormente definido. Diz-se que a distribuição de r é assimétrica negativa (positiva) se<br />
35
sk < 0 (> 0). Se sk = 0 a distribuição é simétrica (em relação à média populacional).<br />
Podemos ter uma estimativa sk negativa se as variações negativas fortes forem mais<br />
acentuadas do que as variações positivas fortes. Quando assim sucede, os desvios negativos<br />
(rt − ¯r) 3 < 0 tendem a dominar os desvios positivos (rt − ¯r) 3 > 0 na soma (rt − ¯r) 3 e,<br />
por isso, a estimativa sk é negativa. Observe-se ainda que os desvios cúbicos são divididos<br />
por ˆσ 3 ; desta forma, elimina-se a possibilidade do coeficiente depender das unidades em que<br />
a variável é observada (por exemplo, se multiplicarmos r por 100, para termos uma medida<br />
em percentagem, sk não sofre alteração).<br />
A tabela 3.1 mostra que as distribuições empíricas das rendibilidades de acções e índice<br />
bolsistas em análise são assimétricas negativas. Existe, portanto, evidência empírica de que<br />
as fortes variações dos preços são maioritariamente de sinal negativo. Estas variações são<br />
obviamente crashes bolsistas. Sublinhe-se, no entanto, que alguns retornos de títulos, por<br />
registarem episódios de fortes variações positivas, apresentam distribuições assimétricas pos-<br />
itiva. A assimetria negativa não é, portanto, uma característica universal das distribuições de<br />
retornos, embora, geralmente, tendam a apresentar assimetria negativa.<br />
Sob certas hipóteses, incluindo {rt} é uma sucessão de v.a. homocedásticas com dis-<br />
tribuição normal, a estatística de teste<br />
Z1 = √ n sk<br />
√6<br />
tem distribuição assimptótica N (0, 1) . A hipótese nula H0: sk = 0 pode ser testada a par-<br />
tir deste resultado 2 . Mas as hipóteses de partida, normalidade e homocedasticidade, são<br />
relativamente severas. Na prática, isto significa que a rejeição de H0 pode dever-se à ausên-<br />
cia de normalidade e/ou homocedasticidade e não necessariamente à falha de simetria da<br />
distribuição. Desta forma, é necessário ter algum cuidado na interpretação dos resultados<br />
quando H0 é rejeitada.<br />
O estimador sk é por vezes criticado por não ser robusto face à presença de valores<br />
extremos. Na verdade, em certos casos, a ocorrência de apenas uma única variação negativa<br />
excepcionalmente forte pode resultar num valor negativo para sk (os títulos que incluem na<br />
sua amostra o crash do dia 19 de Outubro de 1987 tendem a apresentar um valor estimado<br />
para sk negativo). Por esta razão, é aconselhável usar-se medidas de assimetria robustas<br />
2 A única hipótese nula possível é H0 : sk = 0. Por exemplo, não faria sentido testar H0 : sk = 1 porque<br />
a estatística de teste é obtida sob a hipótese de normalidade e sk = 1 é claramente incompatível com essa<br />
hipótese.<br />
36
contra a presença de outliers. Uma medida nestas condições é proposta por Groeneveld and<br />
Meeden (1984)<br />
skGM = E (r) − q0.5<br />
E (|r − q0.5|)<br />
onde q0.5 é o quantil de ordem 0.5, o que significa que q0.5 é a mediana. O parâmetro<br />
E (|r − q0.5|) fornece uma medida de dispersão dos dados. Esta medida tem a vantagem<br />
de variar entre -1 e 1, i.e. −1 < skGM < 1. Sob certas condições, skGM pode ser estimado<br />
de forma consistente através da estatística<br />
skGM =<br />
¯r − m<br />
n −1 n<br />
t=1 |rt − m|<br />
sendo m a mediana empírica. Outra medida robusta é o coeficiente de assimetria de Pearson,<br />
skP = E (r) − q0.5<br />
.<br />
σ<br />
Note-se, finalmente, que para as taxas de câmbio não há razão especial para esperar<br />
sk > 0 ou sk < 0. Com efeito, suponha-se que St é a taxa de câmbio do Dólar/Euro e<br />
rt = log (St/St−1) . Se a distribuição de rt é assimétrica negativa então a distribuição dos<br />
retornos associados à taxa de câmbio do Euro/Dólar, 1/St (seja ˜rt esse retorno) é assimétrica<br />
positiva, pois<br />
<br />
1/St<br />
St<br />
˜rt = log = − log = −rt<br />
1/St−1<br />
St−1<br />
(note-se: se x tem distribuição com assimetria negativa, −x tem distribuição com assimetria<br />
positiva). Assim a assimetria positiva ou negativa nas taxas de câmbio depende da forma<br />
como a taxa de câmbio está definida (não podendo, portanto, inferir-se qualquer regularidade<br />
empírica).<br />
3.1.4 Retornos Apresentam Distribuições Leptocúrticas<br />
O achatamento de uma distribuição é normalmente aferida através do coeficiente de achata-<br />
mento k (também designado por kurtosis ou curtose). Diz-se que a distribuição f é mesocúr-<br />
tica se k = 3, platicúrtica se k < 3 e leptocúrtica se k > 3. O valor de referência 3 é o<br />
que resulta da distribuição normal (assim, a distribuição normal ou Gaussiana é mesocúr-<br />
tica). Valores altos de ˆ k (acima de 3) indicam que certos valores da amostra se encontram<br />
muitos afastados da média, comparativamente aos demais valores da amostra. Observe-se<br />
37
1.5<br />
1.0<br />
0.5<br />
0.0<br />
0.5<br />
1.0<br />
1.5<br />
2.0<br />
1 2 3 4 5 6 7 8 9<br />
Y1 Y2<br />
Figura 3-1: Qual das duas séries tem kurtosis estimada mais alta?<br />
que os desvios (rt − ¯r) 4 são muito sensíveis aos valores extremos da amostra. Por exemplo,<br />
a existência de outliers faz aumentar a estatística ˆ k. Para ilustrar o impacto dos outliers no<br />
valor da estatística ˆ k, considere-se a figura 3-1. Pode-se observar que variância da série y1<br />
é menor do que a da série y2. No entanto, o valor ˆ k da série y2 é de apenas 1.5, ao passo<br />
que o da série y1 é de 5.5. Os valores da série y2 não se encontram, em termos relativos,<br />
muitos afastados da sua média. Já na série y1 há um valor que se destaca dos demais e que<br />
é responsável pelo valor alto de ˆ k. Para compararmos graficamente duas séries é necessário<br />
estandardizá-las (isto é transformá-las em séries de média zero e variância 1). Continuando<br />
o exemplo, considere-se agora as mesmas variáveis estandardizadas:<br />
z1 = y1 − ¯y1<br />
, z2 =<br />
ˆσy1<br />
y2 − ¯y2<br />
.<br />
ˆσy2<br />
Na figura 3-2 ambas as séries possuem a mesma variância, mas agora é claro o valor extremo<br />
da série y1<br />
Observa-se para a generalidade das séries financeiras que os retornos muitos altos e muito<br />
baixos ocorrem com maior frequência do que seria de esperar se os retornos seguissem uma<br />
distribuição normal. Uma forma de confirmar esta ideia consiste em comparar a estimativa<br />
do coeficiente de kurtosis (curtose) dos retornos com o valor 3, que é o valor de kurtosis da<br />
distribuição normal.<br />
Na generalidade dos casos o coeficiente k estimado vem quase sempre (bastante) acima<br />
de 3, o que sugere que a distribuição dos retornos (de cotações, índice, taxas de câmbio e<br />
mesmo taxas de juro) é leptocúrtica. Nas figuras 3-3 e 3-4 (esta última é uma ampliação<br />
da figura 3-3) mostra-se a diferença entre uma distribuição mesocúrtica (k = 3) e uma<br />
38
3<br />
2<br />
1<br />
0<br />
1<br />
2<br />
1 2 3 4 5 6 7 8 9<br />
Z1 Z2<br />
Figura 3-2: Séries y1 e y2 estandardizadas (ver figura 3-1)<br />
distribuição leptocúrtica (k > 3). A figura 3-4 mostra claramente por que razão a distribuição<br />
leptocúrtica é também designada de “distribuição de caudas pesadas”. O ensaio H0: k =<br />
3 [y ∼ Normal & y é i.i.d] pode ser conduzido pela estatística de teste<br />
Z1 = √ n<br />
<br />
ˆk − 3<br />
√ 24<br />
d<br />
−→ N (0, 1) .<br />
Por exemplo, para a Microsoft (tabela 3.1) e sabendo que no período considerado se obser-<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
7 4.5 2 0.5 3 5.5<br />
Normal<br />
Leptoc.<br />
Figura 3-3: Comparação de duas densidades (normal vs. leptocúrtica)<br />
varam 4415 dados diários (n = 4415) tem-se<br />
z1 = √ (6.8 − 3)<br />
4415 √ = 51.54.<br />
24<br />
O valor-p é P (|Z1| > 51.54) ≈ 0. Existe forte evidência contra H0.<br />
39
0.01<br />
0.008<br />
0.006<br />
0.004<br />
0.002<br />
0<br />
7 4.5 2 0.5 3 5.5<br />
Figura 3-4: Ampliação da figura 3-3<br />
Normal<br />
Leptoc.<br />
Podemos também confirmar a existência de caudas pesadas calculando o rácio<br />
ˆP (|rt − ¯r| > 3ˆσ)<br />
. (3.1)<br />
P (|Z| > 3)<br />
Se Z ∼ N (0, 1) então P (|Z| > 3) = 0.0027. Esta é, aproximadamente, a probabilidade<br />
associada a eventos extremos quando Z tem distribuição N (0, 1). Se a distribuição de rt<br />
possuísse caudas normais deveríamos esperar que<br />
P (|rt − E (rt)| /σ > 3) P (|Z| > 3)<br />
(observe-se que (rt − ¯r) /ˆσ são os retornos estandardizados) e, portanto, o rácio (3.1) deveria<br />
ser aproximadamente igual a um. No entanto, a tabela 3.1 mostra que esse rácio tende a ser<br />
significativamente superior a um. Isto sugere que os retornos muitos altos e muito baixos<br />
tendem a ocorrer com maior frequência do que seria de esperar se a variável seguisse uma<br />
distribuição normal.<br />
Observação 3.1.1 Como estimar a probabilidade P (|rt − E (rt)| /σ > 3)? Primeiro sub-<br />
stituímos E (rt) e σ = Var (rt) pelas respectivas estimativas consistentes, ¯r e ¯σ. Depois,<br />
calculamos a proporção de vezes (na amostra) em que ocorre |rt − ¯r| /¯σ > 3. Obtém-se<br />
assim uma estimativa para P (|rt − E (rt)| /σ > 3) . Em termos analíticos:<br />
ˆP (|rt − ¯r| /¯σ > 3) = 1<br />
n<br />
n<br />
t=1<br />
I{|rt−¯r|/¯σ>3}<br />
onde I{|rt−¯r|/¯σ>3} = 1 se ocorre |rt − ¯r| /¯σ > 3 e zero no caso contrário.<br />
40
.2<br />
.1<br />
.0<br />
.1<br />
.2<br />
R<br />
.3<br />
30<br />
30 40 50 60 70 80 90 00 10 30 40 50 60 70 80 90 00 10<br />
20<br />
10<br />
0<br />
10<br />
20<br />
Z<br />
Bandas (3,3)<br />
Figura 3-5: Painel Esquerdo: retornos diários do Dow Jones no período 02/10/1928 a<br />
3/02/2011 (20678 observações). Painel direito retornos estandardizados, zt = (rt − ¯r) /ˆσ<br />
Apresenta-se a seguir mais um exemplo envolvendo o rácio (3.1). No painel esquerdo<br />
da figura 3-5 apresentam-se os retornos diários do Dow Jones no período 02/10/1928 a<br />
3/02/2011 (20678 observações). No painel direito da mesma figura apresentam-se os re-<br />
tornos estandardizados juntamente com as rectas -3 e 3. Se os retornos seguissem uma<br />
distribuição normal seria de esperar que zt = (rt − ¯r) /ˆσ excedesse os limiares 3 e −3 em<br />
cerca de 0.27% das vezes, tendo em conta, como já vimos, que P (|Z| > 3) = 0.0027,<br />
supondo Z ∼ N (0, 1). Ora, na verdade zt excede os limiares 3 e -3 em cerca de 1.73% das<br />
observações (zt excede os limiares 359 vezes, em 20678 observações).<br />
Tem-se assim<br />
ˆP (|rt − ¯r| > 3ˆσ)<br />
P (|Z| > 3)<br />
0.017<br />
= = 6.29<br />
0.0027<br />
Finalmente, podemos ainda testar a hipótese conjunta H0: k = 3 & sk = 0 [assumindo<br />
r ∼ Normal & r é i.i.d] através da estatística de Bera-Jarque<br />
Gráfico QQ-Plot<br />
Z 2 1 + Z 2 2 = n<br />
⎛<br />
⎜<br />
⎝<br />
2 ˆk − 3<br />
24<br />
+ sk 2<br />
⎞<br />
⎟<br />
⎠<br />
6<br />
d<br />
−→ χ 2 (2)<br />
Outra forma de compararmos a distribuição normal com a distribuição dos retornos consiste<br />
em analisar o gráfico QQ-plot. O gráfico QQ-plot é o gráfico dos pares ordenados<br />
{(qα, ˜qα) , α ∈ (0, 1)}<br />
41
Quantis Normal<br />
8<br />
4<br />
0<br />
4<br />
8<br />
12<br />
12 8 4 0 4 8<br />
Quantis retornos PSI20<br />
Figura 3-6: QQ Plot (retornos do PSI20 normalizados)<br />
onde qα é o quantil de ordem α da distribuição Z ∼ N (0, 1) (eventualmente outra) e ˜qα é o<br />
quantil da distribuição empírica associada à variável estandardizada<br />
isto é<br />
xt = rt − ¯r<br />
¯σ ,<br />
qα : P (Z < qα) = α, Z ∼ N (0, 1)<br />
˜qα : ˜ P (xt < ˜qα) = α, xt.<br />
Assim, se xt tem a mesma distribuição de Z, então qα ≈ ˜qα e o gráfico {(qα, ˜qα) , α ∈ (0, 1)}<br />
é uma recta de 45 o . Se, pelo contrário, as distribuições de xt e Z são diferentes o grá-<br />
fico afasta-se da recta de 45 o (poderíamos também comparar a distribuição de xt com outra<br />
qualquer). A figura 3-6 permite concluir que a distribuição dos retornos é leptocúrtica e as-<br />
simétrica. O gráfico sugere, por exemplo, que P (Z < −3.9) P (xt < −8). A distribuição<br />
é leptocúrtica pois o gráfico tem a forma de um “S” sobre a recta de 45 o . A distribuição é<br />
assimétrica porque o “S” não é simétrico sobre a recta de 45 o .<br />
42
¯r ˆσ sk kˆ<br />
Retornos Diários<br />
Frankfurt 0.00035 0.0123 -0.946 15.0<br />
Hong Kong 0.00057 0.0169 -5.0 119.24<br />
Londres 0.00041 0.0092 -1.59 27.4<br />
Nova York 0.00049 0.0099 -4.30 99.68<br />
Paris 0.00026 0.0120 -0.53 10.56<br />
Tóquio<br />
Retornos Semanais<br />
0.00005 0.0136 -0.213 14.798<br />
Frankfurt 0.00169 0.0264 -1.06 8.09<br />
Hong Kong 0.00283 0.0370 -2.19 18.25<br />
Londres 0.00207 0.0215 -1.478 15.54<br />
Nova York 0.00246 0.0206 -1.37 11.25<br />
Paris 0.0028 0.0284 -0.995 9.16<br />
Tóquio 0.00025 0.0288 -0.398 4.897<br />
Tabela 3.2: Índices Bolsistas (6-Jan-86 a 31-Dez-97)<br />
3.1.5 Aumento da Frequência das Observações Acentua a Não Normal-<br />
idade das Distribuições<br />
Diz-se que a frequência das observações aumenta quando, se passa, por exemplo, de obser-<br />
vações mensais para observações semanais ou destas para diárias. A tabela 3.2 mostra que o<br />
coeficiente de kurtosis aumenta quando se passa de observações semanais para observações<br />
diárias. Assim, a distribuição marginal dos retornos diários apresenta um maior afastamento<br />
face à distribuição normal. É possível fazer um raciocínio inverso: a diminuição da frequên-<br />
cia das observações (por exemplo, quando se passa de observações diárias para observações<br />
semanais ou mensais) atenua o afastamento da distribuição dos retornos relativamente à dis-<br />
tribuição normal. Uma possível explicação teórica para este facto é descrita a seguir.<br />
Sejam P0, P1, P2, ... os preços diários. Se a frequência de observações baixa, passamos<br />
a observar P0, Ph, P2h, ... sendo h um inteiro maior do que 1. Por exemplo, se passarmos<br />
para dados semanais (h = 5) passamos a observar P0, P5, P10, ... (imagine-se que t = 0 é<br />
uma segunda-feira; passados 5 dias observa-se a segunda-feira seguinte que corresponde a<br />
t = 5). Neste caso, os retornos semanais são:<br />
log Ph − log P0<br />
<br />
retorno 1a , log P2h − log Ph<br />
<br />
semana retorno 2a , ... com h = 5<br />
semana<br />
Para h geral, o primeiro retorno observado é ˜r1 = log Ph − log P0. Como os retornos contín-<br />
43
uos são time-additive, resulta<br />
˜r1 (h) = log Ph − log P0 = r1 + r2 + ... + rh =<br />
(ri são os retornos diários). Mesmo que ri não tenha distribuição normal, o retorno associa-<br />
dos a uma frequência de observação mais baixa, ˜r (h) , tenderá a ter distribuição normal pelo<br />
teorema do limite central. Com efeito, sob certas condições (relacionadas com a variância<br />
de ri e a memória temporal de r) tem-se<br />
h i=1 ri<br />
h − E i=1 ri<br />
h Var i=1 ri<br />
<br />
quando h → ∞ 3 . Para h suficientemente alto resulta 4<br />
h<br />
i=1<br />
ri<br />
a<br />
∼ N<br />
<br />
E<br />
h<br />
i=1<br />
ri<br />
<br />
<br />
d<br />
−→ N (0, 1)<br />
, Var<br />
h<br />
Assim, espera-se que a diminuição da frequência amostral atenue a não normalidade obser-<br />
vada nas séries de retornos de alta frequência.<br />
3.1.6 Efeitos de Calendário<br />
Designamos “efeitos de calendário” quando a rendibilidade e/ou a volatilidade varia com<br />
o calendário. Por exemplo, se certo título regista maior rendibilidade e/ou volatilidade às<br />
segundas-feiras, temos um efeito de calendário (efeito dia da semana). Tem-se estudado a<br />
forma como a rendibilidade e a volatilidade varia com o dia da semana, dia do mês, com o<br />
mês do ano e com a proximidade dos feriados. Certos autores qualificam estes efeitos de<br />
calendário como “anomalias”. Com efeito, se o mercado é “eficiente” todas as “anomalias”<br />
depois de detectadas são rapidamente incorporadas nas decisões dos investidores e, tendem,<br />
por isso, a desaparecer. Para ilustrar a ideia, suponha-se, por exemplo, que a rendibilidade<br />
do título ABC tende a aumentar às 14h de todas as terças-feiras. Todos os investidores que<br />
h 3Se for possível garantir que E i=1 ri<br />
<br />
h = n E (ri) e Var i=1 ri<br />
<br />
= hσ2 então este resultado pode<br />
i=1<br />
ri<br />
<br />
escrever-se na forma habitual √ h (¯r − E (ri)) /σ d<br />
−→ N (0, 1) (quando h → ∞).<br />
4 d<br />
Observe-se: zn<br />
razoavelmente alto, zn tem distribuição aproximadamente normal, i.e. zn<br />
−→ N (0, 1) se no limite, quando n → ∞, z∞ tem distribuição N (0, 1) . Assim, para n<br />
a<br />
∼ N (0, 1) .<br />
44<br />
h<br />
i=1<br />
.<br />
ri
detectem essa anomalia vendem o título da empresa ABC às terças-feiras às 14h. Como<br />
resultado o preço da empresa ABC tenderia a cair por volta dessa hora e a anomalia desa-<br />
parecia. De uma forma geral, se os investidores são racionais e dispõem de toda a informação<br />
passada sobre o mercado, as anomalias relacionadas com as rendibilidades dependentes do<br />
calendário, tendem a desaparecer, logo que sejam detectadas. Na prática, subsistem certas<br />
anomalias que não desaparecem mas que, em geral, não permitem obter rendibilidades anor-<br />
mais, depois de deduzidos os custos de informação e transacção. Podem assim permanecer<br />
no mercado “anomalias” ou “ineficiências” para as quais o benefício de explorar essas inefi-<br />
ciências não compensa os custos adicionais associados.<br />
Dia da Semana<br />
À partida espera-se que os retornos à segunda-feira sejam um pouco mais altos face aos<br />
demais dias da semana, pois a posse de títulos à segunda-feira representa um investimento<br />
de 72 horas face à última sexta-feira, tendo em conta que o mercado fecha aos fins-de-<br />
semana. Analiticamente observe-se que se o retorno diário rt tem média µ então, para um<br />
investimento de 3 dias (de sexta a segunda-feira) o retorno associado, rt + rt+1 + rt+2,<br />
deverá ter média 3µ. Assim, o retorno à segunda feira deveria ser, em média, três vezes<br />
superior ao retorno dos demais dias da semana. Taylor (2005) reporta vários estudos com<br />
conclusões contraditórias (para certos títulos e para determinados períodos é possível que o<br />
retorno à segunda-feira seja mais elevado, mas não se pode concluir em geral que o retorno<br />
às segundas seja necessariamente superior ao dos demais dias da semana).<br />
Por outro lado, um investimento a 3 dias deve ser mais volátil do que um investimento<br />
a um dia. Se rt tem variância σ 2 e {rt} é uma sucessão de v.a. não autocorrelacionadas,<br />
rt + rt+1 + rt+2, tem variância igual a 3σ 2 . Portanto, espera-se que às segundas feiras o<br />
retorno apresente maior variabilidade. No entanto, argumenta-se que a (verdadeira) variância<br />
associada aos retornos de segunda-feira não pode ser tão alta como o valor 3σ 2 sugere, pois<br />
durante o fim-de-semana as notícias que movimentam o mercado (e produzem volatilidade)<br />
são, em geral, escassas e pouco relevantes. De todo o modo, regista-se, para um número<br />
considerável de activos, um aumento de volatilidade à segunda-feira.<br />
A melhor forma de testar estes efeitos passa pela modelação ARCH (cap. 8). Uma forma<br />
menos eficiente de testar estes efeitos consiste em calcular a média e a variância dos retornos<br />
nos vários dias da semana. Por exemplo, para analisar se as médias dos retornos são iguais<br />
45
nos vários dias da semana, faz-se a regressão,<br />
rt = β + δ1tert + δ2quat + δ3quit + δ4sext + ut<br />
(3.2)<br />
onde ter, qua, etc. são variáveis dummy que assumem o valor um se t corresponde, respec-<br />
tivamente, a uma terça-feira, quarta-feira, etc. (note-se que o “grupo base” é a segunda-<br />
feira). Sendo o “grupo base” a segunda-feira, β é a média do retorno à segunda feira<br />
(E (rt| segt = 1) = β). Por outro lado, δi, para i = 1, ..., 4 representam as diferenças da<br />
média do retorno dos outros dias face à segunda-feira (por exemplo, se δ3 = −0.01 então o<br />
retorno médio à quinta-feira é igual a β − 0.01 e δ3 representa a diferença face à segunda-<br />
feira).<br />
O ensaio H0: δ1 = δ2 = ... = δ4 = 0 corresponde a testar a não existência de diferenças<br />
nas médias dos retornos dos vários dias da semana. A estatística habitual para o caso em<br />
análise (em que H0 estabelece a nulidade de todos os parâmetros com excepção do termo<br />
constante) é<br />
F =<br />
R 2 / (k − 1)<br />
(1 − R 2 ) /(n − k)<br />
onde k é o número de regressores (incluindo o termo constante) e R 2 é o coeficiente de de-<br />
terminação. Sob H0 (homocedasticidade e ausência de autocorrelação) a estatística F tem<br />
distribuição F (k − 1, n − k). Na presença de heterocedasticidade, os teste t e F habitu-<br />
ais são inválidos. Uma solução para este problema consiste na estimação da equação (3.2)<br />
através dos modelos da família ARCH (veremos este aspecto no capítulo 8). Outra solução<br />
passa pela utilização de erros padrão robustos (ou da estatística F robusta) contra a presença<br />
de heterocedasticidade 5 .<br />
Em Taylor (2005) descrevem-se outras “anomalias” associadas ao calendário.<br />
<br />
5Erros padrão (de White) robustos contra heterocedasticidade obtêm-se a partir da matrix Var ˆβ =<br />
(X ′ X) −1 X ′ WX (X ′ X) −1 onde W é uma matriz diagonal com elementos û2 1, ..., û2 <br />
n . A estatística ro-<br />
′ <br />
busta, na versão do teste de Wald, para ensaiar H0 : Rβ = r, é Rˆβ − r R <br />
Var ˆβ R ′<br />
−1 <br />
Rˆβ − r , e<br />
tem distribuição assimptótica χ2 (q) onde q é o numero de restrições. Nota sobre o programa EVIEWS (versão 6<br />
e 7): a opção “White” em “Heteroskedasticity consistent coefficient covariance” que aparece depois de se seleccionar<br />
Quick/Estimate/Options fornece no output erros padrão robustos, mas não, infelizmente, a estatística<br />
F robusta. É possível obter esta estatística robusta fazendo o seguinte: escolhe-se a opção “White” em “Heteroskedasticity<br />
consistent coefficient covariance” e estima-se o modelo. Em seguida realiza-se o teste Wald<br />
seleccionando View/Coefficient Tests/Wald, introduzindo-se depois as restrições a ensaiar.<br />
46
3.1.7 Distribuições Teóricas para os Retornos<br />
Distribuição t-Student<br />
É bem conhecida a distribuição t-Student com v graus de liberdade, t (v) . A fdp é<br />
f (x) = Γ <br />
v+1<br />
2<br />
√ <br />
v vπΓ 2<br />
<br />
1 + x2<br />
v+1<br />
− 2<br />
.<br />
v<br />
Como se sabe, se X ∼ t (v) , então E (X) = 0, Var (X) = v/ (v − 2), sk = 0 e k =<br />
3 + 6/ (v − 4) . Como k > 3 conclui-se que a distribuição t (v) tem caudas pesadas. Por<br />
vezes tem interesse trabalhar com uma variável aleatória ε com distribuição t-Student de<br />
média zero mas variância igual a um. Se X ∼ t (v) a solução passa pela transformação<br />
ε = X (v − 2) /v.<br />
É fácil constatar que Var (ε) = 1, kε = kx = 3 + 6 . Note-se que a fdp de ε é<br />
v−4<br />
g (x) =<br />
1 Γ<br />
<br />
π (v − 2)<br />
<br />
v+1<br />
2<br />
Γ <br />
1 + v<br />
2<br />
x2<br />
v+1<br />
− 2<br />
.<br />
v − 2<br />
Quando mais baixo for o número de graus de liberdade mais pesadas são as caudas. No<br />
caso v = 4 o momento de ordem 4 não existe e, portanto, também não existe o coeficiente<br />
de kurtosis (quer dizer, neste caso, o integral impróprio <br />
R x4 g (x) dx não é finito porque a<br />
expressão x 4 g (x) não tende para zero com suficiente rapidez).<br />
Mistura de Normais<br />
Considere-se uma distribuição mistura de normais: α100% de N (µ 1, σ 2 1) e (1 − α) % de<br />
N (µ 2, σ 2 2) . Por exemplo, imagine-se que se faz uma extracção de números aleatórios da<br />
seguinte forma: atira-se uma moeda ao ar. Se cair caras simula-se uma variável X1 com<br />
distribuição N (µ 1, σ 2 1) ; se cair coroas, simula-se X2 com distribuição N (µ 2, σ 2 2) . De uma<br />
forma geral, a variável X, que representa a mistura de normais, pode escrever-se da seguinte<br />
forma:<br />
X = UX1 + (1 − U) X2,<br />
onde U tem distribuição de Bernoulli. Sejam f, fu e fx|u respectivamente a fdp de X, a<br />
função de probabilidade de U e a fdp condicional de X dado U = u. Para obter a fdp<br />
47
f(x)<br />
0.010<br />
0.009<br />
0.008<br />
0.007<br />
0.006<br />
0.005<br />
0.004<br />
0.003<br />
0.002<br />
0.001<br />
8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8<br />
Figura 3-7: Abas da t-Student (– v = 4.1, - - v = 5, · · · v = 30)<br />
de X usa-se a expressão bem conhecida da estatística: f (x) = 1<br />
u=0 fx|u (x|u) fu (u). A<br />
distribuição de X dado U = u é imediata, tendo em conta que uma soma de normais é ainda<br />
uma normal:<br />
onde<br />
X|U = u ∼ N (E (X|U = u) , Var (X|U = u)) ,<br />
E (X|U = u) = uµ 1 + (1 − u) µ 2<br />
Var (X|U = u) = u 2 σ 2 1 + (1 − u) 2 σ 2 1 + 2u (1 − u) Cov (X1, X2)<br />
Assim, fx|u (x|u) é a função de densidade da normal de média E (X|U = u) e variância<br />
Var (X|U = u). Desta forma,<br />
f (x) = αfx|u (x|0) + (1 − α) fx|u (x|1) , 0 ≤ α ≤ 1<br />
sendo fx|u (x|0) a fdp da distribuição N (µ 1, σ 2 1) e fx|u (x|1) a fdp da distribuição N (µ 2, σ 2 2).<br />
No exemplo da “moeda ao ar”, α é 0.5. É interessante observar que uma mistura de normais<br />
conduz a uma distribuição não normal. Em particular a mistura pode ser assimétrica e lep-<br />
tocúrtica. Com efeito, pode-se mostrar que,<br />
• E (X) = αµ 1 + (1 − α) µ 2;<br />
• Var (X) = ασ 2 1 + (1 − α) σ 2 2 + α (1 − α) (µ 1 − µ 2) 2 ;<br />
48<br />
x
f(x)<br />
1.0<br />
0.9<br />
0.8<br />
0.7<br />
0.6<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
5 4 3 2 1 0 1 2 3 4 5<br />
Figura 3-8: Mistura de Normais<br />
• E (X − E (X)) 3 = α (1 − α) (µ 1 − µ 2) (1 − 2α) (µ 1 − µ 2) 2 + 3 (σ 2 1 + σ 2 2) ;<br />
• k = 3 + 3α(1−α)(σ2 1 −σ2 2) 2<br />
(ασ 2 1 +(1−α)σ2 2) 2 > 3 supondo, para simplificar, que µ 1 = µ 2 = 0.<br />
Na figura 3-8 representa-se f (x) para α = 0.5, µ 1 = −1, µ 2 = 1, σ1 = 1/5, σ2 = 5. A<br />
fdp traçada é assimétrica e leptocúrtica.<br />
Distribuição com Caudas de Pareto<br />
A fdp de Pareto é<br />
g (y) = αc α y −(α+1) , y > c.<br />
À primeira vista pode parecer que esta distribuição não serve pois o nosso objectivo é mod-<br />
elar os retornos e o espaço de estados desta variável é claramente R (os retornos podem as-<br />
sumir qualquer valor em R). Ora, sucede que g apenas está definida para y > c (e, portanto,<br />
não atribui probabilidades quando y < c). No entanto, o que procuramos neste momento<br />
é caracterizar probabilisticamente os eventos extremos, i.e. os eventos que se encontram<br />
bem afastados da média. Estamos, portanto, concentrados nas abas da distribuição e, para o<br />
efeito, o que é relevante é o que se passa para y > c.<br />
Diz-se que uma fdp f (y) tem distribuição com caudas de Pareto (mesmo que não seja<br />
uma distribuição de Pareto) se<br />
f (y) ∼ Cy −(α+1) , α > 0<br />
49<br />
x
fdp<br />
0.07<br />
0.06<br />
0.05<br />
0.04<br />
0.03<br />
0.02<br />
0.01<br />
0.00<br />
2.0 2.5 3.0 3.5 4.0 4.5 5.0<br />
Figura 3-9: Cauda de Pareto vs. Cauda Gaussiana<br />
(C é uma constante). O sinal “∼” significa aqui que<br />
lim<br />
y→∞ f (y) /Cy−(α+1) = 1.<br />
Esta última equação diz-nos que para valores grandes de y, f (y) é “praticamente igual” a<br />
Cy −(α+1) (no limite é igual). Para valores “pequenos” de y, f (y) pode ser completamente<br />
diferente de Cy −(α+1) . A similaridade está nas caudas, quando y → ∞ (existem definições<br />
mais gerais, baseadas em funções slowly varying at ∞). Pode-se concluir que f (y) tem um<br />
decaimento polinomial para zero (decaimento lento para zero) e, portanto, caudas pesadas. Já<br />
a distribuição normal tem um decaimento exponencial (recorde-se que no caso Gaussiano,<br />
f (y) = C exp {−y 2 /2}) e a fdp tende para zero muito rapidamente quando y tende para<br />
±∞. A figura 3-9 compara uma cauda Gaussiana com uma cauda de Pareto.<br />
Uma vez que a fdp com caudas pesadas do tipo f (y) ∼ Cy −(α+1) não tende rapidamente<br />
para zero, certos valores esperados podem não existir. De facto, se α < k então os momentos<br />
de ordem igual ou superior a k não existem. Com efeito, seja D o espaço de estados de yt<br />
50<br />
y
(valores que y pode assumir). Para um certo c ∈ D e c > 0, vem:<br />
<br />
E |yt| k<br />
=<br />
≥<br />
=<br />
<br />
= C<br />
D ∞<br />
c ∞<br />
|y| k f (y) dy<br />
c<br />
∞<br />
c<br />
|y| k f (y) dy<br />
|y| k Cy −(α+1) dy<br />
|y| −α−1+k dy = ∞<br />
se −α − 1 + k > −1, ou seja, se α < k. Por exemplo, Var (yt) não existe se α < 2.<br />
Estimador de Hill Suponha-se f (y) ∼ Cy −(α+1) . Como estimar α? Antes de propormos<br />
um estimador para α, admita-se um cenário mais simples: f (y) tem distribuição (exacta) de<br />
Pareto, y ∼ P areto (c, α) , ou seja<br />
f (y) = αcα<br />
, y > c.<br />
yα+1 Assuma-se que {yt; t = 1, 2, ..., n} é uma sucessão de v.a. i.i.d. com distribuição de P areto (α, c) .<br />
A função de log-verosimilhança corresponde à expressão<br />
log L (α, c) =<br />
n<br />
log f (yt) = n log (α) + n log (c) − (α + 1)<br />
t=1<br />
Diferenciando log L com respeito a α e igualando a zero obtém-se<br />
ˆα =<br />
n<br />
t=1<br />
n<br />
log (yt) .<br />
t=1<br />
n<br />
. (3.3)<br />
log (yt/c)<br />
ˆαn é maximizante, pois ∂ 2 log L/∂ 2 α = −n/α 2 < 0. Tem-se ainda √ n (ˆαn − α)<br />
N 0, I (α) −1 onde<br />
I (α0) = − E<br />
<br />
2 ∂ log f (yt)<br />
∂α 2<br />
= 1<br />
.<br />
α2 O estimador de máxima verosimilhança de c é ĉ = mint=1,...,n {yt} 6<br />
d<br />
−→<br />
Retome-se agora a hipótese f (y) ∼ Cy −(α+1) . Se uma distribuição tem caudas de Pareto,<br />
mas não é uma distribuição de Pareto, então o estimador para α acima apresentado não pode<br />
6 Embora a derivada da função log L (c, α) com respeito a c não se anule (verifique), pode-se concluir que no<br />
intervalo de valores admissíveis de c, isto é, c ≤ mint=1,...,n {yt} , a função log L (fixado α) atinge o máximo<br />
em ĉ = mint=1,...,n {yt} .<br />
51
ser utilizado. Nestas circunstâncias, se estamos apenas interessados em estimar o índice<br />
de cauda α (supondo que y tem distribuição com caudas de Pareto, mas não segue essa dis-<br />
tribuição), devemos aparar a amostra {yt; t = 1, 2, ..., n} , por exemplo, considerando apenas<br />
os dados yt tais que yt > q (onde q pode ser interpretado como um quantil de y, geralmente<br />
um quantil de ordem superior a 0.95). Analisa-se, portanto, o comportamento de y apenas<br />
para os valores muitos altos (ou muito baixos) de y.<br />
O estimador de α, designado por estimador de Hill, para a aba direita da distribuição é<br />
ˆα (q) =<br />
n (q)<br />
n t=1 log (yt/q)<br />
, n (q) =<br />
I{yt>q}<br />
n<br />
t=1<br />
I{yt>q}<br />
(3.4)<br />
onde I{yt>q} = 1 se yt > q e I{yt>q} = 0 no caso contrário. Pode-se pensar neste estimador<br />
como se fosse o estimador (3.3), mas aplicado apenas aos valores da amostra que verificam<br />
yt > q.<br />
O estimador de α para a aba esquerda da distribuição é o que resulta da equação (3.4) de-<br />
pois de se substituir I{yt>q} por I{yt0.01} log (yt/0.01) I{yt>0.01}<br />
-0.110 0 0<br />
0.090 1 2.197<br />
0.100 1 2.303<br />
-0.100 0 0<br />
0.020 1 0.693<br />
0.005 0 0<br />
<br />
3 5.193<br />
Qual é o valor do threshold q que devemos escolher? Temos um dilema de enviesamento<br />
52
versus variância:<br />
• se q é alto a estimação de ˆα (q) é baseada em poucas observações, i.e., n (q) é baixo,<br />
pelo que a variância de ˆα (q) é alta (observe-se Var (ˆα (q)) = α 2 /n (q));<br />
• se q é baixo, perde-se a hipótese f (y) ∼ Cy −(α+1) e, como consequência, o estimador<br />
ˆα (q) é enviesado e mesmo inconsistente (recorde-se que ˆα (q) é baseado na hipótese<br />
f (y) ∼ Cy −(α+1) ).<br />
Exemplo 3.1.2 Na tabela seguinte apresentam-se estimativas do índice da cauda de re-<br />
tornos bolsistas sectoriais do mercado norte-americano no período 03/1/1994 a 21/01/2011<br />
(4292 observações).<br />
Aba Esquerda Aba Direita<br />
ˆα (q0.0.025) ˆα (q0.975) Retorno Volat. Skew. Kurt.<br />
n o obs. efect. usadas: 108 108 Anualiz. Anualiz.<br />
Petróleo e Gás 2.29 3.16 9.45% 25.79% -0.25 13.98<br />
Matérias-Primas 2.81 3.15 6.77% 25.90% -0.29 10.32<br />
Indústria 2.91 3.00 7.42% 21.90% -0.25 8.441<br />
Consumo (bens) 3.37 2.93 2.34% 19.82% -0.15 9.025<br />
Saúde 2.90 3.52 7.12% 17.29% -0.08 11.44<br />
Comunicações 3.10 3.26 1.37% 22.31% 0.09 9.962<br />
Utilities 3.06 2.78 1.86% 19.10% 0.04 14.19<br />
<strong>Financeira</strong>s 2.68 2.37 5.02% 29.02% -0.10 15.58<br />
Tecnologia 3.77 3.07 9.42% 30.44% 0.16 7.065<br />
Fonte: Datastream<br />
Algumas conclusões podem ser retiradas:<br />
• Em todos os casos é razoável admitir que a variância existe. Os momentos de ordem<br />
4 podem não existir.<br />
• Os índices de cauda estimados são relativamente baixos o que sugere que existe uma<br />
massa de probabilidade considerável associada a valores extremos na amostra.<br />
53
Figura 3-10: Estimativa da fdp dos retornos do DowJones no período Out/1988-Jan/2010 e<br />
fdp normal de média e variância estimadas a partir dos retornos<br />
3.1.8 Estimação Não Paramétrica da Função Densidade de Probabili-<br />
dade<br />
A forma mais simples de estimar f (x) consiste em obter o histograma das frequências relati-<br />
vas. Existem, no entanto, estimadores preferíveis. Uma estimativa não paramétrica de f (x)<br />
pode ser dada por<br />
ˆf (x) = 1<br />
nh<br />
n<br />
<br />
x − xi<br />
K<br />
h<br />
i=1<br />
onde K (u) é uma fdp (ver detalhes no ponto 10.2). Sob certas condições, incluindo h →<br />
0, n → ∞, nh → ∞ pode-se provar ˆ f (x)<br />
p<br />
−→ f (x) . Na figura 3-10 apresenta-se uma es-<br />
timativa não paramétrica da fdp marginal dos retornos do Dow Jones no período Out/1988-<br />
Jan/2010 (na verdade, estão representadas várias estimativas: f (x1) , f (x2) , ..., f (xk) ,<br />
sendo {xk} uma sucessão de valores igualmente espaçado no intervalo (−0.07; 0.06) - vejase<br />
o eixo das abcissas da figura 3-10). Na figura representa-se também a fdp da N ¯r, ˆσ 2<br />
onde ¯r e ˆσ 2 são as estimativas dos dois primeiros momentos dos retornos do Dow Jones no<br />
período considerado.<br />
Comparando ˆ f com a densidade normal, conclui-se que ˆ f atribui maior massa de prob-<br />
abilidade na vizinhança da média empírica e nos intervalos associados aos valores extremos<br />
da amostra, e atribui reduzida massa de probabilidade no intervalo dos valores moderados da<br />
54
amostra, digamos no intervalo (−0.03, −0.01) e (0.01, 0.03).<br />
3.2 Regularidade Empíricas relacionadas com a Distribuição<br />
Condicional<br />
Neste ponto discutimos regularidades que envolvem especificações dinâmicas relacionadas<br />
com a distribuição condicional dos retornos ou de uma função dos retornos (por exemplo,<br />
veremos como o retorno depende dos seus valores passados, ou como o quadrado dos re-<br />
tornos depende do quadrado dos retornos passados, entre outras especificações).<br />
3.2.1 Autocorrelações Lineares Baixas entre os Retornos<br />
A correlação entre as variáveis X e Y é dada por<br />
ρ =<br />
Cov (X, Y )<br />
Var (X) Var (Y ) , −1 ≤ ρ ≤ 1.<br />
O coeficiente ρ mede o grau de associação linear entre Y e X. Quanto mais alto for |ρ| maior<br />
é a relação entre X e Y. Podemos também medir a associação linear entre yt e yt−1 ou entre<br />
yt e yt−2 etc.<br />
ρ s =<br />
Cov (yt, yt−s)<br />
Var (yt) Var (yt−s)<br />
Como ρ s pode ser visto como uma função de s, ρ s é designado por função de autocorrelação<br />
(FAC) (ou ACF em inglês). Se assumirmos Var (yt) = Var (yt−s) vem<br />
ρ s =<br />
Cov (yt, yt−s)<br />
<br />
Var (yt) Var (yt−s) = Cov (yt, yt−s)<br />
<br />
(Var (yt)) 2<br />
= Cov (yt, yt−s)<br />
.<br />
Var (yt)<br />
Pelo método dos momentos, a estimação de ρ s pode fazer-se através do estimador<br />
ˆρ s =<br />
1 n<br />
n−s<br />
t=s+1 (yt − ¯y) (yt−s − ¯y)<br />
n t=1 (yt − ¯y) 2 .<br />
1<br />
n<br />
O coeficiente ρ s pode ser também obtido no contexto do modelo de (auto)regressão<br />
yt = c + ρ syt−s + ut<br />
55
Figura 3-11: Funções de autocorrelação dos retornos diários (Microsoft 1986-2006)<br />
onde se admite que {ut} é uma sucessão de v.a. independentes e E (ut| yt−s) = 0. O rácio-t<br />
associado à estimativa de ρ s permite ensaiar H0: ρ s = 0. Em alternativa temos os seguintes<br />
testes standard válidos sob a hipótese i.i.d.<br />
Teste Kendal e Stuart H0: ρ k = 0<br />
<br />
√ d<br />
n (ˆρk + 1/n) −→ N (0, 1) , ˆρ k ≈ N − 1<br />
<br />
1<br />
, √<br />
n n<br />
Rejeita-se H0 ao n.s. de (aprox.) 5% se |ˆρ k| > 2/ √ n (supondo 1/n ≈ 0).<br />
Teste Ljung-Box H0: ρ 1 = ... = ρ m = 0<br />
Qm = n (n + 2)<br />
m<br />
k=1<br />
1<br />
n − k ˆρ2<br />
k<br />
d<br />
−→ χ 2 (m)<br />
Em geral os coeficientes de autocorrelação dos retornos são baixos. Na figura 3-11 as<br />
estimativas da FAC dos retornos diários da Microsoft 1986 a 2006 são relativamente baixas.<br />
Imagine-se uma situação hipotética em que se tem um coeficiente de correlação nega-<br />
tivo e alto (em módulo), por exemplo, ρ 1 = −0.9, para dados diários. Suponha-se ainda,<br />
para simplificar a análise, que E (rt) = 0. Se o retorno hoje é positivo, amanhã o retorno<br />
tenderá a ser negativo e vice-versa. Nestas circunstâncias, se o retorno hoje é alto vende-se<br />
56
hoje e compra-se amanhã. Existe, portanto, uma forte possibilidade de ganho (arbitragem)<br />
com base na observação passada dos preços. Se outros participantes do mercado compram<br />
e vendem com base neste padrão de autocorrelação, o processo de arbitragem reduzirá rapi-<br />
damente a correlação (se o retorno hoje é alto e positivo muitos participantes vendem hoje e<br />
compram amanhã; como consequência o preço tenderá a diminuir hoje e aumentar amanhã<br />
e a correlação tenderá a esbater-se). Portanto, não é credível, supor-se ρ 1 = −0.9.<br />
Retome-se a figura 3-11. A coluna Q-Stat fornece os valores de Qm para m = 1, ..., 20.<br />
Fixe-se por exemplo, m = 20. Tem-se Q20 = 36.613. O valor-p associado é zero, isto é,<br />
P (Q20 > 36.613) = 0.013. Logo existe evidência contra a hipótese nula H0: ρ 1 = ... =<br />
ρ 20 = 0. Esta conclusão parece contraditória com a ideia de baixas autocorrelações dos<br />
retornos. No entanto, é preciso observar o seguinte:<br />
• em amostras muito grandes, como é aquela que analisamos, qualquer pequeno desvio<br />
face à hipótese nula implica a sua rejeição;<br />
• os coeficientes estimados embora (pareçam) estatisticamente significativos estão, ainda<br />
assim, muito perto de zero e não oferecem informação suficiente para realizar mais-<br />
valias anormais (depois de deduzidos os custos de transacção e informação);<br />
• os testes foram utilizados sob a hipótese irrealista de os retornos serem i.i.d. Esta su-<br />
posição não é válida sobretudo devido à presença de heterocedasticidade condicionada.<br />
Uma forma de mitigar a presença de heterocedasticidade consiste em estandardizar os<br />
retornos,<br />
r ∗ t = rt − ¯r<br />
onde ˆσt é uma estimativa da volatilidade no momento t (r ∗ t pode ser encarado como os “re-<br />
tornos” expurgados de heterocedasticidade). Como obter ˆσt? Discutiremos esta questão com<br />
alguma profundidade no capítulo 8. É suficiente agora usar uma especificação relativamente<br />
simples (mas “subóptima”):<br />
ˆσt<br />
ˆσ 2<br />
t = (1 − λ) r 2 t−1 + λˆσ 2<br />
t−1, λ = 0.96<br />
Na figura 3-12 apresentam-se os coeficientes de autocorrelação de r ∗ t . Observa-se que os co-<br />
eficientes de autocorrelação continuam muitos baixos mas agora não existe evidência contra<br />
a a hipótese ρ 1 = ... = ρ 20 = 0.<br />
57
Figura 3-12: Funções de autocorrelação dos retornos diários estandardizados (Microsoft<br />
1986-2006)<br />
Séries macroeconómicas geralmente exibem moderada ou forte autocorrelação. Veja-se,<br />
por exemplo, a figura 3-13 onde se representa a FAC de yt = log (GNPt/GNPt−1) sendo<br />
GNP (Gross National Product) o PIB dos EUA (dados trimestrais de 1947 a 2003).<br />
3.2.2 Volatility Clustering<br />
Já vimos que valores muitos altos e muito baixos ocorrem frequentemente (com maior fre-<br />
quência do que seria de esperar se as variáveis seguissem uma distribuição normal). Este<br />
valores extremos não ocorrem isoladamente: tendem a ocorrer de forma seguida (volatility<br />
clustering). Na figura 3-14 representam-se os retornos diários associados ao índice Dow<br />
Jones (1926-2006). Na figura 3-15 apresentam-se os mesmos retornos mas agora dispostos<br />
por ordem aleatória no tempo. Algumas estatísticas destas duas sucessões são obviamente<br />
iguais (média, desvio padrão, coeficientes de assimetria e de achatamento). No entanto ex-<br />
istem diferenças significativas. Só no verdadeiro cronograma (figura 3-14) aparece uma<br />
das propriedades mais importantes dos retornos: fortes (baixas) variações são normalmente<br />
seguidas de fortes (baixas) variações em ambos os sentidos (volatility clustering)<br />
Se fortes (baixas) variações são normalmente seguidas de fortes (baixas) variações em<br />
58
Figura 3-13: Funções de autocorrelação de yt = log (GNPt/GNPt−1) onde GNP é o PIB<br />
dos EUA (dados trimestrais de 1947 a 2003).<br />
0.2<br />
0.15<br />
0.1<br />
0.05<br />
0<br />
0.05<br />
0.1<br />
0.15<br />
0.2<br />
0.25<br />
0.3<br />
Oct28<br />
May32<br />
Dec35<br />
Jul39<br />
Feb43<br />
Sep46<br />
Apr50<br />
Nov53<br />
Jun57<br />
Jan61<br />
Aug64<br />
Mar68<br />
Oct71<br />
May75<br />
Dec78<br />
Jul82<br />
Feb86<br />
Sep89<br />
Apr93<br />
Nov96<br />
Jun00<br />
Jan04<br />
Figura 3-14: Retornos diários do Dow Jones (1928-2006)<br />
0.2<br />
0.15<br />
0.1<br />
0.05<br />
0<br />
0.05<br />
0.1<br />
0.15<br />
0.2<br />
0.25<br />
0.3<br />
Figura 3-15: Retornos diários do Dow Jones dispostos por ordem aleatória<br />
59
Figura 3-16: Funções de autocorrelação dos quadrados dos retornos (Dow JOnes)<br />
ambos os sentidos, então r 2 t deve estar correlacionado 7 com r 2 t−i (i = 1, 2, ...).<br />
A figura 3-16, onde se apresentam as funções de autocorrelação de r 2 t , onde r é o retorno<br />
associado ao índice Dow Jones, confirma esta ideia.<br />
Nesta secção identifica-se o quadrado do retorno com a volatilidade. Não é inteiramente<br />
correcta esta analogia, embora seja admissível associar-se momentos de grande (baixa) volatil-<br />
idade a valores altos (baixos) de r 2 t . De qualquer forma, a principal conclusão mantém-se:<br />
fortes (baixas) variações são normalmente seguidas de fortes (baixas) variações em ambos<br />
os sentidos e identificamos este fenómeno como volatility clustering.<br />
3.2.3 Forte Dependência Temporal da Volatilidade<br />
Nos pontos precedentes observámos o seguinte: (1) valores muitos altos e muito baixos<br />
ocorrem frequentemente e (2) estes valores extremos aparecem de forma seguida (volatility<br />
clustering). Neste ponto reforça-se a ideia de volatility clustering: não só os valores extremos<br />
tendem a aparecer de forma seguida como também há alguma persistência neste fenómeno.<br />
7Esta correlação poderia, em princípio, dever-se à presença de uma média condicional não constante. Por<br />
exemplo, se rt seguisse um MA(1), rt = φrt−1 + ut, onde ut é um ruído branco, então, por construção,<br />
ter-se-ia Corr r2 t , r2 <br />
t−1 > 0. Se fosse este o caso, a melhor forma de continuarmos com o nosso argumento<br />
seria centrar rt, usando a média condicional, i.e. tomaríamos ˜rt = rt − µ t. Viria agora Corr ˜r 2 t , ˜r 2 <br />
t−1 = 0 se<br />
rt fosse genuinamente um MA(1); no caso contrário, se Corr ˜r 2 t , ˜r 2 <br />
t−1 > 0, teríamos evidência em favor do<br />
nosso argumento. Todavia, a centragem ˜rt = rt − µ t é desnecessária, pois em séries financeiras de acções ou<br />
de índices de acções a média condicional é, geralmente, aproximadamente igual a uma constante.<br />
60
0.2<br />
0.15<br />
0.1<br />
0.05<br />
0<br />
0.05<br />
0.1<br />
0.15<br />
Oct28<br />
Apr31<br />
Oct33<br />
Apr36<br />
Oct38<br />
Apr41<br />
Oct43<br />
Apr46<br />
Oct48<br />
Apr51<br />
Oct53<br />
Apr56<br />
Oct58<br />
Apr61<br />
Oct63<br />
Apr66<br />
Oct68<br />
Apr71<br />
Oct73<br />
Apr76<br />
Oct78<br />
Apr81<br />
Oct83<br />
Apr86<br />
Oct88<br />
Apr91<br />
Oct93<br />
Apr96<br />
Oct98<br />
Apr01<br />
Oct03<br />
Figura 3-17: Retornos diários do Dow Jones (Jan-1928 a Fev-2006)<br />
Isto é, se a volatilidade é alta (baixa), então é razoável esperar que a volatilidade se mantenha<br />
alta (baixa) durante bastante tempo. Na figura 3-17 apresentam-se os retornos diários do Dow<br />
Jones no período Janeiro de 1928 a Fevereiro de 2006. Estão identificados alguns períodos<br />
de grande volatilidade. Estes períodos prolongam-se por vários anos!<br />
Para confirmarmos a ideia de forte dependência temporal da volatilidade deveríamos<br />
calcular a FAC da volatilidade. Como a estimação da volatilidade cabe num capítulo poste-<br />
rior, tomamos agora como proxy da volatilidade o valor absoluto dos retornos |rt| (também<br />
poderíamos considerar r 2 t , como fizemos no ponto precedente). Calcule-se, assim, a FAC<br />
associado aos valores absolutos dos retornos do Dow Jones no período acima considerado.<br />
A figura 3-18 mostra que a FAC de |rt| apresenta um decaimento lento para zero, sugerindo<br />
forte dependência temporal da volatilidade. É interessante observar que a autocorrelação en-<br />
tre, por exemplo, |rt| e |rt−500| se situe ainda próximo de 0.1 (observe-se que o desfasamento<br />
corresponde aproximadamente a dois anos).<br />
Para processos ARMA e processos de Markov em geral, o decaimento da FAC é do tipo<br />
|ρ k| ≤ Ca k , 0 < C < ∞, 0 < a < 1.<br />
Tem-se, portanto, um decaimento exponencial 8 . A figura 3-18 não sugere um decaimento<br />
exponencial; sugere antes um decaimento hiperbólico da FAC que é uma característica de<br />
8 k Pode parecer estranho dizer-se que a função Ca apresenta um decaimento exponencial para 0 < C < ∞ e<br />
0 < a < 1. Mas observe-se, para C = 1 (simplificando), que ak log ak = e = ek log a e tem-se assim um<br />
decaimento exponencial, em função de k, dado que log a < 0.<br />
61
0.35<br />
0.3<br />
0.25<br />
0.2<br />
0.15<br />
0.1<br />
0.05<br />
0<br />
1 76 151 226 301 376 451 526 601 676 751 826 901 976<br />
Figura 3-18: FAC de |rt| onde rt é o retorno diário do Dow Jones (Jan. 1928 a Fev. 2006)<br />
Rho<br />
1.0<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0.0<br />
0 10 20 30 40 50 60 70 80 90 100<br />
Figura 3-19: Decaimento Exponencial (0.9 k ) vs. Hiperbólico (k −0.5 )<br />
processos de memória longa. Concretamente, um decaimento hiperbólico da FAC é do tipo<br />
|ρ k| ≈ C |k| −β , β > 0<br />
Por exemplo, com ρ k = 1/k (β = 1) tem-se um decaimento hiperbólico (veja-se a figura<br />
3-19).<br />
3.2.4 Efeito Assimétrico<br />
Tem-se observado existir alguma correlação entre a volatilidade e a ocorrência de perdas<br />
significativas nos mercados de capitais. Designa-se esta relação por efeito assimétrico (ou<br />
leverage effect).<br />
Concretamente, quando rt−1 < 0 espera-se, em média, um aumento de volatilidade para<br />
o período seguinte. Se tomarmos como proxy da volatilidade a variável |rt| ou r 2 t devemos<br />
62<br />
k
Índices Bolsistas Corr (rt−1, r 2 t )<br />
Amesterdão -0.049<br />
Frankfurt -0.095<br />
Hong Kong -0.081<br />
Nova York -0.199<br />
Taxas de Câmbio<br />
Libra Britânica 0.074<br />
Dólar Canadiano 0.041<br />
Yen -0.008<br />
Franco Suíço 0.014<br />
Tabela 3.3: Efeito Assimétrico<br />
esperar que Corr (rt−1, |rt|) < 0 ou Corr (rt−1, r 2 t ) < 0. A tabela 3.3 parece confirmar a<br />
existência de um efeito assimétrico apenas para índices bolsistas (e, por extensão, também<br />
para cotações de acções) mas não para taxas de câmbio (a justificação pode ver-se no ponto<br />
3.1.3).<br />
Veremos no capítulo 8 uma forma bastante mais eficiente de estimar o efeito assimétrico<br />
e de testar se os coeficientes são ou não estatisticamente significativos. Não obstante, uma<br />
forma expedita de verificar se os coeficientes são estatisticamente significativos consiste em<br />
fazer a regressão de r 2 t sobre rt−1,<br />
r 2 t = β 0 + β 1rt−1 + ut<br />
(3.5)<br />
e depois ensaiar H0: β 1 = 0 contra H1:β 1 < 0. Com efeito, na equação anterior, β 1<br />
representa β 1 = Cov (rt−1, r 2 t ) / Var (rt−1) . Desta forma, β 1 < 0 implica Corr (rt−1, r 2 t ) <<br />
0.<br />
Como a heterocedasticidade está invariavelmente presente nas séries temporais finan-<br />
ceiras, convém empregar erros padrão robustos contra heterocedasticidade (uma possibili-<br />
dade neste sentido é a utilização da matriz de White). Recorda-se que, sob condições gerais,<br />
a heterocedasticidade não afecta a consistência do estimador OLS (afecta sim, como vimos,<br />
os erros padrão).<br />
O efeito assimétrico é, por vezes identificado como leverage effect depois de Black em<br />
1976 ter notado que a volatilidade aumenta quando o mercado cai e o rácio de endividamento<br />
(leverage ratio) aumenta. No entanto, vários autores têm salientado que o leverage é muito<br />
reduzido quando comparado com o efeito assimétrico. Várias explicações têm sido propostas<br />
para o efeito assimétrico.<br />
63
• Uma explicação designada por volatility feedback effect baseia-se na seguinte ideia.<br />
Quando a volatilidade de uma activo aumenta, o risco agrava-se, e a rendibilidade<br />
exigida para esse activo aumenta. Isto significa que o activo é menos atractivo e,<br />
portanto, a sua procura diminui, fazendo cair o respectivo preço. Esta explicação pres-<br />
supõe que o aumento da volatilidade precede a queda do preço (isto é, esquematica-<br />
mente, ↑ σ 2 t−1 ⇒↓ Pt, podendo t aqui ter uma interpretação intra-diária). Contudo, o<br />
facto estilizado envolve a implicação contrária, ↓ Pt−1 ⇒↑ σ 2 t (a diminuição do preço<br />
é que precede o aumento da volatilidade).<br />
• Outra explicação sustenta que o efeito assimétrico deve-se à existência de investidores<br />
naives (uninformed traders) que vendem os seus títulos quando o mercado está cair.<br />
Este comportamento conduz não só a uma queda mais acentuada do preço como tam-<br />
bém a um aumento de volatilidade.<br />
• Outra possibilidade é a seguinte. A diminuição do preço aumenta o risco de mercado<br />
(dado que o centro de gravidade da distribuição condicional dos retornos de desloca<br />
para a esquerda). O aumento do risco obriga a ajustamentos imediatos no portfolio<br />
(através de compras e vendas de activos que façam a cobertura do risco perdido). Este<br />
acréscimo da actividade nos mercados financeiros aumenta a volatilidade. Já variações<br />
positivas nos preços não têm o mesmo impacto sobre o risco e, como tal, ajustamentos<br />
no portfolio não são prementes.<br />
3.2.5 Aumento da Frequência das Observações Acentua a Não Lineari-<br />
dade<br />
Vários estudos indicam que os coeficientes de autocorrelações de r 2 t e de |rt| tendem a au-<br />
mentar com o aumento da frequência das observações.<br />
3.2.6 Co-Movimentos de Rendibilidade e Volatilidade<br />
Ao se analisarem duas ou mais séries financeiras de retornos ao longo do tempo, geralmente<br />
observam-se co-movimentos de rendibilidade e volatilidade, isto é, quando a rendibilidade<br />
e a volatilidade de uma série aumenta (diminui), a rendibilidade e a volatilidade das outras<br />
tende, em geral, a aumentar (diminuir). Estas características são relativamente evidentes nas<br />
figuras 3-20 e 3-21. A figura 3-20 mostra que os índices sobem e descem em sintonia (co-<br />
64
7000<br />
6000<br />
5000<br />
4000<br />
3000<br />
2000<br />
CAC<br />
1000<br />
1990 1992 1994 1996 1998 2000 2002 2004 2006<br />
6000<br />
5000<br />
4000<br />
3000<br />
2000<br />
1000<br />
16000<br />
14000<br />
12000<br />
10000<br />
8000<br />
6000<br />
4000<br />
DJ EURO STOXX 50<br />
0<br />
1990 1992 1994 1996 1998 2000 2002 2004 2006<br />
PSI20<br />
2000<br />
1990 1992 1994 1996 1998 2000 2002 2004 2006<br />
9000<br />
8000<br />
7000<br />
6000<br />
5000<br />
4000<br />
3000<br />
2000<br />
DAX<br />
1000<br />
1990 1992 1994 1996 1998 2000 2002 2004 2006<br />
7000<br />
6000<br />
5000<br />
4000<br />
3000<br />
2000<br />
FTSE 100<br />
1000<br />
1990 1992 1994 1996 1998 2000 2002 2004 2006<br />
1600<br />
1400<br />
1200<br />
1000<br />
800<br />
600<br />
400<br />
S&P 500<br />
200<br />
1990 1992 1994 1996 1998 2000 2002 2004 2006<br />
Figura 3-20: Índices Bolsistas<br />
CAC DAX DJ EURO 50 FTSE 100 PSI 20 S&P 500<br />
CAC 1<br />
DAX 0.78 1<br />
DJ EURO 50 0.92 0.89 1<br />
FTSE 100 0.79 0.70 0.81 1<br />
PSI 20 0.52 0.50 0.57 0.47 1<br />
S&P 500 0.43 0.47 0.46 0.41 0.25 1<br />
Tabela 3.4: Matriz de correlações dos retornos diários (Jan 90-Nov 06)<br />
movimento de rendibilidade). A tabela 3.4, onde se apresentam os coeficientes de correlação<br />
(marginal) dos retornos diários, corrobora o co-movimento de rendibilidade. A figura 3-21<br />
mostra que os períodos de alta e baixa volatilidade são aproximadamente coincidentes (co-<br />
movimento de volatilidade). A tabela 3.5, onde se apresentam os coeficientes de correlação<br />
(marginal) dos retornos ao quadrado, corrobora o co-movimento de volatilidade.<br />
65
.08<br />
.04<br />
.00<br />
.04<br />
CAC<br />
.08<br />
1990 1992 1994 1996 1998 2000 2002 2004 2006<br />
.08<br />
.04<br />
.00<br />
.04<br />
.08<br />
1990 1992 1994 1996 1998 2000 2002 2004 2006<br />
.08<br />
.04<br />
.00<br />
.04<br />
.08<br />
DJ EURO STOXX 50<br />
PSI20<br />
.12<br />
1990 1992 1994 1996 1998 2000 2002 2004 2006<br />
.08<br />
.04<br />
.00<br />
.04<br />
.08<br />
DAX<br />
.12<br />
1990 1992 1994 1996 1998 2000 2002 2004 2006<br />
.06<br />
.04<br />
.02<br />
.00<br />
.02<br />
.04<br />
FTSE 100<br />
.06<br />
1990 1992 1994 1996 1998 2000 2002 2004 2006<br />
.06<br />
.04<br />
.02<br />
.00<br />
.02<br />
.04<br />
.06<br />
S&P 500<br />
.08<br />
1990 1992 1994 1996 1998 2000 2002 2004 2006<br />
Figura 3-21: Retornos de Índices<br />
CAC DAX DJ EURO 50 FTSE 100 PSI 20 S&P 500<br />
CAC 1<br />
DAX 0.74 1<br />
DJ EURO 50 0.91 0.85 1<br />
FTSE 100 0.77 0.66 0.78 1<br />
PSI 20 0.39 0.39 0.43 0.30 1<br />
S&P 500 0.38 0.44 0.41 0.35 0.21 1<br />
Tabela 3.5: Matriz de correlações dos retornos diários ao quadrado (Jan 90-Nov 06)<br />
66
Capítulo 4<br />
Processos Estocásticos: Revisões<br />
(Última actualização: 04/2010)<br />
4.1 Processo Estocástico e Filtração<br />
Um processo estocástico é um modelo matemático para descrever, em cada momento, de-<br />
pois de um instante inicial, um fenómeno aleatório. Este fenómeno é definido num es-<br />
paço de probabilidade (Ω, F, P ), onde, Ω é o conjunto de todos os estados da natureza<br />
(ou cenários de mercado), F é uma σ-álgebra de subconjuntos de Ω e P é uma proba-<br />
bilidade sobre F. Um processo estocástico é então uma colecção de variáveis aleatórias<br />
y = {yt (ω) , t ∈ Z, ω ∈ Ω} , definidas sobre um espaço de probabilidade (Ω, F, P ) . Para<br />
cada t, yt (·) é uma variável aleatória. Para cada ω ∈ Ω (cenário) fixo, y• (ω) é uma tra-<br />
jectória ou realização do processo. Para simplificar escreve-se yt em lugar de yt (ω). A<br />
observação de um fenómeno ao longo do tempo conduz normalmente à observação de uma<br />
particular trajectória do processo. Uma sucessão cronológica é apenas uma trajectória entre<br />
as infinitas possíveis.<br />
F tem estrutura de σ-álgebra no seguinte sentido: (i) se A ∈ F ⇒ Ac ∈ F; (ii) se<br />
Ai ∈ F ⇒ <br />
A ∈ F; (iii) Ω, ∅ ∈ F. O estudo dos processos estocásticos faz-se, usual-<br />
i<br />
mente, incluindo o conceito de σ-álgebra. Por um lado, as probabilidades são definidas so-<br />
bre σ-álgebras e as variáveis aleatórias, assume-se, são mensuráveis com respeito a essas<br />
σ-álgebras.<br />
Existe, no entanto, uma razão não técnica para incluir o estudo das σ-álgebras no estudo<br />
dos processos estocásticos: os processos estocásticos, ao descreverem a evolução estocástica<br />
de um fenómeno ao longo do tempo, sugerem que, em cada momento t ≧ 0, é possível<br />
67
falar de um ”passado”, ”presente” e ”futuro”. Um observador do fenómeno, pode falar da<br />
”história” do processo, daquilo que observa no presente e daquilo que poderá observar no<br />
futuro. Com vista, a caracterizar o quanto se sabe sobre o processo, é usual, equipar o<br />
espaço (Ω, F, P ) com uma filtração, i.e., uma família {Ft; t ≧ 0} de sub σ-álgebras de F:<br />
Fs ⊆ Ft ⊆ F para 0 ≦ s < t < ∞.<br />
Ft = σ (ys; s ≤ t) pode ser identificado como a “história” do processo y até ao momento<br />
t. Certos autores, para simplificar, escrevem<br />
Ft = {yt, yt−1, ..., y1} ou Ft = {yt, yt−1, ...} .<br />
4.2 Valores Esperados Condicionais: Principais Resulta-<br />
dos<br />
Começamos com um resultado trivial: E (yt| Ft) = yt. Com efeito, yt pertence ao conjunto<br />
Ft 1 (também se diz, yt é mensurável com respeito a Ft), logo yt pode ser tratado como uma<br />
constante dado Ft.<br />
Proposição 4.2.1 Suponha-se que Y é uma v.a. tal que E (|Y |) < ∞, Z é uma v.a. mensu-<br />
rável com respeito a G e E (|ZY |) < ∞ então com probabilidade um tem-se<br />
E (ZY | G) = Z E (Y | G) .<br />
Exemplo 4.2.1 Considere-se yt = xtyt−1+ut, onde {ut} é uma sucessão v.a. i.i.d. de média<br />
nula. Suponha-se Ft = σ (xs, ys; s ≤ t) . Então<br />
E (yt| Ft−1) = E (xtyt−1| Ft−1) = yt−1 E (xt| Ft−1) .<br />
Note-se que yt−1 é mensurável com respeito a Ft−1 mas xt não (Ft−1 “desconhece” os<br />
acontecimentos ocorridos em t).<br />
Exemplo 4.2.2 No âmbito da estatística clássica também se sabe que<br />
E (XY | X = x) = x E (Y | X = x) .<br />
1 Em termos técnicos, o evento (ou cenário de mercado) ω ∈ Ω que determinou yt é que pertence a Ft.<br />
Para simplificar, assume-se Ft = {yt, yt−1, ..., y1} ou Ft = {yt, yt−1, ...} e, neste caso, já pode-se dizer “yt<br />
pertence a Ft”.<br />
68
Com efeito,<br />
<br />
E (XY | X = x) =<br />
<br />
xyfy|x (y| x) dy = x<br />
yfy|x (y| x) dy = x E (Y | X = x) .<br />
Proposição 4.2.2 Seja g : R → R uma função convexa num intervalo B ⊂ R e Y uma v.a.<br />
tal que P (Y ∈ B) = 1. Se E (|Y |) < ∞ e E (|g (Y )|) < ∞ então<br />
Se g é côncava então<br />
E (g (y)| G) ≥ g (E (y| G)) .<br />
E (g (Y )| G) ≤ g (E (Y | G)) . (4.1)<br />
Dem. (esboço) Prove-se E (g (y)) ≥ g (E (y)) e suponha-se (para simplificar) que g ′ é<br />
continua em B. Como g é convexa e g ′ é continua, tem-se<br />
g (x) ≥ g (a) + g ′ (a) (x − a) , ∀x, a ∈ B.<br />
Escolha-se para a a constante E (Y ) , onde Y uma v.a. tal que P (Y ∈ B) = 1. Resulta,<br />
ou<br />
g (x) ≥ g (E (Y )) + g ′ (E (Y )) (x − E (Y ))<br />
g (Y ) ≥ g (E (Y )) + g ′ (E (Y )) (Y − E (Y )) .<br />
Como o lado direito da desigualdade é uma função linear em Y (g (E (Y )), g ′ (E (Y )) e<br />
E (Y ) são constantes), tem-se, aplicando o operador de valor esperado a ambos os termos da<br />
desigualdade,<br />
E (g (Y )) ≥ E (g (E (Y )) + g ′ (E (Y )) (Y − E (Y ))) = g (E (Y )) .<br />
Observação 4.2.1 Nas condições da proposição 4.2.2 tem-se:<br />
g é convexa ⇒ E (g (Y )) ≥ g (E (Y )) ;<br />
g é côncava ⇒ E (g (Y )) ≤ g (E (Y )) .<br />
Exemplo 4.2.3 Atendendo à observação anterior conclui-se:<br />
69
g (x) Conc./Conv. Desigualdade<br />
x 2 convexa E (Y 2 ) ≥ (E (Y )) 2<br />
1<br />
x , x > 0 convexa E 1<br />
Y<br />
≥ 1<br />
E(Y )<br />
log x, x > 0 côncava E (log (Y )) ≤ log (E (Y ))<br />
Também se conclui E (Y 2 ) ≥ (E (Y )) 2 a partir da igualdade Var (Y ) = E (Y 2 ) −<br />
(E (Y )) 2 pois, por definição, Var (Y ) ≥ 0.<br />
Proposição 4.2.3 (Lei do Valor Esperado Iterado I) Suponha-se E (|Y |) < ∞. Então<br />
Também se tem<br />
E (Y ) = E (E (Y | G)) .<br />
E (Y ) = E (E (Y | X)) .<br />
Com efeito, identificando fx, fy, fy|x e fy,x como as funções de densidade de probabilidade,<br />
respectivamente de X, Y , Y |X e (Y, X) , tem-se,<br />
E (E (Y | X)) =<br />
=<br />
=<br />
=<br />
<br />
<br />
yfy|x (y| x) dy fx (x) dx<br />
<br />
<br />
y fy|x (y| x) fx (x) dx dy<br />
<br />
<br />
y fy,x (y, x) dx dy<br />
<br />
yfy (y) dy<br />
= E (Y ) .<br />
Exemplo 4.2.4 Suponha-se que Y dado X tem distribuição condicional de Poisson de parâmetro<br />
λ = θX. Suponha-se ainda que X tem distribuição do Qui-Quadrado com um grau de liber-<br />
dade. Logo, pela proposição 4.2.3, vem<br />
E (Y ) = E (E (Y | X)) = E (θX) = θ.<br />
Exemplo 4.2.5 Considere-se o modelo yt = βxt + ut. Seja F X t = {xt, xt−1, ...} . Suponha-<br />
70
se E ut| F X t<br />
= 0. Como se sabe E yt| F X t<br />
= βxt. Logo<br />
E (yt) = E E βxt + ut| F X t<br />
= E E βxt| F X t + E E ut| F X t<br />
= β E (xt) .<br />
Neste exemplo, também se obtém esta expressão considerando E (yt) = E (βxt + ut) =<br />
β E (xt) .<br />
Exemplo 4.2.6 Considere-se yt = a + xtyt−1 + ut . Suponha-se que E (ut| Ft−1) = 0,<br />
E (xt| Ft−1) = µ x e E (yt) = E (yt−1) . Obtenha-se E (yt). Tem-se, pela lei do valor esper-<br />
ado iterado,<br />
E (yt) = E (E (yt| Ft−1))<br />
= E (E (a + xtyt−1 + ut| Ft−1))<br />
= E (a + E (xtyt−1| Ft−1) + E (ut| Ft−1))<br />
= E (a + yt−1 E (xt| Ft−1) + 0)<br />
= E (a + yt−1µ x)<br />
= a + µ x E (yt−1) = a + µ x E (yt)<br />
Logo E (yt) = a + µ x E (yt) ⇒ E (yt) = a/ (1 − µ x) .<br />
Um resultado mais geral é dado pela proposição seguinte.<br />
Proposição 4.2.4 (Lei do Valor Esperado Iterado II) Suponha-se E (|Y |) < ∞ e G ⊂ H.<br />
Então<br />
E (Y | G) = E (E (Y | H)| G) .<br />
Exemplo 4.2.7 Considere-se yt = a + φyt−1 + ut, |φ| < 1 onde {ut} é uma sucessão v.a.<br />
71
i.i.d. de média nula. Obtenha-se E (yt| Ft−2) . Como Ft−2 ⊂ Ft−1 , tem-se<br />
E (yt| Ft−2) = E (E (yt| Ft−1)| Ft−2)<br />
= E (a + φyt−1| Ft−2)<br />
= a + φ E (yt−1| Ft−2) (note-se agora yt−1 = a + φyt−2 + ut−1)<br />
= a + φ E (a + φyt−2 + ut−1| Ft−2)<br />
= a + φ (a + φ E (yt−2| Ft−2))<br />
= a + φ (a + φyt−2)<br />
= a + φa + φ 2 yt−2 .<br />
Facilmente se conclui serem válidas relações do tipo<br />
E (yt| Ft−3) = E (E (yt| Ft−2)| Ft−3)<br />
= E (E (E (yt| Ft−1)| Ft−2)| Ft−3)<br />
E (yt| F−∞) = E (E (E (E (yt| Ft−1)| Ft−2)| Ft−3) ...) .<br />
4.3 Distribuição Condicional versus Distribuição Marginal<br />
Seja f (yt| Ft−1) a fdp condicionada 2 de yt dada toda informação até ao momento t − 1.<br />
Comparativamente à fdp marginal (ou não condicional), f (yt), a fdp f (yt| Ft−1) é bastante<br />
mais “informativa”, pois esta última usa toda a informação disponível Ft−1, ao passo que a<br />
distribuição marginal, por definição, ignora a informação Ft−1. A fdp f (yt| Ft−1) pode ser<br />
entendida como uma reavaliação de f (yt) perante a evidência Ft−1.<br />
Considere-se a amostra {y1, ..., yn} . Um elemento da amostra escolhido ao acaso tem<br />
fdp f (y) . Mas observando Ft−1, a v.a. yt tem fdp f (yt| Ft−1) .<br />
Na figura 4-1 traçam-se duas hipotéticas fdp condicionadas. Para se discutir a figura,<br />
suponha-se que y é governado genericamente por dois atributos: (1) yt−1 e yt, para todo o<br />
t, tendem a estar “próximos”; por exemplo, se yt−1 é “alto”, yt tenderá também a ser “alto”<br />
(trata-se de uma forma de dependência temporal) e (2) yt “reverte” para zero, E (yt) = 0.<br />
Suponha-se ainda que y é estacionário. A fdp marginal é constante ao longo do tempo.<br />
No entanto, as densidades condicionais variam. Considere-se a fdp f (y2| F1) traçada na<br />
2 Certos autores identificam f (yt| Ft−1) como f (yt| yt−1, yt−2, ..., y1).<br />
72
8<br />
6<br />
4<br />
2<br />
0<br />
2<br />
4<br />
6<br />
f<br />
( y )<br />
2 F1<br />
( y )<br />
6 F5<br />
1 2 3 4 5 6<br />
Figura 4-1: A fdp f (yt| Ft−1) varia ao longo do tempo<br />
figura 4-1. Esta função atribui probabilidades associadas à variável y2 dado F1. Perante a<br />
observação y1 (e ainda sem se conhecer a realização y2), a fdp f (y2| F1) tem moda aprox-<br />
imadamente igual a y1: é natural esperar que o valor de y2 venha “próximo” de y1 - dada<br />
a hipótese (1); a fdp f (y6| F5) usa a informação disponível no momento t = 5. Como,<br />
y5 > 0, a densidade desloca-se um pouco na direcção de y5, pois y6 tenderá a estar “próx-<br />
imo” de y5. Todavia, como y reverte para zero, é mais provável o evento {y6 < y5| y5} do<br />
que {y6 > y5| y5} , i.e., y6 deverá em princípio aproximar-se do valor para o qual y reverte,<br />
E (yt) = 0. Nestas condições, a fdp f (y6| F5) embora se desloque na direcção de y5, con-<br />
tinua a atribuir massa de probabilidade significativa a intervalos próximos de zero.<br />
Dois parâmetros fundamentais de f (yt| Ft−1) são<br />
µ t = E (yt| Ft−1) =<br />
σ 2 t = Var (yt| Ft−1) =<br />
Valem as seguintes propriedades.<br />
<br />
ytf (yt| Ft−1) dyt<br />
<br />
(yt − µ t) 2 f (yt| Ft−1) dyt.<br />
Proposição 4.3.1 A melhor previsão de yn+1 dado Fn, de acordo com Erro Quadrático<br />
Médio, é E (yn+1| Fn) , i.e.<br />
E (yn − E (yn+1| Fn)) 2 ≤ E (yn − g (Fn)) 2<br />
onde g (Fn) é um qualquer outro previsor Fn mensurável (i.e. que usa também toda a<br />
informação disponível até ao momento n).<br />
73<br />
f
Dem. Tem-se<br />
E (yn − g (Fn)) 2 = E (yn − E (yn+1| Fn) + E (yn+1| Fn) − g (Fn)) 2<br />
= E (yn − E (yn+1| Fn)) 2 + E (E (yn+1| Fn) − g (Fn)) 2<br />
+ E [(yn − E (yn+1| Fn)) (E (yn+1| Fn) − g (Fn))]<br />
Como o terceiro termo é zero (deixa-se como exercício essa demonstração) vem<br />
E (yn − g (Fn)) 2 = E (yn − E (yn+1| Fn)) 2 + E (E (yn+1| Fn) − g (Fn)) 2<br />
≥ E (yn − E (yn+1| Fn)) 2 .<br />
O valor E (yn+1) é também um previsor não enviesado de yn+1 mas, como não usa a infor-<br />
mação disponível Ft−1, pode demonstrar-se que é bastante menos preciso do que o previsor<br />
E (yn+1| Fn).<br />
Pode-se também provar<br />
E (yn+h − E (yn+h| G)) 2 ≤ E (yn+h − E (yn+h| H)) 2 , H ⊆ G.<br />
Esta desigualdade resulta do facto de em G existir mais informação. É natural esperar que<br />
um previsor que use mais informação face a um outro, tenha um EQM inferior. Têm-se ainda<br />
os seguintes casos limites quando o previsor é um valor esperado condicionado.<br />
e<br />
G = F = F ∞ ⇒ E (yn+h − E (yn+h| G)) 2 = E (yn+h − yn+h) 2 = 0<br />
H =∅ ⇒ E (yn+h − E (yn+h| H)) 2 = E (yn+h − E (yn+h)) 2 .<br />
Exemplo 4.3.1 Considere: A) Tem-se uma sucessão de retornos do PSI20 e retira-se aleato-<br />
riamente um elemento da sucessão. Suponha-se que a média e a variância desse retorno são<br />
conhecidas. B) Suponha que os retornos do PSI20 registaram “hoje” uma forte quebra e<br />
uma forte volatilidade. Q1: Qual é a informação mais relevante se o objectivo é prever os<br />
retornos do PSI20 e a volatilidade para o dia de amanhã? A ou B? Q2: Neste caso, qual é<br />
a fdp que interessa estudar? f (yt| Ft−1) ou f (yt)? Q3: Qual é a informação relevante se o<br />
objectivo é conhecer as características gerais da série dos retornos (ou prever os retornos e<br />
74
a volatilidade para um horizonte de vários anos)? Q4: Neste caso, qual é a fdp que interessa<br />
estudar? f (yt| Ft−1) ou f (yt)?<br />
Considere o modelo de séries temporais,<br />
yt = c + φyt−1 + ut, |φ| < 1<br />
onde {ut} é uma sucessão de v.a. i.i.d. com distribuição N (0, σ 2 ) . Determine-se a dis-<br />
tribuição de yt| Ft−1. Dado Ft−1, yt−1 pode ser tratado como uma constante. Logo yt| Ft−1<br />
tem distribuição normal,<br />
onde<br />
Assim,<br />
yt| Ft−1 ∼ N (E (yt| Ft−1) , Var (yt| Ft−1))<br />
E (yt| Ft−1) = c + φyt−1<br />
Var (yt| Ft−1) = E (yt − E (yt| Ft−1)) 2 <br />
Ft−1 = E u 2 <br />
t<br />
Ft−1<br />
= σ 2 .<br />
yt| Ft−1 ∼ N c + φyt−1, σ 2 . (4.2)<br />
Determine-se a distribuição marginal. No modelo em análise verifica-se E (yt) = E (yt−1) .<br />
Logo<br />
e, seguindo um raciocínio similar,<br />
E (yt) = c + φ E (yt) ⇒ E (yt) = c<br />
1 − φ<br />
Var (yt) = σ2<br />
2 .<br />
1 − φ<br />
Atendendo à representação MA(∞) do processo AR(1) 3 ,<br />
yt = c<br />
1 − φ + ut + φut−1 + φ 2 ut−2 + ...<br />
imediatamente se conclui que y tem distribuição marginal normal (uma soma de v.a. nor-<br />
mais tem distribuição normal). Também se conclui, a partir da representação MA(∞), que<br />
3 A forma mais intuitiva de obter este resultado, consiste em aplicar o método recursivo (iterando yt ad<br />
infinitum). Por exemplo, yt = c + φyt−1 + ut = c + φ (c + φyt−2 + ut−1) + ut, e assim sucessivamente.<br />
75
E (yt) = c/ (1 − φ) e Var (yt) = σ 2 / 1 − φ 2 . Assim, a distribuição marginal de y é<br />
yt ∼ N<br />
<br />
c<br />
1 − φ ,<br />
σ2 1 − φ 2<br />
<br />
. (4.3)<br />
Exemplo 4.3.2 Considere-se yt = 0.9yt−1 + ut, onde ut ∼ N (0, 1) . Sabendo que no<br />
período t − 1 se observou yt−1 = −2 e tendo em conta (4.2) e (4.3) tem-se<br />
yt ∼ N (0, 5.26)<br />
yt| Ft−1 ∼ N (−1.8, 1) .<br />
Procura-se avaliar a probabilidade de yt assumir um valor positivo. Assim,<br />
P (yt > 0) = 0.5<br />
P (yt > 0| Ft−1) = P (yt > 0| yt−1 = −2) = 0.0359.<br />
As probabilidade são bem diferentes. Com efeito, no período t − 1 registou-se yt−1 = −2.<br />
Como a autocorrelação é forte (φ é alto) é natural esperar que no período t o valor de yt<br />
ainda se encontre abaixo de zero. Por esta razão, a probabilidade condicional confere pouca<br />
evidência ao evento {yt > 0} . Pelo contrário, a probabilidade marginal, ignora o aconteci-<br />
mento {yt−1 = −2} e, por isso, atribui uma probabilidade razoável ao evento {yt > 0} .<br />
Exemplo 4.3.3 Retome-se o exemplo 4.3.2 e suponha-se que se têm n observações e se pre-<br />
tende obter uma previsão para o período n + 1. Podemos usar uma infinidade de previsores,<br />
mas analisem-se apenas os seguintes:<br />
E (yn+1| Fn) = 0.9yn<br />
E (yn+1) = 0.<br />
De acordo com a discussão anterior, o previsor E (yn+1| Fn) é mais “preciso” do que<br />
E (yn+1) . A precisão é aqui aferida através do erro quadrático médio (EQM) e, com efeito,<br />
observa-se que<br />
E (yn+1 − E (yn+1| Fn)) 2 = σ 2 = 1 < E (yn+1 − E (yn+1)) 2 = σ2<br />
2 = 5.263<br />
1 − φ<br />
76
A<br />
40<br />
30<br />
20<br />
10<br />
0<br />
10<br />
20<br />
30<br />
40<br />
50<br />
1 26 51 76 101 126 151 176<br />
30<br />
25<br />
20<br />
15<br />
10<br />
5<br />
0<br />
5<br />
1 26 51 76 101 126 151 176<br />
C<br />
5<br />
3<br />
1<br />
1<br />
3<br />
B<br />
5<br />
1 26 51 76 101 126 151 176<br />
15<br />
10<br />
5<br />
0<br />
5<br />
10<br />
15<br />
1 26 51 76 101 126 151 176<br />
Figura 4-2: Qual é a trajectória do processo ruído branco?<br />
4.4 Processos Estocásticos Elementares, Estacionaridade e<br />
Fraca Dependência<br />
4.4.1 Processos Estocásticos Elementares<br />
Definição 4.4.1 u é um processo 4 ruído branco (RB) se<br />
E (ut) = 0<br />
Var (ut) = E u 2 2<br />
t = σ<br />
E (utus) = 0, ∀s = t<br />
Procure identificar o processo ruído branco na figura 4-2.<br />
4 Recorde-se a notação u = {ut} = {ut; t = 1, 2, ...} .<br />
77<br />
D
Definição 4.4.2 u é um processo ruído branco independente se<br />
E (ut) = 0,<br />
E u 2 2<br />
t = σ ,<br />
ut e us são independentes ∀s = t<br />
Se adicionalmente ut ∼ N (0, σ 2 ) então ut um ruído branco Gaussiano.<br />
O processo {ut} pode ser não autocorrelacionado, i.e., Corr (ut, us) = 0, ∀s = t e,<br />
mesmo assim, ut e us não serem independentes. Por exemplo, pode suceder Corr (u 2 t , u 2 s) =<br />
0 e, neste caso, existe uma óbvia ligação entre os valores u 2 t e u 2 s. Contudo, existe um caso<br />
notável onde E (utus) = 0, ∀s = t implica independência. É o caso de ruídos brancos com<br />
distribuição Gaussiana.<br />
Definição 4.4.3 u é um processo diferença de martingala se<br />
E (|ut|) < ∞,<br />
E (ut| Ft−1) = 0.<br />
Proposição 4.4.1 Se u é uma diferença de martingala, então E (ut) = 0 e E (utus) = 0,<br />
∀s = t.<br />
Dem. Deixa-se como exercício concluir que E (ut) = 0. Suponha-se, sem perda de<br />
generalidade que s < t. Tem-se<br />
E (utus) = E (E (utus| Fs)) (pela proposição 4.2.3)<br />
= E (us E (ut| Fs))<br />
= E (us E (E (ut| Ft−1)| Fs)) (pela proposição 4.2.4)<br />
= E (us E (0| Fs)) = 0.<br />
Definição 4.4.4 u é um processo passeio aleatório (random walk ou RW) se<br />
yt = yt−1 + ut<br />
e ut é um RB. yt diz-se um processo passeio aleatório com deriva (random walk with drift)<br />
78
se<br />
120<br />
100<br />
80<br />
60<br />
40<br />
20<br />
0<br />
1<br />
20<br />
101 201 301 401 501 601 701 801 901<br />
40<br />
1200<br />
1000<br />
Figura 4-3: Processo RW e Var (yt) = t<br />
i=1 (yi − ¯yt) 2 /t<br />
yt = yt−1 + δ + ut, δ = 0.<br />
Pode-se provar (veja o apêndice 6.D) que um random walk verifica:<br />
E (yt| Ft−1) = yt−1,<br />
E (yt) = E (y0) , E y 2 t = E y 2 2<br />
0 + σ t, E (ytyt−k) = σ 2 (t − k) .<br />
Na figura 4-3 apresenta-se um processo RW e Var (yt) = t<br />
i=1 (yi − ¯yt) 2 /t.<br />
4.4.2 Estacionaridade<br />
Definição 4.4.5 y é um processo estacionário de segunda ordem (ESO) se<br />
E (yt) = µ, (não depende de t)<br />
Var (yt) = σ 2 , (não depende de t)<br />
Cov (yt, yt±h) = γ (h) (não depende de t).<br />
Na definição de processo ESO está implícito não só que os momentos não dependem de<br />
t como também são finitos. Por exemplo, se Var (yt) = ∞, então yt não é ESO. Um RB,<br />
RB independente ou um RB Gaussiano são processos estacionários de segunda ordem. Uma<br />
diferença de martingala pode ser ou não um processo ESO. É um processo ESO se o segundo<br />
momento for finito e não depender de t. Identifique na figura 4-2 as trajectórias de processos<br />
79<br />
800<br />
600<br />
400<br />
200<br />
0<br />
RW<br />
Var
f(x)<br />
0.3<br />
0.2<br />
0.1<br />
4 3 2 1 0 1 2 3 4<br />
aparentemente não estacionários.<br />
Figura 4-4: Função densidade de probabilidade de Cauchy<br />
Naturalmente o processo passeio aleatório não é ESO.<br />
Geralmente entende-se que um processo não é ESO quando a média, a variância ou as<br />
covariâncias dependem de t. Mas a estacionaridade de segunda ordem (ESO) pode também<br />
falhar se não existir a média e/ou a variância. Por exemplo, considere o processo yt = 10+ut,<br />
onde {ut} é uma sucessão de v.a. i.i.d. com distribuição de Chauchy. A função densidade<br />
de probabilidade (fdp) de Cauchy é<br />
f (x) =<br />
1<br />
π (1 + x 2 ) .<br />
y não é um processo ESO porque E (|ut|) não existe. Com efeito,<br />
<br />
E (|ut|) =<br />
R<br />
<br />
|x| f (x) dx =<br />
R<br />
|x|<br />
1<br />
π (1 + x 2 ) dx<br />
não converge e, portanto, E (|ut|) não está definido (i.e. não existe). Na figura 4-4 traça-se<br />
a função f (x) . Como a fdp tem abas muitos pesadas atribui uma massa de probabilidade<br />
considerável para valores muito afastados da média. Isto significa que embora o centro de<br />
gravidade da fdp seja zero, valores muito afastados de zero podem ocorrer com probabilidade<br />
não nula (veja-se a figura 4-5).<br />
Definição 4.4.6 y é um processo estritamente estacionário (EE) se a distribuição conjunta<br />
de (y1, y2, ..., ys) é igual à distribuição conjunta de (yk+1, yk+2, ..., yk+s) , para qualquer<br />
s ∈ N e k ∈ Z.<br />
80<br />
x
800<br />
600<br />
400<br />
200<br />
0<br />
200<br />
400<br />
600<br />
800<br />
1000<br />
1200<br />
1400<br />
1 101 201 301 401 501 601 701 801 901 1001 1101 1201 1301 1401<br />
Figura 4-5: Uma trajectória simulada do processo yt = 10 + ut, onde {ut} é uma sucessão<br />
de v.a. i.i.d. com distribuição de Chauchy<br />
Na secção 4.5 discute-se com maior profundidade este conceito.<br />
Observação 4.4.1 Um processo estritamente estacionário deve verificar, em particular, a<br />
seguinte condição:<br />
fy1 (x) = fy2 (x) = ... = fyn (x) = f (x) (4.4)<br />
(as densidade marginais de y1, y2,..., yn são iguais para todo o t). Esta condição decorre da<br />
aplicação da definição anterior para s = 1. Resulta de (4.4) que se E (|g (yt)|) < ∞, então<br />
E (|g (yt)|) é constante e não depende de t, pois<br />
<br />
E (|g (yt)|) =<br />
<br />
|g (x)| fyt (x) dx =<br />
|g (x)| f (x) dx, ∀t.<br />
Ambas as definições de estacionaridade basicamente exigem que a estrutura probabilís-<br />
tica se mantenha constante ao longo do tempo. No entanto, enquanto a estacionaridade estrita<br />
exige que toda a estrutura probabilística se mantenha constante ao longo do tempo, a ESO<br />
apenas faz essa exigência para os dois primeiros momentos e para a autocovariância.<br />
Exemplo 4.4.1 Considere-se o processo,<br />
onde<br />
yt = 0.2yt−1 + ut, |φ| < 1 (4.5)<br />
ut =<br />
⎧<br />
⎨<br />
⎩<br />
ξt se t ≤ 2000<br />
<br />
k−2<br />
k ζt se t > 2000<br />
81<br />
(4.6)
sendo ξ t e ζ s independentes para todo o t e s e ξ t<br />
tem-se<br />
e para t > 2000,<br />
E (ut) = E (ξ t) = 0,<br />
Var (ut) = Var (ξ t) = 1<br />
iid<br />
∼ N (0, 1) e ζs<br />
<br />
k − 2<br />
E (ut) = E<br />
k ζ <br />
t = 0,<br />
<br />
k − 2<br />
Var (ut) = Var<br />
k ζ <br />
t = k − 2 k<br />
= 1.<br />
k k − 2<br />
iid<br />
∼ t(k). Para t ≤ 2000<br />
Como a autocovariância de ut não depende de t (na verdade é zero, para qualquer t) e E (ut)<br />
e Var (ut) são constantes, para todo o t, conclui-se que {ut} é um processo ESO. No entanto,<br />
não é EE, pois a distribuição marginal de ut para t ≤ 2000 não coincide com a distribuição<br />
marginal de ut para t > 2000 (no primeiro caso é normal; no segundo é t-Student). Não se<br />
cumpre assim a condição (4.4). A mesma conclusão se aplica a y: é ESO mas não EE. Na<br />
figura 4-6 representa-se uma trajectória simulada a partir das equações (4.5) e (4.6), com<br />
k = 3 (graus de liberdade). Observe-se que a partir de t = 2000 começam a aparecem<br />
valores muito altos e muitos baixos (“outliers”) já que os erros passam a ter distribuição<br />
t-Student com 3 graus de liberdade (embora a variância dos erros se mantenha sempre igual<br />
a 1). Observa-se, portanto, uma alteração da estrutura probabilística do processo a partir<br />
de t > 2000 que implica a não estacionaridade estrita do processo.<br />
Alguns factos:<br />
• Se E (y 2 t ) < ∞ e y é estritamente estacionário (EE), então y é ESO.<br />
Com efeito, tem-se fyt (y) = f (y) , ∀t (por hipótese) e, portanto,<br />
E (yt) =<br />
Var (yt) =<br />
<br />
<br />
<br />
xfyt (x) dx =<br />
(x − E (yt)) 2 fyt (x) dx =<br />
xf (x) dx = E (y) ,<br />
<br />
(x − E (y)) 2 f (x) dx = Var (y) .<br />
Por outro lado, fyt,yt+h (x, y) = fys,ys+h (x, y) , ∀t, s (por hipótese) e, portanto, a ex-<br />
82
Figura 4-6: Uma trajectória simulada a partir de um processo estacionário de segunda<br />
ordem mas não estritamente estacionário - confiram-se as equações (4.5) e (4.6)<br />
pressão<br />
E (ytyt+h) =<br />
=<br />
não depende de t (nem de s).<br />
<br />
<br />
xyfyt,yt+h<br />
(x, y) dxdy<br />
• Se y é ESO e tem distribuição normal, então y é EE.<br />
xyfys,ys+h (x, y) dxdy = E (ysys+h) .<br />
• A estacionaridade estrita é geralmente uma condição mais forte do que a ESO, mas<br />
não implica necessariamente ESO. Por exemplo, se yt = 10 + ut onde {ut} é uma<br />
sucessão de v.a. com distribuição de Cauchy, y não é, como vimos, ESO; no entanto,<br />
pode-se provar que y é EE: a estrutura probabilística mantém-se imutável ao longo do<br />
tempo.<br />
4.4.3 Fraca Dependência<br />
A propriedade “fraca dependência” é crucial para se invocar resultados limites como sejam<br />
a lei dos grandes números e o teorema do limite central. Considere-se, por exemplo, a média<br />
empírica ¯yn = n−1 n t=1 yt. Sob certas condições, a lei fraca dos grandes números estabelece<br />
p<br />
¯yn −→ E (y) . Este resultado pode ser provado da seguinte forma: se limn E (¯yn) = E (y) e<br />
83
limn Var (¯yn) = 0 então ¯yn<br />
p<br />
−→ E (y) . Exigir que a variância de ¯yn convirja para zero (no<br />
limite ¯yn reduz-se a uma constante) envolve a suposição de que a sucessão {yt} é fracamente<br />
dependente num sentido que precisaremos a seguir. Com efeito,<br />
Var (¯yn) = 1<br />
<br />
n<br />
Var<br />
n2 = 1<br />
n 2<br />
t=1<br />
yt<br />
<br />
<br />
n<br />
n−1<br />
Var (yt) + 2<br />
t=1<br />
n<br />
j=1 i=j+1<br />
Cov (yi, yi−j)<br />
Sem hipóteses adicionais não é garantido que estas duas somas convirjam. Comece-se por<br />
assumir que {yt} é ESO. Nestas condições a covariância Cov (yi, yi−j) só depende de j =<br />
i−(i − j) e não de i (veja a definição 4.4.5). Assim, pode-se escrever, Cov (yi, yi−j) = γ (j).<br />
Vem,<br />
Var (¯yn) = 1<br />
n2 <br />
nσ 2 n−1<br />
+ 2<br />
= σ2<br />
n<br />
= σ2<br />
n<br />
= σ2<br />
n<br />
2<br />
+<br />
n2 n−1<br />
j=1<br />
2<br />
+<br />
n2 n−1<br />
j=1<br />
2 n−1<br />
+<br />
n<br />
n<br />
j=1 i=j+1<br />
<br />
γ (j)<br />
n<br />
i=j+1<br />
γ (j)<br />
<br />
γ (j) (n − j)<br />
j=1<br />
γ (j)<br />
<br />
1 − j<br />
<br />
.<br />
n<br />
<br />
<br />
1 (γ (j) não depende de i)<br />
O primeiro termo σ 2 /n converge para zero, mas o segundo termo pode convergir ou não. É<br />
necessário não só que γ (j) convirja para zero, mas também que essa convergência seja rela-<br />
tivamente rápida. Note-se de passagem que a estacionaridade não garante fraca dependência.<br />
As condições de aplicação do teorema do limite central são ainda mais exigentes. Sob<br />
certas condições tem-se, como se sabe, √ n (¯yn − E (y))<br />
d<br />
−→ N (0, η 2 ) , onde η 2 uma con-<br />
stante finita, definida como η 2 = limn Var ( √ n (¯yn − E (y))) = limn Var ( √ n¯yn) . Se {yt}<br />
é estacionário, tem-se<br />
Var √ n−1<br />
<br />
2<br />
n¯yn = σ + 2 γ (j) 1 − j<br />
<br />
n<br />
e, agora, comparativamente ao caso anterior, γ (j) tem de convergir ainda mais rapidamente<br />
para zero para que a soma Sn = n−1 j=1 γ (j) 1 − j <br />
convirja. Por exemplo, uma função de<br />
n<br />
84<br />
j=1<br />
.
autocorrelação do tipo γ (j) = 1/j resulta numa soma Sn divergente. A soma converge se a<br />
função de autocorrelação for, por exemplo, do tipo γ (j) = a j , com |a| < 1.<br />
Existem várias definições de processos fracamente dependentes envolvendo os chama-<br />
dos mixing coefficients (α-mixing, β-mixing, ρ-mixing entre outros) que permitem avaliar<br />
e medir o grau de dependência recorrendo a diferentes interpretações do conceito de in-<br />
dependência. Vamos adoptar uma definição alternativa para caracterizarmos um processo<br />
fracamente dependente baseada na definição de Wooldridge (1994):<br />
Definição 4.4.7 y é um processo fracamente dependente se limn Var ( √ n¯yn) = c > 0.<br />
Infelizmente esta definição tem a seguinte desvantagem: se y é fracamente dependente<br />
no sentido da definição 4.4.7, e g é uma função com “boas propriedades”, não é possível<br />
concluir, em termos gerais, que zt = g (yt) é ainda um processo fracamente dependente. Já<br />
se yt é β-mixing é possível inferir, sob certas condições gerais, que zt = g (yt) é ainda<br />
β-mixing (digamos, a transformação g preserva a propriedade de fraca dependência do<br />
processo quando baseada no conceito dos mixing coefficients).<br />
Comentários Finais<br />
Por que razão é importante o estudo da estacionaridade e da fraca dependência (em séries<br />
temporais)? Apontam-se algumas razões:<br />
• A aplicação do teorema central e a lei dos grandes números são dois pilares da infer-<br />
ência estatística. Considere-se, por exemplo,<br />
¯yn = 1<br />
n<br />
n<br />
yt.<br />
Sob certas condições, a aplicação da lei dos grandes números e do teorema do limite<br />
central, permite obter, respectivamente<br />
¯yn<br />
p<br />
−→ E (y) ,<br />
t=1<br />
¯yn − E (y)<br />
Var (¯yn)<br />
d<br />
−→ N (0, 1) .<br />
No entanto, se y não é estacionário e fracamente dependente não é possível invocar<br />
estes resultados clássicos (e a inferência assimptótica habitual não pode ser utilizada).<br />
• De uma forma geral, se a estrutura probabilística se altera ao longo do tempo (i.e., se y<br />
não é estacionário), todas as conclusões que se retirem para um certo período não são<br />
“extrapoláveis” para o futuro.<br />
85
• A estacionaridade também é relevante no âmbito da previsão: processos estacionários<br />
são limitados em probabilidade e a amplitude dos intervalos de previsão não diverge<br />
quando o horizonte de previsão tende para mais infinito. Pelo contrário, processos não<br />
estacionários, por exemplo, I (1) , são extremamente difíceis de prever no longo prazo,<br />
dado que a amplitude dos intervalos de previsão aumenta com o horizonte de previsão.<br />
• Em termos de política económica é também relevante saber se um processo é esta-<br />
cionário ou não. Medidas de política económica que tenham como objectivo alterar<br />
a trajectória de processos estacionários, estão em geral condenadas ao fracasso, pelo<br />
menos no médio/longo prazo, pois choques induzidos em processos dessa natureza<br />
tendem a se autocorrigir ao longo do tempo (e a “reverterem” para a uma medida de<br />
tendência central).<br />
Convém sublinhar o seguinte. Embora muitas séries temporais sejam não estacionárias,<br />
é possível, na maior parte dos casos, estacionarizá-las, mediante transformações apropriadas<br />
do processo.<br />
* * *<br />
Para terminar esta secção, tecem-se algumas considerações críticas aos modelos de séries<br />
temporais baseados em pressupostos estacionários.<br />
Serão as séries temporais financeiras e económicas verdadeiramente estacionárias? Como<br />
já argumentámos, a estacionaridade envolve uma determinada hipótese de estabilidade da<br />
estrutura probabilística do processo. Esta estrutura depende de uma miríade de factores,<br />
como por exemplo, dos agentes económicos (privados e públicos) e das suas relações, da<br />
tecnologia, da informação, do puro acaso (entre outros factores). Apenas o puro acaso<br />
pode ser considerado imutável ao longo do tempo; tudo o resto evolui ao longo do tempo,<br />
pelo que é um mito supor-se que a estrutura probabilística de uma série temporal finan-<br />
ceira ou económica permanece constante ou aproximadamente constante ao longo do(s)<br />
tempo(s). Suponha-se que se estuda a taxa de variação relativa anual do PIB português<br />
(yt = log (P IBt) − log (P IBt−1)). Aparentemente, y é estacionário se o período de referên-<br />
cia forem alguns dezenas de anos (isto é, praticamente todos os testes estatísticos disponíveis,<br />
apontariam nessa direcção). Mas, se alargarmos a amostra para várias centenas de anos<br />
(supondo que tal era possível), é extremamente implausível y ser estacionário (a história<br />
86
diz-nos que as condições e os factores de produção evoluem ou sofrem rupturas ao longo<br />
do tempo). Sob esta perspectiva, não existem processos de natureza económica e financeira<br />
estacionários. Poderemos então concluir que a análise da estacionaridade acaba por ser in-<br />
útil? Embora, em termos rigorosos, o conceito de estacionaridade envolva o passado e o<br />
futuro distante (o “−∞” e o “+∞”), normalmente limitamos o período de análise. Para esse<br />
período, assume-se que a série apresenta características estacionárias e a previsão relevante<br />
que estabelecemos aplica-se, supostamente, a um futuro próximo, governado, no essencial,<br />
pelas mesmas leis que determinaram o processo no período amostral. Com esta ressalva, a<br />
estacionaridade é importante, porque assegura uma forma de estabilidade probabilística que<br />
é essencial na inferência estatística.<br />
4.5 Processos Ergódicos e Estritamente Estacionários<br />
Nesta secção, retomam-se alguns conceitos já abordados, relacionados com a estacionar-<br />
idade, e exploram-se novas definições que serão úteis no estudo dos processos não lin-<br />
eares. Concretamente, é objectivo deste ponto estabelecer condições suficientes para que<br />
um processo de Markov não linear seja ergódico e EE.<br />
4.5.1 Definições<br />
O ponto de partida baseia-se na definição de processo de Markov: se y é um processo de<br />
Markov então, para estabelecer, no momento s, probabilidades sobre a evolução futura do<br />
processo, toda a informação anterior a s é desnecessária se o estado do processo no momento<br />
s for conhecido 5 . Formalmente,<br />
Definição 4.5.1 y é um processo de Markov se<br />
onde Ft−1 = {y1, ..., yt−1} .<br />
P (yt < ξ| Ft−1) = P (yt < ξ| yt−1)<br />
5 Considere-se, por exemplo, uma partícula suspensa num meio homogéneo. Se no momento s, a posição<br />
e a velocidade da partícula forem conhecidas, torna-se desnecessário considerar toda a trajectória anterior da<br />
partícula com vista a estabelecer a sua evolução provável a partir do momento s. Observe-se que não basta<br />
conhecer só a posição ou só a velocidade. Por vezes sucede que determinado processo não é de Markov, mas<br />
esse processo juntamente com outro pode definir um processo de Markov. O exemplo que se apresenta a seguir<br />
(AR(2)) também mostra que é possível obter a propriedade Markoviana através da “expansão” do espaço de<br />
estados.<br />
87
(O caso multivariado y adapta-se facilmente). O processo AR(2), yt = φ 1yt−1 +φ 2yt−2 +<br />
ut, não é de Markov pois<br />
P (yt < ξ| y1, ..., yt−1) = P (yt < ξ| yt−2, yt−1) = P (yt < ξ| yt−1) .<br />
No entanto, é possível representá-lo na forma Markoviana. Considerem-se as mudanças de<br />
variável<br />
Assim,<br />
ou ainda<br />
⎛<br />
⎝ y1,t<br />
y2,t<br />
⎞<br />
⎠<br />
<br />
yt<br />
y1,t = yt, y2,t = yt−1.<br />
y1,t = φ 1y1,t−1 + φ 2y2,t−1 + ut<br />
y2,t = y1,t−1<br />
=<br />
⎛<br />
⎞⎛<br />
⎝ φ1 φ2 ⎠ ⎠ + ⎠,<br />
<br />
1 0<br />
<br />
y2,t−1<br />
<br />
0<br />
<br />
φ<br />
yt = φy t−1 + ut.<br />
⎝ y1,t−1<br />
yt−1<br />
⎞<br />
⎛<br />
⎝ ut<br />
O processo vectorial {yt} é agora de Markov. Este procedimento generaliza-se facil-<br />
mente para o caso AR(p).<br />
Também o processo não linear do tipo<br />
yt = g (yt−1, yt−2, ..., yt−p) + ut<br />
onde {ut} é uma sucessão de v.a. i.i.d. e independentes de yt−k, k ≥ 1, admite uma repre-<br />
sentação Markoviana. Com efeito, defina-se<br />
e<br />
yt = (yt, yt−1, ..., yt−p+1) ′ , ut = (ut, 0, ..., 0) ′<br />
x = (x1, x2, ..., xp) ′ , g (x) = (g (x) , x1, ..., xp−1) ′ .<br />
88<br />
ut<br />
⎞
Segue-se que {y} é um processo de Markov definido por<br />
Por exemplo, seja<br />
Tem-se<br />
yt<br />
yt = g (yt−1) + ut.<br />
yt = α cos (yt−1) + β sen (yt−2) + ut.<br />
yt =<br />
⎛<br />
⎝ yt<br />
yt−1<br />
⎞<br />
⎠ :=<br />
⎛<br />
⎝ y1,t<br />
e ⎛<br />
⎝ y1,t<br />
⎞ ⎛<br />
⎠ = ⎝<br />
<br />
y2,t<br />
<br />
α cos (y1,t−1)<br />
⎞ ⎛<br />
+ β sen (y2,t−1)<br />
⎠ + ⎝<br />
<br />
y1,t−1<br />
<br />
g(yt−1)<br />
<br />
ut<br />
⎞<br />
⎠.<br />
<br />
0<br />
<br />
Para simplificar, na discussão que se segue trabalha-se com processos estocásticos uni-<br />
variados Markovianos; contudo, está subjacente que se o processo y não de Markov será<br />
sempre possível representá-lo na forma multivariada como um processo de Markov.<br />
A função de distribuição condicional a n passos de um processo de Markov é<br />
P (yn+k < y| yk)<br />
(observe-se que é desnecessário escrever P (yn+k < y| Fk) , pois y é um processo de Markov).<br />
Por seu lado, a função densidade condicional (também designada por densidade de tran-<br />
sição), caso exista, é dada por<br />
y2,t<br />
⎞<br />
⎠<br />
fn (y| x) = ∂P (yn+k < y| yk)<br />
.<br />
∂y<br />
Definição 4.5.2 y é um processo homogéneo se<br />
para todo o k e s ∈ Z.<br />
P (yn+k < ξ| yk = x) = P (yn+s < ξ| ys = x) , (n ∈ N)<br />
Se y é um processo homogéneo, para avaliar probabilidades condicionadas do processo,<br />
não interessa o momento em que essas probabilidades são calculadas. Por exemplo, no caso<br />
P (yn+k < ξ| yk = x) as probabilidades são calculadas no momento no k (ou com base na<br />
89<br />
ut
informação do momento k) e dizem respeito ao intervalo de valores que y pode assumir no<br />
momento n + k. Se y é homogéneo, o momento ou instante k é irrelevante; apenas interessa<br />
conhecer o hiato de tempo n + k − k = n (para processos estacionários de segunda ordem,<br />
exige-se a mesma propriedade para a covariância: Cov (yn+k, yk) = γ (n) apenas deverá<br />
depender de n = n + k − k). Nestas circunstâncias, tem-se por exemplo,<br />
P (y10 < ξ| y0 = x) = P (y100 < ξ| y90 = x) = P (y1250 < ξ| y1240 = x) .<br />
Se o processo y é homogéneo, toma-se para a função de distribuição condicional a n passos<br />
a expressão 6<br />
com o<br />
Fn (y| x) := P (yn+k < y| yk = x) .<br />
O exemplo 4.5.2 ilustra o conceito de homogeneidade. Convém, no entanto, começar<br />
Exemplo 4.5.1 Considere-se<br />
yt = φyt−1 + ut, |φ| < 1<br />
onde ut é um ruído branco N (0, σ 2 ) . Vamos obter ft (y| x) (função de densidade condi-<br />
cional a t passos) e Ft (y| x) (função de distribuição condicional a t passos). Comece-se<br />
por obter f1 (y| x) (esta função é habitualmente escrita simplesmente na forma f (y| x)) e<br />
F1 (y| x). Tem-se,<br />
E (yt| yt−1) = E (φyt−1 + ut| yt−1) = φyt−1<br />
Var (yt| yt−1) = E (yt − φyt−1) 2 <br />
yt−1 = E u 2 <br />
t<br />
Como yt| yt−1 ∼ N (φyt−1, σ 2 ) resulta<br />
f1 (y| yt−1) =<br />
F1 (y| yt−1) =<br />
yt−1<br />
1<br />
√<br />
2πσ2 exp<br />
<br />
− 1<br />
<br />
2<br />
(y − φyt−1) ,<br />
2σ2 y<br />
f1 (u| yt−1) du.<br />
−∞<br />
= σ 2<br />
6 A notação usada para Fn (y| x) , sublinha que se tem uma função de transição a n passo (daí o índice n),<br />
que a condição inicial apenas depende de x, e que o processo é homogéneo (caso contrário Fn (y| x) deveria<br />
depender também do momento em que é calculada).<br />
90
Para obter E (yt| y0) , Var (yt| y0) e ft (y| y0) é necessário representar yt como função de<br />
y0. Tem-se<br />
yt = φyt−1 + ut<br />
= φ (φyt−2 + ut−1) + ut = φ 2 yt−2 + φut−1 + ut<br />
= ...<br />
= φ t y0 + φ t−1 u1 + φ t−2 u2 + ... + φut−1 + ut.<br />
Tendo em conta as propriedades de u, conclui-se que yt, dada a condição y0, tem distribuição<br />
condicional normal de parâmetros<br />
e<br />
Isto é,<br />
E (yt| y0) = φ t y0<br />
Var (yt| y0) =<br />
yt E − φ t =<br />
<br />
2 y0 y0<br />
φt−1 E u1 + φ t−2 <br />
2 u2 + ... + φut−1 + ut y0<br />
= σ 2<br />
<br />
1 + φ 2 + ... + φ 2(t−1)<br />
<br />
(soma geométrica)<br />
= σ 2<br />
2t<br />
1 − φ<br />
1 − φ 2<br />
<br />
.<br />
ft (y| y0) =<br />
<br />
yt| y0 ∼ N φ t y0, σ 2<br />
1<br />
<br />
2π Var (yt| y0) exp<br />
<br />
−<br />
Ft (y| y0) =<br />
y<br />
1 − φ 2t<br />
<br />
,<br />
1 − φ 2<br />
1<br />
2 Var (yt| y0) (y − E (yt| y0)) 2<br />
<br />
,<br />
ft (u| y0) du.<br />
−∞<br />
Para processos não lineares, conhece-se geralmente f1 (y| y0) (uma vez especificada a<br />
distribuição dos erros), mas não ft (y| y0), para t > 1.<br />
91
Exemplo 4.5.2 Retome-se o exemplo 4.5.1. Facilmente se constata que<br />
e, assim, o processo y é homogéneo.<br />
<br />
yn+k| yk = x ∼ N φ n x, σ 2<br />
2n<br />
1 − φ<br />
1 − φ 2<br />
<br />
<br />
yn+s| ys = x ∼ N φ n x, σ 2<br />
2n<br />
1 − φ<br />
1 − φ 2<br />
<br />
Um processo em que pelo menos um dos momentos condicionais depende do momento<br />
em que é calculado (por exemplo, E (yt| yt−1) = yt−1/t) não pode ser certamente um<br />
processo homogéneo. A homogeneidade é uma condição necessária, mas não suficiente<br />
para garantir estacionaridade (estrita ou de segunda ordem). O exemplo seguinte esclarece<br />
este ponto.<br />
Exemplo 4.5.3 Seja yt = yt−1 + ut, onde ut é um ruído branco N (0, σ 2 ) . Tem-se,<br />
yn+k = yk +<br />
yt+s = ys +<br />
n+k<br />
i=k+1<br />
n+s<br />
i=s+1<br />
ui<br />
ui<br />
<br />
<br />
<br />
<br />
yk = x ∼ N x, σ 2 n <br />
<br />
<br />
<br />
<br />
ys = x ∼ N x, σ 2 n .<br />
Logo o processo passeio aleatório é homogéneo. No entanto, sabe-se que não é estacionário.<br />
Para processos de Markov homogéneos, a equação de Chapman-Kolmogorov (numa das<br />
suas várias versões) é<br />
<br />
Fn (y| x) =<br />
F1 (y| u) Fn−1 (du| x) .<br />
Caso exista a fdp condicionada, a equação de Chapman-Kolmogorov pode também ser es-<br />
crita na forma<br />
<br />
fn (y| x) =<br />
f1 (y| u) fn−1 (u| x) du. (4.7)<br />
A definição de ergodicidade (à “Harris”) 7 que se apresenta a seguir envolve um conceito de<br />
proximidade entre duas funções de distribuição, H e G, baseada na norma de variação total<br />
. que, caso existam as funções densidades associadas a H e G, é dada por<br />
<br />
H − G =<br />
|h (x) − g (x)| dx.<br />
7 A definição de ergodicidade varia bastante na literatura. Usaremos a definição que se designa por “ergodicidade<br />
à Harris”. Veja-se, por exemplo, Fan e Yao (2005).<br />
92
Exemplo 4.5.4 Seja g a fdp associada à distribuição N (0, 1) e hn a fdp associada à dis-<br />
tribuição t (n) (t-Student, com n graus de liberdade). Para n fixo, a variação total Hn − G<br />
é positiva, mas Hn − G → 0 quando n → ∞. A demonstração é a seguinte. Em primeiro<br />
lugar, faça-se<br />
ξ n (x) = |hn (x) − g (x)| .<br />
Como hn (x) converge uniformemente em R para g (x), i.e., limn→∞ sup x∈R ξ n (x) = 0 (este<br />
resultado é bem conhecido da estatística e, normalmente, é apresentado numa forma mais<br />
fraca, limn→∞ hn (x) = g (x) , para cada x ∈ R), então ξ n (x) converge uniformemente<br />
em R para zero, pelo que, o operador de limite pode trocar com o operador de integração.<br />
Assim,<br />
lim<br />
n→∞ H − Gn =<br />
<br />
lim<br />
n→∞<br />
<br />
|hn (x) − g (x)| dx<br />
≤ lim<br />
n→∞<br />
<br />
sup |hn (x) − g (x)| dx<br />
x<br />
= lim<br />
n→∞ sup |hn (x) − g (x)| dx<br />
= 0.<br />
Considere-se o processo estocástico y com função de distribuição condicional a n passos<br />
dada por Fn (y| x).<br />
Definição 4.5.3 Se existir uma função de distribuição F e uma constante ρ ∈ (0, 1) tal que<br />
x<br />
ρ −n Fn (y| x) − F (y) → 0 (4.8)<br />
para todo o y e o x, então y é ergódico se ρ = 1 e geometricamente ergódico se ρ < 1. F é<br />
a função de distribuição estacionária.<br />
Se a densidade fn (y| x) existe, a definição acima pode ser apresentada da seguinte forma:<br />
se existir uma função de densidade f e uma constante ρ ∈ (0, 1) tal que<br />
ρ −n<br />
<br />
|fn (y| x) − f (y)| dy → 0 (4.9)<br />
para todo o x, então y é ergódico se ρ = 1 e geometricamente ergódico se ρ < 1. f é a<br />
função de densidade estacionária.<br />
93
A definição adoptada de ergodicidade à Harris, permite efectivamente relacionar a ergod-<br />
icidade com estacionaridade estrita (Chan 1990, 1993), tal como consta da<br />
Proposição 4.5.1 Suponha-se que y é ergódico. Então existe uma distribuição estacionária<br />
F tal que o processo y, inicializado com a distribuição F, é EE.<br />
Dem. Apêndice 4.A.<br />
Para processos nas condições da proposição anterior, a lei forte dos grandes números<br />
verifica-se sempre:<br />
Proposição 4.5.2 Suponha-se E (|h (y)|) < ∞. Nas condições da proposição 4.5.1 verifica-<br />
se<br />
1<br />
n<br />
n<br />
t=1<br />
h (yt) qc<br />
−→ E (h (y)) ,<br />
(qc: convergência quase certa ou com probabilidade 1) qualquer que seja o valor inicial do<br />
processo y.<br />
Por exemplo, se y é ergódico e EE e se E (e yt ) < ∞, então<br />
1<br />
n<br />
n<br />
e yt<br />
t=1<br />
qc<br />
−→ E (e y )<br />
(naturalmente também se tem convergência em probabilidade). Note-se que o processo pode<br />
não ser fracamente dependente no sentido da definição 4.4.7 - i.e., verificando-se a lei dos<br />
grandes números de acordo com a proposição anterior, pode não se garantir, ainda assim, a<br />
aplicação do teorema do limite central.<br />
Outra propriedade interessante para processos estritamente estacionários é a seguinte:<br />
Proposição 4.5.3 Seja g uma função com domínio no espaço de estados de y. Se {yt} é EE<br />
então {zt} , definido por zt = g (yt, yt−1, ...) , é também EE.<br />
A proposição anterior permite concluir, por exemplo, que se {yt} é EE, então os proces-<br />
sos {y 2 t } , {yt + e yt−1 } , etc., são também estritamente estacionários. A proposição ante-<br />
rior não se aplica naturalmente a processos estacionários de segunda ordem. Para ilustrar,<br />
suponha-se que y é um processo ESO sem 4 o momento. Resulta que {zt} , onde z é definido<br />
por zt = y 2 t , não é um processo ESO, pois Var (zt) não existe.<br />
Em geral, é difícil verificar directamente as equações (4.8) e (4.9), a não ser para casos<br />
relativamente simples, como o do exemplo que se apresenta a seguir. Iremos ver, no entanto,<br />
94
que é possível, em certas circunstâncias, provar-se (4.8) ou (4.9) de forma indirecta, através<br />
de resultados auxiliares. Antes de entramos nesta questão no ponto seguinte, veja-se um caso<br />
em que a aplicação directa de (4.9) é relativamente simples.<br />
Exemplo 4.5.5 Retome-se o exemplo 4.5.1, mas use-se agora a densidade condicional a n<br />
passos (poderia ser também a t passos). Concluímos que<br />
Note-se que<br />
fn (y| x) =<br />
yn| y0 = x ∼ N<br />
<br />
φ n x, σ 2<br />
1<br />
2π Var (yn| x) exp<br />
lim<br />
n→∞ E (yn| x) = lim<br />
n→∞ φ n x = 0,<br />
lim<br />
n→∞ Var (yn| x) = lim σ<br />
n→∞ 2<br />
lim<br />
n→∞ fn (y| x) =<br />
<br />
2π<br />
1<br />
2n <br />
1 − φ<br />
<br />
2n <br />
1 − φ<br />
σ 2<br />
1−φ 2<br />
1 − φ 2<br />
− (yn − E (yn| x)) 2<br />
2 Var (yn| x)<br />
= σ2<br />
σ 2<br />
1−φ 2<br />
<br />
1 − φ 2<br />
2 ,<br />
1 − φ<br />
exp<br />
⎧<br />
⎨<br />
⎩ −<br />
y2<br />
⎫<br />
⎬<br />
= f (y) .<br />
2 ⎭<br />
É razoável admitir que f (y) verifica o limite ρ −n |fn (y| x) − f (y)| dy → 0. Efectiva-<br />
mente, pode mostrar-se esse resultado e, nessas condições, y é um processo EE, com dis-<br />
tribuição estacionária dada por f (y) e momentos estacionários E (y) = 0 e Var (y) =<br />
σ 2 / 1 − φ 2 .<br />
Para exemplificar, considere-se x = 2, σ 2 = 0.7 e φ = 0.8. A distribuição estacionária é<br />
dada por<br />
y ∼ N<br />
<br />
0.7<br />
0,<br />
1 − 0.82 <br />
= N (0, 1.944) .<br />
Se o processo for inicializado no valor x = 2, ao fim de alguns períodos (digamos n = 10),<br />
yt comporta-se como um processo y ∼ N (0, 1.944) . Por outras palavras, um elemento re-<br />
tirado ao acaso da sucessão {y10, y11, ...} , por exemplo y100, tem distribuição estacionária<br />
N (0, 1.944) . Naturalmente, se o valor anterior y99 for observado e usarmos essa infor-<br />
mação para prever y100, a distribuição pertinente passa a ser a distribuição condicional<br />
habitual (a um passo). Na figura 4-7 mostra-se a convergência da sucessão de funções<br />
{fn (y| x = 2) , n = 1, 2, 3, 8} para a distribuição estacionária f (y) . A distribuição esta-<br />
cionária, que coincide com a distribuição marginal do processo, é relevante porque mostra<br />
95<br />
.
0.6<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
5.0 4.0 3.0 2.0 1.0 0.0 1.0 2.0 3.0 4.0 5.0<br />
Dist. Est n = 1 n = 2 n = 3 n = 8<br />
Figura 4-7: Sucessão de funções {fn (y| x = 2) , n = 1, 2, 3, 8} e distribuição estacionária<br />
f (y)<br />
o comportamento “geral” do processo. Dá ainda uma medida do tempo de permanência do<br />
processo em cada um dos subintervalos do espaço de estados. Para os valores fixados para<br />
σ e φ, ficamos a saber a partir da inspecção da distribuição estacionária que, por exemplo,<br />
y dificilmente sairá do intervalo (−5, 5) e que, durante a maior parte do tempo, estará no<br />
intervalo (digamos) (−2, 2) .<br />
Termina-se esta secção notando que a densidade estacionária (caso exista) coincide com<br />
a densidade marginal (quando o processo é inicializado em condições estacionárias).<br />
4.5.2 Modelos Não Lineares do tipo yt = g (yt−1, yt−2, ..., yt−p) + ut<br />
Proposição 4.5.4 Considere-se o processo {y} definido por<br />
yt = g (yt−1, ..., yt−p) + ut<br />
onde g : R p → R, {ut} é uma sucessão de v.a. i.i.d. e independentes de yt−k, k ≥ 1, com<br />
função de densidade positiva e E (ut) = 0. O processo {y} é geometricamente ergódico se<br />
qualquer uma das seguintes condições se verificar:<br />
(a) g é uma função limitada em conjuntos limitados,<br />
|g (x) − (b1x1 + ... + bpxp)|<br />
lim<br />
x→∞<br />
x<br />
= 0<br />
e as raízes do polinómio 1 − b1z − ... − bpz p estão fora do circulo unitário.<br />
96
(b) Existe uma constante λ ∈ (0, 1) e c tal que<br />
|g (x)| ≤ λ max {|x1| , ..., |xp|} + c.<br />
(c) Existe uma constante ρ ∈ (0, 1) , c e ai ≥ 0 e a1 + ... + ap = 1 tal que<br />
|g (x)| ≤ ρ (a1 |x1| + ... + ap |xp|) + c.<br />
Exemplo 4.5.6 Considere-se o processo AR(2),<br />
yt = φ 1yt−1 + φ 2yt−2 + ut<br />
onde u é um ruído branco Gaussiano. A função g é naturalmente<br />
g (x1, x2) = φ 1x1 + φ 2x2.<br />
A condição (a) da proposição 4.5.4 verifica-se se, com b1 = φ 1 e b2 = φ 2, as raízes de<br />
1−b1z−b2z 2 estiverem fora do circulo unitário. Esta é, como se sabe, a condição necessária<br />
e suficiente para que o processo AR(2) seja ESO. A proposição anterior vai mais longe: sob<br />
as condições estabelecidas, y é EE.<br />
Exemplo 4.5.7 Considere-se o processo<br />
onde u é um ruído branco Gaussiano. Tem-se<br />
yt = φ y2 t−1<br />
1 + y2 + ut<br />
t−1<br />
g (x) = φx2<br />
1 + x 2<br />
Como g (x) é uma função limitada em R, mais concretamente, |g (x)| ≤ φ < ˜ φ < ∞,<br />
conclui-se<br />
|g (x)| ≤ ρ |x| + ˜ φ<br />
para ρ ∈ (0, 1) . Verificam-se as condições (b) e (c) e, assim, y é um processo ergódico.<br />
97
Exemplo 4.5.8 Considere-se o processo<br />
yt =<br />
⎧<br />
⎨<br />
⎩<br />
−0.5yt−1 + ut se yt−1 < 0<br />
0.5yt−1 + ut se yt−1 ≥ 0.<br />
onde u é um ruído branco Gaussiano. Este modelo pode ser reescrito na forma:<br />
yt = φ tyt−1 + εt,<br />
onde φt = <br />
−0.5I{yt−1
4.5.3 Estabilidade em EDF<br />
Chamamos equação às diferenças finitas (não estocásticas) EDF (de primeira ordem, para<br />
simplificar) à equação<br />
yt = g (yt−1) , y0 = ξ (condição inicial). (4.10)<br />
A solução desta equação não tem componente aleatória e a sua dinâmica é completamente<br />
determinada pela condição inicial e pela função g. Tong (1990) chama a g o esqueleto do<br />
processo estocástico. O estudo qualitativo da EDF envolve, por exemplo, a análise do com-<br />
portamento assimptótico de yt.<br />
Seja<br />
g (t) (x) = g(...g(g(x)))<br />
<br />
t vezes<br />
(por exemplo, g (2) (x) = g (g (x))). O estudo da função g (t) (x) é essencial na análise quali-<br />
tativa das soluções. Concretamente, yt = g (t) (y0) fornece o valor de y no momento t como<br />
função do valor inicial y0. Sabendo g (t) podemos, por exemplo, estudar a sensibilidade da<br />
solução face aos valores iniciais; permite também estudar o comportamento assimptótico<br />
da solução quando t → ∞. Em certos casos, a estacionaridade e ergodicidade podem ser<br />
deduzidas a partir da análise qualitativa das equações às diferenças finitas determinísticas<br />
(EDFs). Por exemplo, considere-se a proposição 4.5.4 condição (c), no caso univariado<br />
(g : R → R), posta na forma |g (x)| < ρ |x| (com c = 0). Resulta,<br />
|g (y0)| ≤ ρ |y0|<br />
<br />
(2)<br />
g (y0) = |g (g (y0))| ≤ ρ |g (y0)| ≤ ρ 2 |y0|<br />
<br />
(t)<br />
g (y0)<br />
...<br />
≤<br />
t<br />
ρ |y0|<br />
e, portanto, yt = g (t) (y0) → 0 quando t → ∞, independentemente do valor inicial. Diz-<br />
se nestes casos que o valor 0 é um ponto assimptoticamente estável 8 . Observe-se que a<br />
mesma condição que assegura a estacionaridade estrita no âmbito dos processos estocásticos,<br />
assegura também a estabilidade assimptótica do ponto zero no âmbito das EDF (veja-se o<br />
8 Na verdade, a definição é menos exigente: o valor zero é um ponto fixo assimptoticamente estável se existir<br />
um δ0 > 0 tal que a desigualdade |y0| ≤ δ0 implica g (t) (y0) → 0 quando t → +∞.<br />
99
ponto 7.2).<br />
4.5.4 Modelos Não Lineares do tipo yt = Atyt−1+Bt<br />
Suponha-se que se analisa o modelo AR com coeficiente aleatório,<br />
yt = φ (ξ t) yt−1 + ut<br />
(4.11)<br />
onde ξ t é uma variável aleatória. Os principais resultados apresentados na secção anterior<br />
não se aplicam, pois a equação (4.11) não pode ser representada na forma yt = g (yt−1, yt−2, ..., yt−p)+<br />
ut. A teoria assimptótica está especialmente desenvolvida para a seguinte classe de modelos<br />
AR com coeficientes aleatórios:<br />
Definição 4.5.4 Uma equação vectorial autoregressiva de dimensão d com coeficientes aleatórios<br />
i.i.d. não negativos é uma equação da forma<br />
yt = Atyt−1 + Bt<br />
onde {(At, Bt) , t ∈ Z} é uma sucessão i.i.d. com valores em M +<br />
d×d × (R+ ) d .<br />
(4.12)<br />
Observe-se que M +<br />
d×d é o espaço das matrizes quadradas de ordem d de elementos todos<br />
positivos.<br />
o<br />
Inúmeros processos não lineares podem ser representados na forma (4.12), como mostra<br />
Exemplo 4.5.10 Considere-se o processo ut com heterocedasticidade condicionada de or-<br />
dem (2, 1) , (GARCH(2,1))<br />
ut = σtεt<br />
σ 2 t = ω + α1u 2 t−1 + α2u 2 t−2 + β 1σ 2 t−1 + β 2σ 2 t−2, ω, αi, β i > 0.<br />
Procure-se representar este processo na forma (4.12). Para o efeito, observe-se que<br />
σ 2 t = ω + α1σ 2 t−1ε 2 t−1 + α2σ 2 t−2ε 2 t−2 + β1σ 2 t−1 + β2σ 2 t−2<br />
= ω + α1ε 2 2<br />
t−1 + β1 σt−1 + α2u 2 t−2 + β2σ 2 t−2.<br />
100
Tem-se ⎛<br />
⎜<br />
⎝<br />
σ2 t<br />
σ2 t−1<br />
u2 ⎞ ⎛<br />
α1ε<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎟ = ⎜<br />
⎠ ⎝<br />
<br />
t−1<br />
<br />
2 t−1 + β1 1<br />
β2 0<br />
α2<br />
0<br />
ε2 ⎞⎛<br />
σ<br />
⎟⎜<br />
⎟⎜<br />
⎟⎜<br />
⎠⎝<br />
<br />
t−1<br />
<br />
0 0<br />
<br />
2 t−1<br />
σ2 t−2<br />
u2 ⎞ ⎛ ⎞<br />
ω<br />
⎟ ⎜ ⎟<br />
⎟ ⎜ ⎟<br />
⎟ + ⎜ 0 ⎟.<br />
⎠ ⎝ ⎠<br />
<br />
t−2<br />
<br />
0<br />
<br />
yt<br />
A matriz aleatória At e o vector Bt estão nas condições da definição 4.5.4.<br />
At<br />
A estacionaridade do processo (4.12) está discutida, por exemplo, em Basrak et al.<br />
(2002). O resultado principal é dado pela<br />
Proposição 4.5.5 Assuma-se, no âmbito da definição 4.5.4, E (log A1) < 0 e E log + B1 <<br />
∞ (log + x = max (log x, 0)). Então o processo definido por (4.12) converge (com probabil-<br />
idade um) e a sua solução é estritamente estacionária.<br />
Na proposição anterior, as condições de estacionaridade apenas envolvem A1 e B1, e<br />
não toda a sucessão {At} e {Bt} , porque se admite que {At} e {Bt} são sequências i.i.d.<br />
e, portanto, a avaliação de um elemento qualquer da sucessão é suficiente para estabelecer o<br />
resultado desejado.<br />
Uma versão (ligeiramente) mais geral da proposição anterior é apresentada Basrak et al.<br />
yt−1<br />
(2002). Como habitualmente, A é a norma da matriz ou vector A.<br />
Corolário 4.5.1 No caso escalar, d = 1,<br />
yt = Atyt−1 + Bt,<br />
assuma-se −∞ ≤ E (log |A1|) < 0 e E log + |B1| < ∞. Então y converge (com probabili-<br />
dade um) e a sua solução é estritamente estacionária.<br />
Exemplo 4.5.11 Discuta-se a estacionaridade do processo<br />
yt = |φ| yt−1 + |ut| ,<br />
onde u é ruído branco Gaussiano. No contexto do corolário 4.5.1 tem-se<br />
At = |φ| , Bt = |ut| .<br />
101<br />
Bt
A condição E log + |B1| < ∞ verifica-se imediatamente, tendo em conta a distribuição<br />
assumida para u. 9 Relativamente à outra condição, vem<br />
Se log |φ| < 0, i.e., |φ| < 1 o processo é EE.<br />
E (log |A1|) = E (log |φ|) = log |φ| .<br />
Exemplo 4.5.12 Discuta-se a estacionaridade do processo<br />
yt = e µ+et yt−1 + |ut| (4.13)<br />
onde µ é uma constante e et e ut são ruídos brancos Gaussianos com variância igual a 1, e<br />
independentes entre si. No contexto do corolário 4.5.1 tem-se<br />
At = e µ+et , Bt = |ut| .<br />
Como {At} é uma sucessão positiva de v.a. i.i.d., a equação (4.13) respeita a definição<br />
4.5.4 (e, assim, o corolário 4.5.1 é aplicável). A condição E log + |B1| < ∞ verifica-<br />
se imediatamente, tendo em conta a distribuição assumida para u. Relativamente à outra<br />
condição, vem<br />
Se µ < 0 então o processo y é EE.<br />
E (log |A1|) = E log e µ+e1 = E (µ + σe1) = µ.<br />
Exemplo 4.5.13 Considere-se o processo ut com heterocedasticidade condicionada de or-<br />
dem (1, 1) , (GARCH(1,1))<br />
ut = σtεt<br />
σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1 ω, α1, β 1 > 0.<br />
onde ε é um ruído branco EE e independente de ut−k, k ∈ N. O processo σ 2 t pode escrever-se<br />
na forma<br />
σ 2 t = ω + α1σ 2 t−1ε 2 t−1 + β1σ 2 t−1 = ω + α1ε 2 2<br />
t−1 + β1 σt−1. 9 Se u ∼ N (0, 1) , então E (log |u|) = −0.635. Pode mostrar-se que log |u| função densidade de probabil-<br />
e2y − idade 2e 2 +y / √ 2π.<br />
102
Tem-se assim<br />
At = α1ε 2 <br />
t−1 + β1 , Bt ≡ B = ω.<br />
Verifica-se que (At, B) é uma sucessão de v.a. positivas i.i.d. Para que σ 2 t admita uma<br />
solução estritamente estacionária é suficiente (pode mostrar-se que é também necessário)<br />
que se verifiquem as condições do corolário 4.5.1, −∞ ≤ E (log |A1|) < 0 e E log + |B1| <<br />
∞. A segunda condição verifica-se imediatamente; a primeira estabelece<br />
E (log |A1|) = E log α1ε 2 <br />
0 + β1 < 0. (4.14)<br />
Nelson (1990) obteve esta condição 10 , mas sem recorrer à proposição 4.5.5. Tem-se assim<br />
que σ 2 t é um processo EE. E quanto a ut? Felizmente, não é necessário estudar directamente<br />
ut, pois sabe-se que se o processo {(ξ 1t, ξ 2t)} é EE, uma qualquer função (mensurável) de<br />
ξ 1t e ξ 2t é ainda estritamente estacionária. Assim, se {(σ 2 t , εt)} é EE, então o processo u<br />
definido por ut = σtεt é também EE.<br />
Exemplo 4.5.14 Retome-se o exemplo 4.5.10. Suponha-se que ε é um ruído branco com<br />
distribuição N (0, 1) . Considerando a norma<br />
tem-se<br />
A = max<br />
1≤i≤n<br />
n<br />
j=1<br />
|aij|<br />
⎛⎛<br />
<br />
α1ε<br />
⎜⎜<br />
⎜⎜<br />
log A1 = log ⎜⎜<br />
⎝⎝<br />
<br />
<br />
2 0 + β1 β2 α2<br />
1 0 0<br />
ε2 ⎞<br />
⎞<br />
<br />
<br />
⎟<br />
⎟<br />
⎟<br />
⎟<br />
⎟<br />
⎟<br />
⎠<br />
⎠<br />
<br />
0 0 0 <br />
∞<br />
= log max α1ε 2 <br />
0 + β <br />
1 + |α2| + |β2| , 1, |ε0| 2<br />
= max log α1ε 2 <br />
0 + β <br />
1 + |α2| + |β2| , 0, log |ε0| 2 .<br />
<br />
10O valor esperado E log α1ε2 <br />
0 + β1 tem expressão conhecida, por exemplo, quando ε0 ∼ N (0, 1) . O<br />
programa Mathematica permite obter<br />
E log α1ε 2 <br />
0 + β1 = π erfi<br />
<br />
β<br />
+ log<br />
2α<br />
<br />
HypergeometricPFQ<br />
−β<br />
A explicação destas funções pode ver-se no programa Mathematica.<br />
103<br />
,<br />
<br />
α<br />
<br />
− EulerGamma<br />
2<br />
<br />
{1, 1} , 3<br />
2 , 2 , β<br />
<br />
2α<br />
α<br />
.
Como E log |ε0| 2 = −1.27036 < 0 e todos os parâmetros são positivos, a condição<br />
E (log A1) < 0 resume-se a<br />
E log α1ε 2 <br />
0 + α2 + β1 + β2 < 0.<br />
No caso α2 = β 2 = 0, obtém-se a condição já estabelecida (4.14).<br />
4.5.5 Modelos Não Lineares do tipo yt = g (yt−1, u t)<br />
Os modelos mais gerais são do tipo yt = g (yt−1, u t) . No ponto anterior, a função g<br />
decompõe-se na forma Atyt−1 (fixando At, g é linear no seu argumento) e no caso yt =<br />
g (yt−1)+ut, anteriormente tratado, g, dado yt−1, não depende de uma componente aleatória.<br />
O próximo resultado envolve os conceitos de aperiodicidade e irredutibilidade. Suponha-<br />
se que o espaço de estados de y é {1, 2, 3}. Imagine-se que o processo tem início no estado<br />
1. Se y retorna ao estado 1 sempre em dois passos (por exemplo, visita 2 e volta a 1, ou visita<br />
3 e volta a 1) o processo não é aperiódico. Irredutibilidade significa, grosso modo, que um<br />
processo pode visitar qualquer estado qualquer que seja o estado em que se encontre.<br />
Para processos com espaço de estados contínuo, a seguinte proposição assegura a irre-<br />
dutibilidade (Mokkadem, 1985):<br />
Proposição 4.5.6 Suponha-se que para qualquer conjunto A ⊂ R N com medida de Lebesgue<br />
não nulo e qualquer conjunto compacto B, existe um inteiro t > 0 tal que<br />
Então o processo y é irredutível.<br />
Defina-se yt q := E (yt q ) 1<br />
q .<br />
inf<br />
x∈B P (yt ∈ A| y0 = x) > 0. (4.15)<br />
Proposição 4.5.7 Considere-se o processo multivariado {y} definido por<br />
yt = g (yt−1, u t)<br />
onde {ut} é uma sucessão de vectores i.i.d.. Suponha-se que y é um processo aperiódico e<br />
irredutível. Suponha que existem escalares K > 0, δ ∈ (0, 1) e q > 0 tal que g está bem<br />
104
definida e é contínua com respeito ao primeiro argumento e<br />
g (x, u 1) q < δ x , x > K.<br />
Então {yt} é geometricamente ergódico e EE.<br />
Exemplo 4.5.15 Retome-se o exemplo 4.5.13,<br />
σ 2 t = ω + α1ε 2 2<br />
t−1 + β1 σt−1 supondo ε é um ruído branco Gaussiano com variância igual a 1. A proposição 4.5.5 é<br />
a mais adequada para tratar este caso. No entanto, também 4.5.7 pode ser invocada. O<br />
processo é obviamente aperiódico, tendo em conta a distribuição de ε. Não é fácil verificar-<br />
se (4.15), pois as probabilidades de transição a n passos não são conhecidas. É no entanto<br />
pacífico assumir-se que σ 2 t , para algum t > 0, pode atingir qualquer conjunto A, qualquer<br />
que seja a condição inicial. Assuma-se, assim, que σ 2 t é irredutível. Tem-se,<br />
g (x, u1) = ω + α1ε 2 <br />
1 + β1 x<br />
e escolha-se, no contexto da proposição 4.5.7, q = 1. Assim,<br />
Em que circunstâncias se verifica<br />
g (x,ε1)1 = E <br />
ω + α1ε 2 1 + β1 x .<br />
E <br />
ω + α1ε 2 1 + β1 x < δ |x| , |x| > K ?<br />
Para |x| suficientemente grande, tal que |x| > K, o valor de ω é irrelevante 11 . Assuma-se<br />
assim ω = 0. Vem<br />
E α1ε 2 1 + β1 x = E α1ε 2 <br />
1 + β <br />
1<br />
x < δ |x| , |x| > K<br />
se e só se E (|α1ε 2 1 + β 1|) < δ ∈ (0, 1) . A condição de estacionaridade estrita está encon-<br />
11 Considere-se, por exemplo, |ω + 0.98x| < 0.99 |x| . Esta desigualdade não se verifica para todo o x ∈ R.<br />
No entanto, para qualquer valor de ω, existe certamente um K tal que |x| > K ⇒ |ω + 0.98x| < 0.99 |x| .<br />
105
trada:<br />
E α1ε 2 <br />
1 + β <br />
1<br />
< 1.<br />
Atendendo a α1ε 2 1 + β 1 > 0 e E (ε 2 1) = 1, a condição pode reescrever-se na forma<br />
E α1ε 2 <br />
1 + β <br />
1<br />
= α1 + β1 < 1. (4.16)<br />
Esta condição não é equivalente à obtida no exemplo 4.5.13, E (log (α1ε 2 0 + β 1)) < 0 (as<br />
proposições 4.5.5 e 4.5.7, em geral, conduzem a condições suficientes, mas não necessárias).<br />
Estas duas condições são discutidas no ponto 8.4.<br />
4.A Demonstrações<br />
Demonstração da proposição 4.5.1<br />
Para simplificar, suponha-se que existe a densidade fn (y| x) = ∂<br />
∂y Fn (y| x) . Considere-<br />
se n → ∞ em ambos os lados da equação (4.7). Como fn (y| x) − f (y) converge para zero<br />
na norma , a equação (4.7) com n → ∞ é<br />
<br />
f (y) =<br />
f1 (y| u) f (u) du. (4.17)<br />
Por hipótese, y0 (valor inicial) tem densidade estacionária fy0 = f. Resulta de (4.17) que y1<br />
também tem densidade estacionária f, pois<br />
<br />
fy1 (y) =<br />
<br />
f1 (y| u) fy0 (u) du =<br />
f1 (y| u) f (u) du = f (y) .<br />
Por indução, conclui-se que fyt (y) = f (y) qualquer que seja t. Por outro lado, devido à<br />
homogeneidade e à propriedade de Markov, a densidade conjunta de (yn, yn−1, ..., y1, y0)<br />
fyn,yn−1,...,y1,y0 (xn, xn−1, ..., x1, x0) = f1 (xt| xt−1) f1 (xt−1| xt−2) ...fy0 (x0)<br />
é igual à densidade conjunta de (yn+k, yn+k−1, ..., yk+1, yk)<br />
fyn+k,yn+k−1,...,yk+1,yk (xn, xn−1, ..., x1, x0) = f1 (xt| xt−1) f1 (xt−1| xt−2) ...fyk (x0) ,<br />
pois f1 (y| x) não depende do momento em que é calculada (apenas depende dos argumentos<br />
106
y e x) e fy0 (x0) = fyk (x0) = f (x0).<br />
107
Página em branco<br />
108
Parte II<br />
Modelos<br />
109
Página em branco<br />
110
Capítulo 5<br />
O Problema da Especificação<br />
(Última actualização: 1/2010)<br />
5.1 O Axioma da Correcta Especificação do Modelo<br />
Seja yt o valor de uma variável económica no momento t. Em termos abstractos temos<br />
a sucessão (ou colecção) de variáveis aleatórias {yt, t ∈ Z} ou {yt, t ∈ N0} . Uma série<br />
económica é apenas uma subsucessão de {yt, t ∈ N0} . A série económica depende de in-<br />
úmeros factores: leis económicas, choques externos, puro acaso, etc.<br />
O verdadeiro comportamento de yt é desconhecido. Pode ser caracterizado por aquilo<br />
a que se chama data generation process (DGP) e é definido como a lei de probabilidade<br />
conjunta de {yt, yt−1, ...}:<br />
F 0<br />
t (yt, yt−1, ...) ou f 0 t (yt, yt−1, ...) .<br />
A distribuição conjunta ou a densidade conjunta (que se admite existir) descrevem comple-<br />
tamente a sucessão em termos probabilísticos (incorpora tudo o que influencia yt). Note-se<br />
que as funções F 0<br />
t ou f 0 t são desconhecidas. Além disso, dependem de t, porque se admite<br />
a possibilidade de y ser não estacionário. O DGP pode ser equivalentemente descrito pelas<br />
densidades condicionais (supondo que existem)<br />
f 0 t (yt| Ft−1) , t = ..., −1, 0, 1, ...<br />
111
Com efeito (usando a propriedade P (A ∩ B) = P (A| B) P (B)),<br />
f 0 t (yt, yt−1, ...) = f 0 t (yt| yt−1, ...) f 0 t−1 (yt−1, yt−2...) (5.1)<br />
= f 0 t (yt| yt−1, ...) f 0 t−1 (yt−1| yt−2, ...) f 0 t−2 (yt−2, yt−3...)<br />
= ...<br />
= f 0 t (yt| yt−1, ...) f 0 t−1 (yt−1| yt−2, ...) ...f 0 1 (y1| y0, ...) ...<br />
Logo a sucessão {f 0 t (yt| Ft−1)} fornece a mesma informação que f 0 (yt, yt−1, ...). Por ex-<br />
emplo, suponha-se que se simula o seguinte modelo:<br />
y1 ∼ N (0, 1)<br />
yt = 0.5yt−1 + εt, εt é um ruído branco N (0, 1) , t = 2, 3<br />
Logo, o DGP da simulação é<br />
f 0 (y3, y2, y1) = f 0 (y3| y2, y1) f 0 (y2, y1)<br />
= f 0 (y3| y2, y1) f 0 (y2| y1) f 0 (y1)<br />
= f 0 (y3| F2) f 0 (y2| F1) f 0 (y1) ,<br />
e, portanto, pode ser completamente caracterizado pela distribuição condicional yt| Ft−1 ∼<br />
N (0.5yt−1, 1) e pela distribuição do valor inicial (se o processo fosse iniciado em t = −∞<br />
o DGP seria caracterizado apenas pela distribuição condicional).<br />
Um modelo econométrico é definido pelo investigador e procura aproximar o melhor<br />
possível o DGP através de um modelo<br />
M (yt, yt−1, ...; dt; θ)<br />
onde θ é um vector de parâmetros e dt inclui variáveis não aleatórias que procuram modelar<br />
alterações no DGP ao longo do tempo (como por exemplo, variáveis artificiais determinísti-<br />
cas, tendências, etc.).<br />
Este modelo encerra uma hipótese quanto à fdp condicional, ft (yt| dt, Ft−1, θ) e, por-<br />
tanto, quanto aos momentos condicionais, como por exemplo E (yt| dt, Ft−1, θ) e Var (yt| dt, Ft−1, θ) .<br />
O axioma da correcta especificação do modelo M traduz-se da seguinte forma: existe um θ0<br />
112
tal que<br />
ft (yt| dt, Ft−1, θ0) = f 0 t (yt| Ft−1) .<br />
De forma análoga, os dois primeiros momentos condicionais estão correctamente especifi-<br />
cados se existir um θ0 tal que<br />
E (yt| dt, Ft−1, θ) =<br />
Var (yt| dt, Ft−1, θ) =<br />
<br />
<br />
yf 0 t (y| Ft−1) dy<br />
y 2 f 0 <br />
t (y| Ft−1) dy −<br />
yf 0 2 t (y| Ft−1) dy .<br />
Na prática, a hipótese da correcta especificação é implausível, embora seja geralmente<br />
conveniente invocá-la como forma de estruturar e interpretar os resultados estatísticos. De<br />
todo o modo, o objectivo é claro: devemos procurar uma fdp ft (yt| dt, Ft−1, θ0) que esteja<br />
o mais próximo possível da verdadeira mas desconhecida densidade f 0 (yt| Ft−1).<br />
5.2 Modelação da Média Condicional e Modelos Dinami-<br />
camente Completos<br />
5.2.1 Modelos Dinamicamente Completos<br />
Generalize-se a análise e admita-se que a yt depende dos valores correntes e passados de<br />
xt. Seja It = Ft−1 ∪ F X t onde F X t é o conjunto de informação contendo todas as variáveis<br />
explicativas até ao período t. Assim, It = {yt−1, yt−2, ...; xt, xt−1, ...}. O primeiro passo na<br />
construção do modelo M é o da definição da média condicional, o que significa que devemos<br />
identificar todas as variáveis explicativas de yt. Por exemplo, suponha-se que as variáveis<br />
relevantes para explicar um certo fenómeno yt são xt e yt−1. Normalmente expressamos esta<br />
nossa convicção sobre o poder explicativo xt e yt−1 escrevendo yt = β 1 + β 2xt + φyt−1 + ut,<br />
sendo ut é o termo de erro. É importante sublinhar que nada de relevante é dito sobre<br />
o modelo se não adiantarmos uma hipótese sobre o comportamento de ut. Se dissermos<br />
que E (ut) = 0 apenas podemos concluir que E (yt) = β 1 + β 1 E (xt) + φ E (yt−1) . Se<br />
adicionalmente dissermos que Cov (ut, xt) = Cov (ut, yt−1) = 0 então (pode-se provar que)<br />
β 1 + β 2xt + φyt−1 é o melhor previsor linear de yt. Se a nossa hipótese é E (ut| It) = 0<br />
acrescentamos bastante mais informação: de facto, reclamamos que a média condicional é<br />
E (yt| It) = β 1 + β 2xt + φyt−1. Todavia, nenhuma suposição é feita quanto a distribuição<br />
113
condicional de yt.<br />
Seja xt o vector das variáveis explicativas. No exemplo anterior tem-se xt = (xt, yt−1) ,<br />
e pode-se verificar que E (yt| xt) = E (yt| It) . De uma forma geral, quando é válida a<br />
igualdade E (yt| xt) = E (yt| It) diz-se que o modelo é dinamicamente completo. Veja um<br />
caso onde o modelo não é dinamicamente completo. Considere-se,<br />
yt = β 1 + β 2xt + β 3yt−1 + ut, ut = φ 2ut−2 + εt (5.2)<br />
sendo {εt} um RB. Este modelo não é dinamicamente completo, pois<br />
não coincide com<br />
E (yt| It) = β 1 + β 2xt + β 3yt−1 + φut−2<br />
E (yt| xt) = E (yt| xt, yt−1) = β 1 + β 2xt + β 3yt−1.<br />
No entanto, é fácil obter um modelo dinamicamente completo a partir de (5.2). Como<br />
tem-se, a partir da representação (5.2),<br />
yt = β 1 + β 2xt + β 3yt−1 + ut<br />
ut = yt − (β 1 + β 2xt + β 3yt−1) ⇒<br />
ut−2 = yt−2 − (β 1 + β 2xt−2 + β 3yt−3)<br />
= β 1 + β 2xt + β 3yt−1 + φ 2ut−2 + εt<br />
= β 1 + β 2xt + β 3yt−1 + φ 2 (yt−2 − (β 1 + β 2xt−2 + β 3yt−3)) + εt<br />
= β 1 − β 1φ 2 + β 2xt + β 3yt−1 + φ 2yt−2 − β 2φ 2xt−2 − β 3φ 2yt−3 + εt.<br />
A equação anterior pode ainda escrever-se na forma<br />
yt = γ 1 + γ 2xt + γ 3yt−1 + γ 4yt−2 + γ 5xt−2 + γ 6yt−3 + εt. (5.3)<br />
O vector xt passa agora a ser xt = (xt, yt−1, yt−2, xt−2, yt−3) e o modelo (5.3) é dinamica-<br />
114
mente completo pois<br />
E (yt| It) = E (yt| xt) = γ 1 + γ 2xt + γ 3yt−1 + γ 4yt−2 + γ 5xt−2 + γ 6yt−3.<br />
Num modelo dinamicamente completo, o conjunto das variáveis explicativas xt capta toda<br />
a dinâmica do processo, de tal forma que os erros não são autocorrelacionados (vale a pena<br />
acrescentar que um modelo dinamicamente completo não pode ter erros autocorrelaciona-<br />
dos).<br />
Que diferenças existem entre os modelos (5.2) e (5.3)? O estimador OLS aplicado a<br />
(5.3) é consistente; mas aplicado a (5.2) é inconsistente, pois o regressor yt−1 está correla-<br />
cionado com os erros ut (E (ut| xt) = 0). Claro que no modelo (5.2) deve usar-se um<br />
método de estimação consistente, como por exemplo, o método FGLS ou o método da máx-<br />
ima verosimilhança. Quando são usados métodos de estimação apropriados, do ponto de<br />
vista estatístico - por exemplo, previsão ou ajustamento - os modelos acima discutidos são<br />
(quase) equivalentes (e, portanto, é indiferente usar-se um ou o outro). Do ponto de vista da<br />
interpretação económica o modelo (5.3) pode ser preferível, pois identifica claramente todos<br />
os regressores “influentes” na explicação das variações de y. Mas, também pode suceder<br />
o contrário! Suponha-se que a teoria económica postula para certo fenómeno a relação<br />
yt = β 1 + β 2xt + ut. É esta a relação que queremos estimar, mesmo que ut possa exibir<br />
autocorrelação.<br />
5.2.2 Média Condicional Não Linear<br />
Suponha-se que a média condicional é dada por<br />
E (yt| Ft−1) = g (yt−1, yt−2, .., yt−p; ut−1, ut−2, ...ut−q)<br />
(não estando presente a variável explicativa xt, a σ-algebra relevante é Ft e não It, como no<br />
exemplo anterior). Diz-se que o modelo yt = g (yt−1, yt−2, .., yt−p; ut−1, ut−2, ...ut−q) + ut<br />
é não linear na média se g é uma função não linear dos seus argumentos. Vejamos alguns<br />
exemplos. No caso<br />
yt = φyt−1 + log 1 + y 2 t−1<br />
+ ut, E (ut| Ft−1) = 0,<br />
115
tem-se um modelo não linear na média, pois, E (yt| Ft−1) = φyt−1 + log 1 + y2 <br />
t−1 é uma<br />
função não linear de yt−1. Também<br />
yt = ξut−1ut−2 + ut, E (ut| Ft−1) = 0<br />
é um modelo não linear, pois E (yt| Ft−1) = ξut−1ut−2 é não linear nos valores passados de<br />
ut. Outro exemplo é Modelo Threshold<br />
yt =<br />
⎧<br />
⎨<br />
⎩<br />
φ 1yt−1 + ut se yt−1 > k<br />
φ 2yt−1 + ut se yt−1 ≤ k.<br />
com E (ut| Ft−1) = 0. Desenvolveremos modelos não lineares com algum detalhe no ponto<br />
7.<br />
5.3 Modelação da Variância Condicional<br />
Definida a média condicional, pode haver interesse em explicar a variabilidade de yt ao longo<br />
do tempo. No modelo clássico de séries temporais assume-se que a variância condicional é<br />
constante ao longo do tempo. Essa hipótese não é credível em séries temporais financeiras.<br />
No ponto 8 discutiremos esta questão em detalhe. Uma forma de introduzir um modelo<br />
de variância condicional não constante consiste em definir o termo de erro da equação yt =<br />
E (yt| Ft−1)+ut da seguinte forma ut = σtεt, onde εt é um ruído branco de variância igual a<br />
1 ou, mais geralmente, uma diferença de martingala (com variância finita igual a 1). Resulta<br />
Var (yt| Ft−1) = Var (ut| Ft−1) = Var (σtεt| Ft−1) = σ 2 t .<br />
A tarefa do investigador é a de definir uma função adequada para σ 2 t . No ponto 8 aborda-se<br />
de forma detalhada esta questão.<br />
5.4 Distribuição de Condicional<br />
Definida a média condicional e a variância condicional e, eventualmente, outros momentos<br />
condicionais de ordem superior, pode haver interesse em modelar toda a estrutura probabilís-<br />
tica do processo. Para o efeito é necessário no contexto da equação yt = E (yt| Ft−1) + ut<br />
116
com ut = σtεt, especificar uma distribuição para εt. Por exemplo, se a proposta do investi-<br />
gador é εt ∼ N (0, 1) , resulta que distribuição condicional de yt é<br />
yt| Ft−1 ∼ N (E (yt| Ft−1) , Var (yt| Ft−1)) ,<br />
e toda a estrutura probabilística fica definida. No contexto do ponto 5.1, a densidade definida<br />
para yt| Ft−1 representa a função ft (yt| dt, Ft−1, θ).<br />
117
Página em branco<br />
118
Capítulo 6<br />
Modelação da Média: Abordagem Linear<br />
(Última actualização: 3/2006)<br />
Neste capítulo vamos focar modelos lineares na média. Considere-se o modelo<br />
yt = µ t + ut<br />
(6.1)<br />
onde ut são os erros e µ t = g (yt−1, yt−2, .., yt−p; ut−1, ut−2, ...ut−q) é a média condicional.<br />
De acordo com a regra adoptada adiante, entende-se que o modelo (6.1) é linear na média se<br />
a função g é linear nos seus argumentos. Por exemplo, a especificação µ t = φyt−1 + θut−1<br />
é linear (a função g é g (x1, x2) = φx1 + θx2) ao passo que µ t = φy 2 t−1(g (x) = φx 2 ) é não<br />
linear.<br />
Toma-se como variável dependente y (pode ser um retorno de um título, a variação<br />
da taxa de câmbio, uma taxa de juro, etc.). Começaremos por admitir que a única infor-<br />
mação que dispomos sobre y é a própria série. Como explicar yt a partir da informação<br />
Ft−1 = {yt−1, yt−2, ...}? Se yt não está correlacionado de alguma forma com os seus valores<br />
passados yt−1, yt−2, ... a abordagem de séries temporais é inútil. Pelo contrário, se existe ev-<br />
idência de autocorrelação, então os valores passados da série podem explicar parcialmente o<br />
movimento de y e um modelo linear na média pode ser apropriado. Na prática, teremos de es-<br />
colher um modelo concreto. Por exemplo, yt = c+φyt−1+ut ou yt = c+φ 1yt−1+φ 2yt−2+ut<br />
ou yt = c + θ1ut−1 + ut entre muitos outros. Como seleccionar o modelo apropriado? A au-<br />
tocorrelação (total) e autocorrelação parcial são dois conceitos chave na fase da identificação<br />
do modelo. Iremos analisá-los de seguida.<br />
119
6.1 Definições Preliminares<br />
6.1.1 Autocorrelação de Ordem s (FAC)<br />
Suponha-se que y é um processo ESO. Para medir a associação linear entre yt e yt−s já vimos<br />
que se toma o coeficiente de autocorrelação de ordem s,<br />
onde<br />
ρ s =<br />
Cov(yt, yt−s)<br />
Var (yt) Var (yt−s)<br />
Cov(yt, yt−s) = E ((yt − E (yt)) (yt−s − E (yt−s)))<br />
= E (ytyt−s) − E (yt) E (yt−s) .<br />
Convencione-se chamar γ s a Cov (yt, yt−s) e γ 0 a Var (yt) 1 . Como Var (yt) = Var (yt−s)<br />
vem<br />
ρ s =<br />
Cov(yt, yt−s)<br />
Var (yt) Var (yt−s) = γ s<br />
γ 2 0<br />
= γs .<br />
γ0 Naturalmente, devido à desigualdade de Chaucy-Schwarz 2 , tem-se<br />
|ρ s| ≤ 1.<br />
6.1.2 Autocorrelação Parcial de Ordem s (FACP)<br />
Quando se calcula a correlação entre, por exemplo, yt e yt−2, por vezes sucede que a cor-<br />
relação detectada se deve ao facto de yt estar correlacionado com yt−1, e yt−1, por sua vez,<br />
estar correlacionado com yt−2. Com a autocorrelação parcial procura-se medir a correlação<br />
entre yt e yt−s eliminando o efeito das variáveis intermédias, yt−1, ..., yt−s+1. A análise desta<br />
forma de autocorrelação é importante na medida em que permite, juntamente com a FAC,<br />
identificar o processo linear subjacente.<br />
No âmbito do modelo de regressão linear, sabe-se que uma forma de medir a associação<br />
parcial ceteris paribus entre, por exemplo, y e x1 consiste em considerar a regressão y =<br />
β 0+β 1x1+β 2x2+...+β kxk+u. Com este procedimento β 1 representa o efeito ceteris paribus<br />
1 Na verdade, adoptando a convenção γs = E ((yt − E (yt)) (yt−s − E (yt−s))) resulta, por definição, γ 0 =<br />
E ((yt − E (yt)) (yt − E (yt))) = Var (yt) .<br />
2 Suponha-se que E<br />
<br />
|X| 2<br />
< ∞ e E<br />
<br />
|Y | 2<br />
< ∞. Então E (|XY |) ≤ E<br />
120<br />
<br />
|X| 21/2 <br />
E |Y | 21/2 .
de uma variação unitária de x1 sobre y. Mede-se, portanto, o impacto de x1 sobre y depois<br />
do efeito das variáveis x2, ..., xk ter sido removido ou fixo. Para obtermos as autocorrelações<br />
parciais seguimos um procedimento similar.<br />
Considere-se:<br />
yt = c + φ 11yt−1 + ξ t<br />
yt = c + φ 21yt−1 + φ 22yt−2 + ξ t<br />
yt = c + φ 31yt−1 + φ 32yt−2 + φ 33yt−3 + ξ t<br />
...<br />
yt = c + φ s1yt−1 + φ s2yt−2 + ... + φ ssyt−s + ξ t<br />
A autocorrelação parcial de ordem i é dada pelo coeficiente φ ii. Por exemplo, a autocorre-<br />
lação parcial de ordem 2 é dada pelo coeficiente φ 22 na regressão<br />
yt = c + φ 21yt−1 + φ 22yt−2 + ξ t. (6.2)<br />
Podemos usar o OLS para obter ˆ φ 22. Este coeficiente mede a relação entre yt e yt−2 depois<br />
do efeito de yt−1 ter sido removido. φ kk também pode ser estimado através da expressão<br />
ˆφ kk =<br />
<br />
t rt,kyt<br />
<br />
t r2 t,k<br />
onde rt,k é o resíduo da regressão linear de yt−k sobre um termo constante e (yt−1, ..., yt−k+1) .<br />
Os resíduos rt,k podem ser interpretados como a variável yt−k depois dos efeitos das variáveis<br />
(yt−1, ..., yt−k+1) terem sido removidos. Donde ˆ φ kk mede o efeito entre yt e yt−k depois do<br />
efeito das variáveis intermédias ter sido removido.<br />
Uma outra forma alternativa de obter φ ii (como função dos ρ ′ s) está descrita no apêndice<br />
6.A. Sob H0: φ kk = 0<br />
Z = √ n ˆ φ kk<br />
d<br />
−→ N (0, 1) .<br />
121
6.1.3 Operador de Diferença e de Atraso<br />
O operador diferença ∆ é bem conhecido:<br />
∆yt = yt − yt−1,<br />
∆ 2 yt = ∆ (∆yt) = ∆ (yt − yt−1) = ∆yt − ∆yt−1<br />
= yt − yt−1 − (yt−1 − yt−2) = yt − 2yt−1 + yt−2.<br />
O operador de atraso ou de desfasamento L (lag) define-se como<br />
Resulta da definição,<br />
Lyt = yt−1.<br />
L 2 yt = L (Lyt) = Lyt−1 = yt−2,<br />
L p yt = yt−p,<br />
L p ut = ut−p.<br />
Naturalmente, podemos combinar os operadores. Por exemplo,<br />
L∆yt = L (yt − yt−1) = yt−1 − yt−2.<br />
Com o operador L podemos escrever, por exemplo,<br />
na forma,<br />
yt − φ 1yt−1 − φ 2yt−2 = µ + θ1ut−1 + ut<br />
yt − φ 1Lyt − φ 2L 2 yt = µ + θ1Lut + ut<br />
1 − φ1L − φ 2L 2 yt = µ + (1 + θ1L) ut<br />
φ 2 (L) yt = µ + θ1 (L) ut.<br />
Obs.: φ 2 (L) = 1 − φ 1L − φ 2L 2 e θ1 (L) = 1 + θ1L são polinómios em L. Certos autores,<br />
sobretudo da área das sucessões cronológicas, preferem a letra B (backshift) para designar o<br />
mesmo operador de atraso.<br />
122
6.2 Processos Lineares Estacionários<br />
A decomposição de Wold fornece uma motivação para os modelos de médias móveis (ver a<br />
seguir). Wold mostrou que um processo y ESO pode escrever-se na forma<br />
yt = Vt + ut + ψ 1ut−1 + ψ 2ut−2 + ... (6.3)<br />
onde ut é um RB, Vt é um processo determinístico e ∞<br />
i=1 ψ2<br />
i < ∞.<br />
A decomposição destaca que qualquer processo ESO (linear ou não linear) tem uma<br />
representação linear nos erros de regressão (podemos também dizer, nos erros de previsão)<br />
ocorridos no passado. No entanto, o modelo (6.3) não pode ser implementado porque exis-<br />
tem infinitos parâmetros para estimar.<br />
Vamos procurar representações lineares parcimoniosas, inspiradas em (6.3).<br />
Exemplos:<br />
yt = ut + θ1ut−1 (ψ 1 = θ1, ψ 2 = ψ 3 = ... = 0)<br />
yt = ut + θ1ut−1 + θ2ut−2 (ψ 1 = θ1, ψ 2 = θ2, ψ 3 = ψ 4 = ... = 0)<br />
Veremos que os processos do tipo<br />
yt = c + φyt−1 + ut<br />
podem também escrever-se na forma (6.3) (com restrições sobre os ψ i). Veremos tam-<br />
bém que a melhor aproximação linear parcimoniosa que podemos efectuar à estrutura (6.3),<br />
supondo Vt = 0, baseia-se no chamado modelo ARMA.<br />
6.2.1 Processos Média Móvel<br />
Processo MA (1)<br />
O processo MA(1) é dado por<br />
yt = µ + θut−1 + ut = µ + (1 + θL) ut<br />
onde ut é um ruído branco. Este modelo representa yt como uma combinação linear de<br />
choques aleatórios (ut−1 e ut). Outra forma de interpretarmos o modelo consiste em imaginar<br />
123
que yt resulta de um mecanismo de correcção: podemos utilizar o erro cometido no período<br />
anterior, ut−1, como regressor (i.e., como variável explicativa) do modelo (por exemplo,<br />
veremos que a previsão de y baseia-se, em parte, no erro de previsão cometido no período<br />
anterior). Este modelo é indicado para modelar fenómenos de memória muito curta pois a<br />
autocorrelação de y extingue-se muito rapidamente, como veremos a seguir.<br />
Momentos Marginais<br />
Os primeiros momentos marginais (ou não condicionais) são<br />
Covariâncias e Autocorrelações<br />
Pode-se provar<br />
E (yt) = E (µ + θut−1 + ut) = µ<br />
Var (yt) = Var (µ + θut−1 + ut) = θ 2 σ 2 + σ 2 .<br />
γ 1 = Cov (yt, yt−1) = E ((yt − µ) (yt−1 − µ))<br />
= E ((θut−1 + ut) (θut−2 + ut−1))<br />
= E θ 2 ut−1ut−2 + θu 2 t−1 + θutut−2 + utut−1<br />
= 0 + θσ 2 + 0 + 0<br />
γ s = 0 para s > 1.<br />
O processo yt é ESO pois E (yt) e Var (yt) são constantes e γ s não depende de t. Conclui-<br />
se agora que as autocorrelações são dadas por<br />
ρ1 = γ1 γ0 =<br />
θσ2 ρs = 0 para s > 1.<br />
Relativamente às autocorrelações parciais tem-se<br />
e (pode-se provar)<br />
Momentos Condicionais<br />
θ 2 σ2 θ<br />
=<br />
+ σ2 θ 2 + 1 .<br />
φ 11 = ρ 1 = θ<br />
θ 2 + 1 ,<br />
φss = θs 1 − θ 2<br />
. 2(s+1)<br />
1 − θ<br />
124
Os momentos condicionais são imediatos:<br />
E (yt| Ft−1) = E (µ + θut−1 + ut| Ft−1) = µ + θut−1.<br />
Var (yt| Ft−1) = E (yt − E (yt| Ft−1)) 2 <br />
Ft−1 = E u 2 <br />
t<br />
Se ut é um ruído branco Gaussiano então<br />
Invertibilidade<br />
yt| Ft−1 ∼ N µ + θut−1, σ 2 .<br />
Ft−1<br />
= σ 2 .<br />
Considere-se um processo MA(1) (sem perda de generalidade) de média nula, yt =<br />
θut−1 + ut, onde ut é um ruído branco. Naturalmente, y pode escrever-se na forma<br />
yt = (1 + θL) ut ou yt (1 + θL) −1 = ut<br />
Atendendo ao desenvolvimento em série de potência de (1 + θL) −1 ,<br />
tem-se, para |θ| < 1,<br />
1<br />
1 + θL = 1 − θL + θ2 L 2 − ..., |θ| < 1<br />
yt (1 + θL) −1 = ut<br />
2 2<br />
yt 1 − θL + θ L − ... = ut<br />
yt = θyt−1 − θ 2 yt−2 + ... + ut. (6.4)<br />
Diz-se neste caso, com |θ| < 1 que yt é invertível, isto é, tem representação autoregressiva 3 .<br />
O facto do processo MA(1) (e, mais geralmente, o processo MA(q)) ter representação do<br />
tipo (6.4) explica por que razão a função de autocorrelação parcial φ ii é não nula para todo o<br />
i (porquê?).<br />
A invertibilidade é uma propriedade exigível na previsão: garante que a informação re-<br />
mota sobre o processo é irrelevante. Imagine-se o caso contrário, i.e. o processo não in-<br />
vertível. Isto significa que |θ| > 1 e, pela equação (6.4), a informação mais atrasada tem<br />
mais peso na previsão y (a rigor a representação (6.4) não está bem definida no caso |θ| > 1;<br />
3 No caso yt = µ+θut−1+ut, |θ| < 1, a representação autoregressiva é yt = µ<br />
1+θ +θyt−1−θ 2 yt−2+...+ut.<br />
125
no entanto, a ideia essencial mantém-se).<br />
Um processo não invertível pode transformar-se num processo invertível com funções de<br />
autocorrelação e autocorrelações parciais iguais (ver apêndice 6.B).<br />
Processo MA (q)<br />
O processo MA(q) é dado por<br />
yt = µ + θ1ut−1 + θ2ut−2 + ... + θqut−q + ut,<br />
= µ + (1 + θ1L + ... + θqL q ) ut<br />
= µ + θq (L) ut.<br />
O processo yt continua a representar-se como uma combinação linear de choques aleatórios,<br />
desta vez, em função de ut−q, ... ut. Pode-se provar:<br />
Pode-se provar ainda:<br />
E (yt) = µ<br />
Var (yt) = σ 2 1 + θ 2<br />
1 + ... + θ 2<br />
ρk =<br />
<br />
q<br />
⎧<br />
⎨ = 0 se k = 1, 2, ..., q<br />
⎩ 0 se k = q + 1, q + 2, ...<br />
φ kk = 0, mas φ kk → 0, quando k → ∞.<br />
Proposição 6.2.1 yt é invertível se as raízes de θq (L) (i.e. as soluções de θq (L) = 0) são em<br />
módulo superiores a um (ou fora do circulo unitário no plano complexo). Equivalentemente,<br />
yt é invertível se as raízes inversas de θq (L) (i.e. 1/L onde L são as soluções de θq (L) = 0)<br />
são em módulo inferiores a um (ou dentro do circulo unitário no plano complexo).<br />
No caso MA(1) a proposição 6.2.1 é equivalente a exigir |θ1| < 1 (ou |1/θ1| > 1).<br />
Observe-se que −1/θ1 é solução de 1 + θ1L = 0. No caso MA(2)<br />
yt = µ + θ1ut−1 + θ2ut−2 + ut = µ + 1 + θ1L + θ2L 2 ut<br />
126
a proposição 6.2.1 traduz-se da seguinte forma: yt é invertível se<br />
θ1 + θ2 > −1, θ1 − θ2 < 1, −1 < θ2 < 1.<br />
No caso MA(q), q > 2 é necessário calcular as raízes de θq (L) .<br />
O apêndice 6.C fornece alguns exemplos e refere-se ao programa EVIEWS.<br />
6.2.2 Processos Autoregressivos<br />
Processo AR(1)<br />
O processo AR(1) é dado por<br />
yt = c + φyt−1 + ut<br />
(6.5)<br />
onde ut é ruído branco independente de yt−1. Este modelo é muito importante porque repro-<br />
duz razoavelmente a dinâmica de muitas séries económicas e financeiras.<br />
Momentos Marginais<br />
Comece-se por calcular a média marginal<br />
E (yt) = E (c + φyt−1 + ut) = c + φ E (yt−1) .<br />
(temos uma equação recorrente em E (yt): este valor esperado depende de E (yt−1) que, por<br />
sua vez, depende de E (yt−2) e assim sucessivamente). Se assumirmos à partida a condição<br />
de ESO (implicando E (yt) = E (yt−1) = E (y)) vem<br />
Seguindo um raciocínio idêntico vem:<br />
E (y) = c + φ E (y) ⇒ E (y) = c<br />
1 − φ<br />
Var (yt) = Var (c + φyt−1 + ut) = φ 2 Var (yt−1) + Var (ut)<br />
= φ 2 Var (yt−1) + σ 2<br />
Sob a hipótese de ESO, tem-se Var (yt) = Var (yt−1) = Var (y) e, portanto,<br />
Var (yt) = φ 2 Var (y) + σ 2 ⇒ Var (y) = σ2<br />
2 .<br />
1 − φ<br />
127
Covariâncias e Autocorrelações<br />
Calcule-se agora as covariâncias. Como estas não dependem da média de yt, simplifique-<br />
se fazendo c = 0. Suponha-se |φ| < 1. A covariância γ 1 é dada por<br />
A covariância de ordem k é<br />
γ 1 = Cov (yt, yt−1) = E (ytyt−1)<br />
= E (E (ytyt−1 |Ft−1 )) = E (yt−1 E (yt |Ft−1 ))<br />
= E (yt−1 E (φyt−1 + ut |Ft−1 )) = E φy 2 t−1<br />
= φ σ2<br />
2 .<br />
1 − φ<br />
γ k = E (ytyt−k) = E (E (ytyt−k |Ft−k )) = E (yt−k E (yt |Ft−k ))<br />
Para desenvolvermos a expressão precisamos de calcular primeiro E (yt |Ft−k ) . Ora<br />
pelo que<br />
yt = φyt−1 + ut<br />
= φ (φyt−2 + ut−1) + ut<br />
= φ 2 yt−2 + φut−1 + ut<br />
= ... = yt−kφ k + ut−k+1φ k−1 + ut−k+2φ k−2 + ... + ut−1φ + ut<br />
E (yt| Ft−1) = yt−kφ k<br />
(todos os outros termos são nulos). Tem-se assim,<br />
γk = E yt−kyt−kφ k = φ k E y 2 k σ<br />
t−k = φ 2<br />
1 − φ 2 = φkγ 0.<br />
Uma forma alternativa de obter este valor é a seguinte. Multiplique-se ambos os termos da<br />
equação (6.5) por yt−k (sem perda de generalidade, considere-se c = 0). Resulta<br />
ytyt−k = φyt−1yt−k + utyt−k.<br />
128
Tomando o valor esperado e tendo em conta que E (utyt−k) = 0, obtém-se<br />
Logo,<br />
Finalmente,<br />
Assim,<br />
γ k = φγ k−1.<br />
γ 1 = φγ 0,<br />
γ 2 = φγ 1 = φ 2 γ 0<br />
...<br />
γ k = φ k γ 0.<br />
ρ k = γ k<br />
γ 0<br />
= φk γ 0<br />
γ 0<br />
= φ k .<br />
Tendo em conta a definição de autocorrelação parcial, tem-se:<br />
yt = c + φ 11yt−1 + ξ t ⇒ φ 11 = ρ 1<br />
yt = c + φ 21yt−1 + φ 22yt−2 + ξ t ⇒ φ 22 = 0<br />
⎧<br />
⎨ ρ1 se k = 1<br />
φkk =<br />
⎩ 0 se k > 1<br />
Os dois primeiros momentos condicionais são<br />
E (yt| Ft−1) = E (yt| yt−1) = E (φyt−1 + ut| yt−1) = φyt−1,<br />
Var (yt| Ft−1) = E (yt − φyt−1) 2 <br />
yt−1 = E u 2 <br />
t<br />
Se ut é um ruído branco Gaussiano então<br />
6.D)<br />
yt| Ft−1 ∼ N φyt−1, σ 2 .<br />
yt−1<br />
= σ 2 .<br />
Pode-se provar que a condição de estacionaridade do processo AR(1) é (ver apêndice<br />
|φ| < 1.<br />
129
Invertibilidade<br />
O processo AR é sempre invertível (por definição já tem representação autoregressiva).<br />
Reversão para a Média<br />
Processos estacionários com média finita são, por vezes, designados por processos com<br />
reversão para a média. Exemplifique-se com o processo AR(1)<br />
yt = c + φyt−1 + ut, |φ| < 1.<br />
Como µ = c<br />
1−φ ⇒ c = µ (1 − φ) (note-se que µ é a média de y, E (yt)) podemos reescrever<br />
o AR(1) na seguinte forma:<br />
yt = µ (1 − φ) + φyt−1 + ut<br />
∆yt = µ (1 − φ) + (φ − 1) yt−1 + ut<br />
= (φ − 1) (yt−1 − µ) + ut<br />
Esta última equação permite estabelecer as seguintes relações:<br />
(yt−1 − µ) > 0 ⇒ E (∆yt| Ft−1) < 0<br />
(yt−1 − µ) < 0 ⇒ E (∆yt| Ft−1) > 0.<br />
Por exemplo, se num certo período (digamos t − 1) o valor de y está acima da sua média<br />
de longo prazo µ (i.e. y está relativamente alto) no período seguinte y tenderá a diminuir de<br />
valor pois E (∆yt| Ft−1) < 0. Quando φ é positivo (esta é a situação habitual em aplicações),<br />
é possível concluir que quanto mais alto for φ (sem, contudo ultrapassar o valor 1) mais<br />
lenta é a velocidade de ajustamento de y em direcção à sua média de longo prazo. Suponha<br />
que o processo y sofre um choque aleatório considerável (ou que é inicializado num valor<br />
afastado da sua média de longo prazo). Como é que y evolui nos períodos seguintes? Tende a<br />
aproximar-se rapidamente ou lentamente de µ? (pode mesmo suceder que não haja qualquer<br />
efeito de reversão para uma medida de tendência central se, no limite, φ = 1). Na figura 6-1<br />
estão representados quatro processos AR(1) simulados de acordo com o modelo<br />
yt = 100 (1 − φ) + φyt−1 + ut, ut ruído branco Gaussiano σ 2 = 1<br />
Em todos os casos, o valor de inicialização é y0 = 0 e usam-se os mesmos erros u. Quanto<br />
130
y<br />
120<br />
100<br />
80<br />
60<br />
40<br />
20<br />
0<br />
20<br />
1 26 51 76 101 126 151 176<br />
t<br />
fhi=0.1<br />
fhi=0.8<br />
fhi=0.98<br />
Figura 6-1: Simulação de quatro processos AR(1) (choques aleatórios ut iguais e valor de<br />
inicialização y0 = 0)<br />
mais alto é o valor φ mais lento é o ajustamento de y face à média de longo prazo y. No caso<br />
φ = 1 não existe reversão para µ, embora o processo possa cruzar µ = 100 (assim como<br />
qualquer outro valor do espaço de estado de y) algures no tempo.<br />
Representação MA(∞)<br />
fhi=1<br />
Um processo AR(1) (ou mais geralmente um AR(p)) estacionário pode representar-se<br />
como um MA(∞). Já vimos<br />
yt = φyt−1 + ut<br />
Podemos continuar o procedimento recursivo:<br />
= φ t y0 + φ t−1 u1 + φ t−2 u2 + ... + φut−1 + ut<br />
yt = φ t (φy−1 + u0) + φ t−1 u1 + φ t−2 u2 + ... + φut−1 + ut<br />
= φ t+1 y−1 + φ t u0 + φ t−1 u1 + φ t−2 u2 + ... + φut−1 + ut<br />
= ...φ 2 ut−2 + φut−1 + ut.<br />
Para obtermos este resultado podemos tomar um caminho alternativo. Considere-se<br />
yt = φyt−1 + ut ⇔ yt (1 − φL) = ut ⇔ yt =<br />
131<br />
1<br />
1 − φL ut.
Supondo |φ| < 1 tem-se<br />
Logo<br />
Processo AR(p)<br />
yt =<br />
1<br />
1 − φL = 1 + φL + φ2 L 2 + ...<br />
1<br />
1 − φL ut = 1 + φL + φ 2 L 2 + ... ut<br />
= ut + φut−1 + φ 2 ut−2 + ...<br />
Um processo AR(p) é uma simples generalização do AR(1):<br />
yt = c + φ 1yt−1 + ... + φ pyt−p + ut.<br />
Este modelo pode ainda representar-se nas seguintes formas alternativas:<br />
1 − φ1L − ... − φ pL p yt = c + ut, ou<br />
φ p (L) yt = c + ut.<br />
Momentos Marginais (ou não condicionais)<br />
Assumindo a condição de ESO, vem<br />
E (yt) = E <br />
c + φ1yt−1 + ... + φpyt−p + ut = c + φ1 E (yt−1) + ... + φp E (yt−p)<br />
E (y) = c + φ 1 E (y) + ... + φ p E (y) ⇒ E (y) =<br />
c<br />
.<br />
1 − φ1 − ... − φp Para obtermos a variância é útil considerar (sem perda de generalidade faça-se c = 0 ⇒<br />
E (y) = 0):<br />
yt = φ 1yt−1 + ... + φ pyt−p + ut<br />
y 2 t = φ1yt−1yt + ... + φpyt−pyt + utyt<br />
<br />
= φ1 E (yt−1yt) + ... + φp E (yt−pyt) + E (utyt)<br />
E y 2 t<br />
E y 2 t = φ1γ1 + ... + φpγp + σ 2<br />
γ 0 = φ 1γ 1 + ... + φ pγ p + σ 2 .<br />
132
As covariâncias são obtidas de forma similar (sem perda de generalidade faça-se c = 0 ⇒<br />
E (y) = 0):<br />
yt = φ 1yt−1 + ... + φ pyt−p + ut<br />
ytyt−k = φ 1yt−1yt−k + ... + φ pyt−pyt−k + utyt−k<br />
E (ytyt−k) = φ 1 E (yt−1yt−k) + ... + φ p E (yt−pyt−k) + E (utyt−k)<br />
γ k = φ 1γ k−1 + ... + φ pγ k−p<br />
γ k<br />
γ 0<br />
= φ 1<br />
γ k−1<br />
γ 0<br />
+ ... + φ p<br />
γ k−p<br />
γ 0<br />
ρ k = φ 1ρ k−1 + ... + φ pρ k−p<br />
k ≥ 1.<br />
Pode-se provar que a solução geral da equação às diferenças finitas (determinística) 4 é da<br />
forma<br />
ρ k = c1r k 1 + ... + cpr k p,<br />
onde ci constante arbitrárias e ri = 1/zi e zi são raízes do polinómio φ p (L). Pode-se provar<br />
que sob a condição de ESO os coeficientes de autocorrelação ρ k não se anulam mas tendem<br />
para zero quando k → 0.<br />
Estacionaridade<br />
Proposição 6.2.2 O processo AR(p) é estacionário sse as raízes da equação φ p (L) = 0 são<br />
em módulo superiores a um (ou fora do circulo unitário no plano complexo) (apêndice 6.E).<br />
No caso AR(1) a raiz de φ (L) = 0 é fácil de obter:<br />
(1 − φL) = 0 ⇒ L = 1<br />
φ<br />
Devemos exigir <br />
1 <br />
<br />
φ<br />
> 1 ⇒ |φ| < 1.<br />
No caso AR(2) pode-se provar que a condição de ESO é:<br />
φ 1 + φ 2 < 1, φ 2 − φ 1 < 1, −1 < φ 2 < 1<br />
4 Quase diríamos que esta equação é um processo AR(p) não fosse o facto de não possuir termo aleatório.<br />
De forma rigorosa, podemos dizer que é uma equação (linear) às diferenças finitas, de ordem p (de coeficientes<br />
constantes). Esta terminologia é usada na área dos sistemas dinâmicos em tempo discreto.<br />
133
1<br />
0.5<br />
0<br />
0.5<br />
1<br />
1<br />
0.5<br />
0<br />
0.5<br />
1<br />
1<br />
0.5<br />
0<br />
0.5<br />
1<br />
1<br />
0.5<br />
0<br />
0.5<br />
1<br />
FAC<br />
1 3 5 7 9 11 13 15 17 19<br />
FAC<br />
1 3 5 7 9 11 13 15 17 19<br />
FAC<br />
1 3 5 7 9 11 13 15 17 19<br />
FAC<br />
1 3 5 7 9 11 13 15 17 19<br />
1<br />
0.5<br />
0<br />
0.5<br />
1<br />
1<br />
0.5<br />
0<br />
0.5<br />
1<br />
1<br />
0.5<br />
0<br />
0.5<br />
1<br />
1<br />
0.5<br />
0<br />
0.5<br />
1<br />
FACP<br />
1 3 5 7 9 11 13 15 17 19<br />
FACP<br />
1 3 5 7 9 11 13 15 17 19<br />
FACP<br />
1 3 5 7 9 11 13 15 17 19<br />
FACP<br />
1 3 5 7 9 11 13 15 17 19<br />
Figura 6-2: FAC e FACP teóricas associadas aos seguintes cenários (de cima para baixo): (a)<br />
φ 1 > 0, φ 2 > 0; (b) φ 1 < 0, φ 2 > 0; (c) φ 1 > 0, φ 2 < 0; (d) φ 1 < 0, φ 2 < 0.<br />
(estas condições baseiam-se evidentemente na proposição anterior).<br />
No caso AR(p) com p > 2 não temos outra alternativa senão calcular (por exemplo,<br />
através do programa Mathematica) as raízes de φ p (L) = 0.<br />
Suponha-se que y é ESO. Nestas condições, pode-se provar:<br />
ρ k = φ 1ρ k−1 + φ 2ρ k−2 + ... + φ pρ k−p, k ≥ 1<br />
ρk não se anulam mas ρk → 0 quando k → ∞.<br />
⎧<br />
⎨ = 0 se k = 1, 2, ..., p<br />
φkk =<br />
⎩ 0 se k = p + 1, p + 2, ...<br />
É óbvio que φ kk = 0 se k > p. Por exemplo φ p+1,p+1 = 0 porque<br />
yt = φ 1yt−1 + ... + φ pyt−p + 0yt−p−1 + ut<br />
134
6.2.3 Processos ARMA<br />
Por que não combinar os dois processos AR e MA? É isso que se propõe com o modelo<br />
ARMA. No caso geral ARMA(p,q) (i.e. AR(p) + MA(q)) o modelo representa-se em qual-<br />
quer uma das seguintes formas alternativas:<br />
yt = φ 1yt−1 + ... + φ pyt−p + θ1ut−1 + ... + θqut−q + ut<br />
yt − φ 1yt−1 − ... − φ pyt−p = ut + θ1ut−1 + ... + θqut−q<br />
1 − φ1L − ... − φ pL p yt = (1 + θ1L + ... + θqL q ) ut<br />
φ p (L) yt = θq (L) ut<br />
yt = θq (L)<br />
φ p (L) ut.<br />
Ainda outra alternativa baseia-se no desenvolvimento em série de potências de L da função<br />
racional θq (L) /φ p (L). Obtém-se<br />
yt = ut + ψ 1ut−1 + ψ 2ut−2 + ...<br />
Esta expressão não corresponde à decomposição de Wold (porque estes ψ ′ s estão sujeitos<br />
a restrições), mas constitui a melhor aproximação linear à decomposição, baseada numa<br />
estrutura linear (a qualidade da aproximação aumenta quando p e q aumentam).<br />
A estacionaridade depende da estrutura AR. Concretamente, o processo ARMA(p,q) é<br />
estacionário sse as raízes da equação φ p (L) = 0 estão todas fora do círculo unitário no plano<br />
complexo. A invertibilidade depende da estrutura MA. Concretamente, o processo ARMA é<br />
invertível sse as raízes de θq (L) estão todas fora do circulo unitário no plano complexo. Na<br />
tabela 6.1 apresenta-se um quadro resumo das principais propriedades do modelos AR, MA<br />
e ARMA.<br />
Nas figuras 6-3 e 6-4 encontram-se as FAC e FACP de vários processos lineares simula-<br />
dos (n = 50000). Procure identificá-los 5 .<br />
A tabela 6.2 identifica os processos simulados nas figuras 6-3 e 6-4.<br />
5 Observe que as FAC e FACP são obtidas a partir dos processos simulados e, portanto, não correspondem<br />
às funções teóricas; por esta razão, embora alguns coeficientes populacionais sejam zero, os respectivos coeficientes<br />
estimados podem não ser iguais a zero (de facto, é uma impossibilidade virem exactamente iguais a<br />
zero). Assuma que os coeficientes estimados muito baixos não são estatisticamente significativos.<br />
135
AR(p) MA(q) ARMA(p,q)<br />
Modelo φp (L) yt = ut θ −1<br />
p (L) yt = ut θ −1<br />
em yt Série finita em yt Série infinita em yt<br />
p (L) φp (L) yt = ut<br />
Série infinita em yt<br />
Modelo yt = φ −1<br />
p (L) ut yt = θp (L) ut yt = φ −1<br />
em ut Série infinita em ut Série finita em ut<br />
p (L) θp (L) ut<br />
Série infinita em ut<br />
Estac. Raízes φp (L) = 0<br />
fora do círc. unitár.<br />
Sempre<br />
estacionários<br />
Raízes φp (L) = 0<br />
fora do círc. unitár.<br />
Invertib. Sempre Raízes θp (L) = 0 Raízes θp (L) = 0<br />
invertíveis fora do círc. unitár. fora do círc. unitár.<br />
FAC Decaimento expo- Decaimento brusco Decaimento exponencial<br />
e/ou sinu- para zero a partir de nencial e/ou sinusoidal<br />
para zero k = q + 1 soidal para zero<br />
FACP Decaimento brusco Decaimento expo- Decaimento expopara<br />
zero a partir de nencial e/ou sinu- nencial e/ou sinuk<br />
= p + 1 soidal para zero soidal para zero<br />
Fonte: Murteira et al. (1993), pág. 69<br />
Tabela 6.1: Resumo das principais propriedades dos modelos AR, MA e ARMA<br />
MA AR<br />
θ1 θ2 θ3 θ4 φ 1 φ 2 φ 3 φ 4 Modelo<br />
Figura 6-3<br />
1 −.4 −.4 −.1 0 0 0 0 0 MA(3)<br />
2 0 0 0 0 .4 .2 0 0 AR(2)<br />
3 −.4 0 −.4 0 0 0 0 0 MA(3)<br />
4 0 0 0 0 .4 .2 −.2 0 AR(3)<br />
5 0 0 0 0 1 0 0 0 AR(1)<br />
6 1 0 0 0 0 0 0 0 MA(1)<br />
7 0 0 .5 0 0 0 0 0 MA(3)<br />
Figura 6-4<br />
1 0 0 0 0 0 0 0 .9 AR(4)<br />
2 .8 0 0 0 .8 0 0 0 ARMA(1,1)<br />
3 0 0 0 .8 0 0 0 .8 ARMA(4,4)<br />
4 0 0 0 0 .4 .2 .1 .1 AR(4)<br />
5 0 0 0 0 0 0 0 0 RBranco<br />
6 −.5 0 0 0 .5 0 0 0 RBranco<br />
Tabela 6.2: Soluções das questões colocadas nas duas figuras anteriores<br />
136
0.1<br />
0<br />
0.1<br />
0.2<br />
0.3<br />
0.6<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
0.2<br />
0.1<br />
0<br />
0.1<br />
0.2<br />
0.3<br />
0.4<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
0.1<br />
0.9998<br />
0.9996<br />
0.9994<br />
0.9992<br />
0.999<br />
0.9988<br />
0.6<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
0.1<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
0.1<br />
1<br />
FAC<br />
1 2 3 4 5 6 7 8 9 10<br />
FAC<br />
1 2 3 4 5 6 7 8 9 10<br />
FAC<br />
1 2 3 4 5 6 7 8 9 10<br />
FAC<br />
1 2 3 4 5 6 7 8 9 10<br />
FAC<br />
1 2 3 4 5 6 7 8 9 10<br />
FAC<br />
1 2 3 4 5 6 7 8 9 10<br />
FAC<br />
1 2 3 4 5 6 7 8 9 10<br />
0.1<br />
0<br />
0.1<br />
0.2<br />
0.3<br />
0.4<br />
0.6<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
0.1<br />
0.1<br />
0<br />
0.1<br />
0.2<br />
0.3<br />
0.4<br />
0.6<br />
0.4<br />
0.2<br />
0<br />
0.2<br />
0.4<br />
1.2<br />
1<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0<br />
0.2<br />
0.6<br />
0.4<br />
0.2<br />
0<br />
0.2<br />
0.4<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
0.1<br />
0.2<br />
0.3<br />
FACP<br />
1 2 3 4 5 6 7 8 9 10<br />
FACP<br />
1 2 3 4 5 6 7 8 9 10<br />
FACP<br />
1 2 3 4 5 6 7 8 9 10<br />
FACP<br />
1 2 3 4 5 6 7 8 9 10<br />
FACP<br />
1 2 3 4 5 6 7 8 9 10<br />
FACP<br />
1 2 3 4 5 6 7 8 9 10<br />
FACP<br />
1 2 3 4 5 6 7 8 9 10<br />
Figura 6-3: FAC e FACP de 7 processos simulados a partir de n = 50000 observações. Qual<br />
é a ordem p e q dos processos? (A resposta a esta questão encontra-se na tabela 6.2)<br />
137
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0<br />
0.2<br />
1<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0<br />
1<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0<br />
1<br />
0.7<br />
0.6<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
0.4<br />
0.2<br />
0<br />
0.2<br />
0.4<br />
0.4<br />
0.2<br />
0<br />
0.2<br />
0.4<br />
FAC<br />
1 2 3 4 5 6 7 8 9 10<br />
FAC<br />
1 2 3 4 5 6 7 8 9 10<br />
FAC<br />
1 2 3 4 5 6 7 8 9 10<br />
FAC<br />
1 2 3 4 5 6 7 8 9 10<br />
FAC<br />
1 2 3 4 5 6 7 8 9 10<br />
FAC<br />
1 2 3 4 5 6 7 8 9 10<br />
1<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0<br />
0.2<br />
1<br />
0.5<br />
0<br />
0.5<br />
1<br />
1<br />
0.5<br />
0<br />
0.5<br />
1<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0<br />
0.2<br />
0.4<br />
0.2<br />
0<br />
0.2<br />
0.4<br />
0.4<br />
0.2<br />
0<br />
0.2<br />
0.4<br />
FACP<br />
1 2 3 4 5 6 7 8 9 10<br />
FACP<br />
1 2 3 4 5 6 7 8 9 10<br />
FACP<br />
1 2 3 4 5 6 7 8 9 10<br />
FACP<br />
1 2 3 4 5 6 7 8 9 10<br />
FACP<br />
1 2 3 4 5 6 7 8 9 10<br />
FACP<br />
1 2 3 4 5 6 7 8 9 10<br />
Figura 6-4: Continuação da figura anterior<br />
138
6.3 Processos Lineares Não Estacionários<br />
No âmbito dos processos lineares é usual identificar dois tipos de não estacionaridade:<br />
• não estacionaridade na média: E (yt) não é constante ou E (yt) = ∞;<br />
• não estacionaridade na variância: Var (yt) não é constante ou Var (yt) = ∞.<br />
6.3.1 Não Estacionaridade na Média<br />
Seja yt um processo não estacionário linear. A ‘estacionarização da média’ faz-se usualmente<br />
a partir do operador diferença<br />
onde d é um inteiro positivo.<br />
Este procedimento sugere que:<br />
∆ d yt = ∆∆...∆yt<br />
<br />
d vezes<br />
• se o logaritmo do PIB não é estacionário (na média) então a taxa de variação do PIB<br />
(d = 1) poderá ser estacionária;<br />
• se a taxa de desemprego não é estacionária então a variação da taxa de desemprego<br />
(d = 1) poderá ser estacionária;<br />
• se o logaritmo do IPC (dados anuais, para simplificar) não é estacionário e se a inflação<br />
não é estacionária (d = 1) então a variação da inflação (d = 2) poderá ser estacionária.<br />
Normalmente uma diferenciação (d = 1) é suficiente e raramente se considera d = 2 (a<br />
não ser para certos índices de preços).<br />
Definição 6.3.1 Um processo yt diz-se um ARIMA(p,d,q) se<br />
onde p, d e q são inteiros positivos.<br />
φ p (L) ∆ d yt = c + θq (L) ut<br />
Assim, se yt ∼ ARIMA(p,d,q), então yt é um processo não estacionário que depois de<br />
diferenciado d vezes é um processo ARMA(p,q), isto é,<br />
∆ d yt ∼ ARMA (p, q) .<br />
139
A letra I em “ARIMA” designa integrated. Diz-se que um processo y é integrado de ordem<br />
d se o polinómio autoregressivo de y possui d raízes (múltiplas) iguais a um. Por exemplo, o<br />
polinómio autoregressivo associado ao processo passeio aleatório, yt = yt−1 + ut, φ (L) =<br />
1 − L, possui uma raiz unitária, pois a solução de 1 − L = 0 é obviamente L = 1.<br />
Exemplo 6.3.1 Considere-se<br />
yt = (1 + φ) yt−1 − φyt−2 + ut<br />
φ 1 = 1 + φ, φ 2 = − φ, 0 < φ < 1<br />
Não se tem um processo ESO pois uma das condições seguintes não é satisfeita<br />
Considere-se ∆yt = yt − yt−1. Tem-se<br />
φ 1 + φ 2 < 1, φ 2 − φ 1 < 1, −1 < φ 2 < 1<br />
yt = (1 + φ) yt−1 − φyt−2 + ut<br />
yt − yt−1 = φyt−1 − φyt−2 + ut<br />
∆yt = φ∆yt−1 + ut.<br />
Logo ∆yt é um processo estacionário (AR(1) com |φ| < 1). De forma equivalente, yt é um<br />
ARIMA(1,1,0).<br />
Este exemplo indica o caminho a seguir quando y é não estacionário. Em lugar de se anal-<br />
isar y, analisa-se ∆yt. Esta transformação envolve a perda de uma observação na amostra,<br />
mas vários resultados para y (como por exemplo a previsão) podem ser facilmente recuper-<br />
ados a partir da especificação e estimação do modelo para ∆yt.<br />
Exemplo 6.3.2 No caso,<br />
yt = 2yt−1 − yt−2 + ut, ut RB<br />
y não é estacionário. Porquê? Uma diferenciação produz:<br />
∆yt = ∆yt−1 + ut.<br />
140
Logo ∆yt é um processo AR(1) com φ = 1. Assim d = 1 não é suficiente para estacionarizar<br />
o processo. Uma nova diferenciação produz:<br />
∆yt − ∆yt−1 = ut<br />
∆ 2 yt = ut.<br />
Assim ∆ 2 yt é um processo estacionário (neste caso é um RB). (Recorde-se: ∆ 2 yt = yt −<br />
2yt−1 + yt−2 ). De forma equivalente, yt é um ARIMA(0,2,0).<br />
Exemplo 6.3.3 O processo ARIMA(1,1,1) escreve-se nas seguintes formas equivalentes:<br />
(1 − φL) (1 − L) yt = c + (1 + θL) ut<br />
<br />
∆<br />
(1 − φL) (yt − yt−1) = c + ut + θut−1<br />
yt − yt−1 − φyt−1 + φyt−2 = c + ut + θut−1<br />
yt = yt−1 + φyt−1 − φyt−2 + c + ut + θut−1.<br />
Processos com tendência determinística<br />
Considere-se, por exemplo,<br />
yt = α + βt + ut, ut ruído branco.<br />
Este processo não é estacionário pois E (yt) = α + βt depende de t. A não estacionari-<br />
dade nestes casos não é tão ‘grave’ como no caso anterior (por exemplo, a variância de y é<br />
constante). A literatura por vezes designa estes processos como estacionários em tendência,<br />
pois removendo a tendência o processo resulta estacionário. O operador diferença também<br />
estacionariza o processo. Com efeito,<br />
∆yt = α + βt + ut − (α + β (t − 1) + ut−1) = β + ut − ut−1.<br />
Esta transformação envolve um custo: cria-se artificialmente um erro MA(1) não invertível.<br />
A solução preferível foi já sugerida no parágrafo anterior: basta remover a tendência e, para<br />
o efeito, estima-se o modelo pelo método dos mínimos quadrados. Claro que a estimação<br />
não é feita no quadro clássico (porque falha a hipótese de estacionaridade) mas, neste caso<br />
141
20<br />
10<br />
0<br />
10<br />
20<br />
30<br />
40<br />
500 1000 1500 2000<br />
Figura 6-5: Passeio Aleatório<br />
muito concreto, pode-se provar que o estimador dos mínimos quadrados é consistente 6 .<br />
Na prática, como detectamos a existência de um processo não estacionário na média? 7<br />
• O gráfico da série pode sugerir a presença de um processo não estacionário. Na<br />
figura 6-5 traça-se uma trajectória de um processo passeio aleatório. Observe-se que o<br />
processo parece “vaguear” sem rumo no intervalo (−40, 20) . Não é nítido a existência<br />
de um efeito de reversão para qualquer medida de tendência central. Além disso, a<br />
ocorrência de choques mais fortes parece fazer deslocar o processo para outro nível<br />
(“os choques são persistentes”).<br />
• Como se sabe a FAC do processo yt = yt−1 + ut é<br />
ρ t,k = 1 − k<br />
t<br />
1.<br />
Assim, se FAC (estimada) de um certo processo, apresentar, nos primeiros lags, val-<br />
6Na verdade é mais do que isso: o estimador é superconsistente (converge para o verdadeiro parâmetro a<br />
uma taxa mais alta do que o habitual). Por exemplo, o estimador OLS para β verifica<br />
<br />
p<br />
n ˆβ 3/2<br />
− β −→ 0, n <br />
βˆ d<br />
− β −→ Normal.<br />
Enquanto a variância do estimador OLS habitual é proporcional a 1/n a do estimador superconsistente acima<br />
referido, é proporcional a 1/n 3 .<br />
7 Por que não estimar logo o modelo e verificar depois se as raízes do polinómio φ (L) = 0 satisfazem a<br />
proposição 6.2.2? Este procedimento não é aconselhável. Como as raízes são estimativas, devemos ensaiar a<br />
hipótese subjacente à proposição 6.2.2 (as raízes devem ser em modulo maiores do que um para o processo<br />
ser estacionário). Todavia, sob H0 o processo é não estacionário e as distribuições assimptóticas habituais não<br />
são válidas. Felizmente, existem testes adequados como, por exemplo, o teste Dickey-Fuller. Para concluir:<br />
é preferível, na fase da estimação, termos um processo já estacionário (ou, por outras palavras, a análise da<br />
estacionaridade precede a estimação do modelo).<br />
142
Figura 6-6: FAC (e FACP) estimada do processo passeio aleatório representado na figura<br />
6-5.<br />
ores muito altos (próximos de um), poderemos suspeitar que o processo não é esta-<br />
cionário. A figura 6-20 ilustra a ideia: apresenta-se a FAC estimada associada ao<br />
passeio aleatório representado na figura 6-5<br />
• Faz-se um teste de raiz unitária (por exemplo o teste ADF).<br />
Teste ADF (Augmented Dickey-Fuller)<br />
Faz-se um breve resumo dos principais procedimentos.<br />
(1) Teste DF for random walk without drift<br />
Considere-se yt = yt−1 + ut onde ut é um RB. Já se sabe que este processo (passeio<br />
aleatório) não é estacionário. Assim faria sentido testar H0: φ = 1 vs. H1: |φ| < 1 na<br />
especificação yt = φyt−1 + ut (se existisse evidência a favor de H0 concluiríamos, ao nível<br />
de significância fixado, que o processo não é estacionário). Como yt = φyt−1 + ut se pode<br />
escrever na forma<br />
∆yt = γyt−1 + ut<br />
com γ = φ − 1, ensaiar H0: φ = 1 é equivalente a ensaiar H0: γ = 0. Observe-se ainda<br />
que, sob H0, o processo y possui uma raiz unitária. Isso é óbvio, tendo em conta que a raiz<br />
do polinómio AR, φ (L) = 1 − L, é igual a 1.<br />
143
Parece óbvio a construção do teste estatístico: calcula-se o rácio-t ˆγ/ˆσγ e depois consulta-<br />
se a tabela da t-Student. Este procedimento é incorrecto. Com efeito, sob H0, y não é<br />
estacionário pelo que o rácio-t ˆγ/ˆσγ não tem distribuição t-Student nem mesmo distribuição<br />
assimptoticamente normal. A hipótese de estacionaridade é aqui crucial. Se o processo não<br />
é estacionário as distribuições assimptóticas habituais não são válidas 8 .<br />
Como devemos proceder? Temos de consultar os valores críticos nas tabelas apropriadas<br />
(são construídas a partir da distribuição da estatística de teste sob H0 que, por ser descon-<br />
hecida para n finito, tem de ser obtida através de simulações de Monte Carlo 9 ). A maioria das<br />
tabelas está preparada para fornecer o valor crítico da distribuição de ˆγ/ˆσγ (daí trabalhar-se<br />
sobretudo com a especificação ∆yt = γyt−1 + ut e não com yt = φyt−1 + ut). A maioria<br />
dos programas de estatística calcula o valor-p aproximado associado à hipótese nula (y não<br />
é estacionário). Assim, se o valor-p for superior ao nível de significância previamente estab-<br />
elecido (normalmente 0.05) não se rejeita H0 e conclui-se que o processo é não estacionário.<br />
Existem outras variantes:<br />
(2) Teste DF for random walk with drift H0: γ = 0<br />
∆yt = α + γyt−1 + ut.<br />
(3) Teste DF for random walk with drift and trend H0: γ = 0<br />
∆yt = α + βt + γyt−1 + ut.<br />
Na prática, só muito raramente ut é um RB. Quando ut exibe autocorrelação os testes DF<br />
não são válidos. Nestes casos deve-se ‘branquear’ ut, adicionando à regressão, a componente<br />
α1∆yt−1 +...+αp∆yt−p, com valor p adequado de forma que ut se apresente como um ruído<br />
branco. Assim,<br />
(1) Teste ADF for random walk without drift H0: γ = 0<br />
∆yt = γyt−1 + α1∆yt−1 + ... + αp∆yt−p + ut.<br />
8 De facto, pode-se provar que, sob H0, nˆγ tem distribuição assimptótica igual à distribuição da variável<br />
<br />
(1/2)<br />
W (1) 2 <br />
− 1<br />
,<br />
1<br />
0 W (u)2 du<br />
onde W é um processo de Wiener padrão ou movimento Browniano.<br />
9 Para n infinito, a distribuição é conhecida. Ver o pé-de-página anterior.<br />
144
(2) Teste ADF for random walk with drift H0: γ = 0<br />
∆yt = α + γyt−1 + α1∆yt−1 + ... + αp∆yt−p + ut.<br />
(3) Teste ADF for random walk with drift and trend H0: γ = 0<br />
∆yt = α + βt + γyt−1 + α1∆yt−1 + ... + αp∆yt−p + ut.<br />
Sobre a escolha do parâmetro p veja o exemplo 6.3.5.<br />
Exemplo 6.3.4 Seja<br />
∆yt = 0.1 − 0.01<br />
(0.004) yt−1, n = 50<br />
H0: γ = 0 vs. H1 : γ < 0. Uma tabela apropriada deverá fornecer como valor crítico ao<br />
n.s. de 5% aproximadamente o valor -2.92. Como ˆγ/ˆσγ = −0.01/0.004 = −2.5 > vc =<br />
−2.92 não se rejeita H0 ao n.s. de 5%.<br />
Exemplo 6.3.5 Seja lnp = log P onde P é o índice PSI20. Neste exemplo recorre-se ao<br />
programa EVIEWS (versão 5) para analisar a estacionaridade de lnp. Os resultados estão<br />
apresentados na figura 6-7. Tendo em conta a regressão efectuada<br />
∆ log pt = α + γ log pt−1 + α1∆ log pt−1 + ut, (p = 1)<br />
pode-se concluir que se escolheu a opção “(2) Teste ADF for random walk with drift H0:<br />
γ = 0”<br />
∆yt = α + γyt−1 + α1∆yt−1 + ut, (p = 1)<br />
(note-se que a regressão envolve a constante C, equivalente ao nosso α). Deixámos o pro-<br />
grama escolher a ordem p. Esta ordem é escolhida automaticamente e baseia-se no valor<br />
do critério de informação SIC seguindo o princípio ‘general-to-specific’. O programa es-<br />
colheu p = 1. Interessa o valor-p associado à hipótese nula que é 0.3078. Sendo este valor<br />
superior a 0.05, não se pode rejeitar a hipótese γ = 0, ao nível de significância de 5%.<br />
Existe, portanto, forte evidência empírica a favor da hipótese nula (não estacionaridade). É<br />
aconselhável diferenciar-se o processo. A diferenciação conduz ao processo {rt} , onde<br />
rt = log Pt − log Pt−1.<br />
145
Null Hypothesis: LNP has a unit root<br />
Exogenous: Constant<br />
Lag Length: 1 (Automatic based on SIC, MAXLAG=27)<br />
tStatistic Prob.*<br />
Augmented DickeyFuller test statistic 1.953504 0.3078<br />
Test critical values: 1% level 3.432388<br />
5% level 2.862326<br />
10% level 2.567233<br />
*MacKinnon (1996) onesided pvalues.<br />
Augmented DickeyFuller Test Equation<br />
Dependent Variable: D(LNP)<br />
Method: Least Squares<br />
Sample (adjusted): 3 2936<br />
Included observations: 2934 after adjustments<br />
Variable Coefficient Std. Error tStatistic Prob.<br />
LNP(1) 0.000919 0.000470 1.953504 0.0509<br />
D(LNP(1)) 0.156283 0.018227 8.574451 0.0000<br />
C 0.008356 0.004143 2.016704 0.0438<br />
Rsquared 0.025826 Mean dependent var 0.000320<br />
Adjusted Rsquared 0.025161 S.D. dependent var 0.010694<br />
S.E. of regression 0.010559 Akaike info criterion 6.262717<br />
Sum squared resid 0.326764 Schwarz criterion 6.256598<br />
Log likelihood 9190.406 Fstatistic 38.85062<br />
DurbinWatson stat 1.991441 Prob(Fstatistic) 0.000000<br />
Figura 6-7: Análise da estacionaridade do logaritmo do PSI20<br />
6.3.2 Não Estacionaridade na Variância<br />
Se yt é um processo passeio aleatório então Var (yt) é proporcional a t (veja-se o apêndice<br />
6.D). A diferenciação de yt produz um processo estacionário com variância constante, e o<br />
problema da não estacionaridade fica resolvido com a referida transformação. A diferenci-<br />
ação normalmente resolve o problema da não estacionaridade na média e, em certos casos,<br />
também da não estacionaridade da variância. Supomos agora que a diferenciação apenas<br />
resolve a não estacionaridade da média; supomos, assim, que a variância, mesmo depois da<br />
diferenciação, continua a ser uma função de t. Admita-se:<br />
• yt é não estacionário na média, i.e., η t = E (yt) varia ao longo do tempo;<br />
• Var (yt) = h (η t) (a variância é uma função da média).<br />
146
Var (yt) ∝ ηt Var (yt) ∝ η2 t<br />
Var (yt) ∝ η4 t<br />
h (x) T (x)<br />
<br />
1 x √xdx = 2 √ x<br />
x2 <br />
1dx<br />
= log x<br />
x<br />
x4 <br />
1<br />
x2 dx = − 1<br />
x<br />
Tabela 6.3: Algumas transformações habituais<br />
O objectivo consiste em encontrar uma transformação sobre yt, T (yt) tal que Var (T (yt))<br />
seja constante. Pode-se provar que a transformação apropriada 10 é<br />
<br />
T (x) =<br />
Alguns exemplos são fornecidos na tabela 6.3<br />
1<br />
h (x) dx.<br />
Para concretizar, suponha-se que Var (yt) é proporcional ao quadrado da média (e escreve-<br />
se neste caso, Var (yt) ∝ η 2 t ). A transformação que permite tornar (aproximadamente) con-<br />
stante a variância é T (x) = log x e, assim, os dados devem ser logaritmizados. Como a<br />
transformação só está definida, em geral, para certos valores de x (por exemplo, no caso<br />
log x tem de se assumir x > 0) é preciso primeiro aplicar T (x) e só depois se verifica<br />
se é necessário diferenciar (já que uma prévia diferenciação impossibilitaria a aplicação da<br />
transformação (veja-se o exemplo a seguir).<br />
Na figura 6-8 representa-se a série de preços do Dow Jones de 1969 a 2004. A variância<br />
(assim como a média) não é constante.<br />
Se se começasse por diferenciar P, a variância continuaria a ser uma função de t. Veja-<br />
se, com efeito, o gráfico de {∆Pt} (∆Pt = Pt − Pt−1) representado na figura 6-9. A figura<br />
mostra claramente que a variância aumenta com t. Assim, antes de se diferenciar o processo,<br />
10 Pela fórmula de Taylor, tem-se T (yt) ≈ T (η t) + T ′ (η t) (yt − η t). Assim,<br />
T (yt) − T (η t) ≈ T ′ (η t) (yt − η t)<br />
(T (yt) − T (η t)) 2 ≈ (T ′ (η t)) 2 (yt − η t) 2<br />
Var (T (yt)) ≈ (T ′ (η t)) 2 Var (yt) = (T ′ (η t)) 2 h (η t)<br />
Imponha-se Var (T (yt)) = c, i.e, (T ′ (η t)) 2 h (η t) = c ou<br />
Esta equação diferencial tem solução imediata:<br />
<br />
T (x) =<br />
T ′ (η t) =<br />
c<br />
h (ηt) .<br />
1<br />
h (x) dx (c = 1).<br />
147
14005<br />
12005<br />
10005<br />
8005<br />
6005<br />
4005<br />
2005<br />
P (preços)<br />
5<br />
Sep69 Sep74 Sep79 Sep84 Sep89 Sep94 Sep99 Sep04<br />
Figura 6-8: Série de Preços do Dow Jones (1969-2004)<br />
600<br />
400<br />
200<br />
0<br />
200<br />
400<br />
600<br />
Preços Diferenciados<br />
800<br />
Jan69 May73 Sep77 Jan82 May86 Sep90 Jan95 May99 Sep03<br />
Figura 6-9: Série de preços diferenciados, {∆Pt} , onde ∆Pt = Pt − Pt−1, do Dow Jones<br />
(1969-2004)<br />
148
4000<br />
3500<br />
3000<br />
2500<br />
2000<br />
1500<br />
1000<br />
500<br />
0<br />
Sep69 Aug77 Jul85 Jun93 May01<br />
1.40E+07<br />
1.20E+07<br />
1.00E+07<br />
8.00E+06<br />
6.00E+06<br />
4.00E+06<br />
2.00E+06<br />
0.00E+00<br />
Figura 6-10: Média e Variância estimada ao longo do tempo da séries diária do Dow Jones<br />
(1969 a 2004)<br />
10<br />
9.5<br />
9<br />
8.5<br />
8<br />
7.5<br />
7<br />
6.5<br />
6<br />
5.5<br />
log(P)<br />
5<br />
Sep69 Sep74 Sep79 Sep84 Sep89 Sep94 Sep99 Sep04<br />
media(t)<br />
var(t)<br />
Figura 6-11: Série de log-Preços do Dow Jones (1969-2004)<br />
estacionarize-se primeiro a variância. Na figura 6-10 apresenta-se<br />
E (yt) = 1<br />
t<br />
t<br />
i=1<br />
Pi, Var (yt) = 1<br />
t<br />
t <br />
Pi − E (yt) 2 ao longo do tempo, onde E (yt) e Var (yt) são estimativas para a média e a variância de y no<br />
momento t. A figura sugere que a variância de yt é proporcional ao quadrado da média, i.e.,<br />
Var (yt) ∝ η 2 t . De acordo com a tabela 6.3 deve-se usar a transformação logarítmica para<br />
estacionarizar a variância.<br />
A figura 6-11 sugere que a variância é constante ao longo do tempo, mas não a média.<br />
Faça-se então a diferenciação da variável log Pt:<br />
i=1<br />
rt = log (Pt) − log (Pt−1)<br />
cuja representação gráfica é dada na figura 6-12. É interessante verificar que a série dos<br />
retornos deve ser estudada não só devido às razões invocadas no ponto 2.3 mas também<br />
149
0.15<br />
0.1<br />
0.05<br />
0<br />
0.05<br />
0.1<br />
0.15<br />
0.2<br />
0.25<br />
0.3<br />
Sep69 Sep74 Sep79 Sep84 Sep89 Sep94 Sep99 Sep04<br />
Figura 6-12: Série dos retornos do Dow Jones<br />
Utilização do<br />
modelo<br />
Etapa 1: Identificação<br />
Etapa 2: Estimação<br />
Etapa 3: Avaliação do<br />
diagnóstico<br />
SIM<br />
Escolha de um<br />
modelo<br />
Estimação dos<br />
parâmetros<br />
Adequação do<br />
modelo escolhido<br />
Modelo<br />
satisfatório<br />
Figura 6-13: Metodologia de Box-Jenkins<br />
porque as transformações estacionarizantes discutidas neste ponto conduzem precisamente à<br />
variável rt = log (Pt) − log (Pt−1) .<br />
6.4 Modelação ARMA<br />
O objectivo fundamental da modelação ARMA é o de definir um modelo parcimonioso (em<br />
termos de parâmetros) que exiba boas propriedades estatísticas e descreva bem a série em<br />
estudo. Para alcançarmos esse objectivo podemos seguir a metodologia de Box-Jenkins.<br />
Propõe três etapas: identificação, estimação e avaliação do diagnóstico (veja-se a figura 6-<br />
13).<br />
150<br />
NÃO
Etapa 1: Identificação<br />
• Estacionarização da série;<br />
• Identificação da ordem p e q através da FAC e FACP.<br />
Etapa 2: Estimação<br />
Uma vez seleccionado, na primeira etapa, o modelo ARMA(p,q), é necessário estimar os<br />
parâmetros desconhecidos (pelo método da máxima verosimilhança 11 ).<br />
Etapa 3: Avaliação do Diagnóstico<br />
É necessário analisar os seguintes aspectos:<br />
• significância estatística dos parâmetros;<br />
• invertibilidade e estacionaridade (dispensa-se este último aspecto se y for um processo<br />
estacionário);<br />
• análise da matriz de correlação dos estimadores;<br />
• redundância entre as estimativas;<br />
• branqueamento dos resíduos;<br />
• se existir mais do que um modelo que cumpra as condições anteriores é necessário<br />
seleccionar o melhor (à luz de determinado critério).<br />
Remete-se a questão da análise da matriz de correlação dos estimadores para Murteira et<br />
al. (1993). A significância estatística dos parâmetros é óbvia e a questão da invertibilidade<br />
foi já tratada.<br />
O problema da redundância ocorre quando φ (L) e θ (L) partilham raízes comuns. Por<br />
exemplo, no caso<br />
(1 − 0.8L) yt = (1 − 0.8L) ut<br />
(6.6)<br />
ambos os polinómio possuem a mesma raiz (1/0.8). Observe-se que os polinómios cancelam<br />
um com o outro:<br />
(1 − 0.8L) yt = (1 − 0.8L) ut ⇔ yt = ut<br />
11 Veja-se, no ponto 8.9, a aplicação do método a um modelo mais geral.<br />
151
e, portanto, o processo y definido por (6.6) é, de facto, um ruído branco e não um ARMA(1,1),<br />
como se poderia pensar. Na presença de redundância pode provar-se que a matriz de infor-<br />
mação de Fisher é singular. Em aplicações, é uma impossibilidade as raízes dos polinómios<br />
AR e MA estimados (respectivamente, ˆ φ (L) e ˆ θ (L)) virem exactamente iguais. De qualquer<br />
forma, se existirem raízes do polinómio AR aproximadamente iguais às do polinómio MA,<br />
surge um problema de quase redundância, e a matriz de Fisher embora invertível, apresenta<br />
um determinante próximo de zero. Como consequência, os erros padrão das estimativas<br />
vêm muitos baixos, as estatísticas-t muito altas e o determinante da matriz de variâncias-<br />
covariâncias (estimada) aproximadamente de zero. É fácil cair-se em problemas de (quase)<br />
redundância que, naturalmente, devem ser evitados.<br />
Veja-se agora a questão do “branqueamento dos resíduos”. Considere-se o ARMA(1,1)<br />
yt = φyt−1 + θ1ut−1 + ut.<br />
Suponha-se que se estima (por engano) o AR(1)<br />
yt = φyt−1 + η t<br />
onde η t representa o erro da equação anterior. Como detectar o erro de especificação? Como<br />
η t = θ1ut−1 + ut é natural esperar que os resíduos ˆη t venham autocorrelacionados.<br />
É muito importante que os resíduos venham branqueados, i.e. não exibam autocorre-<br />
lações; caso contrário, parte da média condicional não foi modelada.<br />
Apresentam-se de seguida, sem comentários, os ensaios habituais os testes de significân-<br />
cia dos coeficientes de autocorrelação dos resíduos:<br />
Teste Kendal e Stuart H0: ρ k (û) = 0<br />
√ n (ˆρk (û) + 1/n)<br />
<br />
d<br />
−→ N (0, 1) , ˆρ k (û) ≈ N − 1 1<br />
,<br />
n<br />
Rejeita-se H0 ao n.s. de (aprox.) 5% se |ˆρ k (û)| > 2/ √ n (supondo 1/n ≈ 0)<br />
Teste Ljung-Box H0: ρ 1 (û) = ... = ρ m (û) = 0<br />
Q = n (n + 2)<br />
m<br />
k=1<br />
1<br />
n − k ˆρ2<br />
d<br />
k (û) −→ χ 2 (m−p−q).<br />
152<br />
√ n<br />
<br />
.
Teste Jenkis e Daniels H0: φ kk (û) = 0<br />
√ n ˆ φkk (û)<br />
d<br />
−→ N (0, 1) ,<br />
ˆ φkk (û) ≈ N<br />
<br />
<br />
Rejeita-se H0 ao n.s. de (aprox.) 5% se ˆ <br />
<br />
φkk (û) > 2/ √ n<br />
<br />
0, 1<br />
<br />
√ .<br />
n<br />
Finalmente, discuta-se a última questão. Pode suceder que dois ou mais modelos cumpram<br />
as condições anteriores. Como seleccionar o ‘melhor’? Se o objectivo da modelação é<br />
a previsão, pode-se avaliar a qualidade preditiva dos vários modelos concorrentes e de-<br />
pois selecciona-se o que apresentar melhores resultados (discutiremos esta questão no ponto<br />
6.6.6). Outra abordagem consiste em escolher o modelo mais preciso (melhor ajustamento)<br />
com o menor n o de parâmetros (parcimónia). Há certamente um trade-off a resolver: maior<br />
precisão implica menor parcimónia.<br />
O coeficiente de determinação ajustado é, provavelmente, o indicador mais utilizado. É<br />
um bom indicador no âmbito do modelo de regressão linear clássico, com distribuição nor-<br />
mal. Mais gerais são os critérios de informação de Akaike e de Schwarz porque se baseiam<br />
no valor da função de verosimilhança.<br />
Seja<br />
log Ln =<br />
n<br />
log f (yt| Ft−1)<br />
t<br />
o valor (máximo) da função log-verosimilhança e k o número de parâmetros estimados. O<br />
critério de informação de Akaike (AIC) é dado pela expressão<br />
O critério de Schwarz é dado pela expressão<br />
log Ln 2k<br />
AIC = −2 +<br />
n n .<br />
log Ln k<br />
SC = −2 + log n.<br />
n n<br />
Tendo em conta que o modelo é tanto mais preciso quanto mais alto for log Ln, e tanto<br />
mais parcimonioso quanto menor for o número de parâmetros, k, conclui-se que deve dar-se<br />
preferência ao modelo que minimiza as estatísticas AIC e SC (note que os modelos só são<br />
comparáveis se as variáveis se encontrarem na mesma unidade - por exemplo, não devemos<br />
comparar um modelo em y e outro em log y).<br />
Em certos casos, um modelo pode minimizar apenas um dos critérios (por exemplo, um<br />
153
modelo A minimiza o AIC e o modelo B minimiza o SC). Como proceder nestes casos?<br />
Vários estudos têm revelado o seguinte:<br />
• o critério SC, em grandes amostras tende a escolher o modelo correcto; em peque-<br />
nas/médias amostras pode seleccionar um modelo muito afastado do modelo correcto;<br />
• o critério AIC, mesmo em grandes amostras tende a seleccionar o modelo errado,<br />
embora não seleccione modelos muito afastados do correcto.<br />
Como consequência, para grandes amostras o SC pode ser preferível.<br />
Naturalmente, estes critérios podem clarificar a identificação da ordem p e q do modelo<br />
ARMA. Por exemplo, suponha-se que os modelos ARMA(1,1) e AR(3) são bons à luz de<br />
vários critérios. Os critérios de informação, podem contudo sugerir o ARMA(1,1) e, desta<br />
forma, p = 1, q = 1.<br />
6.5 Variáveis Impulse-Dummy em Modelos de Regressão:<br />
Cuidados a Observar<br />
As variáveis dummy ou variáveis artificiais são, como temos visto, bastante úteis pois per-<br />
mitem estimar o impacto de certas variáveis qualitativas ou de eventos sobre a variável de-<br />
pendente. No entanto, há cuidados a ter no uso destas variáveis.<br />
Num modelo de previsão o uso de variáveis artificiais (VA) estocásticas associados a<br />
eventos que podem ocorrer no futuro deve ser evitado se as probabilidades condicionais da<br />
VA forem desconhecidas. Com efeito, que sentido faz especificar yt = α + γdt + ut (d é<br />
uma VA) se depois, no período de previsão, o comportamento probabilístico da variável d é<br />
completamente desconhecido?<br />
Um caso especialmente delicado ocorre com as chamadas impulse-dummies no âmbito<br />
da inferência estatística 12 .<br />
12 Algumas das conclusões que seguem foram-me transmitidas pelo Prof. João Santos Silva em comunicação<br />
privada. Veja-se também Hendry e Santos (2005).<br />
154
6.5.1 Inconsistência do Estimador<br />
Impulse-dummies são VAs que assumem o valor 1 apenas uma vez na amostra. Para ilustrar<br />
a situação considere-se o modelo<br />
onde ut<br />
Seja<br />
yt = α + γdt + ut, t = 1, 2, ..., n<br />
i.i.d.<br />
∼ N (0, σ 2 ) e dt é uma impulse-dummy<br />
dt =<br />
⎧<br />
⎨<br />
⎩<br />
1 t = t∗<br />
0 t = t∗.<br />
⎡ ⎤<br />
1<br />
⎢ 1<br />
⎢ .<br />
⎢ 1<br />
⎢<br />
X = ⎢ 1<br />
⎢ 1<br />
⎢ .<br />
⎢ 1<br />
⎣<br />
0<br />
⎥<br />
0 ⎥<br />
. ⎥<br />
0 ⎥<br />
1 ⎥ ,<br />
⎥<br />
0 ⎥<br />
. ⎥<br />
0 ⎥<br />
⎦<br />
X<br />
1 0<br />
′ ⎡<br />
n<br />
X = ⎣<br />
1<br />
⎤<br />
1<br />
⎦ ,<br />
1<br />
X ′ ⎡<br />
y = ⎣<br />
É fácil observar que o estimador OLS é<br />
Tem-se<br />
<br />
E ˆβ<br />
<br />
Var ˆβ<br />
ˆβ =<br />
=<br />
⎡<br />
⎣ ˆα<br />
⎤ ⎡ ⎤<br />
n<br />
⎦ = ⎣<br />
1<br />
⎦<br />
ˆγ<br />
⎡<br />
1 1<br />
⎣<br />
−1<br />
n−1<br />
n<br />
t=1 yt<br />
n−1<br />
− yt∗<br />
n−1<br />
−1 ⎡<br />
⎣<br />
n<br />
t=1 yt + n<br />
n−1 yt∗<br />
<br />
= E (X ′ X) −1 X ′ <br />
y<br />
= σ 2 (X ′ X) −1 = σ 2<br />
<br />
= E<br />
⎡<br />
⎣ 1<br />
n−1<br />
−1<br />
n−1<br />
n<br />
t=1 yt<br />
⎤<br />
yt∗<br />
⎡<br />
⎦ = ⎣<br />
⎤<br />
⎦ =<br />
⎡<br />
⎣ 1<br />
n−1<br />
−1<br />
n−1<br />
n t=1,t=t∗ yt<br />
n−1<br />
− n (¯y − yt∗)<br />
n−1<br />
(X ′ X) −1 X ′ <br />
(Xβ + u)<br />
⎤<br />
−1<br />
n−1<br />
n<br />
n−1<br />
⎦ .<br />
155<br />
−1<br />
n−1<br />
n<br />
n−1<br />
⎤<br />
n<br />
t=1 yt<br />
yt∗<br />
⎤ ⎡<br />
⎦ ⎣<br />
⎤<br />
⎦<br />
n<br />
t=1 yt<br />
yt∗<br />
⎤<br />
⎦<br />
⎦ . (6.7)<br />
<br />
= β E (X ′ X) −1 X ′ <br />
u = β
Não se verifica ˆγ p<br />
−→ γ porque<br />
n<br />
lim Var [ˆγ] = lim σ2<br />
n→∞ n→∞ n − 1<br />
= σ2<br />
ou seja, ˆγ é centrado mas não é consistente (a precisão de ˆγ não melhora quando n aumenta<br />
e depende da variância do ruído). Este resultado deve-se ao facto de ser usada apenas uma<br />
observação para estimar γ. A propriedades do estimador para ˆα não são afectadas.<br />
6.5.2 Inconsistência do Teste-t<br />
O rácio-t associado a ˆγ (supondo σ conhecido) é<br />
τ ˆγ =<br />
=<br />
ˆγ<br />
Var [ˆγ] =<br />
<br />
n yt∗ − ¯y<br />
n − 1 σ<br />
n − (¯y − yt∗)<br />
n−1<br />
σ n<br />
n−1<br />
yt∗ − ¯y<br />
.<br />
σ<br />
Ora a distribuição de yt∗−¯y<br />
depende da distribuição dos erros. No caso do modelo de re-<br />
σ<br />
gressão habitual, mesmo que os erros não tenham distribuição normal, o rácio-t para grandes<br />
amostras tem distribuição aproximadamente normal, pelo teorema do limite central, e a in-<br />
ferência habitual pode fazer-se sem problemas. No entanto, o rácio-t associado a variáveis<br />
impulse-dummies depende da distribuição dos erros. Assim, se a distribuição dos erros é<br />
desconhecida não é possível usar-se os testes t habituais. Mesmo que se possa usar o rácio-t<br />
(por exemplo, se houver garantias que ut<br />
sentido: para qualquer valor crítico com nível de significância α,<br />
i.i.d.<br />
∼ N (0, σ 2 )) o teste-t é inconsistente no seguinte<br />
P (|τ ˆγ| > cα| H1 : γ = 0) não tende para 1<br />
quando n → ∞. A situação habitual (por exemplo, no âmbito do modelo de regressão linear<br />
clássico) é a seguinte: quando n → ∞ a probabilidade de rejeitar H0 quando H1 é verdadeira<br />
tende para 1 (se H1 é verdadeira, um teste consistente acaba sempre, para amostras suficien-<br />
temente grandes, por decidir correctamente a favor de H1). Mas, com impulse-dummies isto<br />
não sucede.<br />
156
6.5.3 Uma Solução para ensaiar H0 : γ = 0<br />
Uma forma de testar H0 : γ = 0 no caso em que a distribuição dos erros é desconhecida<br />
envolve a aplicação de procedimentos bootstrap. Quando a amostra é grande o ensaio H0 :<br />
γ = 0 vs. por exemplo H1 : γ > 0 pode ser conduzido da seguinte forma, muito simples<br />
(equivalente ao bootstrap): estima-se o modelo de regressão<br />
yt = x ′ tβ + εt<br />
(onde x ′ t é um vector linha das variáveis explicativas) sem dummy e obtém-se o resíduo ˆεt∗<br />
associado ao momento t = t∗. Se este resíduo é elevado (em módulo) então é provável que<br />
no momento t∗ tenha ocorrido uma “quebra de estrutura”; neste caso a variável dummy d<br />
será, em princípio, importante na explicação de y (no momento t∗). Para grandes amostras<br />
não só a estimativa ˆγ associada ao modelo<br />
yt = x ′ tβ + γdt + ut<br />
é (aproximadamente) igual ˆεt∗ como também, sob H0 : γ = 0, a distribuição do estimador<br />
ˆγ é (aproximadamente) igual à distribuição de εt; assim, a avaliação da significância de<br />
γ ao nível de α100%, equivale a verificar se ˆεt∗ está acima do quantil de ordem 1 − α da<br />
distribuição de εt (recorde-se que H1 : γ > 0). Como a distribuição de εt é desconhecida usa-<br />
se a distribuição empírica dos resíduos ˆεt - este é o princípio do bootstrap. Concretamente,<br />
rejeita-se H0 : γ = 0 em favor de H1 : γ > 0 ao nível de significância de α100% se ˆεt∗ for<br />
maior do que o quantil de ordem 1 − α da distribuição empírica dos resíduos. A proposição<br />
seguinte fundamenta o procedimento.<br />
Proposição 6.5.1 Considerem-se os modelo de regressão em notação matricial<br />
y = Xβ 1 + γd + u, y = Xβ 0 + ε<br />
onde d = (dt) , dt∗ = 1, dt = 0 para t = t∗ e X é a matriz das variáveis explicativas<br />
fortemente exógena. Suponha-se<br />
X ′ X<br />
n<br />
Então a) ˆγ p<br />
−→ γ + ut∗ e b) ˆγ/ˆεt∗<br />
p<br />
−→ Q (definida positiva).<br />
p<br />
−→ 1.<br />
157
Dem. Apêndice 6.G.<br />
6.5.4 Impulse-dummies e a matriz de White<br />
Um caso que conduz a conclusões incorrectas ocorre quando se usa simultaneamente impulse-<br />
dummies com a matriz de White.<br />
Para simplificar considere-se novamente o modelo<br />
onde ut<br />
yt = α + γdt + ut, t = 1, 2, ..., n<br />
i.i.d.<br />
∼ N (0, σ 2 ) e dt é uma impulse-dummy<br />
dt =<br />
⎧<br />
⎨<br />
⎩<br />
1 t = t∗<br />
0 t = t∗.<br />
Se é razoável assumir normalidade e ausência mas não heterocedasticidade pode argumentar-<br />
se que a significância estatística de γ pode ser avaliada usando o rácio-t baseado na matriz<br />
de White. Esta suposição é incorrecta e traduz provavelmente o caso mais grave dos vários<br />
que analisámos. Como se sabe a matriz de White tem a forma<br />
<br />
Var ˆβ = (X ′ X) −1 X ′ WX (X ′ X) −1<br />
onde W é uma matriz diagonal com elementos {û 2 1, ..., û 2 n} . No caso mais simples que<br />
analisamos a matriz de White correspondente a ˆγ é<br />
Var [ˆγ] =<br />
Deixa-se como exercício verificar que<br />
Var [ˆγ] =<br />
n t=1<br />
n t=1<br />
n t=1<br />
n t=1<br />
<br />
di − ¯ d û2 t<br />
<br />
di − ¯ d 2 =<br />
Assim, atendendo a (6.7) o rácio-t associado a ˆγ é<br />
τ ˆγ =<br />
=<br />
ˆγ<br />
=<br />
Var [ˆγ]<br />
n √ yt∗ − ¯y<br />
n<br />
n − 1 ˆσ<br />
<br />
di − ¯ d û2 t<br />
<br />
di − ¯ d 2 .<br />
n<br />
n−1 (yt∗ − ¯y)<br />
1<br />
n(n−1)<br />
1<br />
n (n − 1)<br />
n<br />
t=1 û2 t<br />
=<br />
√ n yt∗ − ¯y<br />
.<br />
ˆσ<br />
158<br />
n<br />
t=1<br />
û 2 t .<br />
n<br />
n−1 (yt∗ − ¯y)<br />
<br />
2 ˆσ<br />
n
Embora (yt∗ − ¯y) /ˆσ possa ter distribuição aproximadamente N (0, 1) para amostras grandes<br />
√ n (yt∗ − ¯y) /ˆσ não têm certamente distribuição N (0, 1) . Se (yt∗ − ¯y) /ˆσ tem distribuição<br />
aproximadamente normal então √ n (yt∗ − ¯y) /ˆσ terá distribuição N (0, n) . Este resultado<br />
sugere que se for usada a matriz de White numa amostra razoavelmente grande, qualquer<br />
impulse-dummy é sempre interpretada como significativa à luz da distribuição habitual do<br />
rácio-t (observe-se √ n (yt∗ − ¯y) /ˆσ → ∞ quando n → ∞).<br />
6.5.5 Conclusão<br />
O uso de impulse-dummies envolve vários problemas (inconsistência do estimador, incon-<br />
sistência do teste t, e quando usado simultaneamente com a matriz de White, os rácio-t são<br />
inflacionados). Quer isto dizer que o uso de impulse-dummies é inapropriado? A resposta<br />
é negativa. Vimos que o estimador OLS do parâmetro da impulse-dummy é centrado. Por<br />
outro lado, existem procedimentos válidos que poderão ser usados para testar a significân-<br />
cia do parâmetro da impulse-dummy. Finalmente, o uso impulse-dummy em modelos de<br />
regressão é importante quando se pretende estimar o efeito de um acontecimento isolado,<br />
mantendo todas as demais variáveis explicativas constantes.<br />
Exemplo 6.5.1 Suponha-se que se pretende analisar o efeito de um anúncio público no dia<br />
t∗ sobre as cotações da empresa ABC. Suspeita-se que o efeito é positivo sobre a empresa<br />
ABC e nulo ou irrelevante para o mercado. Pretende-se, assim, verificar se o valor esperado<br />
do retorno da empresa ABC no dia t∗ é positivo. Suponha-se ainda que, nesse dia t∗, o<br />
mercado em geral observou uma forte queda. Para testar esse efeito uma possibilidade<br />
consiste em considerar a regressão<br />
rt = β 0 + γdt + ut<br />
onde rt é o retorno da empresa ABC e dt é uma impulse-dummy<br />
dt =<br />
⎧<br />
⎨<br />
⎩<br />
1 t = t∗<br />
0 t = t∗.<br />
Contudo, poderá suceder, atendendo à quebra do mercado, que γ venha negativo ou não<br />
significativo. Concluir-se-ía que o anúncio teve um impacto negativo ou nulo sobre o retorno<br />
da empresa ABC. Mas esta conclusão pode ser errónea porque o efeito do mercado não é<br />
159
levado em conta. Assim, é necessário controlar ou fixar o efeito do mercado através da<br />
regressão<br />
rt = β 0 + β 1rt,m + γdt + ut<br />
onde rt,m é o retorno do mercado (retorno associado a um índice abrangente de cotações do<br />
mercado).<br />
6.6 Previsão<br />
6.6.1 Introdução<br />
Temos um modelo M (yt, yt−1, ...; θ) para y baseado em n observações {y1, y2, ..., yn} . O<br />
objectivo agora é:<br />
• prever y para n + 1, n + 2, ...;<br />
• estabelecer intervalos de confiança para as previsões.<br />
Que propriedades devemos exigir a um previsor para yn+h? Seja ˜µ n+h,n um previsor para<br />
yn+h. Devemos exigir:<br />
• E <br />
˜µ n+h,n = E (yn+h) (propriedade do não enviesamento).<br />
• Var <br />
˜µ n+h,n = Var (yn+h) (˜µ n+h,n deve reproduzir a variabilidade de yn+h);<br />
• forte correlação entre ˜µ n+h,n e yn+h.<br />
Para não haver “batota” o previsor ˜µ n+h,n para yn+h deve ser Fn-mensurável, isto é, se<br />
prevemos y para o instante n+h e o momento em que efectuamos a previsão é n, só podemos<br />
utilizar informação até n.<br />
Em certos casos podemos permitir algum enviesamento do estimador desde que outras<br />
propriedades mais do que compensem esse enviesamento. Na figura 6-14, qual é o previsor<br />
preferível? O previsor 1 é enviesado; o previsor 2 não é. No entanto, o previsor 1 parece<br />
preferível pois os erros de previsão são, na maior parte das vezes, inferiores.<br />
Seja ˜e (h) = yn+h − ˜µ n+h,n o erro de previsão. O erro quadrático médio (EQM) de<br />
previsão E ˜e (h) 2 pondera os três aspectos acima expostos: enviesamento, variabilidade e<br />
160
12<br />
10<br />
8<br />
6<br />
4<br />
2<br />
0<br />
1 2 3 4 5 6 7 8 9 10 11 12 13 14<br />
Figura 6-14: Qual dos dois previsores é preferível?<br />
Observado<br />
Previsor 1<br />
Previsor 2<br />
correlação. Com efeito, prova-se a seguinte decomposição do EQM de previsão E ˜e (h) 2 =<br />
yn+h <br />
2<br />
E − ˜µ n+h,n :<br />
E ˜e (h) 2 = E (yn+h) − E 2 ˜µ n+h,n + (σy − σ˜µ) 2 <br />
+ 2σyσµ 1 − ρy,˜µ . (6.8)<br />
O primeiro termo do lado direito mede o enviesamento, o segundo, compara a variabili-<br />
dade entre y e ˜µ e o terceiro mede a correlação entre yn+h e ˜µ n+h,n (quanto mais baixa a<br />
correlação maior é o EQM). Na figura 6-14, o previsor 1, embora apresente um enviesamento<br />
elevado (i.e., E (yn+h) − E 2 ˜µ n+h,n é alto), os valores dos termos (σy − σ˜µ) 2 e<br />
<br />
2σyσµ 1 − ρy,˜µ são relativamente baixos. O previsor 2 apresenta um valor baixo na componente<br />
E (yn+h) − E 2 ˜µ n+h,n (enviesamento reduzido ou nulo) mas valores altos em<br />
(σy − σ˜µ) 2 <br />
e 2σyσµ 1 − ρy,˜µ . Graficamente parece que o estimador 1 é preferível, isto é,<br />
ponderando todos os aspectos, o gráfico sugere que o EQM do previsor 1 é inferior ao EQM<br />
do previsor 2.<br />
Será possível definir um previsor óptimo, à luz do EQM, qualquer que seja o modelo em<br />
análise? A resposta é afirmativa.<br />
Proposição 6.6.1 O previsor com EQM mínimo é<br />
i.e., verifica-se<br />
E (yn+h| Fn)<br />
E (yn+h − E (yn+h| Fn)) 2 yn+h <br />
2<br />
≤ E − ˜µ n+h,n<br />
161
onde ˜µ n+h,n ∈ Fn é um outro qualquer previsor Fn-mensurável.<br />
(A demonstração é similar à da proposição 4.3.1). Usaremos também a notação µ n+h,n<br />
para E (yn+h| Fn) . A proposição 6.6.1 permite concluir que o previsor E (yn+h| Fn) min-<br />
imiza os três termos do lado direito da equação (6.8), no conjunto de todos os previsores<br />
Fn-mensuráveis; em particular, o primeiro termo é zero.<br />
Recorda-se do capítulo 4 que<br />
E (yn+h − E (yn+h| G)) 2 ≤ E (yn+h − E (yn+h| H)) 2 , H ⊆ G.<br />
Como referimos, esta desigualdade resulta do facto de em G existir mais informação. É<br />
natural esperar que um previsor que use mais informação face a um outro, tenha um EQM<br />
inferior.<br />
6.6.2 Previsão Pontual<br />
Tendo em conta a proposição 6.6.1, vamos utilizar como previsor para yn+h a expressão<br />
E (yn+h| Fn) . O procedimento geral para obter a previsão pontual de yn+h é:<br />
1. Definir o modelo yn+h (com base no modelo especificado).<br />
2. Calcular E (yn+h| Fn) .<br />
Vamos ver alguns exemplos.<br />
MA(2)<br />
Tem-se<br />
Previsão a um passo h = 1<br />
Previsão a dois passos h = 2<br />
yn+1 = µ + θ1un + θ2un−1 + un+1<br />
E (yn+1| Fn) = µ + θ1un + θ2un−1<br />
yn+2 = µ + θ1un+1 + θ2un + un+2<br />
162
Tem-se<br />
Tem-se<br />
Previsão a h passos (h > 2)<br />
MA(q)<br />
Deixa-se como exercício verificar:<br />
E (yn+2| Fn) = µ + θ2un.<br />
yn+h = µ + θ1un+h−1 + θ2un+h−2 + un+h<br />
E (yn+h| Fn) = µ<br />
⎧<br />
⎨ µ +<br />
E (yn+h| Fn) =<br />
⎩<br />
q i=h θiun+h−i para h = 1, ..., q<br />
µ para h = q + 1, ...<br />
Sugestão: comece por verificar que, para h = q + 1, q + 2, ... tem-se E (yn+h| Fn) = µ.<br />
AR(1)<br />
Na previsão dos processos AR, é útil considerar-se a previsão já realizada nos passos<br />
intermédios. Considere-se novamente a notação µ n+h,n (igual por definição a E (yn+h| Fn)).<br />
Previsão a um passo h = 1<br />
yn+1 = c + φ 1yn + un+1<br />
µ n+1,n = E (yn+1| Fn) = E (c + φ 1yn + un+1| Fn) = c + φ 1yn.<br />
Previsão a dois passos h = 2<br />
yn+2 = c + φ 1yn+1 + un+2<br />
µ n+2,n = E (yn+2| Fn) = E (c + φ 1yn+1 + un+2| Fn) = c + φ 1 E (yn+1| Fn)<br />
= c + φ 1µ n+1,n<br />
Previsão a h passos<br />
yn+h = c + φ 1yn+h−1 + un+h<br />
163
µ n+h,n = E (yn+h| Fn)<br />
= E (c + φ 1yn+h−1 + un+2| Fn) = c + φ 1µ n+h−1,n<br />
Conclui-se que o modelo de previsão no modelo AR(1) (h > 1) é<br />
µ n+h,n = c + φ 1µ n+h−1,n<br />
(6.9)<br />
Observação 6.6.1 Podemos reescrever a equação (6.9) como função do valor observado em<br />
n. Por exemplo, a previsão a dois passos (h = 2) é<br />
µ n+2,n = c + φ 1µ n+1,n. (6.10)<br />
Como, por sua vez, a previsão a um passo é µ n+1,n = c + φ 1µ n,n = c + φ 1yn podemos<br />
substituir µ n+1,n = c + φ 1yn na equação (6.10). Assim a previsão a dois passos pode ser<br />
escrita na forma<br />
De igual forma, a previsão a três passos é<br />
Seguindo este raciocínio conclui-se que<br />
µ n+2,n = c + φ 1µ n+1,n<br />
= c + φ 1 (c + φ 1yn)<br />
= c + cφ 1 + φ 2<br />
1yn.<br />
µ n+3,n = c + φ1µ n+2,n<br />
=<br />
<br />
c + φ1 c + cφ1 + φ 2 <br />
1yn<br />
= c + cφ 1 + cφ 2<br />
1 + φ 2<br />
1yn.<br />
µ n+h,n = c + cφ1 + cφ 2<br />
1 + ... + cφ h−1<br />
1 + φ h<br />
1yn. (6.11)<br />
Do ponto de vista prático é irrelevante prever o modelo com base no modelo (6.9) ou com<br />
base em (6.11), pois as expressões são equivalentes. No âmbito dos modelos dinâmicos,<br />
a equação (6.9) designa-se por equação às diferenças finitas linear de primeira ordem (a<br />
equação de juros compostos é também uma equação do tipo) cuja solução, dada a condição<br />
164
inicial µ n,n = yn, é precisamente a equação (6.11). Atendendo a que<br />
1 + φ1 + φ 2<br />
1 + ... + φ h−1<br />
1 = 1 − φh<br />
1 − φ<br />
podemos dar um novo aspecto às equação (6.11):<br />
(soma de uma progressão geométrica)<br />
µ n+h,n = c 1 + φ1 + φ 2<br />
1 + ... + φ h−1<br />
h<br />
1 + φ1yn =<br />
1 − φh<br />
c + φh<br />
1 − φ<br />
1yn. (6.12)<br />
Em suma, para obter µ n+h,n é indiferente considerar (6.9), (6.11) ou (6.12).<br />
AR(2)<br />
Previsão a um passo h = 1<br />
µ n+1,n = E (yn+1| Fn)<br />
Previsão a dois passos h = 2<br />
yn+1 = c + φ 1yn + φ 2yn−1 + un+1<br />
= E (c + φ 1yn + φ 2yn−1 + un+1| Fn) = c + φ 1yn + φ 2yn−1<br />
µ n+2,n = E (yn+2| Fn)<br />
yn+2 = c + φ 1yn+1 + φ 2yn + un+2<br />
= E (c + φ 1yn+1 + φ 2yn + un+2| Fn) = c + φ 1 E (yn+1| Fn) + φ 2yn<br />
= c + φ 1µ n+1,n + φ 2yn<br />
Previsão a h passos (h > 2)<br />
yn+h = c + φ 1yn+h−1 + φ 2yn+h−2 + un+h<br />
165
Dependent Variable: Y<br />
Sample: 3 1000<br />
Included observations: 998<br />
Variable Coefficient Std. Error tStatistic Prob.<br />
C 10.81186 1.196611 9.035402 0.0000<br />
Y(1) 0.469309 0.030095 15.59406 0.0000<br />
Y(2) 0.314900 0.030098 10.46238 0.0000<br />
Rsquared 0.521901 Mean dependent var 50.10264<br />
Adjusted Rsquared 0.520940 S.D. dependent var 0.722051<br />
S.E. of regression 0.499762 Akaike info criterion 1.453631<br />
Sum squared resid 248.5130 Schwarz criterion 1.468378<br />
Log likelihood 722.3618 Fstatistic 543.0800<br />
DurbinWatson stat 2.010668 Prob(Fstatistic) 0.000000<br />
Figura 6-15: Estimação de um AR(2)<br />
µ n+h,n = E (yn+h| Fn)<br />
= E (c + φ 1yn+h−1 + φ 2yn+h−2 + un+2| Fn)<br />
= c + φ 1µ n+h−1,n + φ 2µ n+h−2,n<br />
Conclui-se que o modelo de previsão no modelo AR(2) (para h > 2) é<br />
µ n+h,n = c + φ 1µ n+h−1,n + φ 2yn+h−2,n.<br />
Exemplo 6.6.1 Estimou-se um processo AR(2), cujos resultados estão apresentados na figura<br />
6-15.<br />
Tem-se n = 1000 e sabe-se que yn−1 =50.4360, yn =50.0207. Pretende-se obter uma<br />
previsão para y para os período 1001, 1002 e 1003 (previsão a um passo, a dois passos e a<br />
três passos).<br />
Previsão a um passo:<br />
µ n+1,n = c + φ 1yn + φ 2yn−1<br />
ˆµ n+1,n = 10.81186 + 0.469309 × 50.0207 + 0.3149 × 50.436 = 50.169.<br />
Previsão a dois passos:<br />
µ n+2,n = c + φ 1µ n+1,n + φ 2yn<br />
ˆµ n+2,n = 10.81186 + 0.469309 × 50.169 + 0.3149 × 50.0207 = 50.108.<br />
166
Previsão a três passos:<br />
AR(p)<br />
µ n+3,n = c + φ 1µ n+2,n + φ 2µ n+1,n<br />
ˆµ n+2,n = 10.81186 + 0.469309 × 50.108 + 0.3149 × 50.169 = 50.126.<br />
Previsão a um passo h = 1<br />
yn+1 = c + φ 1yn + ... + φ pyn+1−p + un+1<br />
E (yn+1| Fn) = E <br />
c + φ1yn + ... + φpyn+1−p + un+1<br />
Fn<br />
Previsão a dois passos h = 2<br />
= c + φ 1yn + ... + φ pyn+1−p<br />
yn+2 = c + φ 1yn+1 + ... + φ pyn+2−p + un+2<br />
E (yn+1| Fn) = E <br />
c + φ1yn+1 + ... + φpyn+1−p + un+2<br />
Fn<br />
Previsão a h passos (h > p)<br />
ARMA(1, 1)<br />
= c + φ 1 E (yn+1| Fn) + ... + φ pyn+1−p<br />
= c + φ 1µ n+1,n... + φ pyn+1−p<br />
yn+h = c + φ 1yn+h−1 + ... + φ pyn+h−p + un+h<br />
µ n+h,n = E (yn+h| Fn)<br />
= E c + φ1yn+h−1 + ... + φpyn+h−p + un+h<br />
Fn<br />
= c + φ 1µ n+h−1,n + φ 2yn+h−2,n + ... + φ pµ n+h−p,n<br />
167
Previsão a um passo h = 1<br />
Previsão a dois passos h = 2<br />
Previsão a h passos (h > 1)<br />
yn+1 = c + φ 1yn + un+1 + θ1un<br />
µ n+1,n = E (yn+1| Fn)<br />
= E (c + φ 1yn + un+1 + θ1un| Fn)<br />
= c + φ 1yn + θ1un<br />
yn+2 = c + φ 1yn+1 + un+2 + θ1un+1<br />
µ n+2,n = E (yn+2| Fn)<br />
= E (c + φ 1yn+1 + un+2 + θ1un+1| Fn)<br />
= c + φ 1µ n+1,n<br />
yn+h = c + φ 1yn+h−1 + un+h + θ1un+h−1<br />
µ n+h,n = E (yn+h| Fn)<br />
= E (c + φ 1yn+h−1 + un+h + θ1un+h−1| Fn)<br />
= c + φ 1µ n+h−1,n<br />
6.6.3 Intervalos de Previsão I<br />
Vimos até agora a chamada previsão pontual. Vamos agora estabelecer um intervalo de<br />
confiança, IC, (ou de previsão) para yn+h. Um IC para yn+h a 95% baseia-se na probabilidade<br />
P (l1 < yn+h < l2| Fn) = 0.95.<br />
168
O intervalo de confiança é portanto (l1, l2) , ou seja, yn+h estará no intervalo (l1, l2) com 0.95<br />
de probabilidade dado Fn. Como determinar l1 e l2? Assuma-se que<br />
ou seja,<br />
Tem-se assim,<br />
yn+n| Fn ∼ N (E (yn+h| Fn) , Var (yn+h| Fn))<br />
Z = yn+h − E (yn+h| Fn)<br />
Var (yn+h| Fn)<br />
<br />
<br />
<br />
<br />
Fn ∼ N (0, 1) .<br />
P (l1 < yn+h < l2| Fn) = 0.95<br />
<br />
l1 − E (yn+h| Fn)<br />
⇔ P <br />
Var (yn+h| Fn) < yn+h − E (yn+h| Fn)<br />
<br />
Var (yn+h| Fn) < l2<br />
<br />
− E (yn+h| Fn)<br />
<br />
<br />
<br />
Var (yn+h| Fn)<br />
e, portanto,<br />
Fn<br />
l1 − E (yn+h| Fn)<br />
Var (yn+h| Fn) = −1.96 ⇒ l1 = E (yn+h| Fn) − 1.96 Var (yn+h| Fn)<br />
l2 − E (yn+h| Fn)<br />
Var (yn+h| Fn) = 1.96 ⇒ l2 = E (yn+h| Fn) + 1.96 Var (yn+h| Fn)<br />
Assim, um IC a 95% para yn+h é<br />
Em termos gerais, um IC a (1 − α) 100% é<br />
E (yn+h| Fn) ± 1.96 Var (yn+h| Fn).<br />
<br />
E (yn+h| Fn) ± z1−α/2 Var (yn+h| Fn)<br />
<br />
= 0.95<br />
onde z1−α/2 é tal que P <br />
Z ≤ z1−α/2 = 1 − α/2 e Z ∼ N (0, 1) . É também habit-<br />
ual apresentar-se o IC a partir da variável erro de previsão a h passos, en (h) = yn+h −<br />
E (yn+h| Fn). Como Var (en (h)) = Var (yn+h| Fn) e usando a notação µ n+h,n = E (yn+h| Fn) ,<br />
o IC a 95% para yn+h pode apresentar-se também na forma<br />
µ n+h,n ± 1.96 Var (e (h)). (6.13)<br />
169
Na prática µ n+h,n é desconhecido, pois envolve parâmetros desconhecidos. Em lugar de<br />
µ n+h,n devemos usar ˆµ n+h,n (por exemplo, na previsão a um passo do modelo AR(1), em<br />
lugar de µ n+1,n = c + φ 1yn deve-se considerar ˆµ n+1,n = ĉ + ˆ φ 1yn). A substituição de<br />
µ n+h,n por ˆµ n+h,n aumenta a variância do erro de previsão numa quantidade proporcional<br />
a 1/n (no apêndice 6.H discute-se esta questão). Para amostra grandes pode-se assumir<br />
1/n 0 e, assim, podemos continuar a usar a expressão (6.13), substituindo os parâmetros<br />
desconhecidos pela respectivas estimativas consistentes. Vamos ver alguns exemplos.<br />
MA(2)<br />
Tem-se<br />
Previsão a um passo h = 1<br />
yn+1 = µ + θ1un + θ2un−1 + un+1<br />
E (yn+1| Fn) = µ + θ1un + θ2un−1<br />
en (1) = yn+1 − E (yn+1| Fn) = un+1 ∼ N 0, σ 2 .<br />
Logo Var (en (1)) = σ 2 e, assim, um IC a 95% é<br />
Tem-se<br />
Previsão a dois passos h = 2<br />
µ + θ1un + θ2un−1 ± 1.96 Var (en (1)) i.e.,<br />
µ + θ1un + θ2un−1 ± 1.96σ<br />
yn+2 = µ + θ1un+1 + θ2un + un+2<br />
E (yn+2| Fn) = µ + θ2un<br />
yn+2 − E (yn+2| Fn) = θ1un+1 + un+2 ∼ N 0, θ 2<br />
1 + 1 σ 2<br />
Logo Var (en (2)) = θ 2<br />
1 + 1 σ 2 e, assim, um IC a 95% é<br />
θ2 µ + θ2un ± 1.96 1 + 1 σ2 170
Dependent Variable: Y<br />
Method: Least Squares<br />
Sample(adjusted): 1950:04 2005:05<br />
Included observations: 662 after adjusting endpoints<br />
Variable Coefficient Std. Error tStatistic Prob.<br />
C 10.01857 0.042397 236.3054 0.0000<br />
MA(1) 0.373267 0.037900 9.848702 0.0000<br />
MA(2) 0.231256 0.037917 6.099047 0.0000<br />
Rsquared 0.162759 Mean dependent var 10.01838<br />
Adjusted Rsquared 0.160218 S.D. dependent var 1.042205<br />
S.E. of regression 0.955072 Akaike info criterion 2.750462<br />
Sum squared resid 601.1155 Schwarz criterion 2.770833<br />
Log likelihood 907.4029 Fstatistic 64.05464<br />
DurbinWatson stat 2.002569 Prob(Fstatistic) 0.000000<br />
Inverted MA Roots .33 .70<br />
Figura 6-16: Estimação de um MA(2)<br />
Exemplo 6.6.2 Estimou-se um MA(2) (dados mensais), cujos resultados estão apresentados<br />
na figura 6-16. A última observação, yn, reporta-se ao período 2005:05 (Maio de 2005, na<br />
notação do EVIEWS). Tem-se ainda a seguinte informação: ûn−1 = −0.655 e ûn = 0.055.<br />
As estimativas dos parâmetros são 13 :<br />
ˆ θ1 = 0.37326,<br />
ˆ θ2 = −0.231256.<br />
Pretende-se um intervalo de previsão para 2005:6 (yn+1) e 2005:7 (yn+2) a 95%, supondo<br />
inovações (erros) normais. Previsão a um passo:<br />
µ n+1,n = µ + θ1un + θ2un−1<br />
ˆµ n+1,n = ˆµ + ˆ θ1ûn + ˆ θ2ûn−1<br />
= 10.01857 + 0.37326 × 0.055 − 0.231256 × (−0.655)<br />
= 10.191<br />
13 O output do EVIEWS apresenta as raízes invertidas do polinómio MA. Desta forma, o modelo é invertível<br />
sse as raízes invertidas são em módulo inferiores a um. Como as raízes são em módulo inferiores a um concluise<br />
que o processo é invertível. Outra forma de chegarmos a esta conclusão consiste em verificar se as seguintes<br />
condições são válidas:<br />
θ1 + θ2 > −1, θ1 − θ2 < 1, −1 < θ2 < 1.<br />
Também por aqui se conclui que o modelo é invertível verificando as desigualdades:<br />
ˆ θ1 + ˆ θ2 = 0.37326 − 0.231256 > −1,<br />
ˆ θ1 − ˆ θ2 = 0.37326 + 0.231256 < 1,<br />
−1 < −0.231256 < 1.<br />
171
IC para yn+1 a 95%:<br />
13<br />
12<br />
11<br />
10<br />
Previsão a dois passos:<br />
IC para yn+2 a 95%:<br />
9<br />
8<br />
7<br />
2005:06 2005:07<br />
YF ± 2 S.E.<br />
Figura 6-17: Previsão do modelo MA(2) fornecida pelo EVIEWS<br />
µ + θ1un + θ2un−1 ± 1.96σ<br />
10.191 ± 1.96 × 0.955072 ou (8.32, 12.06) .<br />
µ n+2,n = µ + θ2un<br />
ˆµ n+2,n = ˆµ + ˆ θ2un<br />
= 10.01857 − 0.231256 × 0.055<br />
= 10.005<br />
θ2 µ + θ2un ± 1.96 1 + 1 σ2 10.005 ± 1.96 (0.37326 2 + 1) × 0.955072 2 ou (8.01, 12.00) .<br />
No EVIEWS o gráfico da previsão a dois passos é dada pela figura 6-17 (há uma ligeira<br />
diferença entre os IC acima calculados e os IC fornecidos pelo EVIEWS. Porquê?)<br />
MA(q)<br />
172
Deixa-se como exercício verificar:<br />
Tem-se<br />
⎧<br />
⎨ µ +<br />
E (yn+h| Fn) =<br />
⎩<br />
q i=h θiun+h−i para h = 1, ..., q<br />
µ para h = q + 1, ...<br />
h−1<br />
en (h) = yn+h − E (yn+h| Fn) = θiun+h−i , (θ0 = 1)<br />
e, assumindo normalidade, o IC a 95% é<br />
AR(1)<br />
µ +<br />
i=0<br />
E e 2 n (h) = σ 2<br />
h−1<br />
i=0<br />
θ 2<br />
i<br />
<br />
q<br />
<br />
h−1<br />
θiun+h−i ± 1.96σ2<br />
i=h<br />
i=0<br />
θ 2<br />
i<br />
(6.14)<br />
A determinação dos intervalos de previsão não é imediata nos processos AR e ARMA<br />
em geral.<br />
Previsão a um passo h = 1<br />
yn+1 = c + φ 1yn + un+1<br />
µ n+1,n = E (yn+1| Fn)<br />
= E (c + φ 1yn + un+1| Fn) = c + φ 1yn<br />
en (1) = un+1<br />
Previsão a dois passos h = 2<br />
µ n+2,n = E (yn+2| Fn)<br />
yn+2 = c + φ 1yn+1 + un+2<br />
= E (c + φ 1yn+1 + un+2| Fn) = c + φ 1 E (yn+1| Fn)<br />
= c + φ 1µ n+1,n<br />
173
en (2) =?<br />
Para determinar en (h) e consequentemente os IC a ideia consiste em representar yn+h<br />
na forma MA. Precisamos, portanto, de uma fórmula geral que forneça en (h) e Var (en (h))<br />
(veremos isso a seguir).<br />
6.6.4 Intervalos de Previsão II - Variância do Erro de Previsão no mod-<br />
elo ARMA<br />
Para determinarmos en (h) considere-se o ARMA(p, q)<br />
φ p (L) yn+h = θq (L) un+h<br />
yn+h = φ −1<br />
=<br />
p<br />
∞<br />
(L) θq (L) un+h (6.15)<br />
j=0<br />
ψ jun+h−j (ψ 0 = 1).<br />
A expressão E (yn+h| Fn) pode ser obtida recursivamente como vimos no caso AR(p) com<br />
h = 2 . Agora interessa-nos representar E (yn+h| Fn) numa outra forma equivalente para<br />
que possamos obter en (h) .<br />
tem-se<br />
Como<br />
E (yn+h| Fn)<br />
<br />
∞ <br />
<br />
= E ψjun+h−j <br />
j=0<br />
Fn<br />
<br />
yn+h =<br />
∞<br />
ψjun+h−j j=0<br />
= E ψ0un+h + ψ1un+h−1 + ... + ψh−1un+1 + ψhun + ψh+1un−1 + ... <br />
Fn<br />
= ψ hun + ψ h+1un−1 + .. .<br />
174
Logo<br />
Portanto,<br />
en (h) = yn+h − E (yn+h| Fn)<br />
= ψ 0un+h + ψ 1un+h−1 + ... + ψ h−1un+1 + ψ hun + ψ h+1un−1 + ...<br />
−ψ hun − ψ h+1un−1 − ...<br />
= ψ 0un+h + ψ 1un+h−1 + ... + ψ h−1un+1<br />
=<br />
h−1<br />
ψjun+h−j. j=0<br />
E (en (h)) = 0<br />
Var (en (h)) = E e 2 n (h) = σ 2<br />
h−1<br />
j=0<br />
ψ 2<br />
j, ψ 0 = 1 (6.16)<br />
No processo MA(q) tem-se θi = ψ i e, com esta igualdade, confirma-se a equação (6.14).<br />
Exemplo 6.6.3 Retome-se o exemplo 6.6.1:<br />
Dependent Variable: Y<br />
Sample: 3 1000<br />
Included observations: 998<br />
Variable Coefficient Std. Error tStatistic Prob.<br />
C 10.81186 1.196611 9.035402 0.0000<br />
Y(1) 0.469309 0.030095 15.59406 0.0000<br />
Y(2) 0.314900 0.030098 10.46238 0.0000<br />
Rsquared 0.521901 Mean dependent var 50.10264<br />
Adjusted Rsquared 0.520940 S.D. dependent var 0.722051<br />
S.E. of regression 0.499762 Akaike info criterion 1.453631<br />
Sum squared resid 248.5130 Schwarz criterion 1.468378<br />
Log likelihood 722.3618 Fstatistic 543.0800<br />
DurbinWatson stat 2.010668 Prob(Fstatistic) 0.000000<br />
Vimos:<br />
Sabendo que<br />
ˆµ n+1,n = 50.169, ˆµ n+2,n = 50.108, ˆµ n+3,n = 50.126.<br />
1<br />
1 − 0.469309L − 0.31490L 2 = 1 + 0.469L + 0.535L2 + 0.399L 3 + ...<br />
determine um IC a 95% para as previsões em n + 1, n + 2 e n + 3. Vimos que a expressão<br />
175
geral do IC a 95% (com erros Gaussianos) é dada pela expressão<br />
ou<br />
ou<br />
E (yn+h| Fn) ± 1.96 Var (en (h))<br />
µ n+h,n ± 1.96 Var (en (h))<br />
<br />
ˆµ n+h,n ± 1.96 Var (en (h))<br />
No caso dos modelos MA a expressão Var (en (h)) determina-se facilmente, como vimos<br />
atrás. No caso dos modelos AR (ou ARMA) temos de usar a expressão (6.16)<br />
Var (en (h)) = σ 2<br />
h−1<br />
ψ 2<br />
j ou Var (en (h)) = ˆσ 2<br />
h−1<br />
j=0<br />
Um IC a 95% para a previsão yn+1 (h = 1) é<br />
Ora ˆµ n+1,n = 50.169 e<br />
Assim<br />
Var (en (1)) = ˆσ 2<br />
1−1<br />
<br />
ˆµ n+1,n ± 1.96 Var (en (1))<br />
j=0<br />
ˆψ 2<br />
j = ˆσ 2<br />
0<br />
j=0<br />
<br />
ˆµ n+1,n ± 1.96 ˆσ 2<br />
Um IC a 95% para a previsão yn+2 (h = 2) é<br />
50.169 ± 1.96 × 0.499762.<br />
<br />
ˆµ n+2,n ± 1.96 Var (en (2)).<br />
176<br />
j=0<br />
ˆψ 2<br />
j<br />
ˆψ 2<br />
j = ˆσ 2 ˆ ψ 2<br />
0 = ˆσ 2 .
Ora ˆµ n+2,n = 50.108 e<br />
Assim<br />
Var (en (2)) = ˆσ 2<br />
2−1<br />
j=0<br />
Um IC a 95% para a previsão yn+3 (h = 3) é<br />
Ora ˆµ n+2,n = 50.126 e<br />
Assim<br />
Var (en (2)) = ˆσ 2<br />
3−1<br />
ˆψ 2<br />
j = ˆσ 2<br />
<br />
1 + ˆ ψ 2<br />
1<br />
= 0.499762 2 × 1 + 0.469 2 = 0.30470.<br />
<br />
<br />
ˆµ n+2,n ± 1.96 Var (en (2))<br />
50.108 ± 1.96 √ 0.30470.<br />
<br />
ˆµ n+3,n ± 1.96 Var (en (3)).<br />
j=0<br />
ˆψ 2<br />
j = ˆσ 2<br />
<br />
1 + ˆ ψ 2<br />
1 + ˆ ψ 2<br />
<br />
2<br />
= 0.499762 2 × 1 + 0.469 2 + 0.535 2<br />
= 0.37619.<br />
<br />
ˆµ n+3,n ± 1.96 Var (en (3))<br />
50.126 ± 1.96 √ 0.37619.<br />
6.6.5 Previsão de (muito) Longo Prazo<br />
Previsão de longo prazo significa tomar h muito alto. Qual é a previsão de yn+h quando<br />
h → ∞? Isto é, qual o valor de<br />
lim<br />
h→∞ E (yn+h| Fn)?<br />
Quando n + h é muito alto, quando comparado com n, a informação Fn é praticamente<br />
irrelevante (é qualquer coisa como prever o retorno do PSI20 para daqui a 20 anos, tendo<br />
177
disponível apenas a informação do retorno de hoje). Assim, nestas condições, E (yn+h| Fn)<br />
é praticamente igual a E (yn+h) (quer dizer, podemos dispensar Fn). Tudo isto é verdade se,<br />
obviamente, o processo for estacionário.<br />
Assim, se o processo for estacionário tem-se<br />
lim<br />
h→∞ E (yn+h| Fn) = E (yn+h) = E (y) .<br />
Outra questão tem a ver com os intervalos de previsão. Vimos que os intervalos de previsão<br />
dependem da variância do erro de previsão<br />
Var (en (h)) = σ 2<br />
h−1<br />
onde ψ i são os coeficientes que se obtêm da relação φ −1<br />
p (L) θq (L) , Recorde-se,<br />
yt = φ −1<br />
p (L) θq (L) ut =<br />
j=0<br />
ψ 2<br />
j<br />
∞<br />
ψjut−j. Qual é o valor da expressão Var (en (h)) = σ 2 h−1<br />
j=0 ψ2<br />
j quando h tende para ∞? Temos de<br />
avaliar<br />
<br />
lim<br />
h→∞ σ2<br />
h−1<br />
j=0<br />
Se o processo y é ESO pode-se provar que ∞<br />
j=0 ψ2<br />
j é finito 14 e, portanto, Var (en (∞)) é<br />
14 Vimos em que condições se estabelece a estacionaridade. Outra forma alternativa consiste em considerar<br />
a representação MA(∞) do ARMA. Vimos<br />
Tem-se<br />
yt = φ −1<br />
p (L) θq (L) ut =<br />
j=0<br />
ψ 2<br />
j.<br />
j=0<br />
∞<br />
ψjut−j. j=0<br />
E (yt) = 0<br />
⎛ ⎞<br />
Var (yt) =<br />
∞<br />
Var ⎝ ψ ⎠<br />
jut−j = σ 2<br />
∞<br />
Assim se y é E2O devemos ter Var (yt) = σ2 ∞ j=0 ψ2j < ∞. Logo devemos exigir ∞ j=0 ψ2j < ∞ e, portanto,<br />
∞ j=0 ψ2j < ∞ é condição necessária para que y seja estacionário. Nestas condições<br />
<br />
j=0<br />
Var (en (h)) = E e 2 n (h) = σ 2<br />
h−1<br />
ψ 2 j → Var (yt) .<br />
178<br />
j=0<br />
ψ 2 j
finito. Para que valor tende? Pode-se provar (veja-se o último pé-de-página) que<br />
Var (en (∞)) = Var (y) .<br />
Assim, se y é estacionário e Gaussiano, um intervalo de confiança a 95% para yn+h com h<br />
muito alto (ou h → ∞) é<br />
O que acontece se y não é estacionário?<br />
E (y) ± 1.96 Var (y)<br />
Exemplo 6.6.4 Considere-se o ARIMA(0, 1, 1)<br />
A previsão a um passo é<br />
A dois passos é<br />
A h passos é<br />
yt = yt−1 + ut + θ1ut−1.<br />
µ n+1,n = E (yn+1| Fn) = yn + θ1un.<br />
µ n+2,n = E (yn+2| Fn) = E (yn+1 + un+2 + θ1un+1| Fn)<br />
= E (yn+1| Fn) = yn + θ1un<br />
µ n+h,n = yn + θ1un.<br />
Calcule-se agora a variância do erro de previsão Var (en (h)) = σ 2 h−1<br />
j=0 ψ2<br />
j. Temos de<br />
calcular os ψ i e, para o efeito, começamos por reescrever o processo na forma<br />
(1 − L) yt = (1 + θ1L) ut ou<br />
yt =<br />
(1 + θ1L)<br />
1 − L ut<br />
179
Para determinar ψ i:<br />
Resulta: ⎧⎪ ⎨<br />
(1 + θ1L)<br />
= 1 + ψ<br />
1 − L<br />
1L + ψ2L 2 + ...<br />
1 + θ1L = 1 + ψ1L + ψ2L 2 + ... (1 − L)<br />
⎪⎩<br />
= 1 − L + ψ 1L − ψ 1L 2 + ψ 2L 2 − ψ 2L 3 + ...<br />
= 1 + (ψ 1 − 1) L + (ψ 2 − ψ 1) L 2 + ...<br />
θ1 = ψ 1 − 1<br />
0 = ψ 2 − ψ 1<br />
0 = ψ 3 − ψ 2<br />
...<br />
⎧<br />
⎪⎨<br />
⇔<br />
⎪⎩<br />
ψ 1 = 1 + θ1<br />
ψ 2 = 1 + θ1<br />
ψ 3 = 1 + θ1<br />
(alternativa: série de Taylor ou melhor fórmula de Taylor...).<br />
Logo<br />
e, portanto,<br />
(1 + θ1L)<br />
1 − L<br />
Var (en (h)) = σ 2<br />
h−1<br />
...<br />
= 1 + (1 + θ1) L + (1 + θ1) L<br />
<br />
ψ1 ψ2 2 + ...<br />
j=0<br />
ψ 2<br />
j<br />
= σ 2 1 + (1 + θ1) 2 + ... + (1 + θ1) 2<br />
= σ 2 1 + (h − 1) (1 + θ1) 2<br />
Quando h → ∞ ⇒ Var (en (h)) → ∞ (a amplitude dos IC aumenta com h).<br />
6.6.6 Qualidade da Previsão<br />
Podemos comparar a qualidade de previsão de dois modelos diferentes (por exemplo um AR<br />
versus um MA) comparando a variância do erro de previsão Var (en (h)) dos dois modelos.<br />
Esta é a abordagem paramétrica. Temos uma outra forma, mais eficaz, de avaliarmos a<br />
previsão de um (ou mais) modelo(s) e que é descrita a seguir.<br />
O período de observação da série é dividido em dois sub-períodos: o primeiro é des-<br />
ignado por in-sample estimation period e o segundo por out-of sample forecast. Fixe-se o<br />
período de estimação, por exemplo, de 1 a t1 (veja-se a figura 6-18). Embora as observações<br />
180
Insample estimation period<br />
Outof sample<br />
forecast<br />
evaluation period<br />
1 t1<br />
n<br />
Figura 6-18: In-Samples Estimation Period vs. Out-of Sample Forecast Period<br />
disponíveis sejam y1, ..., yt1, ..., yn o modelo é estimado apenas para o período de 1 a t1.<br />
Com base no modelo estimado no período in-sample estimation, geram-se depois as pre-<br />
visões para o período out-of sample forecast e, finalmente comparam-se as previsões com<br />
os valores observados mas não utilizados na estimação. O esforço de previsão no período<br />
pós-estimação é equivalente ao de uma previsão verdadeira 15 .<br />
Seja<br />
(com t1 + h = n).<br />
Avaliação da Previsão I<br />
e (h) = et1 (h) = yt1+h − E (yt1+h| Ft1)<br />
y p<br />
h = E (yt1+h| Ft1)<br />
y o h = yt1+h<br />
Tendo-se calculado os erros e (1) , e (2) , ..., e (h) , podemos agora avaliá-los através das<br />
seguintes medidas:<br />
Erro Médio de Previsão<br />
EMP = 1<br />
h<br />
h<br />
i=1<br />
(y o i − y p 1<br />
i ) =<br />
h<br />
h<br />
e (h)<br />
15 Também se definem as previsões in-sample forecast. Tratam-se de previsões geradas no período de estimação<br />
do modelo. Por exemplo, previsões a h-passos<br />
i=1<br />
E (yt+h| Ft) , t + h ≤ t1.<br />
O esforço de previsão é baixo porque o modelo de previsão usa estimativas ˆθ baseadas nas observações<br />
y1, ..., yt1 (a qualidade da previsão a um passo, h = 1, pode ser avaliada através dos critérios habituais de<br />
ajustamento R2 , ˆσ, etc.).<br />
A avaliação da qualidade da previsão deve basear-se nas previsões out-of-sample.<br />
181
Raiz do Erro Quadrático Médio (REQM ou RMSE)<br />
<br />
<br />
<br />
REQM = 1<br />
h<br />
h<br />
i=1<br />
Erro Absoluto Médio (EAM ou MAE)<br />
EAM = 1<br />
h<br />
h<br />
i=1<br />
(y o i<br />
− yp<br />
i )2 =<br />
|y o i − y p 1<br />
i | =<br />
h<br />
Erro Percentual Absoluto Médio (EPAM ou MAPE)<br />
Coeficiente de Theil<br />
U =<br />
EP AM = 1<br />
h<br />
h<br />
<br />
<br />
<br />
y<br />
<br />
o i − y p<br />
i<br />
yo <br />
<br />
<br />
<br />
i<br />
i=1<br />
REQM<br />
<br />
1 h<br />
h i=1 (yp i )2 +<br />
1<br />
h<br />
= 1<br />
h<br />
<br />
<br />
<br />
1<br />
h<br />
h<br />
e (h) 2<br />
i=1<br />
h<br />
|e (h)|<br />
i=1<br />
h<br />
<br />
<br />
<br />
<br />
i=1<br />
e (h)<br />
y o i<br />
<br />
<br />
<br />
<br />
h i=1 (yo i )2<br />
, 0 ≤ U ≤ 1<br />
EQM penaliza fortemente os erros maiores. A grande maioria das previsões pode ser ex-<br />
celente mas o EQM pode ser alto se existir uma previsão má ou muito má. O EAM não<br />
é tão severo neste aspecto. Se a grande maioria das previsões for boa então o EAM vem<br />
relativamente baixo.<br />
Relativamente ao coeficiente de Theil, quanto mais baixo U melhor é a previsão. O<br />
caso U = 1 é o pior cenário (por exemplo, prever sistematicamente zero quando os valores<br />
observados são diferentes de zero, ou prever sempre valores positivos quando os valores<br />
observados são sempre negativos, etc.).<br />
As estatísticas anteriores avaliam a magnitude do erro de previsão e, com excepção do<br />
EMP, não levam em conta se o erro de previsão é positivo ou negativo. Em certos casos, o<br />
sinal do erro de previsão é importante. Para ilustrar esta situação, considere-se o seguinte<br />
exemplo. Seja y a hora de partida do avião, y p a previsão da hora de chegada ao aeroporto<br />
(para embarcar) e e = y − y p o erro de previsão. Se e > 0, ele ou ela chega adiantado; se<br />
e < 0 chega atrasado e perde o avião. Como poderemos avaliar o erro de previsão? Função<br />
quadrática do tipo EQM? (penalizar de igual forma chegar cedo ou tarde?). Uma função de<br />
182
avaliação poderia ser<br />
⎧<br />
⎨ 999 e < 0<br />
L (e) =<br />
⎩ ke e > 0, k > 0.<br />
(6.17)<br />
Assim, chegar atrasado envolveria uma “perca” de 999 (valor que supomos muito alto), ao<br />
passo que chegar adiantado e unidades de tempo, envolveria uma “perca” proporcional a e<br />
(supondo 999 > ke). Uma estatística de avaliação da qualidade da previsão baseada em<br />
(6.17) é<br />
1<br />
h<br />
h<br />
i=1<br />
Escolhe-se o modelo que minimiza (6.18).<br />
<br />
999I{e(i)0} . (6.18)<br />
Outro caso em que a função perca L (e) é não simétrica aplica-se a modelos de previsão<br />
que visam definir regras de compra e venda. Seja y p<br />
h a previsão do retorno a h passos e yo h o<br />
correspondente valor observado. Considera-se uma previsão correcta quando y p<br />
h apresenta o<br />
mesmo sinal que yo h . A função perca é<br />
⎧<br />
⎨<br />
L (e) =<br />
⎩<br />
1 y p<br />
hyo h < 0<br />
0 y p<br />
hyo h > 0.<br />
(6.19)<br />
Observe-se: se a previsão é correcta y p<br />
h e yo h apresentam o mesmo sinal e, portanto, o produto<br />
y p<br />
hyo h é positivo. Uma estatística de avaliação da qualidade da previsão baseada em (6.19) é<br />
1<br />
h<br />
h<br />
i=1<br />
I {y p<br />
i yo i 0}.<br />
Os erros de previsão podem devem-se, basicamente, às seguinte razões:<br />
• As previsões estão quase sempre acima ou abaixo dos valores observados (exemplo:<br />
valores observado: 10, 11, 9, 12; previsões: 15, 16, 13, 16);<br />
• A variabilidade das previsões é diferente da variabilidade dos valores previstos (exem-<br />
183
plo: valores observados: 10, 11, 9, 12; previsões: 2, 18, 5, 20).<br />
• As previsões estão pouco correlacionadas com os valores observados.<br />
Na metodologia que se segue procura-se identificar estas várias fontes de erro.<br />
Considere-se<br />
e defina-se<br />
s 2 o = 1<br />
h<br />
h<br />
(y o i − ¯y o ) 2 , s 2 p = 1<br />
h<br />
(y<br />
h<br />
i=1<br />
p<br />
i − ¯yp ) 2<br />
1 h<br />
h i=1<br />
r =<br />
(yo i − ¯y o ) (y p<br />
i − ¯yp )<br />
i=1<br />
s0sp<br />
U E = (¯yo − ¯y p ) 2<br />
EQM , U V = (so − sp) 2<br />
EQM , U C =<br />
2 (1 − r) s0sp<br />
EQM<br />
,<br />
respectivamente a proporção do enviesamento, da variância e da covariância. Note-se EQM =<br />
1<br />
h<br />
h<br />
i=1 (yo i − y p<br />
i )2 . A estatística U E mede o erro sistemático, U V mede a capacidade de y p<br />
reproduzir a variabilidade de y o e U C mede o erro não sistemático. A situação ideal (y o i = y p<br />
i )<br />
é U V = U E = 0 e U C = 1. Note-se que U V + U E + U C = 1 (demonstração no apêndice<br />
6.I).<br />
Ao contrário do EMP, da REQM e do EAM as estatísticas EPAM, U de Theil, U V , U E e<br />
U C não dependem da escala da variável. Por exemplo, se a variável em estudo for “entrada de<br />
turistas na fronteira (unidade: n o de indivíduos)” e depois resolvermos passar para “entrada<br />
de turistas na fronteira (unidade: milhares de indivíduos)”, as estatísticas EPAM, U de Theil,<br />
U V , U E e U C não sofrem alteração (porque não dependem da escala da variável).<br />
Exemplo 6.6.5 Na figura seguinte apresentam-se estatísticas referentes a três modelos de<br />
previsão. Analise a qualidade das previsões com base nas estatísticas REQM, U de Theil,<br />
U E , U V , U C e Corr (entre os valores observados e previstos).<br />
Recursive Forecasting vs. Rolling Window<br />
Suponha-se que estamos incumbidos de criar um modelo de previsão a 5 passos. Por<br />
exemplo, podemos estar a trabalhar com dados diários e o nosso objectivo é definir um<br />
modelo de previsão semanal. A qualidade da previsão a h passos, com h = 5 não nos<br />
interessa (só nos interessa a qualidade da previsão a 5 passos). A avaliação da previsão<br />
184
Observado Modelos de Previsão erro quadráticos de previsão<br />
h y yp1 yp2 yp3 modelo1 modelo2 modelo3<br />
1 1 2 2 1 1 1 0<br />
2 2 3 3 3 1 1 1<br />
3 3 2 3 4 1 0 1<br />
4 2 4 4 4 4 4 4<br />
5 4 4 5 7 0 1 9<br />
6 5 5 6 2 0 1 9<br />
7 6 5 7 9 1 1 9<br />
8 7 7 8 3 0 1 16<br />
9 5 4 9 9 1 16 16<br />
10 9 10 10 11 1 1 4<br />
Média 4.4 4.6 5.7 5.3 1 2.7 6.9<br />
Variância 5.64 5.24 6.81 10.61 1.2 20.61 31.29<br />
corr(y,ypi) 0.9124 0.9230 0.6567<br />
UE 0.0400 0.6259 0.1174<br />
UV 0.0074 0.0204 0.1129<br />
UC 0.9526 0.3537 0.7698<br />
U 0.0986 0.1458 0.2341<br />
12<br />
10<br />
8<br />
6<br />
4<br />
2<br />
0<br />
1 2 3 4 5 6 7 8 9 10<br />
Figura 6-19: Três modelos em confronto<br />
feita nos pontos anteriores não serve porque as estatísticas REQM, Coeficiente de Theil,<br />
etc., avaliam a qualidade da previsão a vários passos, ponderando de igual forma esses erros.<br />
Como fazer? Para avaliar a qualidade da previsão a 5 passos fazemos variar t1 (veja-se a<br />
figura 6-18). Podemos ainda ter a chamada “previsão recursiva” (recursive forecasting) ou a<br />
“janela móvel” (rolling window). Exemplifica-se a seguir.<br />
Recursive forecasting<br />
• Estima-se o modelo entre as observações 1 a 1000 e prevê-se para 1005;<br />
• Estima-se o modelo entre as observações 1 a 1001 e prevê-se para 1006;<br />
• Estima-se o modelo entre as observações 1 a 1002 e prevê-se para 1007; etc.<br />
Rolling window<br />
• Estima-se o modelo entre as observações 1 a 1000 e prevê-se para 1005;<br />
• Estima-se o modelo entre as observações 2 a 1001 e prevê-se para 1006;<br />
• Estima-se o modelo entre as observações 3 a 1002 e prevê-se para 1007; etc.<br />
185<br />
y<br />
yp1<br />
yp2<br />
yp3
Em ambos os casos, em cada iteração, faz-se sempre uma previsão a 5 passos. Todavia,<br />
com o método rolling window, o período de estimação contém sempre 1000 observações (o<br />
esforço de estimação é constante). Na primeira hipótese o esforço de estimação vai dimin-<br />
uindo à media que se acrescentam mais observações no período da estimação. Ao fim de<br />
várias iterações temos uma amostra de valores observados e valores previstos a 5 passos,<br />
que podemos comparar usando as estatísticas já estudadas (EQM, EAM, etc.). Em termos<br />
formais, seja,Yi k = {yk, yk+1, ..., yi} , yre h,i := E (yi+h| Yi 1) a previsão a h passos usando o<br />
método recursive forecasting, yro h,i := E yi+h| Yi <br />
i−k , i > k, a previsão a h passos usando<br />
o método rolling window e y o i := yi+h os valores observados. Com base em s previsões<br />
out-of-sample, podemos calcular, por exemplo,<br />
EQM re (h) = 1<br />
s<br />
EQM ro (h) = 1<br />
s<br />
s<br />
i=1<br />
s<br />
i=1<br />
Em geral, devemos esperar<br />
Previsão no EVIEWS<br />
o<br />
yi − y re 2 re 1<br />
h,i , EAM (h) =<br />
s<br />
o<br />
yi − y ro 2 re 1<br />
h,i , EAM (h) =<br />
s<br />
s <br />
y o i − y re<br />
<br />
<br />
i=1<br />
h,i<br />
s <br />
o<br />
yi − y ro<br />
<br />
.<br />
i=1<br />
REQM re (1) ≤ REQM re (2) ≤ ... ≤ REQM re (h)<br />
EAM re (1) ≤ EAM re (2) ≤ ... ≤ EAM re (h)<br />
A previsão no EVIEWS é definida na janela “forecast”. Para obter previsões out-of-<br />
sample é necessário, em primeiro lugar, encurtar a amostra na fase da estimação. Para<br />
concretizar, suponha-se que estão disponíveis 1100 observações da série y. Se o período<br />
out-of-sample forecast for 1001-1100, o período de estimação é obviamente 1-1000. Assim,<br />
na opção de estimação deve-se escrever na caixa “sample” 1 1000 (veja-se a figura 6.6.6).<br />
Depois de estimado o modelo, escolhe-se a opção “forecast” e na caixa “Forecast sample”<br />
escreve-se 1001 1100 (veja-se a figura 6-20).<br />
A opção “Dynamic forecast” faz a previsão de y ignorando os valores observados de y no<br />
período 1001-1100 (segue a metodologia exposta em “Avaliação da Previsão I”). Por exem-<br />
plo, no caso da previsão AR(1) usa-se a fórmula ˆµ n+h,n = ĉ + ˆ φ 1ˆµ n+h−1,n. A opção “Static<br />
forecast” segue o espírito da metodologia “Recursive Forecasting vs. Rolling Window” para<br />
h = 1 com a seguinte diferença: o período de estimação mantém sempre fixo. No exem-<br />
186<br />
h,i
Figura 6-20: Previsão no EVIEWS<br />
187
plo em análise o período de estimação é sempre 1-1000. A previsão AR(1) para o período<br />
1001 é ĉ + ˆ φ 1y1000; para o período 1002 é ĉ + ˆ φ 1y1001, etc. Os parâmetros estimados ĉ e ˆ φ 1<br />
baseiam-se sempre na amostra 1-1000. Em qualquer destas opções o EVIEWS calcula várias<br />
estatísticas a partir dos erros de previsão e (i) , i = 1, 2, ... Por razões óbvias a previsão para<br />
além do período de observação da variável (no exemplo em estudo, 1101-) só pode fazer-se<br />
usando a opção “Dynamic forecast”.<br />
6.6.7 Outros Métodos de Previsão Lineares<br />
Médias Móveis<br />
Para “tendências localmente constantes” a previsão de y, para o período n + 1, n + 2, ...,<br />
baseada na informação {y1, ..., yn} é<br />
y p<br />
n+h = yn + yn−1 + ... + yn−N+1<br />
N<br />
, h = 1, 2, ...<br />
onde N é o n o de obs. incluídas em cada média (período da média móvel). A previsão é<br />
constante.<br />
Para “tendência localmente lineares” pode-se usar o método das “médias móveis duplas”<br />
(médias móveis de médias móveis usadas depois numa estrutura linear ...). Estes métodos<br />
podem ser replicados através dos métodos de alisamento exponencial.<br />
Alisamento Exponencial<br />
Para “tendências localmente constantes” a previsão de y, para o período n + 1, n + 2, ...<br />
, baseada na informação {y1, ..., yn} é<br />
y p<br />
n+h = Sn, h = 1, 2, ...<br />
Sn = αyn + (1 − α) Sn−1, 0 < α < 1<br />
188
Pode-se provar que o alisamento exponencial é uma média ponderada de y1, ..., yn e S0 16 :<br />
Sn = αyn +α (1 − α) yn−1 +α (1 − α) 2 yn−2 +...+α (1 − α) n−1 y1 +(1 − α) n S0. (6.21)<br />
Para “tendências localmente lineares” pode-se usar o método de Holt.<br />
Estes métodos podem ser encarados como casos particulares dos modelos ARIMA. Por<br />
exemplo, a previsão do modelo ARIMA(0,1,1) é equivalente à previsão do modelo<br />
Sn = αyn + (1 − α) Sn−1.<br />
Dem. Uma forma de provar esta afirmação consiste em mostrar que, se yt segue um<br />
ARIMA(0,1,1)<br />
yt = yt−1 − θut−1 + ut, µ t = yt−1 − θut−1<br />
então, a previsão para yn+1 pode-se escrever na forma da equação (6.21) 17 . Uma demon-<br />
stração alternativa é a seguinte. No modelo ARIMA(0,1,1) a previsão para yn+1 é E (yn+1| Fn) =<br />
16 Com efeito,<br />
Sn = αyn + (1 − α) Sn−1<br />
= αyn + (1 − α) (αyn−1 + (1 − α) Sn−2)<br />
= αyn + (1 − α) αyn−1 + (1 − α) 2 Sn−2<br />
= αyn + (1 − α) αyn−1 + (1 − α) 2 (αyn−2 + (1 − α) Sn−3)<br />
= αyn + (1 − α) αyn−1 + (1 − α) 2 αyn−2 + (1 − α) 3 Sn−3<br />
= ...<br />
= αyn + α (1 − α) yn−1 + α (1 − α) 2 yn−2 + ... + α (1 − α) n−1 y1 + (1 − α) n S0.<br />
O alisamento exponencial é uma média ponderada de y1, ..., yn e S0.<br />
17 Com efeito, a previsão para yn+1, µ n+1,n, é<br />
µ n+1,n = yn − θun<br />
= yn − θ (yn − µ n)<br />
= yn − θyn + θµ n<br />
= (1 − θ) yn + θ (yn−1 − θun−2)<br />
= (1 − θ) yn + θyn−1 − θ 2 un−2<br />
= (1 − θ) yn + θyn−1 − θ 2 (yn−2 − θun−3)<br />
= (1 − θ) yn + (1 − θ) θyn−1 + θun−3<br />
= ...<br />
= (1 − θ) yn + (1 − θ) θyn−1 + (1 − θ) θ 2 yn−2 + ... + (1 − θ) θ n−1 y1 + θ n y0.<br />
Para verificar que a previsão do modelo ARIMA(0,1,1) é equivalente à previsão do modelo Sn = αyn +<br />
(1 − α) Sn−1 basta comparar a expressão obtida para µ n+1,n com (6.21). Estas expressões são iguais para<br />
α = (1 − θ) (admitindo que S0 = y0). É fácil observar que a previsão para yn+h, h ≥ 1, em ambos os<br />
modelos, é Sn = µ n+1,n.<br />
189
µ n+1,n. Verifique-se agora que<br />
µ t = yt−1 − θut−1<br />
Logo, no modelo ARIMA(0,1,1), tem-se<br />
= yt−1 − θ <br />
yt−1 − µ t−1<br />
= (1 − θ) yt−1 + θµ t−1.<br />
µ n+1,n = (1 − θ) yn + θµ n<br />
ou, redefinindo, Sn = µ n+1,n e α = 1 − θ, vem<br />
Sn = αyn + (1 − α) Sn−1,<br />
que é precisamente a expressão do alisamento exponencial.<br />
Como conclusão: os modelos ARIMA são (muito) mais gerais do que modelos concor-<br />
rentes vistos neste ponto.<br />
6.A Método para Obter a FACP<br />
Considere a regressão linear<br />
yt+s = φ s1yt+s−1 + φ s2yt+s−2 + ... + φ ssyt + ξ t+s<br />
e suponha-se que Var (yt) = 1 e E (yt) = 0 (a correlação parcial e total é independente da<br />
origem e da escala das variáveis). Multiplicando ambos os termos por yt+s−j, j = 1, 2, ..., s,<br />
tomando os valores esperados e dividindo por γ 0 obtém-se o sistema,<br />
ρ j = φ s1ρ j−1 + ... + φ ssρ j−s j = 1, 2, ..., s. (6.22)<br />
Para obter φ 11 considera-se a equação (6.22) para s = 1,<br />
ρ 1 = φ 11ρ 0<br />
190<br />
(ρ 0 = 1).
Donde,<br />
φ 11 = ρ 1.<br />
Para obter φ 22 considera-se o sistema (6.22) com s = 2,<br />
⎧<br />
⎨<br />
⎩<br />
ρ 1 = φ 21 + φ 22ρ 1<br />
ρ 2 = φ 21ρ 1 + φ 22<br />
e resolve-se em ordem a φ 22 (e em ordem a φ 21). Aplicando, por exemplo, a regra de Cramer<br />
obtém-se<br />
<br />
<br />
1 ρ<br />
1 <br />
<br />
<br />
ρ1 ρ2 <br />
φ22 = <br />
<br />
1 ρ<br />
1 <br />
<br />
<br />
ρ1 1 <br />
= ρ2 − ρ2 1<br />
1 − ρ2 .<br />
1<br />
Utilizando o mesmo procedimento pode-se concluir que<br />
φ 33 =<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
1 ρ 1 ρ 1<br />
ρ 1 1 ρ 2<br />
ρ 2 ρ 1 ρ 3<br />
1 ρ 1 ρ 2<br />
ρ 1 1 ρ 1<br />
ρ 2 ρ 1 1<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
= ρ3 − 2ρ1ρ2 + ρ3 1 + ρ1ρ2 2 − ρ2 1ρ3 2ρ2 1ρ2 − ρ2 2 − 2ρ2 .<br />
1 + 1<br />
6.B Transformação de um Processo MA(1) Não Invertível<br />
num Invertível<br />
Mostra-se a seguir que um processo não invertível pode transformar-se num processo in-<br />
vertível com funções de autocorrelação e autocorrelações parciais iguais.<br />
Associado a um processo MA(1) não invertível existe sempre um outro processo MA(1)<br />
invertível com a mesma FAC e FACP. Por exemplo, considere-se o processo MA(1) não<br />
invertível.<br />
yt = 4ut−1 + ut, θ = 4. (6.23)<br />
Este modelo não serve para previsão pois a representação autoregressiva não está bem definida.<br />
191
O processo (6.23) verifica:<br />
e<br />
Ora o processo<br />
ρ1 =<br />
θ<br />
θ 2 4<br />
=<br />
+ 1 42 + 1<br />
ρs = 0 para s > 1<br />
φ 11 = ρ 1 = θ<br />
θ 2 + 1<br />
φ ss = θs 1 − θ 2<br />
1 − θ<br />
˜yt = 1<br />
4 ũt−1 + ũt,<br />
= 4<br />
17<br />
= 4<br />
17<br />
4<br />
= 15<br />
2(s+1) s<br />
1 − 42s+2 tem a mesma FAC e FACP do processo y. Com efeito,<br />
˜ρ 1 = ˜ φ 11 = ˜ θ<br />
˜φ ss =<br />
1<br />
θ<br />
1 − 1<br />
θ<br />
1<br />
θ<br />
˜ θ = 1<br />
4<br />
2 = <br />
˜ 1 2 =<br />
θ + 1 + 1 θ<br />
θ<br />
θ 2 + 1<br />
<br />
s<br />
1 − <br />
1 2<br />
θ<br />
4<br />
= 15<br />
2(s+1)<br />
s<br />
.<br />
1 − 42s+2 = 4<br />
17<br />
Na prática, qual é o alcance deste resultado? Se não ocorrer invertibilidade na fase da es-<br />
timação devemos definir outros valores iniciais para os parâmetros. Por exemplo, se o pro-<br />
grama fornece como estimativa ˆ θ = 4 devemos definir outros valores iniciais até que o<br />
software encontre a estimativa 1/4 para o parâmetro do processo MA. Convém lembrar que<br />
a estimação de processos MA envolve problemas de optimização não linear. Por vezes, a<br />
solução do problema de optimização é um extremante local (e não global, como é dese-<br />
jável). Poderão existir outros extremantes que serão detectados se definirmos outros valores<br />
de inicialização.<br />
6.C Invertibilidade de Processos MA (exemplos)<br />
Observação 6.C.1 Se uma raiz r é complexa, i.e. r = a + bi, o módulo é |r| = √ a 2 + b 2 .<br />
Exemplo 6.C.1 yt = (1 − 0.5L + 0.1L 2 − 0.5L 3 ) ut é invertível?<br />
θ3 (L) = 1 − 0.5L + 0.1L 2 − 0.5L 3 .<br />
192
Resolvendo θ3 (L) = 0 em ordem a L (através de um qualquer software) obtêm-se as<br />
seguintes raízes<br />
Como<br />
−0.42 + 1.3i, −0.42 − 1.3i, 1.05<br />
|−0.42 + 1.3i| = √ .42 2 + 1.3 2 > 1 , |1.05| > 1<br />
conclui-se que o processo yt = (1 − 0.5L + 0.1L 2 − 0.5L 3 ) ut é invertível. O método dos<br />
coeficientes indeterminados permite determinar os parâmetros φ i que figuram do lado direito<br />
da expressão<br />
1<br />
1 − 0.5L + 0.1L 2 − 0.5L 3 = 1 + φ 1L + φ 2L 2 + ...<br />
Multiplicando ambos os termos por (1 − 0.5L + 0.1L 2 − 0.5L 3 ) tem-se<br />
1 = 1 − 0.5L + 0.1L 2 − 0.5L 3 1 + φ 1L + φ 2L 2 + ... .<br />
Depois de se multiplicarem e reordenarem todos os termos do lado direito da expressão<br />
anterior vem,<br />
Desta equação resulta: ⎧⎪ ⎨<br />
1 = 1 + (φ 1 − 0.5) L + (0.1 − 0.5φ 1 + φ 2) L 2 + ...<br />
⎪⎩<br />
φ 1 − 0.5 = 0<br />
0.1 − 0.5φ 1 + φ 2 = 0<br />
Da primeira equação sai φ 1 = 0.5; da primeira e da segunda sai, φ 2 = 0.15, etc. Em suma<br />
e, portanto,<br />
1 − 0.5L + 0.1L 2 − 0.5L 3 −1 = 1 + 0.5L + 0.15L 2 + 0.52 L 3<br />
...<br />
+0.49L 4 + 0.27L 5 + ...<br />
yt = −0.5yt−1 − 0.15yt−2 − 0.52yt−3 − 0.49yt−4 − 0.27yt−5 − ...<br />
Nota final: o programa Mathematica (entre outros) calcula facilmente os parâmetros φ i. A<br />
instrução é<br />
1<br />
Series[<br />
1 − 0.5L + 0.1L2 ,{L,0,5}].<br />
− 0.5L3 193
O programa EVIEWS apresenta as raízes invertidas do polinómio θq (L). Nestas condições,<br />
o processo y é invertível se as raízes invertidas θq (L) forem em módulo inferiores a um (ou<br />
dentro do circulo unitário no plano complexo). Segue-se a explicação. Suponha-se que o<br />
polinómio MA é θ (L) = (1 − 0.2L + 0.4L 2 ) . As raízes de θ (L):<br />
θ (L) = 0 ⇒ L1 = 0.25 − 1.56i, L2 = 0.25 + 1.56i<br />
As raízes estão fora do círculo unitário, pois<br />
|L1| =<br />
<br />
0.25 2 + (−1.56) 2 = 1.58 > 1, |L2| = ... = 1.58 > 1.<br />
Logo o processo yt = θ (L) ut é invertível. O programa EVIEWS apresenta as raízes inver-<br />
tidas. No exemplo em análise, φ (L) = (1 − 0.2L + 0.4L 2 ) , o EVIEWS não apresenta L1 e<br />
L2 mas sim<br />
1<br />
L1<br />
e 1<br />
.<br />
L2<br />
Quando as raízes são reais é óbvio que |L| > 1 implica |1/L| < 1. Quando as raízes são<br />
complexas pode-se provar que |L| > 1 ⇔ |1/L| < 1. Com efeito, suponha-se que uma raiz<br />
de φ (L) é a + bi. Esta raiz está fora do círculo unitário se |a + bi| = √ a 2 + b 2 > 1. Se a<br />
raiz a + bi é invertida, tem-se<br />
e<br />
<br />
<br />
<br />
1 <br />
<br />
a<br />
+ bi<br />
=<br />
Conclui-se, portanto, que<br />
1<br />
a + bi =<br />
a<br />
a2 −<br />
+ b2 b<br />
a2 i<br />
+ b2 <br />
<br />
a<br />
a2 + b2 2 <br />
b<br />
+<br />
a2 + b2 2 =<br />
|a + bi| = √ a2 + b2 <br />
<br />
> 1 ⇔ <br />
1 <br />
<br />
a<br />
+ bi<br />
=<br />
1<br />
√ a 2 + b 2 .<br />
1<br />
√ a 2 + b 2<br />
< 1.<br />
Retomando o exemplo φ (L) = (1 − 0.2L + 0.4L 2 ) o EVIEWS apresenta<br />
1<br />
0.25 − 1.56i<br />
1<br />
0.25 + 1.56i<br />
= 0.100 16 + 0.624 97i<br />
= 0.100 16 − 0.624 97i.<br />
194
Como √ 0.100 16 2 + 0.624 97 2 = 0.632 95 < 1 o processo yt = θ (L) ut é invertível. Em<br />
suma, no programa EVIEWS as raízes invertidas θq (L) devem ser em módulo inferiores a<br />
um (ou dentro do circulo unitário no plano complexo). Veremos ainda que as raízes invertidas<br />
do polinómio AR φ (L) devem também ser em módulo inferiores a um (ou dentro do circulo<br />
unitário no plano complexo) para que o processo seja ESO.<br />
Exemplo 6.C.2 Retome-se o exemplo 6.C.1. O programa EVIEWS em lugar de fornecer as<br />
raízes<br />
−0.42 + 1.3i, −0.42 − 1.3i, 1.05<br />
fornece as raízes invertidas, i.e., o lado direito das seguintes expressões:<br />
1<br />
−0.42 + 1.3i<br />
1<br />
= −0.225 + 0.696i,<br />
−0.42 − 1.3i<br />
= −0.225 − 0.696i,<br />
1<br />
1.05<br />
= 0.952.<br />
Assim, no programa EVIEWS as raízes invertidas de θq (L) devem ser em módulo inferiores<br />
a um (ou dentro do circulo unitário no plano complexo). Verifique que |−0.225 − 0.696i| <<br />
1, |−0.225 + 0.696i| < 1, |0.952| < 1.<br />
6.D Estacionaridade de 2 a Ordem do Processo AR(1)<br />
A ESO pode ser discutida a partir de vários conceitos. Para processos lineares é relativamente<br />
fácil estudar a ESO. Considere-se (com c = 0) o processo AR(1)<br />
yt = φyt−1 + ut = φ t y0 + φ t−1 u1 + φ t−2 u2 + ... + φut−1 + ut<br />
(6.24)<br />
(tendo-se admitido que o processo teve início em t0). Questão: para que valores de φ a<br />
média, a variância e a covariância não dependem de t? A média é<br />
E (yt) = E (E (yt| F0)) = φ t E (y0) .<br />
Claramente, se |φ| > 1 então E (yt) → ∞ e o processo não é ESO. Se φ = 1 vem<br />
E (yt) = φ t E (y0) = E (y0) .<br />
195
Nada se pode dizer, por enquanto. Se |φ| < 1 vem E (yt) = φ t E (y0) → 0 quando t → ∞.<br />
Para simplificar admite-se que o processo y é inicializado em condições estacionárias i.e.,<br />
admite-se E (y0) = 0. Nestas condições<br />
Por outro lado, o segundo momento é<br />
E (yt) = φ t E (y0) = 0.<br />
E y 2 t = E E y 2 =<br />
<br />
<br />
t F0<br />
φt E E y0 + φ t−1 u1 + φ t−2 <br />
2 u2 + ... + φut−1 + ut F0<br />
<br />
= E E<br />
<br />
= E φ 2t y 2 0 + φ 2(t−1) σ 2 + φ 2(t−2) σ 2 + ... + φ 2 σ 2 + σ 2<br />
<br />
= φ 2t E y 2 <br />
2<br />
0 + σ φ 2(t−1) + φ 2(t−2) + ... + φ 2 <br />
+ 1 .<br />
φ 2t y 2 0 + φ 2(t−1) u 2 1 + φ 2(t−2) u 2 2 + ... + φ 2 u 2 t−1 + u 2 t + ...<br />
F0<br />
Se φ = 1 vem E (y2 t ) = E (y2 0)+σ 2t → ∞. Se |φ| > 1 vem E (y2 t ) = φ 2t E (y2 2 1−φ2t<br />
0)+σ 1−φ2 →<br />
∞. Se |φ| < 1 vem E (y2 t ) = φ 2t E (y2 2 1−φ2t<br />
0) + σ 1−φ2 → σ2<br />
1−φ2 .<br />
Teoricamente pode-se definir E (y 2 0) = σ2<br />
1−φ 2 e, neste caso, com |φ| < 1, o processo é<br />
apenas ESO assimptoticamente. Se o processo é inicializado em “condições estacionárias”<br />
i.e. E (y 2 0) = σ2<br />
1−φ 2 , então, no caso |φ| < 1, resulta imediato que<br />
E y 2 2t σ<br />
t = φ 2<br />
1 − φ<br />
1 − φ2t σ2<br />
2 + σ2<br />
2 =<br />
1 − φ<br />
2 (constante ∀t).<br />
1 − φ<br />
Relativamente às covariâncias. Suponha-se y0 = 0 (para simplificar). No caso |φ| < 1 já<br />
vimos que γ k = φ k γ 0 e ρ k = φ k . Suponha-se agora φ = 1. Tem-se, a partir de (6.24),<br />
yt = u1 + u2 + ... + ut−1 + ut<br />
196
e, assim,<br />
E (ytyt−k) = E (E (ytyt−k |Ft−k )) = E (yt−k E (yt |Ft−k ))<br />
= E ((u1 + u2 + ... + ut−k) E (yt |Ft−k ))<br />
= E ((u1 + u2 + ... + ut−k) (u1 + u2 + ... + ut−k))<br />
= E u 2 1 + u 2 2 + ... + u 2 <br />
t−k + E (termos cruzados)<br />
= σ 2 (t − k) (depende de t)<br />
= γ t,k<br />
Correlações (ainda o caso φ = 1):<br />
γ t,k<br />
γ 0,k<br />
= σ2 (t − k)<br />
σ 2 t<br />
= t − k<br />
t<br />
= 1 − k<br />
t = ρ t,k<br />
(depende de t). Coligindo todos resultados conclui-se que a média, a variância e a covariân-<br />
cia não dependem de t se |φ| < 1. Em suma,<br />
|φ| < 1 ⇔ yt é ESO<br />
(supondo que a condição inicial tem distribuição estacionária ou que o processo foi iniciado<br />
num passado remoto).<br />
AR(1)<br />
Outra forma de analisar a questão em estudo é a seguinte 18 . Considere-se novamente o<br />
yt = c + φyt−1 + ut<br />
O esqueleto da equação anterior é a equação às diferenças finitas<br />
˜yt = f (˜yt−1) = c + φ˜yt−1, f (x) = c + φx<br />
Satisfeitas outras condições (ver Tong, 1990) o processo y é EE se o ponto fixo ¯y da EDF<br />
˜yt = c + φ˜yt−1 é assimptoticamente estável. O ponto fixo ¯y da equação às diferenças finitas<br />
18 Apenas para o leitor que tenha estudado o problema da estabilidade no âmbito das equações às diferenças<br />
finitas determinísticas.<br />
197
(determinística) é o que resulta de<br />
¯y = f (¯y)<br />
¯y = c + φ¯y ⇒ ¯y = c<br />
1 − φ .<br />
Como se sabe, a condição |f ′ (¯y)| < 1 implica que ¯y é assimptoticamente estável. Ora<br />
f ′ (x) = φ. Portanto, se |φ| < 1, ¯y é assimptoticamente estável e y é EE.<br />
Pode-se também recorrer às proposições 4.5.1 e 4.5.4 notando que, no caso AR(1) a<br />
função g é g (x) = φx e imediatamente se verifica que |g (x)| < |x| se |φ| < 1. Nas<br />
condições das proposições referidas, o processo é EE. É ESO se o momento de segunda<br />
ordem existir. Facilmente se verifica que existe. Nestas condições, o processo AR(1), com<br />
|φ| < 1, é EE e ESO.<br />
6.E Estacionaridade de 2 a Ordem do Processo AR(p)<br />
A ESO pode ser analisada convertendo a equação yt = φ 1yt−1+...+φ pyt−p+ut num sistema<br />
de equações lineares mediante as seguintes mudanças de variáveis:<br />
Tem-se<br />
y1,t = yt, y2,t = yt−1, ..., yp,t = yt−p+1.<br />
y1,t = c + φ 1yt−1 + ... + φ pyt−p + ut<br />
y2,t = y1,t−1<br />
yp,t = yp−1,t.<br />
.<br />
198
De forma compacta, tem-se uma estrutura de um processo vectorial AR(1), habitualmente<br />
designado por VAR(1) (vector AR), yt= c + Ay t−1+g t, i.e.<br />
⎛ ⎞ ⎛<br />
⎞⎛<br />
⎞ ⎛ ⎞<br />
y1,t φ<br />
⎜ ⎟ ⎜ 1<br />
⎜ ⎟ ⎜<br />
⎜ y2,t ⎟ ⎜ 1<br />
⎜ ⎟<br />
⎜ ⎟ = ⎜<br />
⎜ . ⎟ ⎜ .<br />
⎝ ⎠ ⎝<br />
φ2 0<br />
.<br />
· · ·<br />
· · ·<br />
.. .<br />
φn−1 0<br />
.<br />
φn y1,t−1 ut<br />
⎟⎜<br />
⎟ ⎜ ⎟<br />
⎟⎜<br />
⎟ ⎜ ⎟<br />
0 ⎟⎜<br />
y2,t−1 ⎟ ⎜ 0 ⎟<br />
⎟⎜<br />
⎟<br />
⎟⎜<br />
⎟ + ⎜ ⎟<br />
⎜ ⎟<br />
. ⎟⎜<br />
. ⎟ ⎜ . ⎟<br />
⎠⎝<br />
⎠ ⎝ ⎠<br />
<br />
yp,t<br />
<br />
0 0 · · ·<br />
<br />
1 0<br />
<br />
yp,t−1<br />
<br />
0<br />
<br />
yt<br />
A<br />
Resolvendo recursivamente o sistema yt= Ay t−1+g t (dada a condição inicial Y0) obtém-se<br />
yt−1<br />
yt= A t y0+A t−1 g1+A t−2 g2+... + Ag t−1+g t.<br />
É relativamente óbvio que devemos exigir A t → O (matriz nula) quando t → ∞. Por<br />
exemplo se A t → O quando t → ∞ então<br />
E (yt| F0) = A t y0 → 0 (vector nulo)<br />
(isto é E (yt| F0) converge para a sua média marginal, se A t → O). Seja Λ = diag (λ1, ..., λn)<br />
a matriz dos valores próprios de A e P a matriz dos vectores próprios associados (admitem-<br />
se linearmente independentes). Como se sabe da álgebra linear, verifica-se a igualdade<br />
A t = PΛ t P −1 . Logo devemos exigir que todos os valores próprios de A sejam em mó-<br />
dulo menores do que um. Só nestas condições se tem A t → O. Pode-se provar que esta<br />
condição é equivalente à seguinte: o processo AR(p) é estacionário sse as raízes da equação<br />
φ p (L) = 0 estão todas fora do círculo unitário no plano complexo.<br />
6.F Processos ARMA Sazonais<br />
Neste apêndice faz-se uma breve análise dos processos ARMA sazonais ou SARMA.<br />
Muitas sucessões envolvem uma componente sazonal ou periódica de período S (número<br />
de observações por período). Exemplos:<br />
199<br />
gt
0.04<br />
0.03<br />
0.02<br />
0.01<br />
0.00<br />
0.01<br />
yt Frequência S<br />
Entrada de Turistas Mensal 12<br />
Entrada de Turistas Trimestral 4<br />
Retornos de um Título Diários 5<br />
Crédito Total ao Consumo EUA<br />
0.02<br />
1980 1981 1982 1983 1984 1985<br />
Considere-se, yt - entrada de turistas na fronteira, dados mensais. É natural esperar:<br />
yt−12 “alto”⇒ yt “alto”<br />
yt−12 “baixo”⇒ yt “baixo”<br />
Se só existisse a componente sazonal teríamos:<br />
Processo AR(P)S<br />
yt = Φ1yt−12 + ut, ou<br />
yt = Φ1yt−12 + Φ1yt−24 + ut.<br />
• AR(1)S yt = Φ1yt−S + ut ut ruído branco<br />
• AR(2)S<br />
• AR(P)S<br />
yt = Φ1yt−S + Φ2yt−2S + ut<br />
yt = Φ1yt−12 + Φ2yt−2s + ... + ΦP yt−P s + ut ou,<br />
1 − Φ1L S − Φ2L 2S − ... − ΦP L P S yt = ut<br />
200<br />
ΦP<br />
L S yt = ut.
Para um AR(1)S, yt = Φ1yt−S + ut, deixa-se como exercício verificar que<br />
yt =<br />
∞<br />
j=0<br />
Var (yt) = σ 2<br />
Φ j<br />
1ut−jS, E (yt) = 0,<br />
∞<br />
j=0<br />
Φ 2j<br />
1 = σ2<br />
1 − Φ 2 1<br />
Relativamente à covariância pode-se concluir:<br />
Donde<br />
Cov (yt, yt+1) =<br />
∞<br />
i=0<br />
i=0<br />
∞<br />
j=0<br />
j=0<br />
Φ i 1Φ j<br />
1 E (ut−iSut+1−jS) = 0<br />
(σ 2 = Var (ut) ),<br />
Cov (yt, yt+2) = Cov (yt, yt+3) = Cov (yt, yt+S−1) = 0<br />
Cov (yt, yt+S) =<br />
∞ ∞<br />
Φ i 1Φ j+1<br />
1 E (ut−iSut−jS) = σ 2<br />
∞<br />
Φ j<br />
1Φ j+1 2 Φ1<br />
1 = σ<br />
1 − Φ2 .<br />
1<br />
Também se pode concluir<br />
⎧<br />
⎨<br />
ρk =<br />
⎩<br />
Φ m 1<br />
i=0<br />
k = mS, m = 0, 1, 2, ...<br />
0 k = mS, m = 0, 1, 2, ...<br />
⎧<br />
⎨ Φ1 k = S<br />
φkk =<br />
⎩ 0 k = S.<br />
Na figura seguinte apresenta-se a FAC e FACP (teóricas) de um processo AR(1)S=12 com<br />
Φ1 = 0.5.<br />
1<br />
0.9<br />
0.8<br />
0.7<br />
0.6<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
1<br />
0.9<br />
0.8<br />
0.7<br />
0.6<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
FAC<br />
0 12 24 36 48<br />
FACP<br />
0 12 24 36 48<br />
O processo AR(P)S tem o mesmo comportamento básico do processo AR(P).<br />
Processo MA(Q)S<br />
• MA(1)S yt = −Θ1ut−S + ut, ut ruído branco;<br />
201
• MA(2)S<br />
• MA(Q)S<br />
yt = −Θ1ut−S − Θ2ut−2S + ut;<br />
yt = −Θ1ut−S − Θ2ut−2S − ... − ΘQut−QS + ut ou,<br />
yt = 1 − Θ1L S − Θ2L 2S − ... − ΘQL Qs ut<br />
yt =<br />
S<br />
ΘQ L ut<br />
Para um MA(1)S, yt = −Θ1ut−S + ut, deixa-se como exercício verificar que<br />
Também se pode concluir:<br />
e<br />
E (yt) = 0,<br />
Var (yt) = 1 + Θ 2 2<br />
1 σ<br />
⎧<br />
⎨<br />
ρk =<br />
⎩<br />
⎧<br />
⎨<br />
φkk =<br />
⎩<br />
− Θ1<br />
1+Θ 2 1<br />
(σ 2 = Var (ut) ).<br />
k = S<br />
0 k = S<br />
− Θ1<br />
1+Θ2 1<br />
− Θm 1 (1−Θ2 1)<br />
1−Θ 2(m+1)<br />
1<br />
k = S<br />
k = S.<br />
Na figura seguinte apresenta-se a FAC e FACP (teóricas) de um processo MA(1)S=12 com<br />
Θ1 = −0.5<br />
1<br />
0.9<br />
0.8<br />
0.7<br />
0.6<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
FAC<br />
0.1<br />
0<br />
0<br />
1<br />
0.9<br />
12 24<br />
FACP<br />
36 48<br />
0.8<br />
0.7<br />
0.6<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
0 12 24 36 48<br />
O processo MA(Q)S tem o mesmo comportamento básico do processo MA(Q).<br />
Processos Multiplicativos ARMA(p,q)(P,Q)S<br />
Componentes não sazonal e sazonal (modelo ARMA(p,q)(P,Q)S):<br />
φ p (L) ΦP<br />
S<br />
L S<br />
yt = θq (L) ΘQ L ut<br />
202
Exemplo 6.F.1 Modelo ARMA(2,1)(1,0)12<br />
1 − φ1L − φ 2L 2 1 − Φ1L 12 yt = (1 + θ1L) ut<br />
1 − φ1L − φ 2L 2 − Φ1L 12 + φ 1Φ1L 13 + φ 2Φ1L 14 yt = ut + θ1ut−1<br />
yt = φ 1yt−1 + φ 2yt−2 + Φ1yt−12 − φ 1Φ1yt−13 − φ 2Φ1yt−14 + ut + θ1ut−1<br />
Corresponde a um modelo ARMA(14,1) com restrições (não lineares) entre os parâmetros<br />
(incluindo restrições de nulidade).<br />
6.G Demonstração da Proposição 6.5.1<br />
Dem. a) Dado o modelo y = Xβ 1 + γd + u, o estimador OLS de γ é<br />
ˆγ = (d ′ Md) −1 d ′ My, M = I − X (X ′ X) −1 X ′<br />
= (d ′ Md) −1 d ′ M (Xβ 1 + γd + u)<br />
= γ + (d ′ Md) −1 d ′ Mu.<br />
Analise-se a convergência em probabilidade dos termos (d ′ Md) −1 e d ′ Mu (note-se que<br />
ˆ ξ<br />
p<br />
−→ ξ e ˆ ζ<br />
p<br />
−→ ζ implica ˆ ξ ˆ ζ<br />
p<br />
−→ ξζ). Tem-se<br />
d ′ Md = d ′<br />
<br />
I − X (X ′ X) −1 X ′<br />
<br />
d<br />
= d ′ d − d ′ X (X ′ X) −1 X ′ d<br />
= 1 − x ′ t∗ (X′ X) −1 xt∗<br />
= 1 − x′ ′ −1<br />
t∗ X X<br />
xt∗.<br />
n n<br />
Tendo em conta que x ′ t∗ /n −→ 0 e X ′ <br />
X −1 p −1 −→ Q facilmente se conclui que<br />
n<br />
d ′ Md p<br />
−→ 1. (6.25)<br />
203
Por outro lado,<br />
d ′ Mu = d ′<br />
<br />
I − X (X ′ X) −1 X ′<br />
<br />
u<br />
e, usando um raciocínio idêntico, conclui-se que<br />
Devido a (6.25) e (6.26) resulta:<br />
b) Considere-se<br />
Tem-se<br />
e,<br />
Resulta ˆγ<br />
ˆεt∗<br />
p<br />
−→ 1<br />
ˆγ =<br />
= d ′ u − d ′ X (X ′ X) −1 X ′ u<br />
= ut∗ − d ′ ′ −1 ′ X X X u<br />
X<br />
n n<br />
d ′ Md p<br />
−→ ut∗. (6.26)<br />
ˆγ=γ+ (d ′ Md) −1 d ′ Mu p<br />
−→ γ + ut∗.<br />
=<br />
ˆγ<br />
ˆεt∗<br />
y = Xβ 0 + ε, ˆεt∗ = d ′ My.<br />
<br />
1 − x′ ′<br />
t∗ X X<br />
n n<br />
<br />
1 − x′ ′<br />
t∗ X X<br />
n n<br />
=<br />
<br />
1 − x′ t∗<br />
n<br />
−1<br />
−1<br />
X ′ X<br />
n<br />
xt∗<br />
xt∗<br />
−1<br />
−1<br />
−1<br />
xt∗<br />
d ′ My<br />
ˆεt∗<br />
−1<br />
6.H Uma Nota sobre Intervalos de Confiança<br />
Considere-se novamente a equação (6.13). Argumentámos que a substituição de µ n+h,n por<br />
ˆµ n+h,n aumenta a variância do erro de previsão numa quantidade proporcional a 1/n. Veja-se<br />
esta questão mais em pormenor.<br />
204<br />
.
Quando µ n+h,n é desconhecido, a variável yn+h definida em<br />
P (l1 < yn+h < l2| Fn) = 0.95,<br />
deve ser centrada usando-se ˆµ n+h,n (e não µ n+h,n) Observe-se que a variável yn+h − ˆµ n+1,n<br />
continua a possuir distribuição normal de média zero. No entanto, a variância de yn+h −<br />
ˆµ n+1,n é agora,<br />
Var yn+h − ˆµ n+h,n<br />
<br />
Fn<br />
<br />
= Var yn+h − µ n+h,n + ˆµ n+h,n − µ <br />
n+h,n Fn<br />
= Var <br />
yn+h − µ <br />
n+h,n Fn + Var ˆµn+h,n − µ n+h,n<br />
= Var (e (h)) + Var <br />
ˆµ n+h,n − µ <br />
n+h,n Fn<br />
(observe-se que yn+h−µ n+h,n é independente de ˆµ n+h,n−µ n+h,n, pois yn+h−µ n+h,n envolve<br />
apenas erros aleatórios posteriores a n, enquanto ˆµ n+h,n − µ n+h,n envolve variáveis até ao<br />
período n). Como consequência, o IC a 95% construído a partir de ˆµ n+h,n é<br />
<br />
ˆµ n+h,n ± 1.96 Var (e (h)) + Var <br />
ˆµ n+h,n − µ n+h,n<br />
Pode-se provar que Var <br />
ˆµ n+h,n − µ <br />
n+h,n Fn é uma quantidade de ordem O (1/n); assim,<br />
para amostra grandes, Var <br />
ˆµ n+h,n − µ <br />
n+h,n Fn é uma quantidade “pequena” quando comparada<br />
com Var (e (h)) e pode ser negligenciada. A quantidade Var <br />
ˆµ n+h,n − µ <br />
n+h,n Fn<br />
pode ser estimada a partir de uma equação auxiliar. Para exemplificar considere-se a previsão<br />
a um passo de um AR(1). A estimativa de c da equação<br />
yt = c + φ 1 (yt−1 − yn) + ut<br />
fornece uma estimativa para µ n+1,h (i.e., fornece ˆµ n+1,n) pois ˆyn+1 = ĉ + ˆ φ 1 (yn − yn) = ĉ.<br />
Por outro lado, o erro padrão de ĉ = ˆµ n+1,n é uma estimativa para<br />
Var ˆµ n+1,n − µ n+1,n<br />
<br />
Fn<br />
205<br />
<br />
= Var ˆµn+1,n<br />
Fn<br />
Fn<br />
.<br />
.<br />
Fn
6.I U E + U V + U C = 1<br />
Veja-se em primeiro lugar que o EQM pode-se decompor em várias parcelas. Considere-se:<br />
Assim<br />
EQM = 1<br />
h<br />
= 1<br />
h<br />
= 1<br />
h<br />
h<br />
i=1<br />
h<br />
i=1<br />
h<br />
i=1<br />
(y o i − y p<br />
i )2<br />
(y o i − ¯y o + ¯y o − y p<br />
i + ¯yp − ¯y p ) 2<br />
((y o i − ¯y o ) − (y p<br />
i − ¯yp ) + (¯y o − ¯y p )) 2<br />
= 1<br />
h<br />
(y<br />
h<br />
i=1<br />
o i − ¯y o ) 2<br />
<br />
σ2 +<br />
o<br />
1<br />
h<br />
(y<br />
h<br />
i=1<br />
p<br />
i − ¯yp ) 2<br />
<br />
σ2 p<br />
+ (¯y o − ¯y p ) 2 − 2 1<br />
h<br />
(y<br />
h<br />
i=1<br />
o i − ¯y o ) (y p<br />
i − ¯yp )<br />
<br />
ρσ0σp<br />
= σ 2 o + σ 2 p + (¯y o − ¯y p ) 2 − 2ρσ0σp<br />
= (σo − σp) 2 + (¯y o − ¯y p ) 2 + 2 (1 − ρ) σ0σp<br />
EQM = (σo − σp) 2 + (¯y o − ¯y p ) 2 + 2 (1 − ρ) σ0σp<br />
e, portanto, dividindo ambos os termos pelo EQM, obtém-se<br />
1 = EQM<br />
EQM<br />
= (σo − σp) 2<br />
EQM<br />
<br />
U V<br />
+ (¯yo − ¯y p ) 2<br />
EQM<br />
<br />
U E<br />
+ 2 (1 − ρ) σ0σp<br />
206<br />
EQM<br />
<br />
U C
Capítulo 7<br />
Modelação da Média: Abordagem Não<br />
Linear<br />
7.1 Introdução<br />
(Última actualização: 04/2010)<br />
Ao longo das últimas décadas os modelos ARMA têm dominado a abordagem de séries tem-<br />
porais (os primeiros trabalhados datam de 1927 com os modelos autoregressivos estudados<br />
por Yule). Existem razões para o sucesso dos modelos ARMA Gaussianos:<br />
• simplicidade: as equações às diferenças finitas são fáceis de tratar;<br />
• o modelo ARMA Gaussiano é completamente caracterizado pela média, variância e<br />
pelas autocorrelações;<br />
• são fáceis de aplicar e implementar (a maioria dos programas de estatísticas possui um<br />
módulo para tratar os modelos ARMA);<br />
• a teoria está completamente desenvolvida: as principais questões, relacionadas com a<br />
estimação, inferência e previsão estão resolvidas;<br />
• apesar da simplicidade são relativamente flexíveis e úteis na previsão.<br />
Todavia, os modelos ARMA apresentam limitações:<br />
• não são apropriados para dados que exibam súbitas alterações em períodos irregulares;<br />
207
• não são apropriados para dados que exibam forte assimetria e achatamento;<br />
• os coeficiente de autocorrelação e autocorrelação parcial de ordem k são apenas um<br />
dos aspectos da distribuição conjunta de (yt, yt−k) . Pode suceder ρ k e φ kk serem<br />
baixos, mas existir uma forte relação não linear entre yt e yt−k. Por exemplo ρ k (y 2 ) =<br />
Corr y2 t , y2 <br />
t−k pode ser alto;<br />
• não modelam dados que exibam “soluções periódicas estáveis”. Retomaremos este<br />
tema mais à frente.<br />
Discuta-se um pouco mais em detalhe a primeira limitação mencionada. Um modelo<br />
<br />
ARMA Gaussiano estacionário possui momentos de todas as ordens, i.e., E |yt| k<br />
< ∞<br />
para qualquer k ∈ N. Este facto implica que a probabilidade de y assumir (transitoriamente)<br />
valores muito altos ou muito baixos é praticamente nula e, neste sentido, os modelos ARMA<br />
não são apropriados para dados que exibam súbitas alterações em períodos irregulares. Para<br />
esclarecer este ponto, assuma-se que E (y) = 0 e recorde-se que se y possui o momento de<br />
ordem k, então (pela desigualdade de Markov) vem, para c > 0<br />
P (|y| > c) ≤ O c −k<br />
A expressão anterior estabelece que P (|y| > c) é proporcional (ou menos do que propor-<br />
cional) a c −k . Como c −k tende para zero quando c → ∞, P (|y| > c) tende também para<br />
zero nas mesmas condições, e relativamente depressa se k é uma valor alto. Logo, a possi-<br />
bilidade de |y| assumir um valor arbitrariamente grande é praticamente nula. Se y possuir<br />
apenas o primeiro ou segundo momento, P (|y| > c) continua a tender para zero, mas a uma<br />
taxa muito mais baixa, e y pode assumir valores “moderadamente” altos. A existência de<br />
todos os momento como no caso do modelo ARMA Gaussiano, pode, em certos casos, não<br />
ser uma propriedade desejável, pois em última análise impede que o modelo capte dados que<br />
exibam súbitas alterações, excluindo portanto, os casos em que y assume transitoriamente<br />
valores muito altos ou muito baixos.<br />
Enquanto os modelos lineares são definidos apenas pela representação ARMA, o número<br />
de especificações não lineares é virtualmente infinito. Embora a literatura dos modelos não<br />
lineares esteja ainda na sua infância, existem já muitos modelos não lineares propostos na<br />
literatura. Vamos apenas focar alguns modelos não lineares mais utilizados. Mas afinal, o<br />
que é um modelo não linear?<br />
208
Uma forma simples (mas não geral) de introduzir modelos não lineares consiste em ap-<br />
resentar a não linearidade através dos momentos condicionais. Considere-se o modelo<br />
yt = µ t + ut, ut = σtεt<br />
onde εt é um ruído branco, µ t = g (yt−1, yt−2, .., yt−p; ut−1, ut−2, ...ut−q) é a média condi-<br />
cional de yt e σ 2 t = h (yt−1, yt−2, ..., yt−˜p; ut−1, ut−2, ..., ut−˜q) > 0 é a variância condicional<br />
de yt. O modelo é não linear na média se g é uma função não linear dos seus argumentos 1 .<br />
O modelo é não linear na variância se σt é não constante ao longo do tempo pois, neste caso,<br />
o processo {ut}, definido por ut = σtεt, é não linear, por ser um processo multiplicativo.<br />
Vejamos alguns exemplos. No caso<br />
yt = φyt−1 + log 1 + y 2 <br />
t−1 + ut<br />
tem-se um processo não linear na média, pois, µ t = φyt−1 + log 1 + y2 <br />
t−1 é uma função<br />
não linear de yt−1. Também<br />
yt = ξut−1ut−2 + ut<br />
é um processo não linear, pois µ t = ξut−1ut−2 é não linear nos valores passados de ut.<br />
Os modelos não lineares na variância mais conhecidos são os modelos do tipo ARCH;<br />
serão discutidos no capítulo 8.<br />
Uma classe importante de processos não lineares na média baseiam-se na ideia de regime-<br />
switching. Podem ser usados em duas circunstâncias gerais:<br />
• existem alterações bruscas e inesperadas nas trajectórias dos processos (e.g., ataques<br />
especulativos, crashes bolsistas, anúncios públicos de medidas do governo, eventos<br />
políticos e, em geral, eventos extraordinários não antecipados).<br />
• existem alterações da dinâmica do processo sem alterações bruscas nas trajectórias.<br />
Por exemplo, a taxa de juro no período 1993 a 2006 exibe dois períodos com com-<br />
portamento bem diferenciado: no primeiro, as taxas de juro e a volatilidade são rel-<br />
ativamente altas e o processo evidencia uma tendência de reversão para uma média,<br />
seguindo-se, depois de 1995, um período de baixas taxas de juro, baixa volatilidade e<br />
1 Dizemos que uma função é não linear se não for uma função linear afim, i.e., se não verificar a relação<br />
f (x1, ..., xn) = a0 + a1x1 + ... + anxn, onde ai ∈ R.<br />
209
ausência de reversão para uma média. Outro exemplo é a taxa de inflação no período<br />
1974-2006 (basta verificar os níveis de inflação e volatilidade nos anos 70/80 e nos<br />
anos 90).<br />
Para este tipo de fenómenos, os modelos com alterações (estocásticas) de regime (ou<br />
regime-switching) podem ser, no essencial, de dois tipos:<br />
• a mudança de regime é função de uma variável observável; são exemplos, modelos<br />
com variáveis impulso (dummy), os modelos limiares ou threshold AR (TAR), os mod-<br />
elos onde os coeficientes associados às componentes AR são funções não lineares dos<br />
valores passados y (STAR, smoothed transition AR), entre outros;<br />
• a mudança de regime não é observada, incluindo-se, nesta classe, os modelos onde os<br />
regimes são independentes entre si (como, por exemplo, os modelos simple switching<br />
ou de Bernoulli) e os modelos onde existe dependência entre os regimes (como por<br />
exemplo, os modelos MS, Markov-Switching).<br />
Antes de entrarmos nos processos estocásticos não lineares, faz-se, na próxima secção,<br />
uma breve incursão sobre os sistemas autónomos do tipo<br />
yt = g (yt−1)<br />
(determinísticos). O estudo da estabilidade deste tipo de sistemas é relevante para um estudo<br />
mais aprofundado dos processos estocásticos do tipo yt = g (yt−1)+ut (ou, mais geralmente,<br />
yt = g (yt−1, yt−2, ..., yt−p) + ut), pois parte da dinâmica subjacente ao processo estocástico<br />
depende da função g (ou g no caso multivariado).<br />
7.2 Estabilidade em Equações às Diferenças Finitas Deter-<br />
minísticas<br />
Nesta secção vamos analisa-se o sistema autónomo yt = g (yt−1) onde y é um vector de<br />
tipo m × 1 e g é uma função real 2 g : R m → R m . O modelo é determinístico (a condição<br />
inicial é determinística - i.e. é conhecida).<br />
2 O domínio de g poderá ser S ⊂ R m mas neste caso devemos exigir que S ⊆ g (S) (suponha-se que esta<br />
condição não se verifica - então poderia suceder que ξ ∈ S e y1 = g (ξ) /∈ S e não seria possível agora<br />
continuar com y2 = g (y1) = g (g (ξ)) pois g (ξ) /∈ S).<br />
210
7.2.1 Pontos Fixos e Estabilidade de Sistemas Lineares<br />
Definição 7.2.1 (Ponto Fixo de f) Um vector ¯y é designado por ponto fixo de g se g (t, ¯y) =<br />
¯y, para todo o t.<br />
No ponto fixo o sistema dinâmico discreto não varia (está em equilíbrio). Com efeito,<br />
se yt−1 = ¯y e ¯y é um ponto fixo, a variação da solução, ∆yt, é nula, i.e., ∆yt = yt −<br />
yt−1= g (yt−1) − yt−1= ¯y − ¯y = 0.<br />
Por exemplo, considere-se y0 = 2 e a equação às diferenças finitas (EDF) 3 yt = (1/2) yt−1+<br />
1 (note-se m = 1). Iterando a equação é fácil verificar que y1 = 2, y2 = 2, ... Logo ¯y = 2 é<br />
o ponto fixo de g (x) = (1/2) x + 1. Para calcular o ponto fixo de g basta resolver a equação<br />
(1/2) ¯y + 1 = ¯y em ordem a ¯y.<br />
Exemplo 7.2.1 Considere-se yt = 2yt−1 (1 − yt−1) . Tem-se g (x) = 2x (1 − x) . Os pontos<br />
fixos (de g) calculam-se a partir da relação g (¯y) = ¯y, i.e., 2¯y (1 − ¯y) = ¯y. Os pontos fixos<br />
são portanto ¯y = 0 e ¯y = 1/2.<br />
Exemplo 7.2.2 Considere-se o sistema não linear<br />
Tem-se, portanto<br />
⎛<br />
⎝ y1t<br />
g ⎝<br />
com domínio ⎧⎛ ⎨<br />
⎩<br />
y2t<br />
⎛⎛<br />
⎝ x1<br />
⎞<br />
⎝ x1<br />
x2<br />
⎠ =<br />
x2<br />
⎛<br />
⎞⎞<br />
⎝ y2t−1<br />
⎠⎠<br />
=<br />
y2t−1<br />
y1t−1<br />
⎛<br />
⎝ x2<br />
⎞<br />
x2<br />
x1<br />
⎠ .<br />
⎞<br />
⎠<br />
⎞<br />
⎠ ∈ R 2 ⎫<br />
⎬<br />
: x1 = 0<br />
⎭ .<br />
Determinem-se os pontos fixos de g. Para o efeito, resolve-se g (x) = x, i.e.,<br />
⎛<br />
⎝ x2<br />
x2<br />
x1<br />
⎞<br />
⎠ =<br />
⎛<br />
⎝ x1<br />
3 O ramo da matemática que estuda a dinâmica de sistemas determísticos usa, por vezes, uma linguagem um<br />
pouco diferente da que estamos habituados. Por exemplo, a equação yt = φyt−1 é designada por equação às<br />
diferenças finitas homogénas de primeira ordem linear. Mantemos a designação “equação às diferenças finitas”<br />
ou “sistema de equações às diferenças finitas” (consoante o caso) para identificar a equação yt = g (yt−1) .<br />
211<br />
x2<br />
⎞<br />
⎠ .
y t<br />
4<br />
2<br />
e<br />
d<br />
a<br />
4 2 2 4<br />
2<br />
4<br />
c<br />
Linha 45º<br />
Figura 7-1: Gráfico Teia de Aranha do PVI yt = 0.5yt−1, y0 = 4<br />
É fácil verificar que o único ponto fixo é<br />
⎛<br />
⎝ 1<br />
1<br />
Proposição 7.2.1 Seja S um intervalo fechado e g : S → R uma função contínua. Se<br />
S ⊆ g (S) então g tem um ponto fixo em S.<br />
Dem. Nicolau (2004).<br />
⎞<br />
⎠ .<br />
Quando m = 1 e a EDF é autónoma é muito útil o gráfico teia de aranha no estudo da<br />
estabilidade. Para ilustrar a interpretação do gráfico representa-se na figura 7-1 o gráfico<br />
teia de aranha associado à equação yt = 0.5yt−1, com valor inicial y0 = 4 (ponto a). No<br />
momento 1 tem-se y1 = 0.5 × 4 = 2 (ponto b ou c). Este valor, y1 = 2, pode ser interpretado<br />
como o valor inicial com respeito a y2; assim, poderíamos colocar y1 = 2 no eixo das<br />
abcissas. Em alternativa, o valor y1 ”parte” da linha de 45 0 (ponto c) e o procedimento é<br />
repetido iterativamente. Assim, no momento 2 tem-se y2 = 0.5 × 2 = 1 (ponto e) e assim<br />
sucessivamente. O gráfico mostra que limt→∞ yt = 0.<br />
Na figura 7-2 representa-se o gráfico teia de aranha da EDF yt = y 2 t−1 (o que sucede<br />
quando o valor inicial se encontra no intervalo (1, ∞) ? E no intervalo (0, 1)? E ainda no<br />
intervalo(−1, 0)?)<br />
212<br />
b<br />
f(x)<br />
y t1
Figura 7-2: Gráfico Teia de Aranha da Aplicação f (x) = x 2 (estão traçadas duas órbitas<br />
com valores inicias -1.1 e 0.9)<br />
Seja yt = yt (y0) a solução da EDF (ou do sistema de EDF) yt = g (t, yt−1) , dada a<br />
condição inicial y0 (para simplificar admite-se, sem perda de generalidade, que t0 = 0). A<br />
expressão yt (y0) define a solução como uma função explícita da condição inicial y0. No<br />
caso da EDF autónomas é usual considerar-se a notação yt = g t (y0) em lugar de yt = yt (y0)<br />
onde<br />
Exemplo 7.2.3 Se g (x) = 1 , então<br />
1+x<br />
g 2 <br />
1<br />
(x) = g (g (x)) = g<br />
g t (x) := g(...g(g(x))).<br />
<br />
t vezes<br />
<br />
1<br />
=<br />
1 + x 1 + 1 ,<br />
1+x<br />
g 3 <br />
1<br />
(x) = g (g (g (x))) = g g<br />
= g<br />
1 + x<br />
Dada a EDF yt = 1<br />
1+yt−1 , o valor y3 dado y0 = 1 é<br />
g 3 (1) =<br />
1<br />
1 + 1<br />
1+ 1<br />
1+1<br />
= 3<br />
5 .<br />
1<br />
1 + 1<br />
1+x<br />
<br />
=<br />
1<br />
1 + 1<br />
1+ 1<br />
.<br />
1+x<br />
Naturalmente, podemos obter este valor considerando o procedimento iterativo,<br />
y1 = 1<br />
1 + 1<br />
= 1<br />
2 , y2 = 1<br />
1 + 1<br />
2<br />
= 2<br />
3 , y3 = 1<br />
1 + 2<br />
3<br />
A expressão g t (y0) representa o valor de yt dada a condição y0.<br />
= 3<br />
5 .<br />
Definição 7.2.2 (Estabilidade - Caso g : R → R) O ponto fixo ¯y diz-se estável se para cada<br />
ε > 0 existe um δ = δ (t0, ε) tal que, para cada qualquer solução yt (y0) a desigualdade<br />
213
|y0 − ¯y| ≤ δ implica |yt (y0) − ¯y| < ε para todo o t ≥ t0. O ponto fixo ¯y diz-se assimptot-<br />
icamente estável se é estável e se existe um δ0 > 0 tal que a desigualdade |y0 − ¯y| ≤ δ0<br />
implica |yt (y0) − ¯y| → 0 quando t → ∞. O ponto fixo ¯y diz-se instável se não é estável. 4<br />
(A definição adapta-se facilmente ao caso multivariado - basta trocar |·| por · e ajustar<br />
as notações). Grosso modo, um ponto fixo ¯y é estável se yt = yt (y0) permanecer “perto” de<br />
¯y para todo o t sempre que y0 se encontrar “perto” de ¯y. O ponto fixo ¯y é assimptoticamente<br />
estável se for estável e toda a solução inicializada perto de ¯y converge para ¯y.<br />
Exemplo 7.2.4 Considere-se yt = φyt−1 +c, com c = 0. Tem-se g (x) = φx+c. Resolvendo<br />
g (¯y) = ¯y, i.e., φ¯y + c = ¯y conclui-se que o (único) ponto fixo é ¯y = c/ (1 − φ). No<br />
caso φ = 1 não existe ponto fixo (a equação x + c = x é impossível, com c = 0). A<br />
estabilidade do ponto fixo ¯y pode, no caso presente, ser discutida directamente a partir g t<br />
(na generalidade dos casos não lineares não é possível obter g t ). Tem-se, com a condição<br />
inicial y0, yt = gt (y0) = y0φ t + c 1−φt<br />
. Assim<br />
1−φ<br />
g t (y0) − ¯y = y0φ t 1 − φt c<br />
+ c −<br />
1 − φ 1 − φ<br />
<br />
g t (y0) − ¯y = |φ| t<br />
<br />
<br />
<br />
y0 − c<br />
<br />
<br />
<br />
1 − φ<br />
= φt<br />
<br />
= |φ|t |y0 − ¯y| .<br />
y0 − c<br />
<br />
1 − φ<br />
Impondo |g t (y0) − ¯y| < ε vem |φ| t |y0 − ¯y| < ε. Se |φ| < 1 então ¯y é estável. Basta<br />
considerar um δ tal que |y0 − ¯y| ≤ δ < ε. Nestas condições tem-se |g t (y0) − ¯y| < ε para<br />
todo o t > 0. Se |φ| > 1 o termo |g t (y0) − ¯y| tende para ∞ o que significa que não existe<br />
um δ > 0 nos termos da definição de ponto fixo estável; logo ¯y é instável. Analise-se a<br />
estabilidade assimptótica. Tem-se para φ = 1<br />
lim<br />
t→∞ gt <br />
(y0) = lim y0φ<br />
t→∞<br />
t + c<br />
<br />
1 − φt<br />
=<br />
1 − φ<br />
⎧<br />
⎨<br />
⎩<br />
c<br />
1−φ<br />
= ¯y se |φ| < 1<br />
±∞ se |φ| > 1<br />
Assim, se |φ| < 1 o ponto fixo ¯y é assimptoticamente estável; se |φ| > 1, ¯y é instável.<br />
Exemplo 7.2.5 Retome-se o exemplo 7.2.1 (yt = 2yt−1 (1 − yt−1)). Vimos que os pontos<br />
fixos são ¯y = 0 e ¯y = 1.<br />
Discute-se agora a estabilidade a partir do gráfico teia de aranha<br />
2<br />
- ver a figura 7-3. Estão representados três valores iniciais. É fácil concluir que qualquer<br />
ponto que se encontre numa vizinhança do ponto fixo 1/2 (por exemplo ponto A ou B) não<br />
4 Se a EDF é autónoma leia-se g t (y0) em lugar de yt (y0) .<br />
214
0.6<br />
0.4<br />
0.2<br />
C<br />
0.5 0.25 0.25 0.5 0.75 1<br />
0.2<br />
0.4<br />
A B<br />
Figura 7-3: Gráfico Teia de Aranha da equação yt = 2yt−1 (1 − yt−1) (representados três<br />
valores iniciais).<br />
só não se afasta de 1/2 como também converge para ¯y = 1/2. Este ponto fixo é portanto<br />
assimptoticamente estável. O ponto fixo zero é instável. Basta observar o que sucede quando<br />
y é inicializado no ponto C.<br />
e seja<br />
Considere-se um sistema de m equações lineares yt = Ay t−1 com a condição inicial y0<br />
r = max {|λi| : λi é um valor próprio de A (i = 1, ..., m)} . (7.1)<br />
A estabilidade de um sistema de equações lineares é estabelecida na seguinte<br />
Proposição 7.2.2 (a) Se r < δ < 1 então existe uma constante C > 0 tal que<br />
yt ≤ Cδ t y0<br />
para t ≥ 0, para qualquer y0 ∈ R. Além disso verifica-se limt→∞ yt = 0.(b) Se r > 1<br />
então algumas soluções do sistema tendem para ∞. (c) Se r ≤ 1 e se a multiplicidade<br />
algébrica de todos os valores próprios que verificam |λ| = 1 for igual a um então existe uma<br />
constante C > 0 tal que yt ≤ C y0 para t ≥ 0.<br />
Dem. Nicolau (2004).<br />
Notar que se λ é número complexo então |λ| = |α + βi| = α 2 + β 2 .<br />
Resulta da proposição anterior que o ponto fixo ¯y = 0 é, assimptoticamente estável se<br />
r < 1, instável se r > 1, e estável se r ≤ 1 e se a multiplicidade algébrica de todos os<br />
215
12<br />
10<br />
8<br />
6<br />
4<br />
2<br />
0<br />
2<br />
4<br />
0 1 2 3 4 5 6 7 8 9 10 11<br />
Figura 7-4: Trajectórias y1t e y2t<br />
valores próprios que verificam |λ| = 1 for igual a um.<br />
Exemplo 7.2.6 Estude-se a estabilidade do sistema<br />
⎛<br />
⎝ y1t<br />
y2t<br />
⎞ ⎛ ⎞ ⎛<br />
⎠ = ⎝<br />
1 −5<br />
⎠<br />
0.25 −1<br />
⎝ y1t−1<br />
y2t−1<br />
Os valores próprios são ± 1<br />
1<br />
i. Logo r = . Como r < 1 conclui-se que o ponto fixo ¯y = 0<br />
2 2<br />
é assimptoticamente estável. Nas figuras seguintes analisa-se graficamente a dinâmica do<br />
sistema admitindo y0 = (10, 1) T . Na figura 7-4 apresentam-se as trajectórias y1t e y2t. A<br />
figura 7-4 é elucidativa quanto à estabilidade do sistema. Em ambos os casos se observa<br />
y1t → 0, y2t → 0 quanto t → 0.<br />
Exemplo 7.2.7 Considere-se o sistema de EDF<br />
⎛<br />
⎞<br />
cos θ sen θ<br />
yt = ⎝<br />
− sen θ cos θ<br />
⎠ yt−1.<br />
Os valores próprios são λ = cos θ±i sin θ e |cos θ − i sin θ| = |cos θ + i sin θ| = √ cos 2 θ + sin 2 θ =<br />
1. Como a multiplicidade algébrica de todos os valores próprios que verificam |λ| = 1 é<br />
igual a um conclui-se que o ponto fixo ¯y = 0 é estável.<br />
216<br />
⎞<br />
⎠ .<br />
y1<br />
y2
7.2.2 Estabilidade de Sistemas Não Lineares<br />
Linearização<br />
A proposição seguinte fornece um método para analisar a estabilidade assimptótica no caso<br />
escalar (EDF autónomas).<br />
Proposição 7.2.3 Suponha-se que g : R→R tem derivada de primeira ordem contínua num<br />
intervalo aberto contendo o ponto fixo ¯y. Então (a) se |g ′ (¯y)| < 1, ¯y é assimptoticamente<br />
estável; (b) se |g ′ (¯y)| > 1, ¯y é instável.<br />
Dem. (a) Dado que, por definição,<br />
|g (x) − g (¯y)|<br />
lim<br />
x→¯y |x − ¯y|<br />
|g (x) − ¯y|<br />
= lim<br />
x→¯y |x − ¯y| = |g′ (¯y)|<br />
então existe uma vizinhança Vε (¯y) de raio ε > 0, tal que, para |g ′ (¯y)| < α < 1,<br />
|g (x) − ¯y| < α |x − ¯y| , x ∈ Vε (¯y) .<br />
Resulta que x ∈ Vε (¯y) ⇒ g (x) ∈ Vε (¯y) (pela desigualdade anterior, constata-se que g (x)<br />
está mais "perto"de ¯y do que x está de ¯y, por um factor de ordem α < 1). É imediato verificar<br />
que g (x) ∈ Vε (¯y) ⇒ g 2 (x) ∈ Vε (¯y) . Repetindo o argumento conclui-se g t (x) ∈ Vε (¯y) .<br />
Logo,<br />
<br />
g 2 (x) − ¯y = |g (g (x)) − ¯y| < α |g (x) − ¯y| < α 2 |x − ¯y| .<br />
Por indução, conclui-se |g t (x) − ¯y| < α t |x − ¯y|. Como α t → 0 segue-se que ¯y é assimp-<br />
toticamente estável. (b) Utilizando argumentos idênticos conclui-se que g t (x) se afasta cada<br />
vez mais de ¯y à medida que t → ∞.<br />
Exemplo 7.2.8 Retome-se os exemplos 7.2.1 e 7.2.5. Com g (x) = 2x (1 − x) tem-se g ′ (x) =<br />
2 − 4x e, portanto, pela proposição 7.2.3, o ponto fixo 0 é instável pois |g ′ (0)| = 2 > 1 e o<br />
ponto 1/2 é assimptoticamente estável pois |g ′ (1/2)| = 0 < 1.<br />
Analise-se agora a estabilidade de sistemas de EDF. Uma forma de abordar a estabilidade<br />
de sistemas de EDF consiste em linearizar g (x) em torno do ponto fixo ¯y (o caso escalar ap-<br />
resentado atrás baseia-se também no método da linearização). Suponha-se que g (x) possui<br />
derivadas de segunda ordem contínuas. Então, pela fórmula de Taylor vem<br />
217
gi (x) = gi (¯y) + ∂gi (¯y)<br />
∂xT (x − ¯y) + 1<br />
ou, mais compactamente,<br />
2 (x − ¯y)T ∂g2 i (z)<br />
(x − ¯y) , i = 1, ..., m<br />
∂x∂xT g (x) = g (¯y) + g ′ (¯y) (x − ¯y) + h (x) (7.2)<br />
Note-se que g ′ (¯y) é o Jacobiano de g no ponto ¯y (é uma matriz de constantes). Reescreva-se<br />
a equação (7.2) na forma<br />
onde<br />
A = g ′ ⎜<br />
(¯y) = ⎜<br />
⎝<br />
g (x) = Ax + h (x)<br />
⎛<br />
h (x) = g (¯y) − g ′ (¯y) ¯y + 1<br />
2<br />
(note-se que z varia com x). Tem-se agora:<br />
∂g1(¯y)<br />
∂x1<br />
.<br />
∂gm(¯y)<br />
∂x1<br />
⎛<br />
⎜<br />
⎝<br />
· · ·<br />
. ..<br />
· · ·<br />
∂g1(¯y)<br />
∂xm<br />
.<br />
∂gm(¯y)<br />
∂xm<br />
⎞<br />
(x − ¯y) T ∂g2 1 (z)<br />
∂x∂x T (x − ¯y)<br />
.<br />
(x − ¯y) T ∂g2 m(z)<br />
∂x∂x T (x − ¯y)<br />
⎟ , (7.3)<br />
⎠<br />
Proposição 7.2.4 Suponha-se que g : R m →R m tem derivadas de segunda ordem contínuas<br />
num conjunto aberto contendo o ponto fixo ¯y. Dado<br />
r = max {|λi| : λi é um valor próprio de A (i = 1, ..., m)}<br />
e A é dada pela equação (7.3) tem-se, (a) se r < 1 então ¯y é assimptoticamente estável; (b)<br />
se r > 1 então ¯y é instável.<br />
Dem. Kelley e Peterson, (1991), p. 180.<br />
Obviamente esta proposição generaliza a proposição 7.2.3.<br />
218<br />
⎞<br />
⎟<br />
⎠
Exemplo 7.2.9 Considere-se o seguinte modelo presa-predador,<br />
y1t−1y2t−1<br />
y1t = (1 + ρ) y1t−1 − 0.001<br />
1 + 0.0001y1t−1<br />
y1t−1y2t−1<br />
y2t = (1 − δ) y2t−1 + 0.00003<br />
1 + 0.0001y1t−1<br />
onde y1t e y2t representa, respectivamente, o número de presas e o número de predadores no<br />
momento t, ρ é a diferença entre a taxa de nascimento e a taxa de mortalidade das presas e<br />
δ é a taxa de mortalidade dos predadores. Suponha-se que ρ = 0.1 e δ = 0.01. Tem-se<br />
⎛<br />
g (x1, x2) := ⎝ g1<br />
⎞ ⎛<br />
(x1, x2)<br />
⎠ = ⎝<br />
g2 (x1, x2)<br />
1.1x1 − 0.001<br />
0.99x2 + 0.00003<br />
x1x2<br />
1+0.0001x1<br />
x1x2<br />
1+0.0001x1<br />
Os pontos fixos resultam da resolução do sistema g (x1, x2) = (x1, x2) . Obtém-se dois<br />
pontos fixos,<br />
⎛<br />
¯y1 = ⎝ 0<br />
⎞ ⎛<br />
⎠ ,<br />
0<br />
¯y2 = ⎝ 344.828<br />
⎞<br />
⎠ .<br />
103.448<br />
Estude-se a estabilidade do ponto fixo ¯y2, recorrendo-se à proposição 7.2.4. Para o efeito<br />
determina-se<br />
⎛<br />
A = g ′ (¯y2) = ⎝<br />
Depois de alguns cálculos obtém-se<br />
∂g1(¯y2)<br />
∂x1<br />
∂gm(¯y2)<br />
∂x1<br />
∂g1(¯y2)<br />
∂xm<br />
∂gm(¯y2)<br />
∂xm<br />
⎛<br />
⎞<br />
1.003<br />
A = ⎝<br />
−0.3333<br />
⎠ .<br />
0.0029 1<br />
Os valores próprios são λ1, λ2 = 1.00167 ± 0.0310466i. Donde<br />
|λ1| = |1.00167 + 0.0310466i| = √ 1.00167 2 + 0.0310466 2 = 1. 002,<br />
|λ1| = |1.00167 − 0.0310466i| = √ 1.00167 2 + 0.0310466 2 = 1. 002,<br />
pelo que r = 1.002 > 1 e, portanto, o ponto fixo ¯y2 é instável. A figura 7-5 ilustra o<br />
comportamento dinâmico do sistema.<br />
219<br />
⎞<br />
⎠ .<br />
⎞<br />
⎠ .
550<br />
450<br />
350<br />
250<br />
150<br />
Método Directo de Liapunov<br />
50<br />
50 0 100 200 300 400 500 600 700<br />
Figura 7-5: Trajectórias y1t e y2t (t = 0, 1, ..., 800)<br />
Veja-se agora o chamado “Método Directo de Liapunov”. Considere-se um sistema de EDF<br />
yt = g (yt−1) com a condição inicial y0 e seja ¯y um ponto fixo de g. Considere-se uma<br />
função real V de m variáveis nas seguintes condições: V é contínua numa vizinhança Vε (¯y) ,<br />
V (x) > 0 se x = ¯y em Vε (¯y) e V (¯y) = 0. Uma função nestas condições designa-se por<br />
função Liapunov. Defina-se<br />
∆V (x) := V (g (x)) − V (x)<br />
em Vε (¯y) (não confundir a função V com a vizinhança de z de raio ε, Vε (z)).<br />
Proposição 7.2.5 (Método Directo de Liapunov) Seja ¯y um ponto fixo de g e assuma-se<br />
que g é contínua numa certa vizinhança de ¯y. Se (a) ∆V (x) ≤ 0 para todo o x ∈ Vε (¯y)<br />
então a solução ¯y é estável; se (b) ∆V (x) < 0 para todo o x ∈ Vε (¯y) e x = ¯y então a<br />
solução ¯y é assimptoticamente estável; se (c) ∆V (x) > 0 para todo o ε > 0 e x ∈ Vε (¯y) e<br />
x = ¯y então a solução ¯y é instável.<br />
Apresenta-se uma explicação heurística do resultado (no caso escalar). Imagine-se a<br />
função V (x) como uma distância entre x e ¯y com x ∈ Vε (¯y) . Considere-se 0 < δ < ε.<br />
Por hipótese y0 ∈ Vδ (¯y) e, como, V (g (y0)) ≤ V (y0) o ponto y1 = g (y0) não se afasta<br />
de ¯y (y1 não está mais distante de ¯y do que y0 está de ¯y). Logo y1 ∈ Vδ (¯y) . Seguindo o<br />
mesmo raciocínio tem-se que V (g (y1)) ≤ V (y1) implica y2 ∈ Vδ (¯y) . Iterando, conclui-<br />
se que yt ∈ Vδ (¯y) ⊂ Vε (¯y) . Logo a solução ¯y é estável. Suponha-se agora a desigual-<br />
dade estrita V (g (x)) < V (x) . Por hipótese y0 ∈ Vε (¯y) e V (g (y0)) < V (y0) implica<br />
220<br />
y1<br />
y2
|g (y0) − ¯y| < α |y0 − ¯y|, 0 < α < 1. Por seu lado, a desigualdade V (g (y1)) < V (y1) im-<br />
plica |y2 − ¯y| = |g (y1) − ¯y| < α |g (y0) − ¯y| < α 2 |y0 − ¯y| . Iterando, conclui-se |yt − ¯y| <<br />
α t |g (y0) − ¯y| → 0 quando t → ∞. <br />
Exemplo 7.2.10 Considere-se yt = yt−1 − y 3 t−1. O único ponto fixo é ¯y = 0. A proposição<br />
7.2.3 é inconclusivo, pois com g (x) = x − x 3 , tem-se |g ′ (0)| = 1. Considere-se a função<br />
V (x) = x 2 . Vem<br />
∆V (x) = x − x 3 2 − x 2 = x 6 − 2x 4 = x 4 x 2 − 2 < 0<br />
no conjunto x : |x| < √ 2 = V√ 2 (¯y) . Logo o ponto fixo ¯y = 0 é assimptoticamente<br />
estável.<br />
Exemplo 7.2.11 Retome-se o exemplo 7.2.7,<br />
com ponto fixo,<br />
Defina-se<br />
⎛<br />
⎞<br />
cos θ sen θ<br />
yt = ⎝<br />
− sen θ cos θ<br />
V<br />
⎛⎛<br />
⎝<br />
⎛<br />
¯y = ⎝ 0<br />
⎞<br />
⎠ .<br />
0<br />
⎝ x1<br />
x2<br />
⎞⎞<br />
⎠ yt−1<br />
⎠⎠<br />
= x 2 1 + x 2 2.<br />
Facilmente se verifica V (¯y) = 0 e V (x) > 0 para x = ¯y. Tem-se<br />
⎛⎛<br />
∆V (x) = V ⎝⎝<br />
x1<br />
⎞⎞<br />
⎛⎛<br />
cos θ + x2 sen θ<br />
−x1 sen θ + x2 cos θ<br />
⎠⎠<br />
− V ⎝<br />
⎝ x1<br />
x2<br />
⎞⎞<br />
⎠⎠<br />
= (x1 cos θ + x2 sen θ) 2 + (−x1 sen θ + x2 cos θ) 2 − x 2 1 − x 2 2<br />
= 0.<br />
Consequentemente o ponto fixo é estável.<br />
Bacia do Escoadouro<br />
Na literatura é usual designar-se um ponto fixo assimptoticamente estável como um escoad-<br />
ouro (sink) e um ponto fixo instável como fonte (source). A designação escoadouro sugere<br />
221
que o sistema dinâmico inicializado numa vizinhança do escoadouro converge para o escoad-<br />
ouro. Utiliza-se também a designação bacia do escoadouro (basin of the skin) para definir<br />
o conjunto de pontos W tal que se y0 ∈ W então yt = g t (y0) → ¯y (onde ¯y é um es-<br />
coadouro). Analiticamente escreve-se: W (¯y) = {y0 ∈ R m : g t (y0) → ¯y} 5 . No exemplo<br />
7.2.5, onde g (x) = 2x (1 − x) , vimos que o ponto 1/2 é um escoadouro: qualquer ponto<br />
na vizinhança de 1/2 converge para 1/2. Uma inspecção da figura 7-3 sugere que a bacia do<br />
escoadouro é o conjunto (0, 1) , i.e., W (1/2) = (0, 1) .<br />
A proposição seguinte tem aplicação no caso de EDF autónomas (não lineares).<br />
Proposição 7.2.6 Seja E = {x : |g (x) − ¯y| ≤ δ |x − ¯y| , 0 < δ < 1} . Se existe um ε1 > 0<br />
tal que Vε1 (¯y) ⊂ E então<br />
para todo o y0 ∈ Vε1 (¯y) .<br />
Dem. Nicolau (2004).<br />
yt = g t (y0) → ¯y<br />
A proposição 7.2.6 não fornece toda a bacia do escoadouro. Na figura 7-6 a função g (x) ,<br />
com ponto fixo ¯y = 1, está definida na região V para x < 1 e na região III para x > 1. Apenas<br />
os pontos x pertencentes ao intervalo (A, 1) verificam |g (x) − ¯y| < |x − ¯y| . Concretamente,<br />
E = {x : |g (x) − ¯y| < δ |x − ¯y| , 0 < δ < 1} = (A, 1) mas não existe um ε > 0 tal que<br />
Vε (¯y) = Vε (1) ⊂ E e, portanto, a proposição 7.2.6 não é aplicável. Também a proposição<br />
7.2.3 não é aplicável, pois |g ′ (1)| = 1 (admitindo que g ′ (x) existe numa vizinhança de<br />
1). Verifica-se, no entanto, por simples inspecção gráfica, que o sistema dinâmico definido<br />
por g (x) converge para ¯y = 1 se o valor inicial pertencer a (A, 1) . Além disso, qualquer<br />
ponto do intervalo (1, B) tem como aplicação um ponto de (A, 1) . Ou seja, embora não se<br />
verifique |g (x) − ¯y| < |x − ¯y| quando x ∈ (1, B) , os ponto de (1, B) movem-se para (A, 1)<br />
onde aqui se tem |g (x) − ¯y| < |x − ¯y| para x ∈ (A, 1) . Assim, a bacia do escoadouro é<br />
(A, 1) ∪ (1, B) ∪ {1} = (A, B) .<br />
A discussão precedente sugere uma forma de se determinar a bacia do escoadouro.<br />
Suponha-se que E1 é um conjunto de pontos y0 tais que g t (y0) → ¯y e y0 ∈ E1 (este<br />
conjunto pode determinar-se através da proposição 7.2.6). Num segundo passo determina-se<br />
o conjunto E2 = {x : g (x) ∈ E1} e, por recorrência, Ei+1 = {x : g (x) ∈ Ei} . Se em dado<br />
momento Ek+1 = Ek então a bacia do escoadouro é dado pela união dos conjuntos E ′ is.<br />
5 No caso não autónomo deve ler-se W (¯y) = {y0 ∈ R n : yt (y0) → ¯y} .<br />
222
2.5<br />
2<br />
1.5<br />
1<br />
0.5<br />
A B<br />
0.5 0.5 1 1.5 2<br />
f(x)<br />
2.5<br />
0.5<br />
V<br />
VI<br />
IV<br />
III<br />
Figura 7-6: Bacia do Escoadouro<br />
Exemplo 7.2.12 Considere-se g (x) = (3x − x 3 ) /2 (figura 7-7). Os pontos fixos são −1, 0, 1.<br />
Analise-se o ponto 1. É fácil verificar que E1 = (0, b) = 0, 1/2 −1 + √ 17 ⊂ W (1) (a<br />
proposição 7.2.6 é aplicável: numa vizinhança do ponto 1, a função g (x) encontra-se nas<br />
regiões II e V; no entanto, a proposição fornece um primeiro conjunto contido em E1). Tem-<br />
se agora<br />
E2 = {x : g (x) ∈ E1} = {x : 0 < g (x) < b} = (e, c) ∪ (b, d) ⊂ W (1)<br />
onde e = −2, 11569, c = − √ 3, d = √ 3. Este procedimento pode ser continuado com<br />
E3 = {x : g (x) ∈ E2}, E4, etc.<br />
Exemplo 7.2.13 Considere-se g (x) = tan x, −π/2 < x < π/2. O ponto fixo é ¯y = 0 (pois<br />
g (0) = 0). Na figura 7-8 verifica-se que a função g (x) não se encontra nem na região II<br />
nem na região V (neste caso concreto, qualquer que seja o valor inicial, o sistema dinâmico<br />
afasta-se cada vez mais de ¯y = 0). Assim, ¯y = 0 não é escoadouro.<br />
Exemplo 7.2.14 Considere-se g (x) = 3x (1 − x) . Verifica-se que os pontos fixo são 0 e<br />
2/3. Na figura 7-9 analisa-se o ponto fixo 2/3 (tendo-se representado para o efeito as<br />
curvas x e −x + 2¯y = −x + 4/3). A proposição 7.2.3 não esclarece a natureza do ponto<br />
fixo ¯y = 2/3 pois |g ′ (2/3)| = 1. Também a proposição 7.2.6 não é aplicável pois embora<br />
E = {x : |g (x) − 2/3| < |x − 2/3|} = (0, 2/3) não existe um ε > 0 tal que Vε (2/3) ⊂<br />
E. Também não se pode concluir imediatamente que o intervalo (0, 2/3) pertence à bacia<br />
223<br />
I<br />
II
V<br />
a e c 1 b<br />
IV<br />
VI<br />
Figura 7-7: Bacia do Escoadouro da Aplicação f (x) = (3x − x 3 ) /2<br />
V<br />
VI<br />
1 0.5 0.5 1<br />
IV<br />
1.5<br />
0.5<br />
0.5<br />
1<br />
1.5<br />
1<br />
I<br />
I<br />
III<br />
d<br />
III<br />
Figura 7-8: g (x) = tg x<br />
224<br />
II<br />
II
1.5<br />
0.5<br />
0.5<br />
1<br />
V<br />
VI<br />
IV<br />
0.2 0.4 0.6 0.8 1<br />
I<br />
III<br />
Figura 7-9: g (x) = 3x (1 − x)<br />
Figura 7-10: Trajectória de yt = 3yt−1 (1 − yt−1), y0 = 0.5 (t = 1, ..., 50)<br />
do escoadouro (verifique-se isso através de inspecção gráfica). Este exemplo mostra as<br />
limitações das proposições 7.2.3 e 7.2.6. Pode-se provar que o ponto 2/3 não é de facto<br />
um escoadouro 6 (i.e. um ponto fixo assimptoticamente estável) pelo que não há lugar à<br />
determinação da bacia do escoadouro. Na figura representa-se a trajectória yt com t =<br />
1, ..., 50.<br />
Um resultado que ultrapassa, em certas circunstâncias, as limitações apontadas às proposições<br />
7.2.3 e 7.2.6 e, além disso, é directamente aplicável a sistemas de equações às diferenças<br />
consiste no seguinte.<br />
6 Prova-se que não existe um ε > 0 tal que f (2/3 − ε) − 2/3 > 2/3 − f 2 (2/3 − ε) .<br />
225<br />
II
Proposição 7.2.7 Admitam-se as condições da proposição 7.2.5 e suponha-se ∆V (x) < 0<br />
para todo o x ∈ Vε (¯y) e x = ¯y. Se y0 ∈ Vε (¯y) então g t (y0) → ¯y quando t → ∞.<br />
Logo Vε (¯y) ⊆ W (¯y) .<br />
Exemplo 7.2.15 Considere-se<br />
y1t =<br />
2<br />
y2t−1 − y2t−1 y1t−1 + y 2 <br />
2t−1<br />
y2t =<br />
2<br />
y1t−1 − y1t−1 y1t−1 + y 2 <br />
2t−1 .<br />
Estude-se a estabilidade do ponto fixo ¯y = (0, 0) T e determine-se a respectiva bacia do<br />
escoadouro. Para o efeito tome-se a função V (x1, x2) = x 2 1 + x 2 2. Vem<br />
no conjunto<br />
∆V (x) = 2<br />
x2 − x2 x1 + x 22 2<br />
2 + x1 − x1 x1 + x 22 2<br />
2 − x1 + x 2 2<br />
= ...<br />
= x 2 1 + x 2 2<br />
< 0<br />
2 2<br />
−2 + x1 + x 2 2<br />
<br />
(x1, x2) : x2 1 + x2 2 < √ <br />
2 = V√ 2 (¯y) ⊆ W (¯y) .<br />
Exemplo 7.2.16 Retome-se o exemplo 7.2.10, yt = yt−1−y 3 t−1. Resulta óbvio que V√ 2 (¯y) ⊆<br />
W (¯y) .<br />
Exemplo 7.2.17 Retome-se o exemplo 7.2.12, yt = 3yt−1 − y2 <br />
t−1 /2. Analise-se a bacia<br />
do escoadouro do ponto ¯y = 1 e, para o efeito, considere-se V (x) = (x − 1) 2 . Tem-se<br />
∆V (x) = 3x − x 2 /2 − 1 2 − (x − 1) 2<br />
= 9<br />
4 x2 − x − 3<br />
2 x3 + 1<br />
4 x4<br />
= 1<br />
4 (x − 4) (x − 1)2 x.<br />
A função ∆V (x) está representada na figura 7-11, a qual permite concluir que V1 (1) =<br />
{x : |x − 1| < 1} ⊆ W (1) . No exemplo 7.2.12 foi-se um pouco mais longe. De facto,<br />
observou-se que V1 (1) ⊂ W (1).<br />
A terminar esta secção mostra-se que se um ponto pertence a uma certa bacia de escoad-<br />
ouro então esse ponto não pode pertencer a outra bacia de escoadouro. Assim,<br />
226
2<br />
1<br />
0<br />
0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0<br />
1<br />
2<br />
3<br />
4<br />
Figura 7-11: Gráfico da função ∆V (x) = 1<br />
4 (x − 4) (x − 1)2 x<br />
Proposição 7.2.8 Se ¯y1 e ¯y2 são escoadouros e ¯y1 = ¯y2 então W (¯y1) ∩ W (¯y2) = ∅.<br />
Dem. Mostra-se que W (¯y1) ∩ W (¯y2) = ∅ ⇒ ¯y1 = ¯y2. Seja y0 ∈ W (¯y1) ∩ W (¯y2) .<br />
Então para cada ε > 0 existe um n1 ∈ N tal que t ≥ n1 implica g t (y0) − ¯y1 < ε/2 e<br />
existe um n2 ∈ N tal que t ≥ n2 implica g t (y0) − ¯y2 < ε/2. Logo as duas desigual-<br />
dades verificam-se simultaneamente para o maior dos n ′ s, i.e. definindo n3 = max {n1, n2}<br />
tem-se que t ≥ n3 implica g t (y0) − ¯y1 < ε/2 e g t (y0) − ¯y2 < ε/2. Utilizando a<br />
desigualdade triangular para t ≥ n3 vem<br />
¯y1 − ¯y2 = ¯y1 − g t (y0) − ¯y2 − g t (y0) <br />
≤ ¯y1 − g t (y0) + ¯y2 − g t (y0) <br />
< ε ε<br />
+<br />
2 2<br />
= ε.<br />
Como a distância entre ¯y1 e ¯y2 é menor do que ε para cada ε > 0, deverá ter-se ¯y1 = ¯y2.<br />
7.2.3 Pontos Periódicos<br />
Definições<br />
Definição 7.2.3 Um vector p ∈ R m é um ponto periódico de período k se<br />
g k (p) = p (7.4)<br />
e k é o menor inteiro positivo tal que (7.4) se verifica (i.e., g s (p) = p para s = 1, 2, ..., k −<br />
1). A órbita de valor inicial p diz-se uma órbita periódica de período k.<br />
227
Note-se que se p é um ponto periódico de período 2 então p é um ponto fixo de g 2 . O<br />
recíproco não é verdade. Por exemplo, um ponto fixo de g 2 pode ser também um ponto fixo<br />
de g e, neste caso, de acordo com a definição, este ponto tem período 1.<br />
Considere-se uma órbita de valor inicial p, i.e., {p, g (p) , g 2 (p) , ...} . Se p é um ponto<br />
periódico de período 3, p deve repetir-se de três em três iterações. Por exemplo, {p, g (p) , g 2 (p) , p, ...} .<br />
Mas g (p) e g 2 (p) também se repetem de três em três iterações, {.., p, g (p) , g 2 (p) , p, g (p) , g 2 (p) , p...} .<br />
Neste exemplo, é suficiente identificar a órbita de período 3 através dos três elementos<br />
{p, g (p) , g 2 (p)} (se p é ponto fixo de g e, portanto, ponto periódico de período 1, en-<br />
tão a órbita periódica de período 1 é constituída apenas pelo elemento {p}). Naturalmente,<br />
b = g (p) e c = g 2 (p) são também pontos periódicos de período 3. A proposição seguinte<br />
estabelece este resultado.<br />
Proposição 7.2.9 Seja p um ponto periódico de g de período k. Então<br />
são também pontos periódicos de período k.<br />
g (p) , g 2 (p) , ..., g k−1 (p)<br />
Dem. Considere-se um ponto genérico do conjunto g (p) , g 2 (p) , ..., g k−1 (p) , pi =<br />
g i (p) , com i = 1, 2, ..., k − 1. Mostra-se em primeiro lugar que pi não é um ponto fixo de<br />
g s com s < k, caso contrário pi não poderia ser candidato a ponto periódico de período k<br />
(definição 7.2.3). Suponha-se no entanto que pi é ponto fixo de g s . Viria<br />
g s (pi) = pi ⇔ g s g i (p) = g i (p) ⇔ g s+i (p) = g i (p)<br />
o que significa que p repete de s em s iterações, ou seja que p é ponto fixo de g s . Esta<br />
conclusão contradiz a hipótese de p ser ponto periódico de período k > s (i.e., a primeira<br />
vez que p se repete é após k iterações). Basta agora ver que pi = g i (p) é ponto fixo de g k .<br />
Vem<br />
g k (pi) = g k g i (p) = g i g k (p) = g i (p) = pi.<br />
Exemplo 7.2.18 Considere-se a equação yt = ayt−1 (1 − yt−1) . Tem-se portanto g (x) =<br />
ax (1 − x) . Investigue-se se existem pontos periódicos de período 2. Determine-se g 2 (x)<br />
g 2 (x) = g (g (x)) = a (g (x)) (1 − g (x)) = a (ax (1 − x)) (1 − ax (1 − x)) .<br />
228
Poderíamos também obter g 2 (x) considerando<br />
yt = ayt−1 (1 − yt−1)<br />
= a (ayt−2 (1 − yt−2)) (1 − (ayt−2 (1 − yt−2)))<br />
o que permitiria deduzir g 2 (x) = a (ax (1 − x)) (1 − ax (1 − x)) . Para determinar eventu-<br />
ais pontos periódicos resolve-se a equação g 2 (x) = x em ordem a x. Factorizando g 2 (x)−x<br />
obtém-se<br />
−x (1 − a + a x) 1 + a − a x − a 2 x + a 2 x 2 = 0<br />
pelo que se conclui que os pontos fixos de g 2 são<br />
x1 = 0, x2 =<br />
x4 =<br />
1<br />
2<br />
+ 1<br />
2<br />
<br />
1 1 1<br />
−1 + a + a + (−3 − 2a + a2 )<br />
2 2 2<br />
, x3 =<br />
, (7.5)<br />
<br />
a<br />
a<br />
1 a − (−3 − 2a + a2 )<br />
2<br />
. (7.6)<br />
a<br />
Estes valores serão pontos periódicos de período 2 se não forem pontos fixos de g. Ora<br />
resolvendo<br />
g (x) = x<br />
sai ¯y = 0 e ¯y = −1+a<br />
a . Retome-se os pontos fixos apresentados em (7.5) e (7.6). Conclui-se<br />
que os pontos 0 e (−1 + a) /a não são pontos periódicos de período 2 pois eles são pontos<br />
fixos de g (e, portanto são pontos periódicos de período 1). Relativamente a x3 conclui-se<br />
que<br />
se a = 1, e<br />
1<br />
2<br />
+ 1<br />
2<br />
1<br />
2<br />
<br />
1 a + (−3 − 2a + a2 )<br />
2<br />
a<br />
+ 1<br />
2<br />
= −1 + a<br />
<br />
1 a + (−3 − 2a + a2 )<br />
2<br />
a<br />
a<br />
se a = −1. Logo x3 é ponto periódico de período 2 se a = 1 e a = −1. Seguindo o<br />
mesmo raciocínio conclui-se que x4 é ponto periódico de período 2 se a = 3 e a = −1.<br />
= 0<br />
Para concretizar suponha-se que a = 3.3. Tem-se ¯y = 0, ¯y = −1+a<br />
a<br />
= . 696 97, x3 = .<br />
823 6 e x4 = . 479 43. Na figura 7-12 é evidente que {0. 823 6, 0.47943} forma uma órbita<br />
de período 2.<br />
Outra forma (embora pouco eficiente) de confirmarmos as conclusões emergentes da<br />
figura 7-12 consiste em se calcular iterativamente a trajectória y. A tabela seguinte fornece<br />
229
0.9<br />
0.8<br />
0.7<br />
0.6<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
y<br />
1 8 15 22 29 36 43<br />
Figura 7-12: Trajectória de yt = 3.3yt−1 (1 − yt−1) , y0 = 0.1<br />
t: 0 1 2 3 4 5 6 7 8 9 10 11 12 13<br />
yt: 0.1000 0.2970 0.6890 0.7071 0.6835 0.7139 0.6740 0.7251 0.6577 0.7429 0.6303 0.7690 0.5863 0.8004<br />
t: 14 15 16 17 18 19 20 21 22 23 24 25 26 27<br />
yt: 0.5271 0.8226 0.4816 0.8239 0.4788 0.8235 0.4796 0.8236 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236<br />
t: 28 29 30 31 32 33 34 35 36 37 38 39 40 41<br />
yt: 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236<br />
Figura 7-13: Sucessão yt = 3.3yt−1 (1 − yt−1) , y0 = 0.1, t = 1, ..., 41<br />
os valores de yt ao longo do tempo, com y0 = 0.1. É óbvio, a partir de certo valor de t<br />
(digamos, a partir de t = 20) yt repete os valores .8236 e .4794 de duas em duas iterações.<br />
É também interessante confirmarmos que .823 6 e .47943 são pontos periódico de período<br />
2 a partir do gráfico teia de aranha, figura 7-14.<br />
Exemplo 7.2.19 Retome-se o exemplo 7.2.2. Tem-se<br />
e<br />
⎛<br />
⎛⎛<br />
g 2 (x) = g ⎝g ⎝<br />
⎛<br />
⎛<br />
g 3 (x) = g ⎝g ⎝g ⎝<br />
⎝ x1<br />
⎛⎛<br />
x2<br />
⎝ x1<br />
x2<br />
⎞⎞⎞<br />
⎛⎛<br />
⎠⎠⎠<br />
= g ⎝<br />
⎞⎞⎞⎞<br />
⎝ x2<br />
⎠⎠⎠⎠<br />
= g ⎝<br />
x2<br />
x1<br />
⎛⎛<br />
⎝ x2<br />
x1<br />
1<br />
x1<br />
⎞⎞<br />
⎛<br />
⎠⎠<br />
= ⎝<br />
⎞⎞<br />
x2<br />
x1<br />
x2<br />
x 1<br />
x2<br />
⎛<br />
⎠⎠<br />
= ⎝<br />
⎞<br />
⎠ =<br />
1<br />
x1<br />
1<br />
x 1<br />
x 2<br />
x 1<br />
⎞<br />
t<br />
⎛<br />
⎠ =<br />
⎝ x2<br />
x1<br />
1<br />
x1<br />
⎛<br />
⎞<br />
⎠<br />
⎝ 1<br />
x1<br />
1<br />
x2<br />
Deixa-se como exército verificar que não existem ponto periódicos de período 2 e existem<br />
três pontos periódicos de período 3.<br />
Um modelo que pode gerar pontos periódico é o modelo linear por troços (ou, simples-<br />
mente, modelo limiar). Assume-se um comportamento diferenciado do sistema dinâmico<br />
consoante o estado do sistema no momento t − 1, concretamente, consoante yt−1 se encontre<br />
230<br />
⎞<br />
⎠ .
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0.5 0.25 0.25 0.5 0.75 1<br />
0.2<br />
0.4<br />
Figura 7-14: Gráfico Teia de Aranha da equação yt = 3.3yt−1 (1 − yt−1)<br />
abaixo ou acima de certo limiar γ. No caso mais simples o modelo corresponde a<br />
yt =<br />
⎧<br />
⎨<br />
⎩<br />
c1 + φ 1yt−1, yt−1 < γ<br />
c2 + φ 2yt−1, yt−1 ≥ γ.<br />
A função g (x) pode não ser contínua (no limiar γ), como o exemplo precedente mostra.<br />
O modelo seguinte, com c1 = γ (φ 2 − φ 1) + c2, define uma função contínua no ponto γ.<br />
yt =<br />
A função g (x) é portanto<br />
⎧<br />
⎨<br />
⎩<br />
γ (φ 2 − φ 1) + c2 + φ 1yt−1, yt−1 < γ<br />
c2 + φ 2yt−1, yt−1 ≥ γ.<br />
⎧<br />
⎨ γ (φ2 − φ1) + c2 + φ1x, x < γ<br />
g (x) =<br />
⎩ c2 + φ2x, x ≥ γ.<br />
Logo g (γ) = c2 + φ 2γ e limx↑γ g (x) = γ (φ 2 − φ 1) + c2 + φ 1γ = c2 + γφ 2. Podemos ainda<br />
exigir a existência de um ponto fixo no ponto γ fazendo<br />
γ (φ 2 − φ 1) + c2 + φ 1x = x, Solução: x = −γφ 2 + γφ 1 − c2<br />
φ 1 − 1<br />
c2 + φ 2x = x, Solução: x = − c2<br />
φ 2 − 1<br />
231
e, agora resolvendo, −γφ 2 +γφ 1 −c2<br />
φ 1 −1<br />
ou<br />
Veja-se que<br />
e<br />
= − c2<br />
φ 2 −1 , sai c2 = γ (1 − φ 2) . Assim, tem-se<br />
⎧<br />
⎨ γ (φ2 − φ1) + γ (1 − φ2) + φ1x, x < γ<br />
g (x) =<br />
⎩ γ (1 − φ2) + φ2x, x ≥ γ.<br />
Estabilidade dos Pontos Periódicos<br />
⎧<br />
⎨ γ (1 − φ1) + φ1x, x < γ<br />
g (x) =<br />
⎩ γ (1 − φ2) + φ2x, x ≥ γ.<br />
g (γ) = γ (1 − φ 2) + φ 2γ = γ<br />
lim g (x) = γ (1 − φ1) + φ1γ = γ.<br />
x↑γ<br />
Tal como no caso dos pontos fixos de g, pontos periódicos podem ser estáveis ou instáveis.<br />
Intuitivamente, um ponto periódico de período k é estável se qualquer trajectória iniciada<br />
numa vizinhança desse ponto não se afasta desse ponto de k em k iterações, para todo o t (da<br />
mesma forma se interpreta ponto periódico assimptoticamente estável e instável). O facto<br />
essencial é que um ponto periódico de g de período k é um ponto fixo de g k . Desta forma,<br />
a definição de estabilidade para pontos periódicos pode basear-se na definição 7.2.2, sendo<br />
que agora deverá ler-se g k em lugar de g (g t deverá ler-se g kt ). Em geral são aplicáveis as<br />
proposições precedentes, desde que se procedam às necessárias adaptações. Por exemplo, a<br />
proposição 7.2.3 estabelece que ¯y é assimptoticamente estável se |g ′ (¯y)| < 1 e instável no<br />
caso contrário. Se as condições da proposição 7.2.3 se aplicarem, e fazendo h (x) = g k (x) ,<br />
podemos estabelecer que o ponto periódico p de período k é assimptoticamente estável se<br />
|h ′ (p)| < 1 e instável no caso contrário.<br />
Vimos na proposição 7.2.9 que, se p é ponto periódico de período k então a aplicação<br />
g admite adicionalmente k − 1 pontos periódicos. Se p exibe uma certa característica qual-<br />
itativa que conclusões podemos tirar para os demais pontos periódicos? A proposição e a<br />
demonstração seguintes mostra que todos os pontos periódicos partilham das mesmas pro-<br />
priedades qualitativas. Desta forma pode-se falar de órbitas periódicas estáveis e instáveis<br />
(em alternativa a pontos periódicos estáveis e instáveis).<br />
232
Proposição 7.2.10 Seja g uma aplicação de classe C 1 em R e seja {p1, p2, ..., pk} uma órbita<br />
periódica de período k. Então {p1, ..., pk} é assimptoticamente estável (escoadouro) se<br />
e instável (fonte) se<br />
Dem. Nicolau (2004).<br />
|g ′ (pk) ...g ′ (p1)| < 1<br />
|g ′ (pk) ...g ′ (p1)| > 1.<br />
Pode-se provar que se pi é um ponto periódico assimptoticamente estável (instável) da<br />
órbita {p1, ...pk} então pj é também um ponto periódico assimptoticamente estável (instável).<br />
Exemplo 7.2.20 Considere-se a EDF yt = 3.5x (1 − x) . Utilizando-se um programa de<br />
Matemática obtiveram-se os seguintes resultados:<br />
forma<br />
k Pontos Fixos de g k (os pontos periódicos estão em negrito)<br />
1 {0, 0.714286}<br />
2 {0, 0.714286, 0.428571, 0.857143}<br />
3 {0, 0.714286}<br />
4 {0, 0.714286, 0.428571, 0.857143, 0.38282, 0.500884, 0.826941, 0.874997}<br />
Analisa-se agora a estabilidade dos pontos periódicos na tabela seguinte.<br />
k Análise da Estabilidade dos Pontos Periódicos (proposição 7.2.10)<br />
1 |g ′ (0)| = 3.5, |g ′ (0, 0.714286)| = 1.5<br />
<br />
2<br />
′ ′ ′<br />
g (0.428571) g (0.857143) = 1.25<br />
3 −<br />
4 |g ′ (0.38282) g ′ (0.500884) g ′ (0.826941) g ′ (0.874997)| = 0.03<br />
Os resultados apresentados na tabela anterior podem também ser obtidos da seguinte<br />
<br />
<br />
g 2 (0.428571) ′ <br />
<br />
= g 2 (0.857143) ′ <br />
= 1.25<br />
<br />
<br />
g 4 (0.38282) ′ <br />
<br />
= g 4 (0.500884) ′ <br />
<br />
= g 4 (0.826941) ′ <br />
<br />
= g 4 (0.874997) ′ <br />
= 0.03.<br />
233
1<br />
f<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0.2 0.4 0.6 0.8 1 x<br />
Figura 7-15: Gráfico Teia de Aranha da equação yt = 3.5yt−1 (1 − yt−1)<br />
Naturalmente esta segunda alternativa é bastante mais trabalhosa. Conclui-se que todos os<br />
pontos periódicos de período k = 4 são assimptoticamente estáveis; todos os outros pontos<br />
em análise são instáveis. O gráfico 7-15 permite identificar um comportamento periódico<br />
de período k = 4.<br />
Tem interesse ainda observar o gráfico teia de aranha do modelo g 4 (x) - ver figura 7-16.<br />
Observe-se (talvez com alguma dificuldade) que a função g 4 corta o eixo de 45 o oito vezes<br />
(considerando também o ponto zero). Este facto corrobora a primeira tabela deste exemplo<br />
(última linha).<br />
7.3 Modelo Limiar Autoregressivo (Threshold AR - TAR)<br />
7.3.1 Introdução<br />
Como argumentámos na introdução deste capítulo, uma classe importante de processos não<br />
lineares na média baseia-se na ideia de regime-switching. Nesta secção apresentam-se vários<br />
modelos onde a mudança de regime depende de uma variável observável. Provavelmente o<br />
modelo mais conhecido desta família (onde os regimes dependem de variáveis observáveis)<br />
é o modelo Threshold AR ou TAR. Para exemplificar, considere-se um modelo TAR com<br />
234
dois regimes<br />
y<br />
1.0<br />
0.9<br />
0.8<br />
0.7<br />
0.6<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0.0<br />
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0<br />
Figura 7-16: Gráfico Teia de Aranha do Modelo g 4 (x)<br />
yt =<br />
⎧<br />
⎨<br />
⎩<br />
φ 10 + φ 11yt−1 + ut qt−d < γ<br />
φ 20 + φ 21yt−1 + ut qt−d > γ<br />
x<br />
(7.7)<br />
onde γ é o valor do limiar (threshold values), qt−d é a variável limiar e d > 0 é um inteiro.<br />
No caso especial em que qt−d = yt−d o modelo (7.7) designa-se por Self-Exciting TAR ou<br />
SETAR (é o próprio processo y que determina a mudança de regime).<br />
A ideia principal do modelo pode ser exposta da seguinte forma. Se certo fenómeno y<br />
é não linear na média, então é incorrecto assumir que y se comporta linearmente em todo o<br />
seu domínio. A solução que está implícita no modelo TAR consiste em assumir linearizações<br />
diferenciadas, consoante o valor de y. Em lugar de se ter uma aproximação linear global, têm-<br />
se várias linearizações em sub-intervalos do espaço de estados 7 . Por exemplo, no modelo<br />
(7.7), com qt−d = yt−1, pode admitir-se que a representação linear φ 10 + φ 11yt−1 + ut é uma<br />
boa aproximação para o comportamento de yt quando yt−1 < γ. Todavia, quando yt−1 sai do<br />
intervalo (−∞, γ) , yt passa a ser melhor caracterizado pelo segundo ramo da especificação<br />
(7.7).<br />
7A este respeito a fórmula de Taylor é instrutiva. Suponha-se que f : R → R possui derivada contínua<br />
de primeira ordem. Pela fórmula de Taylor tem-se f (x) = f (a) + f ′ <br />
(a) (x − a) + O |x − a| 2<br />
. Esta<br />
fórmula diz-nos que f (x) pode ser arbitrariamente bem aproximada através da expressão linear (em x) f (a) +<br />
f ′ (a) (x − a). Note-se que a, f (a) e f ′ (a) são constantes e o erro envolvido na aproximação é de ordem<br />
|x − a| 2 . Se procuramos aproximarf (x) quando x se afasta de a a aproximação piora significativamente,<br />
tendo em conta o erro envolvido O |x − a| 2<br />
. Assim, podemos usar a fórmula de Taylor na forma linear,<br />
repetidamente, para vários valores de a, e assim obter boas aproximações de f em todo o seu domínio. É este<br />
o princípio que está subjacente ao modelo TAR.<br />
235
Outra interpretação do TAR é sugerida pela seguinte representação equivalente de (7.7):<br />
yt = <br />
φ10I{qt−d≤γ} + φ11I{qt−d≤γ}yt−1 + =<br />
<br />
φ20I{qt−d>γ} + φ21I{qt−d>γ}yt−1 + ut.<br />
<br />
φ10I{qt−d≤γ} + φ20I{qt−d>γ} +<br />
<br />
φ0 (yt−1)<br />
<br />
φ11I{qt−d≤γ} + φ21I{qt−d>γ} <br />
φ1 (yt−1)<br />
= φ 0 (qt−d) + φ 1 (qt−d) yt−1 + ut.<br />
yt−1 + ut<br />
Observa-se, assim, que o modelo TAR pode ser interpretado como um processo AR de coe-<br />
ficientes aleatórios com dependência em qt−d.<br />
7.3.2 Soluções Periódicas<br />
Considere-se o processo linear, yt = c + φyt−1 + ut, |φ| < 1. Recorde-se que o esqueleto<br />
da equação estocástica é a correspondente equação determinística com ut ≡ 0, i.e., ˜yt =<br />
c + φ˜yt−1. De acordo com a definição 7.2.1, o ponto fixo da equação yt = g (yt−1) é o valor<br />
¯y tal que g (¯y) = ¯y. No caso linear, g (x) = c + φx, a solução de g (¯y) = ¯y é ¯y = c/ (1 − φ) .<br />
Recorda-se que se ˜yt for inicializado no ponto fixo, ˜yt permanece no valor do ponto fixo<br />
para todo o t . Com efeito, se yt−1 = ¯y e ¯y é um ponto fixo, a variação da solução, ∆yt, é<br />
nula, i.e., ∆yt = yt − yt−1 = g (yt−1) − yt−1 = ¯y − ¯y = 0. Se a solução não é inicializada<br />
numa vizinhança do ponto fixo, mas |φ| < 1, então ˜yt tenderá para ¯y, quando t → ∞.<br />
Quando a equação é linear (de primeira ordem) existe apenas o ponto fixo ¯y = c/ (1 − φ),<br />
que poderá ser ou não assimptoticamente estável (dependendo do valor de φ). Uma das<br />
características dos processos não lineares é o de admitirem esqueletos com vários pontos<br />
fixos e com periodicidade superior a um. Esta possibilidade permite modelar dados que<br />
exibam “soluções periódicas estáveis”.<br />
Para concretizar considere-se o exemplo:<br />
O esqueleto da equação é<br />
yt =<br />
⎧<br />
⎨<br />
⎩<br />
1 + 0.5yt−1 + ut<br />
yt−1 < 0<br />
−1 − 0.5yt−1 + ut yt−1 ≥ 0.<br />
⎧<br />
⎨ 1 + 0.5˜yt−1, yt−1 < 0<br />
˜yt =<br />
⎩ −1 − 0.5˜yt−1, yt−1 ≥ 0<br />
236<br />
(7.8)<br />
(7.9)
yt<br />
= 1+ 0.<br />
5yt<br />
−<br />
4<br />
2<br />
4 2 2 4<br />
1<br />
2<br />
4<br />
yt<br />
= −1−<br />
0.<br />
5yt<br />
−<br />
Figura 7-17: Gráfico Teia de Aranha do modelo (7.9). Os valores 0.4 e -1.2 são pontos<br />
periódicos de período 2<br />
6<br />
5<br />
4<br />
3<br />
2<br />
1<br />
0<br />
1<br />
2<br />
3<br />
4<br />
y<br />
1 6 11 16 21 26 31<br />
e a função g (x) representa-se na forma<br />
Figura 7-18: Trajectória de (7.10) com y0 = 5<br />
⎧<br />
⎨ 1 + 0.5x x < 0<br />
g (x) =<br />
⎩ −1 − 0.5x x ≥ 0.<br />
1<br />
t<br />
(7.10)<br />
As figuras 7-17 e 7-18 mostram que os valores 0.4 e -1.2 são pontos periódicos 8 de período<br />
2. Estes pontos são assimptoticamente estáveis. Qualquer que seja o valor de inicialização,<br />
a solução ˜yt é atraída para a órbita {0.4, −1.2} .<br />
Não faz sentido falar-se em soluções periódicas do modelo estocástico definido em (7.8).<br />
8 É possível obter estes pontos resolvendo g (g (x)) = x em ordem a x.<br />
237
Figura 7-19: Gráfico dos pares (yt−1, yt) após se ter gerado uma trajectória do processo 7.8<br />
(traçam-se também as rectas 1 + .5x e −1 − 0.5x)<br />
A componente estocástica impede, de facto, que yt possa oscilar entre os pontos 0.4 e -1.2.<br />
Todavia, o comportamento periódico subjacente ao esqueleto está parcialmente presente no<br />
modelo estocástico, tal como mostra a figura 7-19, onde se apresenta o gráfico scatter (i.e. o<br />
gráfico dos pares (yt−1, yt)) depois de se ter simulado uma trajectória.<br />
Como o processo é EE (veja-se o exemplo 4.5.9), pode também indagar-se que tipo<br />
de distribuição estacionária define o processo. A expressão analítica desta distribuição é<br />
desconhecida, mas pode estimar-se de várias formas. Provavelmente o procedimento mais<br />
simples consiste em gerar uma trajectória suficientemente longa e, depois de se desprezarem<br />
os primeiros valores 9 (digamos os primeiros 10), estima-se a função de densidade marginal<br />
f (x) através do estimador<br />
ˆf (x) = 1<br />
nSh<br />
nS<br />
<br />
x − yi<br />
K<br />
h<br />
i=1<br />
(7.11)<br />
onde h é a bandwidth, nS é o número de observações simuladas usadas na estimação e K<br />
é, por exemplo, o Kernel (ou núcleo) Gaussiano (para uma discussão alargada do estimador<br />
ˆf ver o ponto 10.2). Sob certas condições sabe-se que ˆ f (x)<br />
p<br />
−→ f (x) onde f não é mais<br />
do que a densidade estacionária. Naturalmente, é necessário considerar vários valores de<br />
9 A justificação: o valor incial y0, a partir da qual é gerada a trajectória, não é obtido em condições esta-<br />
cionárias porque estas são desconhecidas.<br />
238
Figura 7-20: Densidade Estacionária de 7.8 estimada a partir de 50000 observações simuladas.<br />
x na expressão (7.11) para se ter uma ideia do comportamento de f no espaço de estados<br />
da variável. Como ns está sob nosso controle, a função f pode ser estimada de forma ar-<br />
bitrariamente precisa. Na figura 7-20 apresenta-se a densidade estacionária estimada ˆ f (x) .<br />
A existência de duas modas acaba por não surpreender tendo em conta a estrutura do es-<br />
queleto (recorde-se a existência de dois pontos periódicos). Já a assimetria da distribuição<br />
não é clara (pelo menos à primeira vista). A probabilidade de y se encontrar abaixo de zero<br />
é cerca de 0.562 ( I{yt≤0}/n) e E (y) = −0.333. O gráfico teia de aranha talvez possa<br />
explicar estes valores. Observe-se que na estrutura determinística, um valor negativo inferior<br />
a −2 é seguido por outro valor negativo, enquanto um valor positivo passa imediatamente<br />
a negativo. Este facto explica por que razão a probabilidade de y se encontrar abaixo de<br />
zero é superior a 0.5 e, de certa forma, também explica a existência de uma média marginal<br />
negativa.<br />
239
7.3.3 Estacionaridade<br />
A estacionaridade estrita pode ser analisada no contexto das proposições apresentadas no<br />
ponto 4.5. Por exemplo, no modelo mais geral<br />
yt =<br />
⎧<br />
⎪⎨<br />
⎪⎩<br />
se a condição max1≤i≤k<br />
φ 10 + φ 11yt−1 + ... + φ 1pyt−p + ut yt−d < γ 1<br />
... ...<br />
φ k0 + φ k1yt−1 + ... + φ kpyt−p + ut yt−d > γ k<br />
<br />
p <br />
j=1<br />
φji<br />
<br />
< 1 se verificar, então o processo é EE, atendendo<br />
à proposição 4.5.4. Esta condição é apenas suficiente, mas não necessária. Como tal,<br />
pode ser demasiado exigente. Para certos modelos particulares são conhecidas as condições<br />
necessárias e suficientes. É o caso do modelo<br />
yt =<br />
⎧<br />
⎪⎨<br />
⎪⎩<br />
c1 + φ 1yt−1 + ut<br />
yt−d < γ 1<br />
c2 + φ 2yt−1 + ut γ 1 ≤ yt−d ≤ γ 2<br />
c3 + φ 3yt−1 + ut<br />
yt−d > γ 2<br />
(7.12)<br />
Proposição 7.3.1 O processo {yt} definido pelo sistema (7.12) é EE sse qualquer uma das<br />
seguintes condições se verificar:<br />
(i) φ 1 < 1, φ 3 < 1, φ 1φ 3 < 1;<br />
(ii) φ 1 = 1, φ 3 < 1, c1 > 0;<br />
(iii) φ 1 < 1, φ 3 = 1, c3 < 0;<br />
(iv) φ 1 = 1, φ 3 = 1, c3 < 0 < c1;<br />
(v) φ 1φ 3 = 1, φ 1 < 1, c1 + φ 3c1 > 0;<br />
O resultado apresentado não envolve qualquer restrição sobre o regime 2. Mesmo no<br />
caso de k regimes AR(1), o teorema acima continua a aplicar-se (neste caso o regime 3 é<br />
encarado como o último regime).<br />
240
7.3.4 Exemplo (Bounded Random Walk)<br />
Um caso muito interessante é o seguinte:<br />
yt =<br />
⎧<br />
⎪⎨<br />
⎪⎩<br />
c1 + φ 1yt−1 + ut<br />
c2 + yt−1 + ut<br />
c3 + φ 3yt−1 + ut<br />
yt−1 < γ 1<br />
γ 1 ≤ yt−1 ≤ γ 2<br />
yt−1 > γ 2<br />
(7.13)<br />
Assuma-se |φ 1| < 1 e |φ 3| < 1. Observe-se que o processo no regime 2 é integrado de ordem<br />
1, i.e., exibe o comportamento de um random walk. No entanto y é EE, pela proposição<br />
7.3.1.<br />
Se P (γ 1 ≤ yt ≤ γ 2) é uma probabilidade alta, então durante a maior parte do tempo<br />
y comporta-se como um random walk. Sempre que os limiares γ 2 ou γ 1 são atingidos o<br />
processo passa a exibir reversão para uma certa média e, deste modo, y é globalmente esta-<br />
cionário e, portanto, limitado em probabilidade (ou contrário do random walk). Na figura<br />
7-21 apresenta-se uma trajectória simulada a partir do processo<br />
yt =<br />
⎧<br />
⎪⎨<br />
⎪⎩<br />
0.9yt−1 + ut<br />
yt−1 + ut<br />
0.9yt−1 + ut<br />
yt−1 < −3<br />
−3 ≤ yt−1 ≤ 3<br />
yt−1 > 3<br />
onde {ut} é uma sucessão de v.a. i.i.d. com distribuição N (0, 0.2 2 ) .<br />
(7.14)<br />
Processos do tipo (7.14) confundem-se facilmente com passeios aleatórios. Por esta<br />
razão, o teste Dickey-Fuller tende a não rejeitar a hipótese nula de raiz unitária quando a<br />
alternativa é um processo estacionário do tipo (7.14); por outras palavras, o teste Dickey-<br />
Fuller é pouco potente contra alternativas do tipo (7.14). No contexto do modelo (7.13),<br />
pode mostrar-se que a potência do teste Dickey-Fuller diminui quando γ 1 é baixo e γ 2 é alto<br />
ou φ 1, φ 2 < 1 são altos ou Var (ut) é baixa.<br />
7.3.5 Estimação<br />
Considere-se, sem perda de generalidade, o modelo com dois regimes:<br />
yt =<br />
⎧<br />
⎨<br />
⎩<br />
φ 10 + φ 11yt−1 + ... + φ 1pyt−p + ut qt−d ≤ γ<br />
φ 20 + φ 21yt−1 + ... + φ 2pyt−p + ut qt−d > γ<br />
241<br />
(7.15)
Figura 7-21: Trajectória Simulada a partir do Processo (7.14)<br />
onde se assume que {ut} é um ruído branco com Var (ut) = σ2 . Os parâmetros desconhecidos<br />
são d, γ, σ2 <br />
e φ = φ ′<br />
1 φ ′<br />
′ <br />
′<br />
onde φ 2<br />
i = φi0 φi1 ... φ . Reescreva-se (7.15)<br />
ip<br />
na forma<br />
yt = <br />
φ10 + φ11yt−1 + ... + φ1pyt−p I{qt−d≤γ}<br />
+ <br />
φ20 + φ21yt−1 + ... + φ2pyt−p I{qt−d>γ} + ut.<br />
Seja x ′ t = (1, yt−1, ..., yt−p) . Observe-se que cada um dos “ramos” pode escrever-se como<br />
<br />
φ10 + φ11yt−1 + ... + φ1pyt−p I{qt−d≤γ} =<br />
<br />
<br />
1 yt−1 ...<br />
<br />
x<br />
yt−p<br />
<br />
′ t<br />
φ1I{qt−d≤γ} = x ′ tφ1I{qt−d≤γ} <br />
<br />
φ20 + φ21yt−1 + ... + φ2pyt−p I{qt−d>γ} = 1 yt−1 ... yt−p<br />
<br />
242<br />
xt<br />
= x ′ tφ 2I{qt−d>γ}.<br />
<br />
φ 2I{qt−d>γ}
Assim, (7.15) pode ainda escrever-se na forma<br />
ou ainda, com xt (γ) ′ =<br />
yt = x ′ tφ1I{qt−d≤γ} + x ′ tφ2I{qt−d>γ} + ut<br />
<br />
<br />
=<br />
⎛<br />
⎝ φ ⎞<br />
1 ⎠ + ut<br />
<br />
x ′ tI{qt−d≤γ} x ′ tII {qt−d >γ}<br />
x ′ tI{qt−d≤γ} x ′ tII {qt−d >γ}<br />
Se {ut} é um ruído branco Gaussiano então<br />
<br />
yt = xt (γ) ′ φ + ut.<br />
yt| Ft−1 ∼ N xt (γ) ′ φ, σ 2<br />
e o método da máxima verosimilhança é equivalente ao método dos mínimos quadrados<br />
condicionados. Assim, o estimador para φ, dado γ, é<br />
ˆφ (γ) = X (γ) ′ X (γ) −1 X (γ) y (7.16)<br />
onde X (γ) é a matriz das variáveis “explicativas” endógenas desfasadas (dado γ), tendo<br />
por linha genérica o vector-linha xt (γ) ′ e y é o vector das observações {yt} . Claro que o<br />
estimador ˆ φ (γ) depende de γ, que é desconhecido. Como estimar γ? Seja<br />
ˆσ 2 (γ) =<br />
φ 2<br />
<br />
n<br />
t=1<br />
yt − xt (γ) ′ 2 φ ˆ (γ)<br />
a soma dos quadrados dos resíduos. Supondo d conhecido, toma-se para estimativa de γ o<br />
valor que minimiza ˆσ 2 (γ) , i.e.,<br />
n<br />
ˆγ = arg min<br />
γ∈Γ ˆσ2 (γ) . (7.17)<br />
O conjunto Γ é o espaço do parâmetro γ (todos os valores que γ pode assumir). Claramente<br />
Γ = R. Como a derivada de ˆσ 2 (γ) em ordem a γ não está definida, o problema de esti-<br />
mação (7.17) é não standard. Uma forma expedita de obter a sua solução consiste em fazer<br />
percorrer γ no conjunto Γ e, depois, seleccionar o valor que minimiza ˆσ 2 (γ) . Felizmente, a<br />
243
escolha dos valores relevantes para γ é relativamente pequena. Sejam y(1), y(2), ..., y(n) são<br />
as estatística de ordem tais que<br />
y(1) ≤ y(2) ≤ ... ≤ y(n).<br />
Como ˆσ 2 (γ) não se altera quando γ varia entre duas estatísticas de ordem, o problema de<br />
optimização (7.17) é equivalente a<br />
ˆγ = arg min<br />
γ∈˜ ˆσ<br />
Γ<br />
2 (γ) ,<br />
<br />
Γ ˜ = y(1), ..., y(n)<br />
(7.18)<br />
ou seja, para obter ˆγ basta percorrer γ no conjunto ˜ Γ e seleccionar, depois aquele que mini-<br />
miza ˆσ 2 (γ). Na prática, impõe-se que cada regime possua pelo menos uma certa fracção π<br />
de observações (efectivamente, não faz sentido, tomar ˆγ = y(1) ou ˆγ = y(n)). Assim, deve<br />
restringir-se o conjunto ˜ Γ, passando a ser <br />
y((π(n−1))), ..., y((1−π)(n−1)) onde (.) representa a<br />
parte inteira do número. Neste novo conjunto ˜ Γ não fazem parte as π100% mais baixas nem<br />
as (1 − π) 100% mais altas.<br />
Falta-nos ainda tratar a estimação de d, que é também não standard tendo em conta que<br />
d ∈ N. Como ˆσ 2 depende de d, escolhe-se d num certo conjunto D = {1, 2, ..., d ∗ } de forma<br />
a minimizar ˆσ 2 . Logo,<br />
onde, agora,<br />
e<br />
ˆσ 2 (γ, d) = n −1<br />
<br />
ˆγ, ˆ <br />
d = arg min<br />
γ∈˜ ˆσ<br />
Γ,d∈D<br />
2 (γ, d)<br />
n <br />
yt − xt (γ, d) ′ φ ˆ (γ, d)<br />
t=1<br />
ˆφ (γ, d) = X (γ, d) ′ X (γ, d) −1 X (γ, d) y.<br />
Em suma, os passos na estimação dos parâmetros são o seguintes:<br />
1. para cada γ ∈ ˆ Γ e para cada d ∈ D, construir X (γ, d) e estimar ˆ φ (γ, d) e ˆσ 2 (γ, d);<br />
2. tomar para estimativa de γ e de d o par (γ, d) que minimiza ˆσ 2 (γ, d); seja esse par<br />
<br />
dado por ˆγ, ˆ <br />
d .<br />
3. tomar para estimativa de φ, o valor ˆ <br />
φ ˆγ, ˆ <br />
d .<br />
244<br />
2
Exemplo 7.3.1 Considere<br />
yt =<br />
⎧<br />
⎨<br />
⎩<br />
φ 1yt−1 + ut se yt−d ≤ γ<br />
φ 2yt−1 + ut se yt−d > γ<br />
com Var [ut] = σ 2 . Suponha que os resultados na fase da estimação são:<br />
Valores de ˆσ 2 em função de γ e d<br />
γ ↓<br />
d →<br />
1 2<br />
-1 15.5 16<br />
-0.7 12.4 13.5<br />
-0.1 12.1 12.3<br />
-.001 3.5 2.5<br />
0.0 1.2 2.4<br />
1.2 2.5 2.8<br />
1.5 5.5 7<br />
Resulta do quadro (veja o valor a negrito) que ˆγ = 0, ˆ d = 1 e ˆσ 2 = 1.2. Por outras<br />
palavras<br />
(0, 1) = arg min ˆσ 2 (γ, d) e min ˆσ 2 (0, 1) = 1.2.<br />
Para ilustrar a matriz X (γ, d), suponha que os dois últimos valores de y são yn−1 = 1.5<br />
e yn = −1.5; então a última linha da matriz X (γ, d) é<br />
xn<br />
<br />
ˆγ, ˆ ′ <br />
d =<br />
(o valor yn = −1.5 não entra na matriz X).<br />
7.3.6 Inferência<br />
yn−1I{yn−1≤0} yn−1I{yn−1>0}<br />
<br />
= 0 1.5<br />
Pode mostrar-se que o estimador para d é super-consistente, isto é, possui uma variância pro-<br />
porcional a 1/n α com α > 1 (os estimadores habituais possuem uma variância proporcional<br />
a 1/n). A distribuição assimptótica é também conhecida (Hansen, 2000). Dada a super-<br />
consistência de ˆ d podemos, para efeitos de inferência estatística sobre os demais parâmetros,<br />
assumir que d é conhecido.<br />
245
Inferência sobre φ<br />
Sob certas condições (incluindo estacionaridade estrita) tem-se<br />
√ <br />
n ˆφ d <br />
(ˆγ) − φ0 −→ N 0, I (γ0) −1 , (7.19)<br />
onde I (γ 0) = σ −2 E (xt (γ 0) xt (γ 0)) (γ 0 e φ 0 são, de acordo com a notação habitual, os<br />
verdadeiros, mas desconhecidos valores dos parâmetros γ e φ). Supomos, naturalmente, que<br />
ˆγ é um estimador consistente para γ 0. A matriz I (γ 0) é estimada consistentemente por<br />
1<br />
n<br />
n<br />
t=1<br />
xt (ˆγ) xt (ˆγ) ′ .<br />
O resultado (7.19) indica-nos que, em grandes amostras, a inferência estatística sobre os<br />
parâmetros φ ij conduz-se da forma habitual.<br />
Inferência sobre a existência de Threshold<br />
Uma questão importante é saber se o modelo TAR é preferível ao simples AR. Para o efeito,<br />
testa-se H0 : φ 1 = φ 2 pois, sob esta hipótese, o TAR reduz-se ao AR. Aparentemente, o<br />
resultado (7.19) permite ensaiar H0, no quadro do teste de Wald. Esta ideia é incorrecta,<br />
pois sob a hipótese nula o parâmetro γ não identificável. Este é um problema que ocorre<br />
tipicamente em modelos não lineares (veja-se, por exemplo, o modelo Markov-switching,<br />
no ponto 7.4). Observe-se que, sob a hipótese nula, a função de verosimilhança deixa de<br />
depender do parâmetro γ (é indiferente o valor que γ assume) 10 . Nestas circunstâncias, a<br />
matriz de informação é singular e não é possível usar os resultados assimptóticos habituais.<br />
Hansen (2000) sugere o seguinte procedimento:<br />
1. obter Fn = n ˜σ 2 n − ˆσ 2<br />
2<br />
n /ˆσ n onde ˜σ 2 n é a variância dos erros de regressão do modelo<br />
AR (sob H0) e ˆσ 2<br />
n resulta de (7.18);<br />
2. simular u ∗ t , t = 1, ..., n com distribuição i.i.d. N (0, 1) ;<br />
3. y ∗ t = u ∗ t ;<br />
4. fazer a regressão de y ∗ t sobre xt =<br />
<br />
1 yt−1 ... yt−p<br />
<br />
e obter ˜σ ∗2<br />
n<br />
10 Veja-se mais um exemplo. No caso yt = βx γ + ut, x > 0, ocorre uma situação similar com H0 : β = 0<br />
ou com H0 : γ = 0. Por exemplo, sob a hipótese β = 0, γ desaparece da especificação; como consequência, a<br />
verosimilhança deixa de depender de γ. Já o ensaio H0 : β = β 0 com β 0 = 0 não levanta problemas.<br />
246
5. obter ˆγ = arg min γ∈ ˜ Γ ˆσ ∗2<br />
n (γ) onde ˆσ ∗2<br />
n (γ) resulta da regressão de y ∗ t sobre xt (γ);<br />
6. obter F ∗ n = n ˜σ ∗2<br />
n − ˆσ ∗2<br />
∗2<br />
n /ˆσ n<br />
7. repetir os passos 2-6 B vezes<br />
8. valor-p = percentagem de vezes (em B) em que F ∗ n ≥ Fn.<br />
A fundamentação do teste baseia-se na prova segundo a qual F ∗ n possui a mesma dis-<br />
tribuição assimptótica de Fn, sob H0. Observe-se, com efeito, que F ∗ n é construída sob a<br />
hipótese de ausência de threshold. Assim, existe indício de violação da hipótese nula quando<br />
˜σ 2 n é significativamente superior a ˆσ 2<br />
n, de tal forma que Fn tende a ser geralmente alto quando<br />
comparado com F ∗ n. Nestas circunstâncias raramente ocorre F ∗ n ≥ Fn (nas B simulações) e<br />
o valor-p vem baixo.<br />
Inferência sobre o threshold<br />
Seja<br />
Sabe-se que (Hansen, 1997)<br />
2<br />
ˆσ n (γ) − ˆσ<br />
Fn (γ) = n<br />
2<br />
Fn (γ 0)<br />
ˆσ 2<br />
n (ˆγ)<br />
d<br />
−→ ξ<br />
n (ˆγ)<br />
<br />
. (7.20)<br />
onde P (ξ ≤ x) = 1 − e −x/2 2 . Com base neste resultado, Hansen (1997) recomenda o<br />
seguinte procedimento para a construção de um intervalo de confiança para γ:<br />
1. Calcular Fn (γ) para γ ∈ ˜ Γ<br />
2. Determinar o conjunto Cα = γ : Fn (γ) ≤ q ξ α<br />
onde q ξ α é o quantil da distribuição de<br />
ξ (inclui, portanto, todos os γ tais que Fn (γ) é menor ou igual a q ξ α).<br />
Como P (γ 0 ∈ Cα) → α (quando n → ∞), o intervalo de confiança a α100% é precisa-<br />
mente Cα.<br />
Usando a função de distribuição de ξ, tem-se q ξ<br />
0.90 = 5.94, q ξ<br />
0.95 = 7.35 e q ξ<br />
0.99 = 10.59.<br />
Ilustre-se o procedimento com o seguinte exemplo artificial. Admita-se que se obser-<br />
vam os valores da tabela 7.1. Note-se que a estimativa para γ é ˆγ = 1.2 pois Fn (1.2) =<br />
0. Tendo em conta que q ξ<br />
0.95 = 7.35, o intervalo de confiança para γ a 95% é C0.95 =<br />
{γ : 1.15 ≤ γ ≤ 1.45} .<br />
247
γ Fn<br />
1 12.2<br />
1.1 10.2<br />
1.15 7.35<br />
1.2 0<br />
1.35 6.31<br />
1.45 7.35<br />
1.6 15<br />
Tabela 7.1: Intervalo de Confiança para o Threshold: Ilustração do método de Hansen<br />
7.4 Modelo Markov-Switching<br />
7.4.1 Introdução<br />
Outro modelo importante baseado na ideia de regime switching é o modelo Markov-Switching<br />
(MS). Nos modelos apresentados no ponto anterior a mudança de regime é baseada em var-<br />
iáveis observáveis. No modelo MS a mudança de regime não é observável.<br />
Considere-se o modelo<br />
onde dt é uma variável dummy<br />
dt =<br />
yt = c1 + δ1dt + φyt−1 + ut<br />
⎧<br />
⎨<br />
⎩<br />
1 se evento A ocorre<br />
0 se o evento A não ocorre.<br />
(7.21)<br />
Sabemos exactamente quando o evento A ocorre. Por exemplo, o evento A pode represen-<br />
tar “segunda-feira”. Trata-se de um evento obviamente determinístico. Suponhamos agora<br />
que A não é observável. Como modelar, estimar e prever y? São estas as questões que<br />
abordaremos ao longo deste ponto.<br />
Para trabalharmos com alguma generalidade, admita-se que estão definidos N regimes.<br />
Por exemplo, um modelo relativamente simples com dois regimes, N = 2, é<br />
yt =<br />
⎧<br />
⎨<br />
⎩<br />
c1 + φyt−1 + ut<br />
se yt está no regime 1<br />
c1 + δ1 + φyt−1 + ut se yt está no regime 2<br />
(7.22)<br />
O regime 1 pode estar associado, por exemplo, ao evento “A não ocorre” e o regime 2 “A<br />
ocorre”. Este modelo é, em vários aspectos, similar ao modelo (7.21); há, no entanto, um<br />
diferença apreciável: agora não se sabe quando é que y está no regime 1 ou 2. Seja St o<br />
248
egime em que o processo y se encontra no momento t (assim, se St = i, então yt está<br />
no regime i). No modelo anterior, equação (7.22), S pode assumir os valores St = 1 ou<br />
St = 2. A sucessão {St} é claramente um processo estocástico com espaço de estados<br />
(finito) E = {1, 2, ..., N}.<br />
É necessário, naturalmente, especificar um modelo para St. Admita-se E = {1, 2} . Se<br />
o valor que S assume em t nada tem a ver com o valor que S assume em t − 1, t − 2,<br />
..., então {St} é uma sucessão de v.a. i.i.d. com distribuição de Bernoulli de parâmetro<br />
p que pode ser identificado com o regime 1, isto é, P (St = 1) = p. O processo y vai<br />
“saltando” entre os regimes 1 e 2 de forma independente de acordo com a probabilidade<br />
p. Num dado momento t, y está no regime 1 com probabilidade p (independentemente do<br />
regime anterior assumido). Na prática, a independência entre os sucessivos valores de St não<br />
é apropriada para um grande número de aplicações. Por exemplo, suponha-se que y é a taxa<br />
de crescimento do produto. Admita-se ainda que y se comporta diferentemente consoante a<br />
economia está em expansão ou em recessão. Temos, assim dois regimes St = 1 (recessão),<br />
St = 2 (expansão). A sucessão {St} não é provavelmente independente: se a economia, num<br />
certo momento, está em expansão (St−1 = 2), é mais provável que no momento seguinte a<br />
economia se encontre em expansão do que em recessão. Formalmente,<br />
P (St = 2| St−1 = 2) > P (St = 1| St−1 = 2) .<br />
Logo {St} é formado por uma sucessão de v.a. dependentes. Uma sucessão ou trajectória de<br />
S, poderá ser, por exemplo, {1, 1, 1, 1, 2, 2, 2, 2, 1, 1, 1, ...} .<br />
7.4.2 Cadeias de Markov em tempo discreto com espaço de estados dis-<br />
cretos finito<br />
Um modelo conveniente para caracterizar {St} , num cenário de dependência temporal, é<br />
a cadeia de Markov homogénea em tempo discreto com espaço de estados discretos finito.<br />
A teoria das cadeias de Markov tem aplicações em muitas áreas, como por exemplo, em<br />
modelos de inventário, em genética, em filas de espera, etc. Iremos apresentar as ideias<br />
principais.<br />
Uma cadeia de Markov é um processo de Markov no seguinte sentido:<br />
P (St = j| St−1 = i, ..., S0 = i0) = P (St = j| St−1 = i)<br />
249
isto é, St é independente de St−2, St−3, ..., S0 dado St−1.<br />
Uma cadeia de Markov é completamente caracterizada pela chamada matriz de probabil-<br />
idades de transição a um passo (ou simplesmente matriz de probabilidades de transição) e,<br />
eventualmente, por uma condição inicial. No caso de dois regimes, E = {1, 2} , esta matriz<br />
define-se da seguinte forma<br />
P =<br />
⎛<br />
⎝ P (St = 1| St−1 = 1) P (St = 2| St−1 = 1)<br />
P (St = 1| St−1 = 2) P (St = 2| St−1 = 2)<br />
No caso geral (N regimes) tem-se<br />
A matriz P respeita as condições:<br />
⎛<br />
⎜<br />
P = ⎜<br />
⎝<br />
• 0 ≤ pij ≤ 1, (i, j = 1, ..., N) ;<br />
p11 · · · p1N<br />
.. . . .<br />
pN1 · · · pNN<br />
• N<br />
j=1 pij = 1, (i = 1, ..., N) (as linhas soma 1).<br />
⎞<br />
⎟<br />
⎠ .<br />
⎞<br />
⎠ =<br />
⎛<br />
⎝ p11 p12<br />
p21 p22<br />
Exemplo 7.4.1 Convencione-se que St = 1 representa o estado “economia em recessão no<br />
momento t”; St = 2 representa o estado “economia em expansão no momento t”. Suponha-<br />
se que a matriz de probabilidades de transição é<br />
⎛ ⎞<br />
0.7<br />
P = ⎝<br />
0.3<br />
⎠ .<br />
0.2 0.8<br />
Se a economia está em expansão no período t − 1, i.e., St−1 = 2, a probabilidade da<br />
economia se encontrar ainda em expansão no período t é 0.8 e a probabilidade de ela passar<br />
para recessão é 0.2.<br />
Podemos estar interessados em calcular uma probabilidade de transição a dois passos,<br />
por exemplo,<br />
P (St = 1| St−2 = 2) .<br />
250<br />
⎞<br />
⎠ .
Neste caso, pela lei das probabilidades totais, vem com N = 2<br />
P (St = 1| St−2 = 2) =<br />
=<br />
=<br />
2<br />
P (St = 1, St−1 = i| St−2 = 2)<br />
i=1<br />
2<br />
P (St = 1| St−1 = i, St−2 = 2) P (St−1 = i| St−2 = 2)<br />
i=1<br />
2<br />
P (St = 1| St−1 = i) P (St−1 = i| St−2 = 2)<br />
i=1<br />
= elemento (2, 1) da matriz P 2 = P × P.<br />
Relativamente ao exemplo 7.4.1, calcule-se a matriz P 2 . Tem-se:<br />
⎛ ⎞ ⎛ ⎞ ⎛<br />
⎞<br />
0.7<br />
⎝<br />
0.3 0.7<br />
⎠ ⎝<br />
0.3 0.55<br />
⎠ = ⎝<br />
0.45<br />
⎠ .<br />
0.2 0.8 0.2 0.8 0.3 0.7<br />
Assim, P (St = 1| St−2 = 2) = 0.3 (elemento (2, 1) da matriz P 2 ).<br />
O resultado geral é dado pelas designadas equações de Chapman-Kolmogorov:<br />
#E <br />
P (Sm+n = j| S0 = i) = P (Sm = k| S0 = i) P (Sm+n = k| Sm = j) .<br />
Deduz-se da expressão anterior que<br />
Note-se ainda o seguinte:<br />
k=1<br />
P (Sn+h = j| Sn = i) = elemento (i, j) da matriz P h . (7.23)<br />
P (St = 1| St−k = 2) = P (St+k = 1| St = 2) .<br />
Não interessa o momento em que a probabilidade é calculada. O que é relevante é o des-<br />
fasamento temporal entre as variáveis. Na equação anterior o desfasamento é k. Esta pro-<br />
priedade resulta de se ter uma matriz de probabilidades de transição que não depende de t.<br />
Diz-se nestes casos que a matriz de probabilidades de transição é homogénea.<br />
Em certos problemas é importante obter probabilidades relacionadas com eventos a longo<br />
prazo. No exemplo 7.4.1, é interessante saber a probabilidade da economia se encontrar<br />
em expansão (ou recessão) no longo prazo, dado que no momento presente a economia se<br />
251
encontra em expansão. Formalmente, a questão é<br />
lim<br />
n→∞ P (St+n = 2| St = 2) . (7.24)<br />
Tendo em conta a observação anterior, a probabilidade em questão corresponde ao elemento<br />
(2, 2) da matriz limite<br />
Observe-se<br />
⎛<br />
⎝<br />
⎛<br />
⎝<br />
⎛<br />
⎝<br />
É intuitivo admitir-se que<br />
0.7 0.3<br />
0.2 0.8<br />
0.7 0.3<br />
0.2 0.8<br />
0.7 0.3<br />
0.2 0.8<br />
lim<br />
n→∞<br />
⎛<br />
⎝<br />
lim<br />
n→∞<br />
⎞<br />
⎠<br />
⎞<br />
⎠<br />
⎞<br />
⎠<br />
10<br />
20<br />
40<br />
⎛<br />
⎝<br />
=<br />
=<br />
=<br />
0.7 0.3<br />
0.2 0.8<br />
0.7 0.3<br />
0.2 0.8<br />
⎞<br />
⎠<br />
n<br />
.<br />
⎛<br />
⎞<br />
0.40059<br />
⎝<br />
0.59941<br />
⎠<br />
0.39961 0.60039<br />
⎛ ⎞<br />
0.4<br />
⎝<br />
0.6<br />
⎠<br />
0.4 0.6<br />
⎛ ⎞<br />
0.4<br />
⎝<br />
0.6<br />
⎠ .<br />
0.4 0.6<br />
⎞<br />
⎠<br />
n<br />
⎛ ⎞<br />
0.4<br />
= ⎝<br />
0.6<br />
⎠ .<br />
0.4 0.6<br />
Logo limn→∞ P (St+n = 2| St = 2) = 0.6, mas também limn→∞ P (St+n = 2| St = 1) =<br />
0.6. Isto é, a probabilidade da economia se encontrar em expansão (ou recessão) no longo<br />
prazo é independente do estado inicial, o que é bastante intuitivo (no longo prazo é irrelevante<br />
saber se hoje a economia está ou não em expansão).<br />
Nem todas as cadeias de Markov admitem estas probabilidades limites. Sob certas<br />
condições pode-se provar a<br />
Proposição 7.4.1 Se S é recorrente 11 positiva aperiódica com espaço de estados finito {1, 2, ..., N} 12<br />
11 Um regime ou estado i é recorrente sse, depois de o processo se iniciar em i, a probabilidade de retornar<br />
a i, ao fim de algum tempo finito, é igual a um. Se S é contável e se todos os estados comunicam, então todos<br />
os estados são recorrentes ou transientes (Taylor e Karlin, 1984).<br />
12 O caso infinito adapta-se facilmente.<br />
252
então, o vector (linha) das probabilidades estacionárias<br />
onde<br />
satisfaz as equações<br />
<br />
<br />
π = π1 π2 · · · πN<br />
πi = lim<br />
n→∞ P (St+n = i| St = j) (para qualquer j)<br />
= P (St = i) ≥ 0<br />
π = πP,<br />
N<br />
πi = 1.<br />
{πi; i = 1, 2, ..., N} é a distribuição estacionária da cadeia S.<br />
Exemplo 7.4.2 Considere-se o exemplo 7.4.1,<br />
i=1<br />
⎛ ⎞<br />
0.7<br />
P = ⎝<br />
0.3<br />
⎠ .<br />
0.2 0.8<br />
O vector das probabilidades estacionárias pode ser determinar da seguinte forma:<br />
<br />
<br />
π1 π2<br />
π1 π2<br />
Tem-se, ⎧⎪ ⎨<br />
⎪⎩<br />
Exemplo 7.4.3 Considere<br />
⎛<br />
<br />
<br />
=<br />
=<br />
<br />
<br />
π1 π2<br />
π1 = 0.7π1 + 0.2π2<br />
π2 = 0.3π1 + 0.8π2<br />
π1 + π2 = 1<br />
⎝ p11 1 − p11<br />
1 − p22 p22<br />
⎛<br />
⎝<br />
0.7 0.3<br />
0.2 0.8<br />
⎞<br />
⎠<br />
0.7π1 + 0.2π2 0.3π1 + 0.8π2<br />
⎞<br />
⎧<br />
⎪⎨<br />
π1 = 0.4<br />
⇔ π2 = 0.6<br />
⎪⎩ π1 + π2 = 1.<br />
⎠ , 0 < p11, p22 < 1.<br />
Pela proposição 7.4.1 é fácil concluir que as probabilidades estacionárias são dadas por<br />
π1 =<br />
1 − p22<br />
1 − p11<br />
, π2 =<br />
.<br />
2 − p11 − p22 2 − p11 − p22<br />
253
Retomando o exemplo 7.4.2, facilmente se obtém:<br />
π1 =<br />
1 − 0.8<br />
2 − 0.7 − 0.8 = 0.4, π2 =<br />
1 − 0.7<br />
2 − 0.7 − 0.8<br />
= 0.6.<br />
Observação 7.4.1 Um método para determinar P n é o seguinte. Como se sabe, quando os<br />
vectores próprios de P são independentes verifica-se P = VΛV −1 onde V é a matriz dos<br />
vectores próprios de P e Λ é a matriz diagonal dos valores próprios. Ora se V•1 é vector<br />
próprio de P e λ1 é o valor próprio associado V•1 então V•1 é ainda vector próprio de P n<br />
e λ n<br />
1 é o valor próprio associado. Logo P n = VΛ n V permite obter facilmente P n .<br />
7.4.3 Modelos Markov-Switching<br />
Seja y a variável dependente. Um exemplo de um modelo MS com dois regimes E = {1, 2}<br />
é, por exemplo,<br />
yt =<br />
⎧<br />
⎨<br />
⎩<br />
c1 + φ 1yt−1 + σ1εt se St = 1<br />
c2 + φ 2yt−1 + σ2εt se St = 2<br />
(7.25)<br />
onde St é uma cadeia de Markov homogénea (escondida ou latente por St não ser observável)<br />
com matriz de probabilidades de transição<br />
Uma representação equivalente é<br />
P =<br />
⎛<br />
⎝ p11 p12<br />
p21 p22<br />
⎞<br />
⎠ .<br />
yt = c1 + (c2 − c1) I{St=2} + <br />
φ1 + (φ2 − φ1) I{St=2} yt−1<br />
+ <br />
σ1 + (σ2 − σ1) I{St=2}t εt.<br />
Outra representação sugestiva:<br />
onde<br />
yt = c (St) + φ (St) yt−1 + σ (St) εt<br />
⎧<br />
⎧<br />
⎧<br />
⎨ c1 se St = 1 ⎨ φ1 se St = 1 ⎨ σ1 se St = 1<br />
c (St) =<br />
, φ (St) =<br />
, σ (St) =<br />
⎩ c2 se St = 2 ⎩ φ2 se St = 2 ⎩ σ2 se St = 2.<br />
254<br />
(7.26)
A representação (7.26) sugere que o modelo MS (7.25) pode ser escrito como um processo<br />
AR(1) com coeficientes aleatórios (vários outros modelos não lineares podem também ser<br />
representados como um AR(1) com coeficientes aleatórios).<br />
7.4.4 Função densidade de probabilidade de y<br />
Vamos caracterizar a fdp f (yt| Ft−1) que é essencial no âmbito da estimação, inferência e<br />
previsão.<br />
Retome-se o modelo<br />
yt =<br />
⎧<br />
⎨<br />
⎩<br />
c1 + φ 1yt−1 + σ1εt se St = 1<br />
c2 + φ 2yt−2 + σ2εt se St = 2.<br />
Se assumirmos εt ∼ N (0, 1) então as fdp condicionadas associadas aos regimes 1 e 2<br />
(N = 2) são respectivamente<br />
f (yt| Ft−1, St = 1) =<br />
f (yt| Ft−1, St = 2) =<br />
1 1 2σ e−<br />
2 σ12π 2 (yt−c1−φ1 yt−1)<br />
1<br />
2<br />
1 1 2σ e−<br />
2 σ22π 2 (yt−c2−φ2 yt−1)<br />
2<br />
2<br />
.<br />
Como obter f (yt| Ft−1)? Recordando a regra da probabilidade total<br />
P (A) = <br />
P (A| Bi) P (Bi)<br />
i<br />
(ou fx (x) = <br />
i fx|y (x| yi) fy (yi) no caso em que y é uma v.a. discreta) tem-se que fdp<br />
condicionada de y é<br />
f (yt| Ft−1) = f (yt| Ft−1, St = 1) P (St = 1| Ft−1)<br />
+f (yt| Ft−1, St = 2) P (St = 2| Ft−1)<br />
= σ 2 12π −1/2 −<br />
e 1<br />
2σ2 (yt−c1−φ1 yt−1)<br />
1<br />
2<br />
P (St = 1| Ft−1)<br />
+ σ 2 22π −1/2 −<br />
e 1<br />
2σ2 (yt−c2−φ2 yt−1)<br />
2<br />
2<br />
P (St = 2| Ft−1) .<br />
Se identificarmos, para simplificar, f (yt| Ft−1, St = i) = fit tem-se<br />
f (yt| Ft−1) = f1tP (St = 1| Ft−1) + f2tP (St = 2| Ft−1) .<br />
255
Claro que P (St = 1| Ft−1)+P (St = 2| Ft−1) = 1. É interessante observar que a fdp condi-<br />
cionada é igual à média ponderada das fdp condicionadas associadas aos vários regimes. Os<br />
ponderadores são naturalmente P (St = 1| Ft−1) e P (St = 1| Ft−1) (e somam 1). Por ex-<br />
emplo, se num determinado momento, P (St = 1| Ft−1) é muito alto (perto de 1) a função<br />
f (yt| Ft−1) dependerá sobretudo de f1t e pouco de f2t.<br />
No caso geral com N regimes, a expressão da fdp é<br />
f (yt| Ft−1) =<br />
7.4.5 Probabilidades Associadas aos Regimes<br />
N<br />
fitP (St = i| Ft−1) . (7.27)<br />
i=1<br />
A expressão (7.27) envolve as probabilidades P (St = i| Ft−1) , i = 1, 2, ..., N que são<br />
necessário caracterizar.<br />
Regimes Independentes<br />
No caso mais simples em que {St} é uma sucessão de v.a. independentes (não só dos seus<br />
valores passados e futuros como também de Ft−1) tem-se<br />
e, portanto,<br />
P (St = i| Ft−1) = P (St = i) = pi<br />
f (yt| Ft−1) =<br />
N<br />
i=1<br />
fitpi.<br />
(7.28)<br />
Esta hipótese é conhecida pelo menos desde 1972 com os trabalhos de Goldfeld e Quandt,<br />
entre outros.<br />
que<br />
O caso de regimes independentes é um caso particular da cadeia de Markov. Notando<br />
P (St = i| St−1 = j) = P (St = i)<br />
para qualquer i e j ∈ E, conclui-se que este caso induz uma matriz de probabilidades de<br />
256
transição com colunas iguais,<br />
⎛<br />
⎞<br />
P (St = 1)<br />
⎜ P (St = 1)<br />
P = ⎜ .<br />
⎝<br />
P (St = 2)<br />
P (St = 2)<br />
.<br />
· · ·<br />
· · ·<br />
. ..<br />
P (St = N)<br />
⎟<br />
P (St = N) ⎟ .<br />
. ⎟<br />
⎠<br />
P (St = 1) P (St = 2) · · · P (St = N)<br />
A probabilidade de atingir, por exemplo, o regime 1 é sempre igual a P (St = 1) não im-<br />
portando o regime em que S se encontre no período anterior (ou seja, o evento St = 1 é<br />
independente de St−1).<br />
Regimes Seguem uma Cadeia de Markov<br />
Sob esta hipótese, St dado St−1, não depende de Ft−1. Isto é,<br />
P (St = i| St−1 = j, Ft−1) = P (St = i| St−1 = j) = pji. (7.29)<br />
Tem-se, pela regra da probabilidade total, com N = 2<br />
P (St = 1| Ft−1) = P (St = 1| St−1 = 1, Ft−1) P (St−1 = 1| Ft−1)<br />
De uma forma geral,<br />
+P (St = 1| St−1 = 2, Ft−1) P (St−1 = 2| Ft−1)<br />
= P (St = 1| St−1 = 1) P (St−1 = 1| Ft−1)<br />
+P (St = 1| St−1 = 2) P (St−1 = 2| Ft−1)<br />
= p11P (St−1 = 1| Ft−1) + p21P (St−1 = 2| Ft−1) .<br />
P (St = i| Ft−1) =<br />
N<br />
pj1P (St−1 = i| Ft−1) (7.30)<br />
j=1<br />
Estas expressões envolvem uma estrutura recursiva que iremos expor a seguir. Tendo em<br />
conta a expressão (7.30), calcule-se P (St−1 = i| Ft−1) . Observe-se, em primeiro lugar, que<br />
P (St−1 = 1| Ft−1) = P (St−1 = 1| yt−1, Ft−2) = g (yt−1, St−1 = 1| Ft−2)<br />
.<br />
f (yt−1| Ft−2)<br />
A primeira igualdade verifica-se por definição. A segunda envolve a regra P (A| B, C) =<br />
257
P (A, B| C) /P (B| C) , sendo g a função de probabilidade conjunta de (yt−1, St−1) . Tem-se<br />
assim, pela regra das probabilidades totais (com N = 2)<br />
P (St−1 = 1| Ft−1) = g (yt−1, St−1 = 1| Ft−2)<br />
f (yt−1| Ft−2)<br />
Para simplificar, defina-se<br />
=<br />
f (yt−1| Ft−2, St−1 = 1) P (St−1 = 1| Ft−2)<br />
N j=1 f (yt−1|<br />
. (7.31)<br />
Ft−2, St−1 = j) P (St−1 = j| Ft−2)<br />
pit = P (St = i| Ft−1)<br />
pi,t−1 = P (St−1 = i| Ft−2)<br />
Em suma, com N = 2, a expressão da fdp é<br />
onde<br />
fi,t−1 = f (yt−1| Ft−2, St−1 = i) .<br />
f (yt| Ft−1) = f1tp1t + f2tp2t = f1tp1t + f2t (1 − p1t)<br />
p1t = p11P (St−1 = 1| Ft−1) + p21P (St−1 = 2| Ft−1)<br />
= p11P (St−1 = 1| Ft−1) + p21 (1 − P (St−1 = 1| Ft−1))<br />
= p11<br />
+p21<br />
f1,t−1p1,t−1<br />
(7.32a)<br />
f1,t−1p1,t−1 + f2,t−1 (1 − p1,t−1)<br />
<br />
<br />
f1,t−1p1,t−1<br />
1 −<br />
. (7.32b)<br />
f1,t−1p1,t−1 + f2,t−1 (1 − p1,t−1)<br />
Observe-se a estrutura recursiva: dadas as condições iniciais<br />
f1,0, f2,0 e p1,0,<br />
obtém-se (para t = 1) p1,1 e depois f (y1| F0) . Com os valores<br />
f1,1, f2,1 e p1,1<br />
obtém-se (para t = 2) p1,2 e depois f (y2| F1) . O procedimento recursivo é repetido até se<br />
obter f (yn| Fn−1) .<br />
258
Regimes dependentes de St−1 e de Ft−1<br />
Assume-se para simplificar N = 2. Sob esta hipótese a cadeia de Markov é não homogénea<br />
(varia ao longo do tempo). Desta forma, as probabilidades P (St = 1| St−1 = 1, Ft−1) e<br />
P (St = 2| St−1 = 2, Ft−1) dependem de Ft−1. Suponha-se, para simplificar, que estas prob-<br />
abilidades dependem apenas de yt−1. Uma forma de relacionarmos as probabilidades com<br />
yt−1 consiste, por exemplo, em formular uma representação probit para as probabilidades:<br />
P (St = 1| St−1 = 1, Ft−1) = Φ (α0 + α1yt−1) ,<br />
P (St = 2| St−1 = 2, Ft−1) = Φ (β 0 + β 1yt−1)<br />
onde Φ é a função de distribuição normal (como é usual na representação probit). A matriz<br />
de probabilidades de transição é agora<br />
⎡<br />
Pt = ⎣ p11t p12t<br />
p21t p22t<br />
⎤<br />
⎦ =<br />
⎡<br />
⎣ Φ (α0 + α1yt−1) 1 − Φ (α0 + α1yt−1)<br />
1 − Φ (β 0 + β 1yt−1) Φ (β 0 + β 1yt−1)<br />
O procedimento anterior (ponto “Regimes Seguem uma Cadeia de Markov”) mantém-se<br />
válido, havendo apenas que substituir pij por pijt.<br />
Regimes dependentes apenas de Ft−1<br />
Assume-se para simplificar N = 2. Sob esta hipótese, St dado Ft−1, não depende de St−1.<br />
Por exemplo, suponha-se que St depende de yt−1. Desta forma, a probabilidade P (St = i| Ft−1)<br />
pode ser estimada no quadro do modelo probit ou logit. Considerando a representação probit,<br />
tem-se<br />
P (St = 1| Ft−1) = Φ (β 0 + β 1yt−1) . (7.33)<br />
Esta hipótese, mais restritiva do que a precedente, simplifica consideravelmente a cal-<br />
culatória já que a função densidade de probabilidade condicional pode agora expressar-se<br />
simplesmente na forma f (yt| Ft−1) = 2<br />
i=1 fitP (St = i| Ft−1) = f1tΦ (β 0 + β 1yt−1) +<br />
f2t (1 − Φ (β 0 + β 1yt−1)) .<br />
259<br />
⎤<br />
⎦
7.4.6 Estacionaridade<br />
Considere-se<br />
yt =<br />
⎧<br />
⎪⎨<br />
⎪⎩<br />
c1 + φ 11yt−1 + ... + φ 1pyt−p + ut se St = 1<br />
...<br />
cN + φ N1yt−1 + ... + φ Npyt−p + ut se St = N<br />
(7.34)<br />
onde ut é um ruído branco e S é uma cadeia de Markov estacionária com vector de proba-<br />
bilidades estacionárias (π1, π2) . O modelo anterior pode escrever-se na forma<br />
ou ainda na forma Markoviana<br />
yt<br />
yt = c (St) + φ 1 (St) yt−1 + ... + φ p (St) yt−p + ut<br />
⎛ ⎞ ⎛<br />
⎞⎛<br />
⎞ ⎛<br />
⎞<br />
⎜<br />
⎝<br />
yt<br />
yt−1<br />
yt−2<br />
.<br />
φ<br />
⎟ ⎜ 1 (St)<br />
⎟ ⎜<br />
⎟ ⎜ 1<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎟ = ⎜ 0<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎟ ⎜ .<br />
⎠ ⎝<br />
φ2 (St)<br />
0<br />
1<br />
.<br />
· · ·<br />
· · ·<br />
· · ·<br />
. ..<br />
φp (St) yt−1 c (St) + ut<br />
⎟⎜<br />
⎟ ⎜<br />
⎟<br />
⎟⎜<br />
⎟ ⎜<br />
⎟<br />
0 ⎟⎜<br />
yt−2 ⎟ ⎜ 0 ⎟<br />
⎟⎜<br />
⎟ ⎜<br />
⎟<br />
⎟⎜<br />
⎟ ⎜<br />
⎟<br />
0 ⎟⎜<br />
yt−3 ⎟ + ⎜ 0 ⎟.<br />
⎟⎜<br />
⎟ ⎜<br />
⎟<br />
⎟⎜<br />
⎟ ⎜<br />
⎟<br />
. ⎟⎜<br />
. ⎟ ⎜ 0 ⎟<br />
⎠⎝<br />
⎠ ⎝<br />
⎠<br />
<br />
yt−p+1<br />
<br />
0 0<br />
<br />
· · · 0<br />
<br />
yt−p<br />
<br />
0<br />
<br />
At<br />
Stelzer (2009) estabelece a seguinte<br />
yt−1<br />
Ct<br />
(7.35)<br />
Proposição 7.4.2 Considere-se o processo (7.34) na representação (7.35) e assuma-se: {u}<br />
é um processo EE, E log + A0 < ∞, E log + C0 < ∞ e<br />
γ = lim<br />
n→∞ 1/ (n + 1) E log + A0A−1...A−t < 0.<br />
Então y é EE. Além disso, se {At} é um processo EE então E log + A0 < 0 implica<br />
γ < 0.<br />
Proposição 7.4.3 Considere-se yt = c (St) + φ 1 (St) yt−1 + ut com dois regimes N = 2. Se-<br />
jam π1 e π2 as probabilidades estacionárias da cadeia de Markov S. Se {ut} é um processo<br />
EE com segundo momento finito e |φ 11| π1 |φ21| π2 < 1 então y é EE.<br />
260
Dem. Considerando a norma Euclidiana e a desigualdade de Jensen, tem-se<br />
E log + C0 =<br />
<br />
E log +<br />
<br />
c2 (St) + u2 <br />
t = 1<br />
2 E log + c 2 (St) + u 2 t<br />
≤ 1<br />
2 log E c 2 (St) + E u 2 t < ∞.<br />
Como a cadeia de Markov é estritamente estacionária (tem distribuição estacionária π =<br />
(π1, π2), segue-se que {At} é um processo EE, pelo que basta verificar E log + A0 < 0.<br />
No caso em análise a “matriz” A0 reduz-se ao elemento A0 = φ 1 (St) . Tem-se<br />
e, portanto,<br />
⎧<br />
⎨<br />
log |φ1 (St)| =<br />
⎩<br />
E log + A0 = E (log |φ 1 (St)|)<br />
log |φ 11| St = 1<br />
log |φ 21| St = 2<br />
= P (St = 1) log |φ 11| + P (St = 2) log |φ 21|<br />
= π1 log |φ 11| + π2 log |φ 21|<br />
= log (|φ 11| π1 |φ21| π2 ) .<br />
Segue-se que |φ 11| π1 |φ21| π2 < 1 implica E log + A0 < 0.<br />
Exemplo 7.4.4 Considere-se<br />
yt =<br />
⎧<br />
⎨<br />
⎩<br />
2yt−1 + ut se St = 1<br />
0.6yt−1 + ut se St = 2<br />
⎛ ⎞<br />
0.1<br />
P = ⎝<br />
0.9<br />
⎠ (7.36)<br />
0.2 0.8<br />
onde ut é um processo ruído branco. Um processo AR(1) com coeficente φ = 2 não só é não<br />
estacionário como é explosivo (tende para mais infinito em tempo finito). No entanto, yt é<br />
EE. Com efeito, a partir de P obtém-se π1 = 0.1818 e π2 = 1 − π1 = 0.8182 (conferir a<br />
proposição 7.4.1 e o exemplo 7.4.3). Por outro lado, invocando a proposição 7.4.3, tem-se<br />
|φ 11| π1 |φ21| π2 = 2 0.1818 0.6 0.8182 = 0.746 < 1. Logo y é EE. Este resultado é interessante.<br />
De facto poderíamos pensar que o comportamento explosivo de yt no regime 1 implicaria<br />
um processo não estacionário. Isto não sucede porque a probabilidade do sistema estar num<br />
dado momento no regime estável é relativamente elevada. O processo pode, episodicamente,<br />
entrar no regime 1 e atingir valores extremamente elevados, mas num intervalo de tempo<br />
261
Figura 7-22: Simulação de uma trajectória do processo (7.36) onde ut ∼ N (0, 1) (10000<br />
observações)<br />
relativamente curto o process reentra no regime 2 com probabilidade elevda, e o valor do<br />
processo retorna ao intervalo dos valores “moderados” do processo (diríamos ao centro de<br />
gravidade da distribuição estacionária). A figura apresenta uma trajectória simulado do<br />
processo.<br />
No contexto dos modelos MS com heterocedasticidade condicional, Bauwens et al. (2006)<br />
o seguinte modelo<br />
onde<br />
yt =<br />
⎧<br />
⎪⎨<br />
⎪⎩<br />
c1 + σ1tεt se St = 1<br />
...<br />
cN + σNtεt se St = N<br />
σ 2 it = ωi + αiu 2 t−1 + β iσ 2 t−1.<br />
Supõe-se ainda que a cadeia St depende de yt−1,<br />
2<br />
P (St = i| Ft−1) = pit yt−1 , i = 1, 2, ..., N<br />
Sem perda de generalidade, seleccione-se o regime 1 como sendo o regime “estável”, α1 +<br />
β 1 < 1. Bauwens et al. (2006) estabelecem a<br />
262
Proposição 7.4.4 Suponha-se: (a) {εt} é uma sucessão de v.a. i.i.d. de média zero e variân-<br />
cia um, com função de densidade contínua em R; (b) αi > 0, βi > 0, para i = 1, 2, ..., N;<br />
<br />
2 2 2 (c) α1 + β1 < 1 e (d) p1t yt−1 > 0 e pit yt−1 → 1 quando yt−1 → ∞. Então y é EE.<br />
A proposição assegura que o processo retorna ao regime estável sempre que yt tende a<br />
assumir valores muito altos (alínea d)).<br />
No caso especial em que as probabilidades são constantes, pit = πi, é válido a seguinte<br />
Proposição 7.4.5 Suponham-se verificadas as condições (a) e (b) da proposição anterior.<br />
Se<br />
então é EE.<br />
N<br />
j=1<br />
7.4.7 Estimação e Inferência<br />
πj<br />
<br />
βj + αj < 1<br />
Comece-se por analisar o modelo (7.25) e seja θ o vector dos parâmetros a estimar. Como ha-<br />
bitualmente, o estimador de máxima verosimilhança é dado por ˆ θn = arg maxθ<br />
onde<br />
lt (θ) = log f (yt| Ft−1; θ) = log (f1tp1t + f2t (1 − p1t)) .<br />
n<br />
t=1 lt (θ) ,<br />
Se os regimes são independentes, p1t é dado pela equação (7.28); se seguem uma cadeia de<br />
Markov, p1t é dada por (7.32a); finalmente, se os regimes são Ft−1 mensuráveis, p1t é dado<br />
por (7.33) ou (??).<br />
Pode-se mostrar:<br />
√ <br />
n ˆθn d <br />
− θ0 −→ N 0, I (θ0) −1<br />
onde I (θ0) é a matriz de informação de Fisher. Verifica-se I (θ0) = A (θ0) = B (θ0) onde<br />
A (θ) = − E<br />
Estimadores consistentes de A e B são<br />
2 ∂ lt (θ)<br />
∂θ∂θ ′<br />
<br />
, B (θ) = E<br />
Ân = − 1<br />
n<br />
ˆBn = 1<br />
n<br />
t=1<br />
n<br />
∂ 2 lt<br />
∂θ<br />
<br />
ˆθn<br />
∂lt (θ)<br />
∂θ<br />
∂θ∂θ<br />
t=1<br />
′<br />
p<br />
−→ A (θ0)<br />
<br />
n ∂lt ˆθn ∂lt ˆθn<br />
p<br />
−→ B (θ0) .<br />
263<br />
∂θ ′<br />
∂lt (θ)<br />
∂θ ′<br />
<br />
.
Os ensaios individuais para os parâmetros da média e da variância condicional (GARCH)<br />
podem ser feitos como habitualmente. Isto é, podem basear-se no resultado<br />
ˆ θi,n<br />
a<br />
∼ N (θi, ˆvii)<br />
onde θi é o parâmetro (escalar) i, e vii é o elemento ii da matriz I (θ0) −1 /n.<br />
No ensaio, um regime versus dois regimes, H0 : c1 = c2, φ 1 = φ 2, σ1 = σ2, H1 : H0 é<br />
falsa, a situação é similar ao do ensaio H0 : φ 1= φ 2 no contexto do modelo TAR: os testes<br />
assimptóticos habituais (rácio de verosimilhanças, Wald e multiplicador de Lagrange) não<br />
podem ser empregues. Sob a hipótese nula (um regime) vários parâmetros não são identi-<br />
ficáveis (o score com respeito a estes parâmetros é identicamente nulo e a matriz informação<br />
de Fisher resulta singular). Uma forma de lidar com este tipo de ensaio não standard é<br />
proposto por Davies (1987), que obtém um limite superior para o nível de significância do<br />
teste rácio de verosimilhança quando q parâmetros apenas são identificáveis sob a hipóteses<br />
alternativa:<br />
P (sup LR > LRobs) ≤ P χ2 <br />
q > LRobs<br />
+V.LR (q−1)/2<br />
obs . exp {−LRobs} 2−q/2<br />
Γ(q/2) .<br />
(7.37)<br />
onde Γ é a função gama, LRobs = 2 (log L 1 n − log L 0 n) e L 1 n e L 0 n são os valores da função de<br />
log-verosimilhança sob H1 e H0, respectivamente. Se a função o rácio de verosimilhanças<br />
admite um máximo global então V = 2 √ LRobs. Os passos para implementar o teste no<br />
contexto do modelo (7.25) são os seguintes:<br />
1. Estimar o modelo AR(1) e obter L 0 n;<br />
2. Estimar o MS (7.25) e obter L 1 n;<br />
3. Calcular LRobs, P χ2 <br />
q > LRobs , V, etc.;<br />
4. Calcular o limite superior de P (sup LR > LRobs) usando a expressão (7.37).<br />
Suponhamos que se obtém P (sup LR > LRobs) ≤ 0.02. Então rejeita-se H0 ao n.s. de<br />
5% pois o verdadeiro p-value é inferior a 0.02. Suponhamos que P (sup LR > LRobs) ≤<br />
0.06. Nada se pode concluir ao n.s. de 5% pois o verdadeiro p-value pode ser 0.04 ou 0.055.<br />
Tudo o que sabemos é que é inferior a 0.06.<br />
Outro teste, designado por teste-J, é proposto por Garcia e Perron (1996) e baseia-se na<br />
264
significância estatística do parâmetro δ (teste-t) da regressão<br />
onde ˆ X (1)<br />
t<br />
e ˆ X (2)<br />
t<br />
Xt = (1 − δ) ˆ X (1)<br />
t + δ ˆ X (2)<br />
t + εt<br />
são os previsores dos modelos com um e dois regimes, respectivamente (o<br />
teste generaliza-se imediatamente ao caso em que ˆ X (1)<br />
t<br />
é o previsor do modelo com menos<br />
regimes). Assim, a rejeição de H0: δ = 0 mostra evidência a favor do modelo com mais<br />
regimes.<br />
7.4.8 Previsão<br />
Suponha-se que y segue um modelo MS com dois regimes e estão disponíveis em n ob-<br />
servações de y, {y1, y2, ..., yn} . Usando, como previsor para yn+h a função E (yn+h| Fn) ,<br />
tem-se<br />
E (yn+h| Fn) = E (yn+h| Fn, Sn+h = 1) P (Sn+h = 1| Fn)<br />
+ E (yn+h| Fn, Sn+h = 2) P (Sn+h = 2| Fn)<br />
onde E (yn+h| Fn, Sn+h = i) é, como já vimos, a média condicional do regime i (no contexto<br />
do modelo (7.25) tem-se E (yn+h| Fn, Sn+h = 1) = E (c1 + φ 1yn+h−1| Fn)). A probabili-<br />
dade P (Sn+h = i| Fn) depende da hipótese que se tem sobre S. Se admitirmos que S segue<br />
uma cadeia de Markov, vem<br />
P (Sn+h = 1| Fn) =<br />
Tendo em conta (7.23), resulta<br />
=<br />
=<br />
2<br />
P (Sn+h = 1, Sn = i| Fn)<br />
i=1<br />
2<br />
P (Sn+h = 1| Sn = i, Fn) P (Sn = i| Fn)<br />
i=1<br />
2<br />
P (Sn+h = 1| Sn = i) P (Sn = i| Fn) .<br />
i=1<br />
P (Sn+h = j| Sn = i) = P h<br />
i,j = elemento (i, j) da matriz P h .<br />
265
Finalmente, tendo em conta a equação (7.31),<br />
7.4.9 Aplicação<br />
P (Sn = i| Fn) =<br />
f (yn| Sn = i, Fn−1) P (Sn = i| Fn−1)<br />
N j=1 f (yn| Sn = j, Fn−1) P (Sn = j| Fn−1) .<br />
Analisa-se a taxa de juros FED fund 13 (EUA) no período Julho de 1954 a Outubro de 2006<br />
(628 observações mensais).<br />
A literatura dos modelos de taxas de juro (a um factor) sugere que a volatilidade da taxa<br />
de juro depende do nível da taxa de juro. Um dos modelos mais usados em matemática<br />
financeira (tempo contínuo) é o processo CIR (devido a Cox, Ingersoll e Ross):<br />
drt = β (τ − rt) dt + σ √ rtdWt, β, τ, σ > 0 (7.38)<br />
onde rt é a taxa de juro spot instantânea e W é o chamado processo de Wiener. Todos<br />
os parâmetros podem ser estimados consistente e eficientemente pelo método da máxima<br />
verosimilhança. A discretização do processo (i.e. a passagem para um processo em tempo<br />
discreto que aproximadamente traduz a dinâmica de (7.38)) simplifica a análise (embora no<br />
caso presente não seja necessário). A discretização pelo esquema de Euler (supondo para<br />
simplificar que o hiato entre duas observações consecutivas, ∆, é constante e igual a um)<br />
conduz ao modelo,<br />
rt = c + φrt−1 + σ √ rt−1εt<br />
(7.39)<br />
onde c = βτ, φ = (1 − β). Esta discretização de Euler envolveu a troca de drt por rt − rt−1,<br />
dt por ∆ = 1, e dWt por √ ∆×εt. Estas trocas representam apenas aproximações e envolvem,<br />
por isso, erros.<br />
Resultados preliminares mostram que existe forte presença de heterocedasticidade e que<br />
a sua dinâmica é compatível com a que está subjacente ao modelo (7.39).<br />
A estimação dos parâmetros do modelo (7.39), pelo método da máxima verosimilhança,<br />
assumindo normalidade, conduziu aos resultados que se apresentam na figura 7-23.<br />
Vários autores têm sugerido a existência de diferentes dinâmicas ou regimes no compor-<br />
tamento da taxa de juro (veja-se, por exemplo, Gray, 1996). Concretamente, argumenta-se o<br />
seguinte: quando as taxas de juro são altas (anos 80) a volatilidade é alta e o processo exibe<br />
13 É oficialmente designada por Federal funds effective rate, com maturidade overnight.<br />
266
Mean loglikelihood 1.07420<br />
Number of cases 628<br />
Covariance of the parameters computed by the following method:<br />
QML covariance matrix<br />
Parameters Estimates Std. err. Gradient<br />
c<br />
0.0764 0.0394 0.0000<br />
fhi 0.9878 0.0091 0.0000<br />
sigma 0.0355 0.0052 0.0000<br />
Figura 7-23: Resultados da estimação do modelo (7.39)<br />
Mean loglikelihood 0.767141<br />
Number of cases 628<br />
Covariance of the parameters computed by the following method:<br />
Inverse of computed Hessian<br />
Parameters Estimates Std. err. Gradient<br />
c1<br />
0.0937 0.0508 0.0000<br />
fhi1 0.9848 0.0077 0.0000<br />
sigma1 0.5497 0.0183 0.0000<br />
c2 0.2100 0.1357 0.0000<br />
fhi2 0.9697 0.0157 0.0000<br />
sigma2 0.0866 0.0093 0.0000<br />
p11 0.9976 0.0024 0.0000<br />
p22 0.9912 0.0083 0.0000<br />
Figura 7-24: Resultados da estimação do modelo (7.39)<br />
reversão para uma média de longo prazo; quando as taxas de juro são baixas, a volatilidade<br />
é baixa e observa-se ausência de reversão para uma média. Este argumento sugere a existên-<br />
cia de dois regimes: um regime de altas taxas de juro e alta volatilidade e um regime de<br />
baixas taxas de juro e baixa volatilidade. Depois de vários ensaios seleccionou-se o seguinte<br />
modelo:<br />
yt =<br />
⎧<br />
⎨<br />
⎩<br />
c1 + φ 1yt−1 + σ1εt<br />
c2 + φ 2yt−1 + σ2<br />
se St = 1<br />
√ yt−1εt se St = 2<br />
(7.40)<br />
cujos resultados de estimação, pelo método da máxima verosimilhança, assumindo normali-<br />
dade, estão apresentados na figura 7-24.<br />
A figura 7-25 apresenta a sucessão das probabilidades estimadas<br />
<br />
ˆP (St = 1| Ft−1) ; t = 2, ..., n .<br />
Recorde-se que P (St = 1| Ft−1) é a probabilidade de y se encontrar no regime 1 no mo-<br />
mento t, dado Ft−1. Podemos observar, a partir da figura 7-25, que o processo y se encontrou,<br />
com alta probabilidade, no regime 1 durante as décadas de 80 e 90. Durante os anos 2003-<br />
2005 o processo encontrou-se, com alta probabilidade no regime 2. Em 2006, o processo<br />
não está totalmente em nenhum dos regimes.<br />
267
Figura 7-25: Taxa de juro e probabilidades P (St = 1| Ft−1) estimadas<br />
Página em branco<br />
268
Capítulo 8<br />
Modelação da Heterocedasticidade<br />
Condicionada - Caso Univariado<br />
8.1 Introdução<br />
(Última actualização: 3/2010)<br />
Vimos no capítulo 3 que fortes variações dos retornos são normalmente seguidas de fortes<br />
variações dos retornos em ambos os sentidos, e que baixas variações dos retornos são normal-<br />
mente seguidas de baixas variações dos retornos, também, em ambos os sentidos (veja-se,<br />
por exemplo, a figura 3-17). Este facto estilizado indica muito claramente que a volatilidade<br />
não é constante ao longo do tempo. Uma forma mais subtil de mostrar que a volatilidade<br />
não é constante consiste em constatar que a série dos quadrados dos resíduos (ou mesmo os<br />
quadrados dos retornos) é autocorrelacionada.<br />
8.1.1 Por que razão a volatilidade não é constante?<br />
• Uma parte da volatilidade pode ser relacionada com a especulação. Em certos mode-<br />
los distingue-se duas classes de investidores: investidores racionais que tendem a “em-<br />
purrar” o preço dos activos na direcção do valor fundamental ou intrínseco da empresa<br />
(normalmente formalizado como o valor actual dos fluxos financeiros que o investidor<br />
espera vir a receber no futuro) e especuladores que baseiam as suas decisões em in-<br />
formações estatísticas geradas pelo mercado, como por exemplo, os preços passados<br />
e o volume de transacções. Quando a proporção de especuladores é alta e os sinais<br />
269
de mercado são interpretados de forma análoga pela maior parte dos especuladores,<br />
formam-se tendências fortes de compra ou de venda que se reflectem no preço e na<br />
volatilidade.<br />
• Episódios de extrema volatilidade ocorrem quando uma “bolha especulativa” rebenta,<br />
i.e., quando depois de um período considerável de crescimento dos preços, sucede<br />
uma repentina e inesperada quebra do mercado. Estas “bolhas especulativas” estão<br />
normalmente associadas a uma nova tecnologia (por exemplo, o boom da electrónica<br />
nos anos 60, da biotecnologia nos anos 80 ou da internet no fim dos anos 90) ou<br />
a um novo negócio (mais uma vez o caso da internet no fim dos anos 90). Gera-<br />
se um ambiente de euforia em torno dos títulos associados a uma certa tecnologia<br />
e/ou negócio e emerge um comportamento irracional de grupo totalmente desligado<br />
do valor intrínseco dos títulos.<br />
• Graves crises económicas e políticas também explicam momentos de alta volatilidade.<br />
• Uma outra explicação (em certa medida complementar com as precedentes) relaciona<br />
a volatilidade com a chegada de informação aos mercados. Suponha-se, num cenário<br />
ideal ou hipotético, que o mercado está em equilíbrio (não há flutuação dos preços).<br />
Quando chega informação ao mercado os agentes reavaliam as suas carteiras (perante<br />
a nova informação, deixam de ser “óptimas”); tenderão, por conseguinte, a vender<br />
ou a comprar activos até que se atinja um novo equilíbrio. A acção de comprar e<br />
vender títulos tende a alterar os preços. A hipótese crucial é a de que a informação não<br />
chega de forma homogénea e contínua ao mercado. Quando a chegada de informação<br />
é reduzida e pouco relevante os mercados tenderão a exibir baixa volatilidade; pelo<br />
contrário, quando a informação é intensa e relevante, poderão ocorrer períodos de<br />
forte volatilidade. A informação relevante aqui deve ser entendida como a informação<br />
que, de alguma forma, afecta a rendibilidade dos activos. Por exemplo, a libertação de<br />
notícias relacionadas com inflação, taxas de juro, PIB, etc., geralmente têm impacto<br />
sobre a volatilidade e sobre os preços.<br />
O modelo que se apresenta a seguir procura replicar o fenómeno de volatilidade não<br />
constante a partir do conceito de chegada de informação. Seja Nt o número de notícias no<br />
dia t. Quando uma notícia chega ao mercado supõe-se que existe uma revisão do preço de um<br />
certo activo. Essa revisão traduz-se numa variação do preço numa quantidade aleatória dada<br />
270
por εi,t (i = 1, ..., Nt). Se existir uma notícia (relevante) num certo dia t, o logaritmo do preço<br />
no dia t é representado por log Pt = log Pt−1 + µ + ε1,t; se existirem duas notícias o modelo<br />
passa a ser representado por log Pt = log Pt−1 + µ + ε1,t + ε2,t (e assim sucessivamente).<br />
Assuma-se que {εi,t; i = 1, 2, ..., Nt} é uma sucessão de v.a. i.i.d. com distribuição N (0, σ 2 )<br />
e independentes de Nt. Tem-se assim que o retorno do activo é dado por<br />
Nt <br />
rt = µ + εi,t. (8.1)<br />
Resulta do modelo que a variância de rt dado Nt é não constante, pois<br />
i=1<br />
Var (rt| Nt = nt) = ntσ 2<br />
(de acordo com este modelo, quanto maior é o número de notícias que chegam ao mercado,<br />
maior é a volatilidade). É razoável admitir-se uma distribuição de Poisson de parâmetro λ<br />
para a v.a. Nt, i.e., Nt ∼ P (λt). Podemos ainda refinar o modelo, incorporando persistência<br />
em Nt, i.e. permitindo que Nt seja alto (baixo) sempre que Nt−1 é alto (baixo). Por outras<br />
palavras, o volume de informação tende a ser alto (baixo) em períodos seguidos. Nestas<br />
circunstâncias, passa a assumir-se Nt ∼ P (λt) com λt = Nt−1 + 1 (o número médio de<br />
notícias no dia t é igual ao número de informações do período anterior mais uma unidade)<br />
(adiciona-se uma unidade para evitar que λt = 0 para algum t). Na figura 8-1 representa-se<br />
uma trajectória simulada de (8.1) para µ = 0, σ = 0.0015 e Nt ∼ P (λt) , λt = Nt−1 + 1.<br />
Podemos observar que a trajectória simulada replica algumas das características típicas das<br />
séries financeiras.<br />
Retome-se a equação (8.1). Esta equação sugere a especificação<br />
rt = µ + ut, ut = σtεt.<br />
O essencial nesta equação é a ideia de que ut tem variância condicional σ 2 t não constante.<br />
Suponha-se de agora em diante que σ 2 t é Ft−1-mensurável (i.e., σ 2 t depende apenas de var-<br />
iáveis observadas no momento t − 1) 1 .<br />
1 No exemplo anterior, σ 2 t = ntσ 2 não é Ft−1-mensurável.<br />
271
0.03<br />
0.025<br />
0.02<br />
0.015<br />
0.01<br />
0.005<br />
0<br />
0.005<br />
0.01<br />
0.015<br />
0.02<br />
0.025<br />
1 101 201 301 401 501 601 701 801 901<br />
Figura 8-1: Simulação de uma trajectória de rt, assumindo µ = 0, σ = 0.0015 e Nt ∼ P (λt)<br />
onde λt = Nt−1 + 1.<br />
8.1.2 Processos Multiplicativos<br />
Considere-se ut = σtεt e as seguintes hipóteses:<br />
H1 {εt} é uma sucessão de v.a. i.i.d. com E (εt) = 0 e Var (εt) = 1;<br />
H2 εt é independente de ut−k, k ∈ N;<br />
H3 σt é Ft−1 mensurável.<br />
Tem-se:<br />
E (ut| Ft−1) = E (σtεt| Ft−1) = σt E (εt| Ft−1) = 0<br />
Var (ut| Ft−1) = E u 2 t<br />
<br />
Ft−1<br />
= E σ 2 t ε 2 t<br />
t<br />
<br />
Ft−1<br />
= σ 2 t E ε 2 t<br />
<br />
Ft−1<br />
= σ 2 t .<br />
Assim, processos multiplicativos do tipo ut = σtεt, com σt não constante, são processos het-<br />
erocedásticos (variância não constante). Este tipo de modelos estão presentes na abordagem<br />
tradicional da heterocedasticidade. Por exemplo, se zt−1 > 0 é exógena e ut = αzt−1εt,<br />
então a expressão Var (ut| zt−1) = α 2 z 2 t−1 não é constante.<br />
Processos estocásticos com heterocedasticidade condicional (HC) (variância não con-<br />
stante ao longo do tempo), são também definidos a partir de um processo multiplicativo do<br />
tipo ut = σtεt mas, comparativamente ao caso tradicional, a forma como σ 2 t é especificado<br />
varia substancialmente, como veremos a seguir. Que função especificar para σt ou σ 2 t ? Vimos<br />
que uma das características das séries financeiras é exibir volatility clustering: fortes vari-<br />
ações são normalmente seguidas de fortes variações em ambos os sentidos, devendo ocorrer,<br />
272
portanto, Corr u2 t−1, u2 <br />
t > 0. Suponha-se, por um momento que ut representa a série fi-<br />
nanceira. Portanto, se u 2 t−1 é um valor alto (baixo), em média, u 2 t será também um valor alto<br />
(baixo). Nestas circunstâncias, faz sentido escrever o seguinte modelo para σ 2 t :<br />
Com efeito, tem-se esquematicamente:<br />
σ 2 t = ω + α1u 2 t−1, ω > 0, α1 ≥ 0. (8.2)<br />
u 2 t−1 é “alto” ⇒ σ 2 t é “alto” ⇒ u 2 t é “alto” (recorde-se ut = σtεt).<br />
No caso clássico de heterocedasticidade, a variância depende da evolução de uma ou mais<br />
variáveis exógenas, determinadas fora do modelo (zt−1 no exemplo anterior); no modelo de<br />
HC, a volatilidade σ 2 t é uma variável aleatória função de choques aleatórios determinada<br />
dinamicamente, a partir do próprio modelo:<br />
u 2 t−1 → σ 2 t → u 2 t → σ 2 t+1 → ...<br />
Se ut é encarado como uma v.a. residual do modelo<br />
yt = µ t + ut<br />
é fácil ver que a heterocedasticidade definida em ut é transmitida a yt:<br />
Var (yt| Ft−1) = E (yt − µ t) 2 <br />
Ft−1 = Var (ut| Ft−1) = σ 2 t .<br />
8.1.3 Distribuições de Caudas Pesada<br />
Uma característica muito importante dos modelos de HC é o de implicar (sob certas condições)<br />
distribuições marginais leptocúrticas. Retome-se o modelo ut = σtεt sob as hipóteses H1-<br />
H3. Admita-se ainda que o choque aleatório εt tem distribuição N (0, 1) . Tem-se<br />
E (ut) = 0<br />
Var (ut) = E u 2 t = E σ 2 t<br />
E u 3 t = 0 ⇒ skweness = 0.<br />
273
Mostre-se que a distribuição marginal de u é leptocúrtica. Para o efeito, calcule-se o coefi-<br />
ciente de kurtosis de u,<br />
e verifique-se que ku > 3. Ora<br />
pelo que<br />
ku = E (u 4 t )<br />
E (u 2 t ) 2<br />
E u 4 t = E σ 4 t ε 4 t = E σ 4 σ <br />
4 2 2<br />
t E εt = E t E ε 4 t<br />
> E σ 22 t E ε 4 t = E u 22 t E ε 4 t = E u 22 t 3<br />
ku = E (u4 t )<br />
E (u2 t ) 2 > E (u2 t ) 2 3<br />
E (u2 t )<br />
2 = 3.<br />
Este resultado sugere que um modelo de HC pode ser adequado para modelar retornos, pois<br />
acomoda uma das características mais importantes das séries financeiras que é a dos retornos<br />
seguirem uma distribuição leptocúrtica.<br />
8.1.4 O papel da Média Condicional e o Modelo de Heterocedasticidade<br />
Condicionada<br />
Vimos que fortes variações de y são normalmente seguidas de fortes variações em ambos os<br />
sentidos. Teoricamente, este efeito pode ser modelado através da média condicional. Esta<br />
seria a situação ideal. Se a média condicional modelasse este efeito, conseguiríamos prever<br />
razoavelmente as variações de y e, nestas circunstâncias, não só o erro ut = yt − µ t seria<br />
baixo como também a volatilidade de y poderia ser baixa e mesmo constante ao longo do<br />
período. No entanto, vimos que a média condicional é geralmente uma componente muito<br />
fraca do modelo (recorde-se a questão dos mercados eficientes). Isto é, se considerarmos o<br />
modelo yt = µ t + ut, a média condicional µ t (representada, por exemplo, por um AR ou<br />
MA), é uma componente pouco explicativa do modelo. Assim, quando y 2 t é alto, u 2 t também<br />
é alto (porque a média condicional não acompanha as flutuações de yt) e, consequentemente,<br />
espera-se que u 2 t esteja fortemente correlacionado com u 2 t−1.<br />
8.1.5 Vantagens dos modelos de Heterocedasticidade Condicionada<br />
Antes do artigo seminal de Engle (1982) as dependências temporais nos momentos superi-<br />
ores a um eram tratadas como simples ruído. Engle mostrou que as dependências temporais<br />
274
do segundo momento, podem explicar razoavelmente a evolução da volatilidade ao longo do<br />
tempo. A volatilidade condicional (doravante volatilidade) da série pode ser identificada com<br />
a variância condicional, σ 2 t , ou, simplesmente, com σt (em princípio, é preferível identificar<br />
a volatilidade com σt, pois σt está na escala da variável).<br />
Iremos ver que os modelos de HC permitem:<br />
• modelar a volatilidade (e as covariâncias condicionais, no caso multivariado); como<br />
se sabe, a volatilidade é uma variável fundamental na análise do risco de mercado, na<br />
construção de portfolios dinâmicos, na valorização de opções, etc.;<br />
• estimar de forma mais eficiente os parâmetros definidos na média condicional (por<br />
exemplo, se um processo ARMA exibir heterocedasticidade condicional, a estimação<br />
conjunta dos parâmetros da média e dos parâmetros da variância permite estimar efi-<br />
cientemente os parâmetros da média);<br />
• estabelecer intervalos de confiança correctos para y. Isto é, se y exibe HC e esta é neg-<br />
ligenciada, os intervalos de previsão para y são incorrectos. Observe-se, com efeito,<br />
que os intervalos de confiança dependem da variância do erro de previsão e o erro de<br />
previsão depende (entre outros aspectos) da variância (condicional) da v.a. residual.<br />
8.2 Modelo ARCH<br />
Considere-se o seguinte modelo<br />
yt = µ t + ut,<br />
µ t = E (yt| Ft−1) média condicional<br />
ut = σtεt<br />
Assumam-se as hipóteses H1-H3.<br />
Definição 8.2.1 ut segue um modelo ARCH(q) (ou tem representação ARCH(q)) se<br />
ut = σtεt<br />
σ 2 t = ω + α1u 2 t−1 + ... + αqu 2 t−q, ω > 0, αi ≥ 0<br />
275
etornos<br />
4<br />
2<br />
0<br />
2<br />
4<br />
retornos<br />
15<br />
10<br />
5<br />
0<br />
5<br />
10<br />
15<br />
Panel (a)<br />
r(t) sigma(t)<br />
Panel (c)<br />
r(t) sigma(t)<br />
volatilidade<br />
20<br />
15<br />
10<br />
5<br />
0<br />
volatilidade<br />
20<br />
15<br />
10<br />
5<br />
0<br />
retornos<br />
15<br />
10<br />
5<br />
0<br />
5<br />
10<br />
15<br />
retornos<br />
30<br />
20<br />
10<br />
0<br />
10<br />
20<br />
30<br />
Panel (b)<br />
r(t) sigma(t)<br />
Panel (d)<br />
r(t) sigma(t)<br />
volatilidade<br />
20<br />
15<br />
10<br />
5<br />
0<br />
volatilidade<br />
Figura 8-2: Simulação de 4 trajectórias ARCH de acordo com o modelo (8.3).<br />
É importante constatar que σ 2 t ∈ Ft−1.<br />
Como a volatilidade exibe forte dependência temporal, raramente se considera q =<br />
1. Discute-se a seguir esta questão através de um exercício de simulação. Na figura 8-2<br />
apresenta-se as trajectórias simuladas para o retorno (rt) e σt considerando diferentes val-<br />
ores para os parâmetros αi. O modelo simulado é<br />
rt = ut, (µ t = 0)<br />
ut = σtεt, εt RB Gaussiano com variância 1 (8.3)<br />
σ 2 t = ω + α1u 2 t−1 + ... + α8u 2 t−8.<br />
Em todos os casos ω = 1. Na figura 8-2 tem-se:<br />
• Painel (a) ARCH(0) α1 = ... = α8 = 0;<br />
• Painel (b) ARCH(1) α1 = 0.8, α2 = ... = α8 = 0;<br />
• Painel (c) ARCH(3) α1 = 0.3, α2 = 0.3, α3 = 0.2, α4 = ... = α8 = 0;<br />
• Painel (d) ARCH(8) α1 = 0.2, α2 = ... = α8 = 0.1<br />
276<br />
20<br />
15<br />
10<br />
5<br />
0
Na figura 8-2 os gráficos que mais fielmente reproduzem o fenomeno de volatility clus-<br />
tering (volatilidades altas (baixas) são geralmente seguidas por volatilidades altas (baixas))<br />
e exibem alguma persistência no comportamento da volatilidade (tal como vimos nos pontos<br />
3.2.2 e 3.2.3), correspondem aos painéis (c) e (d). A simulação sugere que é mais apropriado<br />
em aplicações empíricas considerar-se um q elevado (não obstante, veremos adiante que é<br />
problemático estimar-se um modelo com q elevado).<br />
8.2.1 Dois Primeiros Momentos de ut<br />
Como εt é independente de ut−k, k ∈ N, segue-se que σ 2 t (que é uma função de ut−k, k ∈ N)<br />
é independente de εt. Logo,<br />
E (ut) = E (σtεt) = E (σt) E (εt) = 0,<br />
Var (ut) = E u 2 t = E σ 2 t ε 2 t = E σ 2 2<br />
t E εt = E σ 2 t . (8.4)<br />
Por outro lado, como {ut} é uma diferença de martingala, pois E (|ut|) < ∞ e E (ut| Ft−1) =<br />
0, resulta pela proposição 4.4.1, que ut é não autocorrelacionado, i.e. Cov (ut, ut−k) = 0.<br />
8.2.2 Representação AR de um ARCH<br />
Vimos, já por várias ocasiões, que existem dependências no segundo momento do processo.<br />
A representação autoregressiva do processo ARCH mostra exactamente esse aspecto. Tem-<br />
se,<br />
σ 2 t = ω + α1u 2 t−1<br />
u 2 t + σ 2 t = ω + α1u 2 t−1 + u 2 t<br />
u 2 t = ω + α1u 2 t−1 + u 2 t − σ 2 t<br />
<br />
u 2 t = ω + α1u 2 t−1 + vt<br />
Como E (vt| Ft−1) = E (u 2 t − σ 2 t | Ft−1) = E (u 2 t | Ft−1) − σ 2 t = 0, conclui-se pela definição<br />
4.4.3, que {vt} (admitindo que E (|vt|) < ∞) é uma diferença de martingala e, portanto,<br />
um processo não autocorrelacionado (E (vt) = 0 e Cov (vt, vt−k) = 0). Logo, tem-se o<br />
importante resultado: se ut segue um modelo ARCH(1) então u 2 t segue um processo AR(1).<br />
277<br />
vt
Esquematicamente:<br />
ut ∼ ARCH(1) ⇒ u 2 t ∼ AR(1).<br />
Assim, o processo u 2 t é autocorrelacionado (se α1 > 0) e apresenta as características básicas<br />
de um processo AR(1). De igual forma se conclui:<br />
ut ∼ ARCH(q) ⇒ u 2 t ∼ AR(q).<br />
8.2.3 Estacionaridade de Segunda Ordem do ARCH(q)<br />
Estude-se a ESO de u. Vimos que E (ut) e Cov (ut, ut−k) são finitos e não dependem de t;<br />
só falta estudar Var (ut). Em que condições Var (ut) = E (u 2 t ) não depende de t e é finita?<br />
Considere-se o ARCH(1) na sua representação autoregressiva:<br />
u 2 t = ω + α1u 2 t−1 + vt, α1 ≥ 0.<br />
Da estrutura autoregressiva conclui-se que a condição |α1| < 1 (ou equivalentemente: a raiz<br />
do polinómio AR (1 − α1L) = 0 é, em módulo, superior a um) implica E (u 2 t ) = σ 2 <<br />
∞. Se adicionarmos a esta condição, a restrição α1 ≥ 0, a condição de ESO passa a ser<br />
simplesmente,<br />
Se u é um processo ESO vem<br />
0 ≤ α1 < 1.<br />
E u 2 t = ω + α1 E u 2 <br />
t−1<br />
E u 2 t = ω + α1 E u 2 t ⇒ E u 2 ω<br />
t =<br />
1 − α1<br />
Considere-se agora o ARCH(q) na sua representação autoregressiva:<br />
u 2 t = ω + α1u 2 t−1 + ... + αqu 2 t−q + vt, αi ≥ 0.<br />
Da estrutura autoregressiva conclui-se que, se as raízes do polinómio AR (1 − α1L − ... − αqL q ) =<br />
0, estiverem todas fora do circulo unitário (complexo), então E (u 2 t ) = σ 2 < ∞. Se adicion-<br />
armos a esta condição, as restrições αi ≥ 0, a condição de ESO simplifica-se e, pode-se<br />
provar, é igual a<br />
α1 + α2 + ... + αq < 1, (αi ≥ 0).<br />
278
Neste caso, depois de algumas contas, obtém-se<br />
Var (ut) = E u 2 t =<br />
ω<br />
1 − (α1 + α2 + ... + αq) .<br />
Observação 8.2.1 Embora a expressão Var (ut| Ft−1) seja variável, Var (ut) é constante.<br />
Assim: ut é condicionalmente heterocedástico (heterocedasticidade condicional) mas em<br />
termos não condicionais ou marginais, ut é homocedástico. De forma análoga, também<br />
num processo estacionário, a média condicional é variável e a não condicional é constante.<br />
Por exemplo, num processo AR(1) estacionário, a média condicional é variável ao longo do<br />
tempo e dada por µ t = c + φyt−1; no entanto, a média marginal c/ (1 − φ) é constante.<br />
8.2.4 FAC e FACP de um u 2 t e Identificação do Processo ARCH(q)<br />
Suponha-se que o momento de ordem quatro de u é finito não depende de t. A FAC de u 2 t é<br />
dada por<br />
2<br />
ρk u Cov<br />
= ρk =<br />
u2 t , u2 <br />
t−k<br />
<br />
Var (u2 t ) Var u2 <br />
t−k<br />
, Var u 2 t = E u 4 t − E u 2 t<br />
Vimos que se ut segue um ARCH(q), então u 2 t segue um AR(q). Assim, a FAC e a FACP<br />
teóricas de u 2 exibem o comportamento típico de um AR:<br />
• (FAC) ρk não se anula e ρk → 0;<br />
⎧<br />
⎨ não se anula se k = 1, 2, ..., q<br />
• (FACP) φkk =<br />
⎩ 0 se k = q + 1, q + 2, ...<br />
Em particular, tem-se num ARCH(1):<br />
ρ k = α k 1, k ≥ 1<br />
φ 11 = α e φ kk = 0, k ≥ 2.<br />
Observação 8.2.2 Num ARCH(1) o 4 o momento existe se 3α 2 1 < 1 i.e. se α1 < 0.5774 e esta<br />
condição é, na prática, um pouco severa.<br />
Passos para a identificação da ordem q de um processo ARCH(q)<br />
1. Estima-se o modelo yt = µ t + ut supondo σ 2 t constante;<br />
279<br />
2
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
0.1<br />
FAC de u^2<br />
1 5 9 13 17 21 25 29<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
0.1<br />
FACP de u^2<br />
1 5 9 13 17 21 25 29<br />
Figura 8-3: Simulou-se (n = 5000) um ARCH(q). Qual a ordem de q?<br />
2. Obtêm-se os resíduos ût = yt − ˆµ t, t = 1, ..., n;<br />
3. Calcula-se û 2 t , t = 1, ..., n;<br />
4. Calcula-se a FAC e a FACP de û 2 t e identifica-se a ordem q.<br />
Na figura 8-3 simulou-se um ARCH(q) com n = 5000 observações. Qual a ordem de q?<br />
8.2.5 Características da Distribuição Marginal de ut<br />
Suponha-se que εt é um ruído branco Gaussiano N (0, 1) . Então a distribuição condicional<br />
de ut é N (0, σ 2 ) , i.e., ut = σtεt| Ft−1 ∼ N (0, σ 2 t ) . Sob certas condições, a distribuição<br />
marginal de ut, f (ut), é dada pela expressão<br />
f (ut) = lim<br />
s→−∞ f (ut| Fs) .<br />
Como na prática não se consegue obter a expressão para o limite anterior, f é geralmente<br />
desconhecida; podemos ainda assim investigar algumas propriedades de f calculando alguns<br />
momentos:<br />
E (ut) = 0<br />
Var (ut) = E u 2 E<br />
ω<br />
t =<br />
1 − (α1 + ... + αq)<br />
u 3 t = 0 ⇒ skweness = 0<br />
ku = E (u 4 t )<br />
E (u 2 t ) 2 > kε = 3 (já vimos).<br />
Tem-se a seguinte importante conclusão: ku ≥ kε. A distribuição de u tem caudas mais<br />
pesadas do que a distribuição de ε. Se, como habitualmente, se assumir εt ∼ N (0, 1) , então<br />
280
kurtosis<br />
25<br />
20<br />
15<br />
10<br />
5<br />
0<br />
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0<br />
alfa 1<br />
Figura 8-4: Valor de kurtosis como função do parâmetro α1, associada a um ARCH(1)<br />
a distribuição marginal de u é leptocúrtica! Note-se, em esquema:<br />
ut| Ft−1 = σtεt| Ft−1 ∼ N 0, σ 2 t<br />
⇒ ut ∼ Dist.Leptocúrtica.<br />
Podemos obter uma expressão exacta para ku. Por exemplo, suponha-se ut ∼ ARCH(1),<br />
εt<br />
i.i.d.<br />
∼ N (0, 1) e 3α 2 1 < 1. Deixa-se como exercício mostrar que<br />
E u 4 t = 3 E σ 4 t ,<br />
E σ 4 ω<br />
t =<br />
2 (1 + α1)<br />
(1 − α1) (1 − 3α2 1) ,<br />
ku = E (u4 t )<br />
E (u2 t ) 2 = 3 (1 − α21) 1 − 3α2 1<br />
= 3 + 6α2 1<br />
1 − 3α 2 1<br />
> 3.<br />
Vimos que a distribuição de u tem caudas mais pesadas do que a distribuição de ε. A<br />
proposição seguinte caracteriza as caudas da distribuição marginal.<br />
Proposição 8.2.1 Seja ut = σtεt onde εt é um ruído branco Gaussiano N (0, 1) e σ 2 t =<br />
ω + α1u 2 t−1. Suponha-se α1 ∈ (0, 2e γ ) onde γ é a constante de Euler, γ 0.5772. Seja<br />
κ > 0 a solução única da equação<br />
α κ 1 E Z 2κ = 1 ⇔<br />
κ <br />
(2α1)<br />
√ Γ κ +<br />
π 1<br />
<br />
= 1 (8.5)<br />
2<br />
onde Γ é a função Gama e Z ∼ N (0, 1) . Então quando x → ∞, a probabilidade P (ut > x)<br />
281
converge para<br />
c<br />
2 x−2κ , c > 0.<br />
A proposição 8.2.1 basicamente estabelece que as abas da fdp f (x) de ut têm caudas de<br />
Pareto (i.e., para x suficientemente “grande” P (ut > x) - como função de x - e f (x) apre-<br />
sentam um decaimento polinomial). Este resultado está de acordo com os factos estilizados<br />
analisados no capítulo 3. É interessante verificar, mais uma vez, que embora a distribuição<br />
condicional seja normal a distribuição marginal é leptocúrtica e apresenta caudas pesadas<br />
(light-value input causes heavy-tailed output). O parâmetro κ obtém-se da resolução da<br />
equação (8.5). Não há, no entanto, uma solução explícita para κ (em função de α1) - a<br />
equação (8.5) deve resolver-se numericamente.<br />
Algumas conclusões:<br />
• Embora {ut} seja um processo não autocorrelacionado, {ut} não é uma sucessão<br />
de variáveis independentes (basta observar, por exemplo, E u2 t u2 <br />
t−1 = 0 ou que<br />
E (u 2 t | Ft−1) depende de u 2 t−1);<br />
• Mesmo que ut seja condicionalmente Gaussiano a distribuição marginal não é Gaus-<br />
siana. Em particular, se ut é condicionalmente Gaussiano então a distribuição marginal<br />
é leptocúrtica.<br />
8.2.6 Momentos e Distribuição de y<br />
Seja<br />
yt = µ t + ut<br />
ut = σtεt<br />
(assumem-se as hipóteses habituais para εt). Deixa-se como exercício verificar que:<br />
• E (yt| Ft−1) = µ t;<br />
• Var (yt| Ft−1) = σ 2 t ;<br />
• Se εt é Gaussiano então yt| Ft−1 ∼ N (µ t, σ 2 t ) ;<br />
• E (yt) = E (µ t) ;<br />
• Var (yt) = Var (E (yt| Ft−1)) + E (Var (yt| Ft−1)) = Var (µ t) + E (σ 2 t ) .<br />
282
4<br />
3<br />
2<br />
1<br />
0<br />
1<br />
2<br />
3<br />
4<br />
Retorno A<br />
8.2.7 Volatilidade: Definições<br />
t<br />
4<br />
3<br />
2<br />
1<br />
0<br />
1<br />
2<br />
3<br />
4<br />
Retorno B<br />
Figura 8-5: Qual é o retorno mais volátil?<br />
A volatilidade condicional no momento t (= σt) é uma medida da magnitude das variações<br />
(ou flutuações) não explicadas dos preços no momento t. No entanto, como µ t é quase<br />
sempre uma componente pouco explicativa de y (i.e. µ t ≈ 0, pelo menos para dados de<br />
frequência alta - dados semanais ou diários) podemos dizer (sem grande margem de erro)<br />
que a volatilidade condicional é uma medida da magnitude das variações (ou flutuações)<br />
dos preços no momento t. Esta é a definição usual de volatilidade do ponto de vista das<br />
instituições financeiras:<br />
“[. . . ] practitioners often refer to the term volatility when speaking of movements<br />
in financial prices and rates.” RiskMetrics<br />
Um título A pode exibir, comparativamente a um outro título B, maior volatilidade condi-<br />
cional em certos momentos do tempo mas, globalmente A pode ser menos volátil do que<br />
B. Nas figuras 8-5 o retorno A exibe episódios de grande volatilidade, mas B é (global-<br />
mente) mais volátil (i.e. considerando o período todo).<br />
Definimos volatilidade não condicional (ou marginal) como uma medida da magnitude<br />
das variações (ou flutuações) dos preços num hiato de tempo (meses ou anos) (que não são<br />
explicadas). Pode ser medida através da estatística<br />
ou se yt ∼ ARCH(q)<br />
Var (ut) =<br />
Var (ut) =<br />
n<br />
t=1<br />
n<br />
ût 2<br />
ˆω<br />
1 − (ˆα1 + ... + ˆαq) , (α1 + α2 + ... + αq < 1).<br />
283<br />
.<br />
t
No exemplo acima, a volatilidade marginal de B é maior do que a de A, embora B exiba<br />
volatilidade constante.<br />
8.3 Modelo GARCH<br />
Tendo em conta a forte dependência temporal da volatilidade, era usual, nas primeiras apli-<br />
cações, considerar-se um ARCH de ordem elevada. Um ARCH de ordem elevada levanta<br />
problemas de estimação (mais concretamente, de convergência dos algoritmos de optimiza-<br />
ção) e, não raras vezes obtêm-se máximos locais (e não globais, como é desejável). Como<br />
consequência, alguns das estimativas dos parâmetros podem vir desprovidos de significado<br />
(por exemplo, podem vir negativos) 2 . Para superar este problema, foram tentadas várias<br />
soluções (a maioria ad-hoc e sem muita relevância). Contudo, a melhor solução apareceu<br />
com o modelo GARCH. Veremos adiante este aspecto.<br />
Definição 8.3.1 ut segue um modelo GARCH(p,q) (ou tem representação GARCH(p,q)) se<br />
ut = σtεt<br />
σ 2 t = ω + α1u 2 t−1 + ... + αqu 2 t−q + β 1σ 2 t−1 + .. + β pσ 2 t−p<br />
ω > 0, αi ≥ 0, β ≥ 0 (ver no entanto a observação 8.3.1).<br />
Surpreendentemente, o modelo mais simples GARCH(1,1), σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1,<br />
veio a revelar-se suficiente em muitas aplicações.<br />
8.3.1 GARCH(p,q) representa um ARCH(∞)<br />
Considere-se o GARCH(p,q):<br />
σ 2 t = ω + α1u 2 t−1 + ... + αqu 2 t−q + β 1σ 2 t−1 + ... + β pσ 2 t−p<br />
σ 2 t = ω + (α1L + ... + αqL q )<br />
<br />
A(L)<br />
u 2 t + β 1L + ... + β pL<br />
(1 − B (L)) σ 2 t = ω + A (L) u 2 t .<br />
P<br />
σ 2 t<br />
<br />
B(L)<br />
2 No método dos mínimos quadrados (OLS) a estimação é relativamente simples e imediata, mesmo que o<br />
número de parâmetros a estimar seja alto. Afinal, o “algoritmo de optimização” converge numa única iteração.<br />
Já no âmbito dos modelos ARCH a estimação é mais complicada pois a função a minimizar é altamente não<br />
linear e os estimadores não podem ser escritos através de uma fórmula “fechada”.<br />
284
Assim,<br />
(1 − B (L)) σ 2 t = ω + A (L) u 2 t<br />
σ 2 t =<br />
ω A (L)<br />
+<br />
1 − B (L) 1 − B (L) u2 σ<br />
t =<br />
2 t =<br />
ω<br />
1 − B (1) + d1L + d2L 2 + ... u 2 t<br />
=<br />
ω<br />
1 − B (1) +<br />
∞<br />
diu 2 t−i.<br />
i=1<br />
ω<br />
1 − B (L) + D (L) u2 t<br />
Em suma, o modelo GARCH(p,q) pode ser representado como um ARCH(∞):<br />
σ 2 t =<br />
ω<br />
1 − β 1 − ... − β p<br />
+ d1u 2 t−1 + d2u 2 t−2 + ...<br />
Os parâmetros di podem ser determinados pelo método dos coeficientes indeterminados 3 ou<br />
a partir da fórmula de Taylor (veja-se o exemplo seguinte).<br />
Exemplo 8.3.1 Represente-se o GARCH(1,2) num ARCH(∞). Tem-se<br />
σ 2 t = ω + α1u 2 t−1 + α2u 2 t−2 + β 1σ 2 t−1<br />
σ 2 t = ω + α1L + α2L 2<br />
u<br />
<br />
A(L)<br />
2 t + (β<br />
1L)<br />
<br />
B(L)<br />
Assim, o GARCH(1,2) pode representar-se na forma<br />
σ 2 t =<br />
σ 2 t .<br />
ω A (L)<br />
+<br />
1 − B (1) 1 − B (L) u2t = ω<br />
+<br />
1 − β1 α1L + α2L2 1 − β1L u2t .<br />
Podemos obter os primeiros termos do desenvolvimento em série (de potências de L) de<br />
α1L+α2L 2<br />
1−β 1 L<br />
3 Considere-se<br />
no programa Mathematica através da instrução<br />
Series[ α1L + α2L2 , {L, 0, 7}].<br />
1 − β1L A (L)<br />
= D (L)<br />
1 − B (L)<br />
⇔ α1L + α2L 2 + ... + αqL q<br />
1 − β 1L − ... − β pL P<br />
= d1L + d2L 2 + ...<br />
⇔ α1L + α2L 2 + ... + αqL q = d1L + d2L 2 + ... 1 − β 1L − ... − β pL P .<br />
A partir da última equação igualam-se os coeficientes homólogos e resolvem-se as igualdades obtidas em ordem<br />
a di.<br />
285
O output do programa fornece:<br />
Assim,<br />
α1L + α2L 2<br />
1 − β 1L<br />
= α1L + (α2 + α1β1) L 2 + α2β1 + α1β 2<br />
3<br />
1 L<br />
+ α2β 2<br />
1 + α1β 3<br />
1<br />
+ α2β 4<br />
1 + α1β 5<br />
1<br />
L 4 + α2β 3<br />
L 6 + α2β 5<br />
1 + α1β 4<br />
1<br />
1 + α1β 6<br />
1<br />
L 5<br />
L 7 + ...<br />
d1 = α1, d2 = α2 + α1β 1, d3 = α2β 1 + α1β 2<br />
1, etc.<br />
Em geral di = β 1di−1, i = 3, 4...<br />
Observação 8.3.1 A condição ω > 0, αi ≥ 0, β ≥ 0 certamente implica σ 2 t > 0 mas não<br />
é necessário exigir tanto. Vimos atrás que σ 2 t = ω<br />
1−B(1) + ∞<br />
i=1 diu 2 t−i. Logo, para se ter<br />
σ 2 t > 0 basta exigir<br />
Por exemplo, no GARCH(1,2) vimos:<br />
Assim, temos apenas de garantir<br />
ω > 0 e di ≥ 0, i = 1, 2, ...<br />
d1 = α1, d2 = α2 + α1β 1, di = β 1di−1<br />
α1 ≥ 0, β 1 ≥ 0, α2 ≥ −α1β 1<br />
(verifique que os valores α1 = 0.2, α2 = −0.05, β 1 = 0.5 são admissíveis).<br />
8.3.2 Representação ARMA de um GARCH<br />
Para simplificar considere-se o GARCH(1,1): σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1. Some-se a ambos<br />
os termos a variável u 2 t :<br />
u 2 t + σ 2 t = ω + α1u 2 t−1 + u 2 t + β 1σ 2 t−1,<br />
286
isole-se u 2 t no lado esquerdo da equação e simplifique-se a equação até se obter o ARMA<br />
implícito:<br />
u 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1 + u 2 t − σ 2 t<br />
<br />
= ω + α1u 2 t−1 + β1σ 2 t−1 + β1u 2 t−1 − β1u 2 t−1 + vt<br />
= ω + (α1 + β1) u 2 2<br />
t−1 − β1 ut−1 − σ 2 <br />
t−1 + vt<br />
<br />
vt<br />
vt−1<br />
= ω + (α1 + β 1) u 2 t−1 − β 1vt−1 + vt.<br />
Como E (vt) = 0 e Cov (vt, vt−k) = 0 conclui-se: u 2 t ∼ ARMA(1, 1). No caso geral<br />
pode-se mostrar<br />
Por exemplo,<br />
ut ∼ GARCH(p,q) ⇒ u 2 t ∼ ARMA(max {p, q} , p).<br />
ut ∼ GARCH(1,2) ⇒ u 2 t ∼ ARMA(2,1)<br />
ut ∼ GARCH(2,1) ⇒ u 2 t ∼ ARMA(2,2)<br />
ut ∼ GARCH(2,2) ⇒ u 2 t ∼ ARMA(2,2)<br />
Em geral é problemático identificar o GARCH a partir das FAC e FACP de u 2 t . Por duas<br />
razões: 1) o GARCH implica uma estrutura ARMA para u 2 t e, como se sabe, no ARMA,<br />
nenhuma das funções de autocorrelação (FAC ou FACP) é nula a partir de certa ordem em di-<br />
ante (e, é esta característica que facilita a identificação das ordens do AR ou do MA, mas não<br />
do ARMA); 2) não existe uma correspondência perfeita entre a estruturas ARMA e GARCH<br />
(por exemplo, um ARMA(2,2) para u 2 t pode ser um GARCH(2,1) ou um GARCH(2,2) para<br />
ut). Quer isto dizer que as funções de autocorrelação não são interessantes nesta fase? De<br />
forma alguma, por duas razões: 1) se FAC e a FACP de u 2 t não apresentarem coeficientes<br />
significativos então não existe efeito ARCH; 2) a existência de vários coeficientes de auto-<br />
correlação e de autocorrelação parcial significativos é indício forte da presença de efeitos<br />
ARCH 4 .<br />
4 Coeficientes de autocorrelação de u 2 t estatisticamente significativos podem ainda dever-se a um erro de especificação<br />
do modelo (veremos isso adiante) ou à presença de outros modelos não lineares, como por exemplo,<br />
o modelo bilinear.<br />
287
Como regra geral, não devemos usar o ARCH; o GARCH é preferível. A identificação<br />
das ordens p e q do GARCH faz-se na fase da estimação.<br />
Estacionaridade de Segunda Ordem num GARCH(p,q)<br />
Como se sabe E (ut) = Cov (ut, ut−k) = 0, ∀k ∈ N. Assim, para discutir a ESO do<br />
processo u, basta analisar E (u 2 t ) .<br />
Vimos<br />
De facto, pode-se mostrar<br />
Tem-se assim<br />
ut ∼ GARCH(p,q) ⇒ u 2 t ∼ ARMA(max {p, q} , p).<br />
u 2 t = ω +<br />
= ω +<br />
q<br />
i=1<br />
max{p,q} <br />
i=1<br />
αiu 2 t−i +<br />
p<br />
βiu 2 t−i −<br />
i=1<br />
(αi + β i) u 2 t−i −<br />
p<br />
i=1<br />
p<br />
i=1<br />
β ivt−i + vt<br />
β ivt−i + vt<br />
= ω + (A (L) + B (L)) u 2 t−i + (1 − B (L)) vt.<br />
(1 − A (L) − B (L)) u 2 t = ω + (1 − B (L)) vt.<br />
A ESO de ut depende das raízes do polinómio autoregressivo, (1 − A (L) − B (L)). Conc-<br />
retamente, para que se tenha E (u 2 t ) = σ 2 < ∞ é necessário e suficiente que as raízes do<br />
polinómio autoregressivo estejam fora do circulo unitário. Se adicionarmos a esta condição,<br />
as restrições αi ≥ 0 e β i ≥ 0, a condição de ESO simplifica-se e, pode-se provar, é igual a<br />
8.4 Modelo IGARCH<br />
q<br />
i=1<br />
αi +<br />
p<br />
βi < 1.<br />
i=1<br />
Definição 8.4.1 ut segue um modelo IGARCH(p,q) (ou tem representação IGARCH(p,q)) se<br />
e<br />
ut = σtεt<br />
σ 2 t = ω + α1u 2 t−1 + ... + αqu 2 t−q + β 1σ 2 t−1 + .. + β pσ 2 t−p<br />
q<br />
i=1<br />
αi +<br />
p<br />
βi = 1<br />
i=1<br />
288
i.e., a soma dos parâmetros α ′ s e β ′ s é igual a um.<br />
Vamos analisar apenas o IGARCH(1,1): σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1, onde α1 + β 1 = 1.<br />
A designação Integrated GARCH resulta do facto de u 2 t possuir uma raiz unitária:<br />
u 2 t = ω + (α1 + β<br />
1)<br />
<br />
1<br />
u 2 t−1 − β 1vt−1 + vt<br />
u 2 t = ω + u 2 t−1 − β 1vt−1 + vt<br />
(1 − L) u 2 t = ω − β 1vt−1 + vt<br />
(logo u 2 t é um ARIMA(0,1,1)). Nestas condições ut não é ESO. Durante algum tempo<br />
pensou-se que ut seria também não estacionário em sentido estrito. Daniel Nelson mostrou<br />
que um IGARCH poderia ser estritamente estacionário (EE). Concretamente mostrou: 1) a<br />
condição necessária e suficiente para que ut seja EE 5 é<br />
E log β1 + α1ε 2 t < 0;<br />
2) e que esta condição acaba por ser menos exigente que a condição de ESO, α1 + β 1 < 1.<br />
Se E (log (β 1 + α1ε 2 t )) < 0, então a distribuição conjunta de (u1, u2, ..., uk) é igual à<br />
distribuição conjunta de (ut, ut+1, ..., ut+k) para todo o t e k e, em particular, as funções<br />
densidade de probabilidade são constantes no tempo f (ut) = f (us) , ∀t, s; pode-se ainda<br />
mostrar que σ 2 t é uma variável aleatória limitada em probabilidade (não tende para ∞, como<br />
à primeira vista poderíamos pensar) e σ 2 t<br />
p<br />
−→ σ 2 (ω) (σ 2 (ω) é uma v.a.) (embora não<br />
exista o segundo momento). Vários estudos mostram que os testes assimptóticos habituais<br />
permanecem válidos 6 . Para assentar ideias, suponha-se εt ∼ N (0, 1) . Então:<br />
• se α1 + β 1 < 1 ⇒ ut é ESO;<br />
• se α1 + β 1 < 1 vem, pela desigualdade de Jensen,<br />
E log β1 + α1ε 2 t ≤ log E β1 + α1ε 2 t = log (β1 + α1) < 0<br />
e, portanto, α1 + β 1 < 1 ⇒ log E (β 1 + α1ε 2 t ) < 0; isto é, se o processo é ESO então<br />
5 Na proposição 4.5.5 e exemplo 4.5.13 aborda-se, do ponto de vista teórico, esta questão.<br />
6 Esta conclusão contrasta com o processos integrados na média, por exemplo do tipo, yt = yt−1 + εt que,<br />
como se sabe, não são nem estacionários de segunda ordem nem estritamente estacionários e onde os testes<br />
habituais não são válidos.<br />
289
1<br />
β1<br />
α + β < 1<br />
1<br />
1<br />
2 [ log(<br />
β + ) ] < 0<br />
E αε<br />
1<br />
t<br />
α + β > 1<br />
1<br />
1<br />
2 [ log(<br />
β + ) ] < 0<br />
E αε<br />
1<br />
t<br />
α + β > 1<br />
1<br />
1<br />
2 [ log(<br />
β + ) ] > 0<br />
E αε<br />
1 3<br />
Figura 8-6: Regiões no espaço dos parâmetros (α1, β 1) onde o processo {ut} é E2O e EE<br />
é também EE;<br />
• pode-se provar que α1 + β 1 = 1 ⇒ E (log (β 1 + α1ε 2 t )) < 0 (este valor esperado<br />
pode ser calculado de forma exacta 7 ). Como referimos, o processo IGARCH é EE. A<br />
condição de ESO acaba por ser mais exigente do que a condição de EE. A primeira<br />
exige a existência do momento de segunda ordem enquanto EE exige que toda a es-<br />
trutura probabilística (leia-se função de distribuição finita) seja estável ao longo do<br />
tempo, independentemente dos momentos serem finitos ou não.<br />
• E (log (β 1 + α1ε 2 t )) < 0 ⇒ α1 + β 1 < 1<br />
A figura 8-6 mostra três regiões no espaço dos parâmetros (α1, β 1). Na região {(α1, β 1) ∈ R 2 : α1 + β 1 <<br />
o processo {ut} é ESO e EE. Na região {(α1, β 1) ∈ R 2 : α1 + β 1 > 1, E (log (β + αε 2 )) < 0}<br />
o processo {ut} não é ESO mas é EE. Na região {(α1, β 1) ∈ R 2 : α1 + β 1 > 1, E (log (β + αε 2 )) > 0}<br />
o processo {ut} não é ESO nem EE.<br />
8.4.1 Persistência na Variância<br />
Certos processos exibem reversão para a média; outros não (e.g. RW). É usual chamar a estes<br />
últimos processos persistentes no sentido em que choques nas inovações exercem um efeito<br />
7 Com efeito, a variável aleatória Z = log β1 + α1ε 2 tem distribuição conhecida. Por exemplo, basta<br />
fazer uma transformação de variável e atender ao facto de ε 2 ∼ χ 2 (1) .<br />
290<br />
1<br />
t<br />
α1
120<br />
115<br />
110<br />
105<br />
100<br />
95<br />
90<br />
85<br />
fhi = 0.1<br />
80<br />
1 26 51 76 101 126 151 176<br />
120<br />
115<br />
110<br />
105<br />
100<br />
95<br />
90<br />
85<br />
fhi = 0.98<br />
80<br />
1 26 51 76 101 126 151 176<br />
120<br />
115<br />
110<br />
105<br />
100<br />
95<br />
90<br />
85<br />
fhi = 0.8<br />
80<br />
1 26 51 76 101 126 151 176<br />
120<br />
110<br />
100<br />
90<br />
80<br />
fhi = 1<br />
70<br />
1 26 51 76 101 126 151 176<br />
Figura 8-7: Persistência e o processo AR(1)<br />
persistente no nível do processo. Na literatura, variam não só as definições de persistência<br />
como também as ferramentas estatísticas usadas para a avaliar.<br />
Considere-se por exemplo o AR(1)<br />
yt = µ (1 − φ) + φyt−1 + εt, ut ruído branco<br />
Uma medida de persistência pode basear-se em φ. Se φ = 1 o processo é persistente. Se |φ| <<br />
1 não é persistente. Poderíamos ainda discutir “níveis de persistência” (quanto mais perto φ<br />
estiver de 1 maior é a “persistência”). Na figura 8-7 mostram-se 4 trajectórias simuladas de<br />
yt = µ (1 − φ) + φyt−1 + εt, (εt ruído branco Gaussiano) para µ = 100, y0 = 80. Apenas<br />
φ varia (tudo o resto é igual, incluindo as inovações εt). Consideram-se os casos φ = 0.1,<br />
φ = 0.8, φ = 0.98 e φ = 1. Procura-se verificar a velocidade da reversão do processo<br />
face à sua média de longo prazo (no caso φ = 1 não existe média de longo prazo) dada uma<br />
condição inicial y0 = 80 relativamente afastada da média de longo prazo. Isto é, tende ou não<br />
o processo rapidamente para a sua média de longo prazo? A figura mostra que quanto maior<br />
é o valor do parâmetro φ mais lenta é a reversão e, portanto, maior é o nível de persistência.<br />
291
Existem outras medidas de persistência. Por exemplo a half-life é o valor de h tal que<br />
E (yt+h − µ| Ft) ≤ 1<br />
2 (yt − µ) , (supondo yt > µ)<br />
Suponha-se que em t existe um desvio de y face à sua média de longo prazo igual a yt − µ.<br />
Questão: quantos períodos são necessários para que metade desse desvio seja eliminado (em<br />
média)? Ou, em quanto tempo o processo elimina metade do desvio yt − µ? A resposta é h.<br />
Para exemplificar, considere-se o processo AR(1), yt = φyt−1 + ut (note-se, µ = 0).<br />
Como se viu atrás<br />
E (yt+h| Ft) = φ h yt.<br />
Assim, a half-life é o valor de h tal que φ h yt = 1<br />
2 yt. Logo<br />
φ h yt = 1<br />
2 yt ⇒ h =<br />
log (1/2)<br />
log φ .<br />
Se temos dados diários (t = 1 corresponde a uma dia) e, por exemplo, φ = 0.8, então<br />
h = log (1/2) / log (0.8) = 3.1 é o número de dias necessários para que, em média, metade<br />
do desvio de y face à sua média de longo prazo seja eliminado. Valores altos de h indicam<br />
maior persistência (o processo demora mais tempo a eliminar desvios face à média de longo<br />
prazo e, neste caso, o processo exibe uma reversão para a média mais lenta). No caso φ →<br />
1 ⇒ h → ∞ e o processo é persistente. Obviamente, se E (yt+h| Ft) não converge quando<br />
h → ∞ o processo y é persistente.<br />
Tradicionalmente, o conceito de persistência aplica-se à média do processo. Com o<br />
GARCH surgiu a ideia da persistência em variância. Choques na variância são rapidamente<br />
eliminados e σ 2 t tende rapidamente para E (σ 2 t ) ou, pelo contrário, os choques têm um efeito<br />
duradouro na variância?<br />
Podemos também definir uma half-life para a variância. Trata-se do valor de h tal que<br />
E σ 2 t+h − σ 2 <br />
<br />
1 2<br />
Ft ≤ σt − σ<br />
2<br />
2<br />
(supondo σ 2 t > σ 2 )<br />
onde σ 2 = E (σ 2 t ) . Para exemplificar, considere-se o GARCH(1,1). Vem σ 2 = ω/ (1 − α1 − β 1)<br />
e<br />
E σ 2 t+h − σ 2 <br />
Ft = (α1 + β1) h σ 2 t − σ 2<br />
(este resultado mostra-se no capítulo da previsão). Assim a half-life é o valor de h tal que<br />
292
(α1 + β 1) h (σ 2 t − σ 2 ) = 1<br />
2 (σ2 t − σ 2 ) . Logo<br />
(α1 + β1) h σ 2 t − σ 2 = 1 2<br />
σt − σ<br />
2<br />
2 ⇒ h =<br />
log (1/2)<br />
log (α1 + β 1) .<br />
Quando α1+β 1 tende para 1, h tende para mais infinito e o processo é persistente na variância<br />
(ou a volatilidade é persistente).<br />
Uma das dificuldades na análise dos processos GARCH em geral, e dos IGARCH em<br />
particular, é o de que certos processos podem ser persistentes num certo modo de convergên-<br />
cia e não ser num outro modo de convergência. Pode-se provar que os IGARCH, embora<br />
persistentes de acordo com a medida E σ2 t+h − σ2 <br />
Ft não são persistentes no modo<br />
de convergência designado “quase certamente” ou “com probabilidade 1” (como notámos<br />
σ 2 t<br />
q.c.<br />
−→ σ 2 (ω) , i.e. σ 2 t converge quase certamente para uma variável aleatória, apesar de<br />
E (σ 2 t ) não existir).<br />
Em muitas aplicações empíricas observa-se que a estimativa para α1 + β 1 se encontra<br />
muito perto de um, sugerindo que a volatilidade pode ser persistente (forte dependência<br />
temporal) e que Var (yt) pode não existir. Este facto está de acordo com os factos estilizados<br />
discutido no ponto no capítulo 3.<br />
Um modelo estacionário mas em que a volatilidade exibe memória longa é o FIGARCH<br />
(GARCH fraccionário).<br />
8.4.2 Alterações de Estrutura e o IGARCH<br />
Modelos aparentemente IGARCH podem também dever-se a alterações de estrutura (tal<br />
como processos aparentemente do tipo yt = yt−1 + ut podem dever-se a alterações de estru-<br />
tura). Por exemplo, considere-se a seguinte simulação de Monte Carlo:<br />
yt = ut, ut = σtεt, t = 1, 2, ..., 1000<br />
σ 2 t = ω + αu 2 t−1 + βσ 2 t−1, (8.6)<br />
⎧<br />
⎨ 0.5 t = 1, 2, ..., 500<br />
α = 0.1, β = 0.6, ω =<br />
⎩ 1.5 t = 501, 502, ..., 1000<br />
Este modelo foi simulado 500 vezes. Na figura 8-8 representa-se uma das 500 trajectórias<br />
simuladas.<br />
Em cada simulação (ou trajectória simulada) estimaram-se os parâmetros. Embora o<br />
293
10<br />
8<br />
6<br />
4<br />
2<br />
0<br />
2<br />
4<br />
6<br />
8<br />
1 101 201 301 401 501 601 701 801 901<br />
Figura 8-8: Uma trajectória simulada de acordo com o modelo 8.6<br />
modelo simulado não seja claramente um IGARCH (note-se que α + β = 0.7), concluiu-se<br />
que:<br />
• em 83% das simulações a soma dos parâmetros ˆα + ˆ β esteve acima de 0.99;<br />
• em 99.6% das simulações a soma dos parâmetros ˆα + ˆ β esteve acima de 0.95;<br />
• em todos os casos ˆα + ˆ β esteve acima de 0.9.<br />
Este exercício de simulação ilustra o impacto de alterações de estrutura sobre os coefi-<br />
cientes α e β. A mensagem é clara: num aplicação empírica, se ˆα + ˆ β estiver próximo de<br />
um, convém verificar se o modelo subjacente é de facto um IGARCH ou, pelo contrário, se<br />
existem alterações de estrutura que causem um falso IGARCH . Não obstante, quer se veri-<br />
fique α + β = 1 ou o caso de ω não ser constante ao longo da amostra, o processo subjacente<br />
é sempre não estacionário de segunda ordem. No primeiro caso a variância não é finita; no<br />
segundo não é constante. Quebras de estrutura ocorrem frequentemente quando o período<br />
de análise é muito extenso. Nestes casos, ou se modela a quebra de estrutura (em princípio<br />
é a melhor estratégia) ou se encurta o período de observação (se os objectivos da aplicação<br />
empírica assim o permitirem).<br />
8.4.3 EWMA (Exponential Weighted Moving Averages)<br />
Considere-se a seguinte estimativa para a volatilidade no momento t<br />
σ 2 t (h) = 1<br />
h<br />
h<br />
i=1<br />
y 2 t−i = 1 2<br />
yt−1 + y<br />
h<br />
2 t−2 + ... + y 2 <br />
t−h<br />
294
0.0007<br />
0.0006<br />
0.0005<br />
0.0004<br />
0.0003<br />
0.0002<br />
0.0001<br />
0<br />
Jan89<br />
Jun90<br />
Nov91<br />
Apr93<br />
Sep94<br />
Feb96<br />
Jul97<br />
Dec98<br />
May00<br />
Oct01<br />
Mar03<br />
Aug04<br />
Jan06<br />
Vol30<br />
Vol60<br />
Vol120<br />
Vol240<br />
Figura 8-9: Estimativas da volatilidade do índice Dow Jones ao longo do período, baseadas<br />
no estimador σ 2 (h) para diferentes valores de h (e.g., Vol30 = σ 2 t (30) , Vol60 = σ 2 t (60) ,<br />
etc.)<br />
(supomos E (yt| Ft−1) = 0).<br />
Na figura 8-9 mostram-se várias estimativas da volatilidade do índice Dow Jones ao longo<br />
do período, baseadas no estimador σ 2 (h) para diferentes valores de h (e.g., Vol30 = σ 2 t (30) ,<br />
Vol60 = σ 2 t (60) , etc.)<br />
O estimador σ 2 t (h) levanta as seguintes questões e objecções:<br />
• qual o melhor valor de h? É um pouco arbitrária a escolha de h;<br />
• o estimador σ 2 t (h) implica que todas as observações no período (t − h, t − 1) têm o<br />
mesmo peso na determinação do valor de σ 2 t (h) . Por exemplo, com<br />
σ 2 t (240) = 1<br />
240<br />
240<br />
i=1<br />
y 2 t−i = 1 2<br />
yt−1 + y<br />
240<br />
2 t−2 + ... + y 2 <br />
t−240<br />
todas as observações têm um peso de 1/240. No entanto, seria preferível dar mais peso<br />
às observações mais recentes;<br />
• o estimador σ 2 t (h) implica que todas as observações fora do período (t − h, t − 1)<br />
têm peso zero. Como consequência, pode suceder o seguinte. Se na janela amostral<br />
(t − h, t − 1) existir uma observação extrema, a volatilidade é sobrestimada; quando<br />
essa observação sai da janela amostra, a volatilidade estimada cai depois abruptamente.<br />
O estimador Exponential Weighted Moving Averages (EWMA, proposto pela J.P. Mor-<br />
gan) resolve algumas das fragilidades dos estimador acima descrito, dando mais peso às<br />
295
observações mais recentes:<br />
σ 2 t = (1 − λ)<br />
∞<br />
i=1<br />
λ i−1 y 2 t−i, 0 < λ < 1<br />
= (1 − λ) y 2 t−1 + λy 2 t−2 + λ 2 y 2 t−3 + ... .<br />
Quanto mais alto for λ, mais peso o estimador dá às observações mais antigas (o decréscimo<br />
dos ponderadores é, no entanto, sempre exponencial).<br />
Os ponderadores, ωi = (1 − λ) λ i , somam 1,<br />
∞<br />
ωi = (1 − λ) 1 + λ + λ 2 + ... = 1<br />
i=1<br />
(recorde-se a soma de uma progressão geométrica). Por exemplo, com λ = 0.5 vem<br />
σ 2 t = (1 − λ) y 2 t−1 + λy 2 t−2 + λ 2 y 2 t−3 + ... <br />
= 0.5 × y 2 t−1 + 0.5y 2 t−2 + 0.25y 2 t−3 + 0.125y 2 t−4 + ... .<br />
A expressão de σ 2 t pode ser reescrita de uma forma mais sugestiva. Notando que<br />
temos<br />
σ 2 t−1 = (1 − λ) y 2 t−2 + λy 2 t−3 + λ 2 y 2 t−4 + ... <br />
σ 2 t = (1 − λ) y 2 t−1 + λσ 2 t−1. (8.7)<br />
Qual a relação entre o IGARCH e o EWMA? Considere-se um processo y com média<br />
condicional igual a zero e com especificação IGARCH(1,1): yt = ut, ut = σtεt. Vem<br />
σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1, α1 + β 1 = 1<br />
= ω + (1 − β 1) y 2 t−1 + β 1σ 2 t−1.<br />
Se ω = 0 conclui-se que um IGARCH(1,1) corresponde ao modelo EWMA. Assim, o mod-<br />
elo EWMA é um caso muito particular do IGARCH.<br />
296
8.5 Modelo CGARCH<br />
Considere-se o GARCH(1,1):<br />
σ 2 t = ω + α1u 2 t−1 + β1σ 2 t−1<br />
=<br />
2<br />
ω + α1 ut−1 − σ 2 2<br />
+ β1 σt−1 − σ 2 + α1σ 2 + β1σ 2<br />
= σ 2 (1 − α1 − β1) + α1σ 2 + β1σ 2 2<br />
+ α1 ut−1 − σ 2 2<br />
+ β1 σt−1 − σ 2<br />
= σ 2 2<br />
+ α1 ut−1 − σ 2 2<br />
+ β1 σt−1 − σ 2<br />
Esta equação relaciona σ 2 t com a respectiva média de longo prazo e mostra como se processa<br />
a dinâmica de ajustamento de σ 2 t face à constante σ 2 .<br />
O Component GARCH model (CGARCH) permite representar:<br />
σ 2 t =<br />
<br />
2 2<br />
qt + α1 ut−1 − qt−1 + β1 σt−1 − qt−1<br />
qt = σ 2 + ρ qt−1 − σ 2 + φ u 2 t−1 − σ 2 <br />
t−1<br />
(8.8)<br />
onde σ 2 = E (σ 2 t ) . O ajustamento de curto prazo de σ 2 t faz-se agora em relação à v.a. qt,<br />
a qual tende, no “longo prazo”, para σ 2 . A primeira equação é designada de componente<br />
transitória e a segunda equação de componente de longo prazo. O modelo CGARCH é um<br />
GARCH(2,2) com restrições sobre os parâmetros. Com efeito, substituindo<br />
na equação (8.8) vem<br />
σ 2 t = σ2 (1 − ρ) + φ u2 t−1 − σ2 t−1<br />
(1 − ρL)<br />
<br />
+β 1<br />
qt = σ2 (1 − ρ) + φ u2 t−1 − σ2 t−1<br />
(1 − ρL)<br />
<br />
+ α1<br />
<br />
σ 2 t−1 − σ2 (1 − ρ) + φ u2 t−2 − σ2 t−2<br />
(1 − ρL)<br />
<br />
u 2 t−1 − σ2 (1 − ρ) + φ u2 t−2 − σ2 t−2<br />
(1 − ρL)<br />
<br />
= ... =<br />
= (1 − α1 − β 1) (1 − ρ) σ 2 + (α1 + φ) u 2 t−1 − (α1ρ + (α1 + β 1) φ) u 2 t−2<br />
+ (β 1 − φ + ρ) σ 2 t−1 + ((α1 + β 1) φ − β 1ρ) σ 2 t−2.<br />
Atendendo à condição de ESO do GARCH(p,q) é fácil concluir que o processo CGARCH é<br />
297
ESO sse<br />
Nestas circunstâncias,<br />
Var (ut) =<br />
ρ (1 − α1 − β 1) + α1 + β 1 < 1.<br />
(1 − α1 − β 1) (1 − ρ) σ 2<br />
1 − (ρ (1 − α1 − β 1) + α1 + β 1) = σ2 .<br />
A principal vantagem do CGARCH está na interpretação da dinâmica de ajustamento, e não<br />
necessariamente no ajustamento da variância (um GARCH(2,2), sem restrições nos parâmet-<br />
ros, ajusta melhor, i.e., o valor da função de verosimilhança não decresce).<br />
O caso φ = 0 sugere a presença de um GARCH(1,1). Com efeito, se φ = 0, vem<br />
qt = σ 2 + ρ (qt−1 − σ 2 ) . Para simplificar, suponha-se que q0 = σ 2 . Se φ = 0 ⇒ qt = σ 2<br />
(verifique!). No caso q0 = σ 2 tem-se qt → σ 2 (se |ρ| < 1). Esta convergência é deter-<br />
minística (a velocidade de ajustamento depende de ρ). Em qualquer dos casos (q0 = σ 2 ou<br />
q0 = σ2 ), e supondo |ρ| < 1, tem-se, ao fim de algum tempo, um ajustamento dinâmico, de<br />
acordo com o modelo σ2 t = σ2 <br />
2 + α1 ut−1 − σ2 <br />
2 + β1 σt−1 − σ2 . Assim, o caso φ = 0,<br />
sugere a presença de um GARCH(1,1).<br />
O parâmetro ρ está associado à reversão de qt para σ 2 . Quanto mais alto (mais próximo<br />
de um) mais lenta é a velocidade de reversão e, portanto, maior é o nível de persistência na<br />
variância condicional. Note-se que a reversão de σ 2 t para σ 2 é feita através de qt, i.e., σ 2 t →<br />
qt → σ 2 .<br />
8.6 Modelo GJR-GARCH<br />
O modelo GJR-GARCH é devido a Glosten, Jagannathan e Runkle. Uma das característi-<br />
cas das séries de retornos de títulos é o Leverage Effect (i.e. momentos de maior volatili-<br />
dade são despoletados por variações negativas nos preços). Vimos no ponto 3.2.4 que este<br />
efeito pode ser detectado através da medida (naive) Cov (y 2 t , yt−1) < 0. Veremos agora uma<br />
forma bastante mais eficiente de estimar esse efeito. Comece-se por observar que o mod-<br />
elo ARCH/GARCH apenas detecta o chamado “efeito magnitude”. Isto é, a volatilidade só<br />
responde à magnitude do valor de ut. Em esquema:<br />
↑ u 2 t−1 ⇒ ↑ σ 2 t (efeito magnitude)<br />
298
Para modelar o efeito assimétrico é necessário que a volatilidade responda assimetricamente<br />
ao sinal de ut. Mais precisamente, a volatilidade deve aumentar mais quando ut < 0 (“má<br />
notícia”) do que quando ut > 0 (“boa notícia”).<br />
O modelo GJR-GARCH (assim como o EGARCH, AARCH, etc.) modela não só o efeito<br />
magnitude como também o efeito assimétrico. A especificação mais simples (suficiente para<br />
um grande número de aplicações) é<br />
σ 2 t = ω + α1u 2 t−1 + β1σ 2 t−1 + γ1u 2 t−1I{ut−1
volatilidade é comparativamente maior quando ut−1 < 0.<br />
Vol(t)<br />
12<br />
10<br />
8<br />
6<br />
4<br />
2<br />
0<br />
4 3 2 1 0 1 2 3 4<br />
u(t1)<br />
NIC GARCH<br />
GJRGARCH<br />
NIC GARCH e GJR-GARCH para α1 = 0.2, β 1 = 0.5, ω = 0.1, γ 1 = 0.4<br />
Para ensaiar o efeito assimétrico podemos considerar o ensaio H0: γ 1 = 0 (através, por<br />
exemplo, do teste de Wald). Pode-se provar que a condição de ESO (no caso em que a<br />
distribuição de ε é simétrica) é α1 + γ 1/2 + β 1 < 1. Nesta circunstâncias,<br />
Var (ut) = E σ 2 t =<br />
ω<br />
1 − (α1 + γ 1/2 + β 1)<br />
Este modelo é designado por TGARCH no EVIEWS.<br />
8.7 Modelo GARCH-M<br />
A teoria financeira postula uma relação entre rendimento esperado e o risco associado. Em<br />
geral deve-se esperar que os activos com maior risco estejam associados aos activos com<br />
maior rendimento.<br />
yt = c + λg σ 2 t<br />
Especificações mais utilizadas:<br />
+ ut, ut = σtεt, σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1.<br />
g σ 2 t = σt, g σ 2 t = log σt<br />
300
Dada a estreita relação entre os parâmetros da média e da variância condicional, um erro de<br />
especificação da variância condicional afecta a consistência dos estimadores dos parâmetros<br />
da média condicional.<br />
8.8 Modelo de Heterocedasticidade Condicionada com Var-<br />
iáveis Explicativas<br />
Considere-se um modelo GARCH(1,1) (poderia ser outro modelo qualquer) com variáveis<br />
explicativas:<br />
yt = µ t + ut<br />
ut = σtεt<br />
σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1 + g (xt)<br />
onde a função g é tal que σ 2 t > 0 (com probabilidade 1). Que variáveis poderemos considerar<br />
para xt? Vejamos alguns exemplos:<br />
• Dias da semana (ou qualquer outro efeito de calendário):<br />
σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1 + δ1St + δ2Tt + δ3Q a t + δ5Q u t<br />
onde St = 1 se t é uma segunda-feira, etc. (deverá ter-se ω+min {δi} > 0 ⇒ σ 2 t > 0).<br />
• Ocorrência de factos, notícias significativas. Por exemplo 8 ,<br />
goodt =<br />
badt =<br />
⎧<br />
⎨<br />
σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1 + δ1goodt + δ2badt<br />
1 t = são divulgados resultados da empresa ABC acima do esperado<br />
⎩ 0 0<br />
⎧<br />
⎨ 1 t = são divulgados resultados da empresa ABC abaixo do esperado<br />
⎩<br />
0 0<br />
8 A chamada “armadilha das variáveis artificiais” não ocorre no exemplo (embora pareça) pois as notícias<br />
podem ser “boas”, “más” ou simplesmente não ocorrerem (e, neste caso, vem goodt = badt = 0).<br />
301
• Variação do preço do crude.<br />
• Medida de volatilidade de outro activo/mercado<br />
• Volume de transacções:<br />
σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1 + δ1vol ∗ t−1<br />
onde vol ∗ t−1 pode ser especificada como vol ∗ t−1 = volt−1<br />
σvol ou vol∗ t−1 = log (volt−1) ou<br />
vol ∗ t−1 = volt−1/volt−2, sendo vol o volume de transacções. Observe-se que o vol-<br />
ume de transacções pode ser considerado como uma variável proxy da variável não<br />
observada “chegada de informação”.<br />
• Qualquer outra variável (estacionária) que supostamente afecte a volatilidade.<br />
No ponto 7.4.9 vimos que o modelo em tempo discreto, compatível com o processo CIR,<br />
em tempo contínuo, drt = β (τ − rt) dt + σ √ rtdWt conduz ao modelo,<br />
rt = c + φrt−1 + ut<br />
ut = σtεt<br />
σ 2 t = σ 2 rt−1<br />
Inspirados nesta especificação, certos autores modelam a taxa de juro em tempo discreto<br />
combinando as características do GARCH com as características do processo de difusão<br />
(modelo CIR):<br />
rt = c + φrt−1 + ut<br />
ut = σtεt<br />
σ 2 t = ω + α1u 2 t−1 + βσ 2 t−1 + γrt−1.<br />
O ensaio H0: γ = 0 vs. H1 : γ > 0 permite analisar se a nível da taxa de juro influencia pos-<br />
itivamente a volatilidade. Geralmente conclui-se γ > 0. A figura 8-10 sugere (claramente)<br />
γ > 0.<br />
302
18<br />
16<br />
14<br />
12<br />
10<br />
8<br />
6<br />
4<br />
2<br />
0<br />
Jan54<br />
May56<br />
Sep58<br />
Jan61<br />
May63<br />
8.9 Estimação<br />
Sep65<br />
Jan68<br />
May70<br />
Sep72<br />
Jan75<br />
May77<br />
Sep79<br />
Figura 8-10: Taxa de Juro (Bilhetes do Tesouro a 3 meses -EUA)<br />
Seja yt = µ t+ut onde ut = σtεt. Suponha-se que v.a. εt tem distribuição conhecida (normal,<br />
t-Student ou outra) de média zero e variância um. O vector dos parâmetros desconhecidos,<br />
θ, envolve parâmetros definidos na média condicional e na variância condicional.<br />
Jan82<br />
A média condicional µ t pode depender de uma variável xt (esta variável pode ser encar-<br />
ada também como um vector de variáveis explicativas). Por exemplo, podemos ter,<br />
May84<br />
Sep86<br />
Jan89<br />
May91<br />
yt = γ 0 + γ 1xt + φ 1yt−1 + ut<br />
ut = σtεt, εt ∼ N (0, 1)<br />
σ 2 t = ω + α1u 2 t−1<br />
θ = (γ 0, γ 1, φ 1, ω, α1) ′ .<br />
A estimação do vector θ poderia ser feita da seguinte forma (tome-se como referência o<br />
modelo acima apresentado):<br />
Passo 1 Estimação OLS de γ 0, γ 1 e φ 1 com base na equação yt = γ 0 + γ 1xt + φ 1yt−1 + ut.<br />
Passo 2 A partir do passo 1, obtêm-se os resíduos û 2 t . Como σ 2 t = ω + α1u 2 t−1 implica<br />
uma representação AR(1) para σ 2 t = ω + α1u 2 t−1, ou seja, u 2 t = ω + α1u 2 t−1 + vt<br />
(vejam-se os pontos 8.2.2 e 8.3.2), os parâmetros ω e α1 estimam-se a partir da equação<br />
û 2 t = ω + α1û 2 t−1 + vt, considerando o estimador OLS.<br />
303<br />
Sep93<br />
Jan96<br />
May98<br />
Sep00<br />
Jan03<br />
May05
O procedimento acima descrito envolve estimadores consistentes mas altamente inefi-<br />
cientes, pois em ambos os casos os erros das equações são heterocedásticos (no caso da<br />
estimação ω e α1, a situação é particularmente grave, pois, pode mostra-se, vt tende a exibir<br />
forte heterocedasticidade).<br />
O método de estimação mais utilizado é o método da máxima verosimilhança (o GMM<br />
também pode ser utilizado) que se descreve a seguir.<br />
8.9.1 Estimador de Máxima Verosimilhança<br />
Assuma-se que todos os parâmetros de interesse, incluídos em θ, apenas aparecem na densi-<br />
dade conjunta condicional f (Yn| Xn; θ) , onde Yn = (yn, yn−1, ..., y1) e Xn = (xn, xn−1, ..., x1) .<br />
Para simplificar a exposição, admite-se (sem perda de generalidade) que as condições inici-<br />
ais Y0 são conhecidas. Tem-se assim, que a densidade relevante, para a estimação de θ, é<br />
f (Yn| Y0, Xn; θ) .<br />
Proposição 8.9.1 Se yt é condicionalmente independente de (xn, ..., xt+1) (n > t) dado<br />
(Yt−1, Xt), i.e.,<br />
então<br />
f (yt| Yt−1, Xn) = f (yt| Yt−1, Xt) ,<br />
f (Yn| Y0, Xn; θ) = f (yn| Yn−1, Xn; θ) × f (yn−1| Yn−2, Xn−1; θ)<br />
Dem. (esboço) Tem-se<br />
Desenvolva-se a expressão (*):<br />
=<br />
×... × f (y1| Y0, x1; θ)<br />
n<br />
f (yt| Yt−1, Xt; θ) (8.11)<br />
t=1<br />
f (Yn| Y0, Xn; θ) = f (yn| Yn−1, Xn; θ) f (Yn−1| Y0, Xn; θ)<br />
<br />
(∗)<br />
f (Yn−1| Y0, Xn; θ) = f (yn−1| Yn−2, Xn; θ) f (Yn−2| Y0, Xn; θ)<br />
= f (yn−1| Yn−2, Xn−1; θ) f (Yn−2| Y0, Xn; θ)<br />
<br />
<br />
por hipótese<br />
304<br />
(∗)<br />
(8.12)<br />
(8.13)
Desenvolva-se a nova expressão (*):<br />
f (Yn−2| Y0, Xn; θ) = f (yn−2| Yn−3, Xn; θ) f (Yn−3| Y0, Xn; θ)<br />
= f (yn−2| Yn−3, Xn−2; θ) f (Yn−3| Y0, Xn; θ)<br />
<br />
<br />
por hipótese<br />
(∗)<br />
(8.14)<br />
A nova expressão (*) pode ser desenvolvida de forma similar. Coligindo as equações (8.12)-<br />
(8.14), obtém-se (8.11).<br />
A hipótese definida na proposição anterior, estabelece que yt não depende dos valores<br />
futuros xt+1, xt+2 dado It = Yt−1 ∪ Xt ou, por outras palavras, xt dado Xt−1 não depende<br />
de Yt−1 (ou ainda, y não causa à Granger x). Doravante assume-se esta hipótese.<br />
A função de verosimilhança (supondo que as condições iniciais Y0 são dadas) é<br />
Ln (θ) = f (Yn| Y0, Xn; θ) =<br />
n<br />
f (yt| It; θ) (8.15)<br />
onde It = Yt−1 ∪Xt (na prática, se a ordem máxima do desfasamento das variáveis definidas<br />
na média condicional for p, deverá ler-se no produtório, “t = p + 1” e não “t = 1”; para<br />
simplificar, continue a assumir-se “t = 1”).<br />
O estimador de máxima verosimilhança é, como habitualmente,<br />
ˆθn = arg max<br />
θ<br />
log Ln (θ) = arg max log<br />
θ<br />
n<br />
t=1<br />
t=1<br />
f (yt| It; θ) = arg max<br />
θ<br />
n<br />
log f (yt| It; θ) .<br />
Sob certas hipóteses, incluindo, {(yt, xt)} é um processo estacionário e fracamente depen-<br />
dente, o estimador de máxima verosimilhança é consistente e assimptoticamente eficiente.<br />
A sua distribuição é dada por<br />
√ <br />
n ˆθn<br />
d <br />
− θ0 −→ N 0, I (θ0) −1<br />
onde I (θ0) é a matriz de informação de Fisher. Verifica-se I (θ0) = A (θ0) = B (θ0) onde<br />
A (θ) = − E<br />
2 ∂ lt (θ)<br />
∂θ∂θ ′<br />
<br />
, B (θ) = E<br />
lt (θ) = log f (yt| It; θ) .<br />
305<br />
∂lt (θ)<br />
∂θ<br />
t=1<br />
∂lt (θ)<br />
∂θ ′
Sob certas condições, A e B podem ser estimados consistentemente por<br />
Ân = − 1<br />
n<br />
ˆBn = 1<br />
n<br />
t=1<br />
n<br />
∂ 2 lt<br />
∂θ<br />
<br />
ˆθn<br />
∂θ∂θ<br />
t=1<br />
′<br />
p<br />
−→ A (θ0)<br />
<br />
n ∂lt ˆθn ∂lt ˆθn<br />
p<br />
−→ B (θ0) .<br />
A aplicação do método da máxima verosimilhança exige (em princípio) o conhecimento<br />
da fdp condicional de yt dado It; ou seja, é necessário conhecer-se f (yt| It) . Num modelo<br />
de heterocedasticidade condicional do tipo yt = µ t + ut onde ut = σtεt, a fdp f resulta<br />
imediatamente da distribuição dos erros ε. Por exemplo, suponha-se εt<br />
e, portanto,<br />
ut| It = σtεt| It ∼ N 0, σ 2 t<br />
∂θ ′<br />
<br />
⇒ yt| It ∼ N µ t, σ 2 t .<br />
i.i.d<br />
∼ N (0, 1) . Logo,<br />
log f (yt| It; θ) = − 1 1<br />
log (2π) −<br />
2 2 log σ2 1<br />
t (θ) −<br />
2σ2 t (θ) (yt − µ t (θ)) 2 . (8.16)<br />
Implementação no programa EVIEWS<br />
Considere-se, a título de exemplo, o modelo<br />
yt = γ 0 + γ 1xt + φ 1yt−1 + ut<br />
ut = σtεt, εt ∼ N (0, 1)<br />
σ 2 t = ω + α1u 2 t−1 + α1u 2 t−2 + β 1σ 2 t−1 + δ0segt + δvolumet−1<br />
onde segt é uma variável dummy que assume 1 se t corresponde a uma segunda feira. Para<br />
estimar o modelo no EVIEWS, através do método da máxima verosimilhança, basta selec-<br />
cionar “estimate” e depois “ARCH"em method. Ver a figura 8-11.<br />
Escolhendo 1 em “Threshold order” poderia estimar-se o GJR-GARCH.<br />
Eficiência do Estimador de MV vs. Estimador OLS<br />
Considere-se o modelo de regressão linear<br />
yt = x ′ tβ + ut, ut = εtσt, εt<br />
306<br />
i.i.d<br />
∼ N (0, 1)
onde x ′ t =<br />
<br />
Figura 8-11: Estimação do GARCH no EVIEWS<br />
1 x1t · · · xkt<br />
<br />
. Como {ut} é não autocorrelacionado e marginalmente<br />
homocedástico resulta que o estimador OLS ˜ β n = (X ′ X) −1 X ′ y é BLUE (best linear unbi-<br />
ased estimator). Significa que é o melhor estimador? Não. O estimador de MV (não linear)<br />
para β, ˆβ n, é assimptoticamente mais eficiente. Pode-se provar que a matrix<br />
<br />
Var ˜βn − Var ˆβn<br />
é semidefinida positiva. Isto implica, em particular, que as variâncias dos estimadores OLS<br />
são maiores ou iguais às correspondentes variâncias dos estimadores de máxima verosimil-<br />
hança. Para confirmarmos esta ideia, simulou-se 1000 vezes o modelo<br />
yt = β 1 + β 2xt + ut, xt<br />
i.i.d<br />
∼ N (0, 1) , t = 1, ..., 1000<br />
β 1 = 10, β 2 = 5,<br />
ut = εtσt, εt<br />
i.i.d<br />
∼ N (0, 1)<br />
σ 2 t = 0.05 + 0.2u 2 t−1 + 0.75σ 2 t−1<br />
Em cada simulação estimaram-se os β 1 e β 2 pelo método OLS e pelo método da MV (us-<br />
ando este último método estimaram-se ainda os parâmetros da variância condicional). Os<br />
resultados estão presentes na tabela 8.1. Por exemplo, o erro quadrático médio do estimador<br />
307
β1 β2 (1) OLS (2) MV (1)/(2) (3) OLS (4) MV (3)/(4)<br />
Erro Quad.Médio 0.001 0.0006 1.667 0.0011 0.0006 1.833<br />
Tabela 8.1: Eficiência do Estimador OLS vs. Estimador de MV<br />
Figura 8-12: Distribuições do Estimadores OLS e de MV de β 2 (obtidas a partir de uma<br />
simulação Monte Carlo)<br />
OLS relativamente ao parâmetro β 1 é<br />
1<br />
1000<br />
1000<br />
i=1<br />
<br />
(i) 2<br />
˜β<br />
1 − 10<br />
e ˜ β (i)<br />
1 é a estimativa OLS para β 1 obtida na i-ésima simulação).<br />
A tabela 8.1 sugere que o estimador ML é substancialmente mais preciso do que o esti-<br />
mador OLS. Com base nas 1000 estimativas OLS e de MV do parâmetro β 2, apresenta-se na<br />
figura 8-12 as fdp estimadas (não parametricamente) dos estimadores OLS e de MV.<br />
A figura 8-12 confirma a tabela 8.1: o estimador de MV é mais eficiente do que o esti-<br />
mador OLS (i.e., é mais preciso ou apresenta menor variabilidade). A figura 8-12 também<br />
sugere que ambos os estimadores são asimptoticamente centrados.<br />
Prova-se (sob as condições usuais de regularidade) que o estimador de máxima verosim-<br />
ilhança apresenta as propriedades habituais, isto é, é consistente, assimptoticamente eficiente<br />
e tem distribuição assimptótica normal (como vimos). O estimador OLS é consistente para<br />
308
os parâmetros da média condicional mas, como vimos, não é assimptoticamente eficiente.<br />
8.9.2 Estimador de Pseudo Máxima Verosimilhança<br />
Na prática, a distribuição de εt não é conhecida. Podemos ainda assim supor, por exemplo,<br />
εt ∼ N (0, 1) ou εt ∼ t (n)? A resposta é afirmativa no seguinte sentido: mesmo que a<br />
verdadeira distribuição seja desconhecida, podemos ainda assim “trabalhar” com a hipótese<br />
εt ∼ N (0, 1) ou εt ∼ t (n) e obter, sob certas condições, estimadores consistentes. Seja<br />
yt = µ t (yt−1, yt−2, ..., xt, xt−1, ...; θ) + ut<br />
ut = σt (ut−1, ut−2, ...; θ) εt εt ∼ ?<br />
Suponhamos que a verdadeira mas desconhecida fdp condicional de ε é f. O estimador de<br />
máxima verosimilhança<br />
ˆθn = arg max<br />
θ<br />
n<br />
log f (yt| It; θ)<br />
t=1<br />
não pode ser implementado, pois a função f é desconhecida. O estimador de pseudo máxima<br />
verosimilhança usa como pseudo verdadeira fdp a função h (que na generalidade dos casos<br />
é diferente de f),<br />
ˆθ pmv<br />
n<br />
= arg max<br />
θ<br />
n<br />
log h (yt| xt, ...x1, yt−1, yt−2, ...y1; θ)<br />
t=1<br />
Sob certas condições, mesmo que h = f, o estimador de pseudo máxima verosimilhança<br />
apresenta boas propriedades. As condições são:<br />
• h pertence à família das densidades exponenciais quadráticas (a normal e a t-Student,<br />
entre muitas outras distribuições, pertencem a esta família);<br />
• yh (y| It) dy = µ t (a média condicional está bem especificada);<br />
• (y − µ t) 2 h (y| It) dy = σ 2 t (a variância condicional está bem especificada).<br />
Pode-se provar, sob estas condições:<br />
ˆθ pmv<br />
n<br />
p<br />
−→ θ0<br />
√ <br />
pmv<br />
n ˆθ d <br />
n − θ0 −→ N 0, A (θ0) −1 B (θ0) A (θ0) −1<br />
309
Se, por acaso, a função h é a própria função f, i.e., f = h, então o estimador de pseudo<br />
máxima verosimilhança é o estimador de máxima verosimilhança e, neste caso, tem-se<br />
A (θ0) = B (θ0) e, portanto, A (θ0) −1 B (θ0) A (θ0) −1 = A −1 (θ0) .<br />
Em suma, mesmo que a distribuição de εt não seja conhecida podemos supor, por exem-<br />
plo, εt ∼ N (0, 1) (ou εt ∼ D tal que a densidade h satisfaça as condições estabelecidas),<br />
porque ˆ θ pmv<br />
n<br />
é, ainda assim, um estimador consistente (embora não assimptoticamente efi-<br />
ciente) e tem distribuição assimptótica normal. O único cuidado adicional é tomar como<br />
matriz de variâncias-covariâncias (assimptótica) a expressão 9 A (θ0) −1 B (θ0) A (θ0) −1 e<br />
não I (θ0) −1 .<br />
8.9.3 Método da Máxima Verosimilhança com Distribuições Não Nor-<br />
mais<br />
No âmbito do método da máxima (ou da pseudo máxima) verosimilhança, normalmente<br />
assume-se εt ∼ N (0, 1). Contudo, verifica-se habitualmente que os resíduos estandardiza-<br />
dos, ˆε = ût/ˆσt apresentam um valor de kurtosis quase sempre acima do valor 3, i.e., kˆε > 3.<br />
Este resultado é, até certo ponto, inesperado. O que é habitual é ter-se kû > 3. Quando ût<br />
são ponderados por ˆσt seria natural esperar-se uma redução significativa do valor da kurtosis<br />
pois os valores muito altos e muito baixos de ût serão ponderados por valores altos de ˆσt.<br />
Embora ocorra uma redução do valor da estatística de kurtosis quando se passa de ût para<br />
ˆεt = ût/ˆσt, normalmente observa-se ainda kˆε > 3 (embora kˆε < kû). Assim, também a<br />
distribuição condicional ut| Ft−1 (e não só a marginal) é leptocúrtica.<br />
Já vimos uma forma de lidar com este problema: basta tomar o estimador de pseudo<br />
máxima verosimilhança. Uma alternativa consiste em formular uma distribuição leptocúrtica<br />
para εt tal que E (εt) = 0 e Var (εt) = 1. É importante assegurar E (εt) = 0 e Var (εt) = 1.<br />
Com efeito, suponha-se que Var (εt) = λ 2 = 1. Vem então Var (ut| Ft−1) = λ 2 σ 2 t e deix-<br />
amos de poder identificar a variância condicional como σ 2 t . Vejamos algumas distribuições<br />
habitualmente consideradas na literatura.<br />
Hipótese: εt ∼ t-Student(v)<br />
A implementação desta distribuição envolve uma (pequena) dificuldade: se X ∼ t-<br />
Student(v) então Var (X) = v/ (v − 2) . Mas deverá ter-se Var (εt) = 1 (pois só assim<br />
9 Esta opção no EVIEWS é dada por “heteroskedasticity consistent covariance (Bollerslev-Wooldrige)” no<br />
menu “options” da estimação.<br />
310
Var (ut| Ft−1) = σ 2 t - caso contrário ter-se-á Var (ut| Ft−1) = σ 2 t v/ (v − 2)). A solução é<br />
simples. Basta reparametrizar a variável:<br />
εt = X (v − 2) /v ⇒ Var (εt) = 1, kε = kx = 3 + 6<br />
v − 4<br />
Considere-se assim a distribuição t-Student T(0,1) (de média zero e variância 1):<br />
g (x) =<br />
1 Γ<br />
<br />
π (v − 2)<br />
<br />
v+1<br />
2<br />
Γ <br />
1 + v<br />
2<br />
x2<br />
v+1<br />
− 2<br />
.<br />
v − 2<br />
Para aplicar o método da máxima verosimilhança é necessário conhecer-se f (yt| It−1) .<br />
Pode-se provar 10<br />
f (yt| It) = 1<br />
<br />
yt − µ t<br />
g<br />
= 1<br />
σt<br />
σt<br />
σt<br />
1 Γ<br />
<br />
π (v − 2)<br />
<br />
v+1<br />
2<br />
Γ ⎛<br />
<br />
⎜<br />
v ⎝1 +<br />
2<br />
Assim, o estimador de máxima verosimilhança é ˆθn = arg maxθ<br />
v) onde<br />
lt (θ) = log f (yt| It) = log<br />
1 Γ<br />
<br />
2 σt π (v − 2)<br />
<br />
v+1<br />
2<br />
Γ ⎛<br />
<br />
⎜<br />
v ⎝1 +<br />
2<br />
= − 1<br />
2 log σ2t − 1 1<br />
log π − log (v − 2)<br />
2 2<br />
+ log Γ <br />
v+1<br />
2<br />
Γ <br />
v + 1<br />
− log 1 + v 2<br />
2<br />
1 (yt − µ t)<br />
v − 2<br />
2<br />
σ2 <br />
t<br />
Hipótese: εt ∼ GED (Generalized Error Distribution)<br />
2 yt−µt<br />
σt<br />
v − 2<br />
⎞<br />
⎟<br />
⎠<br />
− v+1<br />
2<br />
n<br />
t=1 lt (θ) , (θ inclui<br />
2 yt−µt<br />
σt<br />
v − 2<br />
⎞<br />
⎟<br />
⎠<br />
− v+1<br />
2<br />
<br />
10 x<br />
Seja g (x) a fdp de ε e G (x) = g (x) dx a respectiva função de distribuição. Qual é a fdp de<br />
−∞<br />
yt = µ t + σtεt condicionada a Ft−1, sabendo que (1) a fdp de εt é dada pela função g e (2) µ t e σt são<br />
conhecidos dado Ft−1 (ou It)? Trata-se de um problema clássico de mudança de variáveis. Comece-se por<br />
analisar a função de distribuição condicional<br />
P (yt ≤ y| Ft−1) = P (µ t + σtεt ≤ y| Ft−1) = P<br />
<br />
εt ≤ y − µ t<br />
σt<br />
<br />
<br />
<br />
Ft−1<br />
<br />
y − µt<br />
= G<br />
Logo, a fdp de yt condicionada a Ft−1 é, pelo teorema da derivada da função composta, dada pela expressão<br />
f (y| Ft−1) = dP (yt ≤ y| Ft−1)<br />
dy<br />
= G ′<br />
<br />
y−µt<br />
y − d<br />
<br />
µt σt y − µt 1<br />
= g<br />
y<br />
311<br />
σt<br />
σt<br />
σt<br />
.<br />
σt<br />
.
g(x)<br />
2.5<br />
2.0<br />
1.5<br />
1.0<br />
0.5<br />
3 2 1 0 1 2 3<br />
Figura 8-13: Distribuição GED no caso v = 1/2<br />
Diz-se que εt tem distribuição GED se a sua fdp é dada por<br />
g (εt) = v exp − 1<br />
<br />
εt <br />
2 λ<br />
v<br />
λ2 (1+1/v)Γ(1/v) , Γ função Gama, λ =<br />
x<br />
<br />
2 −2/v Γ (1/v)<br />
Γ (3/v)<br />
Pode-se provar E (εt) = 0 e V ar (εt) = 1. Se v = 2 ⇒ distribuição normal padronizada, se<br />
v < 2 ⇒ g é leptocúrtica. Na figura 8-13 traça-se a g com v = 1/2.<br />
Implementação no programa EVIEWS<br />
Considere-se, a título de exemplo, o modelo<br />
yt = γ 0 + γ 1xt + φ 1yt−1 + ut<br />
ut = σtεt, εt ∼ t (v)<br />
σ 2 t = ω + α1u 2 t−1 + α1u 2 t−2 + β 1σ 2 t−1 + δ0segt + δvolumet−1<br />
onde segt é uma variável dummy que assume 1 se t corresponde a uma segunda feira. Para<br />
estimar o modelo no EVIEWS, através do método da máxima verosimilhança, basta selec-<br />
cionar “Student’s t” em “Error distribution”. Ver a figura 8.9.3. O output fornece também<br />
uma estimativa para o número de graus de liberdade da distribuição t-Student. Esta estima-<br />
tiva é interessante pois fornece informação sobre o achatamento da distribuição condicional.<br />
8.10 Ensaios Estatísticos<br />
Há basicamente dois momentos de interesse na realização de ensaios estatísticos. Num<br />
primeiro momento, interessa verificar se existe evidência do efeito ARCH. Posteriormente,<br />
depois da estimação, haverá que analisar a adequabilidade do modelo estimado.<br />
312
8.10.1 Ensaios Pré-Estimação<br />
Teste ARCH (teste multiplicador de Lagrange)<br />
Considere-se<br />
yt = µ t + ut<br />
ut = σtε<br />
σ 2 t = ω + α1u 2 t−1 + ... + αqu 2 t−q.<br />
Existe efeito ARCH se pelo menos um parâmetro αi for diferente de zero. Se todos forem<br />
zero, não existe efeito ARCH. Pode-se provar, sob a hipótese H0: α1 = α2 = ... = αq = 0<br />
que<br />
nR 2 d<br />
−→ χ 2 (q)<br />
onde R 2 é o coeficiente de determinação da regressão de û 2 t sobre as variáveis<br />
<br />
1 û 2 t−1 ... û 2 t−q<br />
<br />
(8.17)<br />
(û é o resíduo supondo σ 2 t constante). Suponha-se que q é elevado e a hipótese nula é<br />
rejeitada. Então é conveniente considerar o GARCH. Na verdade, pode-se provar que o teste<br />
multiplicador de Lagrange do efeito GARCH baseia-se também na regressão de û 2 t sobre as<br />
variáveis û 2 t−i.<br />
313
Para a realização do teste os passos são:<br />
1. Estima-se o modelo yt = µ t + ut supondo σ 2 t constante;<br />
2. obtêm-se os resíduos ût = yt − ˆµ t, t = 1, ..., n; (resíduos OLS, depois da regressão<br />
OLS de y sobre as variáveis explicativas, ou resíduos ARMA);<br />
3. regressão OLS de û 2 t sobre as variáveis definidas em (8.17);<br />
4. obtenção de R 2 da equação anterior e cálculo do valor-p<br />
FAC de û 2 t<br />
P χ 2 (q) ≥ nR 2 .<br />
Como se viu, a existência de um processo GARCH implica a correlação das variáveis u 2 t<br />
e u2 t−k . O teste Ljung-Box é assimptoticamente equivalente ao teste ARCH. A sua hipótese<br />
nula é H0: ρ 1 (û 2 t ) = ... = ρ m (û 2 t ) = 0, sendo ρ i (û 2 t ) o coeficiente de autocorrelação entre<br />
û 2 t e û 2 t−i. Sob H0 tem-se<br />
Q = n (n + 2)<br />
m<br />
i=1<br />
1<br />
n − i ˆρ2<br />
2 d 2<br />
i ût −→ χ(m−k) onde k é o número de parâmetros estimados menos o termo constante. Evidência contra a<br />
hipótese nula sugere a existência de um efeito ARCH.<br />
Implementação no programa EVIEWS<br />
O programa EVIEWS fornece o valor-p do teste multiplicador de Lagrange. Para obter<br />
esse valor é necessário estimar primeiro o modelo sem efeito ARCH. No exemplo a seguir<br />
(figura 8-14) considerou-se<br />
yt = c + θut−1 + ut.<br />
onde y são os retornos do PSI20 (Jan 93 a Out 04). O modelo foi estimado através da in-<br />
strução y c ma(1). Uma vez estimado o modelo, o programa EVIEWS oferece a opção<br />
“ARCH LM test...” em “view”-“Residual Tests”. A figura 8-14 mostra que o valor-p é zero,<br />
pelo que existe forte evidência contra a hipótese nula; por outras palavras, existe forte ev-<br />
idência da presença de efeito ARCH. O teste Ljung-Box (ver a figura 8-15) corrobora as<br />
conclusões do teste ARCH.<br />
314
ARCH Test:<br />
Fstatistic 23.58130 Probability 0.000000<br />
Obs*Rsquared 218.9822 Probability 0.000000<br />
Test Equation:<br />
Dependent Variable: RESID^2<br />
Method: Least Squares<br />
Included observations: 2925 after adjustments<br />
Variable Coefficient Std. Error tStatistic Prob.<br />
C 5.64E05 8.24E06 6.840992 0.0000<br />
RESID^2(1) 0.183900 0.018517 9.931537 0.0000<br />
RESID^2(2) 0.058698 0.018824 3.118322 0.0018<br />
RESID^2(3) 0.019230 0.018745 1.025890 0.3050<br />
RESID^2(4) 0.040301 0.018739 2.150692 0.0316<br />
RESID^2(5) 0.004380 0.018741 0.233690 0.8152<br />
RESID^2(6) 0.036872 0.018741 1.967414 0.0492<br />
RESID^2(7) 0.032363 0.018739 1.727034 0.0843<br />
RESID^2(8) 0.109910 0.018745 5.863338 0.0000<br />
RESID^2(9) 0.020103 0.018824 1.067965 0.2856<br />
RESID^2(10) 0.029723 0.018517 1.605224 0.1086<br />
Rsquared 0.074866 Mean dependent var 0.000112<br />
Adjusted Rsquared 0.071691 S.D. dependent var 0.000391<br />
S.E. of regression 0.000376 Akaike info criterion 12.92829<br />
Sum squared resid 0.000413 Schwarz criterion 12.90579<br />
Log likelihood 18918.62 Fstatistic 23.58130<br />
DurbinWatson stat 1.999284 Prob(Fstatistic) 0.000000<br />
Figura 8-14: Output do EVIEWS associado ao teste multiplicador de Lagrange H0: α1 =<br />
α2 = ... = α10 = 0 (o p-value está destacado)<br />
Figura 8-15: FAC de û 2 t (e valores-p da estatística Ljung-Box)<br />
315
Existem muitos outros testes para ensaiar efeitos e modelos específicos (ver por exemplo,<br />
Franses e van Dijk, 2000). Estes testes têm como objectivo sugerir a especificação da estru-<br />
tura de σ 2 t e, portanto, são realizados antes da fase da estimação (final) do modelo. Como<br />
alternativa, podemos discutir esses efeitos específicos (por exemplo, efeito assimétrico) na<br />
fase da estimação, a partir dos ensaios habituais de significância e dos critérios SC e AIC.<br />
Por exemplo, suponha-se que se pretende ensaiar a presença do efeito assimétrico. Em<br />
alternativa aos testes apresentados em Franses e van Dijk (2000), pode-se ensaiar a hipótese<br />
γ 1 = 0 (já na fase da estimação) no contexto do modelo<br />
σ 2 t = ω + α1u 2 t−1 + β1σ 2 t−1 + γ1u 2 ⎧<br />
⎨ 1 se ut−1 < 0<br />
t−1I{ut−1
k = 5 e H0: θ4 + 2θ5 = 3 tem-se q = 1 e<br />
⎛<br />
⎜<br />
<br />
⎜<br />
θ4 + 2θ5 = 3 ⇔ 0 0 0 1 2 ⎜<br />
⎜<br />
R ⎜<br />
⎝<br />
θ1<br />
θ2<br />
θ3<br />
θ4<br />
θ5<br />
⎞<br />
<br />
θ<br />
⎟ = 3<br />
⎟<br />
⎠<br />
<br />
r<br />
Para obter a estatística de teste associada a H0: Rθ0 = r considera-se, a partir de (8.18),<br />
e, consequentemente 11 ,<br />
√ <br />
n Rˆ <br />
d<br />
θn − r −→ N (0, RV0R ′ )<br />
<br />
n Rˆ ′<br />
θn − r (RV0R ′ <br />
−1<br />
) Rˆ <br />
d 2<br />
θn − r −→ χ(q). (8.19)<br />
O programa EVIEWS permite aplicar de forma muito fácil o teste de Wald. No exemplo<br />
anterior, e depois de estimado o modelo GARCH, bastaria seleccionar “view”-“coefficient<br />
tests”-“Wald” e depois escrever “c(4)+2*c(5)=3”. É possível também ensaiar relações não<br />
lineares entre os parâmetros, como por exemplo, “c(4)^2+c(5)^2=1”. 12<br />
Testes individuais (por exemplo, do tipo H0: θ2 = 0) baseiam-se na relação<br />
ˆθn<br />
a<br />
∼ N<br />
<br />
θ0, ˆV0<br />
n<br />
devido a (8.18) (para n finito mas suficientemente alto, ˆθn tem distribuição aproximadamente<br />
igual a N (θ0, V0/n)). Assim, para ensaiar, por exemplo, H0: θ2 = 0 considera-se o rácio-t<br />
tˆ θn,2 =<br />
se<br />
ˆθn,2 <br />
ˆθn,2<br />
<br />
com distribuição N (0, 1) onde se ˆθn,2 é o erro padrão de ˆθn,2 (é a raiz quadrada do ele-<br />
11 Note-se que se X é um vector aleatório dimensão q × 1 com distribuição N (µ, Σ) , então<br />
(x − µ) ′ Σ −1 (x − µ) ∼ χ 2 (q) .<br />
12 Neste caso não linear seria necessário adaptar a estatística de teste (8.19). Observe-se que Rθ0 expressa<br />
uma relação linear.<br />
317<br />
<br />
<br />
.
mento (2,2) da matriz ˆV0/n). O programa EVIEWS fornece automaticamente os rácios-t.<br />
Testes de Diagnóstico<br />
O modelo em análise é<br />
yt = µ t + ut, ut = σtεt.<br />
e as hipóteses são E (εt) = 0, Var (εt) = 1 (verificam-se sempre, por construção), {εt} é um<br />
processo diferença de martingala ou ruído branco e {εt} é um processo homocedástico.<br />
Nestas circunstância, se o modelo está bem especificado, deve ter-se: {εt} deve ser não<br />
autocorrelacionado e {εt} deve ser condicionalmente homocedástico.<br />
Assim, se<br />
(a) y é, por exemplo, um ARMA e a média condicional não captar esta estrutura, os proces-<br />
sos {ut} e {εt} exibirão autocorrelação;<br />
(b) de igual forma, se y segue um GARCH e a variância condicional não captar esta estrutura<br />
ε 2 t = u 2 t /σ 2 t exibirá autocorrelação;<br />
(c) finalmente, se ε segue uma distribuição leptocúrtica então kˆε > 3.<br />
Para analisar (a) e (b), devemos:<br />
1. estimar um modelo ARMAX+GARCH;<br />
2. obter os resíduos ût;<br />
3. obter os resíduos estandardizados ˆεt = ût/ˆσt;<br />
4. (Análise da questão (a)). Efectuar o teste Ljung-Box tomando como hipótese nula,<br />
H0: ρ 1 (ˆεt) = ... = ρ m (ˆεt) = 0 (ρ i (ˆεt) é o coeficiente de autocorrelação entre ˆεt e<br />
ˆεt−i) e estatística de teste<br />
Q = n (n + 2)<br />
m<br />
i=1<br />
1<br />
n − i ˆρ2<br />
d<br />
i (ˆεt) −→ χ 2 (m−k)<br />
onde k é o número de parâmetros AR e MA estimados. Evidência contra a hipótese<br />
nula sugere que ˆεt é autocorrelacionado. Neste caso é necessário rever a especificação<br />
da média condicional.<br />
318
5. (Análise da questão (b)). Efectuar o teste Ljung-Box tomando como hipótese nula,<br />
2<br />
2<br />
2<br />
2<br />
H0: ρ1 ˆε t = ... = ρm ˆε t = 0 (ρi ˆε t é o coeficiente de autocorrelação entre ˆε t e<br />
ˆε 2<br />
t−i) e estatística de teste<br />
Q = n (n + 2)<br />
m<br />
i=1<br />
1<br />
n − i ˆρ2 i<br />
2 d 2<br />
ˆε t −→ χ(m−k) onde k é o número de parâmetros estimados (McLeod e Li, 1983, sugere que k pode<br />
ser apenas o número de parâmetros dinâmicos estimados na variância condicional; por<br />
exemplo, 2 no GARCH(1,1)). Evidência contra a hipótese nula sugere que ˆε 2<br />
t é auto-<br />
correlacionado. Neste caso é necessário rever a especificação da variância condicional.<br />
Taylor (2005), p. 258, aponta outros procedimentos alternativos.<br />
Teste Alternativo<br />
Uma forma alternativa de analisar a questão (b) atrás referida consiste em verificar a<br />
presença de efeitos ARCH remanescentes através da especificação (Franses e van Dijk, 2000,<br />
e Lundbergh e Teräsvirta, 2002):<br />
yt = µ t + ut<br />
ut = σtεt<br />
εt = et<br />
<br />
1 + π1ε 2 t−1 + ... + πmε 2 t−m<br />
Sob H0: π1 = π2 = ... = πm = 0 (não existem efeitos ARCH remanescentes), tem-se<br />
nR 2 d<br />
−→ χ 2 (m)<br />
onde R 2 é o coeficiente de determinação da regressão de ˆε 2<br />
t sobre as variáveis<br />
onde<br />
<br />
1 ˆε 2<br />
t−1 ... ˆε 2<br />
t−m ˆxt<br />
ˆxt = 1<br />
ˆσt<br />
e η ′ é o vector de parâmetros especificados em σ 2 t . Calcule-se ∂σ2 t<br />
∂η ′ no caso σ 2 t = ω+α1u 2 t−1+<br />
319<br />
∂ˆσ 2<br />
t<br />
∂η ′
β 1σ 2 t−1. Tem-se<br />
Suponha-se ∂σ2 0<br />
∂ω<br />
∂σ2 t<br />
=<br />
∂η ′<br />
= 0. Vem<br />
<br />
∂<br />
∂σ 2 t<br />
ω α1 β 1<br />
=<br />
∂σ 2 t<br />
∂ω<br />
∂σ 2 t<br />
∂α1<br />
∂σ 2 t<br />
∂β 1<br />
∂σ2 t<br />
∂ω = 1 + β ∂σ<br />
1<br />
2 t−1<br />
∂ω = 1 + β <br />
∂σ<br />
1 1 + β1 2 <br />
t−2<br />
= ... =<br />
∂ω<br />
= 1 + β1 + β 2<br />
1 + ... + β t−1<br />
1 =<br />
Deixa-se como exercício verificar que<br />
∂σ2 <br />
t<br />
t<br />
=<br />
∂η ′ i=1 βi−1 1<br />
t<br />
i=1<br />
t<br />
i=1 βi−1<br />
1 û 2 t−i<br />
<br />
.<br />
β i−1<br />
1 = 1 t<br />
β1 − 1<br />
β1 − 1<br />
.<br />
t i=1 βi−1 1 ˆσ 2<br />
t−i<br />
Nota: O programa EVIEWS “esquece o vector ˆxt”. Como consequência, o valor da<br />
estatística nR 2 apurado no EVIEWS depois da estimação ARCH/GARCH está subestimado<br />
e, assim, a probabilidade P (rejeitar H0| H1 é verdadeira) vem baixa. Tenderemos a concluir<br />
quase sempre que o modelo está bem especificado, mesmo nos casos em que ainda existem<br />
efeitos ARCH remanescentes. No EVIEWS, é bem mais simples considerar o teste Ljung-<br />
Box (aplicado a ˆε 2<br />
t ).<br />
8.11 Previsão<br />
A previsão no contexto do modelo ARCH/GARCH envolve habitualmente a previsão de yt<br />
e de σ 2 t . Todavia, em várias aplicações, como por exemplo, estimação do risco de mercado,<br />
construção de portfolios dinâmicos, valorização de opções, etc., a previsão da volatilidade é<br />
mais importante do que a previsão de yt.<br />
Vamos analisar a previsão de yt e de σ 2 t e estabelecer os respectivos intervalos de con-<br />
fiança (ICs) ou de previsão. Concretamente, temos um modelo do tipo ARMA+GARCH,<br />
baseado em n observações, {y1, y2, ..., yn} e procura-se,<br />
• prever yn+1, yn+2, ...;<br />
• estabelecer ICs para yn+1, yn+2, ...;<br />
320<br />
<br />
.
• prever σ 2 n+1, σ 2 n+2, ...;<br />
• estabelecer ICs para σ 2 n+1, σ 2 n+2, ...;<br />
8.11.1 Previsão da Variância Condicional<br />
Vimos que o previsor com EQM mínimo para yn+h (dada a informação em Fn) é E (yn+h| Fn) .<br />
De igual forma, o previsor com EQM mínimo para σ 2 n+h (dada a informação em Fn) é (nat-<br />
uralmente)<br />
E σ 2 n+h<br />
Note-se que E u2 <br />
<br />
n+h Fn = E σ2 n+hε2 <br />
<br />
n+h Fn = E σ2 <br />
<br />
n+h Fn . Para facilitar a notação<br />
considere-se σ2 n+h,n := E σ2 <br />
<br />
n+h Fn . Vejam-se os exemplos seguintes.<br />
Modelo ARCH(1) σ 2 t = ω + α1u 2 t−1<br />
Previsão a um passo h = 1<br />
Como σ 2 n+1 = ω + α1u 2 n tem-se<br />
σ 2 n+1,n = E ω + α1u 2 n<br />
<br />
Fn<br />
<br />
.<br />
Fn<br />
= ω + α1u 2 n<br />
(na prática, como σ 2 n+1,n é desconhecido deve considerar-se ˆσ 2<br />
n+1,n = ˆω + ˆα1û 2 n).<br />
Previsão a dois passos h = 2<br />
Como σ 2 n+2 = ω + α1u 2 n+1 tem-se<br />
σ 2 n+2,n = E ω + α1u 2 n+1<br />
<br />
<br />
Fn<br />
= ω + α1 E u 2 <br />
n+1 Fn<br />
= ω + α1 E σ 2 <br />
n+1 Fn<br />
= ω + α1σ 2 n+1,n<br />
Podemos ainda escrever σ 2 n+2,n como função do valor u 2 n. Basta substituir na expressão an-<br />
terior, σ 2 n+1,n por ω + α1u 2 n. Vem<br />
σ 2 n+2,n = ω + α1σ 2 n+1,n<br />
<br />
= ω + α1 ω + α1u 2 n<br />
= ω (1 + α) + α1u 2 n<br />
321
Previsão a h passos<br />
σ 2 n+h,n = E ω + α1u 2 n+h−1<br />
<br />
<br />
Fn<br />
= ω + α1 E u 2 <br />
n+h−1 Fn<br />
= ω + α1 E σ 2 <br />
n+h−1 Fn<br />
= ω + α1σ 2 n+h−1,n.<br />
Tal como anteriormente, podemos escrever σ 2 n+h,n como função de u2 n. Pode-se provar que<br />
Se 0 ≤ α1 < 1, conclui-se<br />
σ 2 n+h,n = ω + α1σ 2 n+h−1,n = ω 1 − αh 1<br />
1 − α1<br />
σ 2 n+h,n → ω<br />
1 − α1<br />
<br />
<br />
<br />
<br />
+ α h 1u 2 n<br />
= Var (ut) (quando h → ∞).<br />
O caso α1 = 1 é analisado adiante, no contexto do GARCH.<br />
Modelo GARCH(1,1) σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1<br />
Previsão a um passo h = 1<br />
Como σ 2 n+1 = ω + α1u 2 n +β 1σ 2 n tem-se<br />
σ 2 n+1,n = E ω + α1u 2 n + β 1σ 2 n<br />
<br />
Fn<br />
= ω + α1u 2 n + β 1σ 2 n<br />
(na prática, como σ 2 n+1,n é desconhecido deve considerar-se ˆσ 2<br />
n+1,n = ˆω + ˆα1û 2 n + β 1ˆσ 2<br />
n).<br />
Previsão a dois passos h = 2<br />
Como σ 2 n+2 = ω + α1u 2 n+1 +β 1σ 2 n+1 tem-se<br />
σ 2 n+2,n = E ω + α1u 2 n+1 + β1σ 2 <br />
<br />
n+1 Fn<br />
= ω + α1 E u 2 <br />
<br />
n+1 Fn + β1 E σ 2 <br />
n+1<br />
= ω + (α1 + β 1) σ 2 n+1,n<br />
322<br />
Fn
Previsão a h passos<br />
σ 2 n+h,n = E ω + α1u 2 n+h−1 + β1σ 2 <br />
<br />
n+h−1 Fn<br />
= ω + α1 E u 2 <br />
<br />
n+h−1 Fn + β1 E σ 2 <br />
n+h−1<br />
= ω + (α1 + β 1) σ 2 n+h−1,n<br />
Fn<br />
Um pouco à semelhança do que fizemos para a previsão no ARCH, a expressão<br />
σ 2 n+h,n = ω + (α1 + β 1) σ 2 n+h−1,n<br />
<br />
(8.20)<br />
pode ser reescrita, como função de u 2 n e σ 2 n. Pode-se provar que a solução da equação (8.20),<br />
sob a condição 0 ≤ α1 + β 1 < 1 (e dada a condição inicial σ 2 n+1,n = ω + α1u 2 n + β 1σ 2 n) é<br />
σ 2 n+h,n =<br />
<br />
ω 1 − (α1 + β1) h<br />
1 − α1 − β 1<br />
Assim, no caso α1 + β 1 < 1, tem-se<br />
σ 2 n+h,n →<br />
ω<br />
1 − α1 − β 1<br />
No caso α1 + β 1 = 1 (IGARCH(1,1)) vem<br />
e, portanto,<br />
σ 2 n+2,n = ω + σ 2 n+1,n<br />
+ (α1 + β1) h−1 α1u 2 n + β1σ 2 n .<br />
= Var (ut) (quando h → ∞).<br />
σ 2 n+3,n = ω + σ 2 n+2,n = ω + ω + σ 2 2<br />
n+1,n = 2ω + σn+1,n ...<br />
σ 2 n+h,n = (h − 1) ω + σ 2 n+1,n<br />
σ 2 n+h,n = σ 2 n+1,n, se ω = 0<br />
σ 2 n+h,n → ∞, se ω > 0 (quando h → ∞).<br />
Para além da estimação pontual de σ2 n+h,n , há interesse também em estabelecer ICs. Esta<br />
questão é tratada no ponto 8.11.3.<br />
323
8.11.2 A Previsão da Variável Dependente y<br />
Qualquer que seja o modelo para y, o previsor de yn+h com EQM mínimo, baseia-se, como<br />
vimos, no valor esperado condicionado de y. Assim, a previsão pontual de yn+h não envolve<br />
qualquer novidade face ao que foi já exposto no ponto 6.6. Todavia, a estimação por inter-<br />
valos deve agora reflectir a presença de heterocedasticidade condicional. Seja (l1, l2) o IC a<br />
(1 − α) 100% associado a yn+h, i.e, l1 e l2 são tais que<br />
P (l1 < yn+h < l2| Fn) = 1 − α ⇔<br />
<br />
l1 − E (yn+h| Fn)<br />
P <br />
Var (yn+h| Fn) < yn+1 − E (yn+h| Fn)<br />
<br />
Var (yn+h| Fn) < l2<br />
<br />
− E (yn+h| Fn)<br />
<br />
<br />
<br />
Var (yn+h| Fn)<br />
Fn<br />
<br />
= 1 − α.<br />
Seja Zn+h = (yn+h − E (yn+h| Fn)) / Var (yn+h| Fn) e q1−α/2 o quantil de ordem 1 − α/2<br />
da distribuição da v.a. Zn+h| Fn. Como também se tem<br />
P <br />
−q1−α/2 < Zn+h < q1−α/2<br />
Fn = 1 − α<br />
(supondo que a distribuição de Z| Fn é simétrica) conclui-se<br />
l1 − E (yn+h| Fn)<br />
<br />
Var (yn+h| Fn) = −q1−α/2 e l2 − E (yn+h| Fn)<br />
<br />
Var (yn+h| Fn)<br />
Resolvendo estas igualdades em ordem a l1 e a l2,<br />
l1 = E (yn+h| Fn)−q1−α/2<br />
= q1−α/2.<br />
<br />
Var (yn+h| Fn), l2 = E (yn+h| Fn)+q1−α/2 Var (yn+h| Fn)<br />
obtém-se o seguinte IC 13 a (1 − α) 100% para yn+h:<br />
<br />
E (yn+h| Fn) ± q1−α/2 Var (yn+h| Fn)<br />
13Note-se que Var (yn+h| Fn) = Var (en (h)| Fn) onde en (h) = yn+h−E (yn+h| Fn) é o erro de previsão<br />
a h passos. Assim, o IC (1 − α) 100% pode ser também apresentado da seguinte forma:<br />
<br />
E (yn+h| Fn) ± q1−α/2 Var (en (h)| Fn).<br />
324
Por exemplo, assuma-se que yn+h| Fn tem distribuição N (E (yn+h| Fn) , Var (yn+h| Fn))<br />
e, portanto, Zn+h| Fn ∼ N (0, 1). Nestas condições, o IC a 95% para yn+h é<br />
E (yn+h| Fn) ± 1.96 Var (yn+h| Fn).<br />
Infelizmente esta expressão só está correcta para h = 1. O problema é o de que yn+h| Fn<br />
para h > 1 não tem geralmente distribuição normal na presença de efeitos ARCH/GARCH,<br />
mesmo que as inovações εt sejam Gaussianas e, portanto, mesmo que yn+1| Fn tenha dis-<br />
tribuição normal. No ponto 8.11.3 apresentamos um procedimento de bootstrap que permite<br />
obter IC correctos para yn+h, com h ≥ 1.<br />
Outro caso de interesse é o da previsão de longo prazo. Se o processo é ESO (e ergódico),<br />
a previsão de yt e de σ 2 t no longo prazo, i.e. quando t → ∞ é, respectivamente, E (y) =<br />
limh→∞ E (yn+h| Fn) e Var (y) = limh→∞ Var (yn+h| Fn) (tratam-se afinal dos momentos<br />
marginais da distribuição de y). O IC a (1 − α) 100% para a previsão de longo prazo de y é,<br />
desta forma,<br />
E (y) ± ζ 1−α/2<br />
Var (y)<br />
onde ζ 1−α/2 é o quantil de ordem 1 − α/2 da distribuição marginal de y. Este quantil pode<br />
ser estimado a partir da distribuição empírica da sucessão de valores observados {y1, ..., yn} .<br />
Analise-se nesta secção apenas a previsão a um passo e deixe-se o caso da previsão a<br />
h > 1 passos para o ponto 8.11.3<br />
Exemplo 8.11.1 Considere-se o modelo AR(1)+GARCH(1,1)<br />
yt = c + φyt−1 + ut,<br />
σ 2 t = ω + α1u 2 t−1 + β 1σ 2 t−1.<br />
Se ut| Ft−1 ∼ N (0, σ 2 t ) então um IC a 95% para yn+1 é E (yn+h| Fn)±1.96 Var (yn+h| Fn)<br />
ou seja<br />
Modelo de Regressão<br />
Considere-se o modelo de regressão<br />
c + φyn ± 1.96 ω + α1u 2 n + β 1σ 2 n.<br />
yt = x ′ tβ + ut<br />
325
onde x ′ t é um vector linha de dimensão k e β vector coluna de dimensão k. Supomos que u e<br />
X são independentes e ainda que ut| Ft−1 ∼ N (0, σ 2 t ) . O previsor de yn+1 de EQM mínimo<br />
é<br />
E (yn+1| Fn, xn+1) = x ′ n+1β<br />
Por que razão o valor esperado é condicionado também a xn+1? A razão é a seguinte: a<br />
previsão de y no momento n + 1 depende de xn+1, e, portanto, xn+1 tem de ser conhecido.<br />
Na prática, só em casos muito especiais se conhece xn+1 no momento n (mesmo assim,<br />
podemos estar interessados em prever yn+1 admitindo um dado cenário ou hipótese para<br />
xn+1).<br />
Assim, um IC para yn+1 a 95% é<br />
x ′ n+1β ± 1.96 Var (yn+1| Fn) ⇔ x ′ n+1β ± 1.96σn+1,n.<br />
Analise-se agora uma questão que é normalmente descurada no âmbito das séries tempo-<br />
rais (mas não na área da econometria). O intervalo de previsão acima estabelecido assume<br />
que β é conhecido. Ao substituirmos β pela respectiva estimativa, introduz-se uma nova<br />
fonte de variabilidade, que deve ser incorporada no intervalo de previsão. Para se ter em<br />
conta a variabilidade de ˆβ, é necessário obter a distribuição da variável yn+1 − x ′ n+1 ˆβ. A<br />
representação<br />
yn+1 − x ′ n+1 ˆ β = x ′ n+1β + un+1 − x ′ n+1 ˆ β = un+1 + x ′ n+1<br />
<br />
β − ˆ <br />
β = en (1)<br />
permite concluir que yn+1 −x ′ n+1 ˆ β tem distribuição normal de média E (en (1)| Fn, xn+1) =<br />
0 e variância<br />
<br />
Var (en (1)| Fn, X) = Var x ′ <br />
n+1 β − ˆ <br />
<br />
β + un+1<br />
Fn, xn+1<br />
= x ′ <br />
n+1 Var β − ˆ <br />
<br />
β Fn, xn+1 xn+1 + E u 2 <br />
<br />
n+1 Fn, xn+1<br />
= x ′ <br />
n+1 Var ˆβ<br />
xn+1 + σ 2 n+1,n<br />
(assumindo-se E (un+1| X) = 0). Considerando (1 − α) 100% = 95% tem-se<br />
P (l1 < yn+h < l2| Fn) = 0.95 ⇔<br />
<br />
l1 − x<br />
P<br />
′ n+1 ˆ β<br />
<br />
Var (en (1)| Fn, xn+1) <<br />
yn+1 − x ′ n+1 ˆ β<br />
<br />
Var (en (1)| Fn, xn+1) <<br />
l2 − x ′ n+1 ˆ <br />
β<br />
<br />
<br />
<br />
Var (en (1)| Fn, xn+1)<br />
326<br />
Fn<br />
<br />
= 0.95.
Obtém-se assim o seguinte IC a 95% para yn+1:<br />
x ′ n+1 ˆ β ± 1.96<br />
<br />
x ′ n+1 Var<br />
<br />
ˆβ xn+1 + σ2 n+1,n. (8.21)<br />
Para amostra grandes podemos continuar a usar a aproximação x ′ n+1 ˆβ ± 1.96ˆσn dado que<br />
x ′ <br />
n+1 Var ˆβ xn+1 é aproximadamente proporcional a 1/n e, portanto, tende para zero as-<br />
simptoticamente (por outras palavras, é uma quantidade “pequena” quando comparada com<br />
σ 2 n+1,n).<br />
8.11.3 Intervalos de Confiança para y e para a Volatilidade baseados<br />
em Boostrap<br />
Vimos até agora as seguintes questões:<br />
• intervalos de confiança para yn+1;<br />
• previsão de σ 2 t para os períodos n + 1, n + 2, ...;<br />
Estas questões são relativamente simples tratar. Já a obtenção de intervalos de confiança<br />
para yn+h, h > 1 e para σ2 n+h , h ≥ 1 é problemática, pois não são conhecidas as distribuições<br />
de interesse. Estas questões resolvem-se de forma muito satisfatória recorrendo ao bootstrap.<br />
Para exemplificar considere-se o modelo<br />
⎧<br />
⎪⎨<br />
⎪⎩<br />
yt = c + φyt−1 + ut<br />
ut = σtεt<br />
σ 2 t = ω + αu 2 t−1 + βσ 2 t−1.<br />
(8.22)<br />
onde ε tem distribuição desconhecida de média nula e variância um. O algoritmo é o<br />
seguinte:<br />
1. Estimar o modelo (8.22) e obter<br />
{ˆεt, t = 1, ..., n} , onde ˆεt = ût<br />
ˆσt<br />
ˆσ 2 ˆω<br />
=<br />
1 − ˆα − ˆ ĉ<br />
, ˆµ =<br />
β 1 − ˆ φ<br />
<br />
ˆθ = ĉ, ˆ φ, ˆω, ˆα, ˆ ′<br />
β<br />
327
2. Simular o modelo ⎧⎪ ⎨<br />
⎪⎩<br />
y ∗ t = ĉ + ˆ φy ∗ t−1 + u ∗ t<br />
u ∗ t = σ ∗ t ε ∗ t<br />
σ ∗2<br />
t = ˆω + ˆαu ∗2<br />
t−1 + ˆ βσ ∗2<br />
t−1<br />
(8.23)<br />
com os seguintes valores iniciais: σ ∗2<br />
0 = ˆσ 2 e y ∗ 0 = ˆµ. Os valores de ε ∗ t são retirados<br />
aleatoriamente com reposição do conjunto {ˆε1, ..., ˆεn} .<br />
3. Estimar o modelo (8.23) e obter as seguintes previsões:<br />
⎧<br />
⎨<br />
⎩<br />
y∗ n+h = ĉ∗ + ˆ φ ∗<br />
y∗ n+h−1<br />
ˆσ ∗2<br />
n+h = ˆω ∗ + ˆα ∗ u∗2 n+h−1 + ˆ β ∗<br />
ˆσ ∗2<br />
n+h−1<br />
Note-se que ˆ θ ∗<br />
<br />
= ĉ∗ , ˆ φ ∗<br />
, ˆω ∗ , ˆα ∗ , ˆ β ∗ ′<br />
é o vector das estimativas obtidas no contexto<br />
do modelo simulado (8.23).<br />
4. Repetir os passos 2 e 3 B vezes. Com este procedimento obtêm-se as seguintes séries:<br />
<br />
<br />
y ∗(1)<br />
n+j , y∗(2) n+j , ..., y∗(B) n+j<br />
∗2 (1)<br />
ˆσ<br />
∗2 (2)<br />
n+j , ˆσ n+j , ..., ˆσ<br />
<br />
, j = 1, ..., h,<br />
<br />
, j = 1, ..., h.<br />
∗2 (B)<br />
n+j<br />
5. Um intervalo de previsão a (1 − α) 100% para yn+j é<br />
onde q α<br />
2<br />
e q1− α<br />
2<br />
q α<br />
2<br />
<br />
, q1−<br />
α<br />
2<br />
<br />
são os quantis empíricos da amostra<br />
6. Um intervalo de previsão a (1 − α) 100% para σ 2 n+j é<br />
onde agora q α<br />
2<br />
e q1− α<br />
2<br />
q α<br />
2<br />
<br />
, q1−<br />
α<br />
2<br />
y ∗(1)<br />
n+j<br />
<br />
são os quantis empíricos da amostra<br />
, y∗(2) n+j , ..., y∗(B) n+j<br />
∗2 (1)<br />
ˆσ<br />
∗2 (2)<br />
<br />
.<br />
n+j , ˆσ n+j , ..., ˆσ<br />
∗2 (B)<br />
n+j<br />
Com o passo 3 incorpora-se a variabilidade do estimador de ˆ θ na construção dos ICs (esta<br />
ideia é idêntica à que conduz a considerar o valor x ′ <br />
n+1 Var ˆβ xn+1 na expressão 8.21).<br />
Para mais pormenores veja-se Pascuala et al. (2006).<br />
328<br />
<br />
.
8.12 Problema dos Erros de Especificação na Média Condi-<br />
cional<br />
Considere o modelo<br />
yt = µ t + ut, E u 2 t Ft−1<br />
<br />
= σ 2 constante<br />
Em aplicações desconhece-se a verdadeira função µ t. Suponha-se que se propõe (errada-<br />
mente) para a média condicional a especificação mt = µ t. Ou seja propõe-se<br />
yt = mt + vt,<br />
onde vt é tomada como a v.a. residual. Nestas condições pode existir um efeito ARCH<br />
espúrio.<br />
Para exemplificar, suponha-se que o verdadeiro processo é<br />
yt = c + φyt−1 + ut, ut RB Gaussiano N 0, σ 2<br />
Por erro de especificação supõe-se mt = c. Nestas condições existe um efeito ARCH es-<br />
púrio. O modelo considerado (erradamente) é<br />
onde vt é tomada como a v.a. residual. Ora<br />
yt = c + vt, vt = φyt−1 + ut<br />
v 2 t = (φyt−1 + ut) 2 = φ 2 y 2 t−1 + u 2 t + 2φyt−1ut<br />
= φ 2 (c + vt−1) 2 + u 2 t + 2φyt−1ut<br />
= φ 2 c 2 + φ 2 2cvt−1 + φ 2 v 2 t−1 + u 2 t + 2φyt−1ut.<br />
Tomando o valor esperado condicional e reagrupando os termos vem:<br />
E v 2 t<br />
<br />
Ft−1<br />
= c ∗ 1 + c ∗ 2vt−1 + φ 2 v 2 t−1.<br />
Significa que vt exibe um efeito do tipo ARCH, apesar do modelo inicial ser condicional-<br />
mente homocedástico.<br />
329
Considere-se agora um caso mais geral.<br />
Modelo Verdadeiro : yt = µ t + ut,<br />
Modelo Especificado Incorrectamente : yt = mt + vt,<br />
com mt = µ t. Tem-se vt = µ t −mt +ut. Como µ t e mt pertencem a Ft−1 e E (ut| Ft−1) = 0<br />
vem<br />
E v 2 t<br />
<br />
Ft−1<br />
<br />
= E (µ t − mt + ut) 2 <br />
Ft−1<br />
= E (µ t − mt) 2 + 2 (µ t − mt) ut + u 2 t<br />
= E (µ t − mt) 2 <br />
Ft−1 + E u 2 <br />
<br />
t Ft−1 .<br />
<br />
Ft−1<br />
• Se E (u2 t | Ft−1) = σ2 então a variância condicional de vt, E (v 2 t | Ft−1), não é constante,<br />
pois E (µ t − mt) 2 <br />
Ft−1 não é constante.<br />
• Se E (u 2 t | Ft−1) = σ 2 t então a variância condicional associada ao modelo incorrecto<br />
yt = mt + vt será superior à verdadeira variância condicional σ 2 t . Com efeito,<br />
E v 2 t<br />
<br />
Ft−1<br />
<br />
= E (µ t − mt) 2 <br />
2<br />
Ft−1 + σt .<br />
A conclusão deste ponto é óbvia: é importante especificar bem a média condicional.<br />
Como nota final registe-se que, na prática, a média condicional que especificamos é<br />
E yt| F ∗ <br />
∗<br />
t−1 onde Ft−1 é o “nosso” conjunto de informação, necessariamente limitado, e<br />
não o conjunto de todos os acontecimentos ω ∈ Ω que geram y no momento t − 1. Como<br />
resultado a média condicional que especificamente envolve quase sempre erros de especifi-<br />
cação. A existência do efeito ARCH pode dever-se ou acentua-se na presença desses erros<br />
de especificação. É interessante observar Engle (1982): “the ARCH regression model is an<br />
approximation to a more complex regression which has no-ARCH disturbances. The ARCH<br />
specification might then picking up the effect of variables omitted from the estimated model.<br />
The existence of an ARCH effect would be interpreted as evidence of misspecification”.<br />
330
8.13 Modelos Não Lineares na Média combinados com o<br />
GARCH<br />
8.13.1 Modelo Limiar Autoregressivo com Heterocedasticidade Condi-<br />
cionada<br />
O modelo TAR tal como foi apresentado na secção 7.3 não é apropriado para séries tem-<br />
porais financeiras, pois assume que a variância condicional é constante ao longo do tempo.<br />
Podemos, no entanto, generalizar o TAR de forma a acomodar heterocedasticidade condi-<br />
cionada. Se admitirmos o caso mais geral em que o padrão de heterocedasticidade se dis-<br />
tingue consoante o regime, o modelo a considerar, com dois regimes e um desfasamento<br />
(veja-se Gospodinov, 2005) é<br />
yt = (φ 10 + φ 11yt−1) I{qt−d≤γ} + (φ 20 + φ 21yt−1) I{qt−d>γ} + ut. (8.24)<br />
onde ut = σtεt e {εt} é uma sucessão de v.a. i.i.d. de média zero e variância um e<br />
σ 2 t = ω1 + α1u 2 t−1 + β1σ 2 <br />
t−1 I{qt−d≤γ} + ω2 + α2u 2 t−1 + β2σ 2 <br />
t−1 I{qt−d>γ}. (8.25)<br />
Aborda-se a seguir a estimação do modelo. Suponha-se que ε é um ruído branco Gaussiano.<br />
Assim,<br />
yt| Ft−1 ∼ N µ t, σ 2 t<br />
onde µ t = (φ 10 + φ 11yt−1) I{qt−d≤γ} + (φ 20 + φ 21yt−1) I{qt−d>γ} e σ 2 t é dado pela equação<br />
(8.25). Seja θ o vector de todos parâmetros do modelo com excepção de γ.A função log-<br />
verosimilhança vem<br />
log Ln (θ, γ) =<br />
n<br />
log f (yt| Ft−1; θ, γ)<br />
t=1<br />
log f (yt| It; θ, γ) = − 1 1<br />
log (2π) −<br />
2 2 log σ2 1<br />
t (θ, γ) −<br />
2σ2 t (θ, γ) (yt − µ t (θ, γ)) 2 .<br />
O problema de optimização maxθ<br />
<br />
n<br />
t=1 log f (yt| Ft−1; θ, γ) não é standard, pois a derivada<br />
de log Ln (θ, γ) em ordem a γ não existe. O princípio do método de máxima verosimilhança<br />
mantém-se, todavia: é necessário maximizar a função em ordem aos parâmetros. A esti-<br />
mação dos parâmetros processa-se da seguinte forma:<br />
331
Parâmetro Estimativa Erro Padrão<br />
c 0.0478 0.0075<br />
φ 0.2332 0.0112<br />
ω 0.0118 0.0015<br />
α 0.1111 0.0073<br />
β 0.8812 0.0074<br />
Log-Veros.= −11439.3<br />
Tabela 8.2: Resultados da estimação do modelo AR+GARCH<br />
1. Escolha-se um valor para γ no conjunto ˜ Γ (sobre o conjunto ˜ Γ veja-se o ponto 7.3.5).<br />
Seja γ ∗ esse valor.<br />
2. Resolva-se o problema de optimização maxθ log Ln (θ, γ ∗ ) em ordem a θ; seja ˆ θn (γ ∗ )<br />
o valor que maximiza Ln (θ, γ ∗ ) (dado γ ∗ ), i.e., ˆ θn (γ ∗ ) = arg maxθ log Ln (θ, γ ∗ ) .<br />
3. Registe-se o valor de log Ln<br />
<br />
ˆθn (γ∗ ) , γ∗ <br />
.<br />
4. Repitam-se os passos 1-3 até se exaurir o conjunto ˜ Γ.<br />
5. A estimativa para γ é aquela que maximiza a função de verosimilhança; seja ˆγ n esse<br />
valor.<br />
6. A estimativa para θ é, naturalmente, ˆ θn (ˆγ n) .<br />
Exemplo 8.13.1 Considere o retorno diário em percentagem, yt = 100 × log (Pt/Pt−1),<br />
associados ao índice NASDAQ, no período 5-02-1971 a 13-10-2006 (9006 observações).<br />
Na tabela 8.2 apresentam-se os resultados da estimação do modelo AR(1)+GARCH(1,1).<br />
De seguida, estimou-se o modelo SETAR (8.24)-(8.25), com qt−d = yt−1. Seguiram-se<br />
os seis passos do procedimento descrito atrás. Obteve-se ˆγ n = −0.356 (trata-se do valor<br />
que maximiza a função de log-verosimilhança log Ln (θ, γ)). A figura 8-16 mostra o valor<br />
de log Ln como função de γ (observe-se que ˆγ n = −0.356 maximiza log Ln). Para o valor<br />
ˆγ n estimado, obtiveram-se os resultados que constam da tabela 8.3. O primeiro regime mod-<br />
ela os retornos quando estes estão em queda, mais precisamente, quando o retorno anterior<br />
é inferior a −0.356%. A média marginal deste regime é −.1718/ (1 − .0563) = −.182%.<br />
Tendo em conta este valor, há tendência para o processo sair do regime 1, mantendo, ainda<br />
assim, uma rendibilidade negativa. Talvez o dado mais significativo é a forte persistência<br />
da volatilidade neste regime, associada a valores altos de volatilidade (w1 > w2). Este<br />
resultado está de acordo com os factos estilizados habitualmente observados em dados fi-<br />
nanceiros, segundo os quais, a volatilidade tende a ser superior quando as cotações estão<br />
332
Figura 8-16: Valor da máximo da função log-Verosimilhança como função do parâmetro γ.<br />
Estimativa de γ : −0.358316<br />
Parâmetro Estimativa Erro Padrão<br />
φ 10 -0.1718 0.0312<br />
φ 11 0.0563 0.0310<br />
ω1 0.0233 0.0075<br />
α1 0.0982 0.0097<br />
β 1 0.9776 0.0152<br />
φ 20 0.0426 0.0099<br />
φ 21 0.2384 0.0177<br />
ω2 0.0175 0.0024<br />
α2 0.0733 0.0073<br />
β 2 0.8575 0.0093<br />
Log-Veros.= −11344.5<br />
Tabela 8.3: Resultados da estimação do modelo SETAR+GARCH<br />
a descer. A volatilidade associada ao regime 1 pode ser identificada como a “má volatili-<br />
dade”, i.e., aquela que está ligada à queda dos preços.<br />
8.13.2 Modelo Markov-Switching com Heterocedasticidade Condicionada<br />
Vimos na secção 7.4 que a separação das dinâmicas do processo em estudo em dois ou mais<br />
regimes permite, na maior parte dos casos, obter diferentes valores para σi (veja-se o mod-<br />
elo (7.25)). Significa isto que os erros são heterocedásticos. No entanto, é possível ir um<br />
pouco mais longe se admitirmos, mesmo em cada regime, erros heterocedásticos. Em séries<br />
financeiras, o modelo (7.25) pode mostrar-se insuficiente para modelar a volatilidade típica<br />
333
das séries financeiras. O caminho está assim indicado: é necessário admitir, em cada regime,<br />
uma especificação dinâmica para a volatilidade. Entendeu-se inicialmente (e.g. Hamilton)<br />
que os modelos Markov-switching com efeitos GARCH eram intratáveis e impossíveis de<br />
serem estimados, devido à dependência da variância condicional de toda a trajectória passada<br />
(em última análise, a estrutura que se admitia para um Markov-Switching com N regimes<br />
obrigaria posteriormente a expandir o número de regimes para N n sendo n o número de<br />
observações). Gray (1996) propôs um modelo que resolve a dependência da variância condi-<br />
cional de toda a trajectória passada.<br />
O modelo MS+GARCH com dois regimes é<br />
yt =<br />
⎧<br />
⎨<br />
⎩<br />
c1 + φ 1yt−1 + σ1tεt se St = 1<br />
c2 + φ 2yt−2 + σ2tεt se St = 2<br />
onde σit seguem a representação sugerida por Gray(1996),<br />
sendo<br />
σ 2 it = ωi + αiu 2 t−1 + βσ 2 t−1, (8.26)<br />
ut = yt − E (yt| Ft−1) , σ 2 t = Var (yt| Ft−1) .<br />
Pode mostrar-se que o problema da “dependência da variância condicional” surge quando se<br />
define σ 2 it como função de ui,t−1 (erro no período t − 1 associado ao regime i) e de σ 2 i,t−1. A<br />
especificação (8.26) evita esse problema; observe-se que σ 2 it depende ut−1 e σ 2 t−1.<br />
Momentos de y<br />
Determinem-se os momentos do processo. Seja µ it = E (yt| Ft−1, St = i) . No contexto<br />
do modelo (7.25) tem-se:<br />
E (yt| Ft−1, St = 1) = c1 + φ 1yt−1, E (yt| Ft−1, St = 2) = c2 + φ 2yt−1.<br />
334
Tem-se<br />
µ t = E (yt| Ft−1)<br />
= E (yt| Ft−1, St = 1) P (St = 1| Ft−1)<br />
+ E (yt| Ft−1, St = 2) P (St = 2| Ft−1)<br />
= µ 1tp1t + µ 2tp1t.<br />
E (yt| Ft−1) é, portanto, a média ponderada dos valores esperados condicionais dos regimes<br />
1 e 2. Por outro lado,<br />
σ 2 t = Var (yt| Ft−1) = E y 2 <br />
<br />
t Ft−1 − (E (yt| Ft−1)) 2<br />
= E y 2 <br />
<br />
t Ft−1, St = 2 P (St = 1| Ft−1)<br />
+ E y 2 <br />
<br />
t Ft−1, St = 2 P (St = 2| Ft−1) − µ 2 t<br />
= µ 2 1t + σ 2 <br />
1t p1t + µ 2 2t + σ 2 <br />
2t p2t − µ 2 t .<br />
8.A Estabilidade de EDF e a Estacionaridade (Caso mod-<br />
elo ARCH)<br />
Apresenta-se uma abordagem alternativa para analisar a ESO. A ideia é tomar, num primeiro<br />
passo, os valores esperados marginais como função de t, e verificar depois em que condições<br />
esses valores esperados não dependem de t. Considere-se o ARCH(1). Como se sabe neste<br />
caso tem-se<br />
E u 2 t<br />
<br />
ηt = ω + α1E u 2 <br />
t−1 ,<br />
<br />
ηt−1 i.e.<br />
η t = ω + α1η t−1<br />
O ponto fixo da equação às diferenças finitas (EDF) 14 , η t = ω + α1η t−1, é<br />
14 Ver a definição de ponto fixo na secção 7.2.<br />
ω<br />
.<br />
1 − α1<br />
335
Este ponto é assimptoticamente estável se |α1| < 1; além disso, se a condição inicial é ω<br />
1−α1<br />
então ηt = ω<br />
1−α1 , ∀t. Quando a condição inicial é η0 = ω pode-se provar que a solução da<br />
1−α1<br />
EDF η t = ω + α1η t−1 é<br />
Se |α1| < 1 ⇒<br />
η t = ω (1 − αt 1)<br />
1 − α1<br />
η t = ω (1 − αt 1)<br />
1 − α1<br />
+ α t 1η 0<br />
(Solução)<br />
+ α t 1η 0 → ω<br />
1 − α1<br />
Se a condição inicial não é igual à solução de longo prazo, ω<br />
1−α1 , o processo ut é “assimptot-<br />
icamente estacionário” (ou ESO se o processo teve início num passado remoto). Em suma,<br />
se α1 < 1 (por hipótese α1 ≥ 0) (e a condição inicial for ω/ (1 − α1)) então<br />
e o processo ut é ESO.<br />
Donde<br />
E u 2 t<br />
ω<br />
= , ∀t<br />
1 − α1<br />
No caso ARCH(2), tem-se σ 2 t = ω + α1u 2 t−1 + α2u 2 t−2, ω > 0, α1 ≥ 0, α2 ≥ 0. Assim,<br />
Var (ut) = E u 2 t = E σ 2 t<br />
= E ω + α1u 2 t−1 + α2u 2 t−2<br />
<br />
= ω + α1 E u 2 <br />
t−1 + α2 E u 2 <br />
t−2<br />
E u 2 t = ω + α1E<br />
<br />
ηt u 2 <br />
t−1 + α2E<br />
<br />
ηt−1 u 2 <br />
t−2 ,<br />
<br />
i.e.<br />
ηt−2 η t = ω + α1η t−1 + α2η t−2<br />
1 − α1L − α2L 2 η t = ω<br />
Pode-se provar que η t converge se as raízes de (1 − α1L − α2L 2 ) estiverem fora do circulo<br />
unitário, i.e.,<br />
α1 + α2 < 1, α2 − α1 < 1, −1 < α2 < 1.<br />
Como α1 ≥ 0, α2 ≥ 0, a única condição que precisamos de verificar é α1 + α2 < 1.<br />
336
Nestas condições, se η 0 =<br />
ω<br />
1−(α1+α2) e α1 + α2 < 1 o processo u é ESO e<br />
E u 2 t = ω + α1 E u 2 t + α2 E u 2 t ⇒ E u 2 t =<br />
337<br />
ω<br />
1 − (α1 + α2) .
Página em branco<br />
338
Capítulo 9<br />
Modelação da Heterocedasticidade<br />
Condicionada - Caso Multivariado<br />
9.1 Introdução<br />
(Última actualização: 3/2011)<br />
Vimos no ponto 3.2.6 que muitas séries financeiras (por exemplo, índices bolsistas ou co-<br />
tações de acções) apresentam co-movimentos de rendibilidade e volatilidade, isto é, quando<br />
a rendibilidade e a volatilidade de uma série aumenta (diminui), a rendibilidade e a volatili-<br />
dade das outras tende, em geral, a aumentar (diminuir).<br />
A estimação destes co-movimentos de rendibilidade e volatilidade deve ser naturalmente<br />
feita no quadro da estimação multivariada (por multivariada entendemos várias equações).<br />
Esta análise é relevante, por exemplo, no âmbito da selecção de portfolios, da gestão do risco,<br />
etc. Permite também discutir questões do tipo:<br />
• como se transmite a volatilidade de um mercado aos demais mercados? qual a magni-<br />
tude do impacto da volatilidade de um mercado sobre outro?<br />
• os mercados “globais” influenciam a volatilidade de outros mercados (regionais ou<br />
nacionais) sem serem por eles influenciados (“contagiados”)?<br />
• A volatilidade de um activo transmite-se a outro directamente (através da sua variância<br />
condicional) ou indirectamente (através das covariâncias condicionais)?<br />
339
• Como se comportam as correlações condicionais? São variáveis ao longo do tempo?<br />
Tendem a aumentar ou a diminuir em períodos de alta volatilidade e instabilidade dos<br />
mercados?<br />
Para tratar estas questões vai considerar-se um modelo genérico, envolvendo m equações:<br />
y1t = µ 1t + u1t,<br />
...<br />
ymt = µ mt + umt<br />
onde µ it := E (yit| Ft−1) para i = 1, ..., m. Para usarmos uma notação mais compacta,<br />
definam-se os seguintes vectores-coluna m dimensionais:<br />
⎛<br />
⎜<br />
yt = ⎜<br />
⎝<br />
y1t<br />
.<br />
ymt<br />
⎞<br />
⎟<br />
⎠ , µ ⎛ ⎞<br />
⎜<br />
t = ⎜<br />
⎝<br />
µ 1t<br />
.<br />
µ mt<br />
⎟<br />
⎠ , ut<br />
⎛<br />
⎜<br />
= ⎜<br />
⎝<br />
De forma compacta, o modelo pode representar-se na forma<br />
yt = µ t + ut.<br />
A média condicional µ t não é aqui relevante, mas pode supor-se que yt é bem mode-<br />
lado por um VARMA (vector ARMA, ou mesmo vector ARMAX). Tem-se um modelo de<br />
heterocedasticidade condicional multivariado se ut é um processo multiplicativo do tipo,<br />
ut = H 1/2<br />
t εt<br />
onde εt é um vector de v.a. i.i.d. (condicionalmente homocedástico) tal que<br />
u1t<br />
.<br />
umt<br />
⎞<br />
⎟<br />
⎠ .<br />
E (εt) = 0, Var (εt) = Im (matriz identidade de ordem m)<br />
e Ht é uma matriz quadrada de ordem m, simétrica, definida positiva e Ft−1 mensurável<br />
(Ft é a σ-algebra gerada por (yt, yt−1, ..)). A notação H 1/2<br />
t<br />
menos que Ht seja uma matriz diagonal, H 1/2<br />
t<br />
dos elementos de Ht. H 1/2<br />
t<br />
matriz H 1/2<br />
t<br />
merece alguns comentários. A<br />
não representa naturalmente a raiz quadrada<br />
é uma matriz quadrada ordem m tal que H 1/2<br />
<br />
t H 1/2<br />
′<br />
t = Ht. A<br />
pode ser obtida utilizando a factorização de Cholesky.<br />
340
Dadas as hipóteses, tem-se<br />
Var (yt| Ft−1) = Var (ut| Ft−1) = E (utu ′ t| Ft−1)<br />
<br />
H 1/2<br />
′<br />
t<br />
= H 1/2<br />
t Var (εt| Ft−1)<br />
<br />
Var(εt)=Im<br />
9.2 Densidade e Verosimilhança<br />
= Ht.<br />
Para simplificar a exposição assuma-se normalidade dos erros: εt ∼ N (0, I m) . Nestas<br />
circunstâncias, tem-se a seguinte relação:<br />
εt ∼ N (0, I m) ⇒ ut| Ft−1 ∼ N (0, H t) ⇒ yt| Ft−1 ∼ N (µ t, H t) .<br />
Assim, a densidade conjunta condicional de yt é<br />
f (yt| Ft−1) = (2π) −m/2 |Ht| −1/2 <br />
exp − 1<br />
2 (yt − µ t) ′ H −1<br />
<br />
t (yt − µ t) .<br />
A função log-verosimilhança é então<br />
log Ln (θ) =<br />
n<br />
log f (yt| Ft−1)<br />
t=1<br />
= − nm<br />
2<br />
log (2π) − 1<br />
2<br />
n<br />
t=1<br />
log |Ht| − 1<br />
2<br />
n<br />
t=1<br />
(yt − µ t) ′ H −1<br />
t (yt − µ t)<br />
= − nm<br />
n 1<br />
log (2π) − log |Ht (θ)|<br />
2 2<br />
t=1<br />
−<br />
(9.1)<br />
1<br />
n<br />
(yt − µ t (θ))<br />
2<br />
′ H −1<br />
t (θ) (yt − µ t (θ))<br />
t=1<br />
(a última equação destaca a dependência face a θ). No caso univariado (i.e. m = 1), vem<br />
Ht = σ 2 t e log f (yt| Ft−1) é dada pela equação (8.16).<br />
Nesta fase é necessário definir uma hipótese sobre a estrutura de µ t e de Ht. A média<br />
condicional µ t pode ser definida através de um VAR(1) (vector autoregressivo) ou VARMA(1,1)<br />
(vector ARMA), etc. Não abordaremos aqui a especificação da média condicional. Neste<br />
capítulo estamos interessados sobretudo na especificação de Ht. Nos pontos seguintes dis-<br />
cutiremos possíveis especificação para Ht.<br />
341
9.3 Modelo VECH (ou VEC)<br />
É necessário, em primeiro lugar, introduzir o operador vech . Considere-se, por exemplo,<br />
⎛<br />
⎜<br />
A = ⎜<br />
⎝<br />
a11 a12 a13<br />
a21 a22 a23<br />
a31 a32 a33<br />
O operador vech selecciona os elementos abaixo da diagonal principal (elementos dentro dos<br />
quadrados) e passa-os para um vector-coluna:<br />
⎛<br />
⎜<br />
vech (A) = ⎜<br />
⎝<br />
Obviamente que não se perde informação com esta operação se A é uma matriz (real)<br />
simétrica, hipótese que doravante se assume, sempre que se empregar tal operador.<br />
O modelo VECH (ou VEC) (Engle e Kroner, 1995) propõe uma estrutura GARCH(p,q)<br />
a11<br />
a21<br />
a22<br />
a31<br />
a32<br />
a33<br />
⎞<br />
⎞<br />
⎟<br />
⎠ .<br />
⎟ .<br />
⎟<br />
⎠<br />
multivariada. No caso GARCH(1,1), a matriz Ht é tal que<br />
vech (Ht) = w + A1 vech ut−1u ′ t−1<br />
+ B1 vech (Ht−1) . (9.2)<br />
No caso m = 2 (processo bivariado) e GARCH(1,1) a expressão (9.2) toma a forma<br />
vech (Ht) =<br />
⎛<br />
⎜<br />
⎝<br />
h11,t<br />
h12,t<br />
h22,t<br />
⎛<br />
⎜<br />
+ ⎜<br />
⎝<br />
⎞<br />
⎛<br />
⎟<br />
⎠ =<br />
⎜<br />
⎝<br />
w11<br />
w12<br />
w22<br />
β 11 β 12 β 13<br />
β 21 β 22 β 23<br />
β 31 β 32 β 33<br />
⎞<br />
⎛<br />
⎟<br />
⎠ +<br />
⎜<br />
⎝<br />
⎞ ⎛<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎠ ⎝<br />
h11,t−1<br />
h12,t−1<br />
h22,t−1<br />
α11 α12 α13<br />
α21 α22 α23<br />
α31 α32 α33<br />
⎞<br />
⎟<br />
⎠<br />
⎞ ⎛<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎠ ⎝<br />
u 2 1,t−1<br />
u1,t−1u2,t−1<br />
u 2 2,t−1<br />
(h11,t := σ 2 1t, ht,22 := σ 2 2t, h12,t := σt12). Note-se, por exemplo, que a covariância condi-<br />
342<br />
⎞<br />
⎟<br />
⎠
cionada h12,t := E (u1tu2t| Ft−1) é igual a<br />
w12 + α21u 2 1,t−1 + α23u 2 2,t−1 + α22u1,t−1u2,t−1 + β 21h11,t−1 + β 22h12,t−1 + β 23h22,t−1 (9.3)<br />
Como subproduto do método, obtêm-se as correlações condicionais entre os retornos 1<br />
ρ ij,t =<br />
hij,t<br />
, i, j = 1, ..., m.<br />
hii,thjj,t<br />
A condição de ESO no caso GARCH(1,1) é a seguinte: {ut} é ESO se todos os valores<br />
próprios de A1 + B1 forem em módulo menores do que um (i.e., sse as raízes em λ de<br />
|A1+B1 − λI| forem em módulo menores do que um) 2 . Nestas condições:<br />
E (vech (utu ′ t)) = E (vech (Ht)) = (I − A1−B1) −1 w.<br />
A principal vantagem do modelo VEC é a sua grande flexibilidade, pois permite que<br />
todos os elementos de Ht dependam de todos os produtos cruzados de vech ut−1u ′ <br />
t−1 e de<br />
todos os elementos de Ht−1. No entanto, as suas desvantagens superam largamente as suas<br />
vantagens. As duas principais desvantagens do modelo VEC são as seguintes:<br />
• O número de parâmetros a estimar é excessivamente alto. No GARCH(1,1) multivari-<br />
ado com m equações, o número de parâmetros a estimar é (m (m + 1) /2) (1 + (m (m + 1)))<br />
(veja-se a tabela 9.1) 3 .<br />
• Por definição a matriz Ht deve ser definida positiva, mas não é fácil garantir isso a<br />
partir das matrizes A e B. Se Ht não é definida positiva, é possível, por exemplo, obter<br />
1 É indiferente identicar ρij,t como as correlações condicionais entre os retornos ou entre os erros, pois,<br />
por definição, ρ ij,t = Corr (yit, yjt| Ft−1) = Corr (uit, ujt| Ft−1) . Já as correlações marginais não são<br />
necessariamente iguais, isto é, em geral, tem-se Corr (yit, yjt) = Corr (uit, ujt).<br />
2 Com efeito, pode-se provar que<br />
E (vech (Ht)| F0) =<br />
<br />
I+ (A1 + B1) + ... + (A1 + B1) t−1<br />
w+ (A1 + B1) t vech (H1)<br />
sendo vech (H1) ∈ F0). Se (A1 + B1) t → 0 (quando t → ∞) então E (vech (Ht)| F0) converge para o<br />
momento estacionário E (vech (Ht)) = (I− (A1+B1)) −1 . Ora, (A1 + B1) t → 0 sse os valores próprios de<br />
A1 + B1 são em módulo menores do que 1.<br />
3 Com efeito, note-se que A1 e B1 são matrizes quadradas de ordem m (m + 1) /2 e o vector w possui<br />
m (m + 1) /2 elementos. Assim, o número total de elementos a estimar é 2 (m (m + 1) /2) 2 +m (m + 1) /2 =<br />
(m (m + 1) /2) (1 + (m (m + 1))) .<br />
343
m (m (m + 1) /2) (1 + (m (m + 1)))<br />
2 21<br />
3 78<br />
4 210<br />
Tabela 9.1: Número de parâmetros a estimar no VEC<br />
coeficientes de correlação superiores a um e/ou variâncias negativas (i.e. ρ ij,t > 1 ou<br />
ht,ii < 0).<br />
Estas duas desvantagens acabam por limitar, de facto, a aplicação do modelo. Mesmo no<br />
caso m = 2 têm-se 21 parâmetros (tabela 9.1). Estimar 21 parâmetros usando o OLS é fácil<br />
(desde que o número de graus de liberdade assim o permita). Mas estimar 21 parâmetros<br />
maximizando a função log-verosimilhança (9.1) é extremamente difícil. Frequentemente,<br />
implementa-se o modelo VEC impondo várias restrições de nulidade sobre A1 e B1, como<br />
podemos ver no exemplo seguinte.<br />
Exemplo 9.3.1 Existem efeitos de rendimento e de volatilidade do PSI20 que possam ser<br />
antecipados através do Dow Jones (DJ)? Seja y1t e y2t o retorno diário associado, respec-<br />
tivamente, aos índices, PSI20 e DJ. Para reduzir o número de parâmetros a estimar, as var-<br />
iáveis y1t e y2t foram previamente centradas (e, como consequência, os termos constantes<br />
das equações foram eliminados). Depois de vários ensaios, definiu-se o seguinte modelo<br />
onde<br />
vech (Ht) =<br />
⎛<br />
⎝ y1t<br />
⎛<br />
⎜<br />
⎝<br />
y2t<br />
⎞<br />
h11,t<br />
h12,t<br />
h22,t<br />
⎠ =<br />
⎞<br />
⎛<br />
⎝ φ 11 φ 12<br />
0 φ 22<br />
⎛<br />
⎟<br />
⎠ =<br />
⎜<br />
⎝<br />
0<br />
0<br />
w22<br />
⎞<br />
⎛<br />
⎞ ⎛<br />
β<br />
⎜ 11<br />
⎜<br />
+ ⎜ 0<br />
⎝<br />
0<br />
0<br />
0<br />
0<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎠ ⎝<br />
0 0 β33 ⎞ ⎛<br />
⎠<br />
⎟<br />
⎠ +<br />
⎜<br />
⎝<br />
⎝ y1,t−1<br />
⎛<br />
h11,t−1<br />
h12,t−1<br />
h22,t−1<br />
y2,t−1<br />
⎞<br />
α11 0 α13<br />
0 0 0<br />
0 0 α33<br />
⎞ ⎛<br />
⎠ + H 1/2 εt<br />
⎞ ⎛<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎠ ⎝<br />
u 2 1,t−1<br />
u1,t−1u2,t−1<br />
⎞<br />
⎟<br />
⎠ +<br />
γvolt−1 ⎜ ⎟<br />
⎜ ⎟<br />
⎜ 0 ⎟<br />
⎝ ⎠<br />
0<br />
u 2 2,t−1<br />
(vol é uma medida do volume de transacções do mercado português). Todas as matrizes<br />
quadradas são triangulares superiores, porque se assume que o DJ influencia o PSI20 e<br />
não existem efeitos de feedback (o PSI20 não influencia o DJ). Usando os dados no período<br />
344<br />
⎞<br />
⎟<br />
⎠
31/12/92 a 15/03/99 (1496 observações) obteve-se,<br />
Assim,<br />
ˆy1t = .2343<br />
(.028) y1t−1 + .1430<br />
(.023) y2t−1, ˆy2t = .0753<br />
(.023) y2t−1<br />
ˆh1t = .3132<br />
(.0466) û21t−1 + .0466<br />
(.0151) û22t−1 + .6053<br />
(.0459)<br />
ˆh2t = 1.25 × 10 −6<br />
(5.2×10 −7 )<br />
⎛<br />
⎞<br />
.3132<br />
⎜<br />
Â1 = ⎜ 0<br />
⎝<br />
0<br />
0<br />
.0466<br />
⎟<br />
0 ⎟<br />
⎠<br />
0 0 .0903<br />
,<br />
ˆh1t−1 + .0254<br />
(.0062) volt−1<br />
+ .0903<br />
(.0195) û22t−1 + .897 ˆh2t−1, h12,t = 0.<br />
(.0227)<br />
⎛<br />
⎞<br />
.6053<br />
⎜<br />
ˆB1<br />
⎜<br />
= ⎜ 0<br />
⎝<br />
0<br />
0<br />
0<br />
0<br />
⎟<br />
⎠<br />
0 0 .897<br />
Os valores próprios (estimados) da matriz Â1 + ˆB1 são {0.987, 0.918, 0} . Conclui-se: (1)<br />
O comportamento do índice DJ afecta significativamente o comportamento do PSI20, quer<br />
em termos de rendimento quer em termos de volatilidade; (2) ganhos do DJ afectam favo-<br />
ravelmente o PSI20; (3) aumentos ou diminuições de volatilidade do DJ afectam no mesmo<br />
sentido o PSI20; (4) os valores próprios respeitam a condição de ESO (note-se, todavia, que<br />
estão sujeitos a variabilidade amostral). As conclusões (1)-(3) são válidas, naturalmente,<br />
no muito curto prazo (um, dois dias). As possibilidades de ganho são muito reduzidas,<br />
pois grande parte das variações dos índices não são explicadas (alta volatilidade). Como<br />
nota final registe-se que a hipótese h12,t = 0 não é realísta, pois implica que as correlações<br />
condicionais são zero. Ora a literatura mostra que as correlações condicionais entre índices<br />
bolsistas é quase sempre significativa.<br />
345
9.4 Modelo Diagonal VECH<br />
Podem obter-se modelos VECH com menos parâmetros impondo que as matrizes A1 e B1<br />
sejam diagonais. Por exemplo, no caso m = 2, vem<br />
vech (Ht) =<br />
⎛ ⎞<br />
⎜<br />
⎝<br />
h11,t<br />
h12,t<br />
⎟<br />
⎠<br />
h22,t<br />
=<br />
⎛ ⎞<br />
⎜<br />
⎝<br />
w11<br />
w12<br />
⎟<br />
⎠<br />
w22<br />
+<br />
⎛<br />
⎞ ⎛<br />
α11 ⎜ 0<br />
⎝<br />
0<br />
α22<br />
0<br />
0<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎠ ⎝<br />
⎛<br />
⎞ ⎛<br />
0 0<br />
⎞<br />
α33<br />
β<br />
⎜ 11<br />
⎜<br />
+ ⎜ 0<br />
⎝<br />
0<br />
β22 0<br />
0<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎠ ⎝<br />
h11,t−1<br />
h12,t−1<br />
⎟<br />
⎠<br />
0 0 β33 h22,t−1<br />
u 2 1,t−1<br />
u1,t−1u2,t−1<br />
u 2 2,t−1<br />
(este princípio aplica-se naturalmente no caso de modelos multivariados GARCH(p,q)).<br />
Com matrizes A1 e B1 diagonais pode optar por escrever o modelo diagonal VECH na<br />
forma equivalente<br />
Ht = ω + a1 ◦ ut−1u ′ t−1 + b1 ◦ Ht−1<br />
onde ω, a1 e b1 são matrizes simétricas de tipo m × m e “◦” é o produto de Hadamard 4 . Por<br />
exemplo, no caso m = 2, o modelo anterior escreve-se<br />
⎛<br />
⎝ h11,t h12,t<br />
h12,t h22,t<br />
⎞<br />
⎠ =<br />
⎛<br />
⎝ w11 w12<br />
⎛<br />
w12 w22<br />
⎝ b11 b12<br />
b12 b22<br />
⎞<br />
⎞<br />
⎠ +<br />
⎠ ◦<br />
⎛<br />
⎛<br />
⎝ a11 a12<br />
a12 a22<br />
⎞<br />
⎠ ◦<br />
⎝ h11,t−1 h12,t−1<br />
h12,t−1 h22,t−1<br />
onde a11 = α11, a12 = α22, a22 = α33, etc. Note-se, portanto, que<br />
⎛<br />
⎞<br />
⎟<br />
⎠<br />
⎝ u2 1,t−1 u1,t−1u2,t−1<br />
⎞<br />
⎠<br />
h11,t = ω11 + a11u 2 1,t−1 + b11h11,t−1<br />
h12,t = ω12 + a12u1,t−1u2,t−1 + b12h12,t−1<br />
h22,t = ω22 + a22u 2 2,t−1 + b22h22,t−1.<br />
u1,t−1u2,t−1<br />
u 2 2,t−1<br />
4 Dadas duas matrizes A = (aij) m×m e B = (bij) m×m , o produto Hadamard define-se como A ◦<br />
B = (aijbij) m×m . Por exemplo,<br />
1 2<br />
3 4<br />
<br />
5 6<br />
◦<br />
7 8<br />
346<br />
<br />
=<br />
5 12<br />
21 32<br />
<br />
.<br />
⎞<br />
⎠ +
A vantagem do modelo em análise face ao modelo VECH é a de reduzir o número de<br />
parâmetros a estimar. Num modelo multivariado GARCH(1,1) com m equações, o número<br />
total de parâmetros a estimar no modelo Diagonal VECH é de apenas 3m (m + 1) /2. To-<br />
davia há uma desvantagem face ao VECH. Para ilustrar este ponto considere-se o caso<br />
m = 2. No modelo Diagonal VECH é fácil verificar que hii,t só depende dos termos u 2 i,t−1<br />
e hii,t−1, e h12,t só depende dos termos u1,t−1u2,t−1 e h12,t−1. Desta forma, a especificação<br />
Diagonal VECH elimina a possibilidade de interacção entre as diferentes variâncias e co-<br />
variâncias condicionais. Por outro lado, a matriz Ht, por construção, não resulta definida<br />
positiva. Há várias formas de ultrapassar este último problema no âmbito da especificação<br />
Diagonal VECH. Uma possibilidade consiste em reespecificar o modelo na forma<br />
Ht = ˜ω1 (˜ω1) ′ + ã1 (ã1) ′ ◦ ut−1u ′ t−1 + ˜b1<br />
com ω = ˜ω1 (˜ω1) ′ , a1 = ã1 (ã1) ′ e b1 = ˜ b1<br />
˜b1<br />
′<br />
◦ Ht−1<br />
′<br />
˜b1 e ˜ω1, ã1 e ˜ b1 são matrizes quadradas<br />
de ordem m. As matrizes ω, a1 e b1 assim construídas implicam uma matriz Ht definida<br />
positiva. Esta forma de definir o modelo resulta claro com o seguinte exemplo univariado.<br />
Suponha-se que os parâmetros β 0 e β 1 do modelo yt = β 0 + β 1xt + ut têm de ser positivos.<br />
Podemos impor essa restrição estimando yt = ˜ β 2<br />
0 + ˜ β 2<br />
1xt + ut e assumindo que β0 = ˜ β 2<br />
0<br />
e β1 = ˜ β 2<br />
1. Desta forma β0 e β1 vêm sempre positivos quaisquer que sejam os valores de<br />
˜β 0 e ˜ β1. Em termos matriciais, o produto ã1 (ã1) ′ resulta sempre numa matriz semidefinida<br />
positiva, e o produto de Hadamard ã1 (ã1) ′ ◦ ut−1u ′ t−1 = diag (ut−1) ã1 (ã1) ′ diag (ut−1) é,<br />
por definição, uma matriz semidefinida positiva (ou definida positiva se ã1 tiver característica<br />
m). Várias versões deste modelo são estimadas pelo software EVIEWS 6.<br />
Um modelo ainda mais restritivo (mas que é usado com algum sucesso na modelação<br />
de sistemas com muitas equações) foi desenvolvido pela J.P. Morgan (1996). Basicamente<br />
usa o princípio exponentially weighted moving average (EWMA) para captar a dinâmica das<br />
variâncias e covariâncias condicionais,<br />
hij,t = (1 − λ) ui,t−1uj,t−1 + λhij,t−1.<br />
347
O modelo EWMA, no caso m = 2, tem a seguinte representação VECH:<br />
⎛<br />
⎜<br />
⎝<br />
h11,t<br />
h12,t<br />
h22,t<br />
⎞<br />
⎟<br />
⎠ =<br />
⎛<br />
⎞ ⎛<br />
1 − λ<br />
⎜ 0<br />
⎝<br />
0<br />
1 − λ<br />
0<br />
0<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎠ ⎝<br />
0 0 1 − λ<br />
u 2 1,t−1<br />
u1,t−1u2,t−1<br />
u 2 2,t−1<br />
⎞<br />
⎟<br />
⎠ +<br />
⎛ ⎞ ⎛<br />
λ<br />
⎜ 0<br />
⎝<br />
0<br />
λ<br />
0<br />
⎟ ⎜<br />
⎟ ⎜<br />
0 ⎟ ⎜<br />
⎠ ⎝<br />
0 0 λ<br />
h11,t−1<br />
h12,t−1<br />
h22,t−1<br />
Existe uma redução dramática do número de parâmetros a estimar (passamos para apenas 1,<br />
qualquer que seja o número de equações do modelo).<br />
9.5 Modelo BEKK<br />
O modelo BEKK (devido a Baba, Engle, Kroner e Kraft; veja-se Engle et al. 1993) assegura<br />
por construção que Ht é definida positiva. No caso mais simples BEEK(1,1), a matriz de<br />
variâncias-covariâncias condicionais é igual a<br />
Ht = W + A ′ 1<br />
<br />
ut−1u ′ <br />
t−1 A1 + B ′ 1Ht−1B1<br />
onde W, A1 e B1 são matrizes de tipo m × m, com W simétrica e definida positiva. Ht é<br />
definida positiva por construção pois W é definida positiva e os demais termos estão expres-<br />
sos como formas quadráticas definidas positivas. No caso m = 2 tem-se<br />
Ht =<br />
⎛<br />
⎝ w11 w12<br />
⎛<br />
w12 w22<br />
⎝ α11 α12<br />
+<br />
α21 α22<br />
⎛<br />
⎞<br />
⎠ +<br />
⎞<br />
⎠<br />
⎝ β 11 β 12<br />
β 21 β 22<br />
′ ⎛<br />
⎝ u2 1,t−1 u1,t−1u2,t−1<br />
⎞<br />
⎠<br />
u1,t−1u2,t−1<br />
′ ⎛<br />
⎝ h11,t−1 h12,t−1<br />
h12,t−1 h22,t−1<br />
u 2 2,t−1<br />
⎞ ⎛<br />
Depois de algumas contas, pode-se concluir, por exemplo, que:<br />
h11,t = w11 + α 2 11u 2 1,t−1 + α12α21u 2 2,t−1<br />
⎠<br />
+α11α12u1,t−1u2,t−1 + α11α21u1,t−1u2,t−1<br />
⎞ ⎛<br />
⎠<br />
⎝ β 11 β 12<br />
β 21 β 22<br />
⎝ α11 α12<br />
α21 α22<br />
⎞<br />
⎠ .<br />
+β 2<br />
11h11,t−1 + β 11β 12h12,t−1 + β 11β 21h12,t−1 + β 12β 21h22,t−1.<br />
348<br />
⎞<br />
⎠<br />
⎞<br />
⎟<br />
⎠ .
Figura 9-1: Simulação do modelo BEKK (m = 2).<br />
Com o modelo BEKK há ainda uma redução de número de parâmetros a estimar: passam<br />
agora a existir (m + 5m 2 ) /2. Na figura seguinte mostra-se uma simulação com dois activos.<br />
9.6 Modelo de Correlações Condicionais Constantes<br />
O modelo VEC sem restrições é (quase) impossível de ser implementado. O modelo BEKK<br />
envolve ainda muitos parâmetros e a maximização da função de verosimilhança é extrema-<br />
mente difícil para m moderadamente elevado. A hipótese de Bollerslev (1990) consiste em<br />
admitir correlações condicionais constantes (i.e. iguais às correlações marginais): ρ ij,t = ρ ij.<br />
Esta hipótese reduz significativamente o número de parâmetros a estimar. Tem-se<br />
ρij = ρij,t = hij,t<br />
<br />
σ2 itσ2jt 349<br />
⇒ ht,ij = ρ ijσitσjt.
Logo<br />
Ht =<br />
=<br />
VEC BEEK Correl.Const.<br />
m (m (m + 1) /2) (1 + (m (m + 1))) m+5m2<br />
2<br />
3m + 1m<br />
(m − 1)<br />
2<br />
2 21 11 7<br />
3 78 24 12<br />
Tabela 9.2: Número de parâmetros a estimar<br />
⎛<br />
⎜<br />
⎝<br />
σ2 1t<br />
ρ12σ1tσ2t ρ12σ1tσ2t σ<br />
· · · ρ1mσ1tσmt 2 .<br />
2t<br />
.<br />
· · ·<br />
. ..<br />
ρ2mσ2tσmt .<br />
ρ1mσ1tσmt ρ2mσ2tσmt · · · σ2 ⎞<br />
⎟<br />
⎠<br />
⎛<br />
⎞⎛<br />
mt<br />
⎞⎛<br />
⎞<br />
σ1t<br />
⎜ 0<br />
⎜ .<br />
⎝<br />
0<br />
σ2t<br />
.<br />
· · ·<br />
· · ·<br />
. ..<br />
0<br />
0<br />
.<br />
⎟⎜<br />
⎟⎜<br />
⎟⎜<br />
⎟⎜<br />
⎟⎜<br />
⎟⎜<br />
⎠⎝<br />
1<br />
ρ12 .<br />
ρ12 1<br />
.<br />
· · ·<br />
· · ·<br />
. ..<br />
ρ1m σ1t<br />
⎟⎜<br />
⎟⎜<br />
ρ2m ⎟⎜<br />
0<br />
⎟⎜<br />
⎟⎜<br />
. ⎟⎜<br />
.<br />
⎠⎝<br />
0<br />
σ2t<br />
.<br />
· · ·<br />
· · ·<br />
. ..<br />
0<br />
0<br />
.<br />
⎟<br />
⎠<br />
<br />
0 0 · · ·<br />
<br />
σmt<br />
<br />
ρ1m ρ2m · · ·<br />
<br />
1<br />
<br />
0 0 · · ·<br />
<br />
σmt<br />
<br />
= DtRDt.<br />
Dt<br />
Supondo que σ 2 it = ωi + αiu 2 i,t−1 + β iσ 2 i,t−1, cada elemento σ 2 it envolve 3 parâmetros.<br />
Por outro lado, a matriz R envolve m (m − 1) /2 parâmetros. Na tabela 9.2 comparam-se os<br />
modelos VEC, BEEK e de correlações constantes (na versão “GARCH(1,1)”.<br />
Não só o número de parâmetros a estimar é menor como também a maximização da<br />
função de log-verosimilhança é mais fácil. Retome-se a equação (9.1):<br />
log Ln (θ) = − nm<br />
2<br />
log (2π) − 1<br />
2<br />
n<br />
t=1<br />
R<br />
log |Ht| − 1<br />
2<br />
Pode-se simplificar esta expressão atendendo aos seguintes resultados:<br />
Ht = DtRDt,<br />
n<br />
t=1<br />
Dt<br />
(yt − µ t) ′ H −1<br />
t (yt − µ t) .<br />
log |Ht| = log |DtRDt| = log |Dt| + log |R| + log |Dt| = 2 log |Dt| + log |R| ,<br />
(yt − µ t) ′ H −1<br />
t (yt − µ t) = (yt − µ t) ′ D −1<br />
t R −1 D −1<br />
t (yt − µ t) = v ′ tR −1 vt.<br />
350
Observe-se que vt representa o vector das variáveis aleatórias estandardizadas:<br />
Assim,<br />
v ′ t = (yt − µ t) ′ D −1<br />
<br />
y1t−µ<br />
t =<br />
1t<br />
σ1t<br />
log Ln (θ) = − nm<br />
2<br />
log (2π) −<br />
n<br />
t=1<br />
y2t−µ 2t<br />
σ2t<br />
· · ·<br />
log |Dt| − n 1<br />
log |R| −<br />
2 2<br />
ymt−µ mt<br />
σmt<br />
<br />
.<br />
n<br />
v ′ tR −1 vt.<br />
Podemos simplificar log Ln (θ) se substituirmos R pela expressão que representa a solução<br />
da equação matricial ∂ log Ln (θ) /∂R = 0. Pode-se provar que tal solução é<br />
n t=1 R =<br />
vtv ′ t<br />
.<br />
n<br />
A função log-verosimilhança que assim se obtém designa-se função log-verosimilhança con-<br />
centrada:<br />
log Ln (θ) = const. −<br />
n<br />
log |Dt| − n<br />
2 log<br />
<br />
<br />
<br />
<br />
t=1<br />
n<br />
t=1 vtv ′ t<br />
n<br />
<br />
<br />
<br />
<br />
− 1<br />
2<br />
n<br />
t=1<br />
v ′ t<br />
t=1<br />
n t=1 v′ −1 tvt<br />
vt.<br />
n<br />
Sabendo log |Dt| = log (σ1t + ... + σmt) , e utilizando-se mais algumas propriedades ele-<br />
mentares do cálculo matricial, a expressão da função log-verosimilhança pode ainda apresentar-<br />
se na forma simplificada:<br />
log Ln (θ) = const. −<br />
n<br />
log (σ1t + ... + σmt) − n<br />
2 log<br />
<br />
n <br />
<br />
<br />
t=1<br />
Note-se que | n<br />
t=1 vtv ′ t| é naturalmente o determinante de n<br />
t=1 vtv ′ t. Nos modelos VEC e<br />
BEEK, é necessário inverter a matriz Ht para cada t e para cada iteração do algoritmo de<br />
maximização. Esta dificuldade é superada com o presente modelo. A principal desvantagem<br />
do modelo em análise é o de assumir correlações condicionais constantes.<br />
9.7 Modelo DCC<br />
O modelo DCC (Dynamic Conditional Correlation), devido a Engle (2002), é uma extensão<br />
do modelo de correlações condicionais constantes (CCC).<br />
No modelo de CCC a matriz de variâncias-covariâncias é definida como Ht = DtRDt,<br />
351<br />
t=1<br />
vtv ′ t<br />
<br />
<br />
<br />
<br />
.
sendo R a matriz de correlações condicionais (constante). Esta matriz é, por definição,<br />
E (vtv ′ t| Ft−1) e calcula-se da seguinte forma:<br />
E (vtv ′ t| Ft−1) = E D −1<br />
t (yt − µ t) (yt − µ t) ′ D −1<br />
<br />
t<br />
Ft−1<br />
−1<br />
= Dt HtD −1<br />
t = R.<br />
Nos modelos VEC e BEKK (entre outros) a matriz E (vtv ′ t| Ft−1) é variável ao longo<br />
do tempo. Este resultado decorre das hipóteses formuladas para Ht (é, portanto, uma conse-<br />
quência da forma como Ht é especificada). No modelo DCC E (vtv ′ t| Ft−1) também é var-<br />
iável, mas este resultado decorre directamente da forma como a matriz E (vtv ′ t| Ft−1) é para-<br />
metrizada. A ideia consiste em propor um modelo para Rt = E (vtv ′ t| Ft−1) . Considere-se<br />
Como parametrizar ou modelar ρ ij,t?<br />
** incompleto**<br />
9.8 Modelo “Triangular”<br />
⎛<br />
⎞<br />
⎜<br />
Rt = ⎜<br />
⎝<br />
1<br />
ρ12,t .<br />
ρ12,t 1<br />
.<br />
· · ·<br />
· · ·<br />
. ..<br />
ρ1m,t ⎟<br />
ρ2m,t ⎟ .<br />
. ⎟<br />
⎠<br />
ρ1m,t ρ2m,t · · · 1<br />
9.8.1 Introdução e Formalização do Modelo<br />
O modelo que designamos de triangular é inspirado em Christiansen (2007).<br />
Em certas aplicações é admissível supor que a média de y1t condicionada a F y1<br />
t−1 =<br />
{y1,t−1, y1,t−2, ...} não depende de F y2<br />
t−1 = {y2,t−1, y2,t−2, ...} , i.e.,<br />
E y1t| F y1<br />
t−1 ∪ F y2<br />
<br />
t−1 = E y1t| F y1<br />
<br />
t−1 .<br />
Diz-se, nestes casos, que y2 não causa à Granger y1. Para concretizar, suponha-se que y1t<br />
é o retorno do NASDAQ e y2t é o retorno do PSI20. Dadas as dimensões relativas dos<br />
mercados, não faz sentido, supor-se que y1 (NASDAQ) dado todo o seu passado, possa ser<br />
influenciado pelos valores atrasados de y2 (PSI20). Também em termos de volatilidade,<br />
idêntica conjectura pode ser estabelecida, i.e., a variância de y1t condicionada em F y1<br />
t−1 não<br />
depende dos valores passados de y2, F y2<br />
t−1. No entanto, y2 (PSI20) dado F y2<br />
t−1 pode depender<br />
352
de F y1<br />
t−1 (valores passados do NASDAQ).<br />
Para processos y1 e y2 com as características acima descritas, é possível definirem-se<br />
processos multivariados simplificados.<br />
Para se ilustrar o modelo, considere-se o processo y = (y1, y2, y3) e suponham-se as<br />
seguintes relações: y1 ↣ y2 ↣ y3 onde “y1 ↣ y2” significa y1 influencia y2 dado F y2<br />
t−1 e<br />
y2 não influencia y1 dado F y1<br />
t−1. Suponha-se ainda que y segue um processo VAR(1) (vector<br />
autoregressivo de ordem 1). Sob a hipótese y1 ↣ y2 ↣ y3 e VAR(1), o processo y tem a<br />
seguinte representação:<br />
⎛<br />
⎜<br />
⎝<br />
y1t<br />
y2t<br />
y3t<br />
⎞<br />
⎛<br />
⎟<br />
⎠ =<br />
⎜<br />
⎝<br />
c1<br />
c2<br />
c3<br />
⎞<br />
⎟<br />
⎠ +<br />
⎛<br />
φ<br />
⎜ 11<br />
⎜ φ21 ⎝<br />
0<br />
φ22 0<br />
0<br />
φ 31 φ 32 φ 33<br />
⎞ ⎛<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎠ ⎝<br />
y1,t−1<br />
y2,t−1<br />
y3,t−1<br />
⎞<br />
⎛<br />
⎟<br />
⎠ +<br />
⎜<br />
⎝<br />
u1t<br />
u2t<br />
u3t<br />
⎞<br />
⎟ . (9.5)<br />
⎠<br />
A matriz dos coeficientes autoregressivos é triangular, porque na média condicional y1,t ape-<br />
nas depende de y1,t−1, y2t depende de y1,t−1 e y2,t−1 e y3t depende de y1,t−1, y2,t−1 e y3,t−1.<br />
Como definir a estrutura de dependências do segundo momento condicional, continuando<br />
a assumir a relação y1 ↣ y2 ↣ y3? Uma forma simples e que facilita extraordinariamente a<br />
estimação do modelo, consiste em admitir que<br />
⎧<br />
⎪⎨<br />
⎪⎩<br />
u1t = e1t<br />
u2t = ae1t + e2t<br />
u3t = be1t + ce2t + e3t<br />
⎛ ⎞ ⎛ ⎞⎛<br />
⎞<br />
⎜<br />
⇔ ⎜<br />
⎝<br />
u1t<br />
u2t<br />
1<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎟ = ⎜ a<br />
⎠ ⎝<br />
0<br />
1<br />
0 e1t ⎟⎜<br />
⎟<br />
⎟⎜<br />
⎟<br />
0 ⎟⎜<br />
e2t ⎟<br />
⎠⎝<br />
⎠<br />
<br />
u3t<br />
<br />
b c<br />
<br />
1<br />
<br />
e3t<br />
<br />
onde se admite que (e1t, e2t, e3t) são independentes entre si, e eit| Ft−1 ∼ N (0, σ 2 it) , σ 2 it =<br />
ωi + αie 2 i,t−1 + β iσ 2 i,t−1. Observe-se que u2t depende de e2t (efeitos idiossincrásicos) e ainda<br />
dos choques idiossincrásicos da primeira equação. Por seu turno, u3t depende de e3t (efeitos<br />
idiossincrásicos) e ainda dos choques idiossincrásicos da primeira e da segunda equação. A<br />
volatilidade que decorre dos efeitos não idiossincrásicos designa-se de volatility spillover.<br />
ut<br />
A designação “modelo triangular” é agora óbvia: a equação matricial (9.5) representa-se<br />
na forma,<br />
yt = c + Φy t−1 + Ψet<br />
Ψ<br />
et<br />
(9.6)<br />
sendo Φ e Ψ matrizes triangulares inferiores. Naturalmente que se perde a relação y1 ↣<br />
y2 ↣ y3, se as matrizes Φ e Ψ não forem triangulares inferiores.<br />
353
Dadas as hipótese sobre o vector et, defina-se<br />
Σt := Var (et| Ft−1) =<br />
⎛<br />
⎜<br />
⎝<br />
Tendo em conta σ 2 it = ωi + αie 2 i,t−1 + β iσ 2 i,t−1, tem-se<br />
⎛<br />
⎞<br />
Σt =<br />
ω1 ⎜ 0<br />
⎝<br />
0<br />
ω2<br />
0<br />
0<br />
⎟<br />
⎠<br />
0 0 ω3<br />
+<br />
⎛<br />
⎜<br />
⎝<br />
⎛<br />
β<br />
⎜ 1σ<br />
⎜<br />
+ ⎜<br />
⎝<br />
2 1,t−1<br />
0<br />
0<br />
β2σ 0<br />
2 2,t−1 0<br />
0 0 β3σ 2 ⎞<br />
⎟<br />
⎠<br />
⎛<br />
⎞<br />
3,t−1<br />
=<br />
ω1 ⎜ 0<br />
⎝<br />
0<br />
ω2<br />
0<br />
0<br />
⎟<br />
⎠<br />
0<br />
⎛<br />
0 ω3<br />
⎞ ⎛<br />
α1 ⎜<br />
+ ⎜ 0<br />
⎝<br />
0<br />
α2<br />
0<br />
0<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎟ ◦ ⎜<br />
⎠ ⎝<br />
<br />
0 0<br />
<br />
α3<br />
<br />
A<br />
σ 2 1,t 0 0<br />
0 σ 2 2,t 0<br />
0 0 σ 2 3,t<br />
α1e 2 1,t−1 0 0<br />
0 α2e 2 2,t−1 0<br />
⎞<br />
⎟<br />
⎠ .<br />
0 0 α3e 2 3,t−1<br />
⎞<br />
⎟<br />
⎠<br />
e 2 1,t−1 e1,t−1e2,t−1 e1,t−1e3,t−1<br />
e1,t−1e2,t−1 e 2 2,t−1 e2,t−1e3,t−1<br />
e1,t−1e3,t−1 e2,t−1e3,t−1 e2 <br />
et−1e<br />
3,t−1<br />
<br />
′ t−1<br />
⎛<br />
⎞ ⎛<br />
β<br />
⎜ 1<br />
⎜<br />
+ ⎜ 0<br />
⎝<br />
0<br />
β2 0<br />
0<br />
σ<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎟ ◦ ⎜<br />
⎠ ⎝<br />
<br />
0 0<br />
<br />
B<br />
β3 <br />
2 1,t−1<br />
0<br />
0<br />
σ<br />
0<br />
2 2,t−1 0<br />
0 0 σ2 ⎞<br />
⎟<br />
⎠<br />
<br />
3,t−1<br />
<br />
= W + A ◦ et−1e ′ t−1 + B ◦ Σt−1<br />
onde “◦” é o produto de Hadamard e A e B são matrizes diagonais, tendo como elementos<br />
genéricos αi e β i, respectivamente.<br />
Para se estudar a relação entre Var (et| Ft−1) (= Σt) e Var (ut| Ft−1) (= Ht) comece-se<br />
354<br />
Σt−1<br />
⎞<br />
⎟<br />
⎠
por observar que<br />
e, portanto,<br />
ut = Ψet,<br />
et = Ψ −1 ut,<br />
ete ′ t = Ψ −1 utu ′ −1<br />
t Ψ ′<br />
.<br />
Ht = Var (ut| Ft−1) = Var (Ψet| Ft−1) = Ψ Var (et| Ft−1) Ψ ′ = ΨΣtΨ ′ .<br />
Desta última relação (i.e., Ht = ΨΣtΨ ′ ), sai Σt = Ψ −1 Ht (Ψ −1 ) ′ . Em suma,<br />
Ht = ΨΣtΨ ′<br />
= ΨWΨ ′ + Ψ A ◦ et−1e ′ t−1<br />
= ΨWΨ ′ + Ψ<br />
<br />
A ◦ Ψ −1 ut−1u ′ t−1<br />
Ψ ′ + Ψ (B ◦ Σt−1) Ψ ′<br />
−1<br />
Ψ ′ <br />
Ψ ′ <br />
+ Ψ B ◦ Ψ −1 −1<br />
Ht−1 Ψ ′ <br />
Ψ ′ .<br />
Esta última relação escreve Ht como função dos termos ui,t−1uj,t−1 e hij,t−1. Expandindo<br />
a expressão anterior e depois de cálculos simples mas fastidiosos obtém-se, por exemplo,<br />
h22,t = a 2 ω1 + ω2 + a 2 (α1 + α2) u 2 1,t−1<br />
−2aα2u1,t−1u2,t−1 + a 2 (β 1 + β 2) h11,t−1 − 2aβ 2h12,t−1 + β 2h22,t−1<br />
(todas as expressões hij,t podem ser assim obtidas).<br />
É também interessante obter Ht como função das expressões σ 2 i,t:<br />
Ht = ΨΣtΨ ′<br />
⎛ ⎞ ⎛<br />
=<br />
1<br />
⎜ a<br />
⎝<br />
0<br />
1<br />
0<br />
⎟ ⎜<br />
⎟ ⎜<br />
0 ⎟ ⎜<br />
⎠ ⎝<br />
b<br />
⎛<br />
c 1<br />
=<br />
⎜<br />
⎝<br />
σ 2 1,t 0 0<br />
0 σ 2 2,t 0<br />
0 0 σ 2 3,t<br />
σ 2 1,t aσ 2 1,t bσ 2 1,t<br />
⎞ ⎛ ⎞<br />
1<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎟ ⎜ 0<br />
⎠ ⎝<br />
a<br />
1<br />
b<br />
⎟<br />
c ⎟<br />
⎠<br />
0 0 1<br />
⎞<br />
aσ 2 1,t a 2 σ 2 1,t + σ 2 2,t abσ 2 1,t + cσ 2 2,t<br />
bσ 2 1,t abσ 2 1,t + cσ 2 2,t b 2 σ 2 1,t + c 2 σ 2 2,t + σ 2 3,t<br />
355<br />
⎟ . (9.7)<br />
⎠
A partir de (9.7), deduzem-se também os coeficientes de correlação condicionados:<br />
ρ 12,t =<br />
ρ 13,t =<br />
ρ 23,t =<br />
<br />
σ2 <br />
1,t<br />
aσ 2 1,t<br />
a 2 σ 2 1,t + σ 2 2,t<br />
bσ 2 1,t<br />
=<br />
<br />
σ2 <br />
1,t b2σ2 1,t + c2σ2 2,t + σ2 3,t<br />
<br />
a2σ2 1,t + σ2 <br />
2,t<br />
abσ 2 1,t + cσ 2 2,t<br />
aσ1,t<br />
<br />
a 2 σ 2 1,t + σ 2 2,t<br />
=<br />
b 2 σ 2 1,t + c 2 σ 2 2,t + σ 2 3,t<br />
bσ1,t<br />
<br />
b 2 σ 2 1,t + c 2 σ 2 2,t + σ 2 3,t<br />
Os sinais dos coeficientes a, b e c são decisivos nos sinais dos coeficientes de correlação<br />
condicionados.<br />
Observação 9.8.1 Tendo em conta as relação Vec (ABC) = (B ′ ⊗ A) Vec (C) e Vec (A ◦ B) =<br />
diag (Vec (A)) Vec (B) onde ⊗ é o produto de Kronecker e diag é definido como<br />
⎛⎛<br />
diag ⎝<br />
⎝ x1<br />
x2<br />
⎞⎞<br />
⎠⎠<br />
=<br />
⎛<br />
⎝ x1 0<br />
0 x2<br />
é possível reescrever Ht usando o operador Vec. Depois de algumas contas, obtém-se<br />
onde<br />
Vec (Ht) = ˜W + Ã Vec ut−1u ′ <br />
t−1 + ˜B Vec (Ht−1) (9.8)<br />
˜W = (Ψ ⊗ Ψ) Vec (W) ,<br />
.<br />
⎞<br />
⎠ ,<br />
à = (Ψ ⊗ Ψ) diag (Vec (A)) Ψ −1 ⊗ Ψ −1 ,<br />
˜B = (Ψ ⊗ Ψ) diag (Vec (B)) Ψ −1 ⊗ Ψ −1 .<br />
Como a equação (9.8) está basicamente na forma da equação (9.2) deduz-se que a condição<br />
de ESO do processo {ut} estabelece que todos os valores próprios de à + ˜B sejam, em mó-<br />
dulo, menores do que um. Pode-se provar que os valores próprios de à + ˜B são {0, 0, 0, 0, 0, 0, α1+<br />
β 1, α2 + β 3, α3 + β 3}. Logo, dado αi, β i ≥ 0, o processo é ESO sse αi + β i < 1, i = 1, 2, 3.<br />
Conclui-se que a condição de segunda ordem coincide com a do processo {et} .<br />
356
9.8.2 Estimação<br />
Considere a representação yt = c + Φy t−1 + Ψet (equação (9.6)), isto é,<br />
y1t = c1 + φ 11y1,t−1 + e1t (9.9)<br />
y2t = c2 + φ 21y1,t−1 + φ 22y2,t−1 + ae1t + e2t (9.10)<br />
y3t = c3 + φ 31y1,t−1 + φ 32y2,t−1 + φ 33y3,t−1 + be1t + ce2t + e3t (9.11)<br />
onde eit| Ft−1 ∼ N (0, σ 2 it) , σ 2 it = ωi + αie 2 i,t−1 + β iσ 2 i,t−1. A estimação do modelo pode ser<br />
conduzida da seguinte forma:<br />
1. Estimar a equação (9.9), pelo método da máxima verosimilhança, e obter os resíduos<br />
{ê1t} .<br />
2. Substituir, na equação (9.10), e1t por ê1t e estimar o modelo. Obter os resíduos {ê2t} .<br />
3. Substituir, na equação (9.11), e1t por ê1t e e2t por ê2t e estimar o modelo.<br />
Estuda-se a seguir a verosimilhança associada ao modelo em análise. A função log-<br />
verosimilhança é dada pela expressão (9.1). Tendo em conta a estrutura “triangular” do<br />
modelo é possível simplificar a log-verosimilhança e decompô-la em três parcelas, como se<br />
mostra a seguir. Observe-se, em primeiro lugar,<br />
Tem-se assim,<br />
(yt − µ t) ′ H −1<br />
t (yt − µ t) = u ′ t (Ψ ′ ) −1 Σ −1<br />
t Ψ −1 ut<br />
= 1<br />
σ2 u<br />
1t<br />
2 1t + 1<br />
σ2 (u2t − au1t)<br />
2t<br />
2<br />
log |Ht| = log |ΨΣtΨ ′ | = log |Ψ| 2 |Σt| <br />
+ 1<br />
σ2 (u3t − (b − ac) u1t − cu2t)<br />
3t<br />
2<br />
= log |Ψ| 2 + log (|Σt|) = log (1) + log σ 2 1tσ 2 2tσ 2 3t<br />
= log σ 2 <br />
2 2<br />
1t + log σ2t + log σ3t (b − ac) u1t − cu2t = −be1t − ce2t.<br />
357
log Ln (θ) = − nm 1<br />
log (2π) −<br />
2 2<br />
= − nm 1<br />
log (2π) −<br />
2 2<br />
− 1<br />
n<br />
<br />
1<br />
2<br />
t=1<br />
n<br />
t=1<br />
n<br />
t=1<br />
log |Ht| − 1<br />
2<br />
n<br />
t=1<br />
(yt − µ t) ′ H −1<br />
t (yt − µ t) .<br />
<br />
2 2 2<br />
log σ1t + log σ2t + log σ3t σ2 u<br />
1t<br />
2 1t + 1<br />
σ2 (u2t − au1t)<br />
2t<br />
2<br />
+ 1<br />
σ2 (u3t − (b − ac) u1t − cu2t)<br />
3t<br />
2<br />
= − nm<br />
n 1 <br />
2 2 2<br />
log (2π) − log σ1t + log σ2t + log σ3t 2 2<br />
t=1<br />
− 1<br />
n<br />
<br />
1<br />
2 σ<br />
t=1<br />
2 u<br />
1t<br />
2 1t + 1<br />
σ2 (u2t − ae1t)<br />
2t<br />
2 + 1<br />
σ2 3t<br />
= − nm<br />
<br />
log (2π) + −<br />
2 1<br />
n<br />
log<br />
2<br />
t=1<br />
σ 2 <br />
n 1 1<br />
1t −<br />
2 σ<br />
t=1<br />
2 u<br />
1t<br />
2 <br />
1t<br />
<br />
log Ln,1<br />
<br />
+ − 1<br />
n<br />
log<br />
2<br />
t=1<br />
σ 2 <br />
n 1 1<br />
2t −<br />
2 σ<br />
t=1<br />
2 (u2t − ae1t)<br />
2t<br />
2<br />
<br />
<br />
log Ln,2<br />
<br />
− 1<br />
n<br />
log<br />
2<br />
t=1<br />
σ 2 <br />
n 1 1<br />
3t −<br />
2 σ<br />
t=1<br />
2 (u3t − be1t − ce2t)<br />
3t<br />
2<br />
<br />
<br />
log Ln,3<br />
= log Ln,1 + log Ln,2 + log Ln,3<br />
<br />
(u3t − be1t − ce2t) 2<br />
<br />
(9.12)<br />
(9.13)<br />
(9.14)<br />
A decomposição log Ln (θ) = log Ln,1+log Ln,2+log Ln,3, mostra que a estimação pode<br />
ser feita consistentemente de acordo com os passos acima indicados. A primeira parcela,<br />
log Ln,1, só depende do vector<br />
θ1 = (c1, φ 11, ω1, α1, β 1) ′ .<br />
Estes parâmetros são estimados de forma consistente e eficiente maximizando (apenas) log Ln,1<br />
(trata-se, portanto, da estimação, pelos métodos habituais, da equação (9.9)). A segunda<br />
parcela, log Ln,2, depende do vector,<br />
θ2 = (c2, φ 21, φ 22, ω2, α2, β 2, a) ′<br />
358
e ainda de θ1, através dos erros {e1t} . A estimação de θ2 através da maximização de log Ln,2<br />
pode ser feita de forma consistente, mas não eficiente, substituindo os erros {e1t} por {ê1t} .<br />
A estimação é consistente pois {ê1t} baseiam-se no estimador consistente ˆ θ1, obtido no<br />
primeiro passo. Claro que a maximização de log Ln,2 corresponde à estimação da equação<br />
(9.10), pelos métodos habituais ((com {ê1t} em lugar de {e1t}). Este raciocínio aplica-se de<br />
forma análoga a log Ln,3.<br />
Como nota final, observe-se que a estimação do modelo pode ser totalmente eficiente<br />
se a maximização de log Ln for simultânea (confiram-se as equações (9.12)-(9.14)). Como<br />
se sabe, o problema da maximização de log Ln é, entre outros, o dos valores iniciais dos<br />
parâmetros a estimar. Este problema é mitigado no presente contexto: basta fornecer como<br />
valores iniciais as estimativas obtidas na estimação em três passos, acima apresentada.<br />
9.8.3 Testes e Rácios de Variância<br />
Considere-se novamente<br />
⎧<br />
⎪⎨<br />
⎪⎩<br />
u1t = e1t<br />
u2t = ae1t + e2t<br />
u3t = be1t + ce2t + e3t<br />
,<br />
⎧<br />
⎪⎨<br />
⎪⎩<br />
h11,t = σ 2 1t<br />
h22,t = a 2 σ 2 1t + σ 2 2t<br />
h33,t = b 2 σ 2 1t + c 2 σ 2 2t + σ 2 3t.<br />
Observámos que u2t depende de e2t (efeitos idiossincrásicos) e ainda dos choques idiossin-<br />
crásicos da primeira equação. Por seu turno, u3t depende de e3t (efeitos idiossincrásicos) e<br />
ainda dos choques idiossincrásicos da primeira e da segunda equação. Como referimos, a<br />
volatilidade que decorre dos efeitos não idiossincrásicos designa-se de volatility spillover.<br />
Desta forma, existem efeitos de volatility spillover do mercado 1 para o mercado 2 se a = 0<br />
e dos mercados 1 e 2 para o mercado 3 se b = 0 e c = 0.<br />
Pode-se ainda obter informação sobre a evolução da transmissão da volatilidade ao longo<br />
do tempo através de rácios de volatilidade. Seja RV i,j<br />
t<br />
a proporção da variância do mercado<br />
j que é causada pelo efeito de volatility spillover do mercado i (efeito do mercado i para j,<br />
i ↦→ j). Tem-se<br />
RV 1,2<br />
t = a2σ2 1t<br />
h22,t<br />
RV 1,3<br />
t = b2 σ 2 1t<br />
h33,t<br />
,<br />
359<br />
RV 2,3<br />
t<br />
= c2σ2 2t<br />
.<br />
h33,t
Dependent Variable: R1<br />
Method: ML ARCH<br />
Sample (adjusted): 6/01/1993 4/09/2009<br />
Included observations: 4055 after adjustments<br />
Variable Coefficient Std. Error zStatistic Prob.<br />
C 0.052202 0.013247 3.940658 0.0001<br />
R1(1) 0.017161 0.017808 0.963644 0.3352<br />
Variance Equation<br />
C 0.007049 0.001077 6.546092 0.0000<br />
RESID(1)^2 0.066257 0.004820 13.74617 0.0000<br />
GARCH(1) 0.929667 0.005114 181.7812 0.0000<br />
Figura 9-2: Estimação, primeiro passo - ver equação (9.9)<br />
Dependent Variable: R2<br />
Method: ML ARCH<br />
Sample (adjusted): 6/01/1993 4/09/2009<br />
Included observations: 4055 after adjustments<br />
Por exemplo, RV 2,3<br />
t<br />
Variable Coefficient Std. Error zStatistic Prob.<br />
C 0.052704 0.013123 4.016235 0.0001<br />
R1(1) 0.449084 0.019369 23.18547 0.0000<br />
R2(1) 0.179191 0.015456 11.59382 0.0000<br />
RES1 0.552914 0.015972 34.61746 0.0000<br />
Variance Equation<br />
C 0.009916 0.002944 3.367632 0.0008<br />
RESID(1)^2 0.068232 0.010502 6.497201 0.0000<br />
GARCH(1) 0.923938 0.010928 84.55149 0.0000<br />
Figura 9-3: Estimação, segundo passo - ver equação (9.10)<br />
representa a proporção da variância condicional do mercado 3 que é<br />
causada pelo efeito volatility spillover do mercado 2.<br />
9.8.4 Exemplo<br />
Pinto (2010) analisou a transmissão de volatilidade do mercado Norte-Americano (US) para<br />
o mercado Europeu (EU) e, em particular, as repercussões destes dois mercados no mercado<br />
Português (PT), através de um modelo triangular. O período analisado foi 4 de Janeiro de<br />
1993 a 4 de Setembro de 2009. As variáveis em análise são: r1t - retorno do SP500, r2t -<br />
retorno do DJ Euro 50 e r3t - retorno do PSI 20. Nas figuras 9-2 a 9-4 apresentam-se os<br />
modelos estimados (na versão mais simples).<br />
É fácil constatar que existe evidência estatística de efeitos de volatility spillover do mer-<br />
cado US para o mercado EU (â = 0.55291 e rejeita-se a hipótese a = 0 com p-value = 0 - ver<br />
figura 9-3) e dos mercados US e EU para o mercado PT ( ˆ b = 0.233, ĉ = 0.4066 e rejeitam-se<br />
as hipóteses b = 0 e c = 0 - ver figura 9-4).<br />
360
Dependent Variable: R3<br />
Method: ML ARCH<br />
Sample (adjusted): 6/01/1993 4/09/2009<br />
Included observations: 4055 after adjustments<br />
Variable Coefficient Std. Error zStatistic Prob.<br />
C 0.043610 0.010837 4.024173 0.0001<br />
R1(1) 0.222423 0.010966 20.28223 0.0000<br />
R2(1) 0.093210 0.012230 7.621611 0.0000<br />
R3(1) 0.143101 0.016376 8.738563 0.0000<br />
RES1 0.233364 0.007759 30.07544 0.0000<br />
RES2 0.406663 0.008429 48.24352 0.0000<br />
Variance Equation<br />
C 0.027709 0.002862 9.681126 0.0000<br />
RESID(1)^2 0.158430 0.009900 16.00381 0.0000<br />
GARCH(1) 0.815877 0.010650 76.60615 0.0000<br />
Figura 9-4: Estimação, terceiro passo - ver equação (9.11)<br />
Na figura 9-5 apresentam-se os coeficientes de correlação condicionados (valores médios<br />
mensais). Podem ser retiradas algumas conclusões:<br />
• As correlações condicionadas entre os mercados US e EU e entre os mercados EU e<br />
PT são, em média, relativamente fortes.<br />
• A correlação menos expressiva, mas significativa, é entre o mercado US e o mercado<br />
PT, embora se assista ao longo do período a um aumento dessa correlação.<br />
• Tendo em conta que as correlações são positivas, os retornos tendem a flutuar na<br />
mesma direcção; por outro lado, verifica-se uma tendência de crescimento das corre-<br />
lações, ou seja, uma tendência crescente de interligação entre os diferentes mercados.<br />
• Alguns dos valores mais altos dos coeficientes de correlação coincidem com algumas<br />
crises financeiras 5 . Este facto é particularmente notório com a crise do subprime de<br />
2008.<br />
Na figura 9-6 analisa-se a transmissão da volatilidade dos mercados EU e US para o<br />
mercado PT através dos rácios de volatilidade. São considerados os seguintes rácios<br />
RV _USt = RV 1,3<br />
t<br />
RV _EUt = RV 2,3<br />
t<br />
= ˆb 2ˆσ 2<br />
1t<br />
ˆh33,t<br />
= ĉ2ˆσ 2<br />
2t<br />
ˆh33,t<br />
RV _P Tt = 1 − RV _USt − RV _EUt.<br />
5 As principais crises financeiras no período em análise são as seguintes: Recessão do Japão, 1991; Crise do<br />
México, 1994/1995; Bolha Dot.com, 2000; Crise de 2001 (ataque às Twin Towers); Crise da Argentina, 2002;<br />
Crise do Subprime, 2007/2008.<br />
361<br />
,<br />
,
.9<br />
.8<br />
.7<br />
.6<br />
.5<br />
.4<br />
.3<br />
.2<br />
.1<br />
94 96 98 00 02 04 06 08<br />
PTEU PTUS EUUS<br />
Figura 9-5: Coeficientes de Correlação Condicional<br />
Podem ser retiradas algumas conclusões:<br />
• A volatilidade do mercado PT decorre em larga medida do seu próprio mercado (efeito<br />
idiossincrático), embora este efeito tenha a vindo a diminuir ao longo do tempo. Por<br />
outras palavras, o efeito de volatilidade spillover dos mercados EU e US sobre o mer-<br />
cado PT tem vindo a aumentar ao longo do tempo.<br />
• O efeito de volatilidade spillover do mercado EU (para o mercado PT) é geralmente<br />
mais forte do que o do mercado US. No entanto, no período da crise do subprime, o<br />
mercado US transmitiu mais volatilidade ao mercado PT do que o mercado EU.<br />
• Nos períodos de crise o efeito idiossincrático tende em geral a diminuir. Observe-se<br />
por exemplo, as crise de 2000 (das “dot.com”), de 2001 e de 2008.<br />
• Verifica-se uma tendência de crescimento do rácio de volatilidade US para o mercado<br />
PT.<br />
9.9 GARCH Ortogonal<br />
À semelhança do modelo “triangular”, a principal vantagem do GARCH ortogonal é a de<br />
podermos estimar um GARCH multivariado através de GARCH’s univariados.<br />
362
1.0<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0.0<br />
94 96 98 00 02 04 06 08<br />
RV_EU RV_PT RV_US<br />
Figura 9-6: Rácios de Volatilidade<br />
Seja yt = (y1t, y2t, ..., ymt) ′ o vector das observações no momento t (t = 1, ..., n). Se<br />
quisermos normalizar as variáveis consideramos<br />
xit = yit − E (yit)<br />
.<br />
(substituir E (yit) e σi pelos respectivos momentos da amostra, caso os parâmetros sejam<br />
desconhecidos). Logo E (xit) = 0 e Var (xit) = 1. Para simplificar suponha–se E (yit) = 0.<br />
Nestas condições podemos escrever<br />
⎛<br />
⎞⎛<br />
⎞<br />
σ1<br />
⎜ 0<br />
yt= ⎜ .<br />
⎝<br />
0<br />
σ2<br />
.<br />
· · ·<br />
· · ·<br />
. ..<br />
0<br />
0<br />
.<br />
⎟⎜<br />
⎟⎜<br />
⎟⎜<br />
⎟⎜<br />
⎟⎜<br />
⎟⎜<br />
⎠⎝<br />
x1t<br />
x2t<br />
.<br />
⎟ = Σxt.<br />
⎟<br />
⎠<br />
<br />
0 0 · · ·<br />
<br />
σm<br />
<br />
xmt<br />
<br />
Σ<br />
Suponha-se que é possível encontrar matrizes Pt de tipo m × 1 e W de tipo m × m nas<br />
seguintes condições:<br />
σi<br />
xt = WPt<br />
xt<br />
PtP ′ t é diagonal. (9.15)<br />
363
Suponha-se que W é não aleatório dado Ft−1. Vem<br />
Tendo em conta (9.15) vem<br />
E (PtP ′ t| Ft−1) =<br />
Cov (yt| Ft−1) = Cov (Σxt| Ft−1)<br />
⎛<br />
⎜<br />
⎝<br />
= E (Σxtx ′ tΣ| Ft−1)<br />
= Σ E (xtx ′ t| Ft−1) Σ<br />
= Σ E (WPtP ′ tW ′ | Ft−1) Σ<br />
= ΣW E (PtP ′ t| Ft−1) W ′ Σ<br />
E (P 2<br />
t1| Ft−1) 0 · · · 0<br />
0 E (P 2 2t| Ft−1) · · · 0<br />
.<br />
.<br />
. .. .<br />
0 0 · · · E (P 2 mt| Ft−1)<br />
Vantagem da especificação Cov (yt| Ft−1) = ΣW E (PtP ′ t| Ft−1) W ′ Σ ? Supondo que se<br />
conhecem as matrizes Σ e W, modelar Cov (yt| Ft−1) equivale a modelar apenas as variân-<br />
cias condicionais de Pit. Não temos que nos preocupar com a modelação das covariâncias<br />
condicionais! Além disso Cov (yt| Ft−1) é definida positiva, por construção.<br />
Obter a matriz W<br />
<br />
Seja X a matriz das observações estandardizadas, X =<br />
x•1 x•2 · · · x•m<br />
⎞<br />
⎟ .<br />
⎟<br />
⎠<br />
<br />
de tipo<br />
n × m (por exemplo, x•1 representa o vector das observações estandardizadas da variável 1)<br />
e<br />
ˆV = X′ X<br />
n .<br />
V é a matriz de correlações de yt. Por exemplo, o elemento (1, 2) de V é<br />
Considerar<br />
x ′ •1x•2<br />
n<br />
=<br />
=<br />
n<br />
t=1 x1tx2t<br />
1<br />
n<br />
n<br />
x ′ •1x•2<br />
n =<br />
n<br />
t=1<br />
y1t−E(y1t) y2t−E(y2t)<br />
n<br />
=<br />
σ1<br />
n<br />
σ2<br />
t=1 (y1t − E (y1t)) (y2t − E (y2t))<br />
.<br />
σ1σ2<br />
1 n<br />
n t=1 (y1t − ¯y1) (y2t − ¯y2)<br />
ˆσ1ˆσ2<br />
se os momentos E (y1t), E (y2t), σ1 e σ2 forem desconhecidos.<br />
364
Como se sabe, se W•i é vector próprio de V e λi é o valor próprio associado a W•i então<br />
Compactamente<br />
<br />
onde W =<br />
W•1 ... W•m<br />
ˆVW•i = λiW•i, i = 1, ..., m<br />
ˆVW = WΛ<br />
<br />
é a matriz dos vectores próprios associada a V e Λ = diag (λ1, ..., λm) .<br />
Note-se que W ′ W = I ( ˆV é simétrica, logo é possível obter W tal que W ′ W = I ). Como<br />
tem-se<br />
X = PW ′ ⇔ P = X (W ′ ) −1 = XW<br />
P ′ P = W ′ X ′ XW<br />
= nW ′ ˆVW<br />
= nW ′ WΛ<br />
= nΛ.<br />
Portanto, se W é a matriz dos vectores próprios associada a V então P ′ P é uma matriz<br />
diagonal.<br />
Passos:<br />
1. Estandardizar Y e obter X. Estimar<br />
2. Calcular ˆV = X ′ X/n.<br />
⎛<br />
⎞<br />
σ1<br />
⎜ 0<br />
Σ = ⎜ .<br />
⎝<br />
0<br />
σ2<br />
.<br />
· · ·<br />
· · ·<br />
. ..<br />
0<br />
0<br />
.<br />
⎟ ,<br />
⎟<br />
⎠<br />
σi =<br />
0 0 · · · σm<br />
Var (yit)<br />
3. Calcular os vector próprios (W) de ˆV.<br />
4. Obter P = XW.<br />
5. Modelar separadamente as coluna de P através de um GARCH.<br />
365
Figura 9-7: Aplicação (rendabilidade do índice de mercado: NASDAQ; INDUSTRIAL,<br />
COMPUTER)<br />
6. Para cada t considerar<br />
Cov (yt| Ft−1) = ΣW E (PtP ′ t| Ft−1) W ′ Σ.<br />
Modelação de Sistemas de Grande Dimensão<br />
É possível reduzir a calculatória considerando apenas certos vectores de P = XW - estes<br />
vectores designam-se de componentes principais. Para explicar esta ideia, considere-se<br />
P ′ P<br />
= Λ (9.16)<br />
n<br />
Logo Λ pode ser considerado uma estimativa da matriz de variâncias-covariâncias de P.<br />
Como<br />
<br />
P =<br />
P•1 ... P•m<br />
366
tem-se<br />
P ′ ⎛<br />
P<br />
⎜<br />
P = ⎜<br />
⎝<br />
′ •1P•1<br />
0<br />
0<br />
P<br />
· · · 0<br />
′ .<br />
•2P•2<br />
.<br />
· · ·<br />
.. .<br />
0<br />
.<br />
0 0 · · · P ′ ⎞<br />
⎟<br />
⎠<br />
•mP•m<br />
e, atendendo a (9.16), conclui-se que a variância da componente principal i é igual a<br />
P ′ •iP•i<br />
n<br />
Por outro lado, atendendo a X = PW ′ , tem-se<br />
X ′ X<br />
n =WP′ PW ′<br />
n<br />
= λi.<br />
= WΛW ′ .<br />
Em suma, a proporção da variação total de X que é explicada pela i-ésima componente<br />
principal é λi/ m<br />
j=1 λi = λi/m. Quanto maior for λi mais peso tem a i-ésima componente<br />
principal na explicação da variação total de X. As componentes principais cujos valores<br />
próprios são muitos baixos podem ser descartados. Na prática procede-se assim:<br />
• ordenam-se os valores próprios por ordem descendente , i.e. λ1 > λ2 > ...<br />
• ordenam-se os vectores próprios de acordo com os valores próprios ordenados, i.e., a<br />
primeira coluna de W, W•1, é o vector próprio associado a λ1, a segunda coluna de<br />
W•2 é o vector próprio associado a λ2, etc.<br />
Em lugar de se trabalhar com W trabalha-se com uma submatriz de W, seja W ∗ essa<br />
matriz, constituída pelas primeiras k colunas. Como resultado passa-se a ter apenas as k<br />
componentes principais mais significativas:<br />
P ∗ = XW ∗<br />
que tem dimensão n × k. Nestas circunstâncias é necessário modelar apenas estas k compo-<br />
nentes principais. Assim,<br />
Cov (yt| Ft−1) ≈ ΣW ∗ E P ∗ t (P ∗ t ) ′ <br />
∗ ′<br />
Ft−1 (W ) Σ<br />
367
e<br />
E P ∗ t (P ∗ t ) ′ ⎛<br />
⎜<br />
E (P<br />
⎜<br />
⎜<br />
Ft−1 = ⎜<br />
⎝<br />
2 1t| Ft−1)<br />
0<br />
0<br />
E (P<br />
· · · 0<br />
2 .<br />
2t| Ft−1)<br />
.<br />
· · ·<br />
. ..<br />
0<br />
.<br />
0 0 · · · E (P 2<br />
tk | Ft−1)<br />
(P ∗ t é a linha t da matriz P ∗ ).<br />
Passos:<br />
1. Estandardizar Y e obter X. Estimar<br />
2. Calcular ˆV = X ′ X/n.<br />
⎛<br />
⎞<br />
σ1<br />
⎜ 0<br />
Σ = ⎜ .<br />
⎝<br />
0<br />
σ2<br />
.<br />
· · ·<br />
· · ·<br />
. ..<br />
0<br />
0<br />
.<br />
⎟ ,<br />
⎟<br />
⎠<br />
σi =<br />
0 0 · · · σm<br />
Var (yit)<br />
3. Calcular os valores próprios e vector próprios de ˆV (ordenam-se os valores próprios<br />
por ordem descendente , i.e. λ1 > λ2 > ...e ordenam-se os vectores próprios de acordo<br />
com os valores próprios ordenados).<br />
4. A partir do passo 3 obter W ∗ e P ∗ = XW ∗ .<br />
5. Modelar separadamente coluna de P ∗ através de um GARCH.<br />
6. Para cada t considerar<br />
9.10 Testes de Diagnóstico<br />
Cov (yt| Ft−1) ≈ ΣW ∗ E P ∗ t (P ∗ t ) ′ <br />
∗ ′<br />
Ft−1 (W ) Σ.<br />
Nos vários modelos, a hipótese de partida é ut| Ft−1 ∼ N (0, H t) ou, de forma equiva-<br />
lente, ut = H 1/2<br />
t εt onde εt ∼ N (0, I m) . Se o modelo estiver correctamente especificado,<br />
{εt} deve ser uma sucessão de vectores i.i.d., com matriz de variâncias-covariâcias (con-<br />
temporânea) dada por Im. Naturalmente que εt é desconhecido, mas pode ser estimado da<br />
368<br />
⎞<br />
⎟ .<br />
⎟<br />
⎠
seguinte forma<br />
ˆεt = ˆH −1/2<br />
t ût.<br />
ˆεt é o vector dos resíduos estandardizados (e ût é o vector dos resíduos). A matriz ˆH −1/2<br />
t<br />
pode obter-se a partir da decomposição Cholesky, seguindo os seguintes passos. 1) Dado<br />
ˆHt, obter uma matriz triangular ˆH 1/2<br />
t , usando a decomposição de Cholesky, i.e., obter uma<br />
matriz ˆH 1/2<br />
t tal que ˆHt = ˆH 1/2<br />
<br />
ˆH t<br />
1/2<br />
′<br />
t ; 2) Inverter ˆH 1/2<br />
t . Por exemplo, considere-se um<br />
sistema de duas equações (m = 2)<br />
Ht =<br />
⎡<br />
⎣ σ2 1t<br />
σ12,t<br />
σ12,t σ 2 2t<br />
A decomposição de Cholesky fornece<br />
H 1/2<br />
t<br />
(verifique que o produto H 1/2<br />
<br />
t<br />
H −1/2<br />
t<br />
=<br />
H 1/2<br />
t<br />
⎡<br />
⎤<br />
⎡<br />
σ 2 1t<br />
⎦ = ⎣<br />
ρtσ1tσ2t ⎣ σ1t 0<br />
<br />
2 ρtσ2t σ2t 1 − ρt ′<br />
⎡<br />
= ⎣<br />
−<br />
é Ht). Assim,<br />
1<br />
σ1t<br />
ρ √t σ1t 1−ρ2 t<br />
0<br />
ρ tσ1tσ2t<br />
⎤<br />
√1 σ2t 1−ρ2 t<br />
<br />
(Deixa-se como exercício mostrar que E (εt) = 0 e Var (εt) = Var<br />
forma (continuando o exemplo) a expressão ˆεt = ˆH −1/2<br />
t ût vale<br />
⎡<br />
⎣ ˆε1t<br />
ˆε2t<br />
⎤<br />
⎡<br />
⎦ = ⎣<br />
−<br />
1<br />
ˆσ1t<br />
ˆρ √t 2<br />
ˆσ1t 1−ˆρ t<br />
0<br />
√1 ˆσ2t 1−ρ2 t<br />
⎤ ⎡<br />
⎦<br />
⎣ û1t<br />
û2t<br />
⎤<br />
⎡<br />
⎦ = ⎣<br />
⎦ .<br />
σ 2 2t<br />
⎤<br />
⎦ .<br />
û2t √<br />
2<br />
ˆσ2t 1−ˆρ t<br />
⎤<br />
⎦ .<br />
H −1/2<br />
t ut<br />
û1t<br />
ˆσ1t<br />
− û1tˆρ √ t<br />
2<br />
ˆσ1t 1−ˆρ t<br />
<br />
= In). Desta<br />
Vários testes podem ser invocados. Para avaliar se os efeitos de heterocedasticidades<br />
estão convenientemente modelados, Engle (2002) sugere o seguinte procedimento. Primeiro<br />
passo: regressão de ˆε 2<br />
1t sobre as seguintes variáveis (para além de um termo constante):<br />
• resíduos quadráticos ˆε 2<br />
i,t−k, com i = 1, ..., m e k = 1, ..., L (L desfasamentos) e<br />
• termos cruzados ˆεi,t−kˆεj,t−k, com i, j = 1, ..., m e k = 1, ..., L.<br />
369<br />
⎤<br />
⎦ .
Por exemplo no caso m = 2 e L = 1, a regressão envolveria as seguintes variáveis:<br />
2<br />
1, ˆε 1t−1, ˆε 2<br />
<br />
2t−1, ˆε1,t−1ˆε2,t−1 .<br />
Segundo passo: teste F de nulidade de todos os parâmetros com excepção do do termo in-<br />
dependente. Se existir evidência estatística contra a hipótese nula, podemos suspeitar que<br />
a matriz Ht não foi convenientemente modelada. Nos passos seguintes repete-se o proced-<br />
imento, tomando sucessivamente ˆε 2<br />
i,t i = 2, ..., m como variável dependente na regressão<br />
auxiliar.<br />
Naturalmente é conveniente verificar também se ˆεt é um ruído branco. O procedimento<br />
anterior pode ser repetido substituindo os resíduos estandardizados ao quadrado simples-<br />
mente pelos resíduos estandardizados e eliminando os termos cruzados.<br />
370
Capítulo 10<br />
Regressão Não Paramétrica<br />
10.1 Introdução<br />
***<br />
(Última actualização: 1/2010. Preliminar e incompleto)<br />
10.2 Estimação Não Paramétrica da Função Densidade de<br />
Probabilidade<br />
10.2.1 Introdução<br />
Suponha-se que X é uma v.a. discreta. A estimação da função de probabilidade, f (x) , é<br />
imediata: ˆ f (x) pode ser estimado como a proporção de valores na amostra {x1, x2, ..., n}<br />
que são iguais a x, i.e.,<br />
ˆf (x) = 1<br />
n<br />
n<br />
t=1<br />
I{xi:xi=x}.<br />
Se X é uma variável contínua, a probabilidade do evento {xt = x} é zero e, desta forma, a<br />
estimação da fdp f (x) deve envolver a proporção de valores xt que se encontram perto de<br />
x, digamos numa vizinhança x ± h/2 (h dá a largura do intervalo).<br />
Se tomarmos<br />
1<br />
n<br />
n<br />
t=1<br />
I xt−x {xt:| h |< 1<br />
1<br />
=<br />
2} n<br />
n<br />
I 1<br />
{xt:− 2<br />
t=1<br />
< xt−x 1<br />
< h 2}<br />
temos simplesmente a proporção de observações na amostra que se encontram no intervalo<br />
371
(x − h, x + h) . Esta proporção deve ser dividia por h :<br />
ˆf (x) = 1 1<br />
h n<br />
n<br />
t=1<br />
I xt−x {xt:| h |< 1 . (10.1)<br />
2}<br />
Tem-se assim que ˆ f (x) representa a proporção de observações por unidade relativa de fre-<br />
quencia. Naturalmente, podemos fazer variar h. Um valor maior implica um maior alisa-<br />
mento da estimativa (mais observações são consideradas), diminuindo a variabilidade de ˆ f.<br />
Todavia, valores muitos altos de h podem distorcer a estimativa de f (x), na medida em que<br />
podem entrar observações muito afastadas de x, não traduzindo, portanto, o comportamento<br />
local de f no ponto x.<br />
X é<br />
Pode-se mostrar que<br />
∞<br />
−∞<br />
ˆf (x) dx = 1.<br />
Apresenta-se a seguir a derivação formal de ˆ f. Por definição, a função de distribuição de<br />
A respectiva fdp é<br />
ou, equivalentemente,<br />
P (X ≤ x) = F (x) =<br />
x<br />
−∞<br />
f (u) du<br />
f (x) = F ′ F (x + h) − F (x)<br />
(x) = lim<br />
h→0 h<br />
F (x + h/2) − F (x − h/2)<br />
f (x) = lim<br />
h→0<br />
h<br />
= lim<br />
h→0<br />
= lim<br />
h→0<br />
P (x − h/2 < X < x + h/2)<br />
h<br />
P <br />
X−x 1 < h 2<br />
h<br />
Dada esta definição de f (x) , é imediato concluir que uma estimativa da última expressão é<br />
1 n<br />
n t=1 I {xt:| xt−x h |< 1<br />
2}<br />
h<br />
que é exactamente a expressão obtida em (10.1). Esta estimativa pode também ser escrita da<br />
seguinte forma<br />
ˆf (x) = 1<br />
nh<br />
n<br />
<br />
xt − x<br />
K<br />
h<br />
t=1<br />
372
onde<br />
K (u) = 1<br />
2 I{u:|u|
Note-se que O (h 4 ) representa um termo de ordem h 4 ou inferior. Por outras palavras,<br />
O (h 4 ) é proporcional ou menos do que proporcional a h 4 , podendo ser, por exemplo, 2h 4 .<br />
Obviamente limh→0 O (h 4 ) = 0 e limh→0 O (h 4 ) /h 4 é uma constante.<br />
Proposição 10.2.2 Tem-se ˆ f (x)<br />
p<br />
−→ f (x) .<br />
A demonstração é obvia tendo em conta a proposição 10.2.1:<br />
lim<br />
n→∞ E<br />
<br />
ˆf (x)<br />
lim<br />
n→∞ Var<br />
<br />
ˆf (x)<br />
= f (x)<br />
= 0,<br />
pois n → ∞ arrasta h → 0 e nh → ∞. A hipótese A4 é crucial. Nestas condições, o<br />
estimador ˆ f (x) é consistente (em probabilidade).<br />
√nh <br />
Proposição 10.2.3 Tem-seVar f ˆ(x) → f (x) K2 (u) du<br />
Proposição 10.2.4 Sob as hipóteses A1-A4 e K (u) 2+δ du < ∞ tem-se<br />
√ <br />
nh ˆf (x) − E ˆf d<br />
(x) −→ N 0, f (x)<br />
K 2 <br />
(u) du<br />
Proposição 10.2.5 Sob as hipóteses da proposição anterior e A5 tem-se<br />
10.2.3 Escolha de h<br />
√ <br />
nh ˆf d<br />
(x) − f (x) −→ N 0, f (x)<br />
K 2 <br />
(u) du<br />
Na prática como escolher K e h? A escolha do kernel é, geralmente, pouco relevante, já<br />
que os resultados finais dependem pouco da escolha do kernel. Muito mais relevante é a<br />
escolha de h. Sabemos que h deve depender de n, tendo em conta as hipóteses A4 e A5. Se<br />
definirmos h = γn α , sendo α e γ parâmetros a determinar, sabe-se que α tem de ser menor<br />
do que zero tendo em conta que h → 0. Por outro lado, como nh = γn 1+α → ∞, α deve<br />
respeitar a relação 1 + α > 0. Dada a hipótese A5<br />
√ nh 5/2 = n 1/2 γ (n α ) 5/2 = γn 1/2 n 5α/2 = γn (1+5α)/2 → 0<br />
deverá ter-se (1 + 5α) < 0. Coligindo todas as desigualdades obtém-se −1 < α < −1/5. É<br />
preciso todavia encontrar um valor para α e γ. Para o efeito, é necessário usar um critério de<br />
374
selecção. Existem vários propostos na literatura, mas focaremos apenas o Mean Integrated<br />
Squared Error:<br />
MISE (h) = E<br />
<br />
2<br />
ˆf (x) − f (x) dx .<br />
<br />
Em princípio, poderíamos escolher h a partir do critério mais simples E ˆf 2<br />
(x) − f (x) <br />
;<br />
mas existe um inconveniente: queremos que ˆ f (x) seja uma boa estimativa para todos os<br />
valores de x que a variável X pode assumir, e não apenas para um x particular. Por isso<br />
integramos o erro quadrático no domínio ou espaço de estados de X.<br />
Fazendo a troca do operador de valor esperado com o do integral, considerando os valores<br />
<br />
aproximados de E ˆf (x) e Var ˆf (x) e notando que<br />
<br />
E ˆf 2<br />
(x) − f (x) 2 Var ˆf (x) + f (x) − E ˆf (x)<br />
tem-se<br />
MISE (h) =<br />
=<br />
<br />
f (x) K 2 (u) du<br />
K 2 (u) du<br />
nh<br />
Resolvendo o problema de optimização<br />
nh<br />
+ h4 σ 4 K<br />
4<br />
<br />
2 K (u) du<br />
min<br />
+<br />
h nh<br />
h4σ4 <br />
K<br />
4<br />
<br />
= f (x) K2 (u) du<br />
+<br />
nh<br />
h4 (f ′′ (x)) 2 σ4 K<br />
4<br />
+ h4 (f ′′ (x)) 2 σ 4 K<br />
4<br />
(f ′′ (x)) 2 dx.<br />
(f ′′ (x)) 2 <br />
dx<br />
obtém-se o valor óptimo de h (de acordo com o critério MISE):<br />
hopt =<br />
<br />
2 K (u) du<br />
<br />
(f ′′ 2<br />
(x)) dx<br />
σ 4 K<br />
1/5<br />
n −1/5 .<br />
Usando o kernel Gaussiano, tem-se K 2 (u) du 0.282 e σ 4 K = 1. O valor de hopt depende<br />
ainda de f ′′ (x) que é desconhecido. Este valor pode ser estimado não parametricamente.<br />
Uma alternativa mais simples consiste em assumir que f (x) ∼ N (µ, σ 2 ) (vários estudos<br />
indicam que esta escolha é relativamente robusta desde que a verdadeira densidade não seja<br />
bimodal ou excessivamente assimétrica). Com estas simplificações obtém-se<br />
ˆhopt = 1.06ˆσn −1/5<br />
375<br />
<br />
dx
(ˆσ desvio padrão estimado de xt).<br />
Exemplo 10.2.1 Dow Jones*** retornos<br />
10.2.4 Estimação localmente linear da Média Condicional<br />
Vamos considerar como modelo base<br />
yt = µ (xt) + ut<br />
ut = σ 2 (xt) εt<br />
onde εt é um ruído branco e tal que E (εt| xt) = 0, µ (xt) é a média condicional e σ 2 (xt)<br />
é a variância condicional. Os momentos condicionais dependem apenas de xt (é natural-<br />
mente possível generalizar). Para simplificar admitiremos que xt = yt−1 (mas é possível<br />
generalizar). O problema de estimação é o dos momentos condicionais µ (x) e σ 2 (x) . À<br />
semelhança da estimação de f (x) , a estimação de µ (x) (e σ 2 (x)) faz-se localmente, i.e.,<br />
estima-se µ (x) separadamente para cada x. Por exemplo, seleccionando x = 1 estimamos<br />
µ (1) = E (yt| xt = 1)<br />
e repete-se o procedimentos para outros pontos x e assim obtemos uma ideia do comporta-<br />
mento de µ (x) .<br />
Na análise da estimação local da média condicional, o ponto de partida é a fórmula de<br />
376
Taylor de µ (xt) numa vizinhança de x :<br />
∂µ (x)<br />
µ (xt) = µ (x) +<br />
∂x ′ (xt − x) + ∂2 µ (x∗ )<br />
∂x2 (xt − x) 2<br />
onde x ∗ é um valor entre xt e x. Desta forma yt pode ser representado pela expressão<br />
∂µ (x)<br />
yt = µ (x) +<br />
∂x ′ (xt − x) + ∂2 µ (x∗ )<br />
∂x2 Se o modelo é linear, por exemplo, um AR(1), vem<br />
∂µ (x)<br />
yt = µ (x) +<br />
∂x ′ (xt − x) + ∂2 µ (x∗ )<br />
∂x2 = c + φx + φ (xt − x1) + 0 + ut<br />
= c + φxt + ut.<br />
2<br />
(xt − x) 2<br />
+ ut.<br />
2<br />
(xt − x) 2<br />
Se µ (x) é não linear o erro de aproximação é não nulo e aumenta quando xt se afasta de<br />
x. Desta forma, obtém-se uma boa aproximação de µ (x) se usarmos apenas as observações<br />
que se encontram “perto” de x. Em alternativa, pode-se usar todas as observações mas damos<br />
mais peso às observações que se encontram “perto” de x.<br />
Trade-off na estimação de µ (x) :<br />
2<br />
+ ut<br />
• não considerar todas as observações ou não dar peso significativo a parte das obser-<br />
vações acarreta um custo: aumento da variância do estimador.<br />
• considerar demasiadas observações, diminui a variância do estimador mas aumenta o<br />
erro de aproximação R i.e. aumenta o enviesamento do estimador.<br />
O peso a dar às observações é controlado pelo kernel K (u) . Seja x ∈ R. Como atribuir<br />
mais ou menos peso às observações xt?<br />
1<br />
h K<br />
<br />
xt − x<br />
=<br />
h<br />
1<br />
<br />
1<br />
√ exp −<br />
0.1 2π 1<br />
<br />
2<br />
u − 1<br />
2 .01<br />
h : bandwidth ou parâmetro de alisamento.<br />
Aproximação de ordem zero (estimador de Nadaraya-Watson):<br />
Considera-se a aproximação yt = c + vt onde vt = ∂µ(x)<br />
∂x ′ (xt − x) + R (xt, x) + ut e<br />
c = µ (x) . O objectivo é estimar c dando mais peso às observações próximas de x. Tem-se<br />
377
2.0<br />
1.5<br />
1.0<br />
0.5<br />
4 3 2 1 0 1 2 3 4<br />
Figura 10-1: 1<br />
√1 exp<br />
0.2 2π<br />
2.0<br />
1.5<br />
1.0<br />
0.5<br />
<br />
− 1<br />
2<br />
<br />
u−1 2<br />
0.2<br />
4 3 2 1 0 1 2 3 4<br />
Figura 10-2: 1<br />
√1 exp<br />
1 2π<br />
378<br />
<br />
− 1<br />
2<br />
<br />
u−1 2<br />
1
assim,<br />
ˆµ NW (x, h) = ĉ = arg min<br />
c<br />
wt = 1<br />
hK <br />
xt−x . Resolvendo obtém-se<br />
h<br />
Aproximação linear:<br />
Considera-se a aproximação<br />
ĉ =<br />
n n yt = µ (x) +<br />
t=2 K xt−x<br />
h<br />
n<br />
t=2<br />
t=2 K xt−x<br />
h<br />
yt<br />
(yt − c) 2 wt<br />
.<br />
∂µ (x)<br />
∂x ′ (xt − x) + et<br />
= c + c1 (xt − x) + et<br />
onde et = R (xt, x) + ut. O objectivo é estimar c dando mais peso às observações próximas<br />
de x. Tem-se assim<br />
ˆµ (x, h) = ĉ<br />
e ĉ obtém-se a partir do problema de optimização<br />
Notando que<br />
{ĉ, ĉ1} = arg min<br />
{c,c1}<br />
=<br />
=<br />
n<br />
t=im+1<br />
n<br />
t=im+1<br />
n<br />
t=im+1<br />
n<br />
(yt − c − c1 (xt − x)) 2 wt<br />
t=2<br />
(yt − c − c1 (xt − x)) 2 wt<br />
<br />
(yt − c − c1 (xt − x)) w 1/2<br />
2 t<br />
<br />
ytw 1/2<br />
t − cw 1/2<br />
t<br />
− c1w 1/2<br />
2 t (xt − x) ,<br />
o problema de optimização pode ser encarado como um problema de estimação OLS relati-<br />
vamente à seguinte especificação:<br />
ytw 1/2<br />
t<br />
= cw 1/2<br />
t<br />
+ c1w 1/2<br />
t (xt − x) + errot<br />
onde c é o parâmetro de interesse (c = µ (x)). Fixado o valor de h e dado o valor de x é<br />
379
imediata a construção das variáveis<br />
ytw 1/2<br />
t , w 1/2<br />
t<br />
(xt1 − x1) , etc.<br />
O problema de optimização pode também ser encarado como um problema de estimação<br />
GLS relativamente à especificação<br />
yt = c + c1 (xt − x) + errot<br />
assumindo-se uma pseudo heterocedasticidade da forma Var (yt| xt) = 1/wt. O estimador<br />
GLS corresponde ao estimador OLS aplicado sobre as variáveis transformadas. Tem-se:<br />
onde<br />
⎡<br />
⎣ ĉ<br />
ĉ1<br />
Z (x) =<br />
y =<br />
⎤<br />
⎦ = (Z ′ (x) W (x, h) Z (x)) −1 Z ′ (x) W (x, h) y<br />
⎡ ⎤<br />
1<br />
⎢ .<br />
⎣<br />
x2 − x<br />
⎥<br />
. ⎥<br />
⎦<br />
1<br />
⎡<br />
xn − x<br />
⎤<br />
⎢<br />
⎣<br />
y2<br />
.<br />
yn<br />
⎥<br />
⎦<br />
e a estimativa de interesse ĉ é dada por<br />
<br />
ĉ = 1 0<br />
W (x, h) = diag {w2, ..., wn}<br />
<br />
(Z ′ (x) W (x, h) Z (x)) −1 Z ′ (x) W (x, h) y.<br />
O estimador de Nadaraya-Watson é um caso particular:<br />
e Z (x) = Z = 11×(n−2).<br />
ĉ = (Z ′ (x) W (x, h) Z (x)) −1 Z ′ (x) W (x, h) y<br />
Podíamos estar interessados em E (∆yt| xt = x) e não em E (yt| xt = x) . Nesse caso<br />
tudo se mantém com a seguinte excepção: em lugar de yt deve-se considerar ∆yt, por exem-<br />
380
plo,<br />
Propriedades<br />
<br />
E (∆yt| xt<br />
= x) =<br />
1 0<br />
<br />
(Z ′ (x) W (x, h) Z (x)) −1 Z ′ (x) W (x, h) ∆y<br />
Vamos considerar primeiro o caso em que xt é i.i.d., por ser mais fácil tratar.<br />
B1 xt é i.i.d. e E (ut| xt) = 0, Var (ut| xt) = σ 2 (xt)<br />
B2 As funções m ′′ (x) e f ′′ (x) são contínuas e limitada numa vizinhança de x.<br />
B3 (nh) 1/2 h 2 → 0 quando n → ∞,<br />
Sob as hipóteses A1-A4 e B1 e B2, tem-se<br />
Proposição 10.2.6<br />
E (ˆµ NW (x)) = µ (x) + h2<br />
Var (ˆµ NW (x)) = 1<br />
nh<br />
Proposição 10.2.7<br />
Proposição 10.2.8<br />
2f (x) (µ′′ (x) f (x) + 2f ′ (x) µ ′ (x)) σ 2 K + o h 2<br />
σ2 <br />
(x)<br />
K<br />
f (x)<br />
2 <br />
1<br />
(u) du + o<br />
nh<br />
E (ˆµ (x)) = µ (x) + h2<br />
2 µ′′ (x) σ 2 K + o h 2<br />
<br />
1<br />
.<br />
nh<br />
Var (ˆµ (x)) = σ2 (x)<br />
nhf (x) σ2 K + o<br />
ˆµ NW (x)<br />
ˆµ (x)<br />
p<br />
−→ µ (x)<br />
p<br />
−→ µ (x)<br />
<br />
Proposição 10.2.9 Sob as hipóteses anteriores e E |u| 2+δ<br />
< ∞ e K (u) 2+δ du < ∞<br />
√ nh (ˆµNW (x) − E (ˆµ NW (x)))<br />
<br />
d<br />
−→ N 0, σ2 (x) K2 <br />
(u) du<br />
f (x)<br />
381
Proposição 10.2.10 Sob as hipóteses anteriores e B3 tem-se<br />
<br />
√ d<br />
nh (ˆµNW (x) − µ NW (x)) −→ N 0, σ2 (x) K2 <br />
(u) du<br />
f (x)<br />
<br />
√ d<br />
nh (ˆµ (x) − µ (x)) −→ N 0, σ2 (x) K2 <br />
(u) du<br />
f (x)<br />
O caso em que xt envolve valores desfasados de yt é mais difícil de tratar. De todo o<br />
modo é possível provar que se yt é um processo EE e fracamente dependente, os resultados<br />
anteriores mantêm-se.<br />
10.2.5 Estimação localmente linear da Variância Condicional<br />
10.A Demonstrações<br />
Demonstração da proposição 10.2.1<br />
Tem-se<br />
<br />
E ˆf (x)<br />
=<br />
<br />
n<br />
<br />
1 xt − x<br />
E K<br />
nh h<br />
t=1<br />
<br />
=<br />
<br />
1<br />
E<br />
h K<br />
=<br />
<br />
xt − x<br />
(devido a A1)<br />
h<br />
<br />
1<br />
h K<br />
=<br />
<br />
ξ − x<br />
f (ξ) dξ<br />
h<br />
<br />
1<br />
ξ − x<br />
K (u) f (uh + x) hdu (mudança de variável = u)<br />
h h<br />
<br />
= K (u) f (uh + x) du<br />
=<br />
<br />
K (u) f (x) + huf ′ (x) + h2u2 2 f ′′ =<br />
<br />
<br />
(x) + ... du (invocando a fórmula de Taylor)<br />
<br />
K (u) f (x) du + K (u) huf ′ <br />
(x) du + K (u) h2u2 2 f ′′ (x) du + ...<br />
<br />
K (u) u 2 du + ...<br />
= f (x) + h2 f ′′ (x)<br />
2<br />
= f (x) + h2 f ′′ (x) σ 2 K<br />
2<br />
+ O h 4<br />
A última equação decorre de A2. Note-se que todos os termos do tipo K (u) u k du são zero<br />
quando k é ímpar. O termo O (h 4 ) inclui todos os restantes termos são de ordem igual ou<br />
inferior a h 4 no seguinte sentido limh→0 O (h 4 ) /h 4 = constante.<br />
382
Por outro lado,<br />
<br />
Var ˆf (x)<br />
<br />
n<br />
<br />
1 xt − x<br />
= Var K<br />
nh h<br />
t=1<br />
<br />
= 1<br />
<br />
n<br />
<br />
1 xt − x<br />
Var K<br />
n2 h h<br />
<br />
t=1<br />
= 1<br />
n2 Var (w1 + w2 + ... + wn) (com wt = h −1 K ((xt − x) /h)<br />
= 1<br />
n2 n<br />
Var (wt) +<br />
t=1<br />
2<br />
n2 <br />
Cov (wi, wj)<br />
= 1<br />
n Var (wt) + 2 n−1<br />
<br />
1 −<br />
n<br />
t<br />
<br />
Cov (w1, wt+1) (devido a A1).<br />
n<br />
t=1<br />
Analise-se separadamente cada um destes termos.<br />
<br />
1<br />
Var (wt) = Var<br />
h K<br />
<br />
xt − x<br />
h<br />
= 1<br />
<br />
xt − x<br />
Var K<br />
h2 h<br />
= 1<br />
h2 <br />
E K 2<br />
<br />
2<br />
xt − x<br />
xt − x<br />
− E K<br />
h<br />
h<br />
= 1<br />
h2 K 2<br />
<br />
2<br />
ξ − x<br />
ξ − x<br />
f (ξ) dξ − K f (ξ) dξ<br />
h<br />
h<br />
= 1<br />
h2 K 2 <br />
<br />
2<br />
(u) f (hu + x) hdu − K (u) f (hu + x) hdu<br />
= 1<br />
h 2<br />
<br />
K 2 <br />
(u) f (x) + huf ′ (x) + h2u2 2 f ′′ <br />
(x) + ...<br />
hdu<br />
− 1<br />
h2 <br />
K (u) f (x) + huf ′ (x) + h2u2 2 f ′′ =<br />
2 (x) + ... hdu<br />
1<br />
<br />
K<br />
h<br />
2 <br />
(u) f (x) du + K 2 (u) uf ′ (x) du + ...<br />
<br />
<br />
− K (u) f (x) du + K (u) huf ′ 2 (x) du + ...<br />
= f (x)<br />
<br />
h<br />
K 2 (u) du + O (1)<br />
(note-se que o termo de ordem O (1) definido na última equação inclui todos os demais<br />
termos não presentes na equação e que são relativamente pequenos em comparação com<br />
f (x) h−1 K2 (u) du quando n é grande e h é pequeno).<br />
Analise-se 2 n−1 <br />
t<br />
n t=1 1 − Cov (w1, wt+1). Notando que Cov (w1, wt+1) = ρ n<br />
t Var (w1) ,<br />
383
devido a A1, tem-se<br />
2 n−1<br />
n<br />
t=1<br />
<br />
1 − t<br />
<br />
|Cov (w1, wt+1)| =<br />
n<br />
2 n−1<br />
n<br />
Desta forma,<br />
<br />
Var ˆf (x)<br />
= 2 Var (w1)<br />
≤<br />
= 1<br />
n Var (wt) + 2<br />
n<br />
= f (x)<br />
nh<br />
<br />
t=1<br />
<br />
1 − t<br />
<br />
|ρ<br />
n<br />
t| Var (w1)<br />
n−1<br />
<br />
1 −<br />
n<br />
t=1<br />
t<br />
<br />
|ρ<br />
n<br />
t|<br />
<br />
Var (w1) n−1<br />
<br />
2 1 −<br />
n<br />
t<br />
<br />
C2e<br />
n<br />
−α2t<br />
<br />
t=1<br />
= Var (w1)<br />
O (1)<br />
n <br />
1<br />
= O (pois Var (w1) = O<br />
nh<br />
n−1<br />
t=1<br />
K 2 (u) du + O<br />
Demonstração da proposição 10.2.2<br />
Demonstração da proposição 10.2.3<br />
Seja πn =<br />
<br />
1 − t<br />
n<br />
<br />
1<br />
).<br />
h<br />
(devido a A1)<br />
<br />
Cov (w1, wt+1) (devido a A1).<br />
<br />
1<br />
.<br />
nh<br />
√ <br />
n−1<br />
<br />
Var nhf ˆ(x) = h Var (wt) + 2h 1 − t<br />
<br />
Cov (w1, wt+1)<br />
n<br />
t=1<br />
<br />
√h 1 onde [x] designa aqui a parte inteira de x. Tem-se<br />
n−1<br />
<br />
2h 1 −<br />
t=1<br />
t<br />
<br />
πn <br />
<br />
Cov (w1, wt+1) = 2h 1 −<br />
n<br />
t=1<br />
t<br />
<br />
Cov (w1, wt+1)<br />
n<br />
<br />
Para 1 ≤ t ≤ πn tem-se<br />
J1,n<br />
n−1<br />
<br />
+2h 1 −<br />
t=πn+1<br />
t<br />
<br />
Cov (w1, wt+1)<br />
n<br />
<br />
384<br />
J2,n
|Cov (w1, wt+1)| ≤ E |w1wt+1|<br />
<br />
<br />
= E <br />
K <br />
x1 − x 1<br />
h h K<br />
<br />
xt+1 − x <br />
h<br />
= 1<br />
h2 <br />
<br />
x1 <br />
− x xt+1 − x<br />
K K<br />
h<br />
h<br />
<br />
<br />
<br />
<br />
= <br />
K (u) K (u + v) f1,t+1 (x, x) dudv + O (h) <br />
<br />
Assim<br />
t=1<br />
= O (1) .<br />
f1,t+1 (xt, xt+1) dxtdxt+1<br />
πn <br />
<br />
h<br />
√ <br />
J1,n ≤ h Cov (w1, wt+1) = hO (πn) = O (hπn) = O √h = O h = o (1) .<br />
Para t > πn considera-se o seguinte argumento:<br />
Assim,<br />
pois n−1<br />
t=πn+1<br />
Cov (w1, wt+1) ≤ ρ t Var (w1)<br />
J2,n = 2h<br />
≤ 2<br />
= 2<br />
→ 0<br />
n−1<br />
t=πn+1<br />
n−1<br />
t=πn+1<br />
<br />
f (x)<br />
<br />
f (x)<br />
= ρt K<br />
h<br />
2 <br />
(u) du + O (1)<br />
= ρ <br />
t<br />
f (x) K<br />
h<br />
2 <br />
(u) du + O (h) .<br />
<br />
1 − t<br />
<br />
1 − t<br />
n<br />
n<br />
<br />
Cov (w1, wt+1)<br />
<br />
ρ t<br />
<br />
f (x)<br />
K 2 (u) du + O (h)<br />
K 2 <br />
(u) du + O (h)<br />
n−1<br />
<br />
t=πn+1<br />
<br />
1 − t<br />
<br />
ρt n<br />
<br />
t 1 − ρt ≤ n<br />
n−1 t=πn+1 ρt → 0 quando n → ∞ e πn → ∞.<br />
Demonstração da proposição 10.2.4<br />
Demonstração da proposição 10.2.5<br />
Demonstração da proposição 10.2.6<br />
385
Seja ψt = xt−x.<br />
Tem-se<br />
h<br />
Por outro lado,<br />
ˆµ NW (x) =<br />
=<br />
=<br />
=<br />
yt = µ (x) + µ ′ (x) (xt − x) + µ ′′ (x ∗ ) (xt − x) 2<br />
+ ut<br />
= µ (x) + hµ ′ (x) ψ t + µ ′′ (x ∗ ) h2 ψ 2<br />
t<br />
2<br />
2<br />
+ ut.<br />
n t=2 K (ψt) yt<br />
n t=2 K (ψ <br />
t)<br />
n<br />
t=2 K (ψt) yt<br />
n t=2 K (ψt) (nh) −1 n t=2 K (ψ <br />
t) µ (x) + hµ ′ (x) ψt + µ ′′ (x∗ ) h2ψ2 t<br />
2<br />
(nh) −1 n t=2 K (ψt) (nh) −1 n t=2 K (ψ <br />
t) µ (x) + hµ ′ (x) ψt + µ ′′ (x∗ ) h2ψ2 t<br />
2<br />
ˆf (x)<br />
+ ut<br />
+ ut<br />
= (nh)−1 n t=2 K (ψt) µ (x) + (nh) −1 n t=2 K (ψt) hµ ′ (x) ψt +<br />
ˆf (x)<br />
+ (nh)−1 n t=2 K (ψt) µ ′′ (x∗ ) h2ψ2 t<br />
2 + (nh)−1 n t=2 K (ψt) ut<br />
ˆf (x)<br />
= µ (x) + µ′ (x) 1<br />
ˆf (x) n<br />
n<br />
t=2<br />
K (ψ t) ψ t + hµ′′ (x ∗ )<br />
2 ˆ f (x)<br />
Considerem-se os dois primeiros momentos condicionais:<br />
E ( ˆµ NW (x)| x1, ..., xn) = µ (x) + µ′ (x) 1<br />
ˆf (x) n<br />
n<br />
t=2<br />
386<br />
1<br />
n<br />
n<br />
t=2<br />
K (ψ t) ψ t + hµ′′ (x ∗ )<br />
2 ˆ f (x)<br />
<br />
<br />
K (ψt) ψ 2<br />
t + 1<br />
ˆf (x)<br />
1<br />
n<br />
n<br />
t=2<br />
1<br />
nh<br />
n<br />
K (ψt) ut.<br />
t=2<br />
K (ψ t) ψ 2<br />
t .
Pela teorema do valor esperado iterado, vem<br />
E (ˆµ NW (x)) = E (E ( ˆµ NW (x)| x1, ..., xn))<br />
Por outro lado,<br />
<br />
= E µ (x) + µ′ n (x) 1<br />
K (ψ<br />
ˆf (x) n<br />
t) ψt +<br />
t=2<br />
hµ′′ (x∗ )<br />
2 ˆ n 1<br />
K (ψ<br />
f (x) n<br />
t) ψ<br />
t=2<br />
2<br />
<br />
t<br />
= µ (x) + µ ′ <br />
K (u) u<br />
(x) E<br />
+<br />
ˆf (x)<br />
hµ′′ (x∗ <br />
) K (u) u<br />
E<br />
2<br />
2<br />
<br />
ˆf (x)<br />
= µ (x) + µ ′ 2 2 h σKf (x)<br />
′ (x)<br />
+ o<br />
f (x)<br />
h 2<br />
+ µ′′ (x∗ 2 2 ) h σKf (x)<br />
2 f (x) + o h 2<br />
= µ (x) + h2 σ 2 K<br />
2f (x) (µ′′ (x ∗ ) f (x) + 2f ′ (x) µ ′ (x)) + o h 2<br />
= µ (x) + h2 σ 2 K<br />
2f (x) (µ′′ (x) f (x) + 2f ′ (x) µ ′ (x)) + o h 2 .<br />
Var ( ˆµ NW (x)| x1, ..., xn) = 1<br />
ˆf 2 (x)<br />
1<br />
n 2 h 2<br />
n<br />
t=2<br />
K 2 (ψ t) σ 2 (xt) .<br />
Dado que o segundo termo da expressão Var (ˆµ NW (x)) = E (Var ( ˆµ NW (x)| x1, ..., xn)) +<br />
Var (E ( ˆµ NW (x)| x1, ..., xn)) é zero, vem<br />
E<br />
<br />
1<br />
h K (ψt) σ 2 <br />
(xt)<br />
Var (ˆµ NW (x)) = E (Var ( ˆµ NW (x)| x1, ..., xn))<br />
= 1<br />
nh E<br />
<br />
1<br />
ˆf 2 1<br />
(x) nh<br />
= 1<br />
nh E<br />
<br />
1<br />
ˆf 2 1<br />
(x) nh<br />
= 1<br />
nh E<br />
<br />
1<br />
ˆf 2 1<br />
(x)<br />
n<br />
t=2<br />
n<br />
t=2<br />
K 2 (ψ t) σ 2 (xt)<br />
K 2 (ψ t) σ 2 (xt)<br />
h K2 (ψ t) σ 2 (xt)<br />
= 1<br />
<br />
K<br />
h<br />
2<br />
<br />
ξ − x<br />
σ<br />
h<br />
2 =<br />
<br />
(ξ) f (ξ) dξ =<br />
<br />
K 2 (u) σ 2 (x) f (x) + o (h) du<br />
= σ 2 <br />
(x) f (x) K 2 (u) du + o (h) .<br />
387<br />
<br />
<br />
<br />
K 2 (u) σ 2 (x + uh) f (x + uh) du
Desta forma,<br />
Var (ˆµ NW (x)) = 1<br />
nh E<br />
<br />
1<br />
ˆf 2 1<br />
(x) h K2 (ψt) σ 2 <br />
=<br />
(xt)<br />
1 σ<br />
nh<br />
2 <br />
(x)<br />
K<br />
f (x)<br />
2 <br />
1<br />
(u) du + o .<br />
nh<br />
Demonstração da proposição 10.2.7<br />
Demonstração da proposição 10.2.8<br />
Demonstração da proposição 10.2.9<br />
388
Parte III<br />
Aplicações<br />
389
Página em branco<br />
390
Capítulo 11<br />
Eficiência do Mercado de Capitais<br />
(Última actualização: Maio/2010)<br />
11.1 Introdução e Definições<br />
O mercado de capitais diz-se eficiente se os preços dos produtos financeiros reflectirem toda<br />
a informação disponível. Quando é libertada uma informação relevante (por exemplo, um<br />
anúncio de distribuição de dividendos de valor superior ao esperado, um anúncio de fusões<br />
ou aquisições, etc.) num mercado eficiente os agentes reagem imediatamente comprando ou<br />
vendendo de acordo com a informação e os preços ajustam-se imediatamente.<br />
Num mercado eficiente, supõe-se que os agentes interpretam correctamente a infor-<br />
mação. Caso contrário o preço pode não se ajustar rapidamente e abrem-se oportunidades<br />
para a realização de rendibilidades anormais. Por exemplo, um investidor que compre ime-<br />
diatamente acções após a divulgação de uma “boa notícia” pode obter um retorno anormal<br />
se o preço de mercado se ajustar lentamente à informação disponível. Com efeito, bastará ao<br />
investidor vender as acções depois do preço se ajustar a um nível mais alto.<br />
É difícil imaginar um mercado completamente eficiente em todos os períodos de tempo.<br />
Pode suceder que em certos momentos e face a determinadas notícias o mercado apresente<br />
ineficiências que podem ser exploradas. Faz também sentido admitir que existem mercados<br />
mais eficientes do que outros (mercados emergentes tendem a ser menos eficientes).<br />
A eficiência dos mercados está intimamente relacionada com a informação disponível.<br />
Fama (1970) propôs três formas de eficiência consoante a natureza da informação disponível:<br />
• um mercado é eficiente na forma fraca se os preços dos títulos reflectirem toda a infor-<br />
mação sobre os preços passados; como consequência, as cotações passadas não podem<br />
391
ser utilizadas para obter rentabilidades anormais;<br />
• um mercado é eficiente na forma semi-forte se os preços dos títulos reflectirem toda<br />
a informação disponível ao público; a “informação disponível ao público” inclui os<br />
preços passados, situação económica e financeira da empresa e, em geral, toda a infor-<br />
mação não confidencial que o público em geral pode aceder;<br />
• um mercado é eficiente na forma forte se os preços dos títulos reflectirem toda a in-<br />
formação disponível, pública e privada; a informação privada é conhecida apenas dos<br />
gestores da empresa.<br />
A hipótese dos mercados eficientes admite que todas as informações relevantes estão<br />
disponíveis (a baixo custo) e que as cotações reflectem o conjunto dessas informações. Desta<br />
forma, não é possível com base na informação disponível, obter ganhos persistentes acima<br />
do “retorno normal”; se o mercado é ineficiente, os preços não traduzem o seu valor “justo”<br />
ou valor “intrínseco” e é possível obter rendibilidades anormais.<br />
A questão que normalmente se coloca consiste em saber se é possível obter rendibilidades<br />
anormais de forma persistente utilizando uma estratégia de investimento. Uma forma para<br />
analisar esta questão consiste em comparar a rendibilidade que se obtém a partir de uma certa<br />
estratégia de investimento com a “rendibilidade normal” ou esperada deduzida em função de<br />
um modelo de equilíbrio como o CAPM ou APT. Outra metodologia baseia-se em saber se<br />
os retornos são ou não “previsíveis”. Esta análise pode ser conduzida a partir de um modelo<br />
do tipo<br />
rt = f (xt−1) + ut<br />
onde xt−1 é um vector de variáveis cujos valores são conhecidos no momento t−1. Assim, rt<br />
é previsível se xt−1 explicar rt (por outras palavras, rt é previsível se E (rt| Ft−1) = E (rt)).<br />
O vector xt−1 pode incluir rt−1 ou fundamental variables como por exemplo, variáveis fi-<br />
nanceiras (treasury bill rates, bonds returns, dividend yield (dividendo por acção/cotação),<br />
price-earning ratios (cotação/lucro), etc.) ou variáveis macroeconómicas (produto, inflação,<br />
etc.).<br />
11.2 Teste à Eficiência Fraca de Mercado<br />
Analisa-se se é possível obter rendibilidades anormais de forma persistente utilizando uma<br />
estratégia de investimento baseada apenas nos preços passados.<br />
392
Para simplificar admita-se que o retorno normal, E (rt) = µ > 0 é constante. Se o<br />
mercado é eficiente então é indiferente usar ou não usar a informação disponível Ft−1 para<br />
prever rt e, desta forma tem-se<br />
E (rt| Ft−1) = E (rt) . (11.1)<br />
Note-se que E (rt) representa a previsão de rt não baseada em qualquer informação especí-<br />
fica, a não ser nas “características gerais do processo”. Pelo contrário, se<br />
E (rt| Ft−1) = E (rt)<br />
então, a informação disponível Ft−1 é relevante para prever os retornos futuros. Nestas<br />
circunstâncias, existe alguma informação sobre a “tendência provável” de rt, e será possível,<br />
em princípio, obter rentabilidades anormais, usando a informação disponível Ft−1.<br />
A equação (11.1) pode ser violada de inúmeras formas. Por exemplo, rt pode ser au-<br />
tocorrelacionado ou rt pode ser uma função não linear de rt−1 (se rt seguir um qualquer<br />
dos modelos discutidos anteriormente, como por exemplo, o modelo Markov-Switching ou o<br />
Limiar Autoregressivo, a equação (11.1) é violada). As regras de compra e venda baseadas<br />
na “análise técnica” baseiam-se também em relações não lineares entre os preços correntes<br />
e os seus valores passados, ou sejam, supõem que a igualdade (11.1) é violada.<br />
Certos autores formalizam o modelo de mercado eficiente estabelecendo que o preço ou<br />
o logaritmo do preço é um passeio aleatório 1 ,<br />
log Pt = log Pt−1 + ut<br />
sendo {ut} um processo ruído branco ou, em termos mais gerais, uma diferença de martin-<br />
gala. Esta formalização implica (11.1) e ainda que log Pt é uma martingala,<br />
E (log Pt| Ft−1) = log Pt−1.<br />
1 A rigor é um impossibilidade o preço ser um passeio aleatório,<br />
Pt = Pt−1 + ut<br />
uma vez que Pt, neste modelo, é não limitado em probabilidade. Isto significa que pode assumir valores<br />
negativos com probabilidade um quando t tende para ∞. De facto, prova-se que Pt visita os estados −∞ e<br />
+∞ infinitas vezes quando t → ∞. Como os preços não podem ser negativos, por definição, o preço não pode<br />
ser um passeio aleatório.<br />
393
Esta formalização é contra intuitiva pois assume que o valor esperado do retorno é zero<br />
(E (rt) = 0) e, portanto, que o prémio de risco é negativo. Todavia, se o retorno for con-<br />
venientemente ajustado ao risco, a propriedade de martingala deve verificar-se (vejam-se as<br />
referências em Campbell et al., 1997, pág. 31).<br />
Um modelo mais natural e compatível com (11.1) é o modelo de passeio aleatório com<br />
deriva (positiva),<br />
log Pt = c + log Pt−1 + ut, c > 0.<br />
Considerando rt = log Pt −log Pt−1, o modelo de passeio aleatório com deriva é equivalente<br />
a rt = c + ut e, portanto, E (rr| Ft−1) = E (rt) = c.<br />
11.2.1 Testes de Autocorrelação<br />
Analise-se o exemplo seguinte.<br />
Exemplo 11.2.1 Suponha-se rt = c + φrt−1 + ut, |φ| < 1, onde ut é um ruído branco.<br />
Então<br />
E (rt) = c<br />
1 − φ , E (rt| Ft−1) = c + φrt−1<br />
e a equação (11.1) é violada. Note-se também que r é autocorrelacionado.<br />
Um teste à eficiência fraca dos mercados consiste, por exemplo, em ensaiar H0: ρ 1 =<br />
... = ρ m = 0 através da estatística<br />
Q = n (n + 2)<br />
m<br />
k=1<br />
1<br />
n − k ˆρ2<br />
k<br />
d<br />
−→ χ 2 (m)<br />
A rejeição de H0 pode sugerir ineficiência de mercado, mas não a implica necessariamente.<br />
Com efeito, pode suceder que a rejeição de H0 se faça com coeficientes de autocorrelação<br />
demasiadamente baixos para oferecerem qualquer possibilidade de ganhos anormais, depois<br />
de deduzidos os custos transacção. Seria necessário investigar se a estrutura de autocorre-<br />
lação detectada implicaria uma rendibilidade superior a um portfolio de referência. Por outro<br />
lado, a não rejeição de H0 não implica aceitação da eficiência da forma fraca porque pode<br />
suceder que E (rt| Ft−1) seja uma função não linear de Ft−1 com fraca dependência linear.<br />
394
11.2.2 Regras de Compra e Venda e a Análise Técnica<br />
Uma forma popular entre traders and financial professionals de definir regras de compra e<br />
venda assenta na chamada “análise técnica”. A análise técnica baseia-se num conjunto de<br />
indicadores estatísticos gerados pelo mercado, tais como preços e volume, visando estabele-<br />
cer regras de compra e venda de activos cotados em bolsa 2 . A generalidade dos indicadores<br />
procura detectar tendências de subida ou descida das cotações. Analisam-se três regras de<br />
compra e venda (provavelmente as mais utilizadas e conhecidas, mas existem muitas out-<br />
ras regras) e discutem-se procedimentos econométricos destinados a aferir a qualidade das<br />
regras. A previsibilidade associada às regras de compra e venda não significa necessaria-<br />
mente ineficiência de mercado. Para argumentar que um mercado é ineficiente é necessário<br />
demonstrar que a regra de investimento seleccionada é superior a um porfolio de referência.<br />
Regra Média Móvel<br />
Seja<br />
Mt (k) = Pt + Pt−1 + ... + Pt−k+1<br />
k<br />
uma média móvel (MM) de ordem k da variável P, no momento t. A estatística Mt (k)<br />
fornece uma medida de tendência local de P. Quanto maior for k mais informação atrasada<br />
a média móvel contém e, também, mais alisada é a tendência. Pelo contrário, se k é baixo, a<br />
estatística Mt (k) fornece apenas a tendência recente de P. Defina-se assim a MM de curto<br />
prazo, Mt (c) , onde c é uma valor “baixo” e a MM de longo prazo, Mt (l) onde l é um valor<br />
“alto”. Tipicamente, para dados diários, c e l são escolhido nos intervalos, 1 ≤ c ≤ 5 e<br />
50 ≤ l ≤ 250. Do confronto entre a MM de curto e longo prazo argumenta-se que é possível<br />
projectar uma tendência futura de P. Mais concretamente, se Mt (c) > Mt (l) , os preços<br />
mais recentes estão mais altos do que os preços mais antigos. Isto sugere que os preços<br />
seguem uma tendência positiva. A regra prescreve uma compra para o período t + 1. Se as<br />
duas médias são aproximadamente iguais, a tendência futura sobre os preços não é clara, e<br />
neste caso não há lugar a compra ou venda. Esta regra pode ser melhorada, estabelecendo um<br />
sinal de compra ou venda apenas quando a diferença entre Mt (c) e Mt (l) for significativa,<br />
digamos acima de um certo limiar B (bandwidth). Assim, as regras de compra e venda para<br />
2 A abordagem fundamental analysis, ao contrário, estabele regras de compra e venda com base em factores<br />
financeiros e económicos. Por exemplo, analisam-se variáveis financeiras (treasury bill rates, bonds returns,<br />
dividend yield (dividendo por acção/cotação), price-earning ratios (cotação/lucro), etc.) ou macroeconómicas<br />
(produto, inflação, etc.).<br />
395
2380<br />
2280<br />
2180<br />
2080<br />
1980<br />
1880<br />
NASDAQ composite<br />
1780<br />
Jan05 Mar05 May05 Jul05 Sep05 Nov05 Jan06<br />
comprar = 1, vender = 0<br />
1<br />
0.9<br />
0.8<br />
0.7<br />
0.6<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
Jan05 Mar05 May05 Jul05 Sep05 Nov05 Jan06<br />
P<br />
MM curta<br />
MM longa<br />
Figura 11-1: Regra Média Móvel - Aplicação ao NASDAQ composite Jan-05 a Mar-06<br />
o dia t + 1, passariam a ser: comprar se Mt (c) > Mt (l) + B; vender se Mt (c) < Mt (l) − B<br />
e não transaccionar se |Mt (c) − Mt (l)| ≤ B.<br />
Na figura 11-1 ilustra-se a regra média móvel ao NASDAQ composite (Jan-05 a Mar-<br />
06). Fixou-se c = 10 e l = 50. Em princípio deveriamos escolher um valor de c entre 1 e<br />
5; todavia, a escolha c = 10 permite identificar melhor graficamente a média móvel Mt (10)<br />
(com c ≤ 5 a série Mt (c) praticamente não se distingue, graficamente, de P ).<br />
Regra Canal<br />
À semelhança da regra média móvel, também esta regra se baseia numa hipótese sobre a<br />
evolução futura da tendência dos preços. Antevê-se uma subida ou descida dos preços com<br />
base na comparação entre o valor actual do preço Pt e o valor mínimo ou máximo atingido<br />
pelos preços nos últimos L dias. Sejam,<br />
mt−1 = min (Pt−1, Pt−2, ..., Pt−L) ,<br />
Mt−1 = max (Pt−1, Pt−2, ..., Pt−L)<br />
respectivamente os valores mínimo e máximo atingidos pelos preços nos últimos L dias. A<br />
ideia é a seguinte: se no dia t houve uma indicação de compra e Pt é significativamente<br />
396
t<br />
t + 1<br />
Comprar Vender Neutro<br />
Comprar Pt > (1 + B) mt−1 Pt < (1 − B) mt−1 outros casos<br />
Vender Pt > (1 + B) Mt−1 Pt < (1 − B) Mt−1 outros casos<br />
Neutro Pt > (1 + B) Mt−1 Pt < (1 − B) mt−1 outros casos<br />
Tabela 11.1: Regras de Compra e Venda Baseadas no procedimento Canal<br />
2380<br />
2280<br />
2180<br />
2080<br />
1980<br />
1880<br />
NASDAQ composite<br />
1780<br />
Jan05 Mar05 May05 Jul05 Sep05 Nov05 Jan06<br />
comprar = 1, vender = 0<br />
1<br />
0.9<br />
0.8<br />
0.7<br />
0.6<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
Jan05 Mar05 May05 Jul05 Sep05 Nov05 Jan06<br />
Figura 11-2: Regra Canal - Aplicação ao NASDAQ composite Jan-05 a Mar-06<br />
superior a mt−1 então antevê-se uma tendência de crescimento dos preços e a indicação<br />
deve ser de compra; de igual forma, se no dia t houve uma indicação de venda e Pt é sig-<br />
nificativamente inferior a Mt−1 então antevê-se uma tendência de queda dos preços e a in-<br />
dicação deve ser de venda. Diz-se que Pt é “significativamente” superior (inferior) a Mt−1<br />
se Pt > (1 + B) Mt−1 (respectivamente Pt < (1 + B) Mt−1) e B é um parâmetro positivo<br />
(bandwidth), calibrado com base na experiência passada. Formalmente, as regras canal de<br />
compra e venda estão apresentadas na tabela 11.1.<br />
Na figura 11-2 ilustra-se a regra canal ao NASDAQ composite (Jan-05 a Mar-06). Fixou-<br />
se L = 50 e B = 0.<br />
397
Regra Modelo ARMA<br />
t<br />
t + 1<br />
Comprar Vender Neutro<br />
Comprar<br />
Vender<br />
Neutro<br />
µ t+1,t > 0<br />
µ t+1,t > B<br />
µ t+1,t > B<br />
µ t+1,t < −B<br />
µ t+1,t < 0<br />
µ t+1,t < −B<br />
outros casos<br />
outros casos<br />
outros casos<br />
Tabela 11.2: Regras de Compra e Venda Baseadas num ARMA<br />
Seja µ t+1,t a previsão do retorno para o momento t + 1 dado Ft, baseado num certo modelo<br />
ARMA. Na tabela 11.2 definem-se as regras de compra e venda. A posição (1,1) na tabela<br />
11.2, estabelece o seguinte: se no período t houve uma indicação de compra e µ t+1,t > 0<br />
então antecipa-se uma tendência de subida dos preços e a indicação é de compra para o<br />
período t + 1 . A posição (2,1) estabelece o seguinte: se no período t houve uma indicação<br />
de venda e µ t+1,t > B então a indicação é de compra para o período t+1. O período t+1 é de<br />
compra apenas se a previsão do retorno for suficientemente alta, digamos, acima de B > 0.<br />
Se µ t+1,t > 0 mas µ t+1,t < B entende-se que não existe indicação suficientemente clara<br />
de compra dado que no período anterior o dia foi de venda e, nestas circunstâncias, o dia é<br />
considerado neutro, isto é, não há lugar a venda ou compra. As demais células interpretam-se<br />
de forma similar.<br />
O parâmetro B pode ser estimado com base na informação passada: selecciona-se o valor<br />
que maximiza o lucro.<br />
Medidas de Previsibilidade<br />
Embora as duas primeiras regras atrás apresentadas envolvam preços, as medidas de pre-<br />
visibilidade, por exigirem a aplicação do teorema do limite central e a lei dos grandes<br />
números, são construídas a partir dos retornos, dado que estes são (em princípio) proces-<br />
sos estacionários.<br />
Considere-se um certa regra de compra e venda e defina-se, C o conjunto dos índices t<br />
onde há um sinal de compra para o período seguinte, t+1, e V o conjunto dos índices t onde<br />
há um sinal de venda para o período seguinte, t + 1. Por exemplo, se nos dias 3, 7 e 9 há<br />
sinais de compra para os respectivos períodos seguintes, e nos dias 6 e 11 há sinais de venda<br />
para os períodos seguintes então, C = {3, 7, 9} e V = {6, 11} . Seja nC o cardinal de C, nV<br />
398
o cardinal de V (no exemplo dado nC = 3 e nV = 2),<br />
¯rC = 1<br />
nC<br />
<br />
t∈C<br />
rt+1<br />
a média empírica dos retornos em que houve um sinal de compra e<br />
¯rV = 1<br />
nV<br />
<br />
t∈V<br />
rt+1<br />
a média empírica dos retornos em que houve um sinal de venda.<br />
Se a regra de compra e venda é informativa então<br />
E (rt+1| t ∈ C) = E (rt+1| t ∈ V )<br />
i.e., o valor esperado dos retornos depende da informação de compra ou venda e, por isso, os<br />
dois valores esperados são diferentes. Se, pelo contrário, E (rt+1| t ∈ C) = E (rt+1| t ∈ V )<br />
então o comportamento dos retornos no período t + 1 não reflecte a expectativa de subida ou<br />
descida dos preços, dada pela regra de compra e venda.<br />
Numa regra informativa devemos esperar E (rt+1| t ∈ C) > E (rt+1| t ∈ V ) , i.e., o sinal<br />
de compra (venda) está associado a uma expectativa de subida (descida) sustentada dos<br />
preços.<br />
Temos várias formas de testar se uma regra de compra e venda é informativa. Uma<br />
possibilidade consiste em realizar o teste diferença de média. Admitindo que os retornos são<br />
i.i.d., tem-se que, sob a hipótese nula, H0: E (rt+1| t ∈ C) = E (rt+1| t ∈ V ) a estatística<br />
tem distribuição assimptótica N (0, 1) .<br />
z = ¯rC − ¯rV<br />
<br />
2 ˆσ C<br />
nC + ˆσ2 V<br />
nV<br />
(11.2)<br />
Um teste preferível que não exige independência dos retornos e pode acomodar autocor-<br />
relação e heterocedasticidade dos erros consiste na análise da significância do parâmetro β 1<br />
na regressão<br />
rt = β 0 + β 1It−1,C + β 2It−1,N + ut<br />
(11.3)<br />
(com erros padrão robustos) onde It,C e It,N são variáveis dummies; It,C assume o valor 1<br />
quando no período t houve uma indicação de compra e It,N que assume o valor 1 quando no<br />
399
período t houve uma indicação neutra. O chamado “grupo base” consiste na “indicação de<br />
venda”. Da equação (11.3) tem-se<br />
E (rt+1| t ∈ C) = β 0 + β 1, E (rt+1| t ∈ V ) = β 0<br />
e, portanto, se β 1 = 0 então E (rt+1| t ∈ C) = E (rt+1| t ∈ V ) . Pelo contrário, se β 1 > 0<br />
então E (rt+1| t ∈ C) > E (rt+1| t ∈ V ) . Deve-se então realizar o ensaio H0 : β 1 = 0 vs.<br />
H1 : β > 0.<br />
11.3 Teste à Eficiência Semi-Forte de Mercado<br />
Analisa-se se é possível obter rendibilidades anormais de forma persistente utilizando uma<br />
estratégia de investimento baseada nos preços passados e na informação pública disponível.<br />
Seja It = Ft ∪F X t onde F X t é o conjunto de toda a informação pública disponível, como<br />
por exemplo, balanços, relatórios da empresa, notícias divulgados pela empresa, etc. Se o<br />
mercado é eficiente no sentido semi-forte então é indiferente usar ou não usar a informação<br />
disponível It−1 para prever rt e, desta forma tem-se<br />
Pelo contrário, se<br />
E (rt| It−1) = E (rt)<br />
E (rt| It−1) = E (rt)<br />
então, a informação disponível It é relevante para prever os retornos futuros. Nestas circun-<br />
stâncias, existe alguma informação sobre a “tendência provável” de rt, e será possível, em<br />
princípio, obter rentabilidades anormais, usando a informação disponível It.<br />
Existem inúmeros procedimentos e conjuntos de informação It usados para testar a efi-<br />
ciência (semi-forte) de mercado. A literatura tem estudado (entre muitos outros) os seguintes<br />
tópicos:<br />
• Efeito do tamanho da empresa. A questão é: apresentarão as empresas pequenas, em<br />
termos da sua capitalização de mercado, rendibilidades médias superiores às empresas<br />
grandes, com nível de risco semelhante?<br />
• Reacção do mercado à chegada de informação. Este tópico é importante na análise da<br />
eficiência e é analisado em detalhe na secção 11.3.1.<br />
400
• Valor de mercado versus valor contabilístico. Entende-se que um valor de mercado<br />
baixo face ao valor contabilístico pode indicar, em certas circunstâncias, que as acções<br />
estão subavaliadas.<br />
• Rácio preço/lucro ou price-earnings ratio (P/E). Valores baixos significam que as<br />
acções da empresa em análise são transaccionados a um preço relativamente baixo<br />
face ao valor dos lucros e, portanto, a cotação da empresa poderá estar “barata”;<br />
• Impacto de outras variáveis financeiras como por exemplo, taxas de juro de obrigações<br />
de tesouro, dividendos por acção (dividend yield), etc.<br />
• Impacto de variáveis económicas, como por exemplo, produto, inflação, etc.<br />
• Impacto de outras “anomalias” mercado, como por exemplo, efeito dos dias da semana,<br />
efeito de fim de semana, fim de ano, etc. (efeitos de calendário - algumas destes tópicos<br />
foram já abordados na secção 3.1.6).<br />
Se o objectivo é analisar a eficiência do mercado (e, de certa forma a previsibilidade dos<br />
retornos) com base na variável x (e.g. taxa de juro) a variável x deverá entrar no modelo de<br />
regressão com um ou mais desfasamentos. Só assim é possível testar a previsibilidade de r.<br />
O modelo seria assim do tipo<br />
rt = c + βxt−1 + ut.<br />
Pode até suceder que o modelo rt = c + βxt + ut (com xt e não com xt−1) produza um<br />
ajustamento superior; mas neste caso o modelo não pode testar a previsibilidade de r com<br />
base em x (note-se de passagem que este último modelo é o CAPM se xt é a rendibilidade<br />
de mercado). Para se obterem rendibilidades anormais com base num modelo de previsão<br />
é necessário saber, com alguma antecipação, a tendência futura dos preços (e daí x entrar<br />
desfasado no modelo).<br />
11.3.1 Reacção do Mercado à Chegada de Informação<br />
Se o mercado é totalmente eficiente os activos respondem imediatamente à chegada de in-<br />
formação relevante ao mercado. A informação relevante poderá ser informação específica<br />
sobre a empresa, como por exemplo, o anúncio de lucros ou dividendos, o anúncio de fusões<br />
e aquisições, etc. Poderá também ser o anúncio de medidas de política económica ou outros<br />
eventos que tenham impacto sobre a rendibilidades dos activos financeiros.<br />
401
A questão é, portanto, óbvia: trata-se de identificar as informações similares relevantes<br />
e verificar se na vizinhança da data da divulgação da notícia as rendibilidades apresentaram<br />
um comportamento “anormal”.<br />
Para simplificar divida-se o estudo do impacto da chegada da informação sobre as rendibil-<br />
idades em duas áreas: A) impacto de notícias similares sobre um conjunto de empresas e B)<br />
impacto de notícias similares sobre uma empresa específica. No caso A) começa-se por<br />
recolher uma amostra de N empresas que estiveram expostas a anúncios não antecipados e<br />
observam-se as rendibilidades anormais na vizinhança das datas dos anúncios. A rendibili-<br />
dade anormal, ra, do activo i no período t é<br />
rat,i = rt,i − rendibilidade esperada do activo i no momento t.<br />
sendo rt,i o retorno do activo i no momento t. Como avaliar a rendibilidade esperada do<br />
activo i no momento t? A abordagem habitual consiste em tomar um modelo de equilíbrio<br />
como o CAPM ou a APT. Tomando o CAPM vem<br />
<br />
rat,i = rt,i − ˆαi + ˆ <br />
βirm,t onde rm,t é a rendibilidade do mercado no momento t. Sejam<br />
rat =<br />
N i=1 rat,i<br />
, s<br />
N<br />
2 N t =<br />
i=1 (rat,i − rat) 2<br />
,<br />
N − 1<br />
respectivamente, a média e a variância empírica seccional das rendibilidades anormais das<br />
empresas na data t. Estas estatísticas podem ser calculadas para qualquer t, mas tem sobre-<br />
tudo interesse analisar rat e s 2 t para t numa vizinhança do anúncio. Convencionando que o<br />
anúncio ocorre na data 0 e fixando uma janela temporal de d períodos para antes e depois do<br />
anúncio, rat e s 2 t podem ser calculadas para t = −d, ..., −1, 0, 1, ...d.<br />
Suponha-se que é divulgada uma notícia “boa”, como por exemplo, um anúncio de div-<br />
idendos acima do esperado. Se as rendibilidades anormais se concentram em t = 0 não<br />
podemos rejeitar a hipótese de o mercado ser eficiente. Pelo contrário, se existirem rendibil-<br />
idades anormais apenas para t > 0 poderão existir indícios de ineficiência, sobretudo se t é<br />
medido em dias. Em geral é preferível usarem-se dados intra-diários, por exemplo, períodos<br />
de 5, 10 ou 15 minutos.<br />
É possível aprofundar a análise construindo uma sucessão {rat} para todas as obser-<br />
402
vações disponíveis (e não apenas na vizinhança da data do anúncio). Com este procedimento<br />
é possível comparar rat nos períodos vizinhos e não vizinhos do anúncio, por exemplo,<br />
analisando a significância de β 2 na regressão,<br />
rat = β 0 + β 1I0,t + β 2I1,t + ut.<br />
onde I0,t e I1,t são variáveis dummies. I0,t assume o valor 1 quando t corresponde à data de<br />
anúncio e I1,t assume o valor 1 quando t corresponde a uma data imediatamente a seguir à<br />
data de anúncio . Se β 2 é significante então é possível que o mercado seja ineficiente (ou não<br />
totalmente eficiente). Se, pelo contrário, apenas β 1 é significante então o impacto do anúncio<br />
concentra-se no período do anúncio e não há razões para rejeitar a hipótese de eficiência. A<br />
análise poderá ser mais fina, adicionando-se mais variáveis dummies.<br />
Se o objectivo é avaliar o impacto de notícias similares sobre uma empresa específica -<br />
caso B) - o procedimento mais simples consiste em formular a equação de regressão<br />
rt = β 0 + β 1I0,t + β 2I1,t + β 3rm,t + ut. (11.4)<br />
A introdução da variável rm,t é importante porque permite isolar o efeito do anúncio do<br />
efeito de mercado. Com efeito, suponha-se que o anúncio tem impacto sobre a rendibilidade<br />
do mercado. Como a rendibilidade do mercado está correlacionado com a rendibilidade da<br />
acção em análise, o anúncio acaba por influenciar a rendibilidade da acção através do com-<br />
portamento global do mercado. Um modelo de regressão sem a variável rm,t não permite<br />
isolar o efeito do anúncio sobre a empresa. Por exemplo, neste modelo mais reduzido, se<br />
o parâmetro β 2 vem diferente de zero não se sabe se β 2 = 0 se deve ao efeito retardado<br />
do anúncio sobre a empresa ou ao efeito do mercado sobre a empresa induzido pelo anún-<br />
cio. Pode haver outra razão para introduzir rm,t. Suponha-se que os anúncios coincidem<br />
com movimentos de alta do mercado. Se rm,t não está no modelo os anúncios não podem<br />
distinguir-se dos movimentos de alta.<br />
403
Página em branco<br />
404
Capítulo 12<br />
Selecção de Portfolios<br />
(Última actualização: 2/2010)<br />
Vai analisar-se o problema da determinação dos pesos óptimos de uma carteira consti-<br />
tuída por m activos com risco e um activo sem risco por parte de um investidor individual.<br />
Os resultados principais devem-se a Markowitz (prémio Nobel 1990), James Tobin (prémio<br />
Nobel 1981) e William Sharpe (prémio Nobel 1990). O objectivo deste capítulo consiste em<br />
apresentar a teoria básica e ilustrar o problema da determinação dos pesos óptimos a partir<br />
de momentos marginais e condicionais da distribuição dos retornos.<br />
Os modelos de heterocedastiocidade multivariada são particularmente úteis quando os<br />
pesos óptimos se baseiam em momentos condicionais.<br />
12.1 Portfolio Baseado em Momentos Marginais<br />
Assumem-se as seguintes hipóteses:<br />
1. Os retornos seguem uma distribuição marginal normal multivariada;<br />
2. As correlações entre os retornos são fixas ao longo do tempo;<br />
3. O investidor é racional, tem aversão ao risco, usa toda a informação disponível e<br />
procura o máximo lucro, para um determinado nível de risco;<br />
4. Não existem custos de transacção;<br />
5. O investidor é price taker, isto é, não tem capacidade de influenciar os preços;<br />
6. O investidor pode emprestar e pedir emprestado sem restrições;<br />
405
7. Todos os activos podem ser convenientemente fraccionados.<br />
12.1.1 Todos os Activos Envolvem Risco<br />
Para além das hipóteses anteriores suponha-se que não existe o activo sem risco, i.e., todos<br />
os activos envolvem risco.<br />
Estabeleça-se a seguinte notação:<br />
• vector dos retornos: rt = (R1t, ..., Rmt) ′ ;<br />
• vector do valor esperado dos retornos: µ = (E (R1t) , ..., E (Rmt)) ′ ;<br />
• matriz das variâncias-covariâncias dos retornos: Var (rt) = H;<br />
• vector dos pesos da carteira: ω = (ω1, ..., ωm) ′ ;<br />
• retorno do portfolio: Rpt = m<br />
i=1 ωiRit = ω ′ rt<br />
• valor esperado do portfolio: E (Rpt) = E (ω ′ rt) = ω ′ µ<br />
• Variância do portfolio σ 2 p = Var (Rpt) = Var (ω ′ rt) = ω ′ Var (rt) ω = ω ′ Hω.<br />
Naturalmente que m<br />
i=1 ωi = 1 ⇔ ω ′ 1 = 1 onde 1 (a negrito) representa um vector-<br />
coluna de 1’s. Para simplificar, assume-se que todos os activos envolvem risco e que alguns<br />
pesos ωi (mas não todos) podem ser negativos. Na teoria financeira um peso pode ser nega-<br />
tivo quando há lugar a uma venda a descoberto ou short selling 1 . Esta hipótese simplifica o<br />
problema de optimização.<br />
Em condições normais, qualquer investidor procura dois objectivos antagónicos: max-<br />
imizar o lucro (ou valor do retorno) e minimizar o risco. Os objectivos são contraditórios<br />
porque, em geral, os activos com maior (menor) retorno (em média) são os que possuem<br />
maior (menor) variabilidade. Para conciliar estes objectivos, pode-se, por exemplo, (i) fixar<br />
um valor para o retorno esperado do portfolio e, para esse valor, procurar os activos com a<br />
menor variabilidade possível; ou (ii) fixar um valor para o risco do portfolio (variância) e,<br />
depois, procurar os activos com o maior retorno esperado possível.<br />
1 Venda a descoberto ocorre quando se vende um activo financeiro ou derivado que não se possui, esperando<br />
que o preço caia para depois comprá-lo e lucrar na transação. O mecanismo é o seguinte: o agente A pede<br />
(digamos) uma acção a B e promete-lhe todo o rendimento subjacente ao título. A vende imediatamente a<br />
acção a C; mais tarde, A compra no mercado a acção para a devolver a B. Se o preço da acção cair, esta<br />
operação é vantajosa para A.<br />
406
Suponha-se que se opta pelo procedimento (i). O problema de optimização é então<br />
⎧<br />
⎨<br />
⎩<br />
minωi<br />
Var (Rpt)<br />
s.a E (Rpt) = µ p e m<br />
i=1 ωi = 1<br />
Considere-se a função Lagrangeana,<br />
⎧<br />
⎨ minωi<br />
⇔<br />
⎩<br />
ω′ Hω<br />
s.a ω ′ µ = µ p e ω ′ 1 = 1<br />
L (ω) = ω ′ <br />
Hω + λ1 µp − ω ′ µ + λ2 (1 − ω ′ 1)<br />
(12.1)<br />
(λ1 e λ2 são os multiplicadores de Lagrange). Resolvendo o sistema, que se obtém a partir<br />
das condições de primeira ordem (∂L/∂ω = 0, ω ′ µ = µ p e ω ′ 1 = 1), e notando que L é<br />
uma função convexa 2 , obtém-se a solução do problema de optimização:<br />
onde<br />
ω ∗ = ω ∗ <br />
µ p = g+µph (12.2)<br />
g = β<br />
δ H−1 1− α<br />
δ H−1 µ, h = γ<br />
δ H−1 µ− α<br />
δ H−1 1,<br />
α = µ ′ H −1 1, β = µ ′ H −1 µ, γ = 1 ′ H −1 1, δ = βγ − α 2 ,<br />
1 = (1, 1, ..., 1) ′ .<br />
A expressão ω∗ <br />
µ p mostra que os pesos óptimos dependem de µp (fosse definido outro<br />
valor para µ p, e os pesos óptimos seriam outros).<br />
Resulta que a variância mínima associada ao retorno µ p é<br />
σ 2 ∗′ ∗<br />
p = Vp µp = ω Hω .<br />
O problema (ii) é equivalente ao problema (i) no seguinte sentido. Suponha-se que se<br />
<br />
fixa Vp µp como restrição e se procura maximizar o retorno, i.e.<br />
⎧<br />
⎨<br />
⎩<br />
maxωi E (Rpt)<br />
s.a Var (Rpt) = Vp<br />
m µp e i=1 ωi = 1.<br />
2 ′ A função ω Hω é estritamente convexa se H for uma matriz definida positiva (hipótese pacífica). As<br />
funções λ1 µp − ω ′ µ e λ2 (1 − ω ′ 1) são convexas por serem lineares (funções lineares são, por definição,<br />
côncavas e convexas).<br />
407
Então, pode-se provar, a solução deste problema optimização é precisamente µ p. Desta forma<br />
basta estudar o problema formulado na equação (12.1).<br />
Na prática os valores esperados µ e H são desconhecidos. É necessário estimá-los a<br />
partir dos valores observados. Supondo que {rt} é um processo estacionário fracamente<br />
dependente, µ e H podem ser estimados usando os seguintes estimadores consistentes:<br />
⎛<br />
⎜<br />
ˆµ = ⎜<br />
⎝<br />
¯r1<br />
.<br />
¯rm<br />
⎞<br />
⎟<br />
⎠ ,<br />
onde ˆ hij é o elemento (i, j) da matriz ˆH, dado por<br />
ˆhij = 1<br />
n<br />
<br />
ˆH = ˆhij<br />
i,j=1,..,m<br />
n<br />
(rit − ¯ri) (rjt − ¯rj) .<br />
t=1<br />
Exemplo 12.1.1 Considere-se um portfolio constituído pelas acções A1, A2 e A3. Vai ser<br />
tomada uma decisão de investimento no valor de 1 milhão de Euros. A questão é: quanto<br />
comprar de cada um desses activos? Com base em observações diárias suponha-se que se<br />
obtém 3 :<br />
⎛ ⎞<br />
5.22<br />
⎜ ⎟<br />
⎜ ⎟<br />
ˆµ = ⎜ 6.05 ⎟<br />
⎝ ⎠<br />
5.98<br />
⎛<br />
⎞<br />
1.549<br />
⎜<br />
ˆH<br />
⎜<br />
= ⎜ 0.9534<br />
⎝<br />
0.9534<br />
2.093<br />
0.465<br />
⎟<br />
1.0416 ⎟<br />
⎠<br />
0.465 1.0416 1.265<br />
.<br />
As rendibilidades estão anualizadas e em percentagem. Suponha-se que se pretende obter<br />
um retorno esperado do portfolio de µ p = 5.85. Usando a expressão (12.2) obtém-se<br />
ˆω ∗ ⎛ ⎞<br />
0.176<br />
⎜ ⎟<br />
(5.85) = ˆg+µ ˆh<br />
⎜ ⎟<br />
p = ⎜ 0.104 ⎟<br />
⎝ ⎠<br />
0.720<br />
.<br />
3 Estimativas baseadas nos retornos dos índices SP500, DowJones e PSI20, no período 04/01/1993-<br />
04/09/2009.<br />
408
Desta forma, a variância mínima do portfolio associado à rendibilidade 5.85 é<br />
Vpt (5.85) = ˆω ∗′ Hˆω ∗<br />
⎛<br />
⎞ ⎛ ⎞<br />
=<br />
<br />
0.176 0.104<br />
1.549<br />
⎜<br />
0.72 ⎜ 0.9534<br />
⎝<br />
0.9534<br />
2.093<br />
0.465 0.176<br />
⎟ ⎜ ⎟<br />
⎟ ⎜ ⎟<br />
1.0416 ⎟ ⎜ 0.104 ⎟ = 1.03.<br />
⎠ ⎝ ⎠<br />
0.465 1.0416 1.265 0.720<br />
O vector de pesos óptimo associado à combinação √ <br />
σp, µ p = 1.03, 5.85 diz-nos que a<br />
composição do portfolio deve ser de 17.6% de A1, 10.4% de A2 e 72% de A3.<br />
No exemplo anterior o investidor pode estar interessado em analisar outras combinações<br />
de retorno versus risco (mínimo). Desta forma, podemos fixar outros valores para µ p e, as-<br />
sim, obter as correspondentes variâncias mínimas do portfolio. No exemplo anterior, µ p pode<br />
variar entre 5.22 e 6.05. Faça-se uma grelha de valores para µ p, por exemplo, escrevam-se<br />
100 valores equidistantes para µ p no intervalo [5.22; 6.05] e obtenham-se as correspondentes<br />
variâncias mínimas:<br />
µ p<br />
.<br />
<br />
Vp µp<br />
5.85 1.03<br />
.<br />
6.05 1.32<br />
<br />
O gráfico definido pelos pares ordenados<br />
Vp<br />
.<br />
.<br />
<br />
µp , µp onde µ p é maior ou igual ao re-<br />
torno associado à variância mínima de todos os portfolios designa-se por fronteira eficiente.<br />
<br />
Na figura 12-1 traçam-se todos os pontos Vp µp , µp . O ponto A representa o par<br />
Vp <br />
ordenado (µ min), µ min onde Vp (µ min) é o valor da variância mínima de todos os<br />
portfolios e µ min é o retorno esperado associado (também mínimo). A fronteira eficiente<br />
é dada pelo segmento AB. O ponto C não faz parte da fronteira eficiente, pois existe um<br />
ponto D com igual variância mas retorno esperado superior. Assim, só os pontos sobre a<br />
curva AB são relevantes para o investidor e, por isso, no gráfico definido pelos pares orde-<br />
<br />
nados Vp µp , µp só interessam os pontos onde µ p é maior ou igual ao valor da orde-<br />
<br />
nada do ponto A. O investidor deve agora decidir qual o par µp , µp sobre a curva<br />
AB que mais lhe interessa, tendo em conta a sua maior ou menor aversão ao risco. Se for<br />
<br />
averso ao risco tenderá a escolher um par µp , µp mais próximo do ponto A; se tiver<br />
Vp<br />
maior apetência pelo risco tenderá a escolher uma solução mais próxima do ponto B. Contin-<br />
409<br />
Vp
Figura 12-1: Fronteira Eficiente: Curva AB<br />
uando o exemplo anterior, suponha-se que a combinação preferida do investidor é <br />
σp, µ p =<br />
√ ′<br />
1.03, 5.85 . Tendo em conta que o vector de pesos é ω = (0.176, 0.104, 0.72) , o inves-<br />
timento de 1 milhão de Euros seria então alocado da seguinte forma: 176000 Euros em A1,<br />
104000 em A2 e 720000 em A3.<br />
A fronteira eficiente dada pelo segmento AB é uma função não linear. Esta conclusão é<br />
imediata tendo em conta a representação paramétrica da função:<br />
<br />
Vp<br />
<br />
g+µph µp , µp =<br />
′ <br />
H g+µph <br />
, µ p =<br />
Se c0 = c1 = 0 a função seria linear.<br />
c0 + c1µ p + c2µ 2 p, µ p<br />
Como determinar analiticamente o valor da variância mínima de todos os portfolios efi-<br />
Vp <br />
cientes? Trata-se, afinal, de determinar as coordenadas do ponto A = (µ min), µ min<br />
da figura 12-1. Para o efeito resolve-se o problema de optimização livre<br />
cuja solução é<br />
<br />
dVp µp<br />
dµ p<br />
= d (ω∗′ Hω ∗ )<br />
dµ p<br />
µ min = − g′ Hh<br />
h ′ Hg .<br />
410<br />
= 0,<br />
<br />
.
Inserindo este valor em Vp () obtém-se<br />
Vp (µ min) = g ′ Hg− (g′ Hh) 2<br />
h ′ Hh<br />
Aplicando estas fórmula aos valores do exemplo anterior obtém-se µ min = 5.63 e Vp (µ min) =<br />
0.919.<br />
12.1.2 Modelo com Activo Sem Risco<br />
O porfolio inclui agora o activo sem risco (por exemplo, obrigações e os títulos do Tesouro 4 ).<br />
Tem rendibilidade certa µ f (e, por isso, tem variância e covariâncias nulas com os demais ac-<br />
tivos). A rendibilidade do portfolio é agora ω ′ µ+ (1 − ω ′ 1) µ f. O problema de optimização<br />
passa a ser ⎧ ⎨<br />
⎩<br />
minωi ω′ Hω<br />
s.a ω ′ µ+ (1 − ω ′ 1) µ f = µ p.<br />
Note-se que os pesos ω ′ 1, (1 − ω ′ 1) , somam um. A matriz H mantém-se naturalmente<br />
inalterada e, por isso, a função objectivo é a mesma. Apenas as restrições são modificadas.<br />
Pode-se provar que a solução é<br />
c <br />
µ p =<br />
ω ∗ <br />
µ p = c µp ¯ω,<br />
µ p − µ f<br />
µ−µf1 ′ H −1 µ−µ f1 , ¯ω = H−1 µ−µ f1 .<br />
Resulta que a variância mínima associada ao retorno µ p é<br />
∗′ ∗ ′ 2 ′<br />
Vp µp = ω Hω = c µp ¯ω Hc µp ¯ω =c µp ¯ω H¯ω.<br />
Nesta formulação a composição da carteira dos activos com risco é fixa, dado µ f, qual-<br />
quer que seja o valor µ p. Com efeito, ω∗ é proporcional a ¯ω e a constante de proporcionalidade<br />
é c ′<br />
µ p . Por exemplo, suponha-se que se tem dois activos com risco e ¯ω = (0.3, 0.6) .<br />
Então dado o valor de µ f, o número de acções do activo 2 é sempre o dobro do do activo 1,<br />
qualquer que seja o valor que queiramos para a rendibilidade do portfolio.<br />
A observação anterior sugere que o valor do portfolio pode ser dado como uma combi-<br />
4 Naturalmente, em condições normais, o estado não entra em falência. Não há portanto risco de incumprimento.<br />
Mas é preciso notar que as obrigações e os títulos do Tesouro têm o risco da taxa de juro (risco da taxa<br />
de juro subir e do preço dos títulos descer).<br />
411
nação linear de um portfolio constituído apenas por activos de risco e o activo sem risco.<br />
Este portfolio, constituído apenas por activos de risco, designa-se por tangency portfolio. Os<br />
pesos deste portfolio não poderão ser exactamente dados por ¯ω dado que os pesos ¯ω ′ is não<br />
somam um. Assim defina-se<br />
ωT =<br />
¯ω<br />
m<br />
i=1 ¯ωi<br />
= ¯ω<br />
¯ω ′ 1 .<br />
Note-se agora que a soma dos pesos do vector ωT somam um e ¯ω = ωT ¯ω ′ 1. Podemos assim<br />
escrever<br />
ω ∗ = c ′<br />
µ p ¯ω =c µp ¯ω 1ωT = aωT , a = c ′<br />
µ p ¯ω 1.<br />
O retorno do portfolio pode ser escrito como uma combinação linear entre o retorno do<br />
tangency portfolio, µ T e o retorno do activo sem risco, µ f:<br />
µ p = ω ∗′ µ+ (1 − ω ∗′ 1) µ f = aω ′ T µ + (1−a)µ f = aµ T + (1 − a) µ f.<br />
Por seu lado a variância do portfolio pode também ser escrita em função de ωT :<br />
∗′ ∗ ′<br />
Vp µp = ω Hω = aω T HaωT = a 2 ω ′ T HωT = a 2 σ 2 T<br />
e o desvio padrão do portfolio σp = aσT<br />
A fronteira eficiente é linear no espaço <br />
σp, µ p . Com efeito, usando algumas expressões<br />
já deduzidas, tem-se<br />
<br />
σp, µ p = aσT , aµ T + (1 − a) µ f .<br />
Esta representação paramétrica da fronteira eficiente permite deduzir<br />
σp = aσT ⇒ a = σp<br />
e, substituindo o valor de a em µ p = aµ T + (1 − a) µ f, resulta que a fronteira eficiente no<br />
espaço <br />
σp, µ p é dada pela recta (na forma reduzida)<br />
σT<br />
µ p = µ f + sσp, s = µ T − µ f<br />
.<br />
Na figura 12-2 a fronteira eficiente é representada pela recta bT, i.e. µ p = µ f + sσp. O<br />
declive da recta é s = (a − b) /c (na figura a representa µ T , b representa µ f e c representa<br />
σT . O valor s é designado por rácio de Sharpe.<br />
412<br />
σT
Figura 12-2: Fronteira Eficiente de um Portfolio com Activo Sem Risco (Recta)<br />
12.2 Portfolio Baseado em Momentos Condicionais<br />
O problema de optimização de um portfolio baseado nos dois primeiros momentos marginais<br />
da distribuição dos retornos implica que a decisão de investimento se mantém fixa ao longo<br />
do tempo, pois se o processo dos retornos é estacionário, como se admite na fase da esti-<br />
mação dos parâmetros, os momentos Var (Rpt) e E (Rpt) são constantes ao longo tempo e,<br />
por isso, a solução óptima é sempre a mesma, quaisquer que sejam as condições de mercado.<br />
Naturalmente, nenhum gestor de fundos segue esta estratégia de investimento, mesmo que<br />
as suas decisões se baseiem nos princípios do portfolio definido no ponto precedente. Na<br />
prática podem estimar ˆµ e ˆH usando médias móveis ou alisamentos exponenciais para de-<br />
sprezarem a informação antiga e actualizarem os parâmetros µ e H com informação mais<br />
recente. Desta forma os peso ωi podem variar ao longo do tempo, e as decisões de investi-<br />
mento podem ajustar-se de acordo com as condições de mercado. Mas a percepção de que<br />
as condições de mercado se alteram ao longo do tempo exige uma abordagem diferente.<br />
Uma decisão de investimento tomada no momento t−1, resulta da avaliação das condições<br />
de mercado e, em geral, da informação disponível no momento t − 1. Esta decisão tomada<br />
no período t − 1 pode naturalmente alterar-se no momento t, se as condições de mercado<br />
e a informação disponível em t se alterarem também. Desta forma, a selecção dos activos<br />
deve basear-se em momentos condicionais e não em momentos marginais. Recorde-se que<br />
as melhores previsões dos retornos e da volatilidade para o período t, dada toda a informação<br />
413
disponível até ao momento t − 1, são dadas pelos dois primeiros momentos condicionais. A<br />
determinação dos pesos óptimos usando momentos condicionais assenta na ideia de que o<br />
portfolio pode ajustar-se continuamente ao longo do tempo em função das condições de mer-<br />
cado. Esta abordagem tem ainda a vantagem de contornar as criticas que se fazem às duas<br />
primeiras hipóteses definidas na secção anterior (os retornos seguem uma distribuição mar-<br />
ginal normal multivariada, e as correlações entre os retornos são fixas ao longo do tempo).<br />
Como se sabe, no quadro de um modelo baseado em momentos condicionais variáveis, não<br />
só a distribuição marginal não é (em condições muito gerais) normal, como também as cor-<br />
relações (condicionais) podem ser variáveis ao longo do tempo.<br />
Na formulação que a seguir apresentaremos, a decisão de investimento é tomada no mo-<br />
mento t − 1, baseada numa suposição sobre o comportamento dos retornos esperados e do<br />
risco envolvido no momento t. Na verdade as perdas ou ganhos que eventualmente ocorram<br />
vão concretizar-se no momento t. É por esta razão que os momentos condicionais envolvem<br />
variáveis aleatórias no momento t, dada a informação disponível em t − 1.<br />
Estabeleça-se a seguinte notação:<br />
• vector do valor esperado condicional dos retornos: µ t = (E (R1t| Ft−1) , ..., E (Rmt| Ft−1)) ′ ;<br />
• matriz das variâncias-covariâncias condicionais dos retornos: Var (rt| Ft−1) = Ht;<br />
• vector dos pesos da carteira no momento t: ωt = (ω1t, ..., ωmt) ′ ;<br />
• retorno do portfolio: Rpt = m<br />
i=1 ωitRit = ω ′ trt<br />
• valor esperado condicional do portfolio: E (Rpt| Ft−1) = E (ω ′ trt| Ft−1) = ω ′ tµ t<br />
• Variância condicional do portfolio Vpt = Var (Rpt| Ft−1) = Var (ω ′ trt| Ft−1) =<br />
ω ′ t Var (rt| Ft−1) ωt = ω ′ tHtωt.<br />
Os principais resultados foram já obtidos nos pontos precedentes. Substituindo os mo-<br />
mentos marginais pelos momentos condicionais têm-se os seguintes resultados:<br />
• Pesos óptimos de um portfolio sem o activo sem risco, dado um determinado nível de<br />
retorno µ p,t:<br />
ω ∗ t = ω ∗ t<br />
<br />
µp,t = gt+µ p,tht<br />
414
onde<br />
gt = βt H<br />
δt<br />
−1<br />
t 1− αt<br />
H<br />
δt<br />
−1<br />
t µ, h t= γ t<br />
H<br />
δt<br />
−1<br />
t µ t− αt<br />
δt<br />
H −1<br />
t 1<br />
αt = µ ′ tH −1<br />
t 1, β t = µ ′ tH −1<br />
t µ t, γ t = 1 ′ tH −1<br />
t 1, δt = β tγ t − α 2 t ,<br />
1 = (1, 1, ..., 1) ′ .<br />
• Pesos óptimos de um portfolio com o activo sem risco, dado um determinado nível de<br />
retorno µ p,t:<br />
c <br />
µ p =<br />
ω ∗ <br />
µ p,t = c µp,t ¯ωt,<br />
µ p,t − µ f<br />
µt−µ f1 ′ H −1<br />
t<br />
µt−µ f1 , ¯ωt= H −1<br />
t<br />
• A fronteira eficiente no espaço <br />
σp, µ p com o activo sem risco é<br />
µ p,t = µ f + stσp,t, st = µ T,t − µ f<br />
σT,t<br />
.<br />
µt−µ f1 .<br />
Este rácio de Sharpe depende de t, pois, em última análise, depende de µ t e Ht.<br />
Se o horizonte do investimento fosse h períodos e admitíssemos que não haveria lugar a<br />
alterações do portfolio durante o período do investimento, os momentos condicionais rele-<br />
vantes passariam a ser<br />
E (rt+h| Ft) , Var (rt+h |Ft ) .<br />
Quando o horizonte de previsão é elevado, os momentos condicionais são, em condições<br />
ergódicas, aproximadamente iguais aos momentos marginais.<br />
Naturalmente os valores esperados condicionais µ t e Ht são desconhecidos. É necessário<br />
estimá-los, por exemplo, a partir de um modelo GARCH multivariado.<br />
415
Página em branco<br />
416
Capítulo 13<br />
Risco de Mercado e o Valor em Risco<br />
13.1 Introdução<br />
(Última actualização: 2/2011)<br />
Em resposta aos desastres financeiros ocorridos no passado recente, a gestão do risco sofreu<br />
uma revolução nos últimos anos. O valor em risco ou Value at Risk (VaR) iniciou essa<br />
revolução e tem ganho reconhecimento como medida fundamental na análise e na gestão do<br />
risco de mercado das instituições financeiras. Presentemente, muitas instituições reportam<br />
medidas de risco relacionadas com o VaR para o público em geral e, em certos casos, também<br />
para agências reguladoras. Por exemplo, os bancos comerciais estão sujeitos a requisitos<br />
mínimos de capital para cobrirem o seu risco de crédito e de mercado. O Acordo Basiléia II<br />
estabelece taxas de segurança baseadas em modelos VaR.<br />
A literatura financeira enumera vários tipos de risco, como por exemplo, risco de mer-<br />
cado, risco de crédito, risco de liquidez, risco operacional (associado ao risco de fraude,<br />
erros de transacção e de apreçamento, etc.) e risco sistémico (associado, por exemplo, a<br />
situações de incumprimento devido a reacções em cadeia). Neste capítulo aborda-se o risco<br />
de mercado, isto é, o risco associado às variações (inesperadas) de preços e taxas e algumas<br />
metodologias de mensuração desse risco.<br />
Para introduzir o VaR é instrutivo, em primeiro lugar, pensar-se em análise de cenários.<br />
Neste tipo de análise, formulam-se vários resultados possíveis de acordo com a informação<br />
disponível e, quando tal é possível, atribuem-se probabilidades aos diversos cenários. Em<br />
geral, dá-se especial atenção aos piores cenários pois são estes que maior impacto têm sobre<br />
o funcionamento normal da organização.<br />
417
Para avaliar os piores cenários, podemos começar por formular a questão: “Qual é a<br />
perda máxima que a organização pode sofrer num certo período de tempo?”. A resposta<br />
não é particularmente informativa, pois a perda máxima significa perder tudo (com prob-<br />
abilidade praticamente nula). Se reformularmos ligeiramente a questão, obtemos a me-<br />
dida VaR: “Quanto é que podemos perder com probabilidade α > 0 num certo período<br />
de tempo?”. Impõe-se que α seja não nulo mas razoavelmente pequeno com vista a avaliar<br />
os eventos que embora raros podem ocorrer e afectar o funcionamento normal da organi-<br />
zação. VaR é portanto a perda que pode ocorrer num lapso de tempo determinado, com<br />
certa probabilidade α, supondo que o portfolio não é gerido durante o período de análise.<br />
Em termos probabilísticos, o VaR é o quantil de ordem α (em módulo) 1 da distribuição<br />
teórica de ganhos e perdas. Para concretizar, seja ∆Vn+h := Vn+h − Vn a variação do<br />
valor do capital investido não gerido durante o horizonte de risco de h dias. Por exem-<br />
plo, considere-se a compra de 200,000 acções 2 de um título no período n , ao preço de<br />
Pn = 5 Euros. O investimento é de Vn = 5 × 200, 000 = 1, 000, 000 Euros. Suponha-se<br />
que no momento n + h o preço do título passa para Pn+h = 5.5 Euros. A variação do cap-<br />
ital é de ∆Vn+h = 1, 100, 000 − 1, 000, 000 = 100, 000. O retorno (em tempo discreto) é<br />
Rn+h = (Pn+h − Pn) /Pn = 0.1. É importante notar que o retorno pode também ser obtido<br />
através da expressão Rn+h = ∆Vn+h/Vn. 3 Pode supor-se que Vt é observado no período<br />
t = 1, 2, ..., n, mas não em n + 1, n + 2, ... Os valores que V vier a assumir no periodo<br />
n + 1, n + 2, ..., n + h dizem respeito ao perído de investimento e, portanto, Vn+h, é descon-<br />
hecido para h ≥ 1.<br />
que<br />
O VaR a 100α% baseado na distribuição marginal de ganhos e perdas é o valor VaR tal<br />
P (∆Vn+h < −V aR) = α.<br />
Por seu turno, o VaR a 100α% baseado na distribuição condicional é o valor VaR tal que<br />
P (∆Vn+h < −V aR| Fn) = α.<br />
1 O quantil de ordem α < 0.05 da distribuição de ganhos e perdas é um valor negativo. Para que o VaR<br />
represente efectivamente uma “perda”, considera-se esse quantil em valor absoluto.<br />
2 Seguimos a notação anglo-saxónica: a vírgula separa os milhares.<br />
3 Este facto é relevante, pelo seguinte. Como iremos ver mais à frente uma das abordagens possíveis ao VaR<br />
consiste em modelar parametricamente o processo {∆Vt} . Ora este processo é quase sempre não estacionário.<br />
Para confirmar este facto, veja-se a figura 6-9, no ponto 6.3.2, onde se exibe uma trajectória típica de ∆Vt.<br />
Desta forma, usando a relação Rn+h = ∆Vn+h/Vn, pode-se modelar ∆Vn+h via retornos, que é geralmente<br />
um processo estacionário.<br />
418
O VaR (condicional) é uma medida que depende explicitamente de n, h e α e, portanto,<br />
pode ser escrita como V aRn,n+h,α. A estimação do VaR envolve princípios e procedimentos<br />
até certo ponto similares com a da previsão de ∆Vn+h. Em ambos os casos, a lei de prob-<br />
abilidades relevante é a distribuição condicional de ∆Vn+h dado Fn, i.e., f (·| Fn) . Com<br />
efeito, o previsor óptimo para ∆Vn+h dado Fn (de acordo com o critério do EQM) corre-<br />
sponde ao primeiro momento da distribuição f (·| Fn), i.e., E (∆Vn+h| Fn) . Por seu turno,<br />
o V aRn,n+h,α é o quantil de ordem α da distribuição de f (·| Fn). Em ambos os casos, as<br />
quantidades de interesse são parâmetros da distribuição f (·| Fn) .<br />
Uma vantagem do VaR é a de poder agregar numa única medida diferentes tipos de risco.<br />
Pelo contrário, as medidas tradicionais de risco não são agregáveis. Revejam-se algumas<br />
medidas tradicionais de risco.<br />
O risco associado com uma obrigação do tesouro é o risco da taxa de juro e a medida<br />
tradicional deste risco é a duração (medida de volatilidade do preço da obrigação face a vari-<br />
ações da taxa de rendimento até à maturidade). O principal risco associado com obrigações<br />
emitidas por entidades particulares é o risco de incumprimento (default risk), o qual pode<br />
ser medido através de um sistema de rakings, disponibilizados em vários casos por agências<br />
de crédito. Para portfolios de acções o risco é normalmente avaliado através da volatilidade<br />
do portfolio, que é função das volatilidades individuais e das correlações entre os diferentes<br />
activos. O risco de taxa de câmbio tipicamente inclui spreads e volatilidades das taxas de<br />
câmbio. Os risco associados a swaps e opções também está sujeito a um tratamento especial.<br />
Em geral, as medidas tradicionais de risco não podem ser agregadas numa única medida<br />
(por exemplo, a duração de uma obrigação não pode ser comparada com a volatilidade de<br />
um portfolio). Pelo contrário, uma das grandes vantagens da metodologia VaR é a de poder<br />
agregar diferentes tipos de risco numa única intuitiva medida de risco.<br />
tivo.<br />
Para simplificar admite-se inicialmente que o portfolio é constituído por apenas um ac-<br />
13.2 Abordagem Não Paramétrica<br />
Seja<br />
∆Vn+1 = ∆Vn+1<br />
Vn = Rn+1Vn<br />
Vn<br />
419
variação do capital ao fim de um período. Por definição tem-se<br />
ou, equivalentemente,<br />
P (∆Vn+1 < −V aRn,n+1,α| Fn) = α<br />
P (Rn+1Vn < −V aRn,n+1,α| Fn) = α,<br />
<br />
<br />
V aRn,n+1,α <br />
P Rn+1 < − <br />
Vn<br />
Fn<br />
<br />
= α,<br />
<br />
= α.<br />
P Rn+1 < q R α Fn<br />
Resulta V aRn,n+1,α = −q R α Vn onde q R α é o quantil de ordem α da distribuição de Rn+1 dado<br />
Fn.<br />
Se assumirmos<br />
P Rn+1 < q R α Fn<br />
o VaR pode estimado a partir da expressão<br />
<br />
<br />
= P Rn+1 < q R α<br />
V aRn,n+1,α = −˜q R α Vn<br />
onde ˜q R α é o quantil empírico de ordem α da série de retornos {Rt} 4 . Observe-se que nen-<br />
huma hipótese é estabelecida sobre a distribuição (marginal) dos retornos - daí a designação<br />
de “abordagem não paramétrica”.<br />
No caso h > 1, considera-se<br />
∆Vn+h = ∆Vn+h<br />
Para determinar V aRn,n+h,α resolve-se a expressão<br />
Vn<br />
Vn = Rn+h (h) Vn<br />
P (∆Vn+h < −V aRn,n+h,α| Fn) = α<br />
4 Na literatura existem diferentes fórmulas para calcular o quantil empírico de ordem α. Usaremos a seguinte<br />
convenção: o quantil empírico ˜q R α corresponde à estatística de ordem [nα] , sendo [x] o inteiro de x. Por<br />
exemplo, na amostra de dimensão n = 6, {1, 4, 2, 7, 15, 0} , as estatísticas de ordem são: y (1) = 0, y (2) = 1,<br />
y (3) = 2, y (4) = 4, y (5) = 7, y (6) = 15. O quantil de ordem α = 0.9 é a estatística de ordem [0.9 × 6] = 5,<br />
isto é, y (5) = 7.<br />
420
em ordem a V aRn,n+h,α ou, equivalentemente, resolve-se a expressão<br />
P (Rn+h (h) Vn < −V aRn,n+h,α| Fn) = α<br />
<br />
<br />
V aRn,n+h,α <br />
P Rn+h (h) < − <br />
Vn<br />
Fn<br />
<br />
= α<br />
<br />
= α<br />
P Rn+h (h) < q R α Fn<br />
em ordem a q R α e obtém-se depois V aRn,n+1,α = −q R α Vn. Se assumirmos<br />
o VaR pode estimado a partir da expressão<br />
P (Rn+h (h) < qα| Fn) = P (Rn+h (h) < qα)<br />
V aRn,n+h,α = −˜q R α Vn<br />
onde ˜q R α é o quantil empírico de ordem α da série de retornos {Rn+h (h) , n = 1, 2, ...}.<br />
Naturalmente, o VaR pode ser obtido a partir directamente da distribuição empírica das<br />
variações de capital {∆Vn+h, n = 1, 2, ...} . Neste caso viria V aRn,n+h,α = −˜q ∆V<br />
α , onde ˜q ∆V<br />
α<br />
é o quantil empírico de ordem α da série {∆Vn+h, n = 1, 2, ...}.<br />
Se a análise incide sobre um portfolio linear, na construção da série histórica dos retornos<br />
Rp,t = ω1R1,t + ω2R2,t + ... + ωnRn,t,<br />
onde ωi são os pesos do capital investido no activo i ( n<br />
i=1 ωi = 1), os pesos devem per-<br />
manecer fixos durante todo o período histórico.<br />
A abordagem não paramétrica embora tenha a vantagem de ser simples, sofre dos seguinte<br />
problemas:<br />
• Embora a distribuição não esteja especificada (por isso mesmo é que o procedimento<br />
se designa por não paramétrico) assume-se (incorrectamente) que a distribuição rele-<br />
vante para obter o VaR é a distribuição marginal de Rn+h e não a distribuição condi-<br />
cional. Mas o VaR está associado a uma previsão dos retornos dada (obviamente) a<br />
informação disponível Fn e, por isso, é a distribuição condicional que nos interessa.<br />
Assim, mesmo que no período n se registe, por exemplo, alta volatilidade e perdas<br />
acentuadas, essa informação é negligenciada para obter o VaR.<br />
421
• Quando α é muito baixo por exemplo α = 0.01 ou inferior o estimador ˜q R α é muito im-<br />
preciso. A justificação teórica é dada pelo seguinte resultado assimptótico. Suponha-<br />
se que {Xt, t = 1, ..., n} é uma sucessão de variáveis i.i.d. com função distribuição<br />
F e função densidade de probabilidade f e seja qα = inf {x : F (x) ≥ α} . O quantil<br />
empírico ˜qα (isto, é a estatística de ordem [nα]) tem distribuição assimptótica dada por<br />
√ n (˜qα − qα)<br />
<br />
d<br />
−→ N 0,<br />
α (1 − α)<br />
(f (qα)) 2<br />
<br />
.<br />
A variância assimptótica de ˜qα “explode” quando a fdp no ponto valor qα, f (qα) , é<br />
aproximadamente zero. Isto sucede quando qα é um valor extremo (i.e., muito afastado<br />
do centro da distribuição), isto é, quando α é um valor muito baixo, perto de zero, (ou<br />
muito alto, perto de 1). Em suma, a variância do quantil empírico é alta nas abas e<br />
baixa no centro da distribuição.<br />
• Até onde coligir os dados? Considerar todo o passado disponível? Ou só o pas-<br />
sado recente? Esta questão é mais relevante neste procedimento do que em outros,<br />
pois a metodologia exposta atribui o mesmo peso a todas as observações. Normal-<br />
mente considera-se o passado recente pois dados muito antigos podem não reflectir<br />
a dinâmica do processo no presente e no futuro imediato (será relevante atribuir im-<br />
portância ao crash de 1929-31 para obter o VaR num futuro próximo?). Por outro lado,<br />
também não convém definir janelas de observações muitas curtas pois a eficiência do<br />
estimador do quantil de ordem α pode ser severamente afectada, sobretudo quando α<br />
é muito baixo. Vários estudos indicam como razoável considerar-se os últimos dois<br />
ou três anos de observações.<br />
13.3 Abordagem Paramétrica<br />
Considere-se novamente a expressão para o caso h = 1:<br />
∆Vn+1 = ∆Vn+1<br />
Vn<br />
Vn = Rn+1Vn rn+1Vn.<br />
Esta expressão mostra que a distribuição condicional de rn+1Vn apenas depende da dis-<br />
tribuição de rn+1 (no momento n, Vn é conhecido). Podemos assim concentrar-nos apenas<br />
sobre a distribuição de rn+1. Assuma-se rn+1| Fn ∼ D µ n+1, σ2 <br />
n+1 onde D é uma<br />
422
distribuição qualquer de média µ n e variância σ 2 n. Tem-se<br />
Estandardizando rn+1, isto é, considerando<br />
vem<br />
P<br />
P (∆Vn+1 < −V aRn,n+1,α| Fn) = α<br />
<br />
<br />
V aRn,n+1,α <br />
P rn+1 < − = α.<br />
<br />
V aR − Vn − µ n+1<br />
σn+1<br />
Zn+1 <<br />
Vn<br />
Fn<br />
Zn+1 = rn+1 − µ n+1<br />
σn+1<br />
− V aRn,n+1,α<br />
Vn<br />
σn+1<br />
<br />
− µ <br />
n+1 <br />
<br />
Fn<br />
= q Z α ⇒ V aRn,n+1,α = − µ n+1 + qZ <br />
α σn+1 Vn<br />
(q Z α é o quantil de ordem α da distribuição da variável Zn+1).<br />
No caso h > 1 tem-se<br />
∆Vn+h = ∆Vn+h<br />
Vn<br />
Vn<br />
<br />
= α (13.1)<br />
≈ (rn+1 + rn+2 + ... + rn+h) Vn, rn+i = log (Pn+i/Pn+i−1)<br />
= rn+h (h) Vn.<br />
(13.2)<br />
Não é por mero acaso que se passa de ∆Vn+h para rn+h (h) Vn. A ideia é obter a distribuição<br />
de ∆Vn+h a partir da distribuição de rn+h (h) . Claro que, formalmente, ∆Vn+h é igual a<br />
Rn+h (h) Vn (onde Rn+h (h) são os retornos discretos multi-períodos). O problema com esta<br />
relação decorre do facto da distribuição de Rn+h (h) ser geralmente difícil de tratar.<br />
Para determinar V aRn,n+h,α considera-se<br />
P (rn+h (h) Vn < −V aRn,n+h,α| Fn) = α<br />
<br />
<br />
V aRn,n+h,α <br />
P rn+h (h) < − = α<br />
423<br />
Vn<br />
Fn
e, estandardizando 5 rn+h (h), i.e.,<br />
vem<br />
Conclui-se<br />
P<br />
<br />
Zn+h <<br />
Zn+h = rn+h (h) − E (rn+h (h)| Fn)<br />
<br />
Var (rn+h| Fn)<br />
V aRn,n+h,α<br />
− Vn<br />
V aRn,n+h,α<br />
− Vn<br />
<br />
− E (rn+h (h)| Fn) <br />
<br />
<br />
Var (rn+h| Fn)<br />
Fn<br />
<br />
= α.<br />
− E (rn+h (h)| Fn)<br />
= q<br />
Var (rn+h (h)| Fn)<br />
Z α<br />
<br />
⇒ V aRn,n+h,α = − E (rn+h (h)| Fn) + qZ <br />
α Var (rn+h (h)| Fn) Vn<br />
Estas fórmulas gerais serão agora adaptadas a casos mais simples.<br />
13.3.1 Modelo Gaussiano Simples<br />
O caso mais simples consiste em assumir<br />
(13.3)<br />
rt = µ + ut, (13.4)<br />
onde {ut} é um ruído branco Gaussiano, ut ∼ N (0, σ 2 ) . Assim, rn+1 ∼ N (µ, σ 2 ) . No caso<br />
h = 1, tem-se, pela fórmula (13.2)<br />
V aRn,n+1,α = − µ + q Z α σ Vn<br />
onde q Z α é o quantil de ordem α da distribuição N (0, 1) (observe-se que a variável Zn+1<br />
na expressão (13.1) tem distribuição N (0, 1)). No caso h > 1 é necessário deduzir-se<br />
a distribuição condicional de rn+h (h). Como, por hipótese, rn+h (h) não depende Fn, a<br />
distribuição condicional coincide com a distribuição marginal. Pelas propriedades habituais<br />
da distribuição normal vem rn+h (h) = rn+1 + rn+2 + ... + rn+h ∼ N (hµ, hσ 2 ) . Assim,<br />
E (rn+h (h)| Fn) = E (rn+h (h)) = hµ<br />
Var (rn+h (h)| Fn) = Var (rn+h (h)) = hσ 2<br />
5 Admitindo que faz sentido a estandardizazção. Veremos que no caso geral a distribuição de Wn+h é<br />
desconhecida.<br />
424
e, portanto, pela aplicação da fórmula (13.3), vem<br />
<br />
V aRn,n+h,α = − hµ + √ hσq Z <br />
α Vn.<br />
Se µ = 0 deduz-se V aRn,n+h,α = √ hV aRn,n+1,α<br />
13.3.2 Modelo RiskMetrics<br />
As hipóteses de normalidade e variância condicional constante, assumidas no modelo an-<br />
terior, são, como se sabe, bastante limitativas. Um modelo relativamente simples, mas<br />
assumindo variância condicional não constante corresponde ao modelo RiskMetrics desen-<br />
volvido pela J.P. Morgan para o cálculo do VaR. A metodologia baseia-se no modelo EWMA<br />
(equação (8.7)):<br />
rt = σtεt, σ 2 t = (1 − λ) r 2 t−1 + λσ 2 t−1<br />
onde {εt} é um ruído branco de média nula e variância 1. O modelo assenta na hipótese<br />
IGARCH(1,1) com termo constante nulo, ω = 0, e média condicional nula, µ t = 0. Para<br />
obter V aRn,n+h,α aplica-se uma vez mais a fórmula (13.3). Para o efeito estude-se a dis-<br />
tribuição condicional de rn+h (h) . Comece-se por verificar que<br />
E (rn+i| Fn) = 0, E σ 2 n+i<br />
<br />
Fn<br />
= σ 2 n<br />
Logo, tendo em conta que E (rtrt+i) = 0, vem<br />
E (rn+h (h)| Fn) = 0<br />
Var (rn+h (h)| Fn) = Var (rn+1 + ... + rn+h| Fn)<br />
(Ver previsão IGARCH, ponto 8.11.1).<br />
= Var (rn+1| Fn) + ... + Var (rn+h| Fn)<br />
= E σ 2 <br />
<br />
n+1 Fn + ... + E σ 2 <br />
<br />
n+h Fn<br />
= hσ 2 n.<br />
425
São conhecidos os dois primeiros momentos. Falta conhecer-se a lei de probabilidade de<br />
rn+h (h) . Assuma-se que rn+h (h)| Fn tem distribuição aproximadamente normal 6<br />
rn+h (h)| Fn<br />
Pela fórmula (13.3) vem<br />
a<br />
∼ N (E (rn+h (h)| Fn) , Var (rn+h (h)| Fn)) .<br />
<br />
V aRn,n+h,α = − q Z √ <br />
α hσn Vn<br />
onde q Z α é o quantil de ordem α da distribuição N (0, 1) .<br />
Naturalmente outras distribuições podem ser consideradas. Note-se finalmente V aRn,n+h,α =<br />
√ hV aRn,n+1,α.<br />
13.3.3 Modelo ARMA-GARCH<br />
Assuma-se agora<br />
φ p (L) rt = µ + θq (L) ut<br />
ut = σtεt, ut ∼ GARCH.<br />
6 A distribuição de rn+h (h)| Fn é geralmente desconhecida. Mesmo no caso em que rn+1| Fn tem<br />
distribuição normal, rn+i| Fn para i = 2, 3, ... não tem distibuição normal. Relembre-se que, sob certas<br />
condições, a distribuição de rn+i| Fn quando i → +∞ converge para a distribuição marginal que geralmente<br />
é diferente da distribuição condicional. Pode-se mostrar que a função de distribuição de rn+h (h)| Fn é<br />
<br />
Fn,h (x) =<br />
rn(h)≤x<br />
<br />
h−1<br />
f (rn+h (h)| Fn+h−1) f (rn+i| Fn+i−1) drn+1...drn+h.<br />
Esta expressão só é conhecida no caso h = 1. Para h > 1 a expressão anterior é intratável. Neste caso a<br />
fdp rn+h (h)| Fn pode considerar-se desconhecida (Tsay (2001), cap.7 conclui erradamente que εn ∼ Normal<br />
⇒ rn+h (h)| Fn ∼ Normal). Apesar destas observações, podemos assumir<br />
por duas razões:<br />
i=1<br />
rn+h (h)| Fn ≈ N (E (rn+h (h)| Fn) , Var (rn+h (h)| Fn))<br />
• se h = 1 e ε ∼ N (0, 1) , rn+h (h)| Fn terá certamente distribuição normal. A distribuição de<br />
rn+h (h)| Fn no caso h = 2 ou h = 3 não deverá, em princípio, afastar-se muito da distribuição<br />
normal;<br />
• com h alto e supondo r estacionário e fracamente dependente, pode-se invocar o teorema do limite<br />
central. Com efeito rn+h (h)| Fn/ Var (rn+h (h)| Fn) é uma soma normalizada que, sob certas<br />
condições, converge em distribuição para Z ∼ N (0, 1).<br />
426
Tal como no caso anterior, temos de obter a distribuição de rn+h (h)| Fn. Tem-se<br />
E (rn+h (h)| Fn) = µ n+1,n + ... + µ n+h,n<br />
onde µ n+i,n = E (rn+i| Fn) é a previsão de r para o momento n + i dada a informação<br />
disponível no momento n. Para obter Var (rn+h (h)| Fn) comece-se por observar que<br />
Como<br />
resulta<br />
Var (rn+h (h)| Fn) =<br />
rn+1 E + ... + rn+h − <br />
2 µ n+1,n + ... + µ n+h,n Fn<br />
= E (en (1) + ... + en (h)) 2 <br />
Fn<br />
(13.5)<br />
Vimos no ponto 6.6.4 que<br />
h−1<br />
en (h) = ψ0un+h + ψ1un+h−1 + ... + ψh−1un+1 =<br />
en (1) = un+1,<br />
en (2) = un+2 + ψ 1un+1,<br />
...,<br />
<br />
ψjun+h−j. j=0<br />
en (h) = un+h + ψ 1un+h−1 + ... + ψ h−1un+1<br />
h−1<br />
en (1) + ... + en (h) = un+1 + (un+2 + ψ1un+1) + ... +<br />
Como {ut} é um RB vem<br />
= un+h + (1 + ψ 1) un+h−1 + ... +<br />
Var (rn+h (h)| Fn) = E (en (1) + ... + en (h)) 2 <br />
Fn<br />
<br />
ψjun+h−j j=0<br />
<br />
h−1<br />
<br />
<br />
ψj j=0<br />
un+1.<br />
= Var (un+h| Fn) + (1 + ψ 1) 2 Var (un+h−1| Fn)<br />
+... +<br />
h−1<br />
<br />
ψj j=0<br />
427<br />
2<br />
Var (un+1| Fn) . (13.6)
Falta conhecer-se a lei de probabilidade de rn+h (h) . Sob a hipótese<br />
rn+h (h)| Fn<br />
e atendendo à formula (13.3) vem<br />
a<br />
∼ N (E (rn+h (h)| Fn) , Var (rn+h (h)| Fn))<br />
<br />
V aRn,n+h,α = − E (rn+h (h)| Fn) + q Z <br />
α Var (rn+h (h)| Fn) Vn<br />
onde E (rn+h (h)| Fn) e Var (rn+h (h)| Fn) são dados pelas expressões (13.5) e (13.6).<br />
Exemplo 13.3.1 Considere-se o modelo<br />
Tendo em conta que<br />
resulta<br />
σ 2 n+k,n =<br />
rt = σtεt, σ 2 t = ω + α1r 2 t−1 + β 1σ 2 t−1.<br />
ω<br />
+ (α1 + β<br />
1 − α1 − β<br />
1)<br />
1<br />
k−1 α1r 2 n + β1σ 2 n , (un = rn)<br />
Var (rn+h (h)| Fn) = Var (un+h| Fn) + Var (un+h−1| Fn) + ... + Var (un+1| Fn)<br />
=<br />
h<br />
Tem-se<br />
e<br />
V aRn,n+h,α = −<br />
<br />
q Z α<br />
=<br />
=<br />
k=1<br />
σ 2 n+k,n<br />
h<br />
<br />
ω<br />
+ (α1 + β<br />
1 − α1 − β<br />
1)<br />
k=1<br />
1<br />
k−1 α1r 2 n + β1σ 2 n<br />
<br />
1<br />
<br />
hω −<br />
1 − α1 − β1 α1r 2 n + β1σ 2 n<br />
<br />
(α1 + β1) h <br />
− 1 .<br />
rn+h (h)| Fn ∼ N (0, Var (rn+h (h)| Fn))<br />
<br />
1<br />
1 − α1 − β 1<br />
<br />
hω − (α1r2 n + β1σ 2 <br />
n) (α1 + β1) h <br />
− 1<br />
<br />
Vn.<br />
Exemplo 13.3.2 Na tabela seguinte apresentam-se os resultados da estimação GARCH dos<br />
retornos do Dow Jones (28317 observações diárias).<br />
428
VaR<br />
0.15<br />
0.10<br />
0.05<br />
0.00<br />
0 1 2 3 4 5 6 7 8 9 10<br />
Figura 13-1: Value at Risk como função de h. V aRn+h,n,0.01 traço grosso; V aRn+h,n,0.05<br />
traço fino.<br />
Dependent Variable: retornos do Dow JOnes<br />
Method: ML ARCH<br />
Included observations: 28317 after adjusting endpoints<br />
Coefficient Std. Error zStatistic Prob.<br />
C 0.000416 4.54E05 9.155216 0.0000<br />
Variance Equation<br />
C 1.17E06 5.17E08 22.67097 0.0000<br />
ARCH(1) 0.085080 0.001263 67.38911 0.0000<br />
GARCH(1) 0.905903 0.001542 587.6203 0.0000<br />
Rsquared 0.000450 Mean dependent var 0.000188<br />
Adjusted Rsquared 0.000556 S.D. dependent var 0.010753<br />
S.E. of regression 0.010756 Akaike info criterion 6.640694<br />
Sum squared resid 3.275823 Schwarz criterion 6.639529<br />
Log likelihood 94026.27 DurbinWatson stat 1.921149<br />
Sabe-se que rn = −0.0101, ˆσ 2<br />
n = 0.00014.<br />
Dado que o modelo envolve um termo constante c, o V aRn,n+h,α estimado, supondo<br />
Vn = 1, corresponde à expressão<br />
−ĉh + q Z α<br />
<br />
1<br />
1 − ˆα1 − ˆ β 1<br />
<br />
hˆω − ˆα1û 2 n + ˆ β1σ 2 <br />
n<br />
ˆα1 + ˆ <br />
h<br />
β1 − 1<br />
onde ûn = rn − ĉ = −0.0101 − 0.000416 = −.01051. Na figura 13-1 representa-se o V aR<br />
para α = 0.01 e para α = 0.05 em função de h.<br />
Exemplo 13.3.3 Considere-se o modelo<br />
rt = c + φrt−1 + ut, ut = σtεt (13.8)<br />
σ 2 t = ω + γu 2 t−1I{ut−1
Tem-se,<br />
E (rn+h (h)| Fn) = µ n+1,n + ... + µ n+h,n.<br />
Tendo em conta a estrutura AR(1), vem pela equação (6.12),<br />
Assim,<br />
E (rn+h (h)| Fn) =<br />
1 − φh<br />
µ n+h,n = c<br />
1 − φ + φhyn. <br />
1 − φ1<br />
c<br />
1 − φ + φ1 <br />
1 − φh<br />
yn + ... + c<br />
1 − φ + φh <br />
yn<br />
= yn (−1 + φ) φ −1 + φ h + c h (1 − φ) + φ −1 + φ h<br />
(−1 + φ) 2<br />
Por outro lado, para calcular Var (rn+h (h)| Fn) é necessário obter ψ i (confira-se (13.6)).<br />
Como se sabe, ψ j são os coeficientes que resultam da equação ψ (L) = φ −1<br />
p (L) θ (L) (veja-<br />
se a equação (6.15)). No caso AR(1) facilmente se conclui que ψ (L) = 1+φL+...+φ k L k +<br />
..., pelo que ψ i = φ i . A aplicação da fórmula (13.6) envolve também Var (un+h| Fn) :=<br />
σ 2 n+h,n<br />
que é necessário estabelecer. Para o modelo definido em (13.9) tem-se,<br />
σ 2 n+1,n = ω + γu 2 nI{un
O valor de Var (rn+h (h)| Fn), dado pelo programa Mathematica, é igual a<br />
1<br />
−<br />
(−1 + φ) 2 <br />
hω +<br />
(−1 + β∗) φ −1 + φ h −2 − φ + φ 1+h<br />
−1 + φ 2<br />
+σ 2 h ω<br />
n+1,n 1 − β∗ + 1 − β h<br />
∗<br />
+<br />
−1 + β∗ ω + σ 2 n+1,n (β∗ − 1) ×<br />
⎛<br />
⎜<br />
φ<br />
× ⎜<br />
⎝<br />
2+2h<br />
β∗<br />
φ2 <br />
h<br />
− 1<br />
φ 2 φ<br />
− 2<br />
− β∗ 1+h<br />
⎞⎞<br />
h<br />
β∗<br />
− 1<br />
φ ⎟⎟<br />
⎟⎟<br />
φ − β ⎠⎠<br />
∗<br />
.<br />
13.4 Generalização: Portfolio com m Activos<br />
Obtenha-se agora o VaR supondo que o portfolio é constituído por m acções. Para simplificar<br />
assuma-se que<br />
rt = (R1t, ..., Rmt) ′ Ft−1 ∼ N (µ t, Ht)<br />
onde µ t := E (rt| Ft−1) e Var (rt| Ft−1) := Ht. No momento n o portfolio vale Vn, por<br />
exemplo, uma alocação de 1 milhão de Euros no título 1 e 2 mihões no título 2, traduz-se por<br />
um investimento no valor de Vn = 3 milhões, sendo ω1 = 1/3 desse valor investido no título<br />
1 e ω2 = 2/3 investido no título 2. A obtenção do VaR é similar ao do caso de um portfolio<br />
com apenas 1 activo:<br />
Estandardizando Rp,n+1, isto é, considerando<br />
vem<br />
V aRn,n+1,α<br />
− Vn<br />
P (∆Vn+1 < −V aRn,n+1,α| Fn) = α<br />
<br />
∆Vn+1<br />
<br />
P Vn < −V aRn,n+1,α<br />
Vn<br />
Fn<br />
<br />
= α<br />
<br />
<br />
V aRn,n+1,α <br />
P Rp,n+1 < − = α.<br />
Vn<br />
Fn<br />
Zn+1 = Rp,n+1 − E (Rp,n+1| Fn)<br />
<br />
Var (Rp,n+1| Fn)<br />
<br />
<br />
V aRn,n+1,α<br />
− − E (Rp,n+1| Fn) <br />
Vn<br />
<br />
P Zn+1 < <br />
Var (Rp,n+1| Fn) Fn<br />
<br />
= α<br />
− E (Rp,n+1| Fn)<br />
= q<br />
Var (Rp,n+1| Fn)<br />
Z <br />
α ⇒ V aRn,n+1,α = − E (Rp,n+1| Fn) + q Z <br />
<br />
α Var (Rp,n+1| Fn)<br />
431<br />
Vn
Tendo em conta que Rp,n+1 = m<br />
i=1 ωiRi,n+1 = ω ′ rn+1, tem-se Rp,n+1 = E (Rp,n+1| Fn) =<br />
ω ′ µ n+1 e Var (Rp,n+1| Fn) = ω ′ Hn+1ω e, finalmente<br />
V aRn,n+1,α = − ω ′ µ n+1 + qN √<br />
α ω ′<br />
Hn+1ω Vn<br />
onde q N α é o quantil de ordem α da distribuição N (0, 1) .<br />
Exemplo 13.4.1 Considere-se um portfolio, no momento n, constituído por de 1 milhão de<br />
Euros no título 1 e 2 mihões no título 2. Admita-se a seguinte distribuição<br />
⎛<br />
⎝ R1,n+1<br />
Tem-se para α = 0.05<br />
R2,n+1<br />
<br />
<br />
<br />
<br />
<br />
V aRn,n+1,α = 1.645<br />
1/3 2/3<br />
⎞<br />
<br />
<br />
⎠<br />
<br />
Fn<br />
⎛⎛<br />
∼ N ⎝⎝<br />
0<br />
⎞ ⎛<br />
⎞⎞<br />
0.01 0.002<br />
⎠ , ⎝ ⎠⎠<br />
.<br />
0 0.002 0.005<br />
⎛<br />
⎝<br />
⎞ ⎛<br />
0.01 0.002<br />
⎠ ⎝<br />
0.002 0.005<br />
1/3<br />
⎞<br />
⎠ × 3 = 0.32 milhões.<br />
2/3<br />
O valor em risco com uma probabilidade de 0.05 para um horizonte temporal de h = 1<br />
período é de cerca de 0.32 milhões de euros.<br />
Se considerassemos os dois activos separadamente teríamos:<br />
V aR do título 1 = 1.645 √ 0.01 × 1 = 0.164<br />
V aR do título 2 = 1.645 √ 0.005 × 2 = 0.232.<br />
Observa-se que a soma dos VaR individuais, 0.164 + 0.232 = 0.396, é maior do que o VaR<br />
do portfolio.<br />
13.5 Abordagem pela Teoria dos valores Extremos<br />
A teoria dos valores extremos é um ramo da estatística que se preocupa essencialmente com<br />
o comportamento probabilístico dos valores extremos da amostra e, portanto, centra a sua<br />
análise nas caudas da distribuição. Esta análise é importante em todos os fenómenos em<br />
que a ocorrência de valores muitos altos e muitos baixos é relevante, como por exemplo,<br />
ocorrência de cheias, furacões, recordes desportivos, etc. A teoria dos valores extremos tem<br />
432
também sido aplicada na actividade seguradora e, mais recentemente, nas área das finanças,<br />
no cálculo do VaR.<br />
Recorde-se a abordagem não paramétrica. Vimos que o VaR pode estimado a partir da<br />
expressão<br />
V aRn,n+1,α = −˜q r αVn<br />
(13.10)<br />
onde ˜q r α é o quantil empírico de ordem α da série de retornos {Rt} (também poderia ser a<br />
partir de {rt}). Como referimos no ponto 13.2, a estimativa ˜qα é muito imprecisa quando<br />
α é muito baixo (ou muito alto). Como iremos ver a teoria dos valores extremos tem uma<br />
resposta para este problema. O objectivo deste ponto é obter uma estimativa para qa via<br />
teoria dos valores extremos.<br />
13.5.1 Introdução à Teoria e Estimação. VaR Marginal<br />
A teoria dos valores extremos trata habitualmente os eventos extremos que ocorrerm na<br />
aba direita da distribuição. Seguiremos esta lógica na introdução e, depois, por analogia,<br />
focaremos a aba esquerda que é a relevante para o cálculo do VaR. O leitor poderá consultar<br />
o livro de Franke et. al (2008) para mais pormenores sobre a teoria.<br />
Seja {yt; i = 1, 2, ..., n} uma sucessão de v.a. i.i.d. e Mn = max {y1, y2, ..., yn} o máx-<br />
imo da amostra. Pode-se provar que se existirem constantes normalizadoras cn > 0, dn ∈ R<br />
e uma distribuição não degenerada H (isto é, que não atribui toda a massa de probabilidade<br />
a um único ponto) tal que c−1 d<br />
n (Mn − dn) −→ H, então H é da forma<br />
<br />
Hξ (x) = exp − (1 + ξx) −1/ξ<br />
, 1 + ξx > 0, ξ = 0.<br />
Nestas circunstâncias, para n suficientemente grande, tem-se P (c−1 n (Mn − dn) ≤ x) <br />
<br />
Hξ (x) (ou, P (Mn ≤ x) Hξ para algum λ ∈ R e δ > 0). O caso ξ = 0 deve<br />
x−λ<br />
δ<br />
ser interpretado no seguinte sentido: H0 (x) = limξ→0 Hξ (x) = e−e−x. H é designado na<br />
literatura por Generalised Extreme Value distribution (GEV)<br />
Quando o resultado anterior se verifica para a v.a. y, com função de distribuição F e<br />
distribuição limite H, diz-se que F pertence ao domínio máximo de atracção da distribuição<br />
H e, neste caso, escreve-se F ∈ DM (H).<br />
A metodologia de estimação que iremos apresentar, intitulada POT (peaks-over-threshold),<br />
assenta na seguinte proposição:<br />
433
Proposição 13.5.1 Suponha-se que {yt} é uma sucessão de v.a. com função de distribuição<br />
F . Então as seguintes proposições são equivalentes: 1) F ∈ DM (H); 2) para alguma<br />
função β : R + → R + ,<br />
onde<br />
<br />
lim sup Fu (x) − Gξ,β(u) (x)<br />
u↑xF 0 0, x > 0 se ξ = 0<br />
β<br />
1 − e−x , x ≥ 0 se ξ = 0.<br />
Gξ,β é a função de distribuição generalizada de Pareto e Fu (x) é a designada excess<br />
distribuition function. A equação (13.11) basicamente estabelece que (na classe das funções<br />
F tais que F ∈ DM (H)), para valores altos de u, Fu é aproximadamente igual a Gξ,β e,<br />
portanto, uma estimativa para Fu pode basear-se em Gξ,β (sempre que u é relativamente<br />
alto). Tendo em conta que, por definição,<br />
1 − Fu (x) = P (y − u ≥ x| y > u) =<br />
1 − F (x + u)<br />
1 − F (u)<br />
segue-se (considerando o primeiro e o terceiro termo da expressão anterior)<br />
1 − F (x + u) = (1 − F (u)) (1 − Fu (x))<br />
ou (fazendo a substituição de x + u por x, passando agora x a ser definido por x > u),<br />
1 − F (x) = (1 − F (u)) (1 − Fu (x − u)) , u < x < ∞. (13.12)<br />
Esta relação juntamente com (13.11) constitui o essencial do método que se expõe para a<br />
estimação do VaR. Como F e consequentemente Fu são funções desconhecidas, a expressão<br />
do lado direito de (13.12) pode ser estimada da seguinte forma<br />
<br />
1 − ˆ <br />
F (u) 1 − ˆ <br />
Fu (x − u)<br />
434
onde,<br />
1 − ˆ F (u) = 1<br />
n<br />
n<br />
I{yj>u} =<br />
j=1<br />
A estimativa do lado direito de (13.12) é<br />
<br />
1 − ˆ <br />
F (u) 1 − ˆ <br />
Fu (x − u) = N (u)<br />
n<br />
Substitua-se na expressão (13.12), x por qδ:<br />
1 − F (qδ) =<br />
1 − δ =<br />
Resolvendo esta equação para ˆqδ obtém-se<br />
ˆqδ = u + ˆ β<br />
ˆ ξ<br />
N (u)<br />
n , ˆ Fu (x − u) = ˆ Gˆ ξ, ˆ β (x − u) .<br />
<br />
1 − ˆ <br />
Gˆξ, β ˆ (x − u) = N (u)<br />
N (u)<br />
n<br />
N (u)<br />
n<br />
<br />
1 + ˆ ξ ˆqδ − u<br />
ˆβ<br />
<br />
1 + ˆ ξ ˆqδ − u<br />
ˆβ<br />
−1/ ˆ ξ<br />
−1/ ˆ ξ<br />
n<br />
.<br />
<br />
1 + ˆ −1/ ˆξ x − u<br />
ξ .<br />
ˆβ<br />
<br />
−ˆξ n<br />
(1 − δ) − 1 . (13.14)<br />
N (u)<br />
Se δ não for um valor muito alto (perto de 1) podemos usar para estimativa de ˜qδ a<br />
estatística de ordem [nδ] . Vimos, no entanto, que se δ for um valor muito alto a variância<br />
assimptótica deste quantil empirico aproxima-se de mais infinito. Nestas circunstâncias, a<br />
teoria dos valor extremos tem uma solução que consiste em estimar qδ pela expressão (13.14).<br />
Existem ainda três questões por analisar: 1) Como estimar ξ e β?; 2) como escolher u? e<br />
3) como obter o VaR?<br />
Estimação de ξ e β<br />
Sejam y (1) , y (2) , ..., y (n) as estatísticas de ordem tais que<br />
y (1) ≥ y (2) ≥ ... ≥ y (N(u)) ≥ ... ≥ y (n)<br />
e Yi = y (i) − u (nota: y (1) é o valor máximo, y (2) é o segundo valor mais alto etc.; relembra-<br />
se o leitor que usámos y(1) para o mínimo, y(2) para o segundo mais baixo, etc. Resulta da<br />
notação que y (1) = y(n), y (n) = y(1), etc.). Para estimar ξ e β dado que N (u) = m é fixo,<br />
assume-se que Y1, Y2, ..., Ym é uma sucessão de v.a. i.i.d. com distribuição Gξ,β (y) (ξ > 0) .<br />
435
Logo, a função log-verosimilhança é<br />
log Lm (ξ, β| Y1, Y2, ..., Ym, N (u) = m) = −m log β −<br />
<br />
1 + 1<br />
<br />
m<br />
<br />
log 1 +<br />
ξ<br />
j=1<br />
ξ<br />
β Yj<br />
<br />
.<br />
(13.15)<br />
Os estimadores de máxima verosimilhança ˆ ξ e ˆ β obtém-se a partir da maximização de<br />
log Lm. Pode-se provar que, para ξ > −1/2 e m → ∞<br />
⎛<br />
√<br />
m ⎝ ˆξ − ξ<br />
⎞<br />
⎠<br />
− 1<br />
d<br />
⎛⎛<br />
−→ N ⎝⎝<br />
0<br />
⎞ ⎛<br />
⎠ , ⎝<br />
0<br />
(1 + ξ)2 − (1 + ξ)<br />
− (1 + ξ) 2 (1 + ξ)<br />
ˆβ<br />
β<br />
Como escolher u?<br />
⎞<br />
⎠<br />
−1⎞<br />
Quando u é muito alto o valor de N (u) é baixo (significa que o número de observações<br />
efectivamente usadas na estimação é baixo) e a variância do estimador tende a ser alta.<br />
Quando u é baixo, a aproximação para Fu (x) , usando a distribuição Gξ,β (x) tenderá a<br />
ser pobre e, como consequência o estimador ˆqδ pode vir fortemente enviesado.<br />
Para ajudar na escolha de u considera-se o seguinte resultado: se Z ∼ Gξ,β e 0 ≤ ξ < 1,<br />
então the average excess function é linear:<br />
e (u) = E (Z − u| Z > u) = β ξ<br />
+ u, u ≥ 0, 0 ≤ ξ < 1.<br />
1 + ξ 1 + ξ<br />
Este resultado sugere seleccionar o limiar u de forma que a função estimada para e (u) ,<br />
en (v) , para os valores v ≥ u seja (aproximadamente) linear. Pode-se provar que<br />
en (u) = 1<br />
N (u)<br />
n<br />
max {(yj − u) , 0} .<br />
j=1<br />
Para verificar se en (v) é (aproximadamente) linear pode-se analisar no plano o gráfico dos<br />
pontos <br />
y(k), en onde y(1), y(2), ..., y(n) são as estatísticas de ordem tais que<br />
y(k)<br />
y(1) ≤ y(2) ≤ ... ≤ y(n).<br />
<br />
Devido à alta variabilidade de en y(k) quando k alto, recomenda-se a eliminação desses<br />
pontos na análise gráfica.<br />
Como obter o VaR?<br />
Como focámos a cauda direita da distribuição (e a que interessa é a esquerda) assume-<br />
436<br />
⎠ .
se yt = −rt. Assim, se ˆqδ é o quantil de ordem δ associada à variável y, então ˆq r α = −ˆqδ<br />
com α = 1 − δ, é o quantil de ordem α associado à variável r. Pela equação (13.10), uma<br />
estimativa para o VaR é<br />
V aR = −ˆq r αVn = ˆqδVn, δ = 1 − α.<br />
Para obter o VaR a α100% pode-se seguir os seguintes passos:<br />
1. Definir yt = −rt;<br />
2. Definir δ = 1 − α;<br />
3. Seleccionar u;<br />
<br />
4. Obter ˆξ, βˆ<br />
, maximizando (13.15);<br />
5. Calcular ˆqδ usando a equação (13.14);<br />
6. Obter o V aR = ˆqδVn<br />
13.5.2 VaR Condicional<br />
O ponto anterior assentou na hipótese de {rt; i = 1, 2, ..., n} ser uma sucessão de v.a. i.i.d.<br />
Esta hipótese é irrealista. O VaR calculado sob esta hipótese não reflecte a volatilidade cor-<br />
rente no momento n (seria de esperar o VaR aumentasse quando no momento n a volatilidade<br />
é alta). McNeil e Frey (2000) propõem uma abordagem condicional do VaR no âmbito da<br />
teoria dos valores extremos. A ideia assenta no modelo ARMA-GARCH rt = µ t +σtεt. Se o<br />
modelo estiver bem especificado será de esperar que εt se comporte aproximadamente como<br />
uma sucessão de v.a. i.i.d. Como os resultados principais da teoria dos valores extremos<br />
se aplicam a sequências i.i.d., é preferível aplicá-los à sucessão {εt} do que directamente<br />
a {rt} , pois esta sucessão não é geralmente i.i.d., devido à presença de volatilidade não<br />
constante.<br />
Seja ˆq ε α o quantil da distribuição de εt obtido seguindo a metodologia do ponto anterior.<br />
Tem-se assim,<br />
P (εn+1 < q ε α| Fn) = α<br />
<br />
rn+1 − µ n+1<br />
P<br />
< q<br />
σn+1<br />
ε <br />
<br />
<br />
α<br />
Fn<br />
<br />
= α<br />
<br />
= α.<br />
P rn+1 < µ n+1 + q ε <br />
ασn+1 Fn<br />
437
Em suma, uma vez apurado ˆq ε α, o quantil da distribuição condicional de rn+1 vem igual a<br />
Como {εt} não é observado, toma-se<br />
q r α = µ n+1 + q ε ασn+1.<br />
ˆεt = rt − ˆµ t<br />
ˆσt<br />
onde ˆµ t e ˆσt são estimativas da média e da variância condicional baseadas em estimadores<br />
consistentes. Finalmente,<br />
ˆq r α = ˆµ n+1 + ˆq ˆε αˆσn+1.<br />
13.6 Avaliação do VaR (Backtesting)<br />
Neste ponto avalia-se a qualidade da estimativa proposta para o VaR. Esta avaliação é impor-<br />
tante por várias razões. As empresas (sobretudo bancos) que usam o VaR são pressionadas<br />
interna e externamente (por directores, auditores, reguladores, investidores) para produzirem<br />
VaR precisos. Um VaR preciso é fundamental na gestão e controle do risco e na alocação de<br />
capital. Por essa razão é essencial que empresa teste regularmente as suas medidas de risco,<br />
na linha das recomendações adoptadas em acordo internacionais. Por outro lado, embora a<br />
definição de VaR seja muito precisa e objectiva, existem diferentes métodos de estimação do<br />
VaR, que produzem diferentes estimativas (algumas bastante díspares); por isso, é importante<br />
identificar a melhor abordagem para o problema concreto em análise.<br />
Christoffersen e Diebold (2000) analisam a qualidade e a precisão dos intervalos de con-<br />
fiança produzidos para uma certa série. Parte da metodologia pode ser adaptada na análise<br />
da qualidade do VaR. Seja V aRt,t−1,α uma estimativa para o VaR a α100% para o período t<br />
baseado na informação t − 1. Sendo este VaR construído no período t − 1 não se sabe, an-<br />
tecipadamente, se no período t se tem ou não ∆Vt < −V aRt,t−1,α. Intuitivamente, é natural<br />
esperar que a desigualdade ∆Vt < −V aRt,t−1,α, com t a variar, ocorra α100% das vezes.<br />
Considere-se o evento aleatório,<br />
It =<br />
⎧<br />
⎨<br />
⎩<br />
V aRt,t−1,α<br />
1 se ∆Vt < −V aRt,t−1,α ou rt < − Vt−1<br />
0 no caso contrário.<br />
438
Diz-se que a previsão do VaR produz uma cobertura marginal correcta (correct uncondi-<br />
cional coverage) se<br />
P (It = 1) = α ⇔ E (It) = α.<br />
Se esta condição se verifica então em α100% dos casos deverá observar-se ∆Vt < −V aRt,t−1,α.<br />
É exactamente este raciocínio que se estabelece a priori quando se procura definir o VaR a<br />
α100%. Interessa depois saber se, na prática, essa desigualdade se verifica efectivamente<br />
em α100% das vezes. Esta condição é, naturalmente, necessária mas não suficiente para<br />
identificar uma medida VaR como apropriada. Suponha-se, como habitualmente nas séries<br />
financeiras, que se tem o fenómeno de volatility clustering. Momentos de alta (baixa) volatil-<br />
idade são seguidos por momentos de alta (baixa) volatilidade. Nestas circunstâncias, o VaR<br />
deve ser alto nos momentos de alta volatilidade e baixo nos momentos de baixa volatilidade.<br />
Se o V aRt,t−1,α não reflecte o fenómeno de volatility clustering (nem em termos gerais as<br />
propriedades da distribuição condicional) então o VaR tenderá a falhar como medida de risco<br />
em períodos consecutivos. Um VaR assim definido traz a seguinte implicação sobre {It}: em<br />
momentos de alta volatilidade os 1 ′ s tendem a repetir-se (por exemplo, It = 1, It+1 = 1,<br />
It+2 = 1, etc.), pois tenderá a observar-se em períodos seguidos ∆Vt < −V aRt,t−1,α e, em<br />
momentos de baixa volatilidade, uma repetição de 0 ′ s. Ou seja a sucessão It tenderá a ap-<br />
resentar dependência temporal (será autocorrelacionada). Mesmo neste caso, de autocorre-<br />
lação de It, poderá ter-se E (It) = α. Por esta razão a cobertura marginal embora necessária<br />
não é suficiente para identificar o VaR como uma medida precisa.<br />
Diz-se que a previsão do VaR produz uma cobertura condicional correcta (correct condi-<br />
cional coverage) se<br />
P (It = 1| Ft−1) = α ⇔ E (It| Ft−1) = α.<br />
Esta condição implica ausência de autocorrelação, pois, tendo em conta a lei do valor esper-<br />
ado iterado,<br />
Cov (It, It−k) = E (ItIt−k) − E (It) E (It−k)<br />
= E (It−k E (It| Ft−k)) − E (E (I| Ft−1)) E (E (It−k| Ft−k−1))<br />
= E (It−k E (E (It| Ft−1)| Ft−k)) − E (E (I| Ft−1)) E (E (It−k| Ft−k−1))<br />
= E (It−k E (α| Ft−k)) − E (α) E (α) = α E (It−k) − α 2 = 0.<br />
439
Existem várias formas de testar a cobertura marginal e condicional. Por exemplo, se {It}<br />
é uma sucessão de v.a. i.i.d. e E (It) = α, então ambas as coberturas são válidas. Outra<br />
possibilidade consiste em analisar somente a cobertura condicional pois, pela lei do valor<br />
esperado iterado, tem-se, com vimos atrás,<br />
E (It| Ft−1) = α ⇒ E (It) = E (E (It| Ft−1)) = E (α) = α.<br />
Analise-se o teste de independência de It. Uma possibilidade neste sentido baseia-se no<br />
runs test. Procede-se da seguinte forma. Seja X o número sequências seguidas de 1 ′ s ou<br />
0 ′ s (X é o número de runs) 7 . Por exemplo, na sucessão {0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0} temos<br />
X = 5. Sejam n0 e n1 o número de zeros e uns, respectivamente, e n = n0 + n1 a dimensão<br />
da amostra. O número X fornece informação sobre se a amostra é aleatória ou não. Se<br />
ocorrem poucas sequências de 1 ′ s ou 0 ′ s, como no exemplo,<br />
{0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1} , (X = 2)<br />
há indicação de dependência temporal na sucessão. Se ocorrem “demasiadas” sequências,<br />
como no exemplo,<br />
{1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1} (X = 13)<br />
também podemos suspeitar algum tipo de dependência temporal (flutuações cíclicas de período<br />
curto). Sob a hipótese, H0: {It} é uma sucessão de v.a. independentes, a distribuição de X<br />
dado n0 e n1 é conhecida. Quando n0 > 20 ou n1 > 20 é mais conveniente usar-se o<br />
resultado assimptótico. Sob H0 tem-se<br />
Z = X − E (X)<br />
Var (X)<br />
d<br />
−→ N (0, 1)<br />
7O número máximo que X pode assumir é<br />
<br />
2 min {n0, n1} se n0 = n1<br />
max X =<br />
2 min {n0, n1} + 1 se n0 = n1.<br />
440
onde<br />
E (X) = 2n0n1<br />
+ 1<br />
n<br />
Var (X) = 2n0n1 (2n0n1 − n)<br />
n2 .<br />
(n − 1)<br />
O teste é bilateral (afastamento à hipótese nula pode dever-se quando X é alto ou baixo).<br />
Rejeita-se H0 se a probabilidade P (|Z| > |zobs|) estiver abaixo do nível de significância<br />
fixado.<br />
Se a hipótese H0 não pode ser rejeitada pelos dados, pode-se assumir que {It} é uma<br />
sucessão de v.a. i.i.d. com distribuição de Bernoulli de parâmetro E (It) . Interessa agora<br />
investigar a cobertura marginal, i.e. se E (It) coincide com α. Seja Sn = n<br />
i=1 Ii = n1 a<br />
soma dos 1 ′ s que, como se sabe, tem distribuição Binomial de parâmetros (n, E (It)) . Sob a<br />
hipótese<br />
H0: E (It) = α<br />
a estatística de teste (rácio de verosimilhanças)<br />
RV = −2 log<br />
L (α| H0)<br />
L (ˆα) = −2 log αn1 (1 − α) n0<br />
ˆα n1 (1 − ˆα) n0<br />
tem distribuição assimptótica χ 2 (1) . ˆα é o estimador de máxima verosimilhança, ˆα = n1/n e<br />
α é a probabilidade previamente fixada para o VaR (por exemplo, α = 0.01 ou α = 0.05).<br />
Exemplo 13.6.1 Suponha-se que numa amostra de 800 observações foi calculado o VaR a<br />
5% (α = 0.05). Observou-se n0 = 750, n1 = 50, X = 90 (na amostra a desigualdade<br />
∆Vt < −V aRt,t−1,α verificou-se 50 vezes). Haverá razões para pensar que o VaR a 5<br />
% é inapropriado? Considere-se primeiro a hipótese, H0: {It} é uma sucessão de v.a.<br />
independentes. Tem-se:<br />
zobs = 90 − 2n0n1<br />
n<br />
+ 1<br />
<br />
2n0n1(2n0n1−n)<br />
n2 (n−1)<br />
= 90 − 94.75<br />
3.298<br />
= −1.43.<br />
Como o valor-p P (|Z| > 1.43) 0.15 é relativamente alto não se rejeita H0. Considere-se<br />
agora H0: E (It) = 0.05. Tem-se ˆα = n1/n = 0.0625 e<br />
RVobs = −2 log 0.05n1 (1 − 0.05) n0<br />
ˆα n1 (1 − ˆα) n0<br />
441<br />
= 2.447.
Como o valor-p P χ2 <br />
(1) > 2.477 0.118 é relativamente alto não se rejeita H0.<br />
Assim, existe evidência de que o VaR estimado é uma medida adequada.<br />
Se It segue uma cadeia de Markov (em tempo discreto, com espaço de estado {0, 1}), o<br />
teste run pode apresentar baixa potência 8 , isto é, se o usamos o teste run quando It segue<br />
uma cadeia de Markov, a probabilidade de rejeitar independência pode ser baixa.<br />
Suponha-se que It segue uma cadeia de Markov com a seguinte matriz de probabilidades<br />
de transição<br />
P =<br />
⎛<br />
⎝ 1 − p01 p01<br />
1 − p11 p11<br />
onde pij = P (It = j| It−1 = i) . Só no caso muito particular p01 = p11, {It} é uma sucessão<br />
de v.a. i.i.d. (com distribuição de Bernoulli). Com efeito, sob a hipótese de independência,<br />
p01 = P (It = 1| It−1 = 0) = P (It = 1| It−1 = 1) = p11<br />
ou seja, a probabilidade de It = 1 não depende do valor assumido por I no período anterior<br />
(e, pode provar, também não depende da história passada de I). Nesta condições It é não<br />
autocorrelacionado 9 . Imagine-se, pelo contrário, a seguinte matriz de probabilidades,<br />
⎛<br />
⎝<br />
0.8 0.2<br />
0.1 0.9<br />
Calcule-se a probabilidade de It = 1. Se It−1 = 1 a probabilidade de It = 1 é 0.9, mas se<br />
It−1 = 0 a probabilidade de I passar para o estado 1 é de apenas 0.2. Observa-se, portanto,<br />
forte dependência temporal na sucessão It.<br />
Para ensaiar independência, a hipótese nula mantém-se no essencial como no teste runs<br />
test, H0: {It} é uma sucessão de v.a. independentes ou seja H0: p01 = p11. Para a avaliarmos<br />
o rácio de verosimilhanças é necessário obter-se, em primeiro lugar, a função de verosimil-<br />
⎞<br />
⎠ .<br />
hança associada a sucessão {I1, ..., In}; facilmente se conclui que<br />
L (pij) = (1 − p01) n00 p n01<br />
01 (1 − p11) n10 p n11<br />
11 ,<br />
onde nij é o número de vezes em que I passou de i para j. As estimativas de máxima<br />
8 A potência de um teste é a probabilidade de rejeitar H0 dado que H1 é verdadeira.<br />
9 Pode-se provar que Corr (It, It−1) = p11 − p01. Logo se p11 = p01 a correlação entre It e It−1 é nula.<br />
Nestas condições pode-se também provar que Corr (It, It−k) = 0, para k ∈ N.<br />
442<br />
⎞<br />
⎠
verosimilhança de pij obtêm-se facilmente a partir de L (pij) ,<br />
ˆp01 = n01/n, ˆp11 = n11/n.<br />
Por outro lado, sob H0: p01 = p11 (substitua-se p01 e p11 por p1)<br />
RV = −2 log L (pij| H0)<br />
L (ˆpij)<br />
= −2 log<br />
(1 − ˆp1) n00+n10 n01+n11 ˆp 1<br />
(1 − ˆp01) n00 n01 ˆp 01 (1 − ˆp11) n10 n11 ˆp 11<br />
d<br />
−→ χ 2 (1)<br />
onde ˆp1 = (n01 + n11) /n. Uma variante interessante deste teste consiste em tomar como<br />
hipótese nula H0: p01 = p11 = α (não só se testa a independência como também a cobertura<br />
marginal, E (It) = α). Com se têm agora duas restrições impostas em H0 (p01 = p11,<br />
p01 = α), a estatística de teste é<br />
RV = −2 log<br />
(1 − α) n00+n10 α n01+n11<br />
(1 − ˆp01) n00 n01 ˆp 01 (1 − ˆp11) n10 n11 ˆp 11<br />
d<br />
−→ χ 2 (2).<br />
A vantagem deste teste do ponto de vista prático é clara: de uma vez só, ensaia-se a cobertura<br />
marginal e condicional.<br />
Estes testes, baseados no modelo da cadeia de Markov sofrem no entanto de uma lim-<br />
itação: baseiam-se em dependências de primeira ordem. Ora, pode suceder que It dado<br />
It−1 dependa ainda de It−2. Neste caso, os testes baseados no modelo da cadeia de Markov,<br />
podem perder bastante potência.<br />
Clements e Taylor (2003) generalizam a abordagem anterior. A hipótese E (It| Ft−1) =<br />
α sugere que It dado Ft−1 apenas depende de uma constante, α. Assim, se It depende de<br />
alguma variável Ft−1 mensurável, a hipótese E (It| Ft−1) = α deve ser rejeitada. Para testar<br />
a possibilidade de It depender de alguma variável Ft−1 mensurável, uma possibilidade con-<br />
siste em fazer uma regressão de It sobre as variáveis definidas em Ft−1 (como por exemplo,<br />
It−1, It−2, ..., variáveis dummy reportadas a t − 1, t − 2, etc., retornos, etc.),<br />
It = α0 +<br />
k<br />
i=1<br />
αiIt−i + x ′ t−1β + ut<br />
onde x ′ t−1 é um vector 1 × m de variáveis Ft−1 mensuráveis (que de alguma forma podem<br />
estar parcialmente correlacionadas com It) e β é um vector de parâmetros m × 1. A hipótese<br />
de correcta cobertura marginal e condicional envolve o ensaio H0 : α1 = 0, ..., αk = 0, β =<br />
0, α0 = α. Naturalmente a estatística F pode ser usada. Tendo em conta a natureza da<br />
443
variável I, em princípio seria mais apropriado uma regressão binária. No entanto, Sarma et<br />
al. (2003) refere que na presença de forte assimetria dos dados (mais de 95% ou 99% dos<br />
dados são 0’s ou 1’s) a regressão binária envolve problemas técnicos. Para grande amostras<br />
o estimador OLS é apropriado.<br />
444
Página em branco<br />
445
Referências<br />
(referências incompletas!)<br />
Basrak, B., R. Davis e T. Mikosch (2002). Regular variation of GARCH processes. Sto-<br />
chastic Processes and their Applications 99(1), pp. 95-115.<br />
Christiansen, C. (2007). Volatility-Spillover Effects in European Bond Markets. European<br />
Financial Management, 13 (5), pp. 923-948.<br />
Bauwens, L., A. Preminger e J. Rombouts (2006). Regime switching GARCH models.<br />
Département des Sciences Economiques Working Paper 2006-6.<br />
Christoffersen, P. e F, Diebold (2000). How Relevant is Volatility Forecasting for Financial<br />
Risk Management? Review of Economics and Statistics 82(1), pp. 12-22<br />
Davies, (1987). Hypothesis testing when a nuisance parameter is present only under the<br />
alternative. Biometrika 74, pp. 33-43.<br />
Dimson E., P. Marsh e M. Staunton (2002). Triumph of the Optimists:101 Years of Global<br />
Investment Returns, Princeton University Press.<br />
Engle R. (1982). Autoregressive Conditional Heteroscedasticity with Estimates of the Vari-<br />
ance of United Kingdom Inflation. Econometrica 50 pp. 987-1007.<br />
Engle R. (2001). Financial Econometrics - a New Discipline with new Methods. Journal<br />
of Econometrics 100, pp. 53-56.<br />
Engle, R. (2002). Dynamic Conditional Correlation: A Simple Class of Multivariate Gen-<br />
eralized Autoregressive Conditional Heteroskedasticity Models. Journal of Business<br />
& Economic Statistics, 20(3), pp. 339-50.<br />
Fama, E. (1970). Efficient Capital Markets: A Review of Theory and Empirical Work.<br />
Journal of Finance 25 (2), pp. 383-417.<br />
Engle R. e K. Kroner (1995). Multivariate Simultaneous Generalized ARCH. Econometric<br />
Theory 11, pp. 122-150.<br />
Fan, J. e Q. Yao (2005), Nonlinear Time Series, Springer Series in Statistics, New York.<br />
446
Franke, J., W. Hardle e C. Hafner (2008). Statistics of Financial Markets: An Introduction,<br />
2 a ed., Springer, Berlin Heidelberg New-York.<br />
Franses, P. e van Dijk, D. (2000). Nonlinear Time Series Models in Empirical Finance,<br />
Cambridge University Press, Cambridge.<br />
Gospodinov, N. (2005). Testing For Threshold Nonlinearity in Short-Term Interest Rates.<br />
Journal of Financial Econometrics, 3(3), pp. 344-371.<br />
Gray, S., (1996). Modeling the Conditional Distribution of Interest Rates as a Regime-<br />
Switching Process. Journal of Financial Economics, 42(1), pp. 27-62.<br />
Groeneveld, R.A. e G. Meeden (1984). Measuring skewness and kurtosis. The Statistician,<br />
33, pp. 391-399.<br />
Lundbergh, S. e T. Teräsvirta (2002). Evaluating GARCH models. Journal of Econometrics<br />
110(2), pp. 417-435 .<br />
McNeil, A. e R. Frey (2000). Estimation of Tail-Related Risk Measures for Heteroscedastic<br />
Financial Time Series: an Extreme Value Approach. Journal of Empirical Finance 7,<br />
pp. 271-300.<br />
Mokkadem, A. (1985). Le Modèle Non Linéaire AR(1) Général. Ergodicité et Ergodicité<br />
Géometrique. Comptes Rendues Academie Scientifique Paris 301(I), pp. 889-892.<br />
Morgan J., (1996). RiskMetrics Technical Document, Part II: Statistics of Financial Mar-<br />
ketReturns, 4th edition, New York.<br />
Murteira, B. (1990). Probabilidades e Estatística, Vol. I e II. Mc Graw-Hill.<br />
Nelson, D. (1990). Stationarity and persistence in the GARCH(1,1) model. Econometric<br />
Theory 6, pp. 318-334.<br />
Nicolau, J. (2004). Equações Diferenciais & Equações às Diferenças, Texto de Apoio n o<br />
28, CEMAPRE-ISEG/UTL.<br />
Pascuala L. , J. Romob e E. Ruiz (2006). Bootstrap Prediction for Returns and Volatilities<br />
in GARCH models. Computational Statistics & Data Analysis, 50(9), pp. 2293-2312.<br />
Pinto, S. (2010), Transmissão de Volatilidade nos Mercados Financeiros durante Períodos<br />
de Crises, Tese de Mestrado em Matemática <strong>Financeira</strong>, ISEG/UTL.<br />
447
Stelzer, R. (2009). On Markov-Switching Arma Processes? Stationarity, Existence of Mo-<br />
ments, and Geometric Ergodicity. Econometric Theory, 25(1), pp. 43-62.<br />
Taylor, H. e S. Karlin (1984). An Introduction to Stochastic Modeling. Academic Press,<br />
New York.<br />
Taylor S. (2005). Asset Price Dynamics, Volatility, and Prediction, Princeton University<br />
Press.<br />
Wooldridge, J. (1994). Estimation and Inference for Dependent Processes, in Handbook<br />
of Econometrics, Vol. 4 , pp. 2641-2700., edited by Engle R.F. and McFadden D.L.<br />
Elsevier Science B.V. , Amsterdam.<br />
448