Modelos estatÃsticos para previsão de partidas de futebol
Modelos estatÃsticos para previsão de partidas de futebol Modelos estatÃsticos para previsão de partidas de futebol
Modelos estatísticos paraprevisão de partidas de futebolDani GamermanInstituto de Matemática, UFRJdani@im.ufrj.brX Semana da Matemática e II Semana da Estatística da UFOPOuro Preto, MG – 03/11/2010
- Page 2 and 3: Algumas perguntas que queremos resp
- Page 4 and 5: Fatos estilizados:• futebol é um
- Page 6 and 7: Probabilistas trabalham com (vit,em
- Page 8 and 9: Como avaliar resultados?Considere 3
- Page 10 and 11: Análise PreliminarAnálise Univari
- Page 12 and 13: Modelo InicialQueremos explicar o r
- Page 14 and 15: Modelo InicialAssim, para o jogo A
- Page 16 and 17: Modelo InicialAgora, com 3 seleçõ
- Page 18 and 19: Modelo DinâmicoAchamos razoável a
- Page 20 and 21: Modelo DinâmicoConsidere o jogo A
- Page 22 and 23: EstimaçãoUtilizando o teorema de
- Page 24 and 25: ComputaçãoExemplo: Camp. Brasilei
- Page 26 and 27: PrevisõesAqui, vamos obter os valo
- Page 28 and 29: ResultadosAqui, é possível calcul
- Page 30 and 31: Resultados 2004Vitória1x0 9.7%2x0
- Page 32 and 33: Resultados 2003hojeprevisãohojepre
- Page 34 and 35: Resultados 2003Os gráficos abaixo
- Page 36 and 37: Resultados 2004O gráfico abaixo mo
- Page 38 and 39: Comentários finaisModelos válidos
- Page 40: Obrigado!
<strong>Mo<strong>de</strong>los</strong> estatísticos <strong>para</strong>previsão <strong>de</strong> <strong>partidas</strong> <strong>de</strong> <strong>futebol</strong>Dani GamermanInstituto <strong>de</strong> Matemática, UFRJdani@im.ufrj.brX Semana da Matemática e II Semana da Estatística da UFOPOuro Preto, MG – 03/11/2010
Algumas perguntas que queremos respon<strong>de</strong>r:Resultados dos jogos futuros;Quantos pontos serão necessários <strong>para</strong> se garantir oCruzeiro na Libertadores;Quantos pontos serão necessários <strong>para</strong> o Galo se livrar dorebaixamento;Quantos pontos serão necessários <strong>para</strong> ganhar o título;Quais as chances do Flamengo terminar na frente do Vasco.Qual a colocação do Fluminense?
Muitos grupos <strong>de</strong> pesquisa tratando dissoCasas <strong>de</strong> apostas (virtuais) usam estatísticosTratamento científico <strong>de</strong>u origem a várias publicaçõesGrupos fazendo isso no Brasil:Mat/UFMG – Bernardo Lima e co-autoresEst/UFSCar – Francisco Louzada e co-autoresEst/UFF – Leonardo Bastos e co-autoresEst/USP – Marcelo Arruda (chance<strong>de</strong>gol.com.br)etc...
Fatos estilizados:• <strong>futebol</strong> é um dos esportes mais incertos;um dos poucos on<strong>de</strong> o pior po<strong>de</strong> ganhar• incerteza quantificada com probabilida<strong>de</strong>s• não se po<strong>de</strong> dizer nada com alta probabilida<strong>de</strong>;muito menos com rodadas <strong>de</strong> antecedência• requer tratamento da <strong>de</strong>pendência temporalentre rodadas do campeonato
Espaço amostralConjunto <strong>de</strong> resultados possíveisPara cada jogo, po<strong>de</strong>mos ter:• vitória, empate e <strong>de</strong>rrota• número <strong>de</strong> gols <strong>de</strong> cada time
Probabilistas trabalham com (vit,emp,<strong>de</strong>r)atualizadas segundo técnica <strong>de</strong> alisamento exponencialEstatísticos trabalham com # <strong>de</strong> gols# <strong>de</strong> gols é uma contagemmo<strong>de</strong>lo natural é o Poissonalguns usam técnica <strong>de</strong> alisamentooutros usam mo<strong>de</strong>lo sem tratar <strong>de</strong>pendência temporal
Tratamento a<strong>de</strong>quado <strong>de</strong>veria passar porFormulação <strong>de</strong> um mo<strong>de</strong>lo estatísticoForma científica <strong>de</strong> especificar (e testar)conjecturasIncorporar todas as características do problema,especialmente a <strong>de</strong>pendência temporal
Como avaliar resultados?Consi<strong>de</strong>re 3 preditores do clima: P1, P2 e P3.P1 e P2 disseram que hoje ia fazer solP3 disse que hoje ia choverSe hoje fez sol, preferimos P1e P2.Na prática, problemas <strong>de</strong> incerteza envolvem probabilida<strong>de</strong>
Para P1: P( sol ) = 80%Para P2: P( sol ) = 70%Para P3: P( sol ) = 40%P1 e P2 acertaram...mas P1 acertou maisPrincípio da máxima verossimilhança:o melhor é quem fornece maior probabilida<strong>de</strong> <strong>para</strong> oque efetivamente ocorreu.Voltaremos a esse ponto mais à frente...
Análise PreliminarAnálise UnivariadaPoisson se ajusta bem aos dados.Ex: Campeonato Brasileiro <strong>de</strong> 2002.estimadoobservadoestimadoobservado
Análise PreliminarAnálise BivariadaH 0 : Poisson In<strong>de</strong>pen<strong>de</strong>ntesBonda<strong>de</strong> <strong>de</strong> ajuste: p-valor = 0,368estimadoobservado
Mo<strong>de</strong>lo InicialQueremos explicar o resultadodo jogo A x B.Po<strong>de</strong>mos postular fatores que<strong>de</strong>terminam o comportamento dos times:Fator qualida<strong>de</strong>: quantifica o <strong>de</strong>sempenho <strong>de</strong> um time;cada time tem seu fator qualida<strong>de</strong>Fator Campo: informa o time que tem mando <strong>de</strong> campo;cada time tem o seu fator campo ou é um fator comum?
Fator qualida<strong>de</strong> po<strong>de</strong> ser mais <strong>de</strong>talhado:• po<strong>de</strong> ser fator único (força do time)• po<strong>de</strong> ser <strong>de</strong>composto em setoresExemplos:1. Fator ataque, Fator <strong>de</strong>fesa, Fator meio <strong>de</strong> campo, ...2. Fator infraestrutura, Fator elenco, ...Vamos trabalhar com 2 fatores: ataque e <strong>de</strong>fesa.
Mo<strong>de</strong>lo InicialAssim, <strong>para</strong> o jogo A x B,temos o seguinte mo<strong>de</strong>lo:GFGFlog λlog λGFAtDeCatimetimetimeABABtime~~==PoissonPoissonAtAtAB−−DeDe( λ )A( λ)BAB+ CaIn<strong>de</strong>pen<strong>de</strong>ntesAon<strong>de</strong>:representa o número <strong>de</strong> gols feitos pelo timerepresenta o fator ataque do timerepresenta o fator <strong>de</strong>fesa do timerepresenta o fator campo do time
Mo<strong>de</strong>lo InicialAbaixo, temos a tabela comos fatores <strong>para</strong> os times do Rio.Esses fatores foram obtidos usandoprimeira fase do campeonato <strong>de</strong> 2002.FatorAtaqueFatorDefesaFatorCampoGolsPróGolsContraBotafogo -0.873 -0.063 0.264 24 39Flamengo -0.451 -0.005 0.346 38 39Fluminense -0.416 0.080 0.473 43 46Vasco -0.363 -0.172 0.122 37 38
Mo<strong>de</strong>lo InicialAgora, com 3 seleções da Américado Sul. Esses fatores foram obtidosusando os dados até a 7ª rodada dasEliminatórias da Copa do Mundo.FatorAtaqueFatorDefesaFatorCampoGolsPróGolsContraBrasil -0.62 -0.33 0.31 11 7Equador -1.70 -0.03 1.32 8 7Uruguai -0.27 0.90 0.04 12 19
Mo<strong>de</strong>lo DinâmicoEstávamos supondo até agora que osparâmetros do mo<strong>de</strong>lo não variavam comas rodadas.Agora, achamos razoável permitir tal mudança.Portanto, At time virou vetor.Ou seja, temos agora: At 1 time At 2 time , ...,At T time.on<strong>de</strong> T é o número total <strong>de</strong> rodadas
Mo<strong>de</strong>lo DinâmicoAchamos razoável assumir que os fatoresna rodada i+1 <strong>de</strong>pen<strong>de</strong>m dos mesmos fatoresna rodada i, ou seja, são sempre <strong>de</strong>pen<strong>de</strong>ntesdo passo anterior. Por exemplo, <strong>para</strong> o time A, temos:AtFator Ataque=At+ ωi+1 i i+1A A AtFator Defesaii iDe = De + ω+1 +1A A Deon<strong>de</strong> ω Ati+1 ~ N (0, σ2At )on<strong>de</strong> ω Dei+1 ~ N (0, σ2De )CaFator Campo=Ca+ ωi+1 i i+1A A Caon<strong>de</strong> ω Cai+1 ~ N (0, σ2Ca )
Mo<strong>de</strong>lo DinâmicoO mo<strong>de</strong>lo é completado com mais 2 itens:as volatilida<strong>de</strong>s σ 2 At , σ 2 De e σ 2 Ca das perturbações ω Ati , ωDei e ωCaisão obtidas empiricamente.a priori <strong>para</strong> os parâmetros da rodada inicial <strong>para</strong> os times.po<strong>de</strong> ser baseada no <strong>de</strong>sempenho passado ou ser vaga:At 1 time ~ N(0, 10 4 )De 1 time ~ N(0, 10 4 )Ca 1 time ~ N(0,10 4 )
Mo<strong>de</strong>lo DinâmicoConsi<strong>de</strong>re o jogo A x BO mo<strong>de</strong>lo <strong>para</strong> as observações do time A,jogando em casa, agora éFGiA~Poisson( λi)AlogλiA=At − De +iAiBCaiADa mesma forma, <strong>para</strong> o time B, temos:FGiB~Poisson( λi )Blog λiB=At −iBDeiA
Notação(iiiAt At At )iAt =Atletico−MG, Atletico−PR,...,Vitoriavetor com fatores ataque <strong>para</strong> a rodada i(iiiDe De De )iDe =Atletico−MG, Atletico−PR,...,Vitoriavetor com fatores <strong>de</strong>fesa <strong>para</strong> a rodada iθi=(iiiCa Ca Ca )iCa =Atletico−MG, Atletico−PR,...,( At i , Dei , Cai )NGF i = (NGF i AtleticoMG, ..., NGF i Vitoria)D i = {NGF 1 , ..., NGF i }Vitoriavetor com fatores campo <strong>para</strong> a rodada ivetor <strong>de</strong> parâmetros <strong>para</strong> a rodada inúmero <strong>de</strong> golsfeitos na rodada itodas as informações até a rodada i
EstimaçãoUtilizando o teorema <strong>de</strong> Bayes, aestimação dos parâmetros até a rodada i,será feita a partir da posteriori obtida daseguinte forma:p(1 i i ) (1D Li ) p( 1θ ,..., θ | ∝ θ ,..., θ θ ,..., θi )posteriori verossimilhança prioriverossimilhança:priori:Lpiit( θ1 ,..., θ ) = L( θ )∏t=1i1 it t−11( θ ,..., θ ) = p( θ | θ ) p( θ )∏t=2eLVitoriatt t( θ ) = ∏ p( GFj| θ )j=AtleticoMG
ComputaçãoExtrair informações <strong>de</strong> p(θ 1 ,..., θ i | D i ) é complicado!!Esse problema é solucionado através <strong>de</strong> simulações via MCMC(Gamerman e Lopes, 2006). Um programa utilizado <strong>para</strong> fazer taissimulações é o WinBugs (Spiegelhalter et al, 2003).Dessa forma, serão obtidas amostras da posteriori.E portanto, teremos amostras <strong>de</strong> θ i | D i , <strong>para</strong> <strong>de</strong>terminada rodada i.
ComputaçãoExemplo: Camp. Brasileiro <strong>de</strong> 2002parâmetros <strong>de</strong> 3 times:Coritiba, Flamengo e Ponte Preta. Apenas 3 variações nas rodadas15, 30 e 44 <strong>de</strong>vido a limites computacionais.Fator CampoPontePretaFlamengoCoritiba1 2 3VariaçõesFator AtaqueFator Defesa1 2 3PontePretaFlamengoCoritiba1 2 3PontePretaFlamengoCoritibaVariaçõesVariações
ComputaçãoOutro exemplo: Copa do Mundoparâmetros <strong>de</strong> 3 países:Argentina, Bolívia e Brasil.Foram feitas 4 variações nas rodadas 4, 5, 6 e 7.
PrevisõesAqui, vamos obter os valores previstos<strong>para</strong> o número <strong>de</strong> gols feitos <strong>para</strong> uma rodadafutura, a partir <strong>de</strong> informações passadas.A previsão é baseada na distribuição preditiva:pi+h ii+h i i i i i( GF D ) = p( GF | θ , D ) p( θ | D ) dθon<strong>de</strong>:GF| ∫1 2 3i+h|i iθ , D ~Poisson(i+hλ )3 é obtido por simulação via MCMC, servindo <strong>de</strong> parâmetro <strong>para</strong>simular amostras <strong>de</strong> 2. Desta forma, automaticamente temosamostras <strong>de</strong> 1.
PrevisõesCom as distribuições preditivas dos jogospo<strong>de</strong>mos calcular várias distribuições.Exemplo: número <strong>de</strong> pontos que os times farão ao final docampeonato. Por exemplo, <strong>para</strong> o time A temos:TA1T( GF GF )P = f ,...,NP T A é o número <strong>de</strong> pontos do time A na rodada final TQualquer função <strong>de</strong>sse tipo po<strong>de</strong> tersua distribuição aproximada por simulaçãoExemplo: classificação (que <strong>de</strong>pen<strong>de</strong> não só <strong>de</strong> NP).
ResultadosAqui, é possível calcular as probabilida<strong>de</strong>s <strong>para</strong> oresultado <strong>de</strong> cada jogo (1x0, 2x0, ...).Para exemplificar, será exposto um resultado mais<strong>de</strong>talhadamente.
Resultados 2003Vitória1x0 15.2%2x0 9.7%2x1 8.9%3x0 4.0%3x1 3.3%3x2 1.5%Outros 3.6%Empate0x0 9.8%1x1 14.4%2x2 3.6%3x3 0.3%Outros 0.1%Derrota0x1 10.8%0x2 3.6%1x2 5.5%0x3 1.3%1x3 1.9%2x3 1.0%Outros 1.5%Os 2 resultadosmais prováveisresultado real1 x0Vasco x Figueirense26% Vitória46%Empate28%Derrota
Resultados 2004Vitória1x0 9.7%2x0 15.7%2x1 8.6%3x0 19.9%3x1 14.1%3x2 2.0%4x0 11.9%4x1 5.2%Outros 0.9%Empate0x0 2.0%1x1 2.5%2x2 1.3%3x3 0.1%Outros 0.1%Os 3 resultadosmais prováveisBrasilresultado real? x?BolíviaBrasil x BolíviaDerrota0x1 0.7%0x2 0.1%1x2 0.8%0x3 0.1%1x3 0.1%2x3 0.1%Outros 0.1%6%2%92%VitóriaEmpateDerrota
Resultados 2003Na rodada <strong>de</strong> número 34, foifeita uma análise e chegamos àsseguintes previsões <strong>para</strong> os times cariocasna rodada 45:hojeprevisão
Resultados 2003hojeprevisãohojeprevisão
Resultados 2003<strong>para</strong> os times mineiros, temos:hojeprevisãohojeprevisão
Resultados 2003Os gráficos abaixo mostram as chances <strong>de</strong>um time ser rebaixado com <strong>de</strong>terminado número<strong>de</strong> pontos em duas rodadas distintas.Rodada 34 Rodada 45
Resultados 2003Os gráficos abaixo mostram as chances <strong>de</strong>um time se classificar <strong>para</strong> a Libertadores com<strong>de</strong>terminado número <strong>de</strong> pontos em duas rodadas distintas.Rodada 34 Rodada 45
Resultados 2004O gráfico abaixo mostra as chances <strong>de</strong>uma seleção se classificar <strong>para</strong> a Copa do Mundocom <strong>de</strong>terminado número <strong>de</strong> pontos na rodada 7.Rodada 7
Análise <strong>de</strong>ResultadosResultados do nosso mo<strong>de</strong>lo com<strong>para</strong>dos com os doChance <strong>de</strong> Gol (www.chance<strong>de</strong>gol.com.br),utilizandos o critério das verossimilhançasVerossimil hança = P( EO )EO i é o Evento1,...,EO TOcorrido no jogo iVerossimilhança do mo<strong>de</strong>lo do Chance <strong>de</strong> Gol: 2.26 x 10 -17Verossimilhança do nosso mo<strong>de</strong>lo: 7.66 x 10 -17
Comentários finais<strong>Mo<strong>de</strong>los</strong> válidos em qualquercampeonato e muito simples <strong>de</strong>serem implementados (no WinBUGS).Mo<strong>de</strong>lo dinâmico é mais razoável.Mo<strong>de</strong>lo po<strong>de</strong> ser estendido/alterado em várias direções.Dissertação <strong>de</strong> Fabio F. Farias (2008) apresentaextensões melhoradoras ao permitir evoluçõesestacionárias <strong>para</strong> os fatores.
BibliografiaFarias, F. F. (2008). Análise e previsão <strong>de</strong> resultados <strong>de</strong> <strong>partidas</strong><strong>de</strong> <strong>futebol</strong>. Dissertação <strong>de</strong> mestrado, Estatística, UFRJ.Gamerman, D. e Lopes, H. (2006) Markov Chain Monte Carlo.2ª. Edição. Nova York: Chapman & Hall.Knorr-Held, L. (2000) Dynamic rating of sports teams. TheStatistician (JRSS-D), 49, 261-276.Rue, H. e Salvesen O. (2000) Prediction and retrospectiveanalysis of soccer matches in a league. JRSS-D, 49, 399-418.Spiegelhalter, D., Thomas, A., Best, N. e Lunn, D. (2003)WinBugs User Manual. Cambridge: Medical Research Council.
Obrigado!