Modelos estatísticos para previsão de partidas de futebol

Modelos estatísticos para previsão de partidas de futebol Modelos estatísticos para previsão de partidas de futebol

<strong>Mo<strong>de</strong>los</strong> estatísticos <strong>para</strong>previsão <strong>de</strong> <strong>partidas</strong> <strong>de</strong> <strong>futebol</strong>Dani GamermanInstituto <strong>de</strong> Matemática, UFRJdani@im.ufrj.brX Semana da Matemática e II Semana da Estatística da UFOPOuro Preto, MG – 03/11/2010


Algumas perguntas que queremos respon<strong>de</strong>r:Resultados dos jogos futuros;Quantos pontos serão necessários <strong>para</strong> se garantir oCruzeiro na Libertadores;Quantos pontos serão necessários <strong>para</strong> o Galo se livrar dorebaixamento;Quantos pontos serão necessários <strong>para</strong> ganhar o título;Quais as chances do Flamengo terminar na frente do Vasco.Qual a colocação do Fluminense?


Muitos grupos <strong>de</strong> pesquisa tratando dissoCasas <strong>de</strong> apostas (virtuais) usam estatísticosTratamento científico <strong>de</strong>u origem a várias publicaçõesGrupos fazendo isso no Brasil:Mat/UFMG – Bernardo Lima e co-autoresEst/UFSCar – Francisco Louzada e co-autoresEst/UFF – Leonardo Bastos e co-autoresEst/USP – Marcelo Arruda (chance<strong>de</strong>gol.com.br)etc...


Fatos estilizados:• <strong>futebol</strong> é um dos esportes mais incertos;um dos poucos on<strong>de</strong> o pior po<strong>de</strong> ganhar• incerteza quantificada com probabilida<strong>de</strong>s• não se po<strong>de</strong> dizer nada com alta probabilida<strong>de</strong>;muito menos com rodadas <strong>de</strong> antecedência• requer tratamento da <strong>de</strong>pendência temporalentre rodadas do campeonato


Espaço amostralConjunto <strong>de</strong> resultados possíveisPara cada jogo, po<strong>de</strong>mos ter:• vitória, empate e <strong>de</strong>rrota• número <strong>de</strong> gols <strong>de</strong> cada time


Probabilistas trabalham com (vit,emp,<strong>de</strong>r)atualizadas segundo técnica <strong>de</strong> alisamento exponencialEstatísticos trabalham com # <strong>de</strong> gols# <strong>de</strong> gols é uma contagemmo<strong>de</strong>lo natural é o Poissonalguns usam técnica <strong>de</strong> alisamentooutros usam mo<strong>de</strong>lo sem tratar <strong>de</strong>pendência temporal


Tratamento a<strong>de</strong>quado <strong>de</strong>veria passar porFormulação <strong>de</strong> um mo<strong>de</strong>lo estatísticoForma científica <strong>de</strong> especificar (e testar)conjecturasIncorporar todas as características do problema,especialmente a <strong>de</strong>pendência temporal


Como avaliar resultados?Consi<strong>de</strong>re 3 preditores do clima: P1, P2 e P3.P1 e P2 disseram que hoje ia fazer solP3 disse que hoje ia choverSe hoje fez sol, preferimos P1e P2.Na prática, problemas <strong>de</strong> incerteza envolvem probabilida<strong>de</strong>


Para P1: P( sol ) = 80%Para P2: P( sol ) = 70%Para P3: P( sol ) = 40%P1 e P2 acertaram...mas P1 acertou maisPrincípio da máxima verossimilhança:o melhor é quem fornece maior probabilida<strong>de</strong> <strong>para</strong> oque efetivamente ocorreu.Voltaremos a esse ponto mais à frente...


Análise PreliminarAnálise UnivariadaPoisson se ajusta bem aos dados.Ex: Campeonato Brasileiro <strong>de</strong> 2002.estimadoobservadoestimadoobservado


Análise PreliminarAnálise BivariadaH 0 : Poisson In<strong>de</strong>pen<strong>de</strong>ntesBonda<strong>de</strong> <strong>de</strong> ajuste: p-valor = 0,368estimadoobservado


Mo<strong>de</strong>lo InicialQueremos explicar o resultadodo jogo A x B.Po<strong>de</strong>mos postular fatores que<strong>de</strong>terminam o comportamento dos times:Fator qualida<strong>de</strong>: quantifica o <strong>de</strong>sempenho <strong>de</strong> um time;cada time tem seu fator qualida<strong>de</strong>Fator Campo: informa o time que tem mando <strong>de</strong> campo;cada time tem o seu fator campo ou é um fator comum?


Fator qualida<strong>de</strong> po<strong>de</strong> ser mais <strong>de</strong>talhado:• po<strong>de</strong> ser fator único (força do time)• po<strong>de</strong> ser <strong>de</strong>composto em setoresExemplos:1. Fator ataque, Fator <strong>de</strong>fesa, Fator meio <strong>de</strong> campo, ...2. Fator infraestrutura, Fator elenco, ...Vamos trabalhar com 2 fatores: ataque e <strong>de</strong>fesa.


Mo<strong>de</strong>lo InicialAssim, <strong>para</strong> o jogo A x B,temos o seguinte mo<strong>de</strong>lo:GFGFlog λlog λGFAtDeCatimetimetimeABABtime~~==PoissonPoissonAtAtAB−−DeDe( λ )A( λ)BAB+ CaIn<strong>de</strong>pen<strong>de</strong>ntesAon<strong>de</strong>:representa o número <strong>de</strong> gols feitos pelo timerepresenta o fator ataque do timerepresenta o fator <strong>de</strong>fesa do timerepresenta o fator campo do time


Mo<strong>de</strong>lo InicialAbaixo, temos a tabela comos fatores <strong>para</strong> os times do Rio.Esses fatores foram obtidos usandoprimeira fase do campeonato <strong>de</strong> 2002.FatorAtaqueFatorDefesaFatorCampoGolsPróGolsContraBotafogo -0.873 -0.063 0.264 24 39Flamengo -0.451 -0.005 0.346 38 39Fluminense -0.416 0.080 0.473 43 46Vasco -0.363 -0.172 0.122 37 38


Mo<strong>de</strong>lo InicialAgora, com 3 seleções da Américado Sul. Esses fatores foram obtidosusando os dados até a 7ª rodada dasEliminatórias da Copa do Mundo.FatorAtaqueFatorDefesaFatorCampoGolsPróGolsContraBrasil -0.62 -0.33 0.31 11 7Equador -1.70 -0.03 1.32 8 7Uruguai -0.27 0.90 0.04 12 19


Mo<strong>de</strong>lo DinâmicoEstávamos supondo até agora que osparâmetros do mo<strong>de</strong>lo não variavam comas rodadas.Agora, achamos razoável permitir tal mudança.Portanto, At time virou vetor.Ou seja, temos agora: At 1 time At 2 time , ...,At T time.on<strong>de</strong> T é o número total <strong>de</strong> rodadas


Mo<strong>de</strong>lo DinâmicoAchamos razoável assumir que os fatoresna rodada i+1 <strong>de</strong>pen<strong>de</strong>m dos mesmos fatoresna rodada i, ou seja, são sempre <strong>de</strong>pen<strong>de</strong>ntesdo passo anterior. Por exemplo, <strong>para</strong> o time A, temos:AtFator Ataque=At+ ωi+1 i i+1A A AtFator Defesaii iDe = De + ω+1 +1A A Deon<strong>de</strong> ω Ati+1 ~ N (0, σ2At )on<strong>de</strong> ω Dei+1 ~ N (0, σ2De )CaFator Campo=Ca+ ωi+1 i i+1A A Caon<strong>de</strong> ω Cai+1 ~ N (0, σ2Ca )


Mo<strong>de</strong>lo DinâmicoO mo<strong>de</strong>lo é completado com mais 2 itens:as volatilida<strong>de</strong>s σ 2 At , σ 2 De e σ 2 Ca das perturbações ω Ati , ωDei e ωCaisão obtidas empiricamente.a priori <strong>para</strong> os parâmetros da rodada inicial <strong>para</strong> os times.po<strong>de</strong> ser baseada no <strong>de</strong>sempenho passado ou ser vaga:At 1 time ~ N(0, 10 4 )De 1 time ~ N(0, 10 4 )Ca 1 time ~ N(0,10 4 )


Mo<strong>de</strong>lo DinâmicoConsi<strong>de</strong>re o jogo A x BO mo<strong>de</strong>lo <strong>para</strong> as observações do time A,jogando em casa, agora éFGiA~Poisson( λi)AlogλiA=At − De +iAiBCaiADa mesma forma, <strong>para</strong> o time B, temos:FGiB~Poisson( λi )Blog λiB=At −iBDeiA


Notação(iiiAt At At )iAt =Atletico−MG, Atletico−PR,...,Vitoriavetor com fatores ataque <strong>para</strong> a rodada i(iiiDe De De )iDe =Atletico−MG, Atletico−PR,...,Vitoriavetor com fatores <strong>de</strong>fesa <strong>para</strong> a rodada iθi=(iiiCa Ca Ca )iCa =Atletico−MG, Atletico−PR,...,( At i , Dei , Cai )NGF i = (NGF i AtleticoMG, ..., NGF i Vitoria)D i = {NGF 1 , ..., NGF i }Vitoriavetor com fatores campo <strong>para</strong> a rodada ivetor <strong>de</strong> parâmetros <strong>para</strong> a rodada inúmero <strong>de</strong> golsfeitos na rodada itodas as informações até a rodada i


EstimaçãoUtilizando o teorema <strong>de</strong> Bayes, aestimação dos parâmetros até a rodada i,será feita a partir da posteriori obtida daseguinte forma:p(1 i i ) (1D Li ) p( 1θ ,..., θ | ∝ θ ,..., θ θ ,..., θi )posteriori verossimilhança prioriverossimilhança:priori:Lpiit( θ1 ,..., θ ) = L( θ )∏t=1i1 it t−11( θ ,..., θ ) = p( θ | θ ) p( θ )∏t=2eLVitoriatt t( θ ) = ∏ p( GFj| θ )j=AtleticoMG


ComputaçãoExtrair informações <strong>de</strong> p(θ 1 ,..., θ i | D i ) é complicado!!Esse problema é solucionado através <strong>de</strong> simulações via MCMC(Gamerman e Lopes, 2006). Um programa utilizado <strong>para</strong> fazer taissimulações é o WinBugs (Spiegelhalter et al, 2003).Dessa forma, serão obtidas amostras da posteriori.E portanto, teremos amostras <strong>de</strong> θ i | D i , <strong>para</strong> <strong>de</strong>terminada rodada i.


ComputaçãoExemplo: Camp. Brasileiro <strong>de</strong> 2002parâmetros <strong>de</strong> 3 times:Coritiba, Flamengo e Ponte Preta. Apenas 3 variações nas rodadas15, 30 e 44 <strong>de</strong>vido a limites computacionais.Fator CampoPontePretaFlamengoCoritiba1 2 3VariaçõesFator AtaqueFator Defesa1 2 3PontePretaFlamengoCoritiba1 2 3PontePretaFlamengoCoritibaVariaçõesVariações


ComputaçãoOutro exemplo: Copa do Mundoparâmetros <strong>de</strong> 3 países:Argentina, Bolívia e Brasil.Foram feitas 4 variações nas rodadas 4, 5, 6 e 7.


PrevisõesAqui, vamos obter os valores previstos<strong>para</strong> o número <strong>de</strong> gols feitos <strong>para</strong> uma rodadafutura, a partir <strong>de</strong> informações passadas.A previsão é baseada na distribuição preditiva:pi+h ii+h i i i i i( GF D ) = p( GF | θ , D ) p( θ | D ) dθon<strong>de</strong>:GF| ∫1 2 3i+h|i iθ , D ~Poisson(i+hλ )3 é obtido por simulação via MCMC, servindo <strong>de</strong> parâmetro <strong>para</strong>simular amostras <strong>de</strong> 2. Desta forma, automaticamente temosamostras <strong>de</strong> 1.


PrevisõesCom as distribuições preditivas dos jogospo<strong>de</strong>mos calcular várias distribuições.Exemplo: número <strong>de</strong> pontos que os times farão ao final docampeonato. Por exemplo, <strong>para</strong> o time A temos:TA1T( GF GF )P = f ,...,NP T A é o número <strong>de</strong> pontos do time A na rodada final TQualquer função <strong>de</strong>sse tipo po<strong>de</strong> tersua distribuição aproximada por simulaçãoExemplo: classificação (que <strong>de</strong>pen<strong>de</strong> não só <strong>de</strong> NP).


ResultadosAqui, é possível calcular as probabilida<strong>de</strong>s <strong>para</strong> oresultado <strong>de</strong> cada jogo (1x0, 2x0, ...).Para exemplificar, será exposto um resultado mais<strong>de</strong>talhadamente.


Resultados 2003Vitória1x0 15.2%2x0 9.7%2x1 8.9%3x0 4.0%3x1 3.3%3x2 1.5%Outros 3.6%Empate0x0 9.8%1x1 14.4%2x2 3.6%3x3 0.3%Outros 0.1%Derrota0x1 10.8%0x2 3.6%1x2 5.5%0x3 1.3%1x3 1.9%2x3 1.0%Outros 1.5%Os 2 resultadosmais prováveisresultado real1 x0Vasco x Figueirense26% Vitória46%Empate28%Derrota


Resultados 2004Vitória1x0 9.7%2x0 15.7%2x1 8.6%3x0 19.9%3x1 14.1%3x2 2.0%4x0 11.9%4x1 5.2%Outros 0.9%Empate0x0 2.0%1x1 2.5%2x2 1.3%3x3 0.1%Outros 0.1%Os 3 resultadosmais prováveisBrasilresultado real? x?BolíviaBrasil x BolíviaDerrota0x1 0.7%0x2 0.1%1x2 0.8%0x3 0.1%1x3 0.1%2x3 0.1%Outros 0.1%6%2%92%VitóriaEmpateDerrota


Resultados 2003Na rodada <strong>de</strong> número 34, foifeita uma análise e chegamos àsseguintes previsões <strong>para</strong> os times cariocasna rodada 45:hojeprevisão


Resultados 2003hojeprevisãohojeprevisão


Resultados 2003<strong>para</strong> os times mineiros, temos:hojeprevisãohojeprevisão


Resultados 2003Os gráficos abaixo mostram as chances <strong>de</strong>um time ser rebaixado com <strong>de</strong>terminado número<strong>de</strong> pontos em duas rodadas distintas.Rodada 34 Rodada 45


Resultados 2003Os gráficos abaixo mostram as chances <strong>de</strong>um time se classificar <strong>para</strong> a Libertadores com<strong>de</strong>terminado número <strong>de</strong> pontos em duas rodadas distintas.Rodada 34 Rodada 45


Resultados 2004O gráfico abaixo mostra as chances <strong>de</strong>uma seleção se classificar <strong>para</strong> a Copa do Mundocom <strong>de</strong>terminado número <strong>de</strong> pontos na rodada 7.Rodada 7


Análise <strong>de</strong>ResultadosResultados do nosso mo<strong>de</strong>lo com<strong>para</strong>dos com os doChance <strong>de</strong> Gol (www.chance<strong>de</strong>gol.com.br),utilizandos o critério das verossimilhançasVerossimil hança = P( EO )EO i é o Evento1,...,EO TOcorrido no jogo iVerossimilhança do mo<strong>de</strong>lo do Chance <strong>de</strong> Gol: 2.26 x 10 -17Verossimilhança do nosso mo<strong>de</strong>lo: 7.66 x 10 -17


Comentários finais<strong>Mo<strong>de</strong>los</strong> válidos em qualquercampeonato e muito simples <strong>de</strong>serem implementados (no WinBUGS).Mo<strong>de</strong>lo dinâmico é mais razoável.Mo<strong>de</strong>lo po<strong>de</strong> ser estendido/alterado em várias direções.Dissertação <strong>de</strong> Fabio F. Farias (2008) apresentaextensões melhoradoras ao permitir evoluçõesestacionárias <strong>para</strong> os fatores.


BibliografiaFarias, F. F. (2008). Análise e previsão <strong>de</strong> resultados <strong>de</strong> <strong>partidas</strong><strong>de</strong> <strong>futebol</strong>. Dissertação <strong>de</strong> mestrado, Estatística, UFRJ.Gamerman, D. e Lopes, H. (2006) Markov Chain Monte Carlo.2ª. Edição. Nova York: Chapman & Hall.Knorr-Held, L. (2000) Dynamic rating of sports teams. TheStatistician (JRSS-D), 49, 261-276.Rue, H. e Salvesen O. (2000) Prediction and retrospectiveanalysis of soccer matches in a league. JRSS-D, 49, 399-418.Spiegelhalter, D., Thomas, A., Best, N. e Lunn, D. (2003)WinBugs User Manual. Cambridge: Medical Research Council.


Obrigado!

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!