Aula de 11 setembro - UTFPR
Aula de 11 setembro - UTFPR
Aula de 11 setembro - UTFPR
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
1Professora Adriana Borssoihttp://www.cp.utfpr.edu.br/borssoiadrianaborssoi@utfpr.edu.brCOEME - Grupo <strong>de</strong> MatemáticaMedidas <strong>de</strong> Variabilida<strong>de</strong> ou DispersãoEstatística Básica - ContinuaçãoAs medidas <strong>de</strong> tendência central, <strong>de</strong>scritas anteriormente, são úteis por i<strong>de</strong>ntificarem um valor“típico” em um conjunto <strong>de</strong> dados. Por outro lado, as medidas <strong>de</strong> variabilida<strong>de</strong> dizem respeito à<strong>de</strong>scrição <strong>de</strong> um conjunto <strong>de</strong> dados em termos da variabilida<strong>de</strong> existente entre os itens incluídos<strong>de</strong>ntro do conjunto.Assim, estas informações servirão para indicar o quanto os dados se apresentam dispersos emtorno da região central. Caracterizam, portanto, o grau <strong>de</strong> variação existente no conjunto <strong>de</strong>valores.A média - ainda que consi<strong>de</strong>rada como um número que tem a faculda<strong>de</strong> <strong>de</strong> representar uma série<strong>de</strong> valores - não po<strong>de</strong>, por si mesma, <strong>de</strong>stacar o grau <strong>de</strong> homogeneida<strong>de</strong> ou heterogeneida<strong>de</strong> queexiste entre os valores que compõem o conjunto.Consi<strong>de</strong>remos os seguintes conjuntos <strong>de</strong> valores das variáveis X, Y e Z:X = {70, 70, 70, 70, 70} ⇒ X = 350 / 5 = 70Y = {68, 69, 70 ,71 ,72} ⇒ Y = 350 / 5 = 70Z = {5, 15, 50, 120, 160} ⇒ Z = 350 / 5 = 70Intuitivamente, é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z,mesmo que os valores das médias sejam iguais. O conjunto Y, por sua vez, é mais homogêneoque o conjunto Z, pois há menor variabilida<strong>de</strong> entre cada um <strong>de</strong> seus valores e a médiarepresentativa. Concluí-se então que o conjunto X apresenta dispersão nula e que o conjunto Yapresenta uma dispersão menor que o conjunto Z.As medidas <strong>de</strong> dispersão ou <strong>de</strong> variabilida<strong>de</strong> mais utilizados são: amplitu<strong>de</strong> total, variância,<strong>de</strong>svio padrão e coeficiente <strong>de</strong> variação.Amplitu<strong>de</strong> total (AT)A amplitu<strong>de</strong> total é a diferença entre o maior e o menor valor observado: AT = X máximo – X mínimo .Para as variáveis X, Y e Z acima temos:AT X = 70 - 70 = 0 (dispersão nula)AT Y = 72 - 68 = 4AT Z = 160 - 5 = 155A Amplitu<strong>de</strong> total (AT) tem o inconveniente <strong>de</strong> só levar em conta os dois valores extremos doconjunto, sem levar em conta os valores intermediários. Por esse motivo, esta medida não émuito utilizada.
2Faz-se uso da AT em situações on<strong>de</strong> <strong>de</strong>seja-se <strong>de</strong>terminar, por exemplo, a variação datemperatura em um dia, ou quando necessitamos <strong>de</strong> uma medida <strong>de</strong> cálculo rápido sem muitaexatidão para representar a variabilida<strong>de</strong> dos dados.Variância populacional (σ 2 ), variância amostral (S 2 ) e <strong>de</strong>svio padrão (σ ou S)a) Dados não-agrupadosA variância e o <strong>de</strong>svio padrão são indicadores <strong>de</strong> variabilida<strong>de</strong> bastante estáveis. Para umapopulação <strong>de</strong> dados não-agrupados, a variância populacional (σ 2 ) e o <strong>de</strong>svio padrãopopulacional (σ) baseiam-se nos quadrados dos <strong>de</strong>svios em torno da média aritmética. Assim:Variância:=n∑2 i=1σ( ) 2x − xinou2⎧n⎛ ⎞ ⎫ni2 1⎜∑x ⎟⎪ .2 i=1 ⎪σ = x⎝ ⎠⎨∑i− ⎬n ⎪ i=1 n ⎪⎪⎪⎩⎭O <strong>de</strong>svio padrão é <strong>de</strong>finido como a raiz quadrada da variância, ou seja:Desvio Padrão:∑( xi −x)σ =oun2⎧ ⎛n1⎜⎪ 2σ = x⎝⎨∑i−n⎪i=1⎪⎩n∑i=1nxi⎞⎟⎠2⎫⎪⎬⎪⎪⎭OBS: O <strong>de</strong>svio padrão trabalha com a mesma unida<strong>de</strong> da variável, sendo <strong>de</strong> maior interesse quea variância em aplicações práticas.É importante ressaltar que estas fórmulas <strong>de</strong>verão ser aplicadas quando estivermos trabalhandocom dados obtidos <strong>de</strong> uma população.Exemplo: Calcular a variância e o <strong>de</strong>svio padrão populacional dos seguintes dados:2, 6, 5, 4, 8, <strong>11</strong>.Po<strong>de</strong>mos fazer este cálculo <strong>de</strong> duas formas:1ª)=n∑2 i=1σσ=( ) 2x − xin22222( 2 − (6)) + ( 6 − (6)) + ( 5 − (6)) + ( 4 − (6)) + ( 8 − (6)) + ( <strong>11</strong> (6))2 −2 4 + 0 + 1+4 + 4 + 25 50 2σ = = ⇒ σ = 8,336 662
32ª)⎧ ⎛n2 1⎜⎪ 2σ = x⎝⎨∑i−n⎪i=1⎪⎩n∑i=1⎞xi⎟⎠n2⎫⎪⎬⎪⎪⎭Usando uma tabela auxiliar:x i x i22 (2 2 )=46 (6 2 )=365 (5 2 )=254 (4 2 )=168 (8 2 )=64<strong>11</strong> (<strong>11</strong> 2 )=121Σ x i = 36 Σ x i2= 2662⎧n⎛ ⎞ ⎫2n2 1⎜∑xi⎟ ⎪ 2 i=1 ⎪ 1⎪⎧ ( 36)⎪⎫1σ = x⎝ ⎠⎨∑i− ⎬= ⎨266 − ⎬= { 50}= 8,33n⎪ i=1 n ⎪ 6⎪⎩6 ⎪⎭6⎪⎪⎩⎭Desta forma, encontramos a variância dos dados.Para <strong>de</strong>terminarmos o <strong>de</strong>svio padrão, basta tirarmos a raiz quadrada <strong>de</strong>ste valor, ou seja,2σ= 8,33 ⇒ σ = 8,33 ⇒ σ = 2,89No caso <strong>de</strong> trabalharmos com dados que representam uma amostra da população, nasexpressões acima, <strong>de</strong>vemos substituir “n” por “n - 1”, e a variância amostral (S 2 ) é dada por:Variância:S2∑ ( x ) 2i− x= ou( ) 22 1⎡x.2iS ⎢∑= ∑ xi−n -1⎤⎥n−1⎢⎣n ⎥⎦Desvio Padrão:S =∑ ( x ) 2i−xoun −1( ∑ x ) 2i1⎡⎤.2S = ⎢∑xi− ⎥n−1⎢ n ⎥⎣⎦b) Dados agrupadosNeste caso, a variância e o <strong>de</strong>svio padrão serão dados pelas seguintes expressões:Variância: 1 ⎡( fx) 22 . 2σ ⎢∑= ∑ fxi ii i−n⎡2Desvio Padrão: σ = ⎢∑fxi i−n⎢⎣⎢⎣n⎤⎥⎥⎦( ∑ fx ) 21 i in⎤⎥⎥⎦
4OBS: No caso <strong>de</strong> trabalharmos com dados que representam uma amostra da população, nasexpressões acima, <strong>de</strong>vemos substituir “n” por “n - 1”.Exemplo: Encontre a média e o <strong>de</strong>svio padrão para os dados amostrais da variável renda familiar(em salários mínimos) abaixo e interprete os resultados.Renda familiar2Nº <strong>de</strong> famíliasxf i xi*i f i x* i(f i )2 |— 4 5 3 15 454 |— 6 10 5 50 2506 |— 8 14 7 98 6868 |— 10 8 9 72 64810|— 12 3 <strong>11</strong> 33 363Total 40 - 268 1992• Calculando a média:∑fxi i 268x = = = 6,7 salários mínimosn 40S• Calculando a variância para os dados amostrais:1⎡( fx) 2 ⎤i i⎢∑= ∑ fix⎥i−n−1⎢n ⎥⎣⎦2 2( )22 1 ⎡ 268 ⎤ 1S = ⎢1992 − ⎥ = [ 196,4]= 5,0440 −1 ⎢⎣ 40 ⎥⎦39Então, o <strong>de</strong>svio padrão é dado por:S2= S =2, 24Interpretação: Po<strong>de</strong>mos afirmar que a renda média familiar é <strong>de</strong> 6,7 salários mínimos, com umavariação <strong>de</strong> ±2, 24 salários mínimos, medidas pelo <strong>de</strong>svio padrão.Coeficiente <strong>de</strong> variação – CVO fato do <strong>de</strong>svio padrão ser expresso na mesma unida<strong>de</strong> dos dados limita seu emprego quando<strong>de</strong>sejamos comparar duas ou mais séries <strong>de</strong> valores referentes à variabilida<strong>de</strong>.Para contornar essa limitação, utiliza-se o coeficiente <strong>de</strong> variação - CV, que é <strong>de</strong>finido como oquociente entre o <strong>de</strong>svio padrão e a média aritmética.Esta medida exprime a variabilida<strong>de</strong> relativa à média e, usualmente, é expresso em porcentagem.σ• Dados populacionais: CV = .100;xS• Dados amostrais: CV = .100 .xO coeficiente <strong>de</strong> variação indica o grau <strong>de</strong> dispersão, ou seja, a homogeneida<strong>de</strong> ouheterogeneida<strong>de</strong> dos dados <strong>de</strong> uma variável.
5Para efeitos práticos, costuma-se consi<strong>de</strong>rar (Gomes, 2000):CV < 10%: baixa dispersão, ou dados homogêneos;10% < CV < 20%: média dispersão, ou média homogeneida<strong>de</strong>;20% < CV < 30%: alta dispersão, ou pouca homogeneida<strong>de</strong>;CV > 30%: dispersão muito alta, ou dados heterogêneos.Exemplo: Para os dados amostrais das variáveis X, Y e Z, calcule o coeficiente <strong>de</strong> variação ecomente a respeito da dispersão dos dados.X = {70, 70, 70, 70, 70} Y = {68, 69, 70 ,71 ,72} Z = {5, 15, 50, 120, 160}• X = 350 / 5 = 702 2 2 2 2 22 ∑ ( xi− x) ( 70 − 70) + ( 70 − 70) + ( 70 − 70) + ( 70 − 70) + ( 70 −70)0SX= = = = 0n -1 5−1 4S S 2 X=X= 0 = 0SXCVX= .100 = 0%X• Y = 350 / 5 = 7022∑ Yi− Y 68 − 70 + 69 − 70 + 70 − 70SY= =n -1 5−1+ 71− 70 + 72 −70( ) ( ) ( ) ( ) ( )2− 2 + − 1 + 0 + 1 + 2 10S Y= = = 2,504 4SY= S 2 Y= 2,5 = 1,58SYCVY= .100 = 2,26%Y( ) ( ) ( ) ( ) ( ) ( )2 2 2 2 2* Z = 350 / 5 = 70∑2( Zi− Z) ( − ) + ( − ) + ( − ) + ( − ) + ( − )2 2 2 2 225 70 15 70 50 70 120 70 160 70SZ= =n -1 5−1( ) 2 ( ) 2 ( ) 2 ( ) 2 ( )22− 65 + − 55 + − 20 + 50 + 90 18250S Z= = = 4562,504 4S S 2 Z=Z= 4562,50 = 67,55SZCVZ= .100 = 96,5%ZInterpretação: Apesar da média ser igual para as variáveis X, Y e Z, o coeficiente <strong>de</strong> variaçãoindica que a variável X não apresenta dispersão (CV = 0%); a variável Y tem CV = 2,26%,indicando baixa dispersão dos dados, ou homogeneida<strong>de</strong>; já a variável Z possui dados comdispersão muito alta (CV = 96,50%), ou seja, seus dados são heterogêneos.
6Correlação e RegressãoDizemos que duas variáveis, X e Y, são positivamente correlacionadas quando elas cominhamnum mesmo sentido, ou seja, elementos com valores pequenos <strong>de</strong> X ten<strong>de</strong>m a ter valorespequenos <strong>de</strong> Y. Estão negativamente correlacionadas quando elas caminham em sentidosopostos, ou seja, elementos com valores pequenos <strong>de</strong> X tem<strong>de</strong>m a ter valores gran<strong>de</strong>s <strong>de</strong> Y eelementos com valores gran<strong>de</strong>s <strong>de</strong> X ten<strong>de</strong>m a ter valores pequenos <strong>de</strong> Y.Gráfico <strong>de</strong> dispersão: <strong>de</strong>ve ser feito antes da análise numérica dos dados. É construído comconjuntos <strong>de</strong> pontos formados por pares <strong>de</strong> valores (x,y). Po<strong>de</strong> indicar correlação linear positiva,negativa ou inexistência <strong>de</strong> correlação. Também é útil para i<strong>de</strong>ntificar existência <strong>de</strong> valoresaberrantes.a) correlação positiva b) correlação negativa c) correlação inexistenteCoeficiente <strong>de</strong> correlação <strong>de</strong> Pearson (r) me<strong>de</strong> a correlação linear (grau <strong>de</strong> associação) dos dados<strong>de</strong> duas variáveis aleatórias X e Y.O coeficiente <strong>de</strong> correlação <strong>de</strong> Pearson po<strong>de</strong> assumir valores no intervalo real <strong>de</strong> [ −1 ,1] ecalcula-se segundo a seguinte fórmula:r =n∑i=1( x −x)( y − y)inn2 2∑( xi−x) . ∑( yi− y)i= 1 i=1ion<strong>de</strong> x 1 , x 2 , ..., x n e y 1 , y 2 , ..., y n são os valores medidos <strong>de</strong> ambas as variáveis. Essa expressão én n n∑ ∑ ∑n ( xiyi) − ( xi) ( yi)i= 1 i= 1 i=1equivalente a r =n n n n2 2 2n x −( x ) . n y −( y )∑ ∑ ∑ ∑ 2ii i ii= 1 i= 1 i= 1 i=1O valor <strong>de</strong> r será tão mais próximo <strong>de</strong> 1 (ou -1) quanto mais forte for a correlação dos dadosobservados. Teremos r =1se os pontos estiverem exatamente sobre uma reta ascen<strong>de</strong>nte(correlação positiva perfeita). Por outro lado, teremos r = − 1 se os pontos estiverem exatamentesobre uma reta <strong>de</strong>scen<strong>de</strong>nte (correlação negativa perfeita). Quando não houver correlação nosdados, r acusará um valor próximo <strong>de</strong> 0 (zero).
7Gráficos <strong>de</strong> dispersão para diferentes valores do coeficiente <strong>de</strong> correlação ρ (rho).Exercício1: Sejam X a nota na prova do vestibular <strong>de</strong> matemática e Y a nota final na disciplina<strong>de</strong> cálculo. Estas variáveis foram observadas em 20 alunos, ao final do primeiro período letivo <strong>de</strong>um curso <strong>de</strong> tecnologia. Os dados são representados a seguir:X 39 57 34 40 43 47 52 70 21 28 35 80 64 75 30 32 65 47 28 67Y 65 92 56 70 78 89 75 50 52 73 50 90 82 98 50 58 88 71 52 88a) calcule a correlação entre a nota no vestibular <strong>de</strong> matemática e a nota na disciplina <strong>de</strong> cálculo.Interprete o resultado.b) Construa um diagrama <strong>de</strong> dispersão e verifique se algum aluno foge ao comportamento geraldos <strong>de</strong>mais (ponto discrepante).Regressão LinearAnálise <strong>de</strong> regressão é uma metodologia estatística que utiliza a relação entre duas ou maisvariáveis quantitativas (ou qualitativas) <strong>de</strong> tal forma que uma variável po<strong>de</strong> ser predita a partir daoutra ou outras. Exemplos:* Temperatura usada num processo <strong>de</strong> <strong>de</strong>sodorização <strong>de</strong> um produto e cor do produto final.* A porcentagem <strong>de</strong> acerto ou, então, bytes transferidos, po<strong>de</strong>m estar relacionados com otamanho da cache (bytes), para um <strong>de</strong>terminado tipo <strong>de</strong> pré-carregamento.
8Estamos interessados na relação entre duas variáveis, as quais chamaremos <strong>de</strong> X e Y.Observamos pares <strong>de</strong> valores X e Y em cada amostra ou unida<strong>de</strong> experimental, e vamos usá-lospara dizer alguma coisa sobre a relação.Uma variável X po<strong>de</strong> ser medida acuradamente e seu valor escolhido pelo experimentador. Estavariável e chamada <strong>de</strong> variável in<strong>de</strong>pen<strong>de</strong>nte. A outra variável Y, chamada variável <strong>de</strong>pen<strong>de</strong>nteou resposta, está sujeita a erro experimental, e seu valor <strong>de</strong>pen<strong>de</strong> do valor escolhido para avariável in<strong>de</strong>pen<strong>de</strong>nte. Assim, a resposta Y é uma variável <strong>de</strong>pen<strong>de</strong>nte da variável in<strong>de</strong>pen<strong>de</strong>nteX.As duas variáveis estão sujeitas a erros experimentais, isto é, erros <strong>de</strong> natureza aleatória,inerentes ao experimento. Este tipo <strong>de</strong> associação entre duas variáveis constitui o caso dacorrelação.O termo regressão é usado para <strong>de</strong>signar a expressão <strong>de</strong> uma variável <strong>de</strong>pen<strong>de</strong>nte (Y) em função<strong>de</strong> outra (X), consi<strong>de</strong>rada in<strong>de</strong>pen<strong>de</strong>nte. Diz-se regressão <strong>de</strong> Y sobre X. Se a relação funcionalentre elas é expressa por uma equação <strong>de</strong> 1º grau, cuja a representação geométrica é uma linhareta, a regressão é dita linear.Postulada a existência <strong>de</strong> uma relação linear entre duas variáveis, po<strong>de</strong>-se representar aqueleconjunto <strong>de</strong> pontos pela equação da reta: Y i = β + αX i , que expressa o valor <strong>de</strong> Y em função <strong>de</strong> X.* Y é a variável <strong>de</strong>pen<strong>de</strong>nte ou regredida, ou resposta* X é a variável in<strong>de</strong>pen<strong>de</strong>nte, ou regressora ou explanatória* α e β são constantes, β é o intercepto e expressa o valor <strong>de</strong> y quando x é zero e α é ocoeficiente <strong>de</strong> regressão, coeficiente angular ou inclinação da reta.Exercício 2: Consi<strong>de</strong>re um experimento em que se analisa a octanagem da gasolina Y em funçãoda adição <strong>de</strong> um novo aditivo X. Para isso, foram realizados ensaios com os percentuais <strong>de</strong> 1, 2,3, 4, 5 e 6% <strong>de</strong> aditivo. Os resultados são mostrados a seguir:X Y1 80,52 81,63 82,14 83,75 83,985,584,583,582,581,580,56 85,0 80Índice <strong>de</strong> Octanagem85848382810 1 2 3 4 5 6 7Quantida<strong>de</strong> <strong>de</strong> Aditivo (%)Figura 1: Dados experimentais do efeito <strong>de</strong> um aditivo X na octanagem da gasolina Y.Observe que é razoável supor uma relação aproximadamente linear entre X e Y para os níveis <strong>de</strong>aditivo ensaiados. Porém, os pontos não estão exatamente sobre uma reta, provavelmente porcausa da existência <strong>de</strong> fatores não controláveis no processo. Vamos supor, então, que o valoresperado <strong>de</strong> Y varie com X, <strong>de</strong> acordo com uma equação <strong>de</strong> primeiro grau, ou seja: Y = α X + β ,on<strong>de</strong> α e β são parâmetros do mo<strong>de</strong>lo.
9Há vários métodos para estimar os parâmetros α e β do mo<strong>de</strong>lo. O mais usual é o Método dosMínimos Quadrados, que consiste em fazer com que a soma dos erros quadráticos seja a menorpossível. Por esse método obtém-se:n n n⎛ ⎞⎛n∑( x y ) − ⎜ ∑x ⎟⎜ ∑yα =i i i ii= 1 ⎝ i= 1 ⎠⎝ i=1nn22 ⎛ ⎞n∑xi− ⎜ ∑xi⎟i= 1 i=1⎝⎠⎞⎟⎠ii= 1 i=1e β =n∑y−αnn∑xiNeste exemplo, obtemos α = 0,886 e β = 79,7 , assim, Y = 0,886X+ 79,7X Y Y Erro (%)85,5Índice <strong>de</strong> Octanagem8584,58483,58382,58281,58180,5Y = 0,8857X + 79,71 80,5 80,586 -0,<strong>11</strong>2 81,6 81,472 0,163 82,1 82,358 -0,314 83,7 83,244 0,545 83,9 84,130 -0,276 85 85,016 -0,02800 1 2 3 4 5 6 7Quantida<strong>de</strong> <strong>de</strong> Aditivo (%)Figura 2: Diagrama <strong>de</strong> dispersão dos dados e a reta <strong>de</strong> regressãoajustada a esses dados e tabelacomparativa entre dados reais e dados estimados.A partir <strong>de</strong>ste mo<strong>de</strong>lo é possível estimar o índice <strong>de</strong> octanagem da gasolina a partir <strong>de</strong> umaquantida<strong>de</strong> do novo aditivo (no intervalo ensaiado, <strong>de</strong> 1 a 6%, pois não há informações sobre arelação entre X e Y fora <strong>de</strong>ste intervalo). Por exemplo, se for adicionado X = 5% <strong>de</strong> aditivo,esperamos um índice <strong>de</strong> octanagem <strong>de</strong> Y = 84,573. A tabela acima mostra que os valorespreditos pelo mo<strong>de</strong>lo estão bastante próximos dos valores observados no experimento.O coeficiente α fornece uma estimativa da variação esperada <strong>de</strong> Y , a partir da variação <strong>de</strong> umaunida<strong>de</strong> em X. O sinal <strong>de</strong>ste coeficiente indica o sentido da variação.O coeficiente <strong>de</strong> <strong>de</strong>terminação é uma medida <strong>de</strong>scritiva da proporção da variação <strong>de</strong> Y que po<strong>de</strong>ser explicada por variações em X, e é dado pelo mo<strong>de</strong>lo:2em que 0≤R ≤1.No exemplo,2R = 0,975Rn∑2 i=1ni=1 2( Y −Y)= =2( Y −Y)∑ivariação explicadavariação total
10Exercício 3: A tabela a seguir relaciona os pesos (em centenas <strong>de</strong> kg) e as taxas <strong>de</strong> consumo <strong>de</strong>combustível em rodovia (km/L), numa amostra <strong>de</strong> 10 carros <strong>de</strong> passeio novos.Peso 12 13 14 14 16 18 19 22 24 26Consumo 16 14 14 13 <strong>11</strong> 12 09 09 08 06a) Calcule o coeficiente <strong>de</strong> correlação <strong>de</strong> Pearsonb) Consi<strong>de</strong>rando o resultado do item a), como você avalia o relacionamento entre peso econsumo, na amostra observada?c) Para estabelecer uma equação <strong>de</strong> regressão, qual <strong>de</strong>ve ser a variável <strong>de</strong>pen<strong>de</strong>nte e qual <strong>de</strong>veser a variável in<strong>de</strong>pen<strong>de</strong>nte? Justifique a sua resposta.d) Estabeleça a equação <strong>de</strong> regressão, consi<strong>de</strong>rando a resposta do item c).e) Apresente o diagrama <strong>de</strong> dispersão e a reta <strong>de</strong> regressão obtida em d).f) Você consi<strong>de</strong>ra a<strong>de</strong>quado o ajuste do mo<strong>de</strong>lo <strong>de</strong> regressão do item d)? Dê uma medida <strong>de</strong>ssaa<strong>de</strong>quação, interpretando-a.g) Qual é o consumo esperado para um carro <strong>de</strong> 2000kg? Justifique sua resposta.