13.07.2015 Views

Aula de 11 setembro - UTFPR

Aula de 11 setembro - UTFPR

Aula de 11 setembro - UTFPR

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

1Professora Adriana Borssoihttp://www.cp.utfpr.edu.br/borssoiadrianaborssoi@utfpr.edu.brCOEME - Grupo <strong>de</strong> MatemáticaMedidas <strong>de</strong> Variabilida<strong>de</strong> ou DispersãoEstatística Básica - ContinuaçãoAs medidas <strong>de</strong> tendência central, <strong>de</strong>scritas anteriormente, são úteis por i<strong>de</strong>ntificarem um valor“típico” em um conjunto <strong>de</strong> dados. Por outro lado, as medidas <strong>de</strong> variabilida<strong>de</strong> dizem respeito à<strong>de</strong>scrição <strong>de</strong> um conjunto <strong>de</strong> dados em termos da variabilida<strong>de</strong> existente entre os itens incluídos<strong>de</strong>ntro do conjunto.Assim, estas informações servirão para indicar o quanto os dados se apresentam dispersos emtorno da região central. Caracterizam, portanto, o grau <strong>de</strong> variação existente no conjunto <strong>de</strong>valores.A média - ainda que consi<strong>de</strong>rada como um número que tem a faculda<strong>de</strong> <strong>de</strong> representar uma série<strong>de</strong> valores - não po<strong>de</strong>, por si mesma, <strong>de</strong>stacar o grau <strong>de</strong> homogeneida<strong>de</strong> ou heterogeneida<strong>de</strong> queexiste entre os valores que compõem o conjunto.Consi<strong>de</strong>remos os seguintes conjuntos <strong>de</strong> valores das variáveis X, Y e Z:X = {70, 70, 70, 70, 70} ⇒ X = 350 / 5 = 70Y = {68, 69, 70 ,71 ,72} ⇒ Y = 350 / 5 = 70Z = {5, 15, 50, 120, 160} ⇒ Z = 350 / 5 = 70Intuitivamente, é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z,mesmo que os valores das médias sejam iguais. O conjunto Y, por sua vez, é mais homogêneoque o conjunto Z, pois há menor variabilida<strong>de</strong> entre cada um <strong>de</strong> seus valores e a médiarepresentativa. Concluí-se então que o conjunto X apresenta dispersão nula e que o conjunto Yapresenta uma dispersão menor que o conjunto Z.As medidas <strong>de</strong> dispersão ou <strong>de</strong> variabilida<strong>de</strong> mais utilizados são: amplitu<strong>de</strong> total, variância,<strong>de</strong>svio padrão e coeficiente <strong>de</strong> variação.Amplitu<strong>de</strong> total (AT)A amplitu<strong>de</strong> total é a diferença entre o maior e o menor valor observado: AT = X máximo – X mínimo .Para as variáveis X, Y e Z acima temos:AT X = 70 - 70 = 0 (dispersão nula)AT Y = 72 - 68 = 4AT Z = 160 - 5 = 155A Amplitu<strong>de</strong> total (AT) tem o inconveniente <strong>de</strong> só levar em conta os dois valores extremos doconjunto, sem levar em conta os valores intermediários. Por esse motivo, esta medida não émuito utilizada.


2Faz-se uso da AT em situações on<strong>de</strong> <strong>de</strong>seja-se <strong>de</strong>terminar, por exemplo, a variação datemperatura em um dia, ou quando necessitamos <strong>de</strong> uma medida <strong>de</strong> cálculo rápido sem muitaexatidão para representar a variabilida<strong>de</strong> dos dados.Variância populacional (σ 2 ), variância amostral (S 2 ) e <strong>de</strong>svio padrão (σ ou S)a) Dados não-agrupadosA variância e o <strong>de</strong>svio padrão são indicadores <strong>de</strong> variabilida<strong>de</strong> bastante estáveis. Para umapopulação <strong>de</strong> dados não-agrupados, a variância populacional (σ 2 ) e o <strong>de</strong>svio padrãopopulacional (σ) baseiam-se nos quadrados dos <strong>de</strong>svios em torno da média aritmética. Assim:Variância:=n∑2 i=1σ( ) 2x − xinou2⎧n⎛ ⎞ ⎫ni2 1⎜∑x ⎟⎪ .2 i=1 ⎪σ = x⎝ ⎠⎨∑i− ⎬n ⎪ i=1 n ⎪⎪⎪⎩⎭O <strong>de</strong>svio padrão é <strong>de</strong>finido como a raiz quadrada da variância, ou seja:Desvio Padrão:∑( xi −x)σ =oun2⎧ ⎛n1⎜⎪ 2σ = x⎝⎨∑i−n⎪i=1⎪⎩n∑i=1nxi⎞⎟⎠2⎫⎪⎬⎪⎪⎭OBS: O <strong>de</strong>svio padrão trabalha com a mesma unida<strong>de</strong> da variável, sendo <strong>de</strong> maior interesse quea variância em aplicações práticas.É importante ressaltar que estas fórmulas <strong>de</strong>verão ser aplicadas quando estivermos trabalhandocom dados obtidos <strong>de</strong> uma população.Exemplo: Calcular a variância e o <strong>de</strong>svio padrão populacional dos seguintes dados:2, 6, 5, 4, 8, <strong>11</strong>.Po<strong>de</strong>mos fazer este cálculo <strong>de</strong> duas formas:1ª)=n∑2 i=1σσ=( ) 2x − xin22222( 2 − (6)) + ( 6 − (6)) + ( 5 − (6)) + ( 4 − (6)) + ( 8 − (6)) + ( <strong>11</strong> (6))2 −2 4 + 0 + 1+4 + 4 + 25 50 2σ = = ⇒ σ = 8,336 662


32ª)⎧ ⎛n2 1⎜⎪ 2σ = x⎝⎨∑i−n⎪i=1⎪⎩n∑i=1⎞xi⎟⎠n2⎫⎪⎬⎪⎪⎭Usando uma tabela auxiliar:x i x i22 (2 2 )=46 (6 2 )=365 (5 2 )=254 (4 2 )=168 (8 2 )=64<strong>11</strong> (<strong>11</strong> 2 )=121Σ x i = 36 Σ x i2= 2662⎧n⎛ ⎞ ⎫2n2 1⎜∑xi⎟ ⎪ 2 i=1 ⎪ 1⎪⎧ ( 36)⎪⎫1σ = x⎝ ⎠⎨∑i− ⎬= ⎨266 − ⎬= { 50}= 8,33n⎪ i=1 n ⎪ 6⎪⎩6 ⎪⎭6⎪⎪⎩⎭Desta forma, encontramos a variância dos dados.Para <strong>de</strong>terminarmos o <strong>de</strong>svio padrão, basta tirarmos a raiz quadrada <strong>de</strong>ste valor, ou seja,2σ= 8,33 ⇒ σ = 8,33 ⇒ σ = 2,89No caso <strong>de</strong> trabalharmos com dados que representam uma amostra da população, nasexpressões acima, <strong>de</strong>vemos substituir “n” por “n - 1”, e a variância amostral (S 2 ) é dada por:Variância:S2∑ ( x ) 2i− x= ou( ) 22 1⎡x.2iS ⎢∑= ∑ xi−n -1⎤⎥n−1⎢⎣n ⎥⎦Desvio Padrão:S =∑ ( x ) 2i−xoun −1( ∑ x ) 2i1⎡⎤.2S = ⎢∑xi− ⎥n−1⎢ n ⎥⎣⎦b) Dados agrupadosNeste caso, a variância e o <strong>de</strong>svio padrão serão dados pelas seguintes expressões:Variância: 1 ⎡( fx) 22 . 2σ ⎢∑= ∑ fxi ii i−n⎡2Desvio Padrão: σ = ⎢∑fxi i−n⎢⎣⎢⎣n⎤⎥⎥⎦( ∑ fx ) 21 i in⎤⎥⎥⎦


4OBS: No caso <strong>de</strong> trabalharmos com dados que representam uma amostra da população, nasexpressões acima, <strong>de</strong>vemos substituir “n” por “n - 1”.Exemplo: Encontre a média e o <strong>de</strong>svio padrão para os dados amostrais da variável renda familiar(em salários mínimos) abaixo e interprete os resultados.Renda familiar2Nº <strong>de</strong> famíliasxf i xi*i f i x* i(f i )2 |— 4 5 3 15 454 |— 6 10 5 50 2506 |— 8 14 7 98 6868 |— 10 8 9 72 64810|— 12 3 <strong>11</strong> 33 363Total 40 - 268 1992• Calculando a média:∑fxi i 268x = = = 6,7 salários mínimosn 40S• Calculando a variância para os dados amostrais:1⎡( fx) 2 ⎤i i⎢∑= ∑ fix⎥i−n−1⎢n ⎥⎣⎦2 2( )22 1 ⎡ 268 ⎤ 1S = ⎢1992 − ⎥ = [ 196,4]= 5,0440 −1 ⎢⎣ 40 ⎥⎦39Então, o <strong>de</strong>svio padrão é dado por:S2= S =2, 24Interpretação: Po<strong>de</strong>mos afirmar que a renda média familiar é <strong>de</strong> 6,7 salários mínimos, com umavariação <strong>de</strong> ±2, 24 salários mínimos, medidas pelo <strong>de</strong>svio padrão.Coeficiente <strong>de</strong> variação – CVO fato do <strong>de</strong>svio padrão ser expresso na mesma unida<strong>de</strong> dos dados limita seu emprego quando<strong>de</strong>sejamos comparar duas ou mais séries <strong>de</strong> valores referentes à variabilida<strong>de</strong>.Para contornar essa limitação, utiliza-se o coeficiente <strong>de</strong> variação - CV, que é <strong>de</strong>finido como oquociente entre o <strong>de</strong>svio padrão e a média aritmética.Esta medida exprime a variabilida<strong>de</strong> relativa à média e, usualmente, é expresso em porcentagem.σ• Dados populacionais: CV = .100;xS• Dados amostrais: CV = .100 .xO coeficiente <strong>de</strong> variação indica o grau <strong>de</strong> dispersão, ou seja, a homogeneida<strong>de</strong> ouheterogeneida<strong>de</strong> dos dados <strong>de</strong> uma variável.


5Para efeitos práticos, costuma-se consi<strong>de</strong>rar (Gomes, 2000):CV < 10%: baixa dispersão, ou dados homogêneos;10% < CV < 20%: média dispersão, ou média homogeneida<strong>de</strong>;20% < CV < 30%: alta dispersão, ou pouca homogeneida<strong>de</strong>;CV > 30%: dispersão muito alta, ou dados heterogêneos.Exemplo: Para os dados amostrais das variáveis X, Y e Z, calcule o coeficiente <strong>de</strong> variação ecomente a respeito da dispersão dos dados.X = {70, 70, 70, 70, 70} Y = {68, 69, 70 ,71 ,72} Z = {5, 15, 50, 120, 160}• X = 350 / 5 = 702 2 2 2 2 22 ∑ ( xi− x) ( 70 − 70) + ( 70 − 70) + ( 70 − 70) + ( 70 − 70) + ( 70 −70)0SX= = = = 0n -1 5−1 4S S 2 X=X= 0 = 0SXCVX= .100 = 0%X• Y = 350 / 5 = 7022∑ Yi− Y 68 − 70 + 69 − 70 + 70 − 70SY= =n -1 5−1+ 71− 70 + 72 −70( ) ( ) ( ) ( ) ( )2− 2 + − 1 + 0 + 1 + 2 10S Y= = = 2,504 4SY= S 2 Y= 2,5 = 1,58SYCVY= .100 = 2,26%Y( ) ( ) ( ) ( ) ( ) ( )2 2 2 2 2* Z = 350 / 5 = 70∑2( Zi− Z) ( − ) + ( − ) + ( − ) + ( − ) + ( − )2 2 2 2 225 70 15 70 50 70 120 70 160 70SZ= =n -1 5−1( ) 2 ( ) 2 ( ) 2 ( ) 2 ( )22− 65 + − 55 + − 20 + 50 + 90 18250S Z= = = 4562,504 4S S 2 Z=Z= 4562,50 = 67,55SZCVZ= .100 = 96,5%ZInterpretação: Apesar da média ser igual para as variáveis X, Y e Z, o coeficiente <strong>de</strong> variaçãoindica que a variável X não apresenta dispersão (CV = 0%); a variável Y tem CV = 2,26%,indicando baixa dispersão dos dados, ou homogeneida<strong>de</strong>; já a variável Z possui dados comdispersão muito alta (CV = 96,50%), ou seja, seus dados são heterogêneos.


6Correlação e RegressãoDizemos que duas variáveis, X e Y, são positivamente correlacionadas quando elas cominhamnum mesmo sentido, ou seja, elementos com valores pequenos <strong>de</strong> X ten<strong>de</strong>m a ter valorespequenos <strong>de</strong> Y. Estão negativamente correlacionadas quando elas caminham em sentidosopostos, ou seja, elementos com valores pequenos <strong>de</strong> X tem<strong>de</strong>m a ter valores gran<strong>de</strong>s <strong>de</strong> Y eelementos com valores gran<strong>de</strong>s <strong>de</strong> X ten<strong>de</strong>m a ter valores pequenos <strong>de</strong> Y.Gráfico <strong>de</strong> dispersão: <strong>de</strong>ve ser feito antes da análise numérica dos dados. É construído comconjuntos <strong>de</strong> pontos formados por pares <strong>de</strong> valores (x,y). Po<strong>de</strong> indicar correlação linear positiva,negativa ou inexistência <strong>de</strong> correlação. Também é útil para i<strong>de</strong>ntificar existência <strong>de</strong> valoresaberrantes.a) correlação positiva b) correlação negativa c) correlação inexistenteCoeficiente <strong>de</strong> correlação <strong>de</strong> Pearson (r) me<strong>de</strong> a correlação linear (grau <strong>de</strong> associação) dos dados<strong>de</strong> duas variáveis aleatórias X e Y.O coeficiente <strong>de</strong> correlação <strong>de</strong> Pearson po<strong>de</strong> assumir valores no intervalo real <strong>de</strong> [ −1 ,1] ecalcula-se segundo a seguinte fórmula:r =n∑i=1( x −x)( y − y)inn2 2∑( xi−x) . ∑( yi− y)i= 1 i=1ion<strong>de</strong> x 1 , x 2 , ..., x n e y 1 , y 2 , ..., y n são os valores medidos <strong>de</strong> ambas as variáveis. Essa expressão én n n∑ ∑ ∑n ( xiyi) − ( xi) ( yi)i= 1 i= 1 i=1equivalente a r =n n n n2 2 2n x −( x ) . n y −( y )∑ ∑ ∑ ∑ 2ii i ii= 1 i= 1 i= 1 i=1O valor <strong>de</strong> r será tão mais próximo <strong>de</strong> 1 (ou -1) quanto mais forte for a correlação dos dadosobservados. Teremos r =1se os pontos estiverem exatamente sobre uma reta ascen<strong>de</strong>nte(correlação positiva perfeita). Por outro lado, teremos r = − 1 se os pontos estiverem exatamentesobre uma reta <strong>de</strong>scen<strong>de</strong>nte (correlação negativa perfeita). Quando não houver correlação nosdados, r acusará um valor próximo <strong>de</strong> 0 (zero).


7Gráficos <strong>de</strong> dispersão para diferentes valores do coeficiente <strong>de</strong> correlação ρ (rho).Exercício1: Sejam X a nota na prova do vestibular <strong>de</strong> matemática e Y a nota final na disciplina<strong>de</strong> cálculo. Estas variáveis foram observadas em 20 alunos, ao final do primeiro período letivo <strong>de</strong>um curso <strong>de</strong> tecnologia. Os dados são representados a seguir:X 39 57 34 40 43 47 52 70 21 28 35 80 64 75 30 32 65 47 28 67Y 65 92 56 70 78 89 75 50 52 73 50 90 82 98 50 58 88 71 52 88a) calcule a correlação entre a nota no vestibular <strong>de</strong> matemática e a nota na disciplina <strong>de</strong> cálculo.Interprete o resultado.b) Construa um diagrama <strong>de</strong> dispersão e verifique se algum aluno foge ao comportamento geraldos <strong>de</strong>mais (ponto discrepante).Regressão LinearAnálise <strong>de</strong> regressão é uma metodologia estatística que utiliza a relação entre duas ou maisvariáveis quantitativas (ou qualitativas) <strong>de</strong> tal forma que uma variável po<strong>de</strong> ser predita a partir daoutra ou outras. Exemplos:* Temperatura usada num processo <strong>de</strong> <strong>de</strong>sodorização <strong>de</strong> um produto e cor do produto final.* A porcentagem <strong>de</strong> acerto ou, então, bytes transferidos, po<strong>de</strong>m estar relacionados com otamanho da cache (bytes), para um <strong>de</strong>terminado tipo <strong>de</strong> pré-carregamento.


8Estamos interessados na relação entre duas variáveis, as quais chamaremos <strong>de</strong> X e Y.Observamos pares <strong>de</strong> valores X e Y em cada amostra ou unida<strong>de</strong> experimental, e vamos usá-lospara dizer alguma coisa sobre a relação.Uma variável X po<strong>de</strong> ser medida acuradamente e seu valor escolhido pelo experimentador. Estavariável e chamada <strong>de</strong> variável in<strong>de</strong>pen<strong>de</strong>nte. A outra variável Y, chamada variável <strong>de</strong>pen<strong>de</strong>nteou resposta, está sujeita a erro experimental, e seu valor <strong>de</strong>pen<strong>de</strong> do valor escolhido para avariável in<strong>de</strong>pen<strong>de</strong>nte. Assim, a resposta Y é uma variável <strong>de</strong>pen<strong>de</strong>nte da variável in<strong>de</strong>pen<strong>de</strong>nteX.As duas variáveis estão sujeitas a erros experimentais, isto é, erros <strong>de</strong> natureza aleatória,inerentes ao experimento. Este tipo <strong>de</strong> associação entre duas variáveis constitui o caso dacorrelação.O termo regressão é usado para <strong>de</strong>signar a expressão <strong>de</strong> uma variável <strong>de</strong>pen<strong>de</strong>nte (Y) em função<strong>de</strong> outra (X), consi<strong>de</strong>rada in<strong>de</strong>pen<strong>de</strong>nte. Diz-se regressão <strong>de</strong> Y sobre X. Se a relação funcionalentre elas é expressa por uma equação <strong>de</strong> 1º grau, cuja a representação geométrica é uma linhareta, a regressão é dita linear.Postulada a existência <strong>de</strong> uma relação linear entre duas variáveis, po<strong>de</strong>-se representar aqueleconjunto <strong>de</strong> pontos pela equação da reta: Y i = β + αX i , que expressa o valor <strong>de</strong> Y em função <strong>de</strong> X.* Y é a variável <strong>de</strong>pen<strong>de</strong>nte ou regredida, ou resposta* X é a variável in<strong>de</strong>pen<strong>de</strong>nte, ou regressora ou explanatória* α e β são constantes, β é o intercepto e expressa o valor <strong>de</strong> y quando x é zero e α é ocoeficiente <strong>de</strong> regressão, coeficiente angular ou inclinação da reta.Exercício 2: Consi<strong>de</strong>re um experimento em que se analisa a octanagem da gasolina Y em funçãoda adição <strong>de</strong> um novo aditivo X. Para isso, foram realizados ensaios com os percentuais <strong>de</strong> 1, 2,3, 4, 5 e 6% <strong>de</strong> aditivo. Os resultados são mostrados a seguir:X Y1 80,52 81,63 82,14 83,75 83,985,584,583,582,581,580,56 85,0 80Índice <strong>de</strong> Octanagem85848382810 1 2 3 4 5 6 7Quantida<strong>de</strong> <strong>de</strong> Aditivo (%)Figura 1: Dados experimentais do efeito <strong>de</strong> um aditivo X na octanagem da gasolina Y.Observe que é razoável supor uma relação aproximadamente linear entre X e Y para os níveis <strong>de</strong>aditivo ensaiados. Porém, os pontos não estão exatamente sobre uma reta, provavelmente porcausa da existência <strong>de</strong> fatores não controláveis no processo. Vamos supor, então, que o valoresperado <strong>de</strong> Y varie com X, <strong>de</strong> acordo com uma equação <strong>de</strong> primeiro grau, ou seja: Y = α X + β ,on<strong>de</strong> α e β são parâmetros do mo<strong>de</strong>lo.


9Há vários métodos para estimar os parâmetros α e β do mo<strong>de</strong>lo. O mais usual é o Método dosMínimos Quadrados, que consiste em fazer com que a soma dos erros quadráticos seja a menorpossível. Por esse método obtém-se:n n n⎛ ⎞⎛n∑( x y ) − ⎜ ∑x ⎟⎜ ∑yα =i i i ii= 1 ⎝ i= 1 ⎠⎝ i=1nn22 ⎛ ⎞n∑xi− ⎜ ∑xi⎟i= 1 i=1⎝⎠⎞⎟⎠ii= 1 i=1e β =n∑y−αnn∑xiNeste exemplo, obtemos α = 0,886 e β = 79,7 , assim, Y = 0,886X+ 79,7X Y Y Erro (%)85,5Índice <strong>de</strong> Octanagem8584,58483,58382,58281,58180,5Y = 0,8857X + 79,71 80,5 80,586 -0,<strong>11</strong>2 81,6 81,472 0,163 82,1 82,358 -0,314 83,7 83,244 0,545 83,9 84,130 -0,276 85 85,016 -0,02800 1 2 3 4 5 6 7Quantida<strong>de</strong> <strong>de</strong> Aditivo (%)Figura 2: Diagrama <strong>de</strong> dispersão dos dados e a reta <strong>de</strong> regressãoajustada a esses dados e tabelacomparativa entre dados reais e dados estimados.A partir <strong>de</strong>ste mo<strong>de</strong>lo é possível estimar o índice <strong>de</strong> octanagem da gasolina a partir <strong>de</strong> umaquantida<strong>de</strong> do novo aditivo (no intervalo ensaiado, <strong>de</strong> 1 a 6%, pois não há informações sobre arelação entre X e Y fora <strong>de</strong>ste intervalo). Por exemplo, se for adicionado X = 5% <strong>de</strong> aditivo,esperamos um índice <strong>de</strong> octanagem <strong>de</strong> Y = 84,573. A tabela acima mostra que os valorespreditos pelo mo<strong>de</strong>lo estão bastante próximos dos valores observados no experimento.O coeficiente α fornece uma estimativa da variação esperada <strong>de</strong> Y , a partir da variação <strong>de</strong> umaunida<strong>de</strong> em X. O sinal <strong>de</strong>ste coeficiente indica o sentido da variação.O coeficiente <strong>de</strong> <strong>de</strong>terminação é uma medida <strong>de</strong>scritiva da proporção da variação <strong>de</strong> Y que po<strong>de</strong>ser explicada por variações em X, e é dado pelo mo<strong>de</strong>lo:2em que 0≤R ≤1.No exemplo,2R = 0,975Rn∑2 i=1ni=1 2( Y −Y)= =2( Y −Y)∑ivariação explicadavariação total


10Exercício 3: A tabela a seguir relaciona os pesos (em centenas <strong>de</strong> kg) e as taxas <strong>de</strong> consumo <strong>de</strong>combustível em rodovia (km/L), numa amostra <strong>de</strong> 10 carros <strong>de</strong> passeio novos.Peso 12 13 14 14 16 18 19 22 24 26Consumo 16 14 14 13 <strong>11</strong> 12 09 09 08 06a) Calcule o coeficiente <strong>de</strong> correlação <strong>de</strong> Pearsonb) Consi<strong>de</strong>rando o resultado do item a), como você avalia o relacionamento entre peso econsumo, na amostra observada?c) Para estabelecer uma equação <strong>de</strong> regressão, qual <strong>de</strong>ve ser a variável <strong>de</strong>pen<strong>de</strong>nte e qual <strong>de</strong>veser a variável in<strong>de</strong>pen<strong>de</strong>nte? Justifique a sua resposta.d) Estabeleça a equação <strong>de</strong> regressão, consi<strong>de</strong>rando a resposta do item c).e) Apresente o diagrama <strong>de</strong> dispersão e a reta <strong>de</strong> regressão obtida em d).f) Você consi<strong>de</strong>ra a<strong>de</strong>quado o ajuste do mo<strong>de</strong>lo <strong>de</strong> regressão do item d)? Dê uma medida <strong>de</strong>ssaa<strong>de</strong>quação, interpretando-a.g) Qual é o consumo esperado para um carro <strong>de</strong> 2000kg? Justifique sua resposta.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!