Aula de 11 setembro - UTFPR

1Professora Adriana Borssoihttp://www.cp.utfpr.edu.br/borssoiadrianaborssoi@utfpr.edu.brCOEME - Grupo de MatemáticaMedidas de Variabilidade ou DispersãoEstatística Básica - ContinuaçãoAs medidas de tendência central, descritas anteriormente, são úteis por identificarem um valor“típico” em um conjunto de dados. Por outro lado, as medidas de variabilidade dizem respeito àdescrição de um conjunto de dados em termos da variabilidade existente entre os itens incluídosdentro do conjunto.Assim, estas informações servirão para indicar o quanto os dados se apresentam dispersos emtorno da região central. Caracterizam, portanto, o grau de variação existente no conjunto devalores.A média - ainda que considerada como um número que tem a faculdade de representar uma sériede valores - não pode, por si mesma, destacar o grau de homogeneidade ou heterogeneidade queexiste entre os valores que compõem o conjunto.Consideremos os seguintes conjuntos de valores das variáveis X, Y e Z:X = {70, 70, 70, 70, 70} ⇒ X = 350 / 5 = 70Y = {68, 69, 70 ,71 ,72} ⇒ Y = 350 / 5 = 70Z = {5, 15, 50, 120, 160} ⇒ Z = 350 / 5 = 70Intuitivamente, é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z,mesmo que os valores das médias sejam iguais. O conjunto Y, por sua vez, é mais homogêneoque o conjunto Z, pois há menor variabilidade entre cada um de seus valores e a médiarepresentativa. Concluí-se então que o conjunto X apresenta dispersão nula e que o conjunto Yapresenta uma dispersão menor que o conjunto Z.As medidas de dispersão ou de variabilidade mais utilizados são: amplitude total, variância,desvio padrão e coeficiente de variação.Amplitude total (AT)A amplitude total é a diferença entre o maior e o menor valor observado: AT = X máximo – X mínimo .Para as variáveis X, Y e Z acima temos:AT X = 70 - 70 = 0 (dispersão nula)AT Y = 72 - 68 = 4AT Z = 160 - 5 = 155A Amplitude total (AT) tem o inconveniente de só levar em conta os dois valores extremos doconjunto, sem levar em conta os valores intermediários. Por esse motivo, esta medida não émuito utilizada.

2Faz-se uso da AT em situações onde deseja-se determinar, por exemplo, a variação datemperatura em um dia, ou quando necessitamos de uma medida de cálculo rápido sem muitaexatidão para representar a variabilidade dos dados.Variância populacional (σ 2 ), variância amostral (S 2 ) e desvio padrão (σ ou S)a) Dados não-agrupadosA variância e o desvio padrão são indicadores de variabilidade bastante estáveis. Para umapopulação de dados não-agrupados, a variância populacional (σ 2 ) e o desvio padrãopopulacional (σ) baseiam-se nos quadrados dos desvios em torno da média aritmética. Assim:Variância:=n∑2 i=1σ( ) 2x − xinou2⎧n⎛ ⎞ ⎫ni2 1⎜∑x ⎟⎪ .2 i=1 ⎪σ = x⎝ ⎠⎨∑i− ⎬n ⎪ i=1 n ⎪⎪⎪⎩⎭O desvio padrão é definido como a raiz quadrada da variância, ou seja:Desvio Padrão:∑( xi −x)σ =oun2⎧ ⎛n1⎜⎪ 2σ = x⎝⎨∑i−n⎪i=1⎪⎩n∑i=1nxi⎞⎟⎠2⎫⎪⎬⎪⎪⎭OBS: O desvio padrão trabalha com a mesma unidade da variável, sendo de maior interesse quea variância em aplicações práticas.É importante ressaltar que estas fórmulas deverão ser aplicadas quando estivermos trabalhandocom dados obtidos de uma população.Exemplo: Calcular a variância e o desvio padrão populacional dos seguintes dados:2, 6, 5, 4, 8, 11.Podemos fazer este cálculo de duas formas:1ª)=n∑2 i=1σσ=( ) 2x − xin22222( 2 − (6)) + ( 6 − (6)) + ( 5 − (6)) + ( 4 − (6)) + ( 8 − (6)) + ( 11 (6))2 −2 4 + 0 + 1+4 + 4 + 25 50 2σ = = ⇒ σ = 8,336 662

32ª)⎧ ⎛n2 1⎜⎪ 2σ = x⎝⎨∑i−n⎪i=1⎪⎩n∑i=1⎞xi⎟⎠n2⎫⎪⎬⎪⎪⎭Usando uma tabela auxiliar:x i x i22 (2 2 )=46 (6 2 )=365 (5 2 )=254 (4 2 )=168 (8 2 )=6411 (11 2 )=121Σ x i = 36 Σ x i2= 2662⎧n⎛ ⎞ ⎫2n2 1⎜∑xi⎟ ⎪ 2 i=1 ⎪ 1⎪⎧ ( 36)⎪⎫1σ = x⎝ ⎠⎨∑i− ⎬= ⎨266 − ⎬= { 50}= 8,33n⎪ i=1 n ⎪ 6⎪⎩6 ⎪⎭6⎪⎪⎩⎭Desta forma, encontramos a variância dos dados.Para determinarmos o desvio padrão, basta tirarmos a raiz quadrada deste valor, ou seja,2σ= 8,33 ⇒ σ = 8,33 ⇒ σ = 2,89No caso de trabalharmos com dados que representam uma amostra da população, nasexpressões acima, devemos substituir “n” por “n - 1”, e a variância amostral (S 2 ) é dada por:Variância:S2∑ ( x ) 2i− x= ou( ) 22 1⎡x.2iS ⎢∑= ∑ xi−n -1⎤⎥n−1⎢⎣n ⎥⎦Desvio Padrão:S =∑ ( x ) 2i−xoun −1( ∑ x ) 2i1⎡⎤.2S = ⎢∑xi− ⎥n−1⎢ n ⎥⎣⎦b) Dados agrupadosNeste caso, a variância e o desvio padrão serão dados pelas seguintes expressões:Variância: 1 ⎡( fx) 22 . 2σ ⎢∑= ∑ fxi ii i−n⎡2Desvio Padrão: σ = ⎢∑fxi i−n⎢⎣⎢⎣n⎤⎥⎥⎦( ∑ fx ) 21 i in⎤⎥⎥⎦

4OBS: No caso de trabalharmos com dados que representam uma amostra da população, nasexpressões acima, devemos substituir “n” por “n - 1”.Exemplo: Encontre a média e o desvio padrão para os dados amostrais da variável renda familiar(em salários mínimos) abaixo e interprete os resultados.Renda familiar2Nº de famíliasxf i xi*i f i x* i(f i )2 |— 4 5 3 15 454 |— 6 10 5 50 2506 |— 8 14 7 98 6868 |— 10 8 9 72 64810|— 12 3 11 33 363Total 40 - 268 1992• Calculando a média:∑fxi i 268x = = = 6,7 salários mínimosn 40S• Calculando a variância para os dados amostrais:1⎡( fx) 2 ⎤i i⎢∑= ∑ fix⎥i−n−1⎢n ⎥⎣⎦2 2( )22 1 ⎡ 268 ⎤ 1S = ⎢1992 − ⎥ = [ 196,4]= 5,0440 −1 ⎢⎣ 40 ⎥⎦39Então, o desvio padrão é dado por:S2= S =2, 24Interpretação: Podemos afirmar que a renda média familiar é de 6,7 salários mínimos, com umavariação de ±2, 24 salários mínimos, medidas pelo desvio padrão.Coeficiente de variação – CVO fato do desvio padrão ser expresso na mesma unidade dos dados limita seu emprego quandodesejamos comparar duas ou mais séries de valores referentes à variabilidade.Para contornar essa limitação, utiliza-se o coeficiente de variação - CV, que é definido como oquociente entre o desvio padrão e a média aritmética.Esta medida exprime a variabilidade relativa à média e, usualmente, é expresso em porcentagem.σ• Dados populacionais: CV = .100;xS• Dados amostrais: CV = .100 .xO coeficiente de variação indica o grau de dispersão, ou seja, a homogeneidade ouheterogeneidade dos dados de uma variável.

5Para efeitos práticos, costuma-se considerar (Gomes, 2000):CV < 10%: baixa dispersão, ou dados homogêneos;10% < CV < 20%: média dispersão, ou média homogeneidade;20% < CV < 30%: alta dispersão, ou pouca homogeneidade;CV > 30%: dispersão muito alta, ou dados heterogêneos.Exemplo: Para os dados amostrais das variáveis X, Y e Z, calcule o coeficiente de variação ecomente a respeito da dispersão dos dados.X = {70, 70, 70, 70, 70} Y = {68, 69, 70 ,71 ,72} Z = {5, 15, 50, 120, 160}• X = 350 / 5 = 702 2 2 2 2 22 ∑ ( xi− x) ( 70 − 70) + ( 70 − 70) + ( 70 − 70) + ( 70 − 70) + ( 70 −70)0SX= = = = 0n -1 5−1 4S S 2 X=X= 0 = 0SXCVX= .100 = 0%X• Y = 350 / 5 = 7022∑ Yi− Y 68 − 70 + 69 − 70 + 70 − 70SY= =n -1 5−1+ 71− 70 + 72 −70( ) ( ) ( ) ( ) ( )2− 2 + − 1 + 0 + 1 + 2 10S Y= = = 2,504 4SY= S 2 Y= 2,5 = 1,58SYCVY= .100 = 2,26%Y( ) ( ) ( ) ( ) ( ) ( )2 2 2 2 2* Z = 350 / 5 = 70∑2( Zi− Z) ( − ) + ( − ) + ( − ) + ( − ) + ( − )2 2 2 2 225 70 15 70 50 70 120 70 160 70SZ= =n -1 5−1( ) 2 ( ) 2 ( ) 2 ( ) 2 ( )22− 65 + − 55 + − 20 + 50 + 90 18250S Z= = = 4562,504 4S S 2 Z=Z= 4562,50 = 67,55SZCVZ= .100 = 96,5%ZInterpretação: Apesar da média ser igual para as variáveis X, Y e Z, o coeficiente de variaçãoindica que a variável X não apresenta dispersão (CV = 0%); a variável Y tem CV = 2,26%,indicando baixa dispersão dos dados, ou homogeneidade; já a variável Z possui dados comdispersão muito alta (CV = 96,50%), ou seja, seus dados são heterogêneos.

6Correlação e RegressãoDizemos que duas variáveis, X e Y, são positivamente correlacionadas quando elas cominhamnum mesmo sentido, ou seja, elementos com valores pequenos de X tendem a ter valorespequenos de Y. Estão negativamente correlacionadas quando elas caminham em sentidosopostos, ou seja, elementos com valores pequenos de X temdem a ter valores grandes de Y eelementos com valores grandes de X tendem a ter valores pequenos de Y.Gráfico de dispersão: deve ser feito antes da análise numérica dos dados. É construído comconjuntos de pontos formados por pares de valores (x,y). Pode indicar correlação linear positiva,negativa ou inexistência de correlação. Também é útil para identificar existência de valoresaberrantes.a) correlação positiva b) correlação negativa c) correlação inexistenteCoeficiente de correlação de Pearson (r) mede a correlação linear (grau de associação) dos dadosde duas variáveis aleatórias X e Y.O coeficiente de correlação de Pearson pode assumir valores no intervalo real de [ −1 ,1] ecalcula-se segundo a seguinte fórmula:r =n∑i=1( x −x)( y − y)inn2 2∑( xi−x) . ∑( yi− y)i= 1 i=1ionde x 1 , x 2 , ..., x n e y 1 , y 2 , ..., y n são os valores medidos de ambas as variáveis. Essa expressão én n n∑ ∑ ∑n ( xiyi) − ( xi) ( yi)i= 1 i= 1 i=1equivalente a r =n n n n2 2 2n x −( x ) . n y −( y )∑ ∑ ∑ ∑ 2ii i ii= 1 i= 1 i= 1 i=1O valor de r será tão mais próximo de 1 (ou -1) quanto mais forte for a correlação dos dadosobservados. Teremos r =1se os pontos estiverem exatamente sobre uma reta ascendente(correlação positiva perfeita). Por outro lado, teremos r = − 1 se os pontos estiverem exatamentesobre uma reta descendente (correlação negativa perfeita). Quando não houver correlação nosdados, r acusará um valor próximo de 0 (zero).

7Gráficos de dispersão para diferentes valores do coeficiente de correlação ρ (rho).Exercício1: Sejam X a nota na prova do vestibular de matemática e Y a nota final na disciplinade cálculo. Estas variáveis foram observadas em 20 alunos, ao final do primeiro período letivo deum curso de tecnologia. Os dados são representados a seguir:X 39 57 34 40 43 47 52 70 21 28 35 80 64 75 30 32 65 47 28 67Y 65 92 56 70 78 89 75 50 52 73 50 90 82 98 50 58 88 71 52 88a) calcule a correlação entre a nota no vestibular de matemática e a nota na disciplina de cálculo.Interprete o resultado.b) Construa um diagrama de dispersão e verifique se algum aluno foge ao comportamento geraldos demais (ponto discrepante).Regressão LinearAnálise de regressão é uma metodologia estatística que utiliza a relação entre duas ou maisvariáveis quantitativas (ou qualitativas) de tal forma que uma variável pode ser predita a partir daoutra ou outras. Exemplos:* Temperatura usada num processo de desodorização de um produto e cor do produto final.* A porcentagem de acerto ou, então, bytes transferidos, podem estar relacionados com otamanho da cache (bytes), para um determinado tipo de pré-carregamento.

8Estamos interessados na relação entre duas variáveis, as quais chamaremos de X e Y.Observamos pares de valores X e Y em cada amostra ou unidade experimental, e vamos usá-lospara dizer alguma coisa sobre a relação.Uma variável X pode ser medida acuradamente e seu valor escolhido pelo experimentador. Estavariável e chamada de variável independente. A outra variável Y, chamada variável dependenteou resposta, está sujeita a erro experimental, e seu valor depende do valor escolhido para avariável independente. Assim, a resposta Y é uma variável dependente da variável independenteX.As duas variáveis estão sujeitas a erros experimentais, isto é, erros de natureza aleatória,inerentes ao experimento. Este tipo de associação entre duas variáveis constitui o caso dacorrelação.O termo regressão é usado para designar a expressão de uma variável dependente (Y) em funçãode outra (X), considerada independente. Diz-se regressão de Y sobre X. Se a relação funcionalentre elas é expressa por uma equação de 1º grau, cuja a representação geométrica é uma linhareta, a regressão é dita linear.Postulada a existência de uma relação linear entre duas variáveis, pode-se representar aqueleconjunto de pontos pela equação da reta: Y i = β + αX i , que expressa o valor de Y em função de X.* Y é a variável dependente ou regredida, ou resposta* X é a variável independente, ou regressora ou explanatória* α e β são constantes, β é o intercepto e expressa o valor de y quando x é zero e α é ocoeficiente de regressão, coeficiente angular ou inclinação da reta.Exercício 2: Considere um experimento em que se analisa a octanagem da gasolina Y em funçãoda adição de um novo aditivo X. Para isso, foram realizados ensaios com os percentuais de 1, 2,3, 4, 5 e 6% de aditivo. Os resultados são mostrados a seguir:X Y1 80,52 81,63 82,14 83,75 83,985,584,583,582,581,580,56 85,0 80Índice de Octanagem85848382810 1 2 3 4 5 6 7Quantidade de Aditivo (%)Figura 1: Dados experimentais do efeito de um aditivo X na octanagem da gasolina Y.Observe que é razoável supor uma relação aproximadamente linear entre X e Y para os níveis deaditivo ensaiados. Porém, os pontos não estão exatamente sobre uma reta, provavelmente porcausa da existência de fatores não controláveis no processo. Vamos supor, então, que o valoresperado de Y varie com X, de acordo com uma equação de primeiro grau, ou seja: Y = α X + β ,onde α e β são parâmetros do modelo.

9Há vários métodos para estimar os parâmetros α e β do modelo. O mais usual é o Método dosMínimos Quadrados, que consiste em fazer com que a soma dos erros quadráticos seja a menorpossível. Por esse método obtém-se:n n n⎛ ⎞⎛n∑( x y ) − ⎜ ∑x ⎟⎜ ∑yα =i i i ii= 1 ⎝ i= 1 ⎠⎝ i=1nn22 ⎛ ⎞n∑xi− ⎜ ∑xi⎟i= 1 i=1⎝⎠⎞⎟⎠ii= 1 i=1e β =n∑y−αnn∑xiNeste exemplo, obtemos α = 0,886 e β = 79,7 , assim, Y = 0,886X+ 79,7X Y Y Erro (%)85,5Índice de Octanagem8584,58483,58382,58281,58180,5Y = 0,8857X + 79,71 80,5 80,586 -0,112 81,6 81,472 0,163 82,1 82,358 -0,314 83,7 83,244 0,545 83,9 84,130 -0,276 85 85,016 -0,02800 1 2 3 4 5 6 7Quantidade de Aditivo (%)Figura 2: Diagrama de dispersão dos dados e a reta de regressãoajustada a esses dados e tabelacomparativa entre dados reais e dados estimados.A partir deste modelo é possível estimar o índice de octanagem da gasolina a partir de umaquantidade do novo aditivo (no intervalo ensaiado, de 1 a 6%, pois não há informações sobre arelação entre X e Y fora deste intervalo). Por exemplo, se for adicionado X = 5% de aditivo,esperamos um índice de octanagem de Y = 84,573. A tabela acima mostra que os valorespreditos pelo modelo estão bastante próximos dos valores observados no experimento.O coeficiente α fornece uma estimativa da variação esperada de Y , a partir da variação de umaunidade em X. O sinal deste coeficiente indica o sentido da variação.O coeficiente de determinação é uma medida descritiva da proporção da variação de Y que podeser explicada por variações em X, e é dado pelo modelo:2em que 0≤R ≤1.No exemplo,2R = 0,975Rn∑2 i=1ni=1 2( Y −Y)= =2( Y −Y)∑ivariação explicadavariação total

10Exercício 3: A tabela a seguir relaciona os pesos (em centenas de kg) e as taxas de consumo decombustível em rodovia (km/L), numa amostra de 10 carros de passeio novos.Peso 12 13 14 14 16 18 19 22 24 26Consumo 16 14 14 13 11 12 09 09 08 06a) Calcule o coeficiente de correlação de Pearsonb) Considerando o resultado do item a), como você avalia o relacionamento entre peso econsumo, na amostra observada?c) Para estabelecer uma equação de regressão, qual deve ser a variável dependente e qual deveser a variável independente? Justifique a sua resposta.d) Estabeleça a equação de regressão, considerando a resposta do item c).e) Apresente o diagrama de dispersão e a reta de regressão obtida em d).f) Você considera adequado o ajuste do modelo de regressão do item d)? Dê uma medida dessaadequação, interpretando-a.g) Qual é o consumo esperado para um carro de 2000kg? Justifique sua resposta.

Aula de 11 setembro - UTFPR

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?