Capítulo 10 - Inferência Estatística: Testes de Hipóteses
Capítulo 10 - Inferência Estatística: Testes de Hipóteses
Capítulo 10 - Inferência Estatística: Testes de Hipóteses
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
<strong>10</strong> – INFERÊNCIA ESTATÍSTICA – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
<strong>10</strong>.1 - Introdução<br />
Viu-se anteriormente que uma <strong>de</strong>terminada população po<strong>de</strong> ser <strong>de</strong>scrita através <strong>de</strong> um<br />
mo<strong>de</strong>lo probabilístico, que apresenta características e parâmetros. Muitas vezes estes parâmetros<br />
são <strong>de</strong>sconhecidos e há interesse em estimá-los para obter um melhor conhecimento sobre a<br />
população: retira-se então uma amostra aleatória da população e através das técnicas <strong>de</strong> Estimação<br />
<strong>de</strong> Parâmetros 1 procura-se obter uma estimativa <strong>de</strong> algum parâmetro <strong>de</strong> interesse, e associamos<br />
uma probabilida<strong>de</strong> <strong>de</strong> que a estimativa esteja correta. A Estimação <strong>de</strong> Parâmetros é uma subdivisão<br />
da <strong>Inferência</strong> <strong>Estatística</strong> (que consiste em fazer afirmações probabilísticas sobre o mo<strong>de</strong>lo<br />
probabilístico da população a partir <strong>de</strong> uma amostra aleatória <strong>de</strong>sta população), a outra gran<strong>de</strong><br />
subdivisão constitui os <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong>.<br />
Contrariamente à Estimação <strong>de</strong> Parâmetros os <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong> permitem fazer<br />
inferências sobre outras características do mo<strong>de</strong>lo probabilístico da população além dos parâmetros<br />
(como, por exemplo, a forma do mo<strong>de</strong>lo probabilístico da população). Quando os <strong>Testes</strong> são feitos<br />
sobre os parâmetros da população são chamados <strong>de</strong> <strong>Testes</strong> Paramétricos, e quando são feitos sobre<br />
outras características são chamados <strong>de</strong> <strong>Testes</strong> Não Paramétricos 2 . Não obstante vamos nos restringir<br />
aos <strong>Testes</strong> Paramétricos 3 .<br />
<strong>10</strong>.2 - Lógica dos <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
Imagine-se que um <strong>de</strong>terminado pesquisador está interessado em alguma característica <strong>de</strong><br />
uma população. Devido a estudos prévios, ou simplesmente por bom senso (melhor ponto <strong>de</strong> partida<br />
para o estudo) ele estabelece que a característica terá um <strong>de</strong>terminado comportamento. Formula<br />
então uma hipótese estatística sobre a característica da população, e esta hipótese é aceita como<br />
válida até prova estatística em contrário.<br />
Para testar a hipótese é coletada uma amostra aleatória representativa da população, sendo<br />
calculadas as estatísticas necessárias para o teste. Naturalmente (<strong>de</strong>vido ao fato <strong>de</strong> ser utilizada uma<br />
amostra aleatória) haverá diferenças entre o que se esperava (sob a condição da hipótese verda<strong>de</strong>ira)<br />
e o que realmente foi obtido na amostra. A questão a ser respondida é: as diferenças são<br />
significativas o bastante para que a hipótese estatística estabelecida seja rejeitada? Esta não é uma<br />
pergunta simples <strong>de</strong> respon<strong>de</strong>r: <strong>de</strong>pen<strong>de</strong>rá do que está sob teste (que parâmetro, por exemplo), da<br />
confiabilida<strong>de</strong> <strong>de</strong>sejada para o resultado, etc. Basicamente, porém, será necessário comparar as<br />
diferenças com uma referência (a distribuição amostral <strong>de</strong> um parâmetro, por exemplo), que supõe<br />
que a hipótese sob teste é verda<strong>de</strong>ira: a comparação costuma ser feita através <strong>de</strong> uma estatística <strong>de</strong><br />
teste que envolve os valores da amostra e os valores sob teste.<br />
A tomada <strong>de</strong> <strong>de</strong>cisão é feita da seguinte forma:<br />
1 Ver o <strong>Capítulo</strong> 9.<br />
2 Na realida<strong>de</strong> a <strong>de</strong>nominação correta <strong>de</strong>veria ser “<strong>Testes</strong> <strong>de</strong>pen<strong>de</strong>ntes <strong>de</strong> distribuição <strong>de</strong> referência” (porque para fazer<br />
inferências sobre os parâmetros <strong>de</strong>vemos supor que o mo<strong>de</strong>lo probabilístico populacional é normal, por exemplo, ou<br />
que a distribuição amostral do parâmetro po<strong>de</strong> ser aproximada por uma normal), e “<strong>Testes</strong> livres <strong>de</strong> distribuição”<br />
(porque os <strong>Testes</strong> Não Paramétricos não exigem que os dados tenham uma a<strong>de</strong>rência a um certo mo<strong>de</strong>lo).<br />
3 Ao leitor interessado em <strong>Testes</strong> Não Paramétricos recomenda-se a referência: SIEGEL, S. <strong>Estatística</strong> Não Paramétrica<br />
(para as Ciências do Comportamento); McGraw-Hill, São Paulo, 1975. É uma boa referência no assunto, em português.<br />
1
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
- se a diferença entre o que foi observado na amostra e o que era esperado (sob a condição da<br />
hipótese verda<strong>de</strong>ira) não for SIGNIFICATIVA a hipótese será aceita.<br />
- se a diferença entre o que foi observado na amostra e o que era esperado (sob a condição da<br />
hipótese verda<strong>de</strong>ira) for SIGNIFICATIVA a hipótese será rejeitada.<br />
O valor a partir do qual a diferença será consi<strong>de</strong>rada significativa será <strong>de</strong>terminado pelo<br />
Nível <strong>de</strong> Significância do teste. O Nível <strong>de</strong> Significância geralmente é fixado pelo pesquisador,<br />
muitas vezes <strong>de</strong> forma arbitrária, e também será a probabilida<strong>de</strong> <strong>de</strong> erro do Teste <strong>de</strong> <strong>Hipóteses</strong>: a<br />
probabilida<strong>de</strong> <strong>de</strong> cometer um erro no teste, rejeitando uma hipótese válida. Como a <strong>de</strong>cisão do teste<br />
é tomada a partir dos dados <strong>de</strong> uma amostra aleatória da população há SEMPRE a probabilida<strong>de</strong> <strong>de</strong><br />
estar cometendo um erro, mas com a utilização <strong>de</strong> métodos estatísticos é possível calcular o valor<br />
<strong>de</strong>sta probabilida<strong>de</strong> 4 . O Nível <strong>de</strong> Significância é uma probabilida<strong>de</strong>, portanto é um número real que<br />
varia <strong>de</strong> 0 a 1 (0 a <strong>10</strong>0%), e como é a probabilida<strong>de</strong> <strong>de</strong> se cometer um erro no teste é interessante<br />
que seja o mais próximo possível <strong>de</strong> zero: valores típicos são 5%, <strong>10</strong>%, 1% e até menores<br />
<strong>de</strong>pen<strong>de</strong>ndo do problema sob análise. Contudo, não é possível usar um Nível <strong>de</strong> Significância igual<br />
a zero porque <strong>de</strong>vido ao uso <strong>de</strong> uma amostra aleatória sempre haverá chance <strong>de</strong> erro, a não ser que a<br />
amostra fosse do tamanho da população. O complementar do Nível <strong>de</strong> Significância é chamado <strong>de</strong><br />
Nível <strong>de</strong> Confiança, pois ele indica a confiabilida<strong>de</strong> do resultado obtido, a probabilida<strong>de</strong> <strong>de</strong> que a<br />
<strong>de</strong>cisão tomada esteja correta 5 .<br />
<strong>10</strong>.3 - Tipos <strong>de</strong> <strong>Hipóteses</strong><br />
Para realizar um Teste <strong>de</strong> <strong>Hipóteses</strong> é necessário <strong>de</strong>finir (enunciar) duas <strong>Hipóteses</strong><br />
<strong>Estatística</strong>s complementares (que abrangem todos os resultados possíveis): a chamada Hipótese<br />
Nula (<strong>de</strong>notada por H0) e a Hipótese Alternativa (<strong>de</strong>notada por H1 ou Ha). Enunciar as hipóteses é<br />
o primeiro e possivelmente mais importante passo <strong>de</strong> um Teste <strong>de</strong> <strong>Hipóteses</strong>, pois todo o<br />
procedimento <strong>de</strong>pen<strong>de</strong>rá <strong>de</strong>le.<br />
A Hipótese Nula (H0) é a hipótese estatística aceita como verda<strong>de</strong>ira até prova estatística em<br />
contrário: po<strong>de</strong> ser o ponto <strong>de</strong> partida mais a<strong>de</strong>quado para o estudo, ou exatamente o contrário do<br />
que o pesquisador quer provar (ou o contrário daquilo que o preocupa).<br />
A Hipótese Alternativa (H1), que será uma hipótese complementar <strong>de</strong> H0, fornecerá uma<br />
alternativa à hipótese nula: muitas vezes é justamente o que o pesquisador quer provar (ou o que o<br />
preocupa).<br />
Quando as hipóteses são formuladas sobre os parâmetros do mo<strong>de</strong>lo probabilístico da<br />
população o Teste <strong>de</strong> <strong>Hipóteses</strong> é chamado <strong>de</strong> Paramétrico. Quando as hipóteses são formuladas<br />
sobre outras características do mo<strong>de</strong>lo o Teste é chamado <strong>de</strong> Não Paramétrico.<br />
A <strong>de</strong>cisão do teste consiste em ACEITAR ou REJEITAR a Hipótese Nula (H0): vai-se<br />
aceitar ou não a hipótese até então consi<strong>de</strong>rada verda<strong>de</strong>ira.<br />
É importante ter a noção exata do que significa ACEITAR ou REJEITAR a Hipótese Nula<br />
(H0). A <strong>de</strong>cisão é tomada sobre esta hipótese e não sobre a Hipótese Alternativa porque é a<br />
4 Usando outros métodos (empíricos) não há como ter idéia da chance <strong>de</strong> erro (po<strong>de</strong> ser um erro <strong>de</strong> 0% ou <strong>de</strong> 5000%...).<br />
5 O leitor <strong>de</strong>ve estar lembrado <strong>de</strong>stes dois conceitos <strong>de</strong> Estimação <strong>de</strong> Parâmetros: Nível <strong>de</strong> Confiança era a<br />
probabilida<strong>de</strong> <strong>de</strong> que o Intervalo <strong>de</strong> Confiança contivesse o valor real do parâmetro, e Nível <strong>de</strong> Significância,<br />
complementar daquele, era a probabilida<strong>de</strong> <strong>de</strong> que o Intervalo NÃO contivesse o parâmetro, em suma a probabilida<strong>de</strong><br />
da Estimação estar correta ou não, respectivamente.<br />
2
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
Hipótese Nula é que consi<strong>de</strong>rada verda<strong>de</strong>ira (até prova em contrário). Quando se aceita a Hipótese<br />
Nula significa que não há provas suficiente para rejeitá-la. Já quando a <strong>de</strong>cisão é por rejeitar a<br />
Hipótese Nula há evidências suficientes <strong>de</strong> que as diferenças obtidas (entre o que era esperado e o<br />
que foi observado na amostra) não ocorreram por acaso. Usando uma analogia com o direito dos<br />
EUA, aceitar H0 seria comparável a um veredito <strong>de</strong> não culpado (“not guilty”), ou seja, não há<br />
provas suficientes para con<strong>de</strong>nar o réu... Por outro lado rejeitar H0 seria comparável a um veredito<br />
<strong>de</strong> culpado (“guilty”), ou seja, as provas reunidas são suficientes para con<strong>de</strong>nar o réu. O Nível <strong>de</strong><br />
Significância será a probabilida<strong>de</strong> assumida <strong>de</strong> Rejeitar H0 sendo H0 verda<strong>de</strong>ira.<br />
<strong>10</strong>.4 - Tipos <strong>de</strong> <strong>Testes</strong> Paramétricos<br />
A formulação das hipóteses é o ponto inicial do problema, e <strong>de</strong>ve <strong>de</strong>pen<strong>de</strong>r ÚNICA E<br />
EXCLUSIVAMENTE das conclusões que se preten<strong>de</strong> obter com o teste. A formulação da hipótese<br />
alternativa <strong>de</strong>terminará o tipo <strong>de</strong> teste: se Unilateral ou Bilateral.<br />
Se a formulação da hipótese alternativa indicar que o parâmetro é maior ou menor do que o<br />
valor <strong>de</strong> teste (valor consi<strong>de</strong>rado verda<strong>de</strong>iro até prova em contrário) o teste será Unilateral:<br />
somente há interesse se as diferenças entre os dados da amostra e o valor <strong>de</strong> teste forem em uma<br />
<strong>de</strong>terminada direção. Se a formulação da hipótese alternativa indicar que o parâmetro é diferente<br />
do valor <strong>de</strong> teste o teste será Bilateral: há interesse nas diferenças em qualquer direção. As<br />
hipóteses então seriam:<br />
<strong>Testes</strong> Unilaterais<br />
H0 : parâmetro = valor <strong>de</strong> teste<br />
H1 : parâmetro < valor <strong>de</strong> teste<br />
<strong>Testes</strong> Bilaterais<br />
H0 : parâmetro = valor <strong>de</strong> teste<br />
H1 : parâmetro > valor <strong>de</strong> teste<br />
H0 : parâmetro = valor <strong>de</strong> teste<br />
H1 : parâmetro valor <strong>de</strong> teste<br />
A escolha do tipo <strong>de</strong> teste <strong>de</strong>pen<strong>de</strong>rá das condições do problema sob estudo, sejam as três<br />
situações abaixo:<br />
a) Um novo protocolo <strong>de</strong> atendimento foi implementado no Banco RMG, visando reduzir o tempo<br />
que as pessoas passam na fila do caixa. O protocolo será consi<strong>de</strong>rado satisfatório se a média do<br />
tempo <strong>de</strong> fila for menor do que 30 minutos. Um teste Unilateral seria o a<strong>de</strong>quado.<br />
b) Cerca <strong>de</strong> 2000 formulários <strong>de</strong> pedidos <strong>de</strong> compra estão sendo analisados. Os clientes po<strong>de</strong>m ficar<br />
insatisfeitos se houver erros nos formulários. Neste caso admite-se que a proporção máxima <strong>de</strong><br />
formulários com erros seja <strong>de</strong> 5%. Ou seja, um valor maior do que 5% causaria problemas. Um<br />
teste Unilateral seria o a<strong>de</strong>quado.<br />
c) Uma peça automotiva precisa ter <strong>10</strong>0 mm <strong>de</strong> diâmetro, exatamente. Neste caso, a dimensão não<br />
po<strong>de</strong> ser maior ou menor do que <strong>10</strong>0 mm (em outras palavras não po<strong>de</strong> ser diferente <strong>de</strong> <strong>10</strong>0 mm),<br />
pois isso indicará que a peça não está <strong>de</strong> acordo com as especificações. Um teste Bilateral seria o<br />
a<strong>de</strong>quado.<br />
Após <strong>de</strong>finir as hipóteses é coletada uma amostra aleatória da população para testá-las. É<br />
importante ressaltar novamente:<br />
“A MONTAGEM DAS HIPÓTESES DEVE DEPENDER APENAS DAS<br />
CONCLUSÕES QUE SE PRETENDE OBTER E JAMAIS DE UMA EVENTUAL<br />
EVIDÊNCIA AMOSTRAL DISPONÍVEL”.<br />
3
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
A <strong>de</strong>cisão <strong>de</strong> aceitar ou rejeitar H0 <strong>de</strong>pen<strong>de</strong>rá das regiões <strong>de</strong> aceitação e rejeição <strong>de</strong> H0,<br />
que por sua vez <strong>de</strong>pen<strong>de</strong>m dos seguintes fatores:<br />
- do parâmetro sob teste (e da estatística ou variável <strong>de</strong> teste usada para testá-lo).<br />
- do tipo <strong>de</strong> teste, se Unilateral ou Bilateral.<br />
- do valor <strong>de</strong> teste (valor do parâmetro consi<strong>de</strong>rado verda<strong>de</strong>iro até prova em contrário).<br />
- do Nível <strong>de</strong> Significância () ou Nível <strong>de</strong> Confiança (1 - ) adotado.<br />
- <strong>de</strong> um valor crítico da estatística ou variável <strong>de</strong> teste a partir do qual a hipótese será rejeitada, e<br />
este valor <strong>de</strong>pen<strong>de</strong>rá por sua vez do Nível <strong>de</strong> Significância, do tipo <strong>de</strong> teste e da Distribuição<br />
Amostral do parâmetro.<br />
A Região <strong>de</strong> Aceitação <strong>de</strong> H0 será a faixa <strong>de</strong> valores da estatística (ou da variável <strong>de</strong> teste)<br />
associada ao parâmetro em que as diferenças entre o que foi observado na amostra e o que era<br />
esperado não são significativas.<br />
A Região <strong>de</strong> Rejeição <strong>de</strong> H0 será a faixa <strong>de</strong> valores da estatística (ou da variável <strong>de</strong> teste)<br />
associada ao parâmetro em que as diferenças entre o que foi observado na amostra e o que era<br />
esperado são significativas.<br />
Para enten<strong>de</strong>r melhor os conceitos acima observe o exemplo a seguir:<br />
Há interesse em realizar um teste <strong>de</strong> hipóteses sobre o comprimento médio <strong>de</strong> uma das dimensões<br />
<strong>de</strong> uma peça mecânica. O valor nominal da média (aceito como verda<strong>de</strong>iro até prova em contrário)<br />
é igual a “b” (valor genérico), H0: = b. Supondo que a distribuição amostral do parâmetro<br />
(distribuição <strong>de</strong> x ) seja normal 6 , e será centrada em b: é possível fazer a conversão para a<br />
distribuição normal padrão (média zero e <strong>de</strong>svio padrão 1, variável Z).<br />
H0: = b H0: = 0<br />
O valor <strong>de</strong> b (média da dimensão e média <strong>de</strong> x ) correspon<strong>de</strong> a zero, média da variável Z.<br />
Depen<strong>de</strong>ndo da formulação da Hipótese Alternativa haveria diferentes Regiões <strong>de</strong> Rejeição <strong>de</strong> H0.<br />
Se a Hipótese Alternativa fosse H1: < b (H1: < 0), ou seja, se o teste fosse Unilateral à esquerda<br />
a Região <strong>de</strong> Rejeição <strong>de</strong> H0 seria:<br />
6 Ver o <strong>Capítulo</strong> 9 para maiores <strong>de</strong>talhes.<br />
4
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
Observe que há um valor crítico<br />
<strong>de</strong> x : abaixo <strong>de</strong>le a Hipótese<br />
Nula será rejeitada, acima será<br />
aceita. A <strong>de</strong>terminação do valor é<br />
feita com base no Nível <strong>de</strong><br />
Significância, a área abaixo da<br />
curva normal até o valor crítico<br />
<strong>de</strong> x . Geralmente obtém-se o<br />
valor crítico da variável <strong>de</strong> teste<br />
(Z neste caso, na segunda figura)<br />
através <strong>de</strong> uma tabela, que<br />
correspon<strong>de</strong> ao valor crítico <strong>de</strong><br />
x , faz-se a transformação <strong>de</strong><br />
variáveis Z<br />
( x )<br />
<br />
<br />
(ou seja, está na região <strong>de</strong> Rejeição <strong>de</strong> H0) então rejeita-se a Hipótese Nula. É muito comum<br />
também tomar a <strong>de</strong>cisão comparando o valor da variável <strong>de</strong> teste (Z neste caso), obtido com base<br />
nos dados da amostra, com o valor crítico Z critico <strong>de</strong>sta mesma variável (obtido <strong>de</strong> uma tabela ou<br />
programa computacional): se for menor do que o valor crítico rejeita-se a Hipótese Nula. Observe<br />
que o valor do Nível <strong>de</strong> Significância é colocado na curva referente à Hipótese Nula, porque é<br />
esta que é aceita como válida até prova em contrário. Observe também que a faixa <strong>de</strong> valores da<br />
região <strong>de</strong> Rejeição PERTENCE à curva da Hipótese Nula, assim o valor é a probabilida<strong>de</strong> <strong>de</strong><br />
Rejeitar H0 sendo H0 verda<strong>de</strong>ira 7 do que o valor crítico xcritico .<br />
Neste ponto é importante ressaltar um ponto que costuma passar <strong>de</strong>spercebido. Se a <strong>de</strong>cisão<br />
for tomada com base na variável <strong>de</strong> teste (Z, por exemplo) é interessante notar que, como o teste é<br />
Unilateral à esquerda o valor Z critico será NEGATIVO, uma vez que a região <strong>de</strong> Rejeição <strong>de</strong> H0 está<br />
à ESQUERDA <strong>de</strong> 0 (menor do que zero). No teste Unilateral à direita, que veremos a seguir, o<br />
valor <strong>de</strong> Z critico será positivo, pois a região <strong>de</strong> Rejeição <strong>de</strong> H0 estará à DIREITA <strong>de</strong> 0 (maior do que<br />
zero). Se por exemplo o Nível <strong>de</strong> Significância fosse <strong>de</strong> 5% (0,05) o valor <strong>de</strong> Z critico para o teste<br />
Unilateral à esquerda seria -1,645. Se houvesse interesse em obter o valor <strong>de</strong> x critico correspon<strong>de</strong>nte<br />
bastaria usar a expressão Z ( x 0<br />
) / substituindo Z por -1,645 8 .<br />
Se a Hipótese Alternativa fosse H1: > b (H1: > 0), ou seja, se o teste fosse Unilateral à direita a<br />
Região <strong>de</strong> Rejeição <strong>de</strong> H0 seria<br />
7 Probabilida<strong>de</strong> <strong>de</strong> tomar uma <strong>de</strong>cisão errada FIXADA pelo pesquisador.<br />
8 O sinal correto é importante para que o valor <strong>de</strong> x critico coerente com a posição da região <strong>de</strong> Rejeição <strong>de</strong> H0.<br />
0 e<br />
obtém-se o valor crítico <strong>de</strong> x .<br />
0 é o valor sob teste (b no<br />
exemplo) e é um <strong>de</strong>svio padrão<br />
(cujo valor será explicitado<br />
posteriormente).<br />
A <strong>de</strong>cisão será tomada<br />
comparando valor da média<br />
amostral x com o valor crítico<br />
<strong>de</strong>sta mesma média: se for menor<br />
5
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
Neste caso o valor crítico<br />
está à direita: se a média amostral<br />
x ou a variável <strong>de</strong> teste Z<br />
tiverem valores superiores aos<br />
respectivos valores críticos a<br />
Hipótese Nula será rejeitada, pois<br />
os valores “caíram” na região <strong>de</strong><br />
Rejeição <strong>de</strong> H0. Como foi notado<br />
anteriormente o valor <strong>de</strong><br />
Z critico será POSITIVO, pois é<br />
maior do que zero: usando o<br />
mesmo Nível <strong>de</strong> Significância <strong>de</strong><br />
5% o valor <strong>de</strong> Z critico seria<br />
1,645, igual EM MÓDULO ao<br />
anterior, uma vez que a<br />
distribuição normal padrão é<br />
simétrica em relação à sua média<br />
que é igual a zero.<br />
Se a Hipótese Alternativa fosse H1: b (H1: 0), ou seja, o teste fosse Unilateral à direita a<br />
Região <strong>de</strong> Rejeição <strong>de</strong> H0 seria:<br />
Neste caso a região <strong>de</strong><br />
Rejeição se divi<strong>de</strong> em duas<br />
IGUAIS (probabilida<strong>de</strong>s iguais<br />
à meta<strong>de</strong> do Nível <strong>de</strong><br />
Significância ), semelhante ao<br />
que acontece na Estimação por<br />
Intervalo. Existirão 2 valores<br />
críticos, um abaixo do valor <strong>de</strong><br />
teste e outro acima: se a média<br />
amostral x ou a variável <strong>de</strong><br />
teste Z tiverem valores acima<br />
do valor crítico “superior” ou<br />
abaixo do valor crítico<br />
“inferior” a Hipótese Nula será<br />
rejeitada, pois os valores<br />
“caíram” em uma das 2 regiões<br />
<strong>de</strong> Rejeição. Se for usada a<br />
variável <strong>de</strong> teste Z os valores<br />
críticos serão iguais em módulo,<br />
pois estão à mesma distância do<br />
valor sob teste (zero).<br />
Recordando as três situações que foram abordadas anteriormente, seria interessante <strong>de</strong>finir<br />
completamente as <strong>Hipóteses</strong> <strong>Estatística</strong>s. Nos dois primeiros casos optou-se por um Teste Unilateral<br />
e no terceiro por um Teste Bilateral.<br />
6
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
a) Um novo protocolo <strong>de</strong> atendimento foi implementado no Banco RMG, visando reduzir o tempo<br />
que as pessoas passam na fila do caixa. O protocolo será consi<strong>de</strong>rado satisfatório se a média do<br />
tempo <strong>de</strong> fila for menor do que 30 minutos. Um teste Unilateral seria o a<strong>de</strong>quado. Mas Unilateral<br />
à Esquerda ou à Direita? Como está grifado na frase anterior haverá problema se a média do tempo<br />
fosse menor do que 30, resultando:<br />
Teste UNILATERAL À ESQUERDA<br />
H0 : = 30 on<strong>de</strong> 0 = 30 (valor <strong>de</strong> teste)<br />
H1 : < 30 Teste Unilateral à Esquerda.<br />
b) Cerca <strong>de</strong> 2000 formulários <strong>de</strong> pedidos <strong>de</strong> compra estão sendo analisados. Os clientes po<strong>de</strong>m ficar<br />
insatisfeitos se houver erros nos formulários. Neste caso admite-se que a proporção máxima <strong>de</strong><br />
formulários com erros seja <strong>de</strong> 5%. Ou seja, um valor maior do que 5% causaria problemas. Um<br />
teste Unilateral seria o a<strong>de</strong>quado. Neste caso, um teste <strong>de</strong> proporção, o problema será um valor<br />
maior do que 5%, resultando:<br />
Teste UNILATERAL À DIREITA<br />
H0 : = 5% on<strong>de</strong> 0 = 5% (valor <strong>de</strong> teste)<br />
H1 : > 5%<br />
c) Uma peça automotiva precisa ter <strong>10</strong>0 mm <strong>de</strong> diâmetro, exatamente. Neste caso, a dimensão não<br />
po<strong>de</strong> ser maior ou menor do que <strong>10</strong>0 mm (em outras palavras não po<strong>de</strong> ser diferente <strong>de</strong> <strong>10</strong>0 mm)<br />
pois isso indicará que a peça não está <strong>de</strong> acordo com as especificações. Um teste Bilateral seria o<br />
a<strong>de</strong>quado, resultando:<br />
Teste BILATERAL<br />
H0 : = <strong>10</strong>0 mm on<strong>de</strong> 0 = <strong>10</strong>0 mm (valor <strong>de</strong> teste)<br />
H1 : <strong>10</strong>0 mm<br />
Para a <strong>de</strong>finição correta das hipóteses é imprescindível a correta i<strong>de</strong>ntificação do valor <strong>de</strong><br />
teste, pois se trata <strong>de</strong> um dos aspectos mais importantes do teste: o resultado da amostra será<br />
comparado ao valor <strong>de</strong> teste.<br />
Lembrando novamente que a tomada <strong>de</strong> <strong>de</strong>cisão <strong>de</strong>pen<strong>de</strong> da correta <strong>de</strong>terminação da região<br />
<strong>de</strong> Rejeição (e, por conseguinte, <strong>de</strong> Aceitação) da Hipótese Nula, e isso, por sua vez, <strong>de</strong>pen<strong>de</strong><br />
diretamente da formulação das <strong>Hipóteses</strong> <strong>Estatística</strong>s.<br />
<strong>10</strong>.4.1 - <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong> sobre a Média <strong>de</strong> uma Variável em uma População<br />
Neste caso há interesse em testar a hipótese <strong>de</strong> que o parâmetro média populacional () <strong>de</strong><br />
uma certa variável QUANTITATIVA seja maior, menor ou diferente <strong>de</strong> um certo valor. Para a<br />
realização <strong>de</strong>ste teste é necessário que uma das duas condições seja satisfeita:<br />
- sabe-se, ou é razoável supor, que a variável <strong>de</strong> interesse segue uma distribuição normal na<br />
população: isso significa que a distribuição amostral da média também será normal, permitindo<br />
realizar a inferência estatística paramétrica.<br />
- a distribuição da variável na população é <strong>de</strong>sconhecida, mas a amostra retirada <strong>de</strong>sta população é<br />
consi<strong>de</strong>rada “suficientemente gran<strong>de</strong>” 9 o que, <strong>de</strong> acordo com o Teorema Central do Limite, permite<br />
concluir que a distribuição amostral da média é normal.<br />
Supõe-se também que a amostra é representativa da população e foi retirada <strong>de</strong> forma aleatória.<br />
9 Há muita controvérsia a respeito do que seria uma amostra “suficientemente gran<strong>de</strong>”, mas geralmente uma amostra<br />
com pelo menos 30 elementos costuma ser consi<strong>de</strong>rada gran<strong>de</strong> o bastante para que a distribuição amostral da média<br />
possa ser aproximada por uma normal.<br />
7
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
Tal como na Estimação <strong>de</strong> Parâmetros por Intervalo existirão diferenças nos testes<br />
<strong>de</strong>pen<strong>de</strong>ndo do conhecimento ou não da variância populacional da variável.<br />
a) Se a variância populacional ( 2 ) da variável (cuja média populacional queremos testar)for<br />
conhecida.<br />
Neste caso a variância amostral da média po<strong>de</strong>rá ser calculada através da expressão:<br />
2<br />
<br />
V(<br />
x)<br />
, e, por conseguinte, o “<strong>de</strong>svio padrão”<br />
n<br />
<strong>10</strong> <br />
será <strong>de</strong>svio padrao <br />
n<br />
A variável <strong>de</strong> teste será a variável Z da distribuição normal padrão, lembrando que:<br />
valor"<br />
média "<br />
Z <br />
" <strong>de</strong>svio padrão"<br />
A "média" será o valor <strong>de</strong> teste (suposto verda<strong>de</strong>iro até prova em contrário), <strong>de</strong>notado por 0. O<br />
valor (obtido pela amostra) será a média amostral (que é o melhor estimador da média<br />
populacional 11 ) <strong>de</strong>notada por x , e o "<strong>de</strong>svio padrão" será o valor obtido anteriormente. Sendo<br />
assim a expressão da variável <strong>de</strong> teste Z:<br />
x 0<br />
Z <br />
/ n<br />
Compara-se o valor da variável <strong>de</strong> teste com o valor crítico (Zcrítico que <strong>de</strong>pen<strong>de</strong> do Nível <strong>de</strong><br />
Significância adotado) <strong>de</strong> acordo com o tipo <strong>de</strong> teste (as expressões abaixo também estão no<br />
apêndice):<br />
Se H1: > 0 Rejeitar H0 se Z > Zcrítico ( x > x crítico)<br />
Se H1: < 0 Rejeitar H0 se Z < Zcrítico 12 ( x < x crítico)<br />
Se H1: 0 Rejeitar H0 se |Z| |Zcrítico|<br />
b) Se a variância populacional 2 da variável for <strong>de</strong>sconhecida.<br />
Naturalmente este é o caso mais encontrado na prática. Como se <strong>de</strong>ve proce<strong>de</strong>r? Depen<strong>de</strong>rá do<br />
tamanho da amostra.<br />
b.1 - Gran<strong>de</strong>s amostras (mais <strong>de</strong> 30 elementos)<br />
Nestes casos proce<strong>de</strong>-se como no item anterior, apenas fazendo com que = s, ou seja,<br />
consi<strong>de</strong>rando que o <strong>de</strong>svio padrão da variável na população é igual ao <strong>de</strong>svio padrão da<br />
variável na amostra (suposição razoável para gran<strong>de</strong>s amostras).<br />
b.2 - Pequenas amostras (até 30 elementos)<br />
Nestes casos a aproximação do item b.1 não será viável. Terá que ser feita uma correção na<br />
distribuição normal padrão (Z) através da distribuição t <strong>de</strong> Stu<strong>de</strong>nt. Esta distribuição já é<br />
conhecida (ver texto sobre Estimação <strong>de</strong> Parâmetros). Trata-se <strong>de</strong> uma distribuição <strong>de</strong><br />
probabilida<strong>de</strong>s que possui média zero (como a distribuição normal padrão, variável Z), mas<br />
sua variância é igual a n/(n-2), ou seja, a variância <strong>de</strong>pen<strong>de</strong> do tamanho da amostra. Quanto<br />
maior for o tamanho da amostra mais o quociente acima se aproxima <strong>de</strong> 1 (a variância da<br />
distribuição normal padrão), e mais a distribuição t <strong>de</strong> Stu<strong>de</strong>nt aproxima-se da distribuição<br />
normal padrão. A partir <strong>de</strong> n = 30, já é possível consi<strong>de</strong>rar a variância da distribuição t <strong>de</strong><br />
Stu<strong>de</strong>nt aproximadamente igual a 1 13 .<br />
A variável <strong>de</strong> teste será então tn-1 (t com n - 1 graus <strong>de</strong> liberda<strong>de</strong>):<br />
x <br />
t<br />
n<br />
1<br />
<br />
s /<br />
0<br />
n<br />
<strong>10</strong> O <strong>de</strong>svio padrão é a raiz quadrada positiva da variância.<br />
11 Ver o <strong>Capítulo</strong> 9 – Estimação <strong>de</strong> Parâmetros.<br />
12 Neste caso Zcrítico será NEGATIVO, já que a região <strong>de</strong> Rejeição <strong>de</strong> H0 está à esquerda <strong>de</strong> zero.<br />
13 E talvez este seja o motivo <strong>de</strong> se consi<strong>de</strong>rar mais <strong>de</strong> 30 elementos como sendo uma amostra suficientemente gran<strong>de</strong>.<br />
8
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
on<strong>de</strong> s é o <strong>de</strong>svio padrão amostral e os outros valores têm o mesmo significado da expressão<br />
anterior.<br />
Compara-se o valor da variável <strong>de</strong> teste com o valor crítico (tn-1,crítico que <strong>de</strong>pen<strong>de</strong> do Nível<br />
<strong>de</strong> Significância adotado) <strong>de</strong> acordo com o tipo <strong>de</strong> teste (as expressões abaixo também estão<br />
no Apêndice):<br />
Se H1: > 0 Rejeitar H0 se tn-1 > tn-1,crítico (x > x crítico)<br />
Se H1: < 0 Rejeitar H0 se tn-1 < tn-1,crítico 14 (x < x crítico)<br />
Se H1: 0 Rejeitar H0 se |tn-1| |tn-1,crítico|<br />
A correta i<strong>de</strong>ntificação dos valores críticos, <strong>de</strong>corrente da correta i<strong>de</strong>ntificação da região <strong>de</strong><br />
rejeição <strong>de</strong> H0, por sua vez <strong>de</strong>corrente da a<strong>de</strong>quada formulação das hipóteses estatísticas, é<br />
indispensável para que o resultado obtido seja coerente.<br />
<strong>10</strong>.4.2 - <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong> sobre a Proporção <strong>de</strong> um dos Valores <strong>de</strong> uma Variável<br />
em uma População<br />
Neste caso há interesse em testar a hipótese <strong>de</strong> que o parâmetro proporção populacional ()<br />
<strong>de</strong> um dos valores <strong>de</strong> uma certa variável seja maior, menor ou diferente <strong>de</strong> um certo valor. Para a<br />
realização <strong>de</strong>ste teste, tal como será <strong>de</strong>scrito é necessário que DUAS condições sejam satisfeitas:<br />
- que o produto n x 0 seja maior ou igual a 5;<br />
- que o produto n x (1 - 0) seja maior ou igual a 5.<br />
On<strong>de</strong> n é o tamanho da amostra e 0 é a proporção sob teste (<strong>de</strong> um dos valores da variável). Se<br />
AMBAS as condições forem satisfeitas a distribuição amostral da proporção que é binomial (uma<br />
Bernoulli repetida n vezes) po<strong>de</strong> ser aproximada por uma normal. Obviamente supõe-se que a<br />
amostra é representativa da população e foi retirada <strong>de</strong> forma aleatória, e que a variável po<strong>de</strong><br />
assumir apenas dois valores, aquele no qual há interesse e o seu complementar 15 .<br />
Se as condições acima forem satisfeitas a distribuição amostral da proporção po<strong>de</strong>rá ser<br />
aproximada por uma normal com:<br />
0<br />
( 1<br />
0)<br />
Média = 0 Desvio Padrão =<br />
n<br />
Lembrando-se da expressão da variável Z:<br />
valor"<br />
média "<br />
Z <br />
" <strong>de</strong>svio padrão"<br />
O valor será a proporção amostral (que é o melhor estimador da proporção populacional) do<br />
valor da variável <strong>de</strong>notada por p. A "média" e o "<strong>de</strong>svio padrão" são os valores <strong>de</strong>finidos acima,<br />
então a expressão <strong>de</strong> Z será:<br />
p 0<br />
Z <br />
0<br />
( 1<br />
0)<br />
n<br />
Compara-se o valor da variável <strong>de</strong> teste com o valor crítico (Zcrítico que <strong>de</strong>pen<strong>de</strong> do Nível <strong>de</strong><br />
Significância adotado) <strong>de</strong> acordo com o tipo <strong>de</strong> teste:<br />
Se H1: > 0 Rejeitar H0 se Z > Zcrítico (p > pcrítico)<br />
14 Neste caso tn-1,crítico será NEGATIVO, já que a região <strong>de</strong> Rejeição <strong>de</strong> H0 está à esquerda <strong>de</strong> zero.<br />
15 Ou seja, que se trata <strong>de</strong> um “experimento <strong>de</strong> Bernoulli”. Praticamente qualquer experimento po<strong>de</strong> ser reduzido a um<br />
experimento <strong>de</strong> Bernoulli, simplesmente isolando o valor da variável no qual há interesse e agrupando todos os outros<br />
como seu valor complementar.<br />
9
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
Se H1: < 0 Rejeitar H0 se Z < Zcrítico 16 (p < pcrítico)<br />
Se H1: 0 Rejeitar H0 se |Z| |Zcrítico|<br />
Exemplo <strong>10</strong>.1- Uma peça automotiva precisa ter <strong>10</strong>0 mm <strong>de</strong> diâmetro, exatamente. Foram medidas<br />
15 peças, aleatoriamente escolhidas. Obteve-se média <strong>de</strong> <strong>10</strong>0,7 mm e variância <strong>de</strong> 0,01 mm2 .<br />
Supõe-se que a dimensão segue distribuição normal na população. A peça está <strong>de</strong>ntro das<br />
especificações? Usar 1% <strong>de</strong> significância.<br />
Este problema já foi estudado anteriormente. Seguindo o roteiro:<br />
1) Enunciar as hipóteses.<br />
Conforme visto no item <strong>10</strong>.4 o teste mais a<strong>de</strong>quado para este caso é um Teste Bilateral:<br />
H0 : = <strong>10</strong>0 mm on<strong>de</strong> 0 = <strong>10</strong>0 mm (valor <strong>de</strong> teste)<br />
H1 : <strong>10</strong>0 mm<br />
2) Nível <strong>de</strong> significância.<br />
O problema <strong>de</strong>clara que é necessário usar 1% <strong>de</strong> significância (se não fosse especificado,<br />
outro valor po<strong>de</strong>ria ser usado).<br />
3) Variável <strong>de</strong> teste.<br />
Uma vez que a variância populacional da variável é DESCONHECIDA (o valor fornecido é<br />
a variância AMOSTRAL), e a amostra retirada apresenta apenas 15 elementos (portanto<br />
menos <strong>de</strong> 30) a variável <strong>de</strong> teste será tn-1 da distribuição t <strong>de</strong> Stu<strong>de</strong>nt.<br />
4) Definir a região <strong>de</strong> aceitação <strong>de</strong> H0.<br />
Observe que por ser um teste Bilateral<br />
o Nível <strong>de</strong> Significância foi dividido<br />
em dois, meta<strong>de</strong> para cada região <strong>de</strong><br />
rejeição <strong>de</strong> H0. Para encontrar o valor<br />
crítico <strong>de</strong>vemos procurar na tabela da<br />
distribuição <strong>de</strong> Stu<strong>de</strong>nt, na linha<br />
correspon<strong>de</strong>nte a n-1 graus <strong>de</strong><br />
liberda<strong>de</strong>, ou seja, em 15 - 1 = 14<br />
graus <strong>de</strong> liberda<strong>de</strong>. O valor da<br />
probabilida<strong>de</strong> po<strong>de</strong> ser visto na figura<br />
ao lado: os valores críticos serão<br />
t14;0,005 e t14;0,995 os quais serão iguais<br />
em módulo. E o valor <strong>de</strong> tn-1,crítico será<br />
igual a 2,977 (em módulo).<br />
5) Através dos valores da amostra avaliar o valor da variável.<br />
Neste ponto é preciso encontrar o valor da variável <strong>de</strong> teste:<br />
x 0<br />
t n<br />
1 <br />
s / n<br />
O valor <strong>de</strong> teste 0 é igual a <strong>10</strong>0 mm, a média amostral x vale <strong>10</strong>0,7 mm, o tamanho <strong>de</strong><br />
amostra n é igual a 15 e o <strong>de</strong>svio padrão amostral s é a raiz quadrada <strong>de</strong> 0,01 mm 2 .<br />
Substituindo na equação acima:<br />
x 0<br />
<strong>10</strong>0,<br />
7 <strong>10</strong>0<br />
tn1 t151<br />
t14<br />
<br />
<br />
s / n<br />
0,<br />
01/<br />
15<br />
27,<br />
11<br />
então |t14| = 27,11<br />
6) Decidir pela aceitação ou rejeição <strong>de</strong> H0.<br />
Como se trata <strong>de</strong> um teste bilateral:<br />
Rejeitar H0 se |tn-1| |tn-1,crítico|<br />
Como |t14| = 27,11 > |tn-1,crítico| = |t14,0,995|= 2,977<br />
REJEITAR H0 a 1% <strong>de</strong> Significância (há 1% <strong>de</strong> chance <strong>de</strong> erro)<br />
16 Neste caso Zcrítico será NEGATIVO, já que a região <strong>de</strong> Rejeição <strong>de</strong> H0 está à esquerda <strong>de</strong> zero.<br />
<strong>10</strong>
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
7) Interpretar a <strong>de</strong>cisão no contexto do problema.<br />
Há provas estatísticas suficientes <strong>de</strong> que a dimensão da peça não está <strong>de</strong>ntro das<br />
especificações 17 .<br />
Exemplo <strong>10</strong>.2 - Um novo protocolo <strong>de</strong> atendimento foi implementado no Banco RMG, visando<br />
reduzir o tempo que as pessoas passam na fila do caixa. O protocolo será consi<strong>de</strong>rado satisfatório se<br />
a média do tempo <strong>de</strong> fila for menor do que 30 minutos. Suponha que o tempo que 35 clientes<br />
(selecionados aleatoriamente) passaram na fila foi monitorado, resultando em uma média <strong>de</strong> 29<br />
minutos e <strong>de</strong>svio padrão <strong>de</strong> 5 minutos. O protocolo po<strong>de</strong> ser consi<strong>de</strong>rado satisfatório a 5% <strong>de</strong><br />
significância?<br />
Este problema já foi estudado anteriormente. Seguindo o roteiro do Apêndice.<br />
1) Enunciar as hipóteses.<br />
Conforme visto no item <strong>10</strong>.4 o teste mais a<strong>de</strong>quado para este caso é um Teste Unilateral à<br />
Esquerda:<br />
H0 : = 30 on<strong>de</strong> 0 = 30 (valor <strong>de</strong> teste)<br />
H1 : < 30<br />
2) Nível <strong>de</strong> significância.<br />
O problema <strong>de</strong>clara que é necessário usar 5% .<br />
3) Variável <strong>de</strong> teste.<br />
Uma vez que a variância populacional da variável é DESCONHECIDA (o valor fornecido é<br />
o <strong>de</strong>svio padrão AMOSTRAL), mas a amostra retirada apresenta 35 elementos (portanto<br />
mais <strong>de</strong> 30) a variável <strong>de</strong> teste será Z da distribuição normal.<br />
4) Definir a região <strong>de</strong> aceitação <strong>de</strong> H0.<br />
5) Através dos valores da amostra avaliar o valor da variável.<br />
Neste ponto é preciso encontrar o valor da variável <strong>de</strong> teste:<br />
x 0 Z<br />
s / n<br />
<br />
<br />
Observe que por ser um teste<br />
Unilateral à Esquerda o Nível <strong>de</strong><br />
Significância está todo concentrado<br />
em um dos lados da distribuição,<br />
<strong>de</strong>finindo a região <strong>de</strong> rejeição <strong>de</strong> H0.<br />
Para encontrar o valor crítico <strong>de</strong>vemos<br />
procurar na tabela da distribuição<br />
normal, pela probabilida<strong>de</strong> acumulada<br />
0,95. Ou procurar a probabilida<strong>de</strong><br />
complementar 0,05 e mudar o sinal do<br />
valor encontrado, pois o Zcrítico aqui<br />
é menor do que zero. O valor crítico<br />
será igual a -1,645.<br />
O valor <strong>de</strong> teste 0 é igual a 30, a média amostral x vale 29, o tamanho <strong>de</strong> amostra n é<br />
igual a 35 e o <strong>de</strong>svio padrão amostral s é 5. Substituindo na equação acima:<br />
x 0<br />
29 30<br />
Z 1,<br />
183<br />
s / n 5/<br />
35<br />
6) Decidir pela aceitação ou rejeição <strong>de</strong> H0.<br />
Como se trata <strong>de</strong> um teste Unilateral à Direita:<br />
Rejeitar H0 se Z < Zcrítico<br />
17 Cuidado com os casos <strong>de</strong> FRONTEIRA, em que o valor da variável <strong>de</strong> teste é muito próximo do valor crítico. Nesses<br />
casos a rejeição ou aceitação <strong>de</strong> H0 po<strong>de</strong> ocorrer por acaso. Sempre que apresentar o resultado recomen<strong>de</strong> que uma<br />
nova amostra seja retirada para avaliar novamente o problema. Mas neste caso rejeita-se H0 com folga.<br />
11
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
Como Z = -1,185 > Zcrítico = -1,645<br />
ACEITAR H0 a 5% <strong>de</strong> Significância (há 5% <strong>de</strong> chance <strong>de</strong> erro)<br />
7) Interpretar a <strong>de</strong>cisão no contexto do problema.<br />
Não há provas estatísticas suficientes para concluir que o protocolo tem um <strong>de</strong>sempenho<br />
satisfatório.<br />
EX.<strong>10</strong>.3 - Cerca <strong>de</strong> 2000 formulários <strong>de</strong> pedidos <strong>de</strong> compra estão sendo analisados. Os clientes<br />
po<strong>de</strong>m ficar insatisfeitos se houver erros nos formulários. Neste caso admite-se que a proporção<br />
máxima <strong>de</strong> formulários com erros seja <strong>de</strong> 5%. Suponha que <strong>de</strong>ntre os 2000 formulários 7%<br />
apresentavam erros. A proporção máxima foi ultrapassada a 1% <strong>de</strong> significância?<br />
Este problema já foi estudado anteriormente. Seguindo o roteiro do Apêndice:<br />
1) Enunciar as hipóteses.<br />
Conforme visto no item <strong>10</strong>.4 o teste mais a<strong>de</strong>quado para este caso é um Teste Unilateral à<br />
Direita:<br />
H0 : = 5% on<strong>de</strong> 0 = 5% (valor <strong>de</strong> teste)<br />
H1 : > 5%<br />
2) Nível <strong>de</strong> significância.<br />
O problema <strong>de</strong>clara que é necessário usar 1% <strong>de</strong> significância (se não fosse especificado,<br />
outro valor po<strong>de</strong>ria ser usado).<br />
3) Variável <strong>de</strong> teste.<br />
Como se trata <strong>de</strong> um teste <strong>de</strong> proporção é necessário verificar o valor dos produtos:<br />
n x 0 = 2000 x 0,05 = <strong>10</strong>0 e n x (1 - 0) = 2000 x 0,95 = 1900. Como ambos são maiores<br />
do que 5 é possível fazer uma aproximação pela normal, e a variável <strong>de</strong> teste será Z.<br />
4) Definir a região <strong>de</strong> aceitação <strong>de</strong> H0.<br />
Observe que por ser um teste Unilateral<br />
à Direita o Nível <strong>de</strong> Significância está<br />
todo concentrado em um dos lados da<br />
distribuição, <strong>de</strong>finindo a região <strong>de</strong><br />
rejeição <strong>de</strong> H0. Para encontrar o valor<br />
crítico <strong>de</strong>vemos procurar na tabela da<br />
distribuição normal, pela probabilida<strong>de</strong><br />
acumulada 0,01 (o Zcrítico aqui é maior<br />
do que zero). O valor crítico será igual a<br />
2,326.<br />
5) Através dos valores da amostra avaliar o valor da variável.<br />
Neste ponto é preciso encontrar o valor da variável <strong>de</strong> teste:<br />
p 0<br />
Z <br />
0<br />
( 1<br />
0)<br />
n<br />
O valor <strong>de</strong> teste 0 é igual a 0,05 (5%), a proporção amostral p vale 0,07 (7%), e o<br />
tamanho <strong>de</strong> amostra n é igual a 2000. Substituindo na equação acima:<br />
p <br />
0 0,<br />
07 0,<br />
05<br />
Z <br />
<br />
4,<br />
<strong>10</strong>4<br />
0 (<br />
1<br />
0)<br />
0,<br />
05<br />
( 0,<br />
95)<br />
n<br />
2000<br />
6) Decidir pela aceitação ou rejeição <strong>de</strong> H0.<br />
Como se trata <strong>de</strong> um teste Unilateral à Esquerda:<br />
Rejeitar H0 se Z > Zcrítico<br />
Como Z = 4,<strong>10</strong>4 > Zcrítico = 2,326<br />
12
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
REJEITAR H0 a 1% <strong>de</strong> Significância (há 1% <strong>de</strong> chance <strong>de</strong> erro)<br />
7) Interpretar a <strong>de</strong>cisão no contexto do problema.<br />
Há provas estatísticas suficientes <strong>de</strong> que a proporção está acima do máximo admitido 18 .<br />
Provavelmente os ven<strong>de</strong>dores/compradores precisarão passar por novo treinamento.<br />
<strong>10</strong>.4.3 - Teste <strong>de</strong> diferenças entre as Proporções <strong>de</strong> um dos Valores <strong>de</strong> uma Variável<br />
em duas Populações in<strong>de</strong>pen<strong>de</strong>ntes<br />
Frequentemente precisamos avaliar se a proporção <strong>de</strong> um dos valores <strong>de</strong> certa variável em<br />
uma população apresenta uma diferença significativa da mesma proporção em outra população (ou<br />
seja, comparar duas populações in<strong>de</strong>pen<strong>de</strong>ntes). Por exemplo, se a proporção <strong>de</strong> eleitores<br />
favoráveis a um candidato em uma região <strong>de</strong> SC é diferente da proporção em outra região. Temos<br />
uma situação então em que queremos realizar um teste <strong>de</strong> diferença entre duas proporções<br />
populacionais, que chamaremos 1 e 2.<br />
Neste caso há interesse em testar a hipótese <strong>de</strong> que a diferença entre o parâmetro proporção<br />
populacional <strong>de</strong> um dos valores <strong>de</strong> uma certa variável, em duas populações in<strong>de</strong>pen<strong>de</strong>ntes ()<br />
seja maior, menor ou diferente <strong>de</strong> um certo valor (que chamaremos 0), a partir dos dados<br />
coletados em duas amostras aleatórias das respectivas populações. Vamos chamar as proporções<br />
amostrais do valor <strong>de</strong> interesse <strong>de</strong> p1 e p2, e os respectivos tamanhos <strong>de</strong> amostra <strong>de</strong> n1 e n2. Para a<br />
realização <strong>de</strong>ste teste, tal como será <strong>de</strong>scrito é necessário que QUATRO condições sejam<br />
satisfeitas:<br />
- que o produto n1 x p1 seja maior ou igual a 5; que o produto n1 x (1 - p1) seja maior ou igual a 5.<br />
- que o produto n2 x p2 seja maior ou igual a 5; que o produto n2 x (1 - p2) seja maior ou igual a 5.<br />
Se TODAS as condições forem satisfeitas as distribuições amostrais das proporções, que são<br />
binomiais, po<strong>de</strong>m ser aproximadas por uma normal. Obviamente supõe-se que as amostras são<br />
representativas das populações e foram retiradas <strong>de</strong> forma aleatória, e que a variável po<strong>de</strong> assumir<br />
apenas dois valores, aquele no qual há interesse e o seu complementar.<br />
Se as condições acima forem satisfeitas a distribuição amostral da diferença entre as<br />
proporções po<strong>de</strong>rá ser aproximada por uma normal com:<br />
Média = Desvio Padrão = <br />
<br />
1 (<br />
1<br />
1)<br />
2<br />
(<br />
1<br />
2<br />
)<br />
<br />
<br />
<br />
<br />
<br />
n1<br />
n 2 <br />
On<strong>de</strong> 0 é o valor da diferença entre as proporções populacionais 1 e 2 que queremos testar 19 .<br />
Como não conhecemos 1 e 2 vamos estimá-las através das proporções amostrais, assim o "<strong>de</strong>svio<br />
padrão" passa a ser:<br />
Desvio Padrão = <br />
p <br />
1 (<br />
1<br />
p1)<br />
p2<br />
(<br />
1<br />
p2<br />
)<br />
<br />
<br />
<br />
<br />
<br />
n1<br />
n 2 <br />
valor"<br />
média "<br />
Lembrando-se da expressão da variável Z: Z <br />
" <strong>de</strong>svio padrão"<br />
O valor será a diferença entre as proporções amostrais do valor da variável, <strong>de</strong>notada por p1 - p2. A<br />
"média" e o "<strong>de</strong>svio padrão" são os valores <strong>de</strong>finidos acima, então a expressão <strong>de</strong> Z será:<br />
18 Este NÃO é um caso <strong>de</strong> fronteira.<br />
19 Usualmente 0 é igual a zero, queremos saber se há qualquer diferença significativa entre as proporções.<br />
13
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
Z <br />
p1<br />
p2<br />
0<br />
p <br />
1 (<br />
1<br />
p1)<br />
p2<br />
( 1 p2<br />
)<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
n1<br />
n 2 <br />
Compara-se o valor da variável <strong>de</strong> teste com o valor crítico (Zcrítico que <strong>de</strong>pen<strong>de</strong> do Nível <strong>de</strong><br />
Significância adotado) <strong>de</strong> acordo com o tipo <strong>de</strong> teste:<br />
Se H1: > 0 Rejeitar H0 se Z > Zcrítico<br />
Se H1: < 0 Rejeitar H0 se Z < Zcrítico 20<br />
Se H1: 0 Rejeitar H0 se |Z| |Zcrítico|<br />
EX. <strong>10</strong>.4 - Uma lei extremamente polêmica está em tramitação na Assembleia Legislativa <strong>de</strong> Santa<br />
Catarina. Parece que homens e mulheres apresentam opiniões divergentes. Para avaliar se os dois<br />
grupos apresentam proporções <strong>de</strong> favoráveis diferentes realizou-se uma pesquisa, em que foi<br />
entrevistada uma amostra <strong>de</strong> 200 homens e uma amostra <strong>de</strong> 300 mulheres <strong>de</strong> todo o estado. Na<br />
amostra <strong>de</strong> homens 50% <strong>de</strong>claram-se favoráveis à lei, enquanto que na amostra das mulheres houve<br />
47% <strong>de</strong> favoráveis. Usando 5% <strong>de</strong> significância, há diferença entre as proporções populacionais <strong>de</strong><br />
favoráveis nos dois grupos?<br />
Chamamos a população masculina <strong>de</strong> grupo 1 e a feminina <strong>de</strong> 2. Há interesse em verificar<br />
apenas se as proporções populacionais <strong>de</strong> favoráveis são diferentes, ou seja, se a diferença<br />
entre elas é igual a zero: então 0 = 0. O teste será bilateral, pois não interessa qual das<br />
proporções será maior ou menor. Seguindo o roteiro do Apêndice:<br />
1) Enunciar as hipóteses. Rearranjando as hipóteses:<br />
H0 : = 0 on<strong>de</strong> 0 = 0 H0 : <br />
H1 : 0 H1 : <br />
2) Nível <strong>de</strong> significância. O problema <strong>de</strong>clara que é necessário usar 5% <strong>de</strong> significância.<br />
3) Variável <strong>de</strong> teste.<br />
Como se trata <strong>de</strong> um teste <strong>de</strong> diferença entre proporções é necessário verificar o valor dos<br />
produtos:<br />
n1 x p1 = 200 x 0,5 = <strong>10</strong>0 n1 x (1 - p1) = 200 x 0,50 = <strong>10</strong>0.<br />
n2 x p2 = 300 x 0,47 = 147 n2 x (1 - p2) = 300 x 0,53 = 153.<br />
Como todos são maiores do que 5 é possível fazer uma aproximação pela normal, e a<br />
variável <strong>de</strong> teste será Z.<br />
4) Definir a região <strong>de</strong> aceitação <strong>de</strong> H0. Observe que por ser um teste Bilateral<br />
o Nível <strong>de</strong> Significância foi dividido<br />
em dois, meta<strong>de</strong> para cada região <strong>de</strong><br />
rejeição <strong>de</strong> H0. Para encontrar o valor<br />
crítico <strong>de</strong>vemos procurar na tabela da<br />
distribuição normal padrão pela<br />
probabilida<strong>de</strong> 0,025 e 0,975 (0,95+<br />
0,025) O valor da probabilida<strong>de</strong> po<strong>de</strong><br />
ser visto na figura ao lado: os valores<br />
críticos serão Z0,025 e Z0,975 os quais<br />
serão iguais em módulo. P(Z ><br />
Zcrítico)= 0,025. Então Zcrítico será<br />
igual a 1,96 (em módulo).<br />
5) Através dos valores da amostra avaliar o valor da variável.<br />
Neste ponto é preciso encontrar o valor da variável <strong>de</strong> teste:<br />
20 Neste caso Zcrítico será NEGATIVO, já que a região <strong>de</strong> Rejeição <strong>de</strong> H0 está à esquerda <strong>de</strong> zero.<br />
14
Z <br />
1<br />
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
p p <br />
2<br />
p <br />
1 (<br />
1<br />
p1)<br />
p2<br />
(<br />
1<br />
p2<br />
)<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
n1<br />
n 2 <br />
O valor <strong>de</strong> teste 0 é igual a 0, a proporção amostral p1 vale 0,5 (50%), a proporção<br />
amostral p2 vale 0,47 (47%), o tamanho <strong>de</strong> amostra n1 é igual a 200, e o tamanho <strong>de</strong><br />
amostra n2 é igual a 300. Substituindo na equação acima:<br />
p1<br />
p2<br />
0<br />
0,<br />
5 0,<br />
47 0<br />
Z <br />
<br />
0,<br />
6577<br />
p ( 1 p ) p ( 1 p ) 0,<br />
5 ( 0,<br />
5)<br />
0,<br />
47 0,<br />
53<br />
1 <br />
1<br />
2 <br />
2 <br />
<br />
<br />
<br />
n <br />
<br />
<br />
n <br />
<br />
<br />
200 300<br />
1 2 <br />
6) Decidir pela aceitação ou rejeição <strong>de</strong> H0.<br />
Como se trata <strong>de</strong> um teste Bilateral:<br />
Rejeitar H0 se |Z| > |Zcrítico|<br />
Como |Z| = 0,6577 < |Zcrítico| = 1,96<br />
ACEITAR H0 a 5% <strong>de</strong> Significância (há 5% <strong>de</strong> chance <strong>de</strong> erro)<br />
7) Interpretar a <strong>de</strong>cisão no contexto do problema.<br />
Não há provas estatísticas suficientes que indiquem diferenças nas proporções <strong>de</strong><br />
favoráveis nas populações <strong>de</strong> homens e mulheres.<br />
<strong>10</strong>.5 - Teste do Qui-Quadrado <strong>de</strong> in<strong>de</strong>pendência<br />
O teste do Qui-Quadrado está vinculado à análise bidimensional <strong>de</strong> variáveis qualitativas.<br />
No <strong>Capítulo</strong> 3 <strong>de</strong> INE7001 estudamos as tabelas <strong>de</strong> contingências e o coeficiente <strong>de</strong> contingência<br />
modificado, que permitia mensurar a força do relacionamento entre duas variáveis qualitativas.<br />
Vamos rever alguns daqueles conceitos antes <strong>de</strong> apresentar o teste do Qui-Quadrado <strong>de</strong><br />
in<strong>de</strong>pendência.<br />
<strong>10</strong>.5.1 - Variáveis qualitativas e tabelas <strong>de</strong> contingência<br />
É comum haver interesse em saber se duas variáveis quaisquer estão relacionadas, e o<br />
quanto estão relacionadas, seja na vida prática, seja em trabalhos <strong>de</strong> pesquisa, por exemplo:<br />
- se a satisfação com um produto está relacionada à faixa etária do consumidor;<br />
- o quanto o nível <strong>de</strong> pluviosida<strong>de</strong> em uma certa região influencia a produtivida<strong>de</strong> <strong>de</strong> uma cultura<br />
agrícola;<br />
- se a função exercida por uma pessoa em uma organização está associada a seu sexo.<br />
A Análise Bidimensional (vista no <strong>Capítulo</strong> 3, em INE7001) propõe-se a tentar respon<strong>de</strong>r as<br />
perguntas do parágrafo anterior. As duas variáveis abordadas po<strong>de</strong>m ser qualitativas ou<br />
quantitativas, e para cada tipo haverá técnicas apropriadas.<br />
Variáveis Qualitativas são as variáveis cujas realizações são atributos, categorias. Como<br />
exemplo <strong>de</strong> variáveis qualitativas tem-se: sexo <strong>de</strong> uma pessoa (duas categorias, masculino e<br />
feminino), grau <strong>de</strong> instrução (analfabeto, primeiro grau incompleto, etc.), opinião sobre um assunto<br />
(favorável, <strong>de</strong>sfavorável, indiferente).<br />
Em estudos sobre variáveis qualitativas é extremamente comum registrar as frequências <strong>de</strong><br />
ocorrência <strong>de</strong> cada valor que as variáveis po<strong>de</strong>m assumir, e quando há duas variáveis envolvidas é<br />
comum registrar-se a frequência <strong>de</strong> ocorrência dos cruzamentos entre valores: por exemplo, quantas<br />
0<br />
15
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
pessoas do sexo masculino são favoráveis a uma certa proposta <strong>de</strong> lei, quantas são <strong>de</strong>sfavoráveis,<br />
quantas pessoas do sexo feminino são favoráveis. E, para facilitar a análise dos resultados estes<br />
resultados costumam ser dispostos em uma Tabela <strong>de</strong> Contingências. A Tabela <strong>de</strong> Contingências<br />
relaciona os possíveis valores <strong>de</strong> uma variável qualitativa com os possíveis valores da outra,<br />
registrando quantas ocorrências foram verificadas <strong>de</strong> cada cruzamento.<br />
Exemplo <strong>10</strong>.5 - Seja a tabela <strong>de</strong> contingências abaixo, que relaciona as funções exercidas e o sexo<br />
<strong>de</strong> 474 funcionários <strong>de</strong> uma organização.<br />
Função<br />
Sexo Escritório Serviços gerais Gerência Total<br />
Masculino 157 27 74 258<br />
Feminino 206 0 <strong>10</strong> 216<br />
Total 363 27 84 474<br />
Fonte: hipotética<br />
Po<strong>de</strong>mos apresentar os percentuais calculados em relação aos totais das colunas:<br />
Função<br />
Sexo Escritório Serviços gerais Gerência Total<br />
Masculino 43,25% <strong>10</strong>0% 88,<strong>10</strong>% 54%<br />
Feminino 56,75% 0% 11,90% 46%<br />
Total <strong>10</strong>0% <strong>10</strong>0% <strong>10</strong>0% <strong>10</strong>0%<br />
Fonte: hipotética<br />
Seria interessante saber se as duas variáveis são estatisticamente <strong>de</strong>pen<strong>de</strong>ntes, e o quão forte é esta<br />
associação. Repare que os percentuais <strong>de</strong> homens e mulheres em cada função são diferentes dos<br />
percentuais marginais (<strong>de</strong> homens e mulheres no total <strong>de</strong> funcionários), sendo que em duas funções<br />
as diferenças são bem gran<strong>de</strong>s.<br />
O Teste do Qui-Quadrado é uma das ferramentas estatísticas mais utilizadas quando se<br />
<strong>de</strong>seja estudar o relacionamento entre duas variáveis QUALITATIVAS. Permite verificar se duas<br />
variáveis qualitativas são in<strong>de</strong>pen<strong>de</strong>ntes, se as proporções <strong>de</strong> ocorrência dos valores das variáveis<br />
observadas estão <strong>de</strong> acordo com o que era esperado, etc. Neste texto haverá interesse em usar o<br />
teste para avaliar se duas variáveis qualitativas são in<strong>de</strong>pen<strong>de</strong>ntes.<br />
Como todo teste <strong>de</strong> hipóteses o Teste do Qui-Quadrado consiste em comparar os valores<br />
observados em uma amostra com os valores <strong>de</strong> uma referência (referência esta que supõe que a<br />
hipótese nula seja válida).<br />
As frequências observadas da variável são representadas em uma tabela <strong>de</strong> contingências, e<br />
a Hipótese Nula (H0) do teste será que as duas variáveis não diferem em relação às frequências com<br />
que ocorre uma característica particular, ou seja, as variáveis são in<strong>de</strong>pen<strong>de</strong>ntes, que será testada<br />
contra a Hipótese Alternativa (H1) <strong>de</strong> que as variáveis NÃO SÃO in<strong>de</strong>pen<strong>de</strong>ntes 21 .<br />
O teste po<strong>de</strong> ser realizado porque o grau <strong>de</strong> <strong>de</strong>pendência po<strong>de</strong> ser quantificado<br />
<strong>de</strong>scritivamente através <strong>de</strong> uma estatística, que se chama justamente Qui-Quadrado ( 2 ), cuja<br />
expressão é:<br />
21 O roteiro <strong>de</strong>ste teste está no apêndice.<br />
16
E ij<br />
<br />
<br />
2<br />
<br />
<br />
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
O E <br />
<br />
L C<br />
2 <br />
ij ij<br />
<br />
1 j 1 <br />
Eij<br />
<br />
i<br />
total da<br />
linha i total<br />
total geral<br />
da coluna<br />
On<strong>de</strong><br />
- Eij é a frequência esperada, sob a condição <strong>de</strong> in<strong>de</strong>pendência entre as variáveis, em uma célula<br />
qualquer da tabela <strong>de</strong> contingências. TODAS as frequências esperadas precisam ser MAIORES OU<br />
IGUAIS A 5 para que o resultado do teste seja válido 22 .<br />
- Oij é a frequência observada em uma célula qualquer da tabela <strong>de</strong> contingências.<br />
- L é o número total <strong>de</strong> linhas da tabela <strong>de</strong> contingências (número <strong>de</strong> valores que uma das variáveis<br />
po<strong>de</strong> assumir)<br />
- C é o número total <strong>de</strong> colunas da tabela (número <strong>de</strong> valores que a outra variável po<strong>de</strong> assumir).<br />
Então, para cada célula da tabela <strong>de</strong> contingências calcula-se a diferença entre a frequência<br />
observada e a esperada. Para evitar que as diferenças positivas anulem as negativas as diferenças<br />
são elevadas ao quadrado. E para evitar que uma diferença gran<strong>de</strong> em termos absolutos, mas<br />
pequena em termos relativos, "inflacione" a estatística, ou que uma diferença pequena em termos<br />
absolutos, mas gran<strong>de</strong> em termos relativos, tenha sua influência reduzida, divi<strong>de</strong>-se o quadrado da<br />
diferença pela frequência esperada. Somam-se os valores <strong>de</strong> todas as células e obtêm-se o valor da<br />
estatística: quanto maior 2 , mais o Observado afasta-se do Esperado, portanto maior a<br />
<strong>de</strong>pendência.<br />
Sob a hipótese <strong>de</strong> in<strong>de</strong>pendência a estatística 2 terá distribuição Qui-Quadrado, uma<br />
distribuição assimétrica, que tem valores diferentes <strong>de</strong>pen<strong>de</strong>ndo do seu número <strong>de</strong> graus <strong>de</strong><br />
liberda<strong>de</strong>.<br />
Figura 1 - Distribuição Qui-Quadrado com 2, 5, <strong>10</strong>, 20 e 30 graus <strong>de</strong> liberda<strong>de</strong><br />
22 Se isso não ocorrer recomenda-se agrupar as categorias (<strong>de</strong> uma ou outra variável, ou <strong>de</strong> ambas) até obter todas as<br />
frequências pelo menos iguais a 5.<br />
j<br />
17
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
A figura 14 mostra as curvas da distribuição Qui-Quadrado para 2, 5, <strong>10</strong>, 20 e 30 graus <strong>de</strong><br />
liberda<strong>de</strong>. Observe que as figuras são assimétricas, e como variam <strong>de</strong> forma <strong>de</strong>pen<strong>de</strong>ndo do número<br />
<strong>de</strong> graus <strong>de</strong> liberda<strong>de</strong> da estatística.<br />
O Teste do Qui-Quadrado para avaliar se duas variáveis são in<strong>de</strong>pen<strong>de</strong>ntes será<br />
UNILATERAL: ou seja a Hipótese Nula será rejeitada se 2 > 2 crítico , para um certo número <strong>de</strong><br />
graus <strong>de</strong> liberda<strong>de</strong>. Por exemplo, para o caso em que há 3 graus <strong>de</strong> liberda<strong>de</strong>, e o Nível <strong>de</strong><br />
Significância fosse <strong>de</strong> 5% (a região <strong>de</strong> Rejeição <strong>de</strong> H0 ficará À DIREITA), o valor crítico seria:<br />
O valor crítico para a<br />
estatística <br />
Figura 2 - Distribuição Qui-Quadrado para 3 graus <strong>de</strong> liberda<strong>de</strong>, com = 0,05<br />
2 para 5% <strong>de</strong><br />
Significância e 3 graus <strong>de</strong><br />
liberda<strong>de</strong> será igual a<br />
7,81. Se 2 for maior do<br />
que 7,81 (para 3 graus <strong>de</strong><br />
liberda<strong>de</strong>) <strong>de</strong>ve-se rejeitar<br />
a Hipótese Nula (H0) <strong>de</strong><br />
que as variáveis são<br />
in<strong>de</strong>pen<strong>de</strong>ntes.<br />
O número <strong>de</strong> graus <strong>de</strong> liberda<strong>de</strong> da estatística é calculado da seguinte forma:<br />
graus <strong>de</strong> liberda<strong>de</strong> = (L - 1) (C - 1)<br />
Sendo o número <strong>de</strong> linhas e o número <strong>de</strong> colunas referentes à tabela <strong>de</strong> contingências (o número <strong>de</strong><br />
valores que cada variável po<strong>de</strong> assumir).<br />
O número <strong>de</strong> graus <strong>de</strong> liberda<strong>de</strong> assume este valor porque para calcular as frequências esperadas<br />
não é necessário calcular os valores <strong>de</strong> TODAS as células, as últimas po<strong>de</strong>m ser calculadas por<br />
diferença já que os totais são fixos. Por exemplo, para duas variáveis que somente po<strong>de</strong>m assumir 2<br />
valores cada, o número <strong>de</strong> graus <strong>de</strong> liberda<strong>de</strong> seria igual a 1 [(2-1)(2-1)]: bastaria calcular a<br />
frequência esperada <strong>de</strong> uma célula e obter as outras por diferença em relação ao total.<br />
Exemplo <strong>10</strong>.6 - Para o conjunto do Exemplo <strong>10</strong>.5, supondo que os resultados são uma amostra<br />
aleatória, verificar se as variáveis são in<strong>de</strong>pen<strong>de</strong>ntes a 1% <strong>de</strong> significância.<br />
Seguindo o roteiro que está no Apêndice:<br />
1) Enunciar as <strong>Hipóteses</strong>:<br />
H0: as variáveis sexo e função são in<strong>de</strong>pen<strong>de</strong>ntes<br />
H1: as variáveis sexo e função não são in<strong>de</strong>pen<strong>de</strong>ntes<br />
2) Nível <strong>de</strong> significância: <strong>de</strong>terminado pelo problema, = 0,01; 1 - = 0,99<br />
3) Retirar as amostras aleatórias e montar a tabela <strong>de</strong> contingências (isso já foi feito):<br />
Função<br />
Sexo Escritório Serviços gerais Gerência Total<br />
Masculino 157 27 74 258<br />
Feminino 206 0 <strong>10</strong> 216<br />
Total 363 27 84 474<br />
Fonte: hipotética<br />
Na tabela acima encontram-se os totais marginais e o total geral:<br />
L1 = total Masculino = 258 L2 = total Feminino = 216 C1 = total Escritório = 157<br />
C2 = total S.Gerais = 27 C3 = total gerência = 84 N = total geral =474<br />
Repare que somando os totais das linhas o resultado é o total geral, e que somando os totais das<br />
colunas o resultado é o total geral também.<br />
4) Calcular as frequências esperadas:<br />
18
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
Calculando as frequências esperadas <strong>de</strong> acordo com a fórmula vista anteriormente:<br />
Masculino - Escritório E = (258 363)/ 474 = 197,58<br />
Masculino - Serviços Gerais E = (258 27)/ 474 = 14,70<br />
Masculino - Gerência E = (258 84)/ 474 = 45,72<br />
Feminino - Escritório E = (216 363)/ 474 = 165,42<br />
Feminino - Serviços Gerais E = (216 27)/ 474 = 12,30<br />
Feminino - Gerência E = (216 84)/ 474 = 38,28<br />
Observe que os resultados são os mesmos obtidos no Exemplo 3.2.<br />
5) Calculando a estatística 2 para cada célula:<br />
Agora po<strong>de</strong>mos calcular as diferenças entre as frequências e as <strong>de</strong>mais operações, que<br />
serão mostradas nas tabelas a seguir.<br />
O - E Função<br />
Sexo Escritório Serviços gerais Gerência<br />
Masculino 157 - 197,58 27 - 14,70 74 - 45,72<br />
Feminino 206 - 165,42 0 - 12,30 <strong>10</strong> - 38,28<br />
(O-E) 2 Função<br />
Sexo Escritório Serviços gerais Gerência<br />
Masculino 1646,921 151,383 799,672<br />
Feminino 1646,921 151,383 799,672<br />
Finalmente:<br />
(O-E) 2 /E Função<br />
Sexo Escritório Serviços gerais Gerência<br />
Masculino 8,336 <strong>10</strong>,301 17,490<br />
Feminino 9,956 12,304 20,891<br />
Agora po<strong>de</strong>mos somar os valores:<br />
2 = 8,336 + <strong>10</strong>,301 + 17,490 + 9,956 + 12,304 + 20,891 = 79,227<br />
Os graus <strong>de</strong> liberda<strong>de</strong>: (número <strong>de</strong> linhas -1)x(número <strong>de</strong> colunas - 1) = (2 -1)(3-1)= 2<br />
Então 2 2 = 79,227<br />
6) O 2 crítico será: procurando na tabela do Apêndice, ou em um programa, para 2 graus <strong>de</strong><br />
liberda<strong>de</strong> e 99% <strong>de</strong> confiança (1% <strong>de</strong> significância): 2 2,crítico = 6,63<br />
Ver figura abaixo,<br />
7)8) Como 2 2 é maior do que<br />
2 2,crítico REJEITAMOS H0 a<br />
1% <strong>de</strong> significância. HÁ<br />
evidência estatística suficiente<br />
que indicam que as variáveis<br />
função e sexo não são<br />
in<strong>de</strong>pen<strong>de</strong>ntes. Isso confirma<br />
nossas suspeitas iniciais,<br />
<strong>de</strong>vido às gran<strong>de</strong>s diferenças<br />
nas frequências da tabela.<br />
É importante ressaltar que ao calcularmos o Coeficiente <strong>de</strong> Contingência Modificado para os<br />
mesmos dados (Exemplo 3.4), obtivemos um valor igual a 0,54 (indicando uma associação<br />
mo<strong>de</strong>rada para forte). Ele po<strong>de</strong> ser usado em conjunto com o teste do Qui-Quadrado. O teste do<br />
Qui-Quadrado provou que há associação, e o coeficiente a quantificou.<br />
19
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
<strong>10</strong>.6 - <strong>Testes</strong> <strong>de</strong> diferenças entre as médias <strong>de</strong> uma variável em duas<br />
populações (testes t)<br />
É extremamente comum comparar as médias <strong>de</strong> uma variável QUANTITATIVA em duas<br />
populações 23 , através das médias <strong>de</strong> duas amostras aleatórias <strong>de</strong> valores da variável retiradas <strong>de</strong>stas<br />
populações, geralmente com um dos dois objetivos abaixo:<br />
- comparar as médias dos valores da variável provenientes do MESMO grupo, mas medidas em<br />
ocasiões diferentes (estudos do tipo antes-<strong>de</strong>pois), procurando verificar se houve diferença;<br />
- comparar as médias provenientes <strong>de</strong> grupos DISTINTOS (INDEPENDENTES), para verificar se a<br />
variável possui a mesma média nas duas populações.<br />
Estes testes são TESTES PARAMÉTRICOS. Exigem que uma das duas condições abaixo<br />
seja satisfeita:<br />
- sabe-se, ou é razoável supor, que a variável <strong>de</strong> interesse segue uma distribuição normal em ambas<br />
as populações: isso significa que a distribuição amostral das médias também será normal,<br />
permitindo realizar a inferência estatística paramétrica.<br />
- as distribuições da variável nas populações são <strong>de</strong>sconhecidas, mas as amostras retiradas <strong>de</strong>stas<br />
populações são consi<strong>de</strong>radas “suficientemente gran<strong>de</strong>s” 24 o que, <strong>de</strong> acordo com o Teorema Central<br />
do Limite, permite concluir que a distribuição amostral das médias é normal.<br />
Supõe-se também que as amostras são representativas das populações e foram retiradas <strong>de</strong> forma<br />
aleatória.<br />
O teste t para 2 amostras pareadas será visto no item <strong>10</strong>.6.1. Se os grupos forem<br />
in<strong>de</strong>pen<strong>de</strong>ntes é preciso avaliar se as variâncias populacionais são conhecidas. Se forem, <strong>de</strong>ve ser<br />
utilizado o teste Z para 2 amostras in<strong>de</strong>pen<strong>de</strong>ntes (item <strong>10</strong>.6.2). Se não forem conhecidas é preciso<br />
avaliar se po<strong>de</strong>m ser consi<strong>de</strong>radas iguais ou não: isso será feito através do teste F <strong>de</strong> diferença entre<br />
2 variâncias (no item <strong>10</strong>.6.3). Finalmente, no item <strong>10</strong>.6.4 será apresentado o teste t para 2 amostras<br />
in<strong>de</strong>pen<strong>de</strong>ntes: se o teste F (item <strong>10</strong>.6.3) indicar que as variâncias po<strong>de</strong>m ser consi<strong>de</strong>radas iguais a<br />
variável <strong>de</strong> teste t terá n1+n2-2 graus <strong>de</strong> liberda<strong>de</strong> (on<strong>de</strong> n1 e n2 são os tamanhos das amostras); caso<br />
contrário a variável <strong>de</strong> teste t terá graus <strong>de</strong> liberda<strong>de</strong> ( é calculado através <strong>de</strong> uma expressão que<br />
envolve os valores dos <strong>de</strong>svios padrões amostrais e os próprios tamanhos <strong>de</strong> amostra).<br />
A Figura 3 mostra os possíveis cursos <strong>de</strong> ação.<br />
23 Aliás, é muito comum comparar as médias <strong>de</strong> vários grupos, o que consiste um capítulo especial da <strong>Estatística</strong> a<br />
ANÁLISE DE VARIÂNCIA (ANOVA) que não será vista nesta disciplina.<br />
24 Há muita controvérsia a respeito do que seria uma amostra “suficientemente gran<strong>de</strong>”, mas geralmente uma amostra<br />
com pelo menos 30 elementos costuma ser consi<strong>de</strong>rada gran<strong>de</strong> o bastante para que a distribuição amostral da média<br />
possa ser aproximada por uma normal.<br />
20
Teste t para 2<br />
amostras pareadas<br />
Teste Z para 2<br />
amostras<br />
in<strong>de</strong>pen<strong>de</strong>ntes<br />
Usar Z como<br />
variável <strong>de</strong> teste<br />
SIM<br />
<strong>10</strong>.6.1 - Teste t para 2 amostras pareadas<br />
Duas amostras<br />
Relacionadas?<br />
NÃO<br />
SIM NÃO<br />
Conhecidas?<br />
Teste t para 2<br />
amostras<br />
in<strong>de</strong>pen<strong>de</strong>ntes<br />
Usar t com n1+n2 -2<br />
graus <strong>de</strong> liberda<strong>de</strong><br />
Variável <strong>de</strong><br />
interesse<br />
quantitativa<br />
Avaliar variâncias<br />
populacionais<br />
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
Teste F <strong>de</strong><br />
diferença entre 2<br />
variâncias<br />
SIM Variância<br />
semelhantes?<br />
NÃO<br />
Figura 3 - Teste <strong>de</strong> diferença entre 2 médias - resumo<br />
Teste t para 2<br />
amostras<br />
in<strong>de</strong>pen<strong>de</strong>ntes<br />
Usar t com<br />
graus <strong>de</strong><br />
liberda<strong>de</strong><br />
Os resultados das 2 amostras são relacionados 2 a 2 segundo algum critério, acarretando em<br />
que as amostras precisam ter o mesmo tamanho. Calculam-se as diferenças entre cada par <strong>de</strong><br />
valores, obtendo uma única amostra com n diferenças. O roteiro para a realização <strong>de</strong>ste tipo <strong>de</strong> teste<br />
está na página 5 do Apêndice.<br />
EX <strong>10</strong>.7 - Dez cobaias foram submetidas ao tratamento <strong>de</strong> engorda com certa ração. Os pesos em<br />
gramas, antes e após o teste são dados a seguir (supõe-se que provenham <strong>de</strong> distribuições normais).<br />
A 1% <strong>de</strong> significância, po<strong>de</strong>mos concluir que o uso da ração contribuiu para o aumento do peso<br />
médio dos animais?<br />
<br />
21
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
Cobaia 1 2 3 4 5 6 7 8 9 <strong>10</strong><br />
Antes 635 704 662 560 603 745 698 575 633 669<br />
Depois 640 712 681 558 6<strong>10</strong> 740 707 585 635 682<br />
Trata-se <strong>de</strong> uma situação em que queremos comparar as MÉDIAS DE UMA VARIÁVEL EM<br />
DUAS distribuições normais, supondo que se trata da MESMA população, mas em dois momentos<br />
diferentes: antes e após um tratamento <strong>de</strong> engorda. Há interesse em verificar se a dieta contribuiu<br />
para o aumento do peso médio dos animais: ou seja, queremos verificar se a média <strong>de</strong> peso antes<br />
do tratamento é MENOR do que a média <strong>de</strong> peso após o tratamento (se a dieta fez efeito os animais<br />
estarão em média mais pesados ao final do tratamento). Reparem que é exigido que se tome uma<br />
<strong>de</strong>cisão, o que configura um problema <strong>de</strong> TESTE DE HIPÓTESES.<br />
Iremos então aplicar um TESTE DE DIFERENÇAS ENTRE AS MÉDIAS DE UMA<br />
VARIÁVEL EM 2 POPULAÇÕES. E como as amostras são relacionadas (MESMA POPULAÇÃO:<br />
ANTES E DEPOIS), usaremos o teste t para 2 amostras pareadas.. Supõe-se que se ambas as<br />
distribuições populacionais são normais a distribuição da diferença entre os valores também será.<br />
1) Enunciar as hipóteses<br />
De acordo com o que foi dito acima queremos verificar se a média antes é menor do que a média<br />
<strong>de</strong>pois; o melhor ponto <strong>de</strong> partida, que servirá para a <strong>de</strong>finição da hipótese H0, é que a dieta NÃO<br />
FAZ EFEITO, ou seja, as médias antes e após o tratamento são iguais (costumamos colocar em H0<br />
o CONTRÁRIO do que queremos provar), ou seja, a DIFERENÇA ENTRE AS MÉDIAS DEVE<br />
SER SUPOSTA IGUAL A ZERO, teremos então:<br />
H0<br />
: d<br />
0<br />
on<strong>de</strong> d<br />
antes<br />
<strong>de</strong>pois<br />
H1<br />
: d<br />
0<br />
2) Estabelecer o nível <strong>de</strong> significância ou nível <strong>de</strong> confiança.<br />
Conforme foi estabelecido no enunciado do problema:<br />
0, 01 1<br />
0,<br />
99<br />
3) I<strong>de</strong>ntificar a variável <strong>de</strong> teste.<br />
No presente problema temos uma amostra <strong>de</strong> apenas <strong>10</strong> elementos. Como a amostra tem menos <strong>de</strong><br />
30 elementos a variável <strong>de</strong> teste que será utilizada será a variável tn-1 da distribuição t <strong>de</strong> Stu<strong>de</strong>nt.<br />
4) Definir a região <strong>de</strong> aceitação <strong>de</strong> H0, <strong>de</strong> acordo com o tipo <strong>de</strong> teste e variável.<br />
Trata-se <strong>de</strong> um teste unilateral à esquerda (com 1% <strong>de</strong> significância), e a variável <strong>de</strong> teste é tn-1 (a<br />
amostra tem <strong>10</strong> elementos), então o valor crítico (obtido da tabela da distribuição t <strong>de</strong> Stu<strong>de</strong>nt)<br />
será:<br />
Observe a região <strong>de</strong> aceitação <strong>de</strong> H0:<br />
tn 1,<br />
critico t<strong>10</strong>1;<br />
0,<br />
01 t9;<br />
0,<br />
99 t9;<br />
0,<br />
01 <br />
2,<br />
821<br />
22
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
Para valores maiores do que -2,821 aceitaremos H0 (ou seja, a dieta não faz efeito, a diferença<br />
entre as médias é nula). Se tn-1 for menor do que -2,821 rejeitaremos H0 (a média DEPOIS<br />
aumentou <strong>de</strong>mais em relação à média ANTES da dieta para que a diferença seja <strong>de</strong>vida apenas ao<br />
acaso). Claro que há uma chance <strong>de</strong> 1% <strong>de</strong> que venhamos a rejeitar H0 sendo ela verda<strong>de</strong>ira.<br />
5) Através dos valores das amostras antes e <strong>de</strong>pois, calcular a diferença di entre cada par <strong>de</strong><br />
valores, on<strong>de</strong> di = Xantes - X<strong>de</strong>pois.<br />
Para o conjunto sob análise teremos:<br />
Cobaia 1 2 3 4 5 6 7 8 9 <strong>10</strong><br />
Antes 635 704 662 560 603 745 698 575 633 669<br />
Depois 640 712 681 558 6<strong>10</strong> 740 707 585 635 682<br />
di<br />
di<br />
-5 -8 -19 2 -7 5 -9 -<strong>10</strong> -2 -13<br />
2 25 64 361 4 49 25 81 <strong>10</strong>0 4 169<br />
6)e 7) Calcular a diferença média e o <strong>de</strong>svio padrão da diferença média.<br />
di<br />
66<br />
Para o presente problema: d 6,<br />
6 gramas<br />
n <strong>10</strong><br />
<br />
2<br />
<br />
sd<br />
<br />
di<br />
2<br />
[(<br />
di<br />
) / n]<br />
n 1<br />
<br />
2<br />
882 [(<br />
66)<br />
/ <strong>10</strong>]<br />
7,<br />
04 gramas<br />
<strong>10</strong> 1<br />
8) Calcular o valor da variável <strong>de</strong> teste. Neste problema é a variável tn-1:<br />
tn 1 <br />
( s<br />
d<br />
/ n)<br />
6,<br />
6<br />
t<strong>10</strong>1<br />
t9<br />
<br />
2,<br />
96<br />
( 7,<br />
04/<br />
<strong>10</strong>)<br />
d<br />
9) Decidir pela aceitação ou rejeição <strong>de</strong> H0.<br />
Conforme foi visto anteriormente, se o valor da variável <strong>de</strong> teste fosse MENOR do que -2,82 a<br />
hipótese H0 seria rejeitada:<br />
t 2,<br />
96 t t 2,<br />
82<br />
tn 1 9<br />
n1,<br />
critico 9;<br />
0,<br />
01<br />
Assim, REJEITAMOS H0 a 1% <strong>de</strong> significância.<br />
<strong>10</strong>) Interpretar a <strong>de</strong>cisão <strong>de</strong>ntro do contexto do problema.<br />
Assim, concluímos com 99% <strong>de</strong> confiança (ou uma chance <strong>de</strong> erro <strong>de</strong> 1%) que a dieta contribuiu<br />
para o aumento do peso médio dos animais.<br />
<strong>10</strong>.6.2 – Teste Z para 2 amostras in<strong>de</strong>pen<strong>de</strong>ntes – variâncias populacionais<br />
CONHECIDAS.<br />
Neste caso há interesse em comparar as médias <strong>de</strong> uma variável quantitativa em dois grupos<br />
(populações) distintas, in<strong>de</strong>pen<strong>de</strong>ntes, através <strong>de</strong> duas amostras aleatórias retiradas <strong>de</strong> cada grupo,<br />
respectivamente. Além disso, as variâncias da variável nas duas populações (1 2 e 2 2 ) são<br />
conhecidas 25 . O roteiro para este teste está nas páginas 6 e 7 do Apêndice: observe que a partir do<br />
item 3 do roteiro <strong>de</strong>ve-se seguir sempre as fórmulas e procedimentos do item b.1, específicos para o<br />
caso em que as variâncias populacionais são conhecidas.<br />
EX.<strong>10</strong>.8 – A Jabyl Circuits está avaliando o tempo <strong>de</strong> montagem <strong>de</strong> um novo mo<strong>de</strong>lo <strong>de</strong> circuito em<br />
2 <strong>de</strong> suas unida<strong>de</strong>s. Suspeita-se que o <strong>de</strong>sempenho da fábrica 1 seja pior do que o da fábrica 2<br />
(aquela seria mais lenta). Sabe-se que a variância populacional do tempo na fábrica 1 é <strong>de</strong> 1,5<br />
minutos 2 e na fábrica 2 <strong>de</strong> 2,5 minutos 2 , além disso, supõe-se que as distribuições dos tempos<br />
po<strong>de</strong>m ser consi<strong>de</strong>radas normais. Foram coletadas duas amostras <strong>de</strong> tempos <strong>de</strong> montagem: 8 na<br />
25 Este caso é muito raro na prática, mas a compreensão do seu procedimento é útil.<br />
23
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
fábrica 1, resultando em média <strong>de</strong> 2,35 minutos, e <strong>10</strong> na fábrica 2, resultando em média <strong>de</strong> 1,85<br />
minutos. A suspeita é proce<strong>de</strong>nte a 1% <strong>de</strong> significância?<br />
Trata-se <strong>de</strong> uma situação em que queremos comparar as MÉDIAS DE DUAS distribuições<br />
normais, supondo que se tratam <strong>de</strong> duas populações distintas, po<strong>de</strong>mos supor que as amostras são<br />
in<strong>de</strong>pen<strong>de</strong>ntes: está sendo avaliado o tempo <strong>de</strong> montagem dos circuitos em 2 fábricas<br />
DIFERENTES. Há interesse em verificar se a média da população da fábrica 1 é maior do que a <strong>de</strong><br />
fábrica 2 (ou seja, que leve mais tempo para montar os circuitos na fábrica 1, significando um<br />
<strong>de</strong>sempenho pior). Reparem que é exigido que se tome uma <strong>de</strong>cisão, o que configura um problema<br />
<strong>de</strong> TESTE DE HIPÓTESES.<br />
Iremos então aplicar um TESTE DE DIFERENÇA ENTRE AS MÉDIAS DE UMA<br />
VARIÁVEL EM 2 POPULAÇÕES. O roteiro encontra-se nas páginas 6 e 7 do Apêndice. E como as<br />
amostras são in<strong>de</strong>pen<strong>de</strong>ntes, e as variâncias populacionais são CONHECIDAS, <strong>de</strong>ve-se usar o<br />
teste Z para 2 amostras in<strong>de</strong>pen<strong>de</strong>ntes.<br />
1) Enunciar as hipóteses<br />
De acordo com o que foi dito acima queremos verificar se a média da fábrica 1 é maior do que a<br />
da fábrica 2; o melhor ponto <strong>de</strong> partida, que servirá para a <strong>de</strong>finição da hipótese H0, será<br />
consi<strong>de</strong>rar que NÃO HÁ DIFERENÇA entre as médias, ou seja, A MÉDIA DO TEMPO DE<br />
MONTAGEM NA FÁBRICA 1 É IGUAL AO TEMPO DE MONTAGEM NA FÁBRICA 2<br />
(costumamos colocar em H0 o CONTRÁRIO do que queremos provar), teremos então:<br />
H 0 : 1<br />
2<br />
on<strong>de</strong> 1<br />
e <br />
FÁBRICA1<br />
2 FÁBRICA2<br />
H 1 : 1<br />
2<br />
2) Estabelecer o nível <strong>de</strong> significância ou nível <strong>de</strong> confiança.<br />
Conforme foi estabelecido no enunciado do problema:<br />
0 , 01 1<br />
0,<br />
99<br />
3) I<strong>de</strong>ntificar a variável <strong>de</strong> teste.<br />
Neste ponto do roteiro é necessário ter muito cuidado. Há 3 variáveis <strong>de</strong> teste possíveis,<br />
<strong>de</strong>pen<strong>de</strong>ndo das condições do problema, mais especificamente das variâncias das duas populações.<br />
Como as variâncias <strong>de</strong> ambas as populações são conhecidas <strong>de</strong>verá ser usada a variável Z da<br />
distribuição normal padrão.<br />
4) Definir a região <strong>de</strong> aceitação <strong>de</strong> H0, <strong>de</strong> acordo com o tipo <strong>de</strong> teste e variável.<br />
Trata-se <strong>de</strong> um teste Unilateral à Direita (com 1% <strong>de</strong> significância), e a variável <strong>de</strong> teste é Z então<br />
o valor crítico (obtido da tabela da distribuição normal padrão) será:<br />
Z crítico<br />
Z<br />
0,<br />
01<br />
Observe a região <strong>de</strong> aceitação <strong>de</strong> H0 na figura abaixo:<br />
5) Calcular o <strong>de</strong>svio padrão das diferenças.<br />
2,<br />
326 <br />
Para valores <strong>de</strong> Z maiores do<br />
que 2,326, <strong>de</strong>ve-se REJEITAR H0, ou<br />
seja a média do tempo <strong>de</strong> montagem<br />
dos circuitos na Fábrica 1 é maior do<br />
que a média da Fábrica 2 (claro que há<br />
1% <strong>de</strong> chance <strong>de</strong> que venhamos a<br />
rejeitar H0 sendo ela verda<strong>de</strong>ira): as<br />
diferenças entre o que era esperado e o<br />
que foi encontrado na amostra serão<br />
consi<strong>de</strong>radas gran<strong>de</strong>s <strong>de</strong>mais para<br />
serem casuais.<br />
24
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
Como as duas variâncias são conhecidas, iremos utilizar a primeira expressão para calcular o<br />
<strong>de</strong>svio padrão das diferenças que está no roteiro (no item 5 do roteiro do TESTE DE DIFERENÇA<br />
ENTRE MÉDIAS: teste Z e t para 2 amostras in<strong>de</strong>pen<strong>de</strong>ntes, no apêndice, letra b.1)<br />
<br />
d<br />
<br />
<br />
2<br />
1<br />
n<br />
1<br />
<br />
<br />
n<br />
2<br />
2<br />
2<br />
<br />
1,<br />
5 2,<br />
5<br />
0,<br />
6614 min<br />
8 <strong>10</strong><br />
6) Calcular a variável <strong>de</strong> teste.<br />
Novamente, como as duas variâncias são conhecidas, iremos utilizar a primeira expressão para<br />
calcular o valor da variável <strong>de</strong> teste que está no roteiro (no item 5 do roteiro do teste <strong>de</strong> diferença<br />
entre as médias <strong>de</strong> uma variável em 2 populações – amostras in<strong>de</strong>pen<strong>de</strong>ntes, no apêndice, letra b.1)<br />
x1<br />
x2<br />
2,<br />
35 1,<br />
85<br />
Z => Z 0,<br />
7559<br />
<br />
0,<br />
6614<br />
d<br />
7)Decidir pela aceitação ou rejeição <strong>de</strong> H0.<br />
Conforme foi visto anteriormente se o valor da variável <strong>de</strong> teste fosse maior do que 2,326 a<br />
hipótese H0 seria rejeitada:<br />
Z<br />
crítico<br />
0, 7559 Z <br />
2,<br />
326<br />
Assim, ACEITAMOS H0 a 1% <strong>de</strong> significância..<br />
8) Interpretar a <strong>de</strong>cisão <strong>de</strong>ntro do contexto do problema.<br />
Assim, concluímos com 99% <strong>de</strong> confiança (ou uma chance <strong>de</strong> erro <strong>de</strong> 1%) que NÃO há evidências<br />
estatísticas suficientes para <strong>de</strong>clarar que a média do tempo <strong>de</strong> montagem dos circuitos na Fábrica<br />
1 é maior do que a média na Fábrica 2. A suspeita NÃO é proce<strong>de</strong>nte.<br />
<strong>10</strong>.6.3 – Teste F <strong>de</strong> diferença entre 2 variâncias.<br />
Para realizar um teste <strong>de</strong> diferença entre as médias <strong>de</strong> uma variável em 2 populações, sendo<br />
as amostras in<strong>de</strong>pen<strong>de</strong>ntes, e as variâncias populacionais da variável DESCONHECIDAS, é preciso<br />
avaliar se tais variâncias po<strong>de</strong>m ser consi<strong>de</strong>radas iguais ou não. Tal avaliação é necessária, pois<br />
<strong>de</strong>pen<strong>de</strong>ndo da sua conclusão a variável <strong>de</strong> teste t terá diferentes graus <strong>de</strong> liberda<strong>de</strong>, o que implicará<br />
em valores críticos diferentes, o que influenciará diretamente a <strong>de</strong>cisão <strong>de</strong> aceitação ou rejeição da<br />
hipótese nula. Portanto, é preciso realizar um teste para avaliar se há diferenças entre as variâncias<br />
populacionais, a partir das variâncias amostrais. O roteiro para este teste está na página 8 do<br />
Apêndice.<br />
As hipóteses do teste são sempre as mesmas: na hipótese nula supõe-se que as duas<br />
variâncias populacionais (estimadas a partir das respectivas variâncias amostrais) são iguais, e na<br />
hipótese alternativa <strong>de</strong>clara-se que elas são diferentes (trata-se então <strong>de</strong> um teste BILATERAL).<br />
H 0 : 1 2 = 2 2<br />
H 1 : 1 2 2 2<br />
Para realizar o teste é preciso calcular o quociente entre a maior e a menor variância<br />
2<br />
amostral, que será chamada <strong>de</strong> s A (e, por conseguinte, o tamanho <strong>de</strong> amostra associado nA) e a<br />
2<br />
menor que será chamada s B (e por conseguinte, o tamanho <strong>de</strong> amostra associado nB). Então a<br />
variável <strong>de</strong> teste do teste F será:<br />
n<br />
2<br />
s A<br />
A 1,<br />
nB<br />
1<br />
2<br />
sB<br />
F <br />
25
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
Esta variável segue uma distribuição amostral chamada F <strong>de</strong> Fisher (ou <strong>de</strong> Sne<strong>de</strong>cor), tratase<br />
<strong>de</strong> uma distribuição assimétrica, que somente po<strong>de</strong> assumir valores positivos, e que possui graus<br />
<strong>de</strong> liberda<strong>de</strong> associados ao numerador e ao <strong>de</strong>nominador <strong>de</strong> um quociente. Veja a figura abaixo, <strong>de</strong><br />
uma distribuição F com 9 e 7 graus <strong>de</strong> liberda<strong>de</strong>:<br />
Figura 4 - Distribuição F - 14 graus <strong>de</strong> liberda<strong>de</strong> no numerador e <strong>de</strong>nominador<br />
O resultado do quociente é então comparado a um valor crítico, que será F9,7; 0,025: bastaria<br />
procurá-lo em uma tabela a<strong>de</strong>quada (como a tabela que está na página 13 do Apêndice, sendo 9 o<br />
número <strong>de</strong> graus <strong>de</strong> liberda<strong>de</strong> do numerador da estatística e 9 o número <strong>de</strong> graus <strong>de</strong> liberda<strong>de</strong> do<br />
<strong>de</strong>nominador da estatística). Se o resultado for maior do que o valor crítico REJEITA-SE H0, há<br />
evidências estatísticas suficientes <strong>de</strong> que as variâncias populacionais da variável são diferentes: ao<br />
realizar o teste <strong>de</strong> diferença entre as médias a variável t <strong>de</strong>verá ter graus <strong>de</strong> liberda<strong>de</strong>. Se o<br />
resultado for menor, ACEITA-SE H0, não há evidência estatística suficiente <strong>de</strong> diferença entre as<br />
variâncias populacionais: ao realizar o teste <strong>de</strong> diferença entre as médias a variável t terá n1 + n2 – 2<br />
graus <strong>de</strong> liberda<strong>de</strong> (on<strong>de</strong> n1 e n2 são os tamanhos das respectivas amostras).<br />
Exemplos <strong>de</strong> aplicação do teste F serão apresentados na próxima seção.<br />
<strong>10</strong>.6. 4 - Teste t para 2 amostras in<strong>de</strong>pen<strong>de</strong>ntes – variâncias populacionais<br />
DESCONHECIDAS.<br />
Neste caso há interesse em comparar as médias <strong>de</strong> uma variável quantitativa em dois grupos<br />
(populações) distintas, in<strong>de</strong>pen<strong>de</strong>ntes, através <strong>de</strong> duas amostras aleatórias retiradas <strong>de</strong> cada grupo,<br />
respectivamente. Mas, as variâncias da variável nas duas populações (1 2 e 2 2 ) são<br />
DESCONHECIDAS: então é preciso verificar se tais variâncias po<strong>de</strong>m ser consi<strong>de</strong>radas iguais ou<br />
não, para <strong>de</strong>finir quantos graus <strong>de</strong> liberda<strong>de</strong> terá a variável <strong>de</strong> teste t. O roteiro para este teste está<br />
nas páginas 6 e 7 do Apêndice: observe que a partir do item 3 do roteiro <strong>de</strong>ve-se seguir sempre as<br />
fórmulas e procedimentos do item b.2 ou b.3, específicos para os casos em que as variâncias<br />
populacionais são <strong>de</strong>sconhecidas, supostas iguais ou diferentes, respectivamente.<br />
Se as variâncias forem supostas iguais, o número <strong>de</strong> graus <strong>de</strong> liberda<strong>de</strong> será n1 + n2 – 2<br />
(on<strong>de</strong> n1 e n2 são os tamanhos das amostras). Se as variâncias forem supostas diferentes, o número<br />
<strong>de</strong> graus <strong>de</strong> liberda<strong>de</strong> será igual a , cuja expressão é:<br />
26
( 1 2 ) <br />
<br />
<br />
<br />
( ) ( ) <br />
2<br />
1 2<br />
2<br />
1 1<br />
2<br />
2<br />
n n2<br />
1<br />
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
On<strong>de</strong> <br />
1<br />
1<br />
2<br />
<br />
1<br />
s<br />
n 2<br />
2<br />
2<br />
<br />
2<br />
s<br />
n<br />
n1 e n2 são os tamanhos das amostras e s1 2 e s2 2 são as variâncias AMOSTRAIS.<br />
Exemplo <strong>10</strong>.9 - A Jabyl Circuits está avaliando o tempo <strong>de</strong> montagem <strong>de</strong> um novo mo<strong>de</strong>lo <strong>de</strong><br />
circuito em 2 <strong>de</strong> suas unida<strong>de</strong>s. Suspeita-se que o <strong>de</strong>sempenho da fábrica 1 seja pior do que o da<br />
fábrica 2 (aquela seria mais lenta). Supõe-se que as distribuições dos tempos po<strong>de</strong>m ser<br />
consi<strong>de</strong>radas normais. Foram coletadas duas amostras <strong>de</strong> tempos <strong>de</strong> montagem: 8 na fábrica 1,<br />
resultando em média <strong>de</strong> 3,52 minutos, variância <strong>de</strong> 1,5 minutos 2 e <strong>10</strong> na fábrica 2, resultando em<br />
média <strong>de</strong> 1,85 minutos e variância <strong>de</strong> 1,7 minutos 2 . A suspeita é proce<strong>de</strong>nte a 1% <strong>de</strong> significância?<br />
Trata-se <strong>de</strong> uma situação em que queremos comparar as MÉDIAS DE DUAS distribuições<br />
normais, supondo que se trata <strong>de</strong> duas populações distintas, po<strong>de</strong>mos supor que as amostras são<br />
in<strong>de</strong>pen<strong>de</strong>ntes: está sendo avaliado o tempo <strong>de</strong> montagem dos circuitos em 2 fábricas<br />
DIFERENTES. Há interesse em verificar se a média da população da fábrica 1 é maior do que a <strong>de</strong><br />
fábrica 2 (ou seja, que leve mais tempo para montar os circuitos na fábrica 1, significando um<br />
<strong>de</strong>sempenho pior). Reparem que é exigido que se tome uma <strong>de</strong>cisão, o que configura um problema<br />
<strong>de</strong> TESTE DE HIPÓTESES.<br />
Iremos então aplicar um TESTE DE DIFERENÇA ENTRE AS MÉDIAS DE UMA<br />
VARIÁVEL EM 2 POPULAÇÕES. O roteiro encontra-se nas páginas 6 e 7 do Apêndice. Como as<br />
amostras são in<strong>de</strong>pen<strong>de</strong>ntes, e as variâncias populacionais são DESCONHECIDAS, vamos usar o<br />
teste t para 2 amostras in<strong>de</strong>pen<strong>de</strong>ntes. Antes, porém precisamos saber se as variâncias<br />
populacionais po<strong>de</strong>m ser consi<strong>de</strong>radas iguais ou não: é preciso aplicar o teste F <strong>de</strong> diferença entre<br />
2 variâncias.<br />
TESTE F<br />
2 2<br />
H : 1 2<br />
0<br />
2 2<br />
H1<br />
: 1 2<br />
Queremos apenas verificar se há DIFERENÇA entre as variâncias, por isso o teste será<br />
sempre BILATERAL.<br />
Nível <strong>de</strong> significância: como a tabela da distribuição F (que está na página 13 do Apêndice)<br />
apresenta valores apenas para 5% <strong>de</strong> significância (teste bilateral) este será o nível<br />
adotado em todos os testes F.<br />
2<br />
Encontrar a maior variância amostral, que será chamada <strong>de</strong> s A (e, por conseguinte, nA) e<br />
2<br />
a menor que será chamada s B (e por conseguinte nB). Neste problema teremos 26 :<br />
2 2<br />
2<br />
s s 1,<br />
7min<br />
e n <strong>10</strong><br />
A 2<br />
A<br />
2 2<br />
2<br />
B s1<br />
1,<br />
5min<br />
e nB<br />
<br />
s<br />
8<br />
Então a variável <strong>de</strong> teste do teste F será:<br />
2<br />
s 1,<br />
7<br />
A Fn<br />
1,<br />
1<br />
2 F9,<br />
7 1,<br />
133<br />
A nB<br />
sB<br />
1,<br />
5<br />
Procurando o valor crítico na tabela da distribuição F (página 13 do Apêndice), para 9<br />
graus <strong>de</strong> liberda<strong>de</strong> no numerador e 7 no <strong>de</strong>nominador: F9,7;0,025 = 5,52. Como o valor da<br />
variável F9,7 (1,133) é MENOR do que o valor crítico po<strong>de</strong>mos ACEITAR a hipótese <strong>de</strong> que<br />
as variâncias populacionais, <strong>de</strong>sconhecidas, são iguais, com uma chance <strong>de</strong> erro <strong>de</strong> 5%.<br />
Sendo assim, a nossa variável t <strong>de</strong> Stu<strong>de</strong>nt terá n1+n2-2 graus <strong>de</strong> liberda<strong>de</strong>.<br />
26 A variância é o quadrado do <strong>de</strong>svio padrão. Se forem dados os <strong>de</strong>svios padrões amostrais basta elevá-los ao quadrado.<br />
27
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
Agora po<strong>de</strong>mos partir para o teste t propriamente dito.<br />
1) Enunciar as hipóteses<br />
De acordo com o que foi no enunciado do problema queremos verificar se a média da fábrica 1 é<br />
maior do que a da fábrica 2; o melhor ponto <strong>de</strong> partida, que servirá para a <strong>de</strong>finição da hipótese<br />
H0, será consi<strong>de</strong>rar que NÃO HÁ DIFERENÇA entre as médias, ou seja, A MÉDIA DO TEMPO<br />
DE MONTAGEM NA FÁBRICA 1 É IGUAL AO TEMPO DE MONTAGEM NA FÁBRICA 2<br />
(costumamos colocar em H0 o CONTRÁRIO do que queremos provar), teremos então:<br />
H 0 : 1<br />
2<br />
on<strong>de</strong> 1<br />
e <br />
FÁBRICA1<br />
2 FÁBRICA2<br />
H 1 : 1<br />
2<br />
2) Estabelecer o nível <strong>de</strong> significância ou nível <strong>de</strong> confiança.<br />
Conforme foi estabelecido no enunciado do problema:<br />
0 , 01 1<br />
0,<br />
99<br />
3) I<strong>de</strong>ntificar a variável <strong>de</strong> teste.<br />
Como as variâncias <strong>de</strong> ambas as populações são <strong>de</strong>sconhecidas, e o teste F <strong>de</strong> diferença entre 2<br />
variâncias indicou que po<strong>de</strong>m ser supostas iguais, <strong>de</strong>verá ser usada a variável t da distribuição t<br />
<strong>de</strong> Stu<strong>de</strong>nt com n1+n2-2 graus <strong>de</strong> liberda<strong>de</strong>.<br />
4) Definir a região <strong>de</strong> aceitação <strong>de</strong> H0, <strong>de</strong> acordo com o tipo <strong>de</strong> teste e variável.<br />
Trata-se <strong>de</strong> um teste Unilateral à Direita (com 1% <strong>de</strong> significância), e a variável <strong>de</strong> teste é t tem<br />
n1+n2-2 (8 + <strong>10</strong> – 2 = 16) graus <strong>de</strong> liberda<strong>de</strong>. Então o valor crítico (obtido da tabela da<br />
distribuição normal padrão) será:<br />
t crítico<br />
t<br />
16;<br />
0,<br />
01<br />
<br />
2,<br />
583<br />
Observe a região <strong>de</strong> aceitação <strong>de</strong> H0 na figura abaixo:<br />
Para valores <strong>de</strong> t maiores do que<br />
2,583,<strong>de</strong>ve-se REJEITAR H0, ou seja, a<br />
média do tempo <strong>de</strong> montagem dos circuitos<br />
na Fábrica 1 é maior do que a média da<br />
Fábrica 2 (claro que há 1% <strong>de</strong> chance <strong>de</strong><br />
que venhamos a rejeitar H0 sendo ela<br />
verda<strong>de</strong>ira): as diferenças entre o que era<br />
esperado e o que foi encontrado na<br />
amostra serão consi<strong>de</strong>radas gran<strong>de</strong>s<br />
<strong>de</strong>mais para serem casuais.<br />
5) Calcular o <strong>de</strong>svio padrão das diferenças.<br />
Como as duas variâncias são <strong>de</strong>sconhecidas e supostas iguais, iremos utilizar a segunda expressão<br />
para calcular o <strong>de</strong>svio padrão das diferenças que está no roteiro (no item 5 do roteiro do TESTE<br />
DE DIFERENÇA ENTRE MÉDIAS: teste Z e t para 2 amostras in<strong>de</strong>pen<strong>de</strong>ntes, no apêndice, letra<br />
b.2)<br />
s d<br />
<br />
2<br />
2 1 1 <br />
( n1<br />
1)<br />
s1<br />
(<br />
n2<br />
1)<br />
s2<br />
( 8 1)<br />
1,<br />
5 ( <strong>10</strong> 1)<br />
1,<br />
7<br />
n n 2<br />
1<br />
2<br />
<br />
n<br />
1<br />
<br />
n2<br />
<br />
<br />
8 <strong>10</strong><br />
2<br />
1 <br />
<br />
<br />
8<br />
1<br />
<strong>10</strong><br />
<br />
<br />
<br />
<br />
0,<br />
6023<br />
6) Calcular a variável <strong>de</strong> teste.<br />
Novamente, como as duas variâncias são <strong>de</strong>sconhecidas e supostas iguais, iremos utilizar a<br />
segunda expressão para calcular o valor da variável <strong>de</strong> teste que está no roteiro (no item 5 do<br />
roteiro do TESTE DE DIFERENÇA ENTRE MÉDIAS: teste Z e t para 2 amostras in<strong>de</strong>pen<strong>de</strong>ntes,<br />
no apêndice, letra b.2)<br />
28
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
x1<br />
x2<br />
t16<br />
<br />
sd<br />
=><br />
3,<br />
52 1,<br />
85<br />
t16<br />
2,<br />
772<br />
0,<br />
6023<br />
7)Decidir pela aceitação ou rejeição <strong>de</strong> H0.<br />
Conforme foi visto anteriormente se o valor da variável <strong>de</strong> teste fosse maior do que 2,583 a<br />
hipótese H0 seria rejeitada:<br />
t , 772 t 2,<br />
583<br />
16 2 16;<br />
crítico<br />
Assim, REJEITAMOS H0 a 1% <strong>de</strong> significância..<br />
8) Interpretar a <strong>de</strong>cisão <strong>de</strong>ntro do contexto do problema.<br />
Assim, concluímos com 99% <strong>de</strong> confiança (ou uma chance <strong>de</strong> erro <strong>de</strong> 1%) que HÁ evidências<br />
estatísticas suficientes para <strong>de</strong>clarar que a média do tempo <strong>de</strong> montagem dos circuitos na Fábrica<br />
1 é maior do que a média na Fábrica 2. A suspeita é proce<strong>de</strong>nte. Observe que é uma conclusão<br />
diferente daquela obtida no Exemplo <strong>10</strong>.8.<br />
Exemplo <strong>10</strong>.<strong>10</strong> - A Jabyl Circuits está avaliando o tempo <strong>de</strong> montagem <strong>de</strong> um novo mo<strong>de</strong>lo <strong>de</strong><br />
circuito em 2 <strong>de</strong> suas unida<strong>de</strong>s. Suspeita-se que o <strong>de</strong>sempenho da fábrica 1 seja pior do que o da<br />
fábrica 2 (aquela seria mais lenta). Supõe-se que as distribuições dos tempos po<strong>de</strong>m ser<br />
consi<strong>de</strong>radas normais. Foram coletadas duas amostras <strong>de</strong> tempos <strong>de</strong> montagem: 8 na fábrica 1,<br />
resultando em média <strong>de</strong> 3,52 minutos, variância <strong>de</strong> 0,6 minutos 2 e <strong>10</strong> na fábrica 2, resultando em<br />
média <strong>de</strong> 1,85 minutos e variância <strong>de</strong> 3,5 minutos 2 . A suspeita é proce<strong>de</strong>nte a 1% <strong>de</strong> significância?<br />
Situação semelhante a do Exemplo <strong>10</strong>.9, apenas os valores das variâncias amostrais<br />
sofreram modificação.<br />
Trata-se <strong>de</strong> uma situação em que queremos comparar as MÉDIAS DE DUAS distribuições<br />
normais, supondo que se trata <strong>de</strong> duas populações distintas, po<strong>de</strong>mos supor que as amostras são<br />
in<strong>de</strong>pen<strong>de</strong>ntes: está sendo avaliado o tempo <strong>de</strong> montagem dos circuitos em 2 fábricas<br />
DIFERENTES. Há interesse em verificar se a média da população da fábrica 1 é maior do que a <strong>de</strong><br />
fábrica 2 (ou seja, que leve mais tempo para montar os circuitos na fábrica 1, significando um<br />
<strong>de</strong>sempenho pior). Reparem que é exigido que se tome uma <strong>de</strong>cisão, o que configura um problema<br />
<strong>de</strong> TESTE DE HIPÓTESES.<br />
Iremos então aplicar um TESTE DE DIFERENÇA ENTRE AS MÉDIAS DE UMA<br />
VARIÁVEL EM 2 POPULAÇÕES. O roteiro encontra-se nas páginas 6 e 7 do Apêndice. Como as<br />
amostras são in<strong>de</strong>pen<strong>de</strong>ntes, e as variâncias populacionais são DESCONHECIDAS, vamos usar o<br />
teste t para 2 amostras in<strong>de</strong>pen<strong>de</strong>ntes. Antes, porém precisamos saber se as variâncias<br />
populacionais po<strong>de</strong>m ser consi<strong>de</strong>radas iguais ou não: é preciso aplicar o teste F <strong>de</strong> diferença entre<br />
2 variâncias.<br />
TESTE F<br />
H<br />
0<br />
2<br />
: <br />
1<br />
<br />
2<br />
2<br />
2 2<br />
H1<br />
: 1 2<br />
Queremos apenas verificar se há DIFERENÇA entre as variâncias, por isso o teste será<br />
sempre BILATERAL.<br />
Nível <strong>de</strong> significância: como a tabela da distribuição F (que está na página 13 do Apêndice)<br />
apresenta valores apenas para 5% <strong>de</strong> significância (teste bilateral) este será o nível<br />
adotado em todos os testes F.<br />
2<br />
Encontrar a maior variância amostral, que será chamada <strong>de</strong> s A (e, por conseguinte, nA) e<br />
2<br />
a menor que será chamada s B (e por conseguinte, nB). Neste problema teremos:<br />
2 2<br />
2<br />
s s 3,<br />
5min<br />
e n <strong>10</strong><br />
A 2<br />
A<br />
2 2<br />
2<br />
B s1<br />
0,<br />
6min<br />
e nB<br />
<br />
s<br />
8<br />
Então a variável <strong>de</strong> teste do teste F será:<br />
29
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
2<br />
s 3,<br />
5<br />
A Fn<br />
1,<br />
1<br />
2 F9,<br />
7 5,<br />
833<br />
A nB<br />
sB<br />
0,<br />
6<br />
Procurando o valor crítico na tabela da distribuição F (página 14 do Apêndice), para 9<br />
graus <strong>de</strong> liberda<strong>de</strong> no numerador e 7 no <strong>de</strong>nominador: F9,7;0,025 = 5,52. Como o valor da<br />
variável F9,7 (1,133) é MAIOR do que o valor crítico po<strong>de</strong>mos REJEITAR a hipótese <strong>de</strong> que<br />
as variâncias populacionais, <strong>de</strong>sconhecidas, são iguais, com uma chance <strong>de</strong> erro <strong>de</strong> 5%.<br />
Sendo assim, a nossa variável t <strong>de</strong> Stu<strong>de</strong>nt terá graus <strong>de</strong> liberda<strong>de</strong>.<br />
Agora po<strong>de</strong>mos partir para o teste t propriamente dito.<br />
1) Enunciar as hipóteses<br />
De acordo com o que foi no enunciado do problema queremos verificar se a média da fábrica 1 é<br />
maior do que a da fábrica 2; o melhor ponto <strong>de</strong> partida, que servirá para a <strong>de</strong>finição da hipótese<br />
H0, será consi<strong>de</strong>rar que NÃO HÁ DIFERENÇA entre as médias, ou seja, A MÉDIA DO TEMPO<br />
DE MONTAGEM NA FÁBRICA 1 É IGUAL AO TEMPO DE MONTAGEM NA FÁBRICA 2<br />
(costumamos colocar em H0 o CONTRÁRIO do que queremos provar), teremos então:<br />
H 0 : 1<br />
2<br />
on<strong>de</strong> 1<br />
e <br />
FÁBRICA1<br />
2 FÁBRICA2<br />
H 1 : 1<br />
2<br />
2) Estabelecer o nível <strong>de</strong> significância ou nível <strong>de</strong> confiança.<br />
Conforme foi estabelecido no enunciado do problema:<br />
0 , 01 1<br />
0,<br />
99<br />
3) I<strong>de</strong>ntificar a variável <strong>de</strong> teste.<br />
Como as variâncias populacionais são <strong>de</strong>sconhecidas e supostas diferentes (<strong>de</strong> acordo com o teste<br />
F) a variável t terá graus <strong>de</strong> liberda<strong>de</strong>, que será calculado a seguir:<br />
<br />
<br />
<br />
2 <br />
2<br />
2<br />
<br />
( 1<br />
2)<br />
<br />
s1<br />
0,<br />
6<br />
s2<br />
3,<br />
5<br />
<br />
2 on<strong>de</strong> 2<br />
2<br />
1 0,<br />
075 2 0,<br />
35<br />
<br />
1 <br />
n 8<br />
2<br />
1<br />
n2<br />
<strong>10</strong><br />
<br />
n1<br />
1<br />
n 2 1<br />
<br />
<br />
<br />
<br />
2<br />
( 0,<br />
075 0,<br />
35)<br />
<br />
<br />
2 13 assim, 13<br />
2<br />
2 <br />
<br />
( 0,<br />
075)<br />
( 0,<br />
35)<br />
<br />
<br />
8 1<br />
<strong>10</strong> 1<br />
<br />
Então a variável <strong>de</strong> teste t <strong>de</strong> Stu<strong>de</strong>nt terá 13 graus <strong>de</strong> liberda<strong>de</strong> 27 .<br />
4) Definir a região <strong>de</strong> aceitação <strong>de</strong> H0, <strong>de</strong> acordo com o tipo <strong>de</strong> teste e variável.<br />
Trata-se <strong>de</strong> um teste Unilateral à Direita (com 1% <strong>de</strong> significância), e a variável <strong>de</strong> teste é t tem <br />
= 13 graus <strong>de</strong> liberda<strong>de</strong>. Então o valor crítico (obtido da tabela da distribuição normal padrão)<br />
será:<br />
t crítico<br />
t<br />
13;<br />
0,<br />
01<br />
Observe a região <strong>de</strong> aceitação <strong>de</strong> H0 na figura abaixo:<br />
27 Observe que é um processo razoavelmente trabalhoso.<br />
<br />
2,<br />
650<br />
30
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
5) Calcular o <strong>de</strong>svio padrão das diferenças.<br />
Como as duas variâncias são <strong>de</strong>sconhecidas e supostas diferentes, iremos utilizar a terceira<br />
expressão para calcular o <strong>de</strong>svio padrão das diferenças que está no roteiro (no item 5 do roteiro do<br />
TESTE DE DIFERENÇA ENTRE MÉDIAS: teste Z e t para 2 amostras in<strong>de</strong>pen<strong>de</strong>ntes, no apêndice,<br />
letra b.3)<br />
s<br />
2 2<br />
s1<br />
s2<br />
0,<br />
6 3,<br />
5<br />
d sd<br />
<br />
n1<br />
n2<br />
8 <strong>10</strong><br />
0,<br />
6519<br />
6) Calcular a variável <strong>de</strong> teste.<br />
Novamente, como as duas variâncias são <strong>de</strong>sconhecidas e supostas diferentes, iremos utilizar a<br />
terceira expressão para calcular o valor da variável <strong>de</strong> teste que está no roteiro (no item 5 do<br />
roteiro do TESTE DE DIFERENÇA ENTRE MÉDIAS: teste Z e t para 2 amostras in<strong>de</strong>pen<strong>de</strong>ntes,<br />
no apêndice, letra b.3)<br />
x1<br />
x2<br />
3,<br />
52 1,<br />
85<br />
t13 => t13<br />
2,<br />
562<br />
s<br />
0,<br />
6519<br />
d<br />
7)Decidir pela aceitação ou rejeição <strong>de</strong> H0.<br />
Conforme foi visto anteriormente se o valor da variável <strong>de</strong> teste fosse maior do que 2,650 a<br />
hipótese H0 seria rejeitada:<br />
Assim, ACEITAMOS H0 a 1% <strong>de</strong> significância..<br />
t<br />
13<br />
2 , 562 t13;<br />
crítico <br />
Para valores <strong>de</strong> t maiores do<br />
que 2,650, <strong>de</strong>ve-se REJEITAR H0, ou<br />
seja a média do tempo <strong>de</strong> montagem<br />
dos circuitos na Fábrica 1 é maior do<br />
que a média da Fábrica 2 (claro que há<br />
1% <strong>de</strong> chance <strong>de</strong> que venhamos a<br />
rejeitar H0 sendo ela verda<strong>de</strong>ira): as<br />
diferenças entre o que era esperado e o<br />
que foi encontrado na amostra serão<br />
consi<strong>de</strong>radas gran<strong>de</strong>s <strong>de</strong>mais para<br />
serem casuais.<br />
2,<br />
650<br />
8) Interpretar a <strong>de</strong>cisão <strong>de</strong>ntro do contexto do problema.<br />
Assim, concluímos com 99% <strong>de</strong> confiança (ou uma chance <strong>de</strong> erro <strong>de</strong> 1%) que NÃO há evidências<br />
estatísticas suficientes para <strong>de</strong>clarar que a média do tempo <strong>de</strong> montagem dos circuitos na Fábrica<br />
1 é maior do que a média na Fábrica 2. A suspeita NÃO é proce<strong>de</strong>nte.<br />
31
BIBLIOGRAFIA<br />
INE 7002 - <strong>Inferência</strong> <strong>Estatística</strong> – <strong>Testes</strong> <strong>de</strong> <strong>Hipóteses</strong><br />
1. BARBETTA,P. A. <strong>Estatística</strong> Aplicada às Ciências Sociais. Ed. da UFSC, 7 ed. Florianópolis,<br />
2007.<br />
2. STEVENSON, Willian J. <strong>Estatística</strong> Aplicada à Administração. – São Paulo: Harbra, 2001<br />
3. MOORE, D.S., McCABE, G.P., DUCKWORTH, W.M., SCLOVE, S. L., A prática da estatística<br />
empresarial: como usar dados para tomar <strong>de</strong>cisões. Rio <strong>de</strong> Janeiro: LTC, 2006.<br />
4. TRIOLA, M. F. – Introdução à <strong>Estatística</strong>, 9ª ed., Rio <strong>de</strong> Janeiro: LTC, 2005.<br />
5. SOARES, J. F., FARIAS, A. A., CESAR, C. C. – Introdução à <strong>Estatística</strong>, 2ª ed., Rio <strong>de</strong> Janeiro:<br />
LTC, 2003.<br />
6. BRAULE, Ricardo. <strong>Estatística</strong> Aplicada com Excel: para cursos <strong>de</strong> administração e economia.<br />
Rio <strong>de</strong> Janeiro: Campus, 2001.<br />
7. LEVINE, D. M., STEPHAN, D., KREHBIEL, T. C., BERENSON, M. L. <strong>Estatística</strong>: Teoria e<br />
Aplicações - Usando Microsoft Excel em Português. 5ª ed. – Rio <strong>de</strong> Janeiro: LTC, 2005.<br />
8. DOWNING, D., CLARK, J. <strong>Estatística</strong> Aplicada. São Paulo: Saraiva, 2000.<br />
9. SILVA, Paulo Afonso Lopes da, Probabilida<strong>de</strong>s & <strong>Estatística</strong>. Rio <strong>de</strong> Janeiro: Reichmann &<br />
Affonso Editores, 1999.<br />
<strong>10</strong>. BARBETTA, P.A., REIS, M.M., BORNIA, A.C. <strong>Estatística</strong> para Cursos <strong>de</strong> Engenharia e<br />
Informática, 3ª ed., São Paulo: Atlas, 20<strong>10</strong>.<br />
Muitas das figuras foram feitas utilizando os seguintes programas computacionais:<br />
SILA - Statistical Inference Laboratory - Autor: Sytse Knypstra, Universida<strong>de</strong> <strong>de</strong> Groningen,<br />
Holanda.<br />
PQRS - Autor: Sytse Knypstra, Universida<strong>de</strong> <strong>de</strong> Groningen, Holanda.<br />
32