Folha 1 Iniciação ao R - Departamento de Matemática da ...
Folha 1 Iniciação ao R - Departamento de Matemática da ...
Folha 1 Iniciação ao R - Departamento de Matemática da ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Universi<strong>da</strong><strong>de</strong> do Minho<br />
<strong>Departamento</strong> <strong>de</strong> <strong>Matemática</strong> Bioestatística (OCV, 2009/2010)<br />
<strong>Folha</strong> 1<br />
<strong>Iniciação</strong> <strong>ao</strong> R 1<br />
1 Para instalar em versão Windows: no site http://neacm.fe.up.pt/CRAN/ escolher Windows->base-> Download R 2.10.1 for<br />
Windows.<br />
1
Os objectos mais básicos são vectores, matrizes, quadros e listas (vector, matrix, <strong>da</strong>ta.frame, list).<br />
Os vectores são sequências <strong>de</strong> elementos todos do mesmo tipo (e.g., números, nomes, valores lógicos – TRUE<br />
ou FALSE), as matrizes são quadros rectangulares <strong>de</strong> r linhas por s colunas, contendo elementos todos do<br />
mesmo tipo, os quadros po<strong>de</strong>m ter colunas com diferentes tipos <strong>de</strong> elementos e as listas têm componentes que<br />
são objectos quaisquer, incluindo outras listas. Ca<strong>da</strong> objecto pertence a uma classe (class, po<strong>de</strong>ndo ser<br />
character, logical, numeric, matrix, <strong>da</strong>ta.frame, list, table, function, …).<br />
Os <strong>da</strong>dos po<strong>de</strong>m ser introduzidos com a função c, com a função scan() – para introduzir <strong>da</strong>dos<br />
quantitativos (separados por espaços) ou scan( ,””) – para introduzir <strong>da</strong>dos qualitativos (separados por<br />
espaços) ou lidos a partir <strong>de</strong> ficheiros importados (para a leitura dos <strong>da</strong>dos po<strong>de</strong>m ser usados os comandos<br />
scan e read.table). Por exemplo, o comando<br />
puls
Exercícios<br />
1. Suponha que o gasto mensal (em euros) <strong>de</strong> água num <strong>de</strong>terminado agregado familiar, durante o ano<br />
<strong>de</strong> 2008, foi a seguinte:<br />
13.15 12.9 19.09 23.2 26.52 20.7 28.5 15.65 25.65 21.37 14.7 16.42<br />
a) Crie o vector agua com os <strong>da</strong>dos acima.<br />
b) Indique: o gasto máximo, o gasto mínimo, o gasto total e o gasto médio <strong>de</strong> água durante esse ano.<br />
c) Introduza o vector mes dos meses:<br />
Jan Fev Mar Abr Maio Jun Jul Agos Set Out Nov Dez<br />
Associe a ca<strong>da</strong> gasto o mês correspon<strong>de</strong>nte:<br />
i) usando o comando <strong>da</strong>ta.frame;<br />
ii) usando o comando names;<br />
e indique o mês em que gastou menos e o mês em que gastou mais.<br />
d) Admitindo que o valor do mês <strong>de</strong> Agosto está errado e que o valor correcto é 35.65, refaça a<br />
alínea b) após efectuar a correcção.<br />
2. O ficheiro world.txt contém <strong>da</strong>dos relativos a diversas variáveis em diferentes países.<br />
a) Use o comando read.table para introduzir os <strong>da</strong>dos e indique a classe a que pertencem.<br />
b) Obtenha apenas os valores referentes <strong>ao</strong>s <strong>da</strong>dos em lit.hom e lit.mul, correspon<strong>de</strong>ntes,<br />
respectivamente, à percentagem <strong>de</strong> homens e mulheres que sabem ler e escrever. Construa dois<br />
novos vectores, eliminando as observações nulas (<strong>da</strong>dos indisponíveis). Com quantas observações<br />
ficou Indique os países correspon<strong>de</strong>ntes a essas observações nulas.<br />
c) Os <strong>da</strong>dos em esp.hom e esp.mul correspon<strong>de</strong>m à esperança média <strong>de</strong> vi<strong>da</strong> <strong>de</strong> homens e<br />
mulheres, respectivamente e em popurbana encontra-se a percentagem <strong>de</strong> população que vive em<br />
ci<strong>da</strong><strong>de</strong>s. Que <strong>da</strong>dos correspon<strong>de</strong>m a uma esperança média <strong>de</strong> vi<strong>da</strong> superior a 75 anos, nos casos <strong>de</strong><br />
uma população maioritariamente (mais <strong>de</strong> 50%) não urbana<br />
3. Consi<strong>de</strong>re a amostra airquality do package <strong>da</strong>tasets. Use help para obter informação<br />
sobre os <strong>da</strong>dos. Determine a temperatura máxima no mês <strong>de</strong> Maio e a radiação solar média do 5º dia<br />
<strong>de</strong> ca<strong>da</strong> mês.<br />
sen(<br />
ax)<br />
4. Usando o comando function, <strong>de</strong>fina a função, , para diferentes valores dos parâmetros, a<br />
bx<br />
1 e<br />
e b. Represente num mesmo gráfico a função para vários valores dos parâmetros, consi<strong>de</strong>rando<br />
x [2,2] e o eixo dos yy no intervalo [ 1,1 ] , usando cores diferentes. Coloque um título no gráfico e<br />
nos eixos. Coloque também uma legen<strong>da</strong>. Com base no comando abline, acrescente as rectas,<br />
y x 1,<br />
y 1/ 3 e x / 2 , usando diferentes tipos <strong>de</strong> linhas. Use o comando text para rotular ca<strong>da</strong><br />
uma <strong>da</strong>s rectas.<br />
5. Simule 10000 lançamentos <strong>de</strong> um <strong>da</strong>do equilibrado. Elabore tabelas e gráficos <strong>da</strong> amostra. Repita o<br />
exercício para um <strong>da</strong>do viciado (e.g., na proporção 1:1:2:1:2:2).<br />
6. Consi<strong>de</strong>re os <strong>da</strong>dos <strong>da</strong> amostra Traffic no package MASS. Classifique as variáveis limit e y<br />
(tipo/escala). Efectue um tratamento estatístico para os <strong>da</strong>dos <strong>da</strong> variável limit. Em relação <strong>ao</strong>s<br />
<strong>da</strong>dos em y, consi<strong>de</strong>re o subconjunto do n.º <strong>de</strong> aci<strong>de</strong>ntes em estra<strong>da</strong>s com indicação do limite <strong>de</strong><br />
veloci<strong>da</strong><strong>de</strong> e o subconjunto do n.º <strong>de</strong> aci<strong>de</strong>ntes em estra<strong>da</strong>s sem indicação do limite <strong>de</strong> veloci<strong>da</strong><strong>de</strong>.<br />
Efectue representações gráficas a<strong>de</strong>qua<strong>da</strong>s e calcule as principais características amostrais para ca<strong>da</strong><br />
um <strong>de</strong>les, comparando-os.<br />
3
7. Consi<strong>de</strong>re os <strong>da</strong>dos abaixo referentes <strong>ao</strong> número <strong>de</strong> oficiais do exército prussiano mortos<br />
anualmente por coice <strong>de</strong> cavalo, registados em ca<strong>da</strong> uma <strong>de</strong> 10 uni<strong>da</strong><strong>de</strong>s <strong>de</strong>sse exército, durante 20<br />
anos consecutivos (<strong>de</strong> 1875 a 1894). Calcule as principais características amostrais e construa gráficos<br />
a<strong>de</strong>quados.<br />
n.º mortes 0 1 2 3 4 5 ou mais<br />
frequência 109 65 22 3 1 0<br />
8. A amostra trees no package <strong>da</strong>tasets fornece medições do perímetro (Girth) em polega<strong>da</strong>s,<br />
altura (Height) em pés e volume (Volume) em pés cúbicos em 31 árvores. Consi<strong>de</strong>re os <strong>da</strong>dos em<br />
Girth e calcule as principais características amostrais (medi<strong>da</strong>s <strong>de</strong> localização, dispersão, forma e<br />
coeficiente <strong>de</strong> dispersão). Sabendo que 1 polega<strong>da</strong> correspon<strong>de</strong> a 2.54 cm, refaça o exercício com os<br />
<strong>da</strong>dos convertidos em centímetros. Conclua acerca <strong>da</strong> sensibili<strong>da</strong><strong>de</strong> <strong>da</strong>s medi<strong>da</strong>s utiliza<strong>da</strong>s face a<br />
mu<strong>da</strong>nças <strong>de</strong> escala. Consi<strong>de</strong>re também uma mu<strong>da</strong>nça <strong>de</strong> localização (e.g., some 3 uni<strong>da</strong><strong>de</strong>s <strong>ao</strong>s <strong>da</strong>dos<br />
em Girth).<br />
9. Consi<strong>de</strong>re a amostra vulc<strong>ao</strong> corespon<strong>de</strong>nte à duração <strong>da</strong>s erupções (duração) e tempos entre as<br />
mesmas (tempo), em segundos, num vulcão <strong>de</strong> uma certa região. Construa gráficos <strong>de</strong> caule-e-folhas,<br />
diagramas <strong>de</strong> caixa-com-bigo<strong>de</strong>s e histogramas para as amostras referi<strong>da</strong>s. Calcule as principais<br />
características amostrais. Usando o coeficiente <strong>de</strong> dispersão indique qual <strong>da</strong>s duas variáveis é mais<br />
variável. Resolva <strong>de</strong> novo para a amostra “duração” para valores inferiores a 2.9 minutos e <strong>de</strong>pois<br />
para valores superiores. Repita para a amostra “tempo”, primeiro relativamente <strong>ao</strong>s tempos<br />
correspon<strong>de</strong>nte a durações inferiores a 2.9 minutos e <strong>de</strong>pois correspon<strong>de</strong>ntes a durações superiores a<br />
esse valor. Comente quanto à assimetria.<br />
10. Consi<strong>de</strong>re a amostra puls (ver pág. 2). Calcule características amostrais usuais para os <strong>da</strong>dos <strong>da</strong><br />
altura (Height) dos homens (Gen<strong>de</strong>r=1). Construa um histograma. Construa um diagrama <strong>de</strong> caixacom-bigo<strong>de</strong>s.<br />
Que tipo <strong>de</strong> outlier obtém Retire o outlier e refaça o exercício. Comente o resultado.<br />
Usando o coeficiente <strong>de</strong> dispersão (e retirando eventuais outliers severos), diga qual <strong>da</strong>s duas<br />
variáveis, peso dos homens (Weight) e altura dos homens, é mais variável.<br />
11. Um conjunto <strong>de</strong> peritos classificou sete vinhos <strong>de</strong> mesa, <strong>de</strong> 1 (melhor) a 7 (pior) quanto à<br />
quali<strong>da</strong><strong>de</strong>, tendo-se registado o teor <strong>de</strong> SO 2 em ca<strong>da</strong> um. Verifique se existe alguma associação entre a<br />
quali<strong>da</strong><strong>de</strong> e o teor <strong>de</strong> SO 2 no vinho.<br />
Vinho A B C D E F G<br />
Classif. 1 2 3 4 5 6 7<br />
Teor SO 2 (p.p.m.) 0.9 2.7 1.7 2.9 3.5 3.3 4.5<br />
12. Consi<strong>de</strong>re os <strong>da</strong>dos mammals no package MASS. Elabore um diagrama <strong>de</strong> dispersão dos <strong>da</strong>dos e<br />
calcule o coeficiente <strong>de</strong> correlação. Ajuste um mo<strong>de</strong>lo linear e analise o ajustamento obtido. Refaça<br />
consi<strong>de</strong>rando o logaritmo dos <strong>da</strong>dos. Comente.<br />
.<br />
13. Na lei <strong>de</strong> Ohm, I V / R , em que I é a intensi<strong>da</strong><strong>de</strong> <strong>da</strong> corrente num fio <strong>de</strong> metal, V é a diferença <strong>de</strong><br />
potencial aplica<strong>da</strong> nos seus extremos, R é a resistência do fio. Para um <strong>da</strong>do fio, registou-se a<br />
intensi<strong>da</strong><strong>de</strong> I em função <strong>de</strong> V, tal como se segue. Estime o valor <strong>de</strong> R pelo método dos mínimos<br />
quadrados.<br />
diferença <strong>de</strong> potencial 0.5 1.0 1.5 1.8 2.0<br />
intensi<strong>da</strong><strong>de</strong> <strong>da</strong> corrente 0.52 1.19 1.62 2.00 2.4<br />
4
14. A amostra que se segue diz respeito à altura e à distância atingi<strong>da</strong>s no lançamento <strong>de</strong> um objecto<br />
numa experiência. Elabore um diagrama <strong>de</strong> dispersão dos <strong>da</strong>dos e comente acerca <strong>da</strong> pertinência <strong>de</strong><br />
um ajustamento linear. Ajuste uma recta, uma parábola e um polinómio <strong>de</strong> grau 3, indicando o mo<strong>de</strong>lo<br />
que lhe parece mais a<strong>de</strong>quado no ajustamento <strong>ao</strong>s <strong>da</strong>dos. Efectue representações gráficas <strong>da</strong>s curvas<br />
obti<strong>da</strong>s pelos ajustamentos. Refaça com as curvas obti<strong>da</strong>s quando consi<strong>de</strong>ra também previsões para<br />
alturas maiores e comente quanto <strong>ao</strong> “perigo” <strong>da</strong>s extrapolações.<br />
Altura 100 200 300 450 600 800 1000<br />
Distância 253 337 395 451 495 534 574<br />
15. Registou-se a propagação <strong>de</strong> um fungo numa árvore durante 300 dias. Averigúe acerca <strong>de</strong> um<br />
mo<strong>de</strong>lo a<strong>de</strong>quado para <strong>de</strong>screver a percentagem <strong>de</strong> superfície coberta pelo fungo, em função do tempo.<br />
Analise a quali<strong>da</strong><strong>de</strong> do ajustamento obtido. Estime a percentagem <strong>de</strong> superfície coberta pelo fungo <strong>ao</strong><br />
fim <strong>de</strong> 150 dias.<br />
Tempo(dias) 20 40 60 90 120 180 240 300<br />
% coberta pelo fungo 1.0 1.3 1.6 2.2 4.7 11.4 33.6 95.7<br />
16. Consi<strong>de</strong>re novamente a amostra puls do exercício 10. Nesta experiência, ca<strong>da</strong> estu<strong>da</strong>nte me<strong>de</strong> a<br />
sua pulsação (Pulse1), em segui<strong>da</strong> lança uma moe<strong>da</strong> <strong>ao</strong> ar e consoante o resultado, cara ou coroa,<br />
corre durante 1 minuto ou fica parado (variável Ran =1 significa que correu e Ran =2 significa que<br />
ficou parado). Me<strong>de</strong>-se <strong>de</strong> novo a pulsação <strong>de</strong> ca<strong>da</strong> estu<strong>da</strong>nte (Pulse2). Para os estu<strong>da</strong>ntes que<br />
correram, elabore um diagrama <strong>de</strong> dispersão dos <strong>da</strong>dos (Pulse1, Pulse2). Efectue um estudo <strong>de</strong><br />
regressão linear <strong>de</strong> Pulse2 em função <strong>de</strong> Pulse1, após retirar os <strong>da</strong>dos correspon<strong>de</strong>ntes a outliers<br />
severos e tire conclusões (discuta a vali<strong>da</strong><strong>de</strong> do mo<strong>de</strong>lo). Preveja a pulsação após um minuto <strong>de</strong><br />
corri<strong>da</strong> para um estu<strong>da</strong>nte com 79 pulsações antes <strong>de</strong> correr.<br />
5