Dissertação em PDF - departamento de engenharia florestal - ufpr ...

Dissertação em PDF - departamento de engenharia florestal - ufpr ... Dissertação em PDF - departamento de engenharia florestal - ufpr ...

floresta.ufpr.br
from floresta.ufpr.br More from this publisher
27.10.2013 Views

Os casos que apresentaram percentual de dados perdidos acima de 25 foram as coletas realizadas em março de 2009 e maio de 2010, ambas para o período posterior ao corte, e foram eliminadas da matriz de dados. O período anteior ao corte não apresentou casos com este percentual de dados perdidos. Conforme descrito no item 3.5, foram realizadas 47 campanhas de campo entre 2007 e 2011, e 15 variáveis eram consideradas para aplicação da análise estatística multivariada, sendo 12 parâmetros de qualidade de água, somadas a vazão dos cursos de água, a precipitação total mensal e a precipitação ocorrida 48 horas antes das coletas. Com a aplicação dos critérios de corte de variáveis e casos, resultaram em 14 variáveis e 45 coletas (casos). Dentre as 45 coletas de campo, 20 delas ocorreram no período anterior ao corte dos pinus em APP, e 25 no período posterior, com exceção do ponto 5 em que as atividades de corte tiveram início em junho de 2008. Para o ponto 5 foram 13 campanhas no período anterior ao corte, e 31 no período posterior. O ponto 5 teve uma coleta a mais eliminada da matriz dos dados, a coleta do mês de maio de 2008, evento em que ocorreu a quebra da vidraria com as amostras durante o transporte até o laboratório. Com a eliminação da variável e dos casos com maiores ocorrências de dados ausentes, os percentuais de dados perdidos para toda a matriz diminuíram de forma expressiva, mas não completamente. Seguiu-se, portanto, com o tratamento dos dados ausentes, diagnosticando a aleatoriedade dos processos de perda de dados para subsidiar a tomada de decisão da etapa de atribuição de dados. Os processos que induziram perda de dados durante o monitoramento de qualidade de água ocorreram de forma aleatória, sem tendências ou padrões de falhas na obtenção dos dados, exceto para o parâmetro Nitrogênio total, que já foi eliminado no passo 2. Em alguns casos foi por danificação de equipamento ou quebra de vidraria durante a campanha de campo, reagentes que não chegaram no prazo descrito, perda de amostra por queda de energia no laboratório, entre outros. Foram eventualidades que proporcionaram a ausência de dados, e não possuem relação com outra variável da matriz de dados. Desta forma, enquadram-se como dados completamente perdidos ao acaso (MCAR). A partir da identificação da aleatoriedade dos processos de perda de dados, definiu-se o método de atribuição dos casos com ausência de dados. Os dados 82

perdidos foram estimados a partir de dois métodos: (1) Substituição pela média para variáveis com até 15% de dados perdidos; e (2) Método da regressão linear múltipla, utilizado por Mazlum et al. (1999) e proposto por Buck (1960 3 ). Este método é baseado no uso de equação de regressão linear múltipla, definindo a variável com dados perdidos como a variável dependente da equação. As equações de regressão linear múltipla para estimação dos dados ausentes foram obtidas através da função multiple regression do programa Statgraphics Centurion XV.II. Para cada variável com dados perdidos (variável dependente), foram realizados diversos testes de regressão múltipla visando identificar quais variáveis independentes melhor explicavam a variância dos dados da variável dependente. Para isto, foi monitorado o R 2 , o R 2 ajustado e o desvio padrão do erro das equações, bem como os p-values da Análise de Variância. Os métodos empregados para atribuição dos dados para as coletas realizadas no período anterior e posterior ao corte estão relacionados na tabela do Apêndice I. 3.6.1.2. Teste de normalidade A avaliação de normalidade das variáveis aleatórias foi realizada através do cálculo de assimetria e curtose, que são medidas empíricas da forma de distribuição dos dados da variável aleatória. Valores de assimetria e curtose maiores que 2,0 ou menores que -2,0 indicam que a distribuição dos dados difere de uma distribuição normal a um nível de significância de 0,05 (Hair et al., 2009, pg. 83). As variáveis que apresentaram desvios de normalidade foram transformadas conforme descrito no item seguinte. 3 Buck, S.F. A method of estimation of missing values in multivariate data suitable for use with an electronic computer. The Journal of the Royal Statistics Society, Vol.22, No.2, 302-306, 1960. 83

perdidos foram estimados a partir <strong>de</strong> dois métodos: (1) Substituição pela média para<br />

variáveis com até 15% <strong>de</strong> dados perdidos; e (2) Método da regressão linear múltipla,<br />

utilizado por Mazlum et al. (1999) e proposto por Buck (1960 3 ). Este método é<br />

baseado no uso <strong>de</strong> equação <strong>de</strong> regressão linear múltipla, <strong>de</strong>finindo a variável com<br />

dados perdidos como a variável <strong>de</strong>pen<strong>de</strong>nte da equação.<br />

As equações <strong>de</strong> regressão linear múltipla para estimação dos dados<br />

ausentes foram obtidas através da função multiple regression do programa<br />

Statgraphics Centurion XV.II. Para cada variável com dados perdidos (variável<br />

<strong>de</strong>pen<strong>de</strong>nte), foram realizados diversos testes <strong>de</strong> regressão múltipla visando<br />

i<strong>de</strong>ntificar quais variáveis in<strong>de</strong>pen<strong>de</strong>ntes melhor explicavam a variância dos dados<br />

da variável <strong>de</strong>pen<strong>de</strong>nte. Para isto, foi monitorado o R 2 , o R 2 ajustado e o <strong>de</strong>svio<br />

padrão do erro das equações, b<strong>em</strong> como os p-values da Análise <strong>de</strong> Variância.<br />

Os métodos <strong>em</strong>pregados para atribuição dos dados para as coletas<br />

realizadas no período anterior e posterior ao corte estão relacionados na tabela do<br />

Apêndice I.<br />

3.6.1.2. Teste <strong>de</strong> normalida<strong>de</strong><br />

A avaliação <strong>de</strong> normalida<strong>de</strong> das variáveis aleatórias foi realizada através do<br />

cálculo <strong>de</strong> assimetria e curtose, que são medidas <strong>em</strong>píricas da forma <strong>de</strong> distribuição<br />

dos dados da variável aleatória. Valores <strong>de</strong> assimetria e curtose maiores que 2,0 ou<br />

menores que -2,0 indicam que a distribuição dos dados difere <strong>de</strong> uma distribuição<br />

normal a um nível <strong>de</strong> significância <strong>de</strong> 0,05 (Hair et al., 2009, pg. 83).<br />

As variáveis que apresentaram <strong>de</strong>svios <strong>de</strong> normalida<strong>de</strong> foram transformadas<br />

conforme <strong>de</strong>scrito no it<strong>em</strong> seguinte.<br />

3 Buck, S.F. A method of estimation of missing values in multivariate data suitable for use with an electronic<br />

computer. The Journal of the Royal Statistics Society, Vol.22, No.2, 302-306, 1960.<br />

83

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!