16.04.2013 Views

Encontrando o Número de Classes de um Histograma

Encontrando o Número de Classes de um Histograma

Encontrando o Número de Classes de um Histograma

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

ENCONTRANDO O NÚMERO DE CLASSES DE UM HISTOGRAMA<br />

Tales Jesus Fernan<strong>de</strong>s 1 ; Eric Batista Ferreira 2 ;<br />

INTRODUÇÃO<br />

Na estatística, <strong>um</strong> histograma é <strong>um</strong>a representação gráfica da distribuição <strong>de</strong><br />

freqüências <strong>de</strong> <strong>um</strong>a massa <strong>de</strong> medições, normalmente <strong>um</strong> gráfico <strong>de</strong> barras verticais. A<br />

construção <strong>de</strong> histogramas tem caráter preliminar em qualquer estudo e é <strong>um</strong> importante<br />

indicador da distribuição <strong>de</strong> dados. Os histogramas po<strong>de</strong>m tanto indicar quando <strong>um</strong>a<br />

distribuição aproxima-se <strong>de</strong> <strong>um</strong>a função normal, como po<strong>de</strong>m indicar <strong>um</strong>a mistura <strong>de</strong><br />

populações, quando se apresentam bimodais (WIKIPEDIA, 2008).<br />

Como o histograma é a representação gráfica <strong>de</strong> <strong>um</strong>a distribuição <strong>de</strong> freqüências, ou<br />

seja, dados agrupados em classes, <strong>um</strong> dos primeiros passos na sua construção é a<br />

<strong>de</strong>terminação do número <strong>de</strong> classes (K). E este é <strong>um</strong> problema que já vem sido discutido há<br />

muito tempo. Sturges (1926) propôs que o número <strong>de</strong> classes po<strong>de</strong>ria ser <strong>de</strong>terminado por<br />

2<br />

( )<br />

K = 1+ log N . Embora funcionasse bem para distribuições simétricas, o número <strong>de</strong> classes<br />

<strong>de</strong> Sturges era insuficiente para <strong>de</strong>monstrar a verda<strong>de</strong>ira inclinação <strong>de</strong> distribuições<br />

assimétricas.<br />

Doane (1976), baseando-se na estatística<br />

e em seu <strong>de</strong>svio padrão<br />

σ<br />

∑ X − X<br />

∑(<br />

X − X)<br />

3<br />

( )<br />

b =<br />

⎡ ⎤<br />

⎣ ⎦<br />

b<br />

1<br />

2<br />

32<br />

1<br />

=<br />

6( N − 2)<br />

,<br />

( N + 1)( N + 3)<br />

tentou solucionar esse problema propondo <strong>um</strong>a fórmula para adicionar classes extras ao K <strong>de</strong><br />

Sturges.<br />

O número <strong>de</strong> classes extras proposto por Doane (1976) é dado por<br />

K<br />

e<br />

⎛ b1<br />

⎞<br />

= log2 ⎜<br />

1+<br />

⎟<br />

σ b1<br />

⎟<br />

.<br />

⎝ ⎠<br />

1 Graduando em Matemática – UFLA – email: talesufla7@yahoo.com.br.<br />

2 Pos-doc – Departamento <strong>de</strong> Ciências Exatas – UFLA – email: ericbferreira@gmail.com.


Se b 1 = 0 , nenh<strong>um</strong>a classe é adicionada, a distribuição é simétrica e o número <strong>de</strong><br />

classes é dado pela fórmula <strong>de</strong> Sturges (1926). Esta adição <strong>de</strong> classes extras é <strong>de</strong>crescente. A<br />

taxa <strong>de</strong> incremento <strong>de</strong>crescente foi baseada na teoria da informação codificada (Pierce,<br />

1961), em que a entropia <strong>de</strong> <strong>um</strong>a mensagem é dada por:<br />

⎛ 1 ⎞<br />

− log 2 ⎜ ⎟<br />

⎝ M ⎠ ,<br />

sendo M o número <strong>de</strong> diferentes e prováveis símbolos que possam ocorrer. Os símbolos vão<br />

sendo incluídos na codificação <strong>de</strong> mensagens em <strong>um</strong>a escala também <strong>de</strong>crescente.<br />

No entanto, o critério <strong>de</strong> adicionar classes extras <strong>de</strong> Doane (1976) possui <strong>um</strong>a<br />

inconsistência. Se a distribuição que gerou os dados for assimétrica à esquerda, b 1 será<br />

negativo então,<br />

b1<br />

σ b<br />

1<br />

também será negativa, pois 1 b σ só <strong>de</strong>pen<strong>de</strong> do tamanho da amostra<br />

e nunca será negativo.<br />

Tomando os <strong>de</strong>vidos cuidados <strong>de</strong> impor as proprieda<strong>de</strong>s do logaritmo, tem-se que<br />

b1<br />

b1<br />

1+ > 0,<br />

logo,<br />

σ b1<br />

σ b<br />

Como o valor <strong>de</strong><br />

1<br />

>− 1 .<br />

b1<br />

σ b<br />

1<br />

b1<br />

é negativo percebe-se então que o valor <strong>de</strong> 1 + é <strong>um</strong><br />

σ b<br />

valor compreendido entre 0 e 1, logo o logaritmo <strong>de</strong>ssa quantida<strong>de</strong> resultará em <strong>um</strong> número<br />

negativo <strong>de</strong> classes extras. Isso resultaria em <strong>um</strong>a subtração do número <strong>de</strong> classes<br />

previamente estabelecido pelo K <strong>de</strong> Sturges, o que não faz sentido, <strong>um</strong>a vez que se <strong>de</strong>seja<br />

ressaltar a assimetria com o a<strong>um</strong>ento do número <strong>de</strong> classes.<br />

O presente trabalho tem por objetivo comparar o comportamento das regras <strong>de</strong><br />

construção <strong>de</strong> histograma <strong>de</strong> Sturges (1926), Doane (1976) e <strong>um</strong>a modificação da estatística<br />

<strong>de</strong> Doane.<br />

MATERIAL E MÉTODOS<br />

Foram simulados tamanhos amostrais <strong>de</strong> 5 a 10.000, a<strong>um</strong>entando <strong>de</strong> 1 em 1. Esses<br />

tamanhos amostrais foram avaliados sob a suposição <strong>de</strong> simetria, assimetria à esquerda e<br />

1


assimetria à direita. Tais condições <strong>de</strong> simetria foram criadas fazendo-se b 1 = 0 , b 1 < 0 e<br />

b > 0 , respectivamente.<br />

1<br />

Em cada <strong>um</strong> dos casos, foi estudado o comportamento das funções <strong>de</strong> Sturges, Doane<br />

e Doane modificada com a adição <strong>de</strong> <strong>um</strong> módulo na quantida<strong>de</strong> b 1 .<br />

Todas as análises foram feitas no software R versão 2.6.2 (R DEVELOPMENT CORE<br />

TEAM, 2008).<br />

RESULTADOS E DISCUSSÃO<br />

Sob suposição <strong>de</strong> simetria da distribuição que originou os dados, as funções que<br />

<strong>de</strong>terminam o número <strong>de</strong> classes <strong>de</strong> Sturges, Doane e Doane modificado têm comportamento<br />

idêntico (Figura 1). Isso é esperado, <strong>um</strong>a vez que Doane e Doane modificado têm a função <strong>de</strong><br />

adicionar classes à função <strong>de</strong> Sturges apenas quando os dados são assimétricos, caso contrário<br />

a inserção <strong>de</strong> classes extras (Ke) é nula.<br />

FIGURA 1 <strong>Número</strong> <strong>de</strong> classes dado pelas funções <strong>de</strong> Sturges (―), Doane (---) e Doane modificado<br />

(····) em função do tamanho amostral, para dados vindos <strong>de</strong> <strong>um</strong>a distribuição simétrica.<br />

Entretanto, sob assimetria, o comportamento das funções se diferencia. Quando os dados vêm<br />

<strong>de</strong> <strong>um</strong>a distribuição assimétrica à direita (Figura 2a), a função <strong>de</strong> Doane c<strong>um</strong>pre seu propósito e insere<br />

classes extras à função <strong>de</strong> Sturges. Por isso seu comportamento <strong>de</strong> diferenciado e o número <strong>de</strong> classes


cresce mais rápido que a função <strong>de</strong> Sturges. Neste caso, a função corrigida por esse trabalho não se<br />

diferencia da função <strong>de</strong> Doane porque sua correção é apenas para casos <strong>de</strong> assimetria à esquerda.<br />

Quando os dados vêm <strong>de</strong> <strong>um</strong>a distribuição assimétrica à esquerda, as três funções se<br />

distinguem (Figura 2b). A função <strong>de</strong> Sturges ignora o fato <strong>de</strong> os dados serem assimétricos e apresenta<br />

o mesmo comportamento que já apresentava na Figura 1. Contraditoriamente, a função <strong>de</strong> Doane<br />

começa a subtrair classes do número previsto por Sturges. Ela prevê o menor número <strong>de</strong> classes <strong>de</strong>ntre<br />

as três estudadas, o que vai contra o princípio <strong>de</strong> Doane (1976), que diz que a assimetria dos dados<br />

<strong>de</strong>ve ser mais bem expressada por <strong>um</strong> maior número <strong>de</strong> classes.<br />

Entretanto, a correção proposta por esse trabalho foi capaz <strong>de</strong> manter a coerência sugerida por<br />

Doane e adicionou classes extras ao número <strong>de</strong> classes previsto por Sturges. Esse comportamento<br />

po<strong>de</strong> ser visto na Figura 2b, linha (····).<br />

FIGURA 2 <strong>Número</strong> <strong>de</strong> classes dado pelas funções <strong>de</strong> Sturges (―), Doane (---) e Doane modificado<br />

(····) em função do tamanho amostral, para dados vindos <strong>de</strong> <strong>um</strong>a distribuição assimétrica à<br />

direita (a) e assimétrica a esquerda (b).<br />

CONCLUSÕES<br />

A correção algébrica proposta por este trabalho foi capaz <strong>de</strong> manter a coerência da<br />

afirmação <strong>de</strong> Doane (1976), que diz que quanto mais assimétricos são os dados, mais classes<br />

são necessárias para i<strong>de</strong>ntificar claramente essa assimetria, in<strong>de</strong>pen<strong>de</strong>nte se essa assimetria<br />

acontece à esquerda ou à direita.


REFERÊNCIAS BIBLIOGRÁFICAS<br />

DOANE, D. P. Aesthetic frequency classifications. The American Statistician, Alexandria, v.<br />

30, n. 4, p. 181-183, Nov. 1976.<br />

PIERCE, J. R. Symbols, Signals and Noise: The Nature and Process of Communication<br />

Harper and Brothers, 1961, p. 80-86.<br />

R DEVELOPMENT CORE TEAM. R: A language and environment for statistical<br />

computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0,<br />

URL http://www.R-project.org. 2008.<br />

STURGES, H. A. The Choice of a Class Interval. Journal of the American Statistical<br />

Association. v. 21, p. 65-66. Mar. 1926.<br />

WIKIPÉDIA. <strong>Histograma</strong>. Disponível em: .<br />

Acesso em: 3 mar. 08.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!