Encontrando o Número de Classes de um Histograma
Encontrando o Número de Classes de um Histograma
Encontrando o Número de Classes de um Histograma
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
ENCONTRANDO O NÚMERO DE CLASSES DE UM HISTOGRAMA<br />
Tales Jesus Fernan<strong>de</strong>s 1 ; Eric Batista Ferreira 2 ;<br />
INTRODUÇÃO<br />
Na estatística, <strong>um</strong> histograma é <strong>um</strong>a representação gráfica da distribuição <strong>de</strong><br />
freqüências <strong>de</strong> <strong>um</strong>a massa <strong>de</strong> medições, normalmente <strong>um</strong> gráfico <strong>de</strong> barras verticais. A<br />
construção <strong>de</strong> histogramas tem caráter preliminar em qualquer estudo e é <strong>um</strong> importante<br />
indicador da distribuição <strong>de</strong> dados. Os histogramas po<strong>de</strong>m tanto indicar quando <strong>um</strong>a<br />
distribuição aproxima-se <strong>de</strong> <strong>um</strong>a função normal, como po<strong>de</strong>m indicar <strong>um</strong>a mistura <strong>de</strong><br />
populações, quando se apresentam bimodais (WIKIPEDIA, 2008).<br />
Como o histograma é a representação gráfica <strong>de</strong> <strong>um</strong>a distribuição <strong>de</strong> freqüências, ou<br />
seja, dados agrupados em classes, <strong>um</strong> dos primeiros passos na sua construção é a<br />
<strong>de</strong>terminação do número <strong>de</strong> classes (K). E este é <strong>um</strong> problema que já vem sido discutido há<br />
muito tempo. Sturges (1926) propôs que o número <strong>de</strong> classes po<strong>de</strong>ria ser <strong>de</strong>terminado por<br />
2<br />
( )<br />
K = 1+ log N . Embora funcionasse bem para distribuições simétricas, o número <strong>de</strong> classes<br />
<strong>de</strong> Sturges era insuficiente para <strong>de</strong>monstrar a verda<strong>de</strong>ira inclinação <strong>de</strong> distribuições<br />
assimétricas.<br />
Doane (1976), baseando-se na estatística<br />
e em seu <strong>de</strong>svio padrão<br />
σ<br />
∑ X − X<br />
∑(<br />
X − X)<br />
3<br />
( )<br />
b =<br />
⎡ ⎤<br />
⎣ ⎦<br />
b<br />
1<br />
2<br />
32<br />
1<br />
=<br />
6( N − 2)<br />
,<br />
( N + 1)( N + 3)<br />
tentou solucionar esse problema propondo <strong>um</strong>a fórmula para adicionar classes extras ao K <strong>de</strong><br />
Sturges.<br />
O número <strong>de</strong> classes extras proposto por Doane (1976) é dado por<br />
K<br />
e<br />
⎛ b1<br />
⎞<br />
= log2 ⎜<br />
1+<br />
⎟<br />
σ b1<br />
⎟<br />
.<br />
⎝ ⎠<br />
1 Graduando em Matemática – UFLA – email: talesufla7@yahoo.com.br.<br />
2 Pos-doc – Departamento <strong>de</strong> Ciências Exatas – UFLA – email: ericbferreira@gmail.com.
Se b 1 = 0 , nenh<strong>um</strong>a classe é adicionada, a distribuição é simétrica e o número <strong>de</strong><br />
classes é dado pela fórmula <strong>de</strong> Sturges (1926). Esta adição <strong>de</strong> classes extras é <strong>de</strong>crescente. A<br />
taxa <strong>de</strong> incremento <strong>de</strong>crescente foi baseada na teoria da informação codificada (Pierce,<br />
1961), em que a entropia <strong>de</strong> <strong>um</strong>a mensagem é dada por:<br />
⎛ 1 ⎞<br />
− log 2 ⎜ ⎟<br />
⎝ M ⎠ ,<br />
sendo M o número <strong>de</strong> diferentes e prováveis símbolos que possam ocorrer. Os símbolos vão<br />
sendo incluídos na codificação <strong>de</strong> mensagens em <strong>um</strong>a escala também <strong>de</strong>crescente.<br />
No entanto, o critério <strong>de</strong> adicionar classes extras <strong>de</strong> Doane (1976) possui <strong>um</strong>a<br />
inconsistência. Se a distribuição que gerou os dados for assimétrica à esquerda, b 1 será<br />
negativo então,<br />
b1<br />
σ b<br />
1<br />
também será negativa, pois 1 b σ só <strong>de</strong>pen<strong>de</strong> do tamanho da amostra<br />
e nunca será negativo.<br />
Tomando os <strong>de</strong>vidos cuidados <strong>de</strong> impor as proprieda<strong>de</strong>s do logaritmo, tem-se que<br />
b1<br />
b1<br />
1+ > 0,<br />
logo,<br />
σ b1<br />
σ b<br />
Como o valor <strong>de</strong><br />
1<br />
>− 1 .<br />
b1<br />
σ b<br />
1<br />
b1<br />
é negativo percebe-se então que o valor <strong>de</strong> 1 + é <strong>um</strong><br />
σ b<br />
valor compreendido entre 0 e 1, logo o logaritmo <strong>de</strong>ssa quantida<strong>de</strong> resultará em <strong>um</strong> número<br />
negativo <strong>de</strong> classes extras. Isso resultaria em <strong>um</strong>a subtração do número <strong>de</strong> classes<br />
previamente estabelecido pelo K <strong>de</strong> Sturges, o que não faz sentido, <strong>um</strong>a vez que se <strong>de</strong>seja<br />
ressaltar a assimetria com o a<strong>um</strong>ento do número <strong>de</strong> classes.<br />
O presente trabalho tem por objetivo comparar o comportamento das regras <strong>de</strong><br />
construção <strong>de</strong> histograma <strong>de</strong> Sturges (1926), Doane (1976) e <strong>um</strong>a modificação da estatística<br />
<strong>de</strong> Doane.<br />
MATERIAL E MÉTODOS<br />
Foram simulados tamanhos amostrais <strong>de</strong> 5 a 10.000, a<strong>um</strong>entando <strong>de</strong> 1 em 1. Esses<br />
tamanhos amostrais foram avaliados sob a suposição <strong>de</strong> simetria, assimetria à esquerda e<br />
1
assimetria à direita. Tais condições <strong>de</strong> simetria foram criadas fazendo-se b 1 = 0 , b 1 < 0 e<br />
b > 0 , respectivamente.<br />
1<br />
Em cada <strong>um</strong> dos casos, foi estudado o comportamento das funções <strong>de</strong> Sturges, Doane<br />
e Doane modificada com a adição <strong>de</strong> <strong>um</strong> módulo na quantida<strong>de</strong> b 1 .<br />
Todas as análises foram feitas no software R versão 2.6.2 (R DEVELOPMENT CORE<br />
TEAM, 2008).<br />
RESULTADOS E DISCUSSÃO<br />
Sob suposição <strong>de</strong> simetria da distribuição que originou os dados, as funções que<br />
<strong>de</strong>terminam o número <strong>de</strong> classes <strong>de</strong> Sturges, Doane e Doane modificado têm comportamento<br />
idêntico (Figura 1). Isso é esperado, <strong>um</strong>a vez que Doane e Doane modificado têm a função <strong>de</strong><br />
adicionar classes à função <strong>de</strong> Sturges apenas quando os dados são assimétricos, caso contrário<br />
a inserção <strong>de</strong> classes extras (Ke) é nula.<br />
FIGURA 1 <strong>Número</strong> <strong>de</strong> classes dado pelas funções <strong>de</strong> Sturges (―), Doane (---) e Doane modificado<br />
(····) em função do tamanho amostral, para dados vindos <strong>de</strong> <strong>um</strong>a distribuição simétrica.<br />
Entretanto, sob assimetria, o comportamento das funções se diferencia. Quando os dados vêm<br />
<strong>de</strong> <strong>um</strong>a distribuição assimétrica à direita (Figura 2a), a função <strong>de</strong> Doane c<strong>um</strong>pre seu propósito e insere<br />
classes extras à função <strong>de</strong> Sturges. Por isso seu comportamento <strong>de</strong> diferenciado e o número <strong>de</strong> classes
cresce mais rápido que a função <strong>de</strong> Sturges. Neste caso, a função corrigida por esse trabalho não se<br />
diferencia da função <strong>de</strong> Doane porque sua correção é apenas para casos <strong>de</strong> assimetria à esquerda.<br />
Quando os dados vêm <strong>de</strong> <strong>um</strong>a distribuição assimétrica à esquerda, as três funções se<br />
distinguem (Figura 2b). A função <strong>de</strong> Sturges ignora o fato <strong>de</strong> os dados serem assimétricos e apresenta<br />
o mesmo comportamento que já apresentava na Figura 1. Contraditoriamente, a função <strong>de</strong> Doane<br />
começa a subtrair classes do número previsto por Sturges. Ela prevê o menor número <strong>de</strong> classes <strong>de</strong>ntre<br />
as três estudadas, o que vai contra o princípio <strong>de</strong> Doane (1976), que diz que a assimetria dos dados<br />
<strong>de</strong>ve ser mais bem expressada por <strong>um</strong> maior número <strong>de</strong> classes.<br />
Entretanto, a correção proposta por esse trabalho foi capaz <strong>de</strong> manter a coerência sugerida por<br />
Doane e adicionou classes extras ao número <strong>de</strong> classes previsto por Sturges. Esse comportamento<br />
po<strong>de</strong> ser visto na Figura 2b, linha (····).<br />
FIGURA 2 <strong>Número</strong> <strong>de</strong> classes dado pelas funções <strong>de</strong> Sturges (―), Doane (---) e Doane modificado<br />
(····) em função do tamanho amostral, para dados vindos <strong>de</strong> <strong>um</strong>a distribuição assimétrica à<br />
direita (a) e assimétrica a esquerda (b).<br />
CONCLUSÕES<br />
A correção algébrica proposta por este trabalho foi capaz <strong>de</strong> manter a coerência da<br />
afirmação <strong>de</strong> Doane (1976), que diz que quanto mais assimétricos são os dados, mais classes<br />
são necessárias para i<strong>de</strong>ntificar claramente essa assimetria, in<strong>de</strong>pen<strong>de</strong>nte se essa assimetria<br />
acontece à esquerda ou à direita.
REFERÊNCIAS BIBLIOGRÁFICAS<br />
DOANE, D. P. Aesthetic frequency classifications. The American Statistician, Alexandria, v.<br />
30, n. 4, p. 181-183, Nov. 1976.<br />
PIERCE, J. R. Symbols, Signals and Noise: The Nature and Process of Communication<br />
Harper and Brothers, 1961, p. 80-86.<br />
R DEVELOPMENT CORE TEAM. R: A language and environment for statistical<br />
computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0,<br />
URL http://www.R-project.org. 2008.<br />
STURGES, H. A. The Choice of a Class Interval. Journal of the American Statistical<br />
Association. v. 21, p. 65-66. Mar. 1926.<br />
WIKIPÉDIA. <strong>Histograma</strong>. Disponível em: .<br />
Acesso em: 3 mar. 08.