em , ,

Como calcular o número de classes de um histograma pela regra de Sturges

Em continuidade aos dois últimos artigos que trataram das distribuições normal e lognormal, neste vamos abordar como se calcula o número de classes de um histograma.

Este artigo foi derivado (com ajustes) dos itens 3.2 e 3.2.2 do Capítulo 3: Análise estatística do nosso livro: Estatística, análise e Interpolação de dados geoespaciais (Yamamoto, 2020, p. 49 e 52-53).

Distribuição de frequências

Uma lista desorganizada de números representando as realizações de experimentos não é facilmente assimilada

(Benjamin e Cornell, 1970, p. 4)

Segundo esses autores, existem vários métodos de organização, apresentação e redução de dados observados que facilitam a interpretação e avaliação.

As N observações, que foram medidas em uma amostra, podem ser classificadas em ordem crescente. Atribuindo-se frequências iguais a 1/N para cada uma delas, tem-se uma distribuição de frequências. A distribuição de frequências pode ser representada graficamente por meio da curva acumulativa (item 3.2.1 Curva acumulativa, Yamamoto, 2020, p. 50-52) ou histograma, assunto deste artigo.

Histograma

Uma representação da distribuição de frequências pode ser obtida se agrupando as frequências por intervalos ou em classes dos valores dos dados. Os intervalos ou classes são definidos dentro dos limites mínimo e máximo dos dados [xmin, xmax]. O tamanho da classe xc é obtido dividindo-se o intervalo de variação pelo número de classes:

Assim, sabendo-se o número de classes, pode-se acumular as frequências 1/N em cada classe e fazer a representação gráfica como barras verticais proporcionais às frequências das classes.

Número de classes do histograma: regra de Sturges

No item anterior, o tamanho da classe foi determinado para um número de classes (nc) conhecido. Esse valor não pode ser nem tão pequeno e nem tão grande, uma vez que o objetivo é sumariar os dados disponíveis.

Dentre as fórmulas existentes para o cálculo do número de classes, sempre em função do número de pontos de dados (N), a mais efetiva e, por isso, mais popular é a Regra de Sturges (Haan, 1977, p. 17-18; Wellmer, 1998, p. 10). Segundo esses autores, o número de classes pode ser calculado, conforme:

A Regra de Sturges é uma função linear em escala logarítmica, como se pode observar na Figura 1, onde o máximo para 100000 pontos de dados é 18.

Figura 1: Número de classes do histograma (nc) como função do número de dados (N), conforme a Regra de Sturges.

Definido o número de classes, os dados são classificados acumulando-se as frequências 1/N. Assim, as frequências obtidas em cada classe são representadas como barras verticais proporcionais às frequências das classes, resultando no histograma.

Para ilustrar uma aplicação prática da regra de Sturges, seja um conjunto de dados completo com 2500 pontos (população) do qual se extrai uma amostra aleatória estratificada com 100 pontos. Assim, tem-se:

Pelos resultados obtidos, verifica-se que para a amostra com 100 pontos, o número de classes do histograma é igual a 8, enquanto para a população com 2500 pontos, o número de classes é 13. A Figura 2 representa os histogramas para a amostra e população.

Figura 2: Histogramas da amostra (A); e da população (B).

Como se trata de uma amostra com apenas 100 pontos de dados, observa-se que a amostragem não contempla os limites mínimo e máximo da população. Além disso, a cauda inferior não foi amostrada adequadamente.

Pode-se ver que há uma correlação entre os dois histogramas, mas a verificação dessa aderência é mais bem feita na forma de curvas acumulativas, como se apresenta a seguir (Figura 3).

Figura 3: Curvas acumulativas da amostra (em verde) e da população (em vermelho).

De acordo com esta figura, confirma-se as observações feitas anteriormente, onde a cauda inferior não representa a população, da qual foi derivada. Os demais pontos da amostra estão correlacionados com a população.

Considerações finais

Este artigo apresentou a regra de Sturges para o cálculo do número de classes de um histograma.

Conforme a aplicação prática utilizada, o número de classes não aumenta linearmente com o número de pontos de dados. Por esse motivo, a regra de Sturges é melhor que outros critérios como, por exemplo, o da raiz quadrada, onde o número de classes é igual à raiz quadrado do número de dados.

Lembrando que este artigo reproduz integralmente, com alguns ajustes, o conteúdo do item 3.2.2 e 3.2.2, do Capítulo 3: Conceitos de probabilidade e estatística do nosso livro: Estatística, Análise e Interpolação de dados geoespaciais (Yamamoto, 2020).

Adquira o livro e tenha acesso a todo esse conteúdo exclusivo!

Referências bibliográficas

Benjamin, J.R.; Cornell, C.A. 1970. Probability, statistics and decision for civil engineers. Mineola, Dover Publications Inc. 684p.

Haan, C.T. 1977. Statistical methods in hydrology. Ames, The Iowa State University Press. 378p.

Wellmer, F.W. 1998. Statistical evaluations in exploration for mineral deposits. Heidelberg, Springer. 379p.

Yamamoto, J.K. 2020. Estatística, análise e interpolação de dados geoespaciais. São Paulo, Gráfica Paulo’s. 308p.

Próximo artigo

O próximo artigo irá apresentar a regressão robusta, que é baseada na minimização dos desvios absolutos. A regressão robusta é indicada para conjuntos de dados que apresentem pontos anômalos, devidos a erros de digitação ou erros produzidos por desvio instrumental.

Escrito por Jorge Kazuo Yamamoto

Prof. Dr. Jorge Kazuo Yamamoto, fundador da Geokrigagem, é geólogo, foi pesquisador do IPT e docente do Instituto de Geociências da USP, onde se aposentou como Professor Titular do Departamento de Geologia Sedimentar e Ambiental. Atualmente, atua como Professor Sênior do Departamento de Engenharia de Minas e de Petróleo – Escola Politécnica – USP. É responsável pela disciplina “Métodos geoestatísticos” na Pós-Graduação do IPT – Investigação do subsolo: Geotecnia e Meio Ambiente. Dedica-se ao ensino de geoestatística, com ênfase no desenvolvimento de algoritmos e pesquisa de novas aplicações, tais como: variância de interpolação, cálculo da variância global de depósitos minerais e correção do efeito de suavização da krigagem. Ultimamente, seu interesse está voltado para o ensino e divulgação da linguagem R.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Distribuição lognormal: o que é e sua importância na mineração de ouro

Regressão dos mínimos quadrados para os dados de Anscombe

Como ajustar uma reta por meio da regressão robusta