Os dois artigos que serão publicados a seguir são derivados com ajustes e pequenas modificações do Capítulo 4: “Transformação de dados” de nosso livro intitulado “Estatística, análise e interpolação de dados geoespaciais” (Yamamoto, 2020). Esta série de artigos tem o objetivo de fazer a divulgação do conteúdo do livro.
Neste artigo, vamos mostrar a razão de se fazer a transformação de dados. A aplicação da função de transformação é simples e direta. Entretanto, a transformada reversa não pode ser obtida simplesmente pelo uso da função inversa.
A manipulação matemática dos dados transformados, por exemplo, por meio da krigagem, resulta na redução da variância devido ao efeito de suavização. Isso significa que a correção do efeito de suavização deve preceder a aplicação da função inversa. Devido à importância deste assunto, o efeito de suavização será abordado em um artigo específico.
Porque fazer transformação de dados
Muitas das variáveis nas Ciências da Terra têm uma distribuição assimétrica, em que os poucos valores muito altos podem afetar fortemente as estatísticas amostrais, tais como: média, variância, coeficiente de correlação, bem como medidas de correlação espacial (Goovaerts, 1997, p. 16). Segundo esse autor, esses valores extremos podem ser manipulados como segue:
- Declarar os valores extremos errôneos e removê-los do conjunto de dados;
- Classificar os valores extremos em uma população estatística separada;
- Usar estatística robusta, que é menos sensível aos valores extremos;
- Transformar os dados para reduzir a influência dos valores extremos.
De acordo com Goovaerts (1997, p. 16), se não houver nenhuma razão física para descartar os valores extremos ou tratá-los separadamente, pode-se reduzir sua influência por meio de estatísticas robustas. As estatísticas: média, coeficiente de correlação e variograma possuem contrapartidas mais robustas: mediana, coeficiente de correlação de Spearman e madograma ou variograma relativo (Goovaerts, 1997, p. 16). Assim, pretende-se examinar a questão da transformação de dados neste artigo.
O modelo lognormal
Os valores extremos em uma distribuição de frequências se manifestam pela variabilidade alta, que pode ser observada diretamente no histograma, pois ela se reflete por meio da assimetria na distribuição de frequências.
Dentre as distribuições de frequências, aquela com assimetria positiva é a que pode representar um problema real para fins de estimativa e simulação estocástica. Estas distribuições seguem um modelo lognormal, cuja variável aleatória é o resultado do produto de outras variáveis aleatórias, de acordo com Haan (1977, p. 106). Logo, a variável aleatória resultante pode apresentar variações extremas, que foram intensamente estudadas por Krige (1951).
A expressão a seguir (Haan, 1977, p. 106) mostra como uma variável lognormal pode ser transformada em uma variável normal:
Do lado esquerdo, tem-se uma variável aleatória que resulta do produto de n outras variáveis aleatórias. Enquanto, do lado direito desta expressão, uma nova variável aleatória é obtida pela aplicação da função logaritmo, que será vista adiante.
A função de transformação
Genericamente, a transformação de dados é feita pela aplicação de uma função matemática, como ilustra a Figura 1. A transformação é uma função de uma observação que define uma nova observação (Koch e Link, 1970, p. 231).
Objetivo da transformação de dados
O principal objetivo da transformação não linear é a mudança da forma da distribuição (Koch e Link, 1970, p. 231) em direção à simetria, ou seja, busca-se uma distribuição de frequências simétrica, qualquer que seja a forma da distribuição dos dados originais (Figura 2).
Segundo Koch e Link (1970, p. 231), existem três razões para mudança de uma distribuição de frequências para outra:
- A mais importante é para estabilizar a variância;
- Obter a aditividade após a aplicação do logaritmo, ou seja, os termos transformados são aditivos;
- Transformar as observações para uma distribuição normal.
O objetivo principal das transformações é obter uma distribuição simétrica, que é a ideal, pois os valores estão igualmente espalhados em torno da tendência central dos dados.
Além das razões apontadas por Koch e Link (1970, p. 231), Caers (2011, p. 32) cita a necessidade de atenuar os extremos em um conjunto de dados, de tal modo que as estimativas se tornem menos sensíveis a eles.
Considerações finais
É comum na mineração de ouro a limitação de valores extremos pela aplicação de um valor máximo admissível para o conjunto de dados em análise. Invés disso, pode-se fazer a transformação de dados, proceder às estimativas por krigagem, corrigir o efeito de suavização e, por fim, aplicar a função inversa para a transformada reversa.
Lembrando que este artigo é derivado, com ajustes e pequenas modificações, do Capítulo 4: “Transformação de dados” nosso livro: Estatística, Análise e Interpolação de dados geoespaciais (Yamamoto, 2020).
Confira e adquira o livro clicando aqui.
Referências bibliográficas
Caers, J. 2011. Modeling uncertainty in the Earth Sciences. Sussex, Wiley-Blackwell. 229p.
Goovaerts, P. 1997. Geostatistics for natural resources evaluation. New York, Oxford University Press. 483p.
Haan, C.T. 1977. Statistical methods in hydrology. Ames, The Iowa State University Press. 378p.
Koch, G.S.; Link, R.F. 1970. Statistical analysis of geological data. New York, Dover Publications Inc. Vol. I. 375 p.; Vol. II. 438p.
Krige, D.G. 1951. A statistical approach to some mine valuation and allied problems on the Witwatersrand. M. Sc. Thesis presented to the University of Witwatersrand. 136p.
Yamamoto, J.K. 2020. Estatística, análise e interpolação de dados geoespaciais. São Paulo, Gráfica Paulo’s. 308p.
Próximo artigo
No próximo artigo iremos apresentar a transformada gaussiana. As demais transformações: logarítmica, escores uniformes e indicadora podem ser consultadas em Yamamoto (2020, p. 93-94, 96-98).