Regressão dos mínimos quadrados para os dados de Anscombe
em ,

Como ajustar uma reta por meio da regressão robusta

Nem sempre, a reta de regressão dos mínimos quadrados é a que melhor se ajuda aos dados experimentais. Os conjuntos de dados podem estar alterados por simples erros de digitação ou erros causados por deriva instrumental. Neste artigo, vamos descrever o método da regressão robusta para o ajuste de uma reta baseada na minimização do desvio absoluto (Press et al. 1989, p. 595).

Este texto foi baseado no item 3.5.5: Regressão robusta, do Capítulo 3: Análise estatística do livro “Estatística, análise e interpolação de dados geoespaciais” (Yamamoto 2020, p. 80-83).

Quarteto de Anscombe

Para apresentar e ilustrar a regressão robusta, vamos usar os dados conhecidos como Quarteto de Anscombe, conforme a Tabela 1 (Anscombe, 1973, p. 19).

X1Y1X2Y2X3Y3X4Y4
108,04109,14107,4686,58
86,9588,1486,7785,76
137,58138,741312,7487,71
98,8198,7797,1188,84
118,33119,26117,8188,47
149,96148,10148,8487,04
67,2466,1366,0885,25
44,2643,1045,391912,50
1210,84129,13128,1585,56
74,8277,2676,4287,91
55,6854,7455,7386,89
Tabela 1: Dados do quarteto de Anscombe (1973, p. 19).

Regressão dos mínimos quadrados

A regressão dos mínimos quadrados pode ser influenciada pela existência de um ou mais pontos anômalos, por diversas razões, como, por exemplo, erro na digitação dos dados. Para ilustrar uma situação em que isso ocorre, seja a reta de regressão dos mínimos quadrados ajustada sobre os dados (Y3 por X3) do quarteto de Anscombe (1973, p. 19).

A regressão dos mínimos quadrados está representada na Figura 1.

Figura 1: Regressão dos mínimos quadrados para os dados de Anscombe (1973, p. 19).

Nesta figura, pode-se observar claramente que o ponto na coordenada X3=13 está deslocado dos demais pontos que desenham uma reta perfeita. Mas, a regressão dos mínimos quadrados é influenciada por este ponto anômalo.

Regressão robusta

A regressão robusta ajusta uma reta pela minimização dos desvios absolutos (Press et al. 1989, p. 595-597). Segundo esses autores, deve-se minimizar a função objetivo:

Esta equação implica que os coeficientes a e b da regressão dos mínimos quadrados são conhecidos, ou seja, o ponto de partida para a regressão robusta é justamente a realização da regressão dos mínimos quadrados.

A simplificação essencial vem do fato que a mediana cM de um conjunto de números ci é também o valor que minimiza a soma dos desvios absolutos (Press et al. 1989, p. 595):

Portanto, para um determinado valor de b, o valor de a que minimiza a função objetivo pode ser calculado como (Press et al. 1989, p. 595):

O parâmetro bm, após determinação de am, pode ser calculado como (Press et al. 1989, p. 595):

A solução desta equação pode ser feita pelo método da bissecção (Press et al. 1989, p. 597). Mas, antes disso, determina-se o intervalo do coeficiente b, dentro do qual a função passe pelo zero. Trata-se de um processo iterativo, onde a cada iteração o valor do coeficiente b é calculado como a média entre os dois valores que limitam o intervalo.

Assim em cada iteração, o valor de am também é determinado e dessa forma até que a diferença entre dois valores sucessivos de b esteja dentro de um erro aceitável. Detalhes do método da bissecção podem ser vistos em Hamming (1973, p. 62-63).

Fazendo a regressão robusta para esses dados (Y3 por X3), obtém-se a reta mostrada na Figura 2C, que representa melhor os dados disponíveis. Esta figura apresenta também os resultados das demais regressões para os quatro conjuntos de pontos, onde se pode verificar que para os conjuntos (Y1 por X1) e (Y4 por X4), as regressões dos mínimos quadrados e robusta são absolutamente iguais.

A regressão do conjunto (Y2 por X2) apresenta resultados ligeiramente diferentes entre os dois métodos. Os dados do quarteto de Anscombe (1973) têm sido usados para demonstrar a importância dos gráficos em estatística. Por exemplo, na Figura 2B os pontos descrevem uma parábola e, portanto, a reta não seria a melhor escolha para definir a relação entre as variáveis Y2 e X2. Por outro lado, a regressão para os conjuntos de pontos da Figura 2D foi definida por apenas um ponto, como foi ressaltado por Anscombe (1973, p. 19).

Figura 2: Regressões dos mínimos quadrados (em preto) e robusta (em vermelho) para os conjuntos de pontos de Anscombe (1973).

Os dados do quarteto de Anscombe (1973) foram gerados de tal forma que todas as estatísticas fossem iguais e, consequentemente, as regressões dos mínimos quadrados, como se pode verificar na Tabela 2.

ParXYVar[X]Var[Y]Cov(X,Y)ab
X1xY197,500909103,7520635,0009093,0000910,500091
X2xY297,500909103,7523905,0000003,0009090,500000
X3xY397,500000103,7478364,9997273,0024550,499727
X4xY497,500000103,7620455,0072732,9934550,500727
Tabela 2: Estatísticas para os dados do quarteto de Anscombe (1973).

Considerações finais

Este artigo tratou da apresentação da regressão robusta, que é indicada para dados com a existência de pontos anômalos. Na ausência de pontos anômalos, as regressões dos mínimos quadrados e robusta produzem resultados muito próximos entre si, como se pode verificar nas Figuras 2A e 2D.

Lembrando que este artigo reproduz integralmente, com alguns ajustes, o conteúdo do item 3.5.5: Regressão robusta, do Capítulo 3: Conceitos de probabilidade e estatística do nosso livro: Estatística, Análise e Interpolação de dados geoespaciais (Yamamoto, 2020).

Referências bibliográficas

Anscombe, F.J. 1973. Graphs in statistical analysis. American Statistician, v. 27, p. 17-21.

Hamming, R.W. 1973. Numerical methods for scientists and engineers. New York, Dover Publications, Inc. 721p.

Press, W.H.; Flannery, B.P.; Teukolsky, S.A.; Vetterling, W.T. 1989. Numerical recipes in Pascal. New York, Cambridge University Press. 759p.

Yamamoto, J.K. 2020. Estatística, análise e interpolação de dados geoespaciais. São Paulo, Gráfica Paulo’s. 308p.

Próximo artigo

Os dois próximos artigos irão tratar da transformação de dados, que serão derivados do Capítulo 4: Transformação de dados (Yamamoto, 2020, p. 90-99). A transformação de dados é uma técnica comumente aplicada no tratamento de variáveis com distribuições assimétricas positivas como, por exemplo, a distribuição de metais nobres (ouro, prata, platina etc.).

Escrito por Jorge Kazuo Yamamoto

Prof. Dr. Jorge Kazuo Yamamoto, fundador da Geokrigagem, é geólogo, foi pesquisador do IPT e docente do Instituto de Geociências da USP, onde se aposentou como Professor Titular do Departamento de Geologia Sedimentar e Ambiental. Atualmente, atua como Professor Sênior do Departamento de Engenharia de Minas e de Petróleo – Escola Politécnica – USP. É responsável pela disciplina “Métodos geoestatísticos” na Pós-Graduação do IPT – Investigação do subsolo: Geotecnia e Meio Ambiente. Dedica-se ao ensino de geoestatística, com ênfase no desenvolvimento de algoritmos e pesquisa de novas aplicações, tais como: variância de interpolação, cálculo da variância global de depósitos minerais e correção do efeito de suavização da krigagem. Ultimamente, seu interesse está voltado para o ensino e divulgação da linguagem R.

Deixe uma resposta

O seu endereço de e-mail não será publicado.

Como calcular o número de classes de um histograma pela regra de Sturges

Porque fazer transformação de dados