em , ,

Análise de variância (anova) e regressão linear múltipla – parte 4

Dando sequencia ao artigo anterior, a regressão linear múltipla envolve várias variáveis independentes, que podem ser contínuas ou discretas. Neste artigo, vamos tratar do caso em que as variáveis independentes são todas categóricas ou fatores, sendo que cada fator apresenta alguns níveis. Conforme a definição de variável categórica, ela pode ser composta por tipos.

Por exemplo, em uma bacia sedimentar ocorrem várias litologias, que são os tipos da variável categórica denominada litologia. Os tipos dessa variável, por exemplo, podem ser: arenito, siltito, argilito, marga, calcário e folhelho.

Assim, a variável litologia é composta por seis tipos. Variáveis categóricas não podem ser manipuladas diretamente, mas somente por meio de suas funções indicadoras. Em seguida, apresenta-se a fundamentação teórica sobre a regressão linear múltipla. Como mencionado anteriormente, é importante o entendimento da teoria para aplicar corretamente uma função de biblioteca da linguagem R, no caso a função lm(), que permite fazer a regressão linear simples ou múltipla.

Na regressão linear múltipla, expressa-se a variável dependente Y em uma amostra com n observações como uma função linear das variáveis independentes X mais um erro aleatório ε (Rencher, 2002, p. 323):

(1)

Em termos matriciais, Rencher (2002, p. 324), o sistema (1) pode ser escrito como:

(2)

ou

(3)

Segundo Rencher (2002, p. 324), para fins de estimação e teste de hipóteses, n deve ser maior que (q+1). Assim, as estimativas dos mínimos quadrados para β podem ser obtidas como (Rencher, 2002, p. 325):

(4)

O vetor y constitui as observações combinadas de todos os níveis do fator, mas a matriz X precisa ser codificada como funções indicadoras, como se expõe a seguir. Empregando a mesma notação usada anteriormente, tem-se nt níveis e, portanto, nt-1 variáveis tipo dummy ou variáveis indicadoras. Nas equações (1) e (2), os elementos da matriz X:  são as variáveis indicadoras, onde q é igual ao número de níveis menos um. Para exemplificar a codificação por variáveis indicadoras, seja um fator com quatro níveis: a, b, c e d, que gera uma matriz de contrastes (Tabela 1).

Tabela 1: Matriz de contrastes para uma variável categórica com quatro níveis.

(tabela 1)

Apesar de ser repetitivo, vamos colocar novamente a tabela dos dados de lixiviação bacteriana para recuperação de cobre (Tabela 2), pois facilita o Leitor.

Tabela 2: Dados de recuperação de cobre (lb/ton) por lixiviação bacteriana em minério de baixo teor (Lapin, 1998, p. 546).

Como são três variedades de bactérias (Tabela 2), tem-se duas variáveis indicadoras que podem ser obtidas da matriz de contrastes (Tabela 1), restringindo-a até a letra c. Em R, tem-se a função contrasts() que faz a codificação indicadora (Script GK10).

Script GK10

Pode-se fazer também uma codificação alternativa, com base na função contr.sum(), conforme o Script 5.54.

Script GK11

Tabela 3: Matriz X do sistema de equações (2) para regressão linear múltipla, com a codificação por variáveis indicadoras conforme variedades de bactérias.

(tabela 3)

Como se pode verificar na Tabela 3, há uma coluna de valor unitário que se refere ao intercepto, ou seja, βo nas equações (1) e (2). Pode-se empregar a codificação alternativa conforme a matriz de contrastes obtida no Script GK11. A Tabela 4 apresenta a matriz dos coeficientes X, com base na codificação alternativa.

Tabela 4: Matriz X do sistema de equações (2) para regressão linear múltipla, com a codificação alternativa conforme variedades de bactérias.

Referências bibliográficas

Lapin, L.L. 1998. Probability and statistics for modern engineering. Prospect Heights, Waveland Press. Inc. 810p.

Rencher, A.C. 2002. Methods of multivariate analysis. New York, John Wiley & Sons. 708p.

Próximo artigo

Em continuidade, o próximo artigo irá tratar da resolução do sistema de equações (2), por meio de um script em R.

Jorge Kazuo Yamamoto

Escrito por Jorge Kazuo Yamamoto

Prof. Dr. Jorge Kazuo Yamamoto, fundador da Geokrigagem, é geólogo, foi pesquisador do IPT e docente do Instituto de Geociências da USP, onde se aposentou como Professor Titular do Departamento de Geologia Sedimentar e Ambiental. Atualmente, atua como Professor Sênior do Departamento de Engenharia de Minas e de Petróleo – Escola Politécnica – USP. É responsável pela disciplina “Métodos geoestatísticos” na Pós-Graduação do IPT – Investigação do subsolo: Geotecnia e Meio Ambiente. Dedica-se ao ensino de geoestatística, com ênfase no desenvolvimento de algoritmos e pesquisa de novas aplicações, tais como: variância de interpolação, cálculo da variância global de depósitos minerais e correção do efeito de suavização da krigagem. Ultimamente, seu interesse está voltado para o ensino e divulgação da linguagem R.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Análise de Variância (Anova) E Regressão Linear Múltipla – Parte 3

Análise De Variância (Anova) E Regressão Linear Múltipla – Parte 5