em , ,

Série R na Prática – Funções e Conceitos Estatísticos

Capítulo 5 do livro R na Prática – Volume 1

O Capítulo 5 – Funções e conceitos estatísticos – traz uma breve revisão da estatística descritiva, mas tem o foco principal em estatística inferencial, por meio de teste de hipóteses e análise de variância, incluindo a regressão linear múltipla. Para o objetivo da estatística inferencial, apresenta-se as distribuições de frequência mais importantes: t de Student, normal, chi-quadrado, F, Poisson, uniforme e triangular.

O valor-p muito usado nos testes de hipóteses está associada à área sob a curva de distribuição de probabilidades, como ilustra a figura da distribuição do chi-quadrado. Em seguida, tem-se o cálculo do intervalo de confiança da média tanto para amostras pequenas como grandes. Continuando, o tópico referente ao  teste de hipóteses apresenta os dez testes mais importantes na estatística inferencial: t; normalidade da distribuição (Shapiro-Wilk); F; chi-quadrado; Kolgomorov-Smirnov; Mann-Whitney ou Wilcox; Ansari-Bradley; Lepage; Kruskal-Wallis e Friedman.

Para todos estes testes, tem-se a fundamentação teórica, acompanhada das fórmulas matemáticas, exemplo numérico e sua programação em linguagem R. O script feito em R é testado contra a função correspondente da biblioteca da linguagem R, para fins de validação. Cabe ressaltar que existem testes muito simples como o teste t, mas também testes difíceis como é o teste de Shapiro-Wilk que testa a normalidade da distribuição com base na regressão e correlação entre os dados e os escores normais correspondentes, cuja implementação só foi possível após um algoritmo publicado em MATLAB.

Há testes que requerem distribuições específicas de probabilidades, como, por exemplo, a distribuição de Kolgomorov-Smirnov e a distribuição de Wilcoxon. Devido à sua especificidade, elas não são tratadas no tópico próprio das distribuições de probabilidade. Por fim, apresenta-se a técnica da análise de variância e regressão linear múltipla. Nesse caso, tem-se as variáveis explicativas como categóricas ou fatores, onde cada fator pode ter dois ou mais níveis.

Como os fatores não podem ser manipulados numericamente, eles devem ser transformados em funções indicadoras, por meio da codificação indicadora ou alternativa. Além disso, quando há dois fatores, tem-se a interação entre eles, que deve ser feita com muito cuidado para evitar erros. Assim, a análise de variância considera um ou dois fatores. No caso de três fatores, pode-se fazer a extensão do que se apresenta para dois fatores, mas com bastante cuidado, devido às interações.

O Capítulo 5 apresenta os principais testes de hipóteses aplicados na estatística inferencial. Da mesma forma como no capítulo anterior, os algoritmos são descritos e exemplificados numericamente, em seguida são codificados e validados com as funções de biblioteca correspondentes.

Muitos testes estatísticos apresentados neste capítulo são mais bem compreendidos quando exemplificados numericamente, notadamente os testes não paramétricos, que envolvem a ordenação por postos. Além disso, o Leitor poderá verificar que todas as fórmulas são contempladas, sem as quais não seria possível sequer fazer a descrição do teste.

Como exemplo, pode-se citar o simples cálculo dos graus de liberdade para o teste t para variâncias populacionais iguais ou diferentes, cujas fórmulas são totalmente distintas entre uma situação e outra. Nesse sentido, este capítulo apresenta todas as fórmulas envolvidas, resultado de uma pesquisa à exaustão em todas as fontes disponíveis ao Autor. Este capítulo contempla um total de 59 scripts que envolvem uma programação científica que aplica todos os recursos e vantagens da programação orientada a objetos.

Para acessar os artigos anteriores sobre a série R na Prática, clique aqui.

Jorge Kazuo Yamamoto

Escrito por Jorge Kazuo Yamamoto

Prof. Dr. Jorge Kazuo Yamamoto, fundador da Geokrigagem, é geólogo, foi pesquisador do IPT e docente do Instituto de Geociências da USP, onde se aposentou como Professor Titular do Departamento de Geologia Sedimentar e Ambiental. Atualmente, atua como Professor Sênior do Departamento de Engenharia de Minas e de Petróleo – Escola Politécnica – USP. É responsável pela disciplina “Métodos geoestatísticos” na Pós-Graduação do IPT – Investigação do subsolo: Geotecnia e Meio Ambiente. Dedica-se ao ensino de geoestatística, com ênfase no desenvolvimento de algoritmos e pesquisa de novas aplicações, tais como: variância de interpolação, cálculo da variância global de depósitos minerais e correção do efeito de suavização da krigagem. Ultimamente, seu interesse está voltado para o ensino e divulgação da linguagem R.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Série R na Prática

Como Calcular o Índice Moran – Autocorrelação Espacial