Capítulo 5 do livro R na Prática – Volume 1
O Capítulo 5 – Funções e conceitos estatísticos – traz uma breve revisão da estatística descritiva, mas tem o foco principal em estatística inferencial, por meio de teste de hipóteses e análise de variância, incluindo a regressão linear múltipla. Para o objetivo da estatística inferencial, apresenta-se as distribuições de frequência mais importantes: t de Student, normal, chi-quadrado, F, Poisson, uniforme e triangular.
O valor-p muito usado nos testes de hipóteses está associada à área sob a curva de distribuição de probabilidades, como ilustra a figura da distribuição do chi-quadrado. Em seguida, tem-se o cálculo do intervalo de confiança da média tanto para amostras pequenas como grandes. Continuando, o tópico referente ao teste de hipóteses apresenta os dez testes mais importantes na estatística inferencial: t; normalidade da distribuição (Shapiro-Wilk); F; chi-quadrado; Kolgomorov-Smirnov; Mann-Whitney ou Wilcox; Ansari-Bradley; Lepage; Kruskal-Wallis e Friedman.
Para todos estes testes, tem-se a fundamentação teórica, acompanhada das fórmulas matemáticas, exemplo numérico e sua programação em linguagem R. O script feito em R é testado contra a função correspondente da biblioteca da linguagem R, para fins de validação. Cabe ressaltar que existem testes muito simples como o teste t, mas também testes difíceis como é o teste de Shapiro-Wilk que testa a normalidade da distribuição com base na regressão e correlação entre os dados e os escores normais correspondentes, cuja implementação só foi possível após um algoritmo publicado em MATLAB.
Há testes que requerem distribuições específicas de probabilidades, como, por exemplo, a distribuição de Kolgomorov-Smirnov e a distribuição de Wilcoxon. Devido à sua especificidade, elas não são tratadas no tópico próprio das distribuições de probabilidade. Por fim, apresenta-se a técnica da análise de variância e regressão linear múltipla. Nesse caso, tem-se as variáveis explicativas como categóricas ou fatores, onde cada fator pode ter dois ou mais níveis.
Como os fatores não podem ser manipulados numericamente, eles devem ser transformados em funções indicadoras, por meio da codificação indicadora ou alternativa. Além disso, quando há dois fatores, tem-se a interação entre eles, que deve ser feita com muito cuidado para evitar erros. Assim, a análise de variância considera um ou dois fatores. No caso de três fatores, pode-se fazer a extensão do que se apresenta para dois fatores, mas com bastante cuidado, devido às interações.
O Capítulo 5 apresenta os principais testes de hipóteses aplicados na estatística inferencial. Da mesma forma como no capítulo anterior, os algoritmos são descritos e exemplificados numericamente, em seguida são codificados e validados com as funções de biblioteca correspondentes.
Muitos testes estatísticos apresentados neste capítulo são mais bem compreendidos quando exemplificados numericamente, notadamente os testes não paramétricos, que envolvem a ordenação por postos. Além disso, o Leitor poderá verificar que todas as fórmulas são contempladas, sem as quais não seria possível sequer fazer a descrição do teste.
Como exemplo, pode-se citar o simples cálculo dos graus de liberdade para o teste t para variâncias populacionais iguais ou diferentes, cujas fórmulas são totalmente distintas entre uma situação e outra. Nesse sentido, este capítulo apresenta todas as fórmulas envolvidas, resultado de uma pesquisa à exaustão em todas as fontes disponíveis ao Autor. Este capítulo contempla um total de 59 scripts que envolvem uma programação científica que aplica todos os recursos e vantagens da programação orientada a objetos.
Para acessar os artigos anteriores sobre a série R na Prática, clique aqui.