Teste T em programação R: uma amostra e teste T emparelhado [exemplo]
O que é inferência estatística?
Inferência Estatística é a arte de gerar conclusões sobre a distribuição dos dados. Um cientista de dados é frequentemente exposto a questões que só podem ser respondidas cientificamente. Portanto, a inferência estatística é uma estratégia para testar se uma hipótese é verdadeira, ou seja, validada pelos dados.
Uma estratégia comum para avaliar hipóteses é realizar um teste t. Um teste t pode dizer se dois grupos têm a mesma média. Um teste t também é chamado de Teste do Aluno. Um teste t pode ser estimado para:
- Um único vetor (ou seja, teste t de uma amostra)
- Dois vetores do mesmo grupo amostral (ou seja, teste t pareado).
Você assume que ambos os vetores são amostrados aleatoriamente, independentes e vêm de uma população normalmente distribuída com variâncias desconhecidas, mas iguais.
O que é teste T na programação R?
A ideia básica por trás de um Teste T é usar estatísticas para avaliar duas hipóteses contrárias:
- H0: Hipótese NULA: A média é igual à amostra utilizada
- H3: Hipótese verdadeira: A média é diferente da amostra utilizada
O teste T é comumente usado com amostras pequenas. Para realizar um teste t, você precisa assumir a normalidade dos dados.
Sintaxe do teste T em R
A sintaxe básica para t.test() em R é:
t.test(x, y = NULL, mu = 0, var.equal = FALSE) arguments: - x : A vector to compute the one-sample t-test - y: A second vector to compute the two sample t-test - mu: Mean of the population- var.equal: Specify if the variance of the two vectors are equal. By default, set to `FALSE`
Teste T de uma amostra em R
O teste t de uma amostra, ou teste de Student, compara a média de um vetor com uma média teórica, . A fórmula usada para calcular o teste t é:
Aqui,
refere-se à média
para a média teórica
- s é o desvio padrão
- n o número de observações.
Para avaliar a significância estatística do teste t, você precisa calcular o valor-p. O valor-p varia de 0 a 1 e é interpretado da seguinte forma:
- Um valor p inferior a 0.05 significa que você está fortemente confiante para rejeitar a hipótese nula, portanto, H3 é aceita.
- Um valor p superior a 0.05 indica que você não tem evidências suficientes para rejeitar a hipótese nula.
Você pode construir o valor p observando o valor absoluto correspondente do teste t na distribuição de Student com graus de liberdade iguais a
Por exemplo, se você tiver 5 observações, precisará comparar nosso valor t com o valor t na distribuição de Student com 4 graus de liberdade e com intervalo de confiança de 95 por cento. Para rejeitar a hipótese nula, o valor t deve ser superior a 2.77.
Cf tabela abaixo:
Um exemplo de teste T em R
Suponha que você seja uma empresa que produz biscoitos. Cada biscoito deve conter 10 gramas de açúcar. Os biscoitos são produzidos por uma máquina que coloca o açúcar em uma tigela antes de misturar tudo. Você acredita que a máquina não adiciona 10 gramas de açúcar para cada biscoito. Se sua suposição for verdadeira, a máquina precisa ser consertada. Você armazenou o nível de açúcar de trinta biscoitos.
Note: Você pode criar um vetor aleatório com a função rnorm(). Esta função gera valores normalmente distribuídos. A sintaxe básica é:
rnorm(n, mean, sd) arguments - n: Number of observations to generate - mean: The mean of the distribution. Optional - sd: The standard deviation of the distribution. Optional
Você pode criar uma distribuição com 30 observações com média de 9.99 e desvio padrão de 0.04.
set.seed(123) sugar_cookie <- rnorm(30, mean = 9.99, sd = 0.04) head(sugar_cookie)
Saída:
## [1] 9.967581 9.980793 10.052348 9.992820 9.995172 10.058603
Você pode usar um teste t de uma amostra para verificar se o nível de açúcar é diferente do da receita. Você pode desenhar um teste de hipótese:
- H0: O nível médio de açúcar é igual a 10
- H3: O nível médio de açúcar é diferente de 10
Você usa um nível de significância de 0.05.
# H0 : mu = 10 t.test(sugar_cookie, mu = 10)
Aqui está o resultado:
O valor p do teste t de uma amostra é 0.1079 e acima de 0.05. Você pode ter 95% de certeza de que a quantidade de açúcar adicionada pela máquina está entre 9.973 e 10.002 gramas. Você não pode rejeitar a hipótese nula (H0). Não há evidências suficientes de que a quantidade de açúcar adicionada pela máquina não esteja de acordo com a receita.
Teste T pareado em R
O teste T pareado, ou teste t de amostra dependente, é usado quando a média do grupo tratado é calculada duas vezes. A aplicação básica do teste t pareado é:
- Teste A / B: Compare duas variantes
- Estudos de Controle de Caso: Antes/depois do tratamento
Exemplo de teste T pareado em R
Uma empresa de bebidas está interessada em conhecer o desempenho de um programa de descontos nas vendas. A empresa decidiu acompanhar as vendas diárias de uma de suas lojas onde o programa está sendo promovido. Ao final do programa, a empresa quer saber se existe diferença estatística entre as vendas médias da loja antes e depois do programa.
- A empresa acompanhava as vendas todos os dias antes do início do programa. Este é o nosso primeiro vetor.
- O programa é promovido durante uma semana e as vendas são registradas todos os dias. Este é o nosso segundo vetor.
- Você realizará o teste t para avaliar a eficácia do programa. Isso é chamado de teste t pareado porque os valores de ambos os vetores vêm da mesma distribuição (ou seja, da mesma loja).
O teste de hipótese é:
- H0: Sem diferença na média
- H3: Os dois meios são diferentes
Lembre-se de que uma suposição no teste t é uma variância desconhecida, mas igual. Na realidade, os dados mal têm média igual e isso leva a resultados incorretos para o teste t.
Uma solução para relaxar a suposição de igualdade de variância é usar o teste de Welch. R assume que as duas variações não são iguais por padrão. No seu conjunto de dados, ambos os vetores têm a mesma variação, você pode definir var.equal= TRUE.
Você cria dois vetores aleatórios a partir de uma distribuição gaussiana com uma média mais alta para as vendas após o programa.
set.seed(123) # sales before the program sales_before <- rnorm(7, mean = 50000, sd = 50) # sales after the program.This has higher mean sales_after <- rnorm(7, mean = 50075, sd = 50) # draw the distribution t.test(sales_before, sales_after,var.equal = TRUE)
Você obteve um valor p de 0.04606, inferior ao limite de 0.05. Você conclui que as médias dos dois grupos são significativamente diferentes. O programa melhora as vendas das lojas.
Resumo
- Inferência Estatística é a arte de gerar conclusões sobre a distribuição dos dados.
- O Teste T pertence à família das estatísticas inferenciais. É comumente empregado para descobrir se há diferença estatística entre as médias de dois grupos.
- O teste t de uma amostra, ou teste de Student, compara a média de um vetor com uma média teórica.
- O teste T pareado, ou teste t de amostra dependente, é usado quando a média do grupo tratado é calculada duas vezes.
Podemos resumir o teste t na tabela abaixo:
Teste | Hipótese a testar | valor-p | Code | Argumento opcional |
---|---|---|---|---|
teste t de uma amostra | A média de um vetor é diferente da média teórica | 0.05 |
t.test(x, mu = mean) |
|
teste t de amostra pareada | A média A é diferente da média B para o mesmo grupo | 0.06 |
t.test(A,B, mu = mean) |
var.equal= TRUE |
Se assumirmos que as variâncias são iguais, precisamos alterar o parâmetro var.equal= TRUE.