Teste T em programação R: uma amostra e teste T emparelhado [exemplo]

O que é inferência estatística?

Inferência Estatística é a arte de gerar conclusões sobre a distribuição dos dados. Um cientista de dados é frequentemente exposto a questões que só podem ser respondidas cientificamente. Portanto, a inferência estatística é uma estratégia para testar se uma hipótese é verdadeira, ou seja, validada pelos dados.

Uma estratégia comum para avaliar hipóteses é realizar um teste t. Um teste t pode dizer se dois grupos têm a mesma média. Um teste t também é chamado de Teste do Aluno. Um teste t pode ser estimado para:

  1. Um único vetor (ou seja, teste t de uma amostra)
  2. Dois vetores do mesmo grupo amostral (ou seja, teste t pareado).

Você assume que ambos os vetores são amostrados aleatoriamente, independentes e vêm de uma população normalmente distribuída com variâncias desconhecidas, mas iguais.

O que é teste T na programação R?

A ideia básica por trás de um Teste T é usar estatísticas para avaliar duas hipóteses contrárias:

  • H0: Hipótese NULA: A média é igual à amostra utilizada
  • H3: Hipótese verdadeira: A média é diferente da amostra utilizada

O teste T é comumente usado com amostras pequenas. Para realizar um teste t, você precisa assumir a normalidade dos dados.

Sintaxe do teste T em R

A sintaxe básica para t.test() em R é:

t.test(x, y = NULL,
       mu = 0, var.equal = FALSE)
arguments:
- x : A vector to compute the one-sample t-test
- y: A second vector to compute the two sample t-test
- mu: Mean of the population- var.equal: Specify if the variance of the two vectors are equal. By default, set to `FALSE`

Teste T de uma amostra em R

O teste t de uma amostra, ou teste de Student, compara a média de um vetor com uma média teórica, Teste T de uma amostra em R. A fórmula usada para calcular o teste t é:

Teste T de uma amostra em R

Aqui,

  • Teste T de uma amostra em R refere-se à média
  • Teste T de uma amostra em R para a média teórica
  • s é o desvio padrão
  • n o número de observações.

Para avaliar a significância estatística do teste t, você precisa calcular o valor-p. O valor-p varia de 0 a 1 e é interpretado da seguinte forma:

  • Um valor p inferior a 0.05 significa que você está fortemente confiante para rejeitar a hipótese nula, portanto, H3 é aceita.
  • Um valor p superior a 0.05 indica que você não tem evidências suficientes para rejeitar a hipótese nula.

Você pode construir o valor p observando o valor absoluto correspondente do teste t na distribuição de Student com graus de liberdade iguais a Teste T de uma amostra em R

Por exemplo, se você tiver 5 observações, precisará comparar nosso valor t com o valor t na distribuição de Student com 4 graus de liberdade e com intervalo de confiança de 95 por cento. Para rejeitar a hipótese nula, o valor t deve ser superior a 2.77.

Cf tabela abaixo:

Teste T de uma amostra em R

Um exemplo de teste T em R

Suponha que você seja uma empresa que produz biscoitos. Cada biscoito deve conter 10 gramas de açúcar. Os biscoitos são produzidos por uma máquina que coloca o açúcar em uma tigela antes de misturar tudo. Você acredita que a máquina não adiciona 10 gramas de açúcar para cada biscoito. Se sua suposição for verdadeira, a máquina precisa ser consertada. Você armazenou o nível de açúcar de trinta biscoitos.

Note: Você pode criar um vetor aleatório com a função rnorm(). Esta função gera valores normalmente distribuídos. A sintaxe básica é:

rnorm(n, mean, sd)
arguments
- n: Number of observations to generate
- mean: The mean of the distribution. Optional
- sd: The standard deviation of the distribution. Optional

Você pode criar uma distribuição com 30 observações com média de 9.99 e desvio padrão de 0.04.

set.seed(123) sugar_cookie <- rnorm(30, mean = 9.99, sd = 0.04)
head(sugar_cookie)

Saída:

## [1]  9.967581  9.980793 10.052348  9.992820  9.995172 10.058603

Você pode usar um teste t de uma amostra para verificar se o nível de açúcar é diferente do da receita. Você pode desenhar um teste de hipótese:

  • H0: O nível médio de açúcar é igual a 10
  • H3: O nível médio de açúcar é diferente de 10

Você usa um nível de significância de 0.05.

# H0 : mu = 10
t.test(sugar_cookie, mu = 10)

Aqui está o resultado:

Um exemplo de teste T em R

O valor p do teste t de uma amostra é 0.1079 e acima de 0.05. Você pode ter 95% de certeza de que a quantidade de açúcar adicionada pela máquina está entre 9.973 e 10.002 gramas. Você não pode rejeitar a hipótese nula (H0). Não há evidências suficientes de que a quantidade de açúcar adicionada pela máquina não esteja de acordo com a receita.

Teste T pareado em R

O teste T pareado, ou teste t de amostra dependente, é usado quando a média do grupo tratado é calculada duas vezes. A aplicação básica do teste t pareado é:

  • Teste A / B: Compare duas variantes
  • Estudos de Controle de Caso: Antes/depois do tratamento

Exemplo de teste T pareado em R

Uma empresa de bebidas está interessada em conhecer o desempenho de um programa de descontos nas vendas. A empresa decidiu acompanhar as vendas diárias de uma de suas lojas onde o programa está sendo promovido. Ao final do programa, a empresa quer saber se existe diferença estatística entre as vendas médias da loja antes e depois do programa.

  • A empresa acompanhava as vendas todos os dias antes do início do programa. Este é o nosso primeiro vetor.
  • O programa é promovido durante uma semana e as vendas são registradas todos os dias. Este é o nosso segundo vetor.
  • Você realizará o teste t para avaliar a eficácia do programa. Isso é chamado de teste t pareado porque os valores de ambos os vetores vêm da mesma distribuição (ou seja, da mesma loja).

O teste de hipótese é:

  • H0: Sem diferença na média
  • H3: Os dois meios são diferentes

Lembre-se de que uma suposição no teste t é uma variância desconhecida, mas igual. Na realidade, os dados mal têm média igual e isso leva a resultados incorretos para o teste t.

Uma solução para relaxar a suposição de igualdade de variância é usar o teste de Welch. R assume que as duas variações não são iguais por padrão. No seu conjunto de dados, ambos os vetores têm a mesma variação, você pode definir var.equal= TRUE.

Você cria dois vetores aleatórios a partir de uma distribuição gaussiana com uma média mais alta para as vendas após o programa.

set.seed(123)
# sales before the program
sales_before <- rnorm(7, mean = 50000, sd = 50)
# sales after the program.This has higher mean
sales_after <- rnorm(7, mean = 50075, sd = 50)
# draw the distribution
t.test(sales_before, sales_after,var.equal = TRUE)

Exemplo de teste T pareado em R

Você obteve um valor p de 0.04606, inferior ao limite de 0.05. Você conclui que as médias dos dois grupos são significativamente diferentes. O programa melhora as vendas das lojas.

Resumo

  • Inferência Estatística é a arte de gerar conclusões sobre a distribuição dos dados.
  • O Teste T pertence à família das estatísticas inferenciais. É comumente empregado para descobrir se há diferença estatística entre as médias de dois grupos.
  • O teste t de uma amostra, ou teste de Student, compara a média de um vetor com uma média teórica.
  • O teste T pareado, ou teste t de amostra dependente, é usado quando a média do grupo tratado é calculada duas vezes.

Podemos resumir o teste t na tabela abaixo:

Teste Hipótese a testar valor-p Code Argumento opcional
teste t de uma amostra A média de um vetor é diferente da média teórica 0.05
t.test(x, mu = mean)
teste t de amostra pareada A média A é diferente da média B para o mesmo grupo 0.06
t.test(A,B, mu = mean)
var.equal= TRUE

Se assumirmos que as variâncias são iguais, precisamos alterar o parâmetro var.equal= TRUE.