R 프로그래밍의 T-검정: 단일 표본 및 쌍체 T-검정 [예]
통계적 추론이란 무엇입니까?
통계적 추론은 데이터 분포에 대한 결론을 생성하는 기술입니다. 데이터 과학자는 과학적으로만 대답할 수 있는 질문에 자주 노출됩니다. 따라서 통계적 추론은 가설이 사실인지, 즉 데이터를 통해 검증되는지 테스트하는 전략입니다.
가설을 평가하는 일반적인 전략은 t-검정을 수행하는 것입니다. t-검정을 통해 두 그룹의 평균이 동일한지 여부를 알 수 있습니다. t-검정이라고도 합니다. 학생 시험. t-검정은 다음을 추정할 수 있습니다.
- 단일 벡터(즉, XNUMX표본 t-검정)
- 동일한 샘플 그룹의 두 벡터(즉, 쌍을 이루는 t-검정).
두 벡터 모두 무작위로 샘플링되고 독립적이며 알 수 없지만 분산이 동일한 정규 분포 모집단에서 나온 것으로 가정합니다.
R 프로그래밍에서 T-테스트란 무엇입니까?
T-검정의 기본 아이디어는 통계를 사용하여 두 가지 상반된 가설을 평가하는 것입니다.
- H0: NULL 가설: 평균은 사용된 표본과 동일합니다.
- H3: 참 가설: 평균이 사용된 표본과 다릅니다.
T-검정은 일반적으로 작은 표본 크기에 사용됩니다. t-검정을 수행하려면 데이터의 정규성을 가정해야 합니다.
R의 T-테스트 구문
R의 t.test() 기본 구문은 다음과 같습니다.
t.test(x, y = NULL, mu = 0, var.equal = FALSE) arguments: - x : A vector to compute the one-sample t-test - y: A second vector to compute the two sample t-test - mu: Mean of the population- var.equal: Specify if the variance of the two vectors are equal. By default, set to `FALSE`
R의 단일 표본 T-검정
단일 표본 t-검정 또는 학생 검정은 벡터의 평균을 이론적 평균과 비교합니다. . t-검정을 계산하는 데 사용되는 공식은 다음과 같습니다.
여기
- 평균을 말한다
- 이론적 평균으로
- s는 표준편차입니다.
- n 관측치 수.
t-검정의 통계적 유의성을 평가하려면 다음을 계산해야 합니다. P-값이. 그만큼 P-값이 범위는 0에서 1까지이며 다음과 같이 해석됩니다.
- p-값이 0.05보다 작다는 것은 귀무 가설을 기각할 수 있다는 것을 의미하므로 H3가 채택됩니다.
- p-값이 0.05보다 높으면 귀무 가설을 기각할 만큼 충분한 증거가 없음을 나타냅니다.
자유도가 다음과 같은 학생 분포에서 해당 t-검정의 절대값을 보고 p-값을 구성할 수 있습니다.
예를 들어, 관측치가 5개인 경우 자유도가 4이고 신뢰 구간이 95%인 스튜던트 분포의 t-값과 t-값을 비교해야 합니다. 귀무가설을 기각하려면 t-값이 2.77보다 높아야 합니다.
아래 표 참조:
R의 단일 샘플 T-검정 예
당신이 쿠키를 생산하는 회사라고 가정해 보세요. 각 쿠키에는 10g의 설탕이 들어 있다고 가정합니다. 쿠키는 모든 것을 섞기 전에 그릇에 설탕을 넣는 기계로 생산됩니다. 당신은 기계가 각 쿠키에 10g의 설탕을 추가하지 않는다고 생각합니다. 당신의 가정이 사실이라면 기계를 고쳐야 합니다. 쿠키 XNUMX개 분량의 설탕을 저장했습니다.
주의 사항: rnorm() 함수를 사용하여 무작위 벡터를 생성할 수 있습니다. 이 함수는 정규 분포 값을 생성합니다. 기본 구문은 다음과 같습니다.
rnorm(n, mean, sd) arguments - n: Number of observations to generate - mean: The mean of the distribution. Optional - sd: The standard deviation of the distribution. Optional
평균이 30이고 표준편차가 9.99인 0.04개의 관측값이 포함된 분포를 만들 수 있습니다.
set.seed(123) sugar_cookie <- rnorm(30, mean = 9.99, sd = 0.04) head(sugar_cookie)
출력:
## [1] 9.967581 9.980793 10.052348 9.992820 9.995172 10.058603
일표본 t-검정을 사용하여 설탕 함량이 레시피와 다른지 여부를 확인할 수 있습니다. 가설 검정을 그릴 수 있습니다.
- H0: 평균 당도는 10과 같습니다.
- H3: 평균 당도가 10과 다릅니다.
유의수준 0.05를 사용합니다.
# H0 : mu = 10 t.test(sugar_cookie, mu = 10)
출력은 다음과 같습니다.
단일 표본 t-검정의 p-값은 0.1079이고 0.05 이상입니다. 기계에서 첨가된 설탕의 양이 95~9.973g 사이라고 10.002% 확신할 수 있습니다. 귀무(H0) 가설을 기각할 수 없습니다. 기계에 첨가된 설탕의 양이 레시피를 따르지 않는다는 증거는 충분하지 않습니다.
R의 쌍체 T-검정
대응 T-검정 또는 종속 표본 t-검정은 치료 그룹의 평균을 두 번 계산할 때 사용됩니다. 대응 t-검정의 기본 적용은 다음과 같습니다.
- A / B 테스트: 두 가지 변형 비교
- 사례 통제 연구: 시술 전/후
R의 쌍체 T-검정 예
음료 회사가 할인 프로그램의 매출 성과를 알고 싶어합니다. 이 회사는 프로그램이 홍보되는 매장 중 한 곳의 일일 매출을 추적하기로 했습니다. 프로그램이 끝날 때 이 회사는 프로그램 전과 후 매장의 평균 매출에 통계적 차이가 있는지 알고 싶어합니다.
- 회사는 프로그램이 시작되기 전에 매일 매출을 추적했습니다. 이것이 첫 번째 벡터입니다.
- 이 프로그램은 1주일 동안 홍보되고 매일 매출이 기록됩니다. 이것이 우리의 두 번째 벡터입니다.
- 프로그램의 효율성을 판단하기 위해 t-테스트를 수행합니다. 두 벡터의 값이 동일한 분포(즉, 동일한 상점)에서 나오므로 이를 쌍체 t-검정이라고 합니다.
가설 검정은 다음과 같습니다.
- H0: 평균에는 차이가 없음
- H3: 두 가지 의미가 다릅니다.
t-검정의 가정 중 하나는 알 수 없지만 등분산이라는 가정을 기억하세요. 실제로 데이터의 평균은 거의 동일하지 않으며 이로 인해 t-검정 결과가 부정확해집니다.
등분산 가정을 완화하는 한 가지 해결책은 Welch 검정을 사용하는 것입니다. R은 기본적으로 두 분산이 동일하지 않다고 가정합니다. 데이터 세트에서 두 벡터의 분산이 동일하므로 var.equal= TRUE로 설정할 수 있습니다.
프로그램 이후 판매 평균이 더 높은 가우스 분포에서 두 개의 무작위 벡터를 만듭니다.
set.seed(123) # sales before the program sales_before <- rnorm(7, mean = 50000, sd = 50) # sales after the program.This has higher mean sales_after <- rnorm(7, mean = 50075, sd = 50) # draw the distribution t.test(sales_before, sales_after,var.equal = TRUE)
임계값 0.04606보다 낮은 0.05의 p-값을 얻었습니다. 두 그룹의 평균이 상당히 다르다는 결론을 내렸습니다. 이 프로그램은 상점의 판매를 향상시킵니다.
요약
- 통계적 추론은 데이터 분포에 대한 결론을 생성하는 기술입니다.
- T-테스트는 추론 통계의 한 종류입니다. 일반적으로 두 그룹의 평균 사이에 통계적 차이가 있는지 알아내는 데 사용됩니다.
- 단일 표본 t-검정 또는 학생용 검정은 벡터의 평균을 이론적 평균과 비교합니다.
- 대응 T-검정 또는 종속 표본 t-검정은 치료 그룹의 평균을 두 번 계산할 때 사용됩니다.
t-검정을 요약하면 아래 표와 같습니다.
Test | 테스트할 가설 | P-값이 | 암호 | 선택적 인수 |
---|---|---|---|---|
일표본 t-검정 | 벡터의 평균이 이론적인 평균과 다릅니다. | 0.05 |
t.test(x, mu = mean) |
|
대응표본 t-검정 | 같은 그룹의 평균 A는 평균 B와 다릅니다. | 0.06 |
t.test(A,B, mu = mean) |
var.equal= TRUE |
분산이 동일하다고 가정하면 매개변수 var.equal= TRUE를 변경해야 합니다.