T-Test trong lập trình R: T-Test một mẫu và ghép nối [Ví dụ]

Suy luận thống kê là gì?

Suy luận thống kê là nghệ thuật đưa ra kết luận về việc phân phối dữ liệu. Một nhà khoa học dữ liệu thường phải đối mặt với những câu hỏi chỉ có thể trả lời một cách khoa học. Do đó, suy luận thống kê là một chiến lược để kiểm tra xem một giả thuyết có đúng hay không, tức là được dữ liệu xác nhận.

Một chiến lược phổ biến để đánh giá giả thuyết là tiến hành kiểm định t. Một bài kiểm tra t có thể cho biết liệu hai nhóm có cùng giá trị trung bình hay không. Kiểm định t còn được gọi là Bài kiểm tra sinh viên. Một bài kiểm tra t có thể được ước tính cho:

  1. Một vectơ đơn (nghĩa là thử nghiệm t một mẫu)
  2. Hai vectơ từ cùng một nhóm mẫu (nghĩa là thử nghiệm t ghép đôi).

Bạn giả định rằng cả hai vectơ đều được lấy mẫu ngẫu nhiên, độc lập và đến từ một quần thể có phân bố chuẩn với phương sai không xác định nhưng bằng nhau.

T-Test trong lập trình R là gì?

Ý tưởng cơ bản đằng sau T-Test là sử dụng số liệu thống kê để đánh giá hai giả thuyết trái ngược nhau:

  • H0: Giả thuyết NULL: Giá trị trung bình giống với mẫu được sử dụng
  • H3: Giả thuyết đúng: Giá trị trung bình khác với mẫu được sử dụng

T-test thường được sử dụng với cỡ mẫu nhỏ. Để thực hiện kiểm tra t, bạn cần giả định tính quy tắc của dữ liệu.

Cú pháp kiểm tra T trong R

Cú pháp cơ bản cho t.test() trong R là:

t.test(x, y = NULL,
       mu = 0, var.equal = FALSE)
arguments:
- x : A vector to compute the one-sample t-test
- y: A second vector to compute the two sample t-test
- mu: Mean of the population- var.equal: Specify if the variance of the two vectors are equal. By default, set to `FALSE`

Một bài kiểm tra T mẫu trong R

Kiểm định t One Sample, hay kiểm định của sinh viên, so sánh giá trị trung bình của một vectơ với giá trị trung bình lý thuyết, Một bài kiểm tra T mẫu trong R. Công thức được sử dụng để tính t-test là:

Một bài kiểm tra T mẫu trong R

Ở đây,

  • Một bài kiểm tra T mẫu trong R đề cập đến ý nghĩa
  • Một bài kiểm tra T mẫu trong R về mặt lý thuyết
  • s là độ lệch chuẩn
  • n số lượng quan sát.

Để đánh giá ý nghĩa thống kê của kiểm định t, bạn cần tính toán giá trị p. Các giá trị p nằm trong khoảng từ 0 đến 1 và được hiểu như sau:

  • Giá trị p thấp hơn 0.05 có nghĩa là bạn rất tự tin bác bỏ giả thuyết khống, do đó H3 được chấp nhận.
  • Giá trị p cao hơn 0.05 cho thấy bạn không có đủ bằng chứng để bác bỏ giả thuyết không.

Bạn có thể xây dựng giá trị p bằng cách xem xét giá trị tuyệt đối tương ứng của kiểm định t trong phân bố Sinh viên với bậc tự do bằng Một bài kiểm tra T mẫu trong R

Ví dụ: nếu bạn có 5 quan sát, bạn cần so sánh giá trị t của chúng tôi với giá trị t trong phân bố Sinh viên với 4 bậc tự do và ở khoảng tin cậy 95%. Để bác bỏ giả thuyết không, giá trị t phải cao hơn 2.77.

Bảng Cf dưới đây:

Một bài kiểm tra T mẫu trong R

Một ví dụ về T-Test mẫu trong R

Giả sử bạn là một công ty sản xuất bánh quy. Mỗi chiếc bánh quy được cho là chứa 10 gram đường. Bánh quy được sản xuất bằng máy thêm đường vào tô trước khi trộn mọi thứ. Bạn tin rằng máy không thêm 10 gam đường cho mỗi chiếc bánh quy. Nếu giả định của bạn là đúng thì máy cần được sửa. Bạn đã lưu trữ lượng đường bằng ba mươi chiếc bánh quy.

Chú thích: Bạn có thể tạo một vectơ ngẫu nhiên bằng hàm rnorm(). Hàm này tạo ra các giá trị được phân phối chuẩn. Cú pháp cơ bản là:

rnorm(n, mean, sd)
arguments
- n: Number of observations to generate
- mean: The mean of the distribution. Optional
- sd: The standard deviation of the distribution. Optional

Bạn có thể tạo một phân phối với 30 quan sát với giá trị trung bình là 9.99 và độ lệch chuẩn là 0.04.

set.seed(123) sugar_cookie <- rnorm(30, mean = 9.99, sd = 0.04)
head(sugar_cookie)

Đầu ra:

## [1]  9.967581  9.980793 10.052348  9.992820  9.995172 10.058603

Bạn có thể sử dụng phép thử t một mẫu để kiểm tra xem lượng đường có khác với công thức hay không. Bạn có thể rút ra một bài kiểm tra giả thuyết:

  • H0: Lượng đường trung bình bằng 10
  • H3: Mức đường trung bình khác 10

Bạn sử dụng mức ý nghĩa 0.05.

# H0 : mu = 10
t.test(sugar_cookie, mu = 10)

Đây là đầu ra:

Một ví dụ về T-Test mẫu trong R

Giá trị p của thử nghiệm t một mẫu là 0.1079 và trên 0.05. Bạn có thể tự tin ở mức 95% rằng lượng đường mà máy thêm vào là từ 9.973 đến 10.002 gam. Bạn không thể bác bỏ giả thuyết không (H0). Không có đủ bằng chứng cho thấy lượng đường được máy thêm vào không đúng công thức.

T-Test ghép đôi trong R

Kiểm định T theo cặp, hay kiểm định t mẫu phụ thuộc, được sử dụng khi giá trị trung bình của nhóm can thiệp được tính hai lần. Ứng dụng cơ bản của bài kiểm tra t ghép đôi là:

  • Thử nghiệm A / B: So sánh hai biến thể
  • Nghiên cứu kiểm soát trường hợp: Trước/sau điều trị

Ví dụ về T-Test ghép nối trong R

Một công ty đồ uống muốn biết hiệu suất của chương trình giảm giá đối với doanh số bán hàng. Công ty quyết định theo dõi doanh số bán hàng hàng ngày của một trong những cửa hàng nơi chương trình đang được quảng bá. Vào cuối chương trình, công ty muốn biết liệu có sự khác biệt về mặt thống kê giữa doanh số bán hàng trung bình của cửa hàng trước và sau chương trình hay không.

  • Công ty theo dõi doanh số bán hàng hàng ngày trước khi chương trình bắt đầu. Đây là vector đầu tiên của chúng tôi.
  • Chương trình được quảng bá trong một tuần và doanh số được ghi lại hàng ngày. Đây là vector thứ hai của chúng tôi.
  • Bạn sẽ thực hiện t-test để đánh giá tính hiệu quả của chương trình. Đây được gọi là phép thử t ghép đôi vì giá trị của cả hai vectơ đều đến từ cùng một phân phối (tức là cùng một cửa hàng).

Kiểm định giả thuyết là:

  • H0: Không có sự khác biệt về giá trị trung bình
  • H3: Hai phương tiện này khác nhau

Hãy nhớ rằng, một giả định trong kiểm định t là một phương sai chưa biết nhưng bằng nhau. Trên thực tế, dữ liệu hầu như không có giá trị trung bình bằng nhau và dẫn đến kết quả kiểm định t không chính xác.

Một giải pháp để nới lỏng giả định phương sai bằng nhau là sử dụng phép kiểm định Welch. R giả sử hai phương sai không bằng nhau theo mặc định. Trong tập dữ liệu của bạn, cả hai vectơ đều có cùng phương sai, bạn có thể đặt var.equal= TRUE.

Bạn tạo hai vectơ ngẫu nhiên từ phân bố Gaussian với giá trị trung bình cao hơn cho doanh số bán hàng sau chương trình.

set.seed(123)
# sales before the program
sales_before <- rnorm(7, mean = 50000, sd = 50)
# sales after the program.This has higher mean
sales_after <- rnorm(7, mean = 50075, sd = 50)
# draw the distribution
t.test(sales_before, sales_after,var.equal = TRUE)

Ví dụ về T-Test ghép nối trong R

Bạn đã nhận được giá trị p là 0.04606, thấp hơn ngưỡng 0.05. Bạn kết luận rằng mức trung bình của hai nhóm là khác nhau đáng kể. Chương trình cải thiện doanh số bán hàng của các cửa hàng.

Tổng kết

  • Suy luận thống kê là nghệ thuật đưa ra kết luận về việc phân phối dữ liệu.
  • T-Test thuộc họ thống kê suy luận. Nó thường được sử dụng để tìm hiểu xem có sự khác biệt thống kê giữa giá trị trung bình của hai nhóm hay không.
  • Kiểm định t One Sample hay kiểm định Student, so sánh giá trị trung bình của một vectơ với giá trị trung bình lý thuyết.
  • Kiểm định T theo cặp, hay kiểm định t mẫu phụ thuộc, được sử dụng khi giá trị trung bình của nhóm can thiệp được tính hai lần.

Chúng ta có thể tóm tắt t-test như bảng dưới đây:

Thử nghiệm Giả thuyết để kiểm tra giá trị p Đối số tùy chọn
kiểm định t một mẫu Giá trị trung bình của vectơ khác với giá trị trung bình lý thuyết 0.05
t.test(x, mu = mean)
mẫu thử nghiệm t ghép đôi Giá trị trung bình A khác với giá trị trung bình B của cùng một nhóm 0.06
t.test(A,B, mu = mean)
var.equal= TRUE

Nếu giả sử các phương sai bằng nhau thì chúng ta cần thay đổi tham số var.equal= TRUE.