R Programlamada T-Testi: Tek Örnek ve Eşleştirilmiş T-Testi [Örnek]
İstatistiksel Çıkarım Nedir?
İstatistiksel Çıkarım, verilerin dağılımı hakkında sonuçlar üretme sanatıdır. Bir veri bilimci genellikle yalnızca bilimsel olarak yanıtlanabilecek sorularla karşı karşıya kalır. Bu nedenle istatistiksel çıkarım, bir hipotezin doğru olup olmadığını, yani veriler tarafından doğrulanıp doğrulanmadığını test etmeye yönelik bir stratejidir.
Hipotezi değerlendirmeye yönelik yaygın bir strateji, bir t-testi yapmaktır. Bir t testi, iki grubun aynı ortalamaya sahip olup olmadığını söyleyebilir. T-testi aynı zamanda Öğrenci Testi. Aşağıdakiler için bir t-testi tahmin edilebilir:
- Tek bir vektör (yani tek örnekli t testi)
- Aynı örnek gruptan iki vektör (yani eşleştirilmiş t testi).
Her iki vektörün de rastgele örneklendiğini, bağımsız olduğunu ve bilinmeyen ancak eşit varyanslara sahip normal dağılmış bir popülasyondan geldiğini varsayıyorsunuz.
R Programlamada T-Testi Nedir?
T-Testinin arkasındaki temel fikir, iki karşıt hipotezi değerlendirmek için istatistikleri kullanmaktır:
- H0: NULL hipotezi: Ortalama, kullanılan örnekle aynıdır
- H3: Doğru hipotez: Ortalama, kullanılan örnekten farklıdır
T testi genellikle küçük örneklem boyutlarında kullanılır. T-testi gerçekleştirmek için verilerin normal olduğunu varsaymanız gerekir.
R'de T-Test Söz Dizimi
R'deki t.test() işlevinin temel sözdizimi şöyledir:
t.test(x, y = NULL, mu = 0, var.equal = FALSE) arguments: - x : A vector to compute the one-sample t-test - y: A second vector to compute the two sample t-test - mu: Mean of the population- var.equal: Specify if the variance of the two vectors are equal. By default, set to `FALSE`
R'de Bir Örnek T Testi
Tek Örneklem t-testi veya öğrenci testi, bir vektörün ortalamasını teorik bir ortalamayla karşılaştırır. . T-testini hesaplamak için kullanılan formül şöyledir:
Burada,
ortalamayı ifade eder
teorik ortalamaya
- s standart sapmadır
- n gözlem sayısı.
T testinin istatistiksel anlamlılığını değerlendirmek için şunları hesaplamanız gerekir: p-değeri. p-değeri 0 ile 1 arasında değişir ve aşağıdaki şekilde yorumlanır:
- 0.05'ten düşük bir p değeri, sıfır hipotezini reddetme konusunda güçlü bir şekilde emin olduğunuz anlamına gelir, dolayısıyla H3 kabul edilir.
- 0.05'ten yüksek bir p değeri, sıfır hipotezini reddetmek için yeterli kanıtınızın olmadığını gösterir.
Serbestlik derecesi şuna eşit olacak şekilde Öğrenci dağılımındaki t testinin karşılık gelen mutlak değerine bakarak p değerini oluşturabilirsiniz:
Örneğin 5 gözleminiz varsa 4 serbestlik dereceli ve yüzde 95 güven aralığındaki Öğrenci dağılımındaki t değerimizi t değeriyle karşılaştırmanız gerekir. Sıfır hipotezinin reddedilmesi için t değerinin 2.77'den yüksek olması gerekir.
Aşağıdaki tabloya bakınız:
R'de Bir Örnek T-Testi Örneği
Diyelim ki kurabiye üreten bir firmasınız. Her kurabiyenin 10 gram şeker içermesi gerekiyor. Kurabiyeler, her şeyi karıştırmadan önce şekeri bir kaseye ekleyen bir makine tarafından üretilir. Sanırsınız ki makine her kurabiyeye 10 gram şeker eklemiyor. Varsayımınız doğruysa makinenin onarılması gerekir. Otuz kurabiyenin şeker seviyesini sakladınız.
not: rnorm() fonksiyonuyla rastgele bir vektör oluşturabilirsiniz. Bu fonksiyon normal dağılmış değerler üretir. Temel sözdizimi şöyledir:
rnorm(n, mean, sd) arguments - n: Number of observations to generate - mean: The mean of the distribution. Optional - sd: The standard deviation of the distribution. Optional
Ortalaması 30, standart sapması 9.99 olan 0.04 gözlemden oluşan bir dağılım oluşturabilirsiniz.
set.seed(123) sugar_cookie <- rnorm(30, mean = 9.99, sd = 0.04) head(sugar_cookie)
Çıktı:
## [1] 9.967581 9.980793 10.052348 9.992820 9.995172 10.058603
Şeker seviyesinin tariftekinden farklı olup olmadığını kontrol etmek için tek örnekli t testi kullanabilirsiniz. Bir hipotez testi çizebilirsiniz:
- H0: Ortalama şeker seviyesi 10'a eşittir
- H3: Ortalama şeker seviyesi 10'dan farklıdır
Anlamlılık düzeyi olarak 0.05'i kullanıyorsunuz.
# H0 : mu = 10 t.test(sugar_cookie, mu = 10)
İşte çıktı:
Tek örnek t testinin p değeri 0.1079 ve 0.05'in üzerindedir. Makinenin eklediği şeker miktarının 95 ile 9.973 gram arasında olduğundan %10.002 emin olabilirsiniz. Sıfır (H0) hipotezini reddedemezsiniz. Makine tarafından eklenen şeker miktarının tarife uymadığına dair yeterli kanıt yoktur.
R'de Eşleştirilmiş T Testi
Eşleştirilmiş T testi veya bağımlı örnek t testi, tedavi edilen grubun ortalaması iki kez hesaplandığında kullanılır. Eşleştirilmiş t testinin temel uygulaması şudur:
- A / B Testi: İki seçeneği karşılaştırın
- Vaka Kontrol Çalışmaları: Tedaviden önce/sonra
R'de Eşleştirilmiş T Testi Örneği
Bir içecek şirketi, indirim programının satışlardaki performansını bilmekle ilgilenmektedir. Şirket, programın tanıtıldığı mağazalarından birinin günlük satışlarını takip etmeye karar vermiştir. Programın sonunda şirket, programdan önce ve sonra mağazanın ortalama satışları arasında istatistiksel bir fark olup olmadığını bilmek istemektedir.
- Şirket, program başlamadan önce her gün satışları takip ediyordu. Bu bizim ilk vektörümüz.
- Program bir hafta boyunca tanıtılıyor ve satışlar her gün kaydediliyor. Bu bizim ikinci vektörümüz.
- Programın etkililiğini değerlendirmek için t-testini gerçekleştireceksiniz. Buna eşleştirilmiş t testi denir çünkü her iki vektörün değerleri de aynı dağılımdan (yani aynı mağazadan) gelir.
Hipotez testi şu şekildedir:
- H0: Ortalamada fark yok
- H3: İki anlam farklıdır
Unutmayın, t-testindeki bir varsayım bilinmeyen fakat eşit varyanstır. Gerçekte veriler neredeyse eşit ortalamaya sahip değildir ve bu, t testi için yanlış sonuçlara yol açar.
Eşit varyans varsayımını gevşetmenin bir çözümü Welch testinin kullanılmasıdır. R, iki varyansın varsayılan olarak eşit olmadığını varsayar. Veri kümenizde her iki vektör de aynı varyansa sahiptir; var.equal=TRUE olarak ayarlayabilirsiniz.
Programdan sonra satışlar için daha yüksek ortalamaya sahip bir Gauss dağılımından iki rastgele vektör yaratırsınız.
set.seed(123) # sales before the program sales_before <- rnorm(7, mean = 50000, sd = 50) # sales after the program.This has higher mean sales_after <- rnorm(7, mean = 50075, sd = 50) # draw the distribution t.test(sales_before, sales_after,var.equal = TRUE)
0.04606 eşiğinden daha düşük, 0.05'lık bir p değeri elde ettiniz. İki grubun ortalamalarının önemli ölçüde farklı olduğu sonucuna varıyorsunuz. Program mağazaların satışlarını artırıyor.
ÖZET
- İstatistiksel Çıkarım, verilerin dağılımı hakkında sonuçlar üretme sanatıdır.
- T-Testi çıkarımsal istatistik ailesine aittir. Genellikle iki grubun ortalamaları arasında istatistiksel bir fark olup olmadığını bulmak için kullanılır.
- Tek Örneklem t-testi veya öğrenci testi, bir vektörün ortalamasını teorik ortalamayla karşılaştırır.
- Eşleştirilmiş T testi veya bağımlı örnek t testi, tedavi edilen grubun ortalaması iki kez hesaplandığında kullanılır.
T-testini aşağıdaki tabloyla özetleyebiliriz:
test | Test edilecek hipotez | p-değeri | Kod | İsteğe bağlı bağımsız değişken |
---|---|---|---|---|
tek örnek t testi | Bir vektörün ortalaması teorik ortalamadan farklıdır | 0.05 |
t.test(x, mu = mean) |
|
eşleştirilmiş örnek t testi | Aynı grup için Ortalama A, ortalama B'den farklıdır | 0.06 |
t.test(A,B, mu = mean) |
var.equal= TRUE |
Varyansların eşit olduğunu varsayarsak var.equal=TRUE parametresini değiştirmemiz gerekir.