Test T w programowaniu R: jedna próbka i sparowany test T [Przykład]
Co to jest wnioskowanie statystyczne?
Wnioskowanie statystyczne to sztuka wyciągania wniosków na temat rozkładu danych. Analityk danych często staje przed pytaniami, na które można odpowiedzieć jedynie naukowo. Dlatego wnioskowanie statystyczne to strategia mająca na celu sprawdzenie, czy hipoteza jest prawdziwa, tj. potwierdzona danymi.
Powszechną strategią oceny hipotezy jest przeprowadzenie testu t. Test t może stwierdzić, czy dwie grupy mają tę samą średnią. Test t nazywany jest także a Próba studencka. Test t można oszacować dla:
- Pojedynczy wektor (tj. test t dla jednej próby)
- Dwa wektory z tej samej grupy próbek (tj. test t dla par).
Zakłada się, że oba wektory są próbkowane losowo, niezależne i pochodzą z populacji o rozkładzie normalnym z nieznanymi, ale równymi wariancjami.
Co to jest test T w programowaniu R?
Podstawową ideą testu T jest wykorzystanie statystyk do oceny dwóch przeciwstawnych hipotez:
- H0: Hipoteza NULL: Średnia jest taka sama jak zastosowana próbka
- H3: Hipoteza prawdziwa: średnia różni się od użytej próbki
Test T jest powszechnie stosowany w przypadku małych próbek. Aby wykonać test t, należy założyć normalność danych.
Składnia testu T w R
Podstawowa składnia t.test() w R jest następująca:
t.test(x, y = NULL, mu = 0, var.equal = FALSE) arguments: - x : A vector to compute the one-sample t-test - y: A second vector to compute the two sample t-test - mu: Mean of the population- var.equal: Specify if the variance of the two vectors are equal. By default, set to `FALSE`
Test T dla jednej próbki w R
Test t dla jednej próby, zwany też testem Studenta, porównuje średnią wektora ze średnią teoretyczną, . Wzór używany do obliczenia testu t to:
Tutaj,
odnosi się do średniej
do średniej teoretycznej
- s jest odchyleniem standardowym
- n liczba obserwacji.
Aby ocenić istotność statystyczną testu t, należy obliczyć Wartość p, Wartość p waha się od 0 do 1 i jest interpretowane w następujący sposób:
- Wartość p mniejsza niż 0.05 oznacza, że masz duże prawdopodobieństwo odrzucenia hipotezy zerowej, a zatem hipoteza H3 zostaje zaakceptowana.
- Wartość p wyższa niż 0.05 wskazuje, że nie masz wystarczających dowodów, aby odrzucić hipotezę zerową.
Wartość p można skonstruować, patrząc na odpowiednią wartość bezwzględną testu t w rozkładzie Studenta ze stopniami swobody równymi
Na przykład, jeśli masz 5 obserwacji, musisz porównać naszą wartość t z wartością t w rozkładzie Studenta z 4 stopniami swobody i przy 95% przedziale ufności. Aby odrzucić hipotezę zerową, wartość t powinna być wyższa niż 2.77.
Zobacz tabelę poniżej:
Przykład testu T dla jednej próbki w R
Załóżmy, że jesteś firmą produkującą pliki cookie. Każde ciasteczko powinno zawierać 10 gramów cukru. Ciasteczka są produkowane przez maszynę, która dodaje cukier do miski przed wymieszaniem wszystkiego. Uważasz, że maszyna nie dodaje 10 gramów cukru do każdego ciasteczka. Jeśli Twoje założenie jest prawdziwe, maszynę należy naprawić. Zapisałeś poziom cukru trzydziestu ciasteczek.
Note: Możesz utworzyć losowy wektor za pomocą funkcji rnorm(). Ta funkcja generuje wartości o rozkładzie normalnym. Podstawowa składnia to:
rnorm(n, mean, sd) arguments - n: Number of observations to generate - mean: The mean of the distribution. Optional - sd: The standard deviation of the distribution. Optional
Można utworzyć rozkład z 30 obserwacji ze średnią 9.99 i odchyleniem standardowym 0.04.
set.seed(123) sugar_cookie <- rnorm(30, mean = 9.99, sd = 0.04) head(sugar_cookie)
Wyjście:
## [1] 9.967581 9.980793 10.052348 9.992820 9.995172 10.058603
Możesz zastosować test t dla jednej próbki, aby sprawdzić, czy poziom cukru różni się od przepisu. Możesz narysować test hipotezy:
- H0: Średni poziom cukru wynosi 10
- H3: Średni poziom cukru jest inny niż 10
Używasz poziomu istotności 0.05.
# H0 : mu = 10 t.test(sugar_cookie, mu = 10)
Oto wynik:
Wartość p testu t dla jednej próbki wynosi 0.1079 i powyżej 0.05. Możesz być pewien z 95%, że ilość cukru dodana przez maszynę mieści się w przedziale od 9.973 do 10.002 gramów. Nie można odrzucić hipotezy zerowej (H0). Nie ma wystarczających dowodów na to, że ilość cukru dodana przez maszynę nie jest zgodna z przepisem.
Sparowany test T w R
Test T dla par lub test t dla próby zależnej stosuje się, gdy średnią dla grupy leczonej oblicza się dwukrotnie. Podstawowym zastosowaniem testu t dla par jest:
- Testowanie A / B: Porównaj dwa warianty
- Case Control Studies: Przed/po leczeniu
Przykład sparowanego testu T w R
Firma produkująca napoje jest zainteresowana poznaniem wyników programu rabatowego w sprzedaży. Firma postanowiła śledzić dzienną sprzedaż w jednym ze swoich sklepów, w którym promowany jest program. Pod koniec programu firma chce wiedzieć, czy istnieje statystyczna różnica między średnią sprzedażą sklepu przed i po programie.
- Firma monitorowała sprzedaż codziennie przed rozpoczęciem programu. To jest nasz pierwszy wektor.
- Program jest promowany przez tydzień, a sprzedaż jest rejestrowana każdego dnia. To nasz drugi wektor.
- Przeprowadzisz test t, aby ocenić skuteczność programu. Nazywa się to testem t dla par, ponieważ wartości obu wektorów pochodzą z tego samego rozkładu (tj. tego samego sklepu).
Testowanie hipotez polega na:
- H0: Brak różnicy w średniej
- H3: Te dwa sposoby są różne
Pamiętaj, że jedno założenie w teście t to nieznana, ale równa wariancja. W rzeczywistości dane ledwo mają równą średnią, co prowadzi do błędnych wyników testu t.
Jednym z rozwiązań pozwalających złagodzić założenie o równej wariancji jest zastosowanie testu Welcha. R zakłada, że domyślnie te dwie wariancje nie są równe. W twoim zbiorze danych oba wektory mają tę samą wariancję, możesz ustawić var.equal= TRUE.
Tworzysz dwa losowe wektory z rozkładu Gaussa z wyższą średnią dla sprzedaży po programie.
set.seed(123) # sales before the program sales_before <- rnorm(7, mean = 50000, sd = 50) # sales after the program.This has higher mean sales_after <- rnorm(7, mean = 50075, sd = 50) # draw the distribution t.test(sales_before, sales_after,var.equal = TRUE)
Uzyskano wartość p wynoszącą 0.04606, niższą niż próg 0.05. Dochodzisz do wniosku, że średnie w obu grupach znacząco się różnią. Program usprawnia sprzedaż sklepów.
Podsumowanie
- Wnioskowanie statystyczne to sztuka wyciągania wniosków na temat rozkładu danych.
- Test T należy do rodziny statystyk inferencyjnych. Jest powszechnie stosowany w celu sprawdzenia, czy istnieje różnica statystyczna między średnimi dwóch grup.
- Test t dla jednej próby, zwany też testem Studenta, porównuje średnią wektora ze średnią teoretyczną.
- Test T dla par lub test t dla próby zależnej stosuje się, gdy średnią dla grupy leczonej oblicza się dwukrotnie.
Test t możemy podsumować w poniższej tabeli:
Testowanie | Hipoteza do sprawdzenia | Wartość p | Code | Argument opcjonalny |
---|---|---|---|---|
test t dla jednej próby | Średnia wektora różni się od średniej teoretycznej | 0.05 |
t.test(x, mu = mean) |
|
Test t dla sparowanych próbek | Średnia A różni się od średniej B dla tej samej grupy | 0.06 |
t.test(A,B, mu = mean) |
var.equal= TRUE |
Jeżeli założymy, że wariancje są równe, należy zmienić parametr var.equal=TRUE.