T-test u R programiranju: jedan uzorak i upareni T-test [Primjer]

Što je statističko zaključivanje?

Statističko zaključivanje je umijeće generiranja zaključaka o distribuciji podataka. Podatkovni znanstvenik često je izložen pitanjima na koja se može odgovoriti samo znanstveno. Stoga je statističko zaključivanje strategija kojom se testira je li hipoteza istinita, tj. potvrđena podacima.

Uobičajena strategija za procjenu hipoteze je provođenje t-testa. T-test može pokazati imaju li dvije grupe istu srednju vrijednost. T-test se također naziva a Studentski test. T-test se može procijeniti za:

  1. Jedan vektor (tj. t-test jednog uzorka)
  2. Dva vektora iz iste skupine uzoraka (tj. upareni t-test).

Pretpostavljate da su oba vektora nasumično uzorkovana, neovisna i da dolaze iz normalno raspoređene populacije s nepoznatim, ali jednakim varijancama.

Što je T-test u R programiranju?

Osnovna ideja iza T-testa je korištenje statistike za procjenu dviju suprotnih hipoteza:

  • H0: NULL hipoteza: Prosjek je isti kao i korišteni uzorak
  • H3: Točna hipoteza: Prosjek se razlikuje od korištenog uzorka

T-test se obično koristi s malim uzorcima. Da biste izvršili t-test, morate pretpostaviti normalnost podataka.

Sintaksa T-testa u R

Osnovna sintaksa za t.test() u R je:

t.test(x, y = NULL,
       mu = 0, var.equal = FALSE)
arguments:
- x : A vector to compute the one-sample t-test
- y: A second vector to compute the two sample t-test
- mu: Mean of the population- var.equal: Specify if the variance of the two vectors are equal. By default, set to `FALSE`

Jedan uzorak T-testa u R

T-test jednog uzorka, ili Studentov test, uspoređuje srednju vrijednost vektora s teoretskom sredinom, Jedan uzorak T-testa u R. Formula koja se koristi za izračunavanje t-testa je:

Jedan uzorak T-testa u R

Ovdje,

  • Jedan uzorak T-testa u R odnosi se na srednju vrijednost
  • Jedan uzorak T-testa u R do teorijske sredine
  • s je standardna devijacija
  • n broj opažanja.

Da biste procijenili statističku značajnost t-testa, morate izračunati p-vrijednost, p-vrijednost kreće se od 0 do 1 i tumači se na sljedeći način:

  • P-vrijednost niža od 0.05 znači da ste čvrsto uvjereni da ćete odbaciti nultu hipotezu, stoga je H3 prihvaćena.
  • P-vrijednost veća od 0.05 znači da nemate dovoljno dokaza za odbacivanje nulte hipoteze.

P-vrijednost možete konstruirati gledajući odgovarajuću apsolutnu vrijednost t-testa u Studentovoj distribuciji sa stupnjevima slobode jednakim Jedan uzorak T-testa u R

Na primjer, ako imate 5 opažanja, trebate usporediti našu t-vrijednost s t-vrijednošću u Studentovoj distribuciji s 4 stupnja slobode i 95-postotnim intervalom pouzdanosti. Da bi se odbacila nulta hipoteza, t-vrijednost bi trebala biti veća od 2.77.

Vidi tablicu ispod:

Jedan uzorak T-testa u R

Jedan primjer T-testa u R

Pretpostavimo da ste tvrtka koja proizvodi kolačiće. Svaki kolačić treba sadržavati 10 grama šećera. Kolačići se proizvode pomoću stroja koji dodaje šećer u zdjelu prije nego što sve izmiješa. Vjerujete da stroj ne dodaje 10 grama šećera za svaki kolačić. Ako je vaša pretpostavka točna, stroj treba popraviti. Pohranili ste razinu šećera od trideset kolačića.

bilješke: Možete stvoriti nasumični vektor s funkcijom rnorm(). Ova funkcija generira normalno distribuirane vrijednosti. Osnovna sintaksa je:

rnorm(n, mean, sd)
arguments
- n: Number of observations to generate
- mean: The mean of the distribution. Optional
- sd: The standard deviation of the distribution. Optional

Možete stvoriti distribuciju s 30 opažanja sa srednjom vrijednošću od 9.99 i standardnom devijacijom od 0.04.

set.seed(123) sugar_cookie <- rnorm(30, mean = 9.99, sd = 0.04)
head(sugar_cookie)

Izlaz:

## [1]  9.967581  9.980793 10.052348  9.992820  9.995172 10.058603

Možete upotrijebiti t-test jednog uzorka da provjerite razlikuje li se razina šećera od one u receptu. Možete nacrtati test hipoteze:

  • H0: Prosječna razina šećera jednaka je 10
  • H3: Prosječna razina šećera razlikuje se od 10

Koristite razinu značajnosti od 0.05.

# H0 : mu = 10
t.test(sugar_cookie, mu = 10)

Evo rezultata:

Jedan primjer T-testa u R

P-vrijednost t-testa jednog uzorka je 0.1079 i iznad 0.05. Možete biti sigurni s 95% da je količina šećera koju je stroj dodao između 9.973 i 10.002 grama. Ne možete odbaciti nultu (H0) hipotezu. Nema dovoljno dokaza da količina šećera koju stroj dodaje ne slijedi recept.

Upareni T-test u R

Upareni T-test ili t-test ovisnog uzorka koristi se kada se srednja vrijednost tretirane skupine izračuna dvaput. Osnovna primjena uparenog t-testa je:

  • A / B testiranje: Usporedite dvije varijante
  • Studije kontrole slučaja: Prije/poslije tretmana

Primjer uparenog T-testa u R

Tvrtka za proizvodnju pića zainteresirana je za učinak programa popusta na prodaju. Tvrtka je odlučila pratiti dnevnu prodaju jedne od svojih trgovina u kojoj se promovira program. Na kraju programa, tvrtka želi znati postoji li statistička razlika između prosječne prodaje trgovine prije i nakon programa.

  • Tvrtka je pratila prodaju svaki dan prije početka programa. Ovo je naš prvi vektor.
  • Program se promovira tjedan dana, a prodaja se bilježi svaki dan. Ovo je naš drugi vektor.
  • Provest ćete t-test kako biste procijenili učinkovitost programa. To se naziva upareni t-test jer vrijednosti oba vektora dolaze iz iste distribucije (tj. iste trgovine).

Testiranje hipoteze je:

  • H0: Nema razlike u prosjeku
  • H3: Dva su sredstva različita

Zapamtite, jedna pretpostavka u t-testu je nepoznata, ali jednaka varijanca. U stvarnosti, podaci jedva da imaju jednaku srednju vrijednost i to dovodi do netočnih rezultata za t-test.

Jedno rješenje za ublažavanje pretpostavke jednake varijance je korištenje Welchovog testa. R pretpostavlja da dvije varijance nisu jednake prema zadanim postavkama. U vašem skupu podataka oba vektora imaju istu varijancu, možete postaviti var.equal= TRUE.

Kreirate dva slučajna vektora iz Gaussove distribucije s višom sredinom za prodaju nakon programa.

set.seed(123)
# sales before the program
sales_before <- rnorm(7, mean = 50000, sd = 50)
# sales after the program.This has higher mean
sales_after <- rnorm(7, mean = 50075, sd = 50)
# draw the distribution
t.test(sales_before, sales_after,var.equal = TRUE)

Primjer uparenog T-testa u R

Dobili ste p-vrijednost od 0.04606, nižu od praga od 0.05. Zaključujete da su prosjeci dviju skupina značajno različiti. Program poboljšava prodaju trgovina.

rezime

  • Statističko zaključivanje je umijeće generiranja zaključaka o distribuciji podataka.
  • T-test pripada obitelji inferencijalne statistike. Obično se koristi da bi se otkrilo postoji li statistička razlika između srednjih vrijednosti dviju skupina.
  • T-test jednog uzorka ili Studentov test uspoređuje srednju vrijednost vektora s teoretskom sredinom.
  • Upareni T-test ili t-test ovisnog uzorka koristi se kada se srednja vrijednost tretirane skupine izračuna dvaput.

T-test možemo sažeti u tablici u nastavku:

test Hipoteza za testiranje p-vrijednost Kodirati Neobavezni argument
t-test jednog uzorka Srednja vrijednost vektora razlikuje se od teorijske sredine 0.05
t.test(x, mu = mean)
t-test uparenog uzorka Srednja vrijednost A razlikuje se od srednje vrijednosti B za istu skupinu 0.06
t.test(A,B, mu = mean)
var.equal= TRUE

Ako pretpostavimo da su varijance jednake, trebamo promijeniti parametar var.equal= TRUE.