Test T în programarea R: un eșantion și test T pereche [Exemplu]
Ce este Inferența Statistică?
Inferența statistică este arta de a genera concluzii despre distribuția datelor. Un cercetător de date este adesea expus la întrebări la care se poate răspunde doar științific. Prin urmare, inferența statistică este o strategie pentru a testa dacă o ipoteză este adevărată, adică validată de date.
O strategie comună pentru evaluarea ipotezei este efectuarea unui test t. Un test t poate spune dacă două grupuri au aceeași medie. Un test t se mai numește și a Testul elevului. Un test t poate fi estimat pentru:
- Un singur vector (adică, testul t pentru un eșantion)
- Doi vectori din același grup de probă (adică, testul t pereche).
Presupuneți că ambii vectori sunt eșantionați aleatoriu, independenți și provin dintr-o populație distribuită normal cu varianțe necunoscute, dar egale.
Ce este T-Test în programarea R?
Ideea de bază din spatele unui test T este de a folosi statisticile pentru a evalua două ipoteze contrare:
- H0: Ipoteza NULL: Media este aceeași cu eșantionul utilizat
- H3: Ipoteza adevărată: Media este diferită de eșantionul utilizat
Testul T este utilizat în mod obișnuit cu eșantion de dimensiuni mici. Pentru a efectua un test t, trebuie să presupuneți normalitatea datelor.
Sintaxa T-Test în R
Sintaxa de bază pentru t.test() în R este:
t.test(x, y = NULL, mu = 0, var.equal = FALSE) arguments: - x : A vector to compute the one-sample t-test - y: A second vector to compute the two sample t-test - mu: Mean of the population- var.equal: Specify if the variance of the two vectors are equal. By default, set to `FALSE`
O probă T-Test în R
Testul t One Sample, sau testul studentului, compară media unui vector cu o medie teoretică, . Formula folosită pentru a calcula testul t este:
Aici,
se referă la medie
la mijlocul teoretic
- s este abaterea standard
- n numărul de observaţii.
Pentru a evalua semnificația statistică a testului t, trebuie să calculați Valoarea p. Valoarea p variază de la 0 la 1 și se interpretează după cum urmează:
- O valoare p mai mică de 0.05 înseamnă că aveți încredere că respingeți ipoteza nulă, astfel că H3 este acceptat.
- O valoare p mai mare de 0.05 indică faptul că nu aveți suficiente dovezi pentru a respinge ipoteza nulă.
Puteți construi valoarea p uitându-vă la valoarea absolută corespunzătoare a testului t în distribuția Student cu grade de libertate egale cu
De exemplu, dacă aveți 5 observații, trebuie să comparați valoarea noastră t cu valoarea t din distribuția Student cu 4 grade de libertate și la un interval de încredere de 95%. Pentru a respinge ipoteza nulă, valoarea t ar trebui să fie mai mare de 2.77.
Cf tabelul de mai jos:
Exemplu de test T cu un eșantion în R
Să presupunem că sunteți o companie care produce cookie-uri. Fiecare prăjitură ar trebui să conțină 10 grame de zahăr. Fursecurile sunt produse de o mașină care adaugă zahărul într-un bol înainte de a amesteca totul. Crezi că aparatul nu adaugă 10 grame de zahăr pentru fiecare prăjitură. Dacă presupunerea dvs. este adevărată, mașina trebuie reparată. Ai stocat nivelul de zahăr din treizeci de fursecuri.
notițe: Puteți crea un vector randomizat cu funcția rnorm(). Această funcție generează valori distribuite normal. Sintaxa de bază este:
rnorm(n, mean, sd) arguments - n: Number of observations to generate - mean: The mean of the distribution. Optional - sd: The standard deviation of the distribution. Optional
Puteți crea o distribuție cu 30 de observații cu o medie de 9.99 și o abatere standard de 0.04.
set.seed(123) sugar_cookie <- rnorm(30, mean = 9.99, sd = 0.04) head(sugar_cookie)
ieșire:
## [1] 9.967581 9.980793 10.052348 9.992820 9.995172 10.058603
Puteți utiliza un test t cu un singur eșantion pentru a verifica dacă nivelul de zahăr este diferit de rețetă. Puteți trage un test de ipoteză:
- H0: Nivelul mediu de zahăr este egal cu 10
- H3: Nivelul mediu de zahăr este diferit de 10
Utilizați un nivel de semnificație de 0.05.
# H0 : mu = 10 t.test(sugar_cookie, mu = 10)
Iată rezultatul:
Valoarea p a testului t pentru un eșantion este 0.1079 și peste 0.05. Poți fi încrezător la 95% că cantitatea de zahăr adăugată de aparat este între 9.973 și 10.002 grame. Nu puteți respinge ipoteza nulă (H0). Nu există suficiente dovezi că cantitatea de zahăr adăugată de mașină nu respectă rețeta.
Test T pereche în R
Testul T pereche, sau testul t eșantion dependent, este utilizat atunci când media grupului tratat este calculată de două ori. Aplicația de bază a testului t pereche este:
- Testarea A / B: Comparați două variante
- Studii de control al cazurilor: Înainte/după tratament
Exemplu de test T pereche în R
O companie de băuturi este interesată să cunoască performanța unui program de reduceri la vânzări. Compania a decis să urmărească vânzările zilnice ale unuia dintre magazinele sale unde este promovat programul. La sfârșitul programului, compania dorește să știe dacă există o diferență statistică între vânzările medii ale magazinului înainte și după program.
- Compania a urmărit vânzările în fiecare zi înainte de începerea programului. Acesta este primul nostru vector.
- Programul este promovat timp de o săptămână, iar vânzările se înregistrează în fiecare zi. Acesta este al doilea nostru vector.
- Veți efectua testul t pentru a aprecia eficacitatea programului. Acesta se numește un test t pereche deoarece valorile ambilor vectori provin din aceeași distribuție (adică același magazin).
Testarea ipotezei este:
- H0: Nicio diferență în medie
- H3: Cele două mijloace sunt diferite
Amintiți-vă, o ipoteză din testul t este o varianță necunoscută, dar egală. În realitate, datele abia au o medie egală și duce la rezultate incorecte pentru testul t.
O soluție pentru a relaxa ipoteza de variație egală este utilizarea testului lui Welch. R presupune că cele două varianțe nu sunt egale în mod implicit. În setul de date, ambii vectori au aceeași varianță, puteți seta var.equal= TRUE.
Creați doi vectori aleatori dintr-o distribuție Gaussiană cu o medie mai mare pentru vânzările după program.
set.seed(123) # sales before the program sales_before <- rnorm(7, mean = 50000, sd = 50) # sales after the program.This has higher mean sales_after <- rnorm(7, mean = 50075, sd = 50) # draw the distribution t.test(sales_before, sales_after,var.equal = TRUE)
Ați obținut o valoare p de 0.04606, mai mică decât pragul de 0.05. Ați ajuns la concluzia că mediile celor două grupuri sunt semnificativ diferite. Programul îmbunătățește vânzările magazinelor.
Rezumat
- Inferența statistică este arta de a genera concluzii despre distribuția datelor.
- Testul T aparține familiei de statistici inferențiale. Este folosit în mod obișnuit pentru a afla dacă există o diferență statistică între mediile a două grupuri.
- Testul t One Sample, sau testul studentului, compară media unui vector cu o medie teoretică.
- Testul T pereche, sau testul t eșantion dependent, este utilizat atunci când media grupului tratat este calculată de două ori.
Putem rezuma testul t este tabelul de mai jos:
Testare | Ipoteza de testat | Valoarea p | Cod | Argument opțional |
---|---|---|---|---|
test t cu o probă | Media unui vector este diferită de media teoretică | 0.05 |
t.test(x, mu = mean) |
|
test t eșantion pereche | Media A este diferită de media B pentru același grup | 0.06 |
t.test(A,B, mu = mean) |
var.equal= TRUE |
Dacă presupunem că variațiile sunt egale, trebuie să schimbăm parametrul var.equal= TRUE.