T-test R-programmeerimises: üks proov ja seotud T-test [näide]
Mis on statistiline järeldus?
Statistilised järeldused on andmete jaotuse kohta järelduste tegemise kunst. Andmeteadlane puutub sageli kokku küsimustega, millele saab vastata ainult teaduslikult. Seetõttu on statistiline järeldus strateegia, mille abil testitakse, kas hüpotees vastab tõele, st kas see on andmetega kinnitatud.
Levinud strateegia hüpoteesi hindamiseks on t-testi läbiviimine. T-test võib öelda, kas kahel rühmal on sama keskmine. T-testi nimetatakse ka a Õpilastest. T-testi saab hinnata järgmistel juhtudel:
- Üks vektor (st ühe valimi t-test)
- Kaks vektorit samast valimirühmast (st paaris t-test).
Eeldate, et mõlemad vektorid on juhuslikult valitud, sõltumatud ja pärinevad normaalselt jaotunud populatsioonist, mille dispersioon on teadmata, kuid võrdne.
Mis on T-test R-programmeerimises?
T-testi põhiidee on kasutada statistikat kahe vastupidise hüpoteesi hindamiseks:
- H0: NULL hüpotees: keskmine on sama, mis kasutatud valim
- H3: Tõene hüpotees: keskmine erineb kasutatud valimi omast
T-testi kasutatakse tavaliselt väikeste valimite korral. T-testi tegemiseks peate eeldama andmete normaalsust.
T-testi süntaks keeles R
R-i t.test() põhisüntaks on:
t.test(x, y = NULL, mu = 0, var.equal = FALSE) arguments: - x : A vector to compute the one-sample t-test - y: A second vector to compute the two sample t-test - mu: Mean of the population- var.equal: Specify if the variance of the two vectors are equal. By default, set to `FALSE`
Üks näidis T-test R-s
One Sample t-test ehk Studenti test võrdleb vektori keskmist teoreetilise keskmisega, . T-testi arvutamiseks kasutatav valem on järgmine:
Siin
viitab keskmisele
teoreetilise keskmiseni
- s on standardhälve
- n vaatluste arv.
T-testi statistilise olulisuse hindamiseks peate arvutama p-väärtus. p-väärtus on vahemikus 0 kuni 1 ja seda tõlgendatakse järgmiselt:
- P-väärtus, mis on madalam kui 0.05, tähendab, et olete täiesti kindel, et lükkate nullhüpoteesi tagasi, seega aktsepteeritakse H3.
- P-väärtus, mis on suurem kui 0.05, näitab, et teil pole piisavalt tõendeid nullhüpoteesi ümberlükkamiseks.
P-väärtuse saab konstrueerida, vaadates Studenti jaotuse t-testi vastavat absoluutväärtust vabadusastmetega, mis on võrdne
Näiteks kui teil on 5 vaatlust, peate võrdlema meie t-väärtust Studenti jaotuse t-väärtusega 4 vabadusastmega ja 95-protsendilise usaldusvahemikuga. Nullhüpoteesi ümberlükkamiseks peaks t-väärtus olema suurem kui 2.77.
Vt allolevat tabelit:
Üks näidis T-testi näide R-is
Oletame, et olete küpsiseid tootev ettevõte. Iga küpsis peaks sisaldama 10 grammi suhkrut. Küpsiseid toodab masin, mis lisab enne kõige segamist kaussi suhkru. Arvate, et masin ei lisa iga küpsise kohta 10 grammi suhkrut. Kui teie oletus vastab tõele, tuleb masin parandada. Salvestasite kolmekümne küpsise suhkru taseme.
märkused: Saate luua juhusliku vektori funktsiooniga rnorm(). See funktsioon genereerib normaalselt jaotatud väärtused. Põhiline süntaks on:
rnorm(n, mean, sd) arguments - n: Number of observations to generate - mean: The mean of the distribution. Optional - sd: The standard deviation of the distribution. Optional
Saate luua 30 vaatlusega jaotuse, mille keskmine on 9.99 ja standardhälve 0.04.
set.seed(123) sugar_cookie <- rnorm(30, mean = 9.99, sd = 0.04) head(sugar_cookie)
Väljund:
## [1] 9.967581 9.980793 10.052348 9.992820 9.995172 10.058603
Ühe prooviga t-testi abil saate kontrollida, kas suhkru tase erineb retseptist. Saate koostada hüpoteesi testi:
- H0: Keskmine suhkru tase on 10
- H3: Keskmine suhkru tase on erinev kui 10
Kasutate olulisuse taset 0.05.
# H0 : mu = 10 t.test(sugar_cookie, mu = 10)
Siin on väljund:
Ühe valimi t-testi p-väärtus on 0.1079 ja üle 0.05. Võite olla 95% kindel, et masina poolt lisatud suhkru kogus jääb vahemikku 9.973–10.002 grammi. Nullhüpoteesi (H0) ei saa tagasi lükata. Pole piisavalt tõendeid selle kohta, et masina poolt lisatud suhkru kogus ei vasta retseptile.
Paaritud T-test R-s
Paaritud T-testi või sõltuva valimi t-testi kasutatakse siis, kui töödeldud rühma keskmine arvutatakse kaks korda. Paaritud t-testi põhirakendus on:
- A / B testimine: Võrrelge kahte varianti
- Juhtumiuuringute uuringud: Enne/pärast ravi
Paaritud T-testi näide R-is
Joogifirmal on huvi teada soodusprogrammi toimivust müügil. Ettevõte otsustas jälgida ühe oma poe igapäevast müüki, kus programmi reklaamitakse. Programmi lõpus soovib ettevõte teada, kas poe keskmisel müügil enne ja pärast programmi on statistiline erinevus.
- Ettevõte jälgis müüki iga päev enne programmi käivitamist. See on meie esimene vektor.
- Programmi reklaamitakse ühe nädala jooksul ja müüki registreeritakse iga päev. See on meie teine vektor.
- Programmi tõhususe hindamiseks teete t-testi. Seda nimetatakse paaris t-testiks, kuna mõlema vektori väärtused pärinevad samast jaotusest (st samast poest).
Hüpoteesi testimine on järgmine:
- H0: Keskmisel pole vahet
- H3: Need kaks vahendit on erinevad
Pidage meeles, et üks t-testi eeldus on tundmatu, kuid võrdne dispersioon. Tegelikkuses on andmetel vaevalt võrdne keskmine ja see toob kaasa t-testi valed tulemused.
Üks lahendus võrdse dispersiooni eelduse leevendamiseks on kasutada Welchi testi. R eeldab, et need kaks dispersiooni ei ole vaikimisi võrdsed. Teie andmekogus on mõlemal vektoril sama dispersioon, saate määrata var.equal= TRUE.
Saate luua Gaussi jaotusest kaks juhuslikku vektorit, millel on programmijärgse müügi keskmine väärtus.
set.seed(123) # sales before the program sales_before <- rnorm(7, mean = 50000, sd = 50) # sales after the program.This has higher mean sales_after <- rnorm(7, mean = 50075, sd = 50) # draw the distribution t.test(sales_before, sales_after,var.equal = TRUE)
Saite p-väärtuseks 0.04606, mis on madalam kui lävi 0.05. Järeldate, et kahe rühma keskmised on oluliselt erinevad. Programm parandab kaupluste müüki.
kokkuvõte
- Statistilised järeldused on andmete jaotuse kohta järelduste tegemise kunst.
- T-test kuulub järeldusstatistika perekonda. Tavaliselt kasutatakse seda selleks, et välja selgitada, kas kahe rühma keskmiste vahel on statistiline erinevus.
- One Sample t-test ehk Studenti test võrdleb vektori keskmist teoreetilise keskmisega.
- Paaritud T-testi või sõltuva valimi t-testi kasutatakse siis, kui töödeldud rühma keskmine arvutatakse kaks korda.
T-testi saame kokku võtta järgmises tabelis:
test | Hüpotees testimiseks | p-väärtus | kood | Valikuline argument |
---|---|---|---|---|
ühe valimi t-test | Vektori keskmine erineb teoreetilisest keskmisest | 0.05 |
t.test(x, mu = mean) |
|
paarisproovi t-test | Keskmine A erineb sama rühma keskmisest B | 0.06 |
t.test(A,B, mu = mean) |
var.equal= TRUE |
Kui eeldame, et dispersioonid on võrdsed, peame muutma parameetrit var.equal= TRUE.