R-ohjelmoinnin T-testi: yksi näyte ja parillinen T-testi [esimerkki]

Mikä on tilastollinen päättely?

Tilastollinen päättely on taitoa tehdä johtopäätöksiä tietojen jakautumisesta. Datatieteilijä on usein alttiina kysymyksille, joihin voidaan vastata vain tieteellisesti. Siksi tilastollinen päättely on strategia, jolla testataan, onko hypoteesi totta eli onko se validoitu tiedoilla.

Yleinen strategia hypoteesin arvioimiseksi on suorittaa t-testi. T-testi voi kertoa, onko kahdella ryhmällä sama keskiarvo. T-testiä kutsutaan myös a Opiskelijatesti. T-testi voidaan arvioida:

  1. Yksi vektori (eli yhden näytteen t-testi)
  2. Kaksi vektoria samasta näyteryhmästä (eli parillinen t-testi).

Oletat, että molemmat vektorit ovat satunnaisesti otettuja, riippumattomia ja tulevat normaalijakaumasta populaatiosta, jonka varianssit ovat tuntemattomia, mutta samat.

Mikä on T-testi R-ohjelmoinnissa?

T-testin perusideana on käyttää tilastoja kahden päinvastaisen hypoteesin arvioimiseen:

  • H0: NULL hypoteesi: Keskiarvo on sama kuin käytetty otos
  • H3: Tosi hypoteesi: Keskiarvo eroaa käytetystä otoksesta

T-testiä käytetään yleisesti pienissä näytekokoissa. Suorittaaksesi t-testin, sinun on oletettava tietojen normaalius.

T-testin syntaksi R:ssä

R:n t.test():n perussyntaksi on:

t.test(x, y = NULL,
       mu = 0, var.equal = FALSE)
arguments:
- x : A vector to compute the one-sample t-test
- y: A second vector to compute the two sample t-test
- mu: Mean of the population- var.equal: Specify if the variance of the two vectors are equal. By default, set to `FALSE`

Yksi näyte T-testi R:ssä

One Sample t-testi eli Studentin testi vertaa vektorin keskiarvoa teoreettiseen keskiarvoon, Yksi näyte T-testi R:ssä. T-testin laskemiseen käytetty kaava on:

Yksi näyte T-testi R:ssä

Täällä

  • Yksi näyte T-testi R:ssä viittaa keskiarvoon
  • Yksi näyte T-testi R:ssä teoreettiseen keskiarvoon
  • s on keskihajonta
  • n havaintojen määrä.

t-testin tilastollisen merkitsevyyden arvioimiseksi sinun on laskettava p-arvo. p-arvo vaihtelee välillä 0-1, ja se tulkitaan seuraavasti:

  • P-arvo pienempi kuin 0.05 tarkoittaa, että olet vahvasti varma, että hylkäät nollahypoteesin, joten H3 hyväksytään.
  • Yli 0.05 p-arvo osoittaa, että sinulla ei ole tarpeeksi todisteita nollahypoteesin hylkäämiseen.

Voit muodostaa p-arvon katsomalla vastaavaa t-testin itseisarvoa Studentin jakaumassa vapausasteilla Yksi näyte T-testi R:ssä

Jos sinulla on esimerkiksi 5 havaintoa, sinun on verrattava t-arvoamme Student-jakauman t-arvoon 4 vapausasteessa ja 95 prosentin luottamusvälillä. Nollahypoteesin hylkäämiseksi t-arvon tulee olla suurempi kuin 2.77.

Katso alla oleva taulukko:

Yksi näyte T-testi R:ssä

Yksi näyte-T-testiesimerkki kirjassa R

Oletetaan, että olet evästeitä valmistava yritys. Jokaisen keksin pitäisi sisältää 10 grammaa sokeria. Keksit valmistetaan koneella, joka lisää sokerin kulhoon ennen kaiken sekoittamista. Uskot, että kone ei lisää 10 grammaa sokeria jokaiseen evästeeseen. Jos olettamuksesi pitää paikkansa, kone on korjattava. Säilytit kolmenkymmenen keksin sokeritason.

Huomautuksia: Voit luoda satunnaistetun vektorin funktiolla rnorm(). Tämä funktio luo normaalijakauman arvoja. Perussyntaksi on:

rnorm(n, mean, sd)
arguments
- n: Number of observations to generate
- mean: The mean of the distribution. Optional
- sd: The standard deviation of the distribution. Optional

Voit luoda jakauman, jossa on 30 havaintoa, joiden keskiarvo on 9.99 ja keskihajonta 0.04.

set.seed(123) sugar_cookie <- rnorm(30, mean = 9.99, sd = 0.04)
head(sugar_cookie)

lähtö:

## [1]  9.967581  9.980793 10.052348  9.992820  9.995172 10.058603

Voit käyttää yhden näytteen t-testiä tarkistaaksesi, onko sokeripitoisuus erilainen kuin reseptissä. Voit tehdä hypoteesitestin:

  • H0: Keskimääräinen sokeritaso on 10
  • H3: Keskimääräinen sokeritaso on eri kuin 10

Käytät merkitsevyystasoa 0.05.

# H0 : mu = 10
t.test(sugar_cookie, mu = 10)

Tässä on tuotos:

Yksi näyte-T-testiesimerkki kirjassa R

Yhden näytteen t-testin p-arvo on 0.1079 ja yli 0.05. Voit olla 95-prosenttisesti varma, että koneen lisäämän sokerin määrä on 9.973-10.002 grammaa. Et voi hylätä nollahypoteesia (H0). Ei ole tarpeeksi näyttöä siitä, että koneen lisäämä sokerimäärä ei noudata reseptiä.

Parillinen T-testi R:ssä

Paritettua T-testiä tai riippuvaisen näytteen t-testiä käytetään, kun hoidetun ryhmän keskiarvo lasketaan kahdesti. Parillisen t-testin perussovellus on:

  • / B-testaus: Vertaa kahta versiota
  • Case Control Studies: Ennen/jälkeen hoidon

Parillinen T-testiesimerkki kirjassa R

Juomayhtiö on kiinnostunut tietämään alennusohjelman toimivuuden myynnistä. Yritys päätti seurata päivittäistä myyntiä yhdessä ohjelmaa edistävässä liikkeessään. Ohjelman lopussa yritys haluaa tietää, onko kaupan keskimyynnin välillä tilastollista eroa ennen ohjelmaa ja sen jälkeen.

  • Yritys seurasi myyntiä päivittäin ennen ohjelman alkamista. Tämä on ensimmäinen vektorimme.
  • Ohjelmaa mainostetaan viikon ajan ja myynti kirjataan joka päivä. Tämä on toinen vektorimme.
  • Suoritat t-testin arvioidaksesi ohjelman tehokkuutta. Tätä kutsutaan pari-t-testiksi, koska molempien vektorien arvot tulevat samasta jakaumasta (eli samasta kaupasta).

Hypoteesin testaus on:

  • H0: Ei eroa keskiarvossa
  • H3: Nämä kaksi keinoa ovat erilaisia

Muista, että yksi t-testin oletus on tuntematon mutta yhtä suuri varianssi. Todellisuudessa tiedoilla on tuskin sama keskiarvo, ja se johtaa vääriin tuloksiin t-testissä.

Yksi ratkaisu tasavarianssioletuksen lieventämiseen on käyttää Welchin testiä. R olettaa, että nämä kaksi varianssia eivät ole oletusarvoisesti samat. Tietojoukossasi molemmilla vektoreilla on sama varianssi, voit asettaa var.equal= TRUE.

Luot Gaussin jakaumasta kaksi satunnaisvektoria, joilla on korkeampi keskiarvo ohjelman jälkeiselle myynnille.

set.seed(123)
# sales before the program
sales_before <- rnorm(7, mean = 50000, sd = 50)
# sales after the program.This has higher mean
sales_after <- rnorm(7, mean = 50075, sd = 50)
# draw the distribution
t.test(sales_before, sales_after,var.equal = TRUE)

Parillinen T-testiesimerkki kirjassa R

Sait p-arvon 0.04606, joka on pienempi kuin kynnys 0.05. Päättelet, että näiden kahden ryhmän keskiarvot ovat merkittävästi erilaisia. Ohjelma parantaa myymälöiden myyntiä.

Yhteenveto

  • Tilastollinen päättely on taitoa tehdä johtopäätöksiä tietojen jakautumisesta.
  • T-testi kuuluu päättelytilastojen perheeseen. Sitä käytetään yleisesti selvittämään, onko kahden ryhmän keskiarvojen välillä tilastollista eroa.
  • One Sample t-testi eli Studentin testi vertaa vektorin keskiarvoa teoreettiseen keskiarvoon.
  • Paritettua T-testiä tai riippuvaisen näytteen t-testiä käytetään, kun hoidetun ryhmän keskiarvo lasketaan kahdesti.

Voimme tiivistää t-testin alla olevaan taulukkoon:

Testi Hypoteesi testattavaksi p-arvo Koodi Valinnainen argumentti
yhden otoksen t-testi Vektorin keskiarvo on eri kuin teoreettinen keskiarvo 0.05
t.test(x, mu = mean)
parillinen näyte t-testi Keskiarvo A eroaa saman ryhmän keskiarvosta B 0.06
t.test(A,B, mu = mean)
var.equal= TRUE

Jos oletetaan, että varianssit ovat yhtä suuret, meidän on muutettava parametria var.equal= TRUE.