T-test v programování R: Jeden vzorek a spárovaný T-test [Příklad]

Co je statistická inference?

Statistická inference je umění generování závěrů o distribuci dat. Datový vědec je často vystaven otázce, na kterou lze odpovědět pouze vědecky. Proto je statistická inference strategií pro testování, zda je hypotéza pravdivá, tj. ověřená daty.

Běžnou strategií pro posouzení hypotézy je provedení t-testu. T-test může říci, zda mají dvě skupiny stejný průměr. T-test se také nazývá a Studentský test. T-test lze odhadnout pro:

  1. Jediný vektor (tj. jednovýběrový t-test)
  2. Dva vektory ze stejné skupiny vzorků (tj. párový t-test).

Předpokládáte, že oba vektory jsou náhodně vybrány, jsou nezávislé a pocházejí z normálně distribuované populace s neznámými, ale stejnými rozptyly.

Co je T-test v programování R?

Základní myšlenkou T-testu je použít statistiku k vyhodnocení dvou opačných hypotéz:

  • H0: NULL hypotéza: Průměr je stejný jako použitý vzorek
  • H3: Pravdivá hypotéza: Průměr se liší od použitého vzorku

T-test se běžně používá u malých velikostí vzorků. Chcete-li provést t-test, musíte předpokládat normalitu dat.

Syntaxe T-testu v R

Základní syntaxe pro t.test() v R je:

t.test(x, y = NULL,
       mu = 0, var.equal = FALSE)
arguments:
- x : A vector to compute the one-sample t-test
- y: A second vector to compute the two sample t-test
- mu: Mean of the population- var.equal: Specify if the variance of the two vectors are equal. By default, set to `FALSE`

Jeden vzorový T-test v R

Jednovzorkový t-test neboli studentův test porovnává průměr vektoru s teoretickým průměrem, Jeden vzorový T-test v R. Vzorec použitý pro výpočet t-testu je:

Jeden vzorový T-test v R

Zde,

  • Jeden vzorový T-test v R odkazuje na průměr
  • Jeden vzorový T-test v R k teoretickému průměru
  • s je standardní odchylka
  • n počet pozorování.

Chcete-li vyhodnotit statistickou významnost t-testu, musíte vypočítat p-hodnota, p-hodnota se pohybuje od 0 do 1 a je interpretován následovně:

  • P-hodnota nižší než 0.05 znamená, že jste pevně přesvědčeni o zamítnutí nulové hypotézy, takže H3 je přijata.
  • Hodnota p vyšší než 0.05 znamená, že nemáte dostatek důkazů k zamítnutí nulové hypotézy.

P-hodnotu můžete sestrojit tak, že se podíváte na odpovídající absolutní hodnotu t-testu ve Studentově rozdělení se stupni volnosti rovnými Jeden vzorový T-test v R

Pokud máte například 5 pozorování, musíte porovnat naši t-hodnotu s t-hodnotou ve Studentově rozdělení se 4 stupni volnosti a při 95procentním intervalu spolehlivosti. Pro zamítnutí nulové hypotézy by t-hodnota měla být vyšší než 2.77.

Cf tabulka níže:

Jeden vzorový T-test v R

Jeden vzorový příklad T-testu v R

Předpokládejme, že jste společnost vyrábějící soubory cookie. Každá sušenka má obsahovat 10 gramů cukru. Sušenky vyrábí stroj, který před smícháním všeho přidá cukr do misky. Domníváte se, že stroj nepřidává 10 gramů cukru na každou sušenku. Pokud je váš předpoklad pravdivý, je potřeba stroj opravit. Uložili jste hladinu cukru třiceti sušenek.

Pozor: Pomocí funkce rnorm() můžete vytvořit náhodný vektor. Tato funkce generuje normálně rozložené hodnoty. Základní syntaxe je:

rnorm(n, mean, sd)
arguments
- n: Number of observations to generate
- mean: The mean of the distribution. Optional
- sd: The standard deviation of the distribution. Optional

Můžete vytvořit rozdělení s 30 pozorováními s průměrem 9.99 a standardní odchylkou 0.04.

set.seed(123) sugar_cookie <- rnorm(30, mean = 9.99, sd = 0.04)
head(sugar_cookie)

Výstup:

## [1]  9.967581  9.980793 10.052348  9.992820  9.995172 10.058603

Jednovzorkovým t-testem můžete zkontrolovat, zda se hladina cukru liší od receptury. Můžete nakreslit test hypotézy:

  • H0: Průměrná hladina cukru se rovná 10
  • H3: Průměrná hladina cukru je jiná než 10

Používáte hladinu významnosti 0.05.

# H0 : mu = 10
t.test(sugar_cookie, mu = 10)

Zde je výstup:

Jeden vzorový příklad T-testu v R

P-hodnota t-testu jednoho vzorku je 0.1079 a vyšší než 0.05. Na 95 % si můžete být jisti, že množství cukru přidaného strojem je mezi 9.973 a 10.002 gramy. Nemůžete zamítnout nulovou (H0) hypotézu. Není dostatek důkazů, že množství cukru přidaného strojem neodpovídá receptuře.

Spárovaný T-test v R

Párový T-test nebo t-test závislých vzorků se používá, když se průměr léčené skupiny vypočítá dvakrát. Základní aplikace párového t-testu je:

  • A/B testování : Porovnejte dvě varianty
  • Případové studie: Před/po ošetření

Příklad párového T-testu v R

Nápojová společnost má zájem znát výkon slevového programu na tržby. Společnost se rozhodla sledovat denní tržby jednoho ze svých obchodů, kde program propaguje. Na konci programu chce společnost vědět, zda existuje statistický rozdíl mezi průměrnými tržbami obchodu před a po programu.

  • Společnost sledovala tržby každý den před zahájením programu. Toto je náš první vektor.
  • Program je propagován po dobu jednoho týdne a tržby jsou zaznamenávány každý den. Toto je náš druhý vektor.
  • Provedete t-test, abyste posoudili efektivitu programu. Toto se nazývá párový t-test, protože hodnoty obou vektorů pocházejí ze stejné distribuce (tj. ze stejného obchodu).

Testování hypotézy je:

  • H0: Žádný rozdíl v průměru
  • H3: Tyto dva prostředky jsou různé

Pamatujte, že jeden předpoklad v t-testu je neznámý, ale stejný rozptyl. Ve skutečnosti mají data sotva stejný průměr, což vede k nesprávným výsledkům pro t-test.

Jedním z řešení, jak zmírnit předpoklad rovného rozptylu, je použít Welchův test. R předpokládá, že tyto dva rozptyly nejsou ve výchozím nastavení stejné. Ve vaší datové sadě mají oba vektory stejný rozptyl, můžete nastavit var.equal= TRUE.

Vytvoříte dva náhodné vektory z Gaussova rozdělení s vyšším průměrem pro tržby po programu.

set.seed(123)
# sales before the program
sales_before <- rnorm(7, mean = 50000, sd = 50)
# sales after the program.This has higher mean
sales_after <- rnorm(7, mean = 50075, sd = 50)
# draw the distribution
t.test(sales_before, sales_after,var.equal = TRUE)

Příklad párového T-testu v R

Získali jste p-hodnotu 0.04606, což je nižší než práh 0.05. Došli jste k závěru, že průměry těchto dvou skupin se výrazně liší. Program zlepšuje tržby obchodů.

Shrnutí

  • Statistická inference je umění generování závěrů o distribuci dat.
  • T-test patří do rodiny inferenčních statistik. Běžně se používá ke zjištění, zda existuje statistický rozdíl mezi průměry dvou skupin.
  • Jednovzorkový t-test neboli studentův test porovnává průměr vektoru s teoretickým průměrem.
  • Párový T-test nebo t-test závislých vzorků se používá, když se průměr léčené skupiny vypočítá dvakrát.

Můžeme shrnout t-test je tabulka níže:

test Hypotéza k testování p-hodnota Kód Volitelný argument
jednovýběrový t-test Průměr vektoru se liší od teoretického průměru 0.05
t.test(x, mu = mean)
t-test párového vzorku Průměr A se liší od průměru B pro stejnou skupinu 0.06
t.test(A,B, mu = mean)
var.equal= TRUE

Pokud předpokládáme, že rozptyly jsou stejné, musíme změnit parametr var.equal= TRUE.

Denní zpravodaj Guru99

Začněte svůj den s nejnovějšími a nejdůležitějšími zprávami o umělé inteligenci, které vám přinášíme právě teď.