T-Test in der R-Programmierung: Ein Beispiel und gepaarter T-Test [Beispiel]

Was ist statistische Inferenz?

Statistische Inferenz ist die Kunst, Schlussfolgerungen รผber die Verteilung der Daten zu ziehen. Ein Datenwissenschaftler wird oft mit Fragen konfrontiert, die nur wissenschaftlich beantwortet werden kรถnnen. Daher ist statistische Inferenz eine Strategie, um zu testen, ob eine Hypothese wahr ist, dh durch die Daten bestรคtigt wird.

Eine gรคngige Strategie zur Beurteilung von Hypothesen ist die Durchfรผhrung eines T-Tests. Ein t-Test kann feststellen, ob zwei Gruppen den gleichen Mittelwert haben. Ein T-Test wird auch als a bezeichnet Schรผlertest. Ein t-Test kann geschรคtzt werden fรผr:

  1. Ein einzelner Vektor (d. h. T-Test bei einer Stichprobe)
  2. Zwei Vektoren aus derselben Stichprobengruppe (d. h. gepaarter t-Test).

Sie gehen davon aus, dass beide Vektoren zufรคllig ausgewรคhlt und unabhรคngig sind und aus einer normalverteilten Grundgesamtheit mit unbekannten, aber gleichen Varianzen stammen.

Was ist T-Test in der R-Programmierung?

Die Grundidee eines T-Tests besteht darin, mithilfe von Statistiken zwei gegensรคtzliche Hypothesen zu bewerten:

  • H0: NULL-Hypothese: Der Durchschnitt ist derselbe wie die verwendete Stichprobe
  • H3: Wahre Hypothese: Der Durchschnitt unterscheidet sich von der verwendeten Stichprobe

Der T-Test wird รผblicherweise bei kleinen StichprobengrรถรŸen verwendet. Um einen T-Test durchzufรผhren, mรผssen Sie von der Normalitรคt der Daten ausgehen.

T-Test-Syntax in R

Die grundlegende Syntax fรผr t.test() in R ist:

t.test(x, y = NULL,
       mu = 0, var.equal = FALSE)
arguments:
- x : A vector to compute the one-sample t-test
- y: A second vector to compute the two sample t-test
- mu: Mean of the population- var.equal: Specify if the variance of the two vectors are equal. By default, set to `FALSE`

Ein Beispiel-T-Test in R

Der Einstichproben-t-Test oder Student-Test vergleicht den Mittelwert eines Vektors mit einem theoretischen Mittelwert. Ein Beispiel-T-Test in R. Die zur Berechnung des t-Tests verwendete Formel lautet:

Ein Beispiel-T-Test in R

Dabei steht:

  • Ein Beispiel-T-Test in R bezieht sich auf den Mittelwert
  • Ein Beispiel-T-Test in R zum theoretischen Mittelwert
  • s ist die Standardabweichung
  • n die Anzahl der Beobachtungen.

Um die statistische Signifikanz des t-Tests zu bewerten, mรผssen Sie Folgendes berechnen p-Wert. Der p-Wert reicht von 0 bis 1 und wird wie folgt interpretiert:

  • Ein p-Wert unter 0.05 bedeutet, dass Sie die Nullhypothese mit groรŸer Sicherheit ablehnen kรถnnen und H3 daher akzeptiert wird.
  • Ein p-Wert รผber 0.05 weist darauf hin, dass Sie nicht รผber genรผgend Beweise verfรผgen, um die Nullhypothese abzulehnen.

Sie kรถnnen den p-Wert konstruieren, indem Sie den entsprechenden Absolutwert des t-Tests in der Student-Verteilung mit einem Freiheitsgrad von gleich betrachten Ein Beispiel-T-Test in R

Wenn Sie beispielsweise 5 Beobachtungen haben, mรผssen Sie unseren t-Wert mit dem t-Wert in der Student-Verteilung mit 4 Freiheitsgraden und einem Konfidenzintervall von 95 Prozent vergleichen. Um die Nullhypothese abzulehnen, sollte der t-Wert hรถher als 2.77 sein.

Siehe Tabelle unten:

Ein Beispiel-T-Test in R

Ein Beispiel fรผr einen T-Test in R

Angenommen, Sie sind ein Unternehmen, das Cookies herstellt. Jeder Keks soll 10 Gramm Zucker enthalten. Die Kekse werden von einer Maschine hergestellt, die den Zucker in eine Schรผssel gibt, bevor alles vermischt wird. Sie glauben, dass die Maschine nicht fรผr jeden Keks 10 Gramm Zucker hinzufรผgt. Wenn Ihre Annahme wahr ist, muss die Maschine repariert werden. Sie haben den Zuckergehalt von dreiรŸig Keksen gespeichert.

Hinweis: Sie kรถnnen einen randomisierten Vektor mit der Funktion rnorm() erstellen. Diese Funktion generiert normalverteilte Werte. Die grundlegende Syntax lautet:

rnorm(n, mean, sd)
arguments
- n: Number of observations to generate
- mean: The mean of the distribution. Optional
- sd: The standard deviation of the distribution. Optional

Sie kรถnnen eine Verteilung mit 30 Beobachtungen mit einem Mittelwert von 9.99 und einer Standardabweichung von 0.04 erstellen.

set.seed(123) sugar_cookie <- rnorm(30, mean = 9.99, sd = 0.04)
head(sugar_cookie)

Ausgang:

## [1]  9.967581  9.980793 10.052348  9.992820  9.995172 10.058603

Mit einem T-Test bei einer Stichprobe kรถnnen Sie prรผfen, ob der Zuckergehalt vom Rezept abweicht. Sie kรถnnen einen Hypothesentest erstellen:

  • H0: Der durchschnittliche Zuckergehalt betrรคgt 10
  • H3: Der durchschnittliche Zuckergehalt ist anders als 10

Sie verwenden ein Signifikanzniveau von 0.05.

# H0 : mu = 10
t.test(sugar_cookie, mu = 10)

Hier ist die Ausgabe:

Ein Beispiel fรผr einen T-Test in R

Der p-Wert des T-Tests mit einer Stichprobe betrรคgt 0.1079 und รผber 0.05. Sie kรถnnen zu 95 % sicher sein, dass die von der Maschine hinzugefรผgte Zuckermenge zwischen 9.973 und 10.002 Gramm liegt. Sie kรถnnen die Nullhypothese (H0) nicht ablehnen. Es gibt nicht genรผgend Beweise dafรผr, dass die von der Maschine hinzugefรผgte Zuckermenge nicht dem Rezept entspricht.

Gepaarter T-Test in R

Der gepaarte T-Test oder abhรคngige Stichproben-T-Test wird verwendet, wenn der Mittelwert der behandelten Gruppe zweimal berechnet wird. Die grundlegende Anwendung des gepaarten t-Tests ist:

  • A/B-Tests: Vergleichen Sie zwei Varianten
  • Fallkontrollstudien: Vor/nach der Behandlung

Beispiel fรผr einen gepaarten T-Test in R

Ein Getrรคnkehersteller mรถchte wissen, wie sich ein Rabattprogramm auf den Umsatz auswirkt. Das Unternehmen hat beschlossen, die tรคglichen Umsรคtze eines seiner Geschรคfte zu verfolgen, in denen das Programm beworben wird. Am Ende des Programms mรถchte das Unternehmen wissen, ob es einen statistischen Unterschied zwischen den durchschnittlichen Umsรคtzen des Geschรคfts vor und nach dem Programm gibt.

  • Das Unternehmen tracWir haben die Verkaufszahlen tรคglich vor Programmbeginn erfasst. Dies ist unser erster Vektor.
  • Das Programm wird eine Woche lang beworben und die Verkรคufe werden tรคglich aufgezeichnet. Dies ist unser zweiter Vektor.
  • Sie fรผhren den T-Test durch, um die Wirksamkeit des Programms zu beurteilen. Dies wird als gepaarter t-Test bezeichnet, da die Werte beider Vektoren aus derselben Verteilung (dh aus demselben Shop) stammen.

Der Hypothesentest ist:

  • H0: Kein Unterschied im Mittelwert
  • H3: Die beiden Mittel sind unterschiedlich

Denken Sie daran, dass eine Annahme im t-Test eine unbekannte, aber gleiche Varianz ist. In Wirklichkeit weisen die Daten kaum den gleichen Mittelwert auf, was zu falschen Ergebnissen fรผr den t-Test fรผhrt.

Eine Lรถsung zur Lockerung der Annahme gleicher Varianz ist die Verwendung des Welch-Tests. R geht davon aus, dass die beiden Varianzen standardmรครŸig nicht gleich sind. Wenn in Ihrem Datensatz beide Vektoren die gleiche Varianz haben, kรถnnen Sie var.equal= TRUE setzen.

Sie erstellen zwei Zufallsvektoren aus einer GauรŸ-Verteilung mit einem hรถheren Mittelwert fรผr die Verkรคufe nach dem Programm.

set.seed(123)
# sales before the program
sales_before <- rnorm(7, mean = 50000, sd = 50)
# sales after the program.This has higher mean
sales_after <- rnorm(7, mean = 50075, sd = 50)
# draw the distribution
t.test(sales_before, sales_after,var.equal = TRUE)

Beispiel fรผr einen gepaarten T-Test in R

Sie haben einen p-Wert von 0.04606 erhalten, der unter dem Schwellenwert von 0.05 liegt. Sie kommen zu dem Schluss, dass die Durchschnittswerte der beiden Gruppen deutlich unterschiedlich sind. Das Programm verbessert den Verkauf von Geschรคften.

Zusammenfassung

  • Statistische Inferenz ist die Kunst, Schlussfolgerungen รผber die Verteilung der Daten zu ziehen.
  • Der T-Test gehรถrt zur Familie der Inferenzstatistiken. Er wird hรคufig eingesetzt, um herauszufinden, ob zwischen den Mittelwerten zweier Gruppen ein statistischer Unterschied besteht.
  • Der Einstichproben-t-Test oder Student-Test vergleicht den Mittelwert eines Vektors mit einem theoretischen Mittelwert.
  • Der gepaarte T-Test oder abhรคngige Stichproben-T-Test wird verwendet, wenn der Mittelwert der behandelten Gruppe zweimal berechnet wird.

Wir kรถnnen den T-Test in der folgenden Tabelle zusammenfassen:

Test Hypothese zum Testen p-Wert Code Optionales Argument
T-Test bei einer Stichprobe Der Mittelwert eines Vektors unterscheidet sich vom theoretischen Mittelwert 0.05
t.test(x, mu = mean)
gepaarter Stichproben-T-Test Mittelwert A unterscheidet sich vom Mittelwert B fรผr dieselbe Gruppe 0.06
t.test(A,B, mu = mean)
var.equal= TRUE

Wenn wir davon ausgehen, dass die Varianzen gleich sind, mรผssen wir den Parameter var.equal= TRUE รคndern.

Fassen Sie diesen Beitrag mit folgenden Worten zusammen: