T-Test in der R-Programmierung: Ein Beispiel und gepaarter T-Test [Beispiel]

Was ist statistische Inferenz?

Statistische Inferenz ist die Kunst, Schlussfolgerungen über die Verteilung der Daten zu ziehen. Ein Datenwissenschaftler wird oft mit Fragen konfrontiert, die nur wissenschaftlich beantwortet werden können. Daher ist statistische Inferenz eine Strategie, um zu testen, ob eine Hypothese wahr ist, dh durch die Daten bestätigt wird.

Eine gängige Strategie zur Beurteilung von Hypothesen ist die Durchführung eines T-Tests. Ein t-Test kann feststellen, ob zwei Gruppen den gleichen Mittelwert haben. Ein T-Test wird auch als a bezeichnet Schülertest. Ein t-Test kann geschätzt werden für:

  1. Ein einzelner Vektor (d. h. T-Test bei einer Stichprobe)
  2. Zwei Vektoren aus derselben Stichprobengruppe (d. h. gepaarter t-Test).

Sie gehen davon aus, dass beide Vektoren zufällig ausgewählt und unabhängig sind und aus einer normalverteilten Grundgesamtheit mit unbekannten, aber gleichen Varianzen stammen.

Was ist T-Test in der R-Programmierung?

Die Grundidee eines T-Tests besteht darin, mithilfe von Statistiken zwei gegensätzliche Hypothesen zu bewerten:

  • H0: NULL-Hypothese: Der Durchschnitt ist derselbe wie die verwendete Stichprobe
  • H3: Wahre Hypothese: Der Durchschnitt unterscheidet sich von der verwendeten Stichprobe

Der T-Test wird üblicherweise bei kleinen Stichprobengrößen verwendet. Um einen T-Test durchzuführen, müssen Sie von der Normalität der Daten ausgehen.

T-Test-Syntax in R

Die grundlegende Syntax für t.test() in R ist:

t.test(x, y = NULL,
       mu = 0, var.equal = FALSE)
arguments:
- x : A vector to compute the one-sample t-test
- y: A second vector to compute the two sample t-test
- mu: Mean of the population- var.equal: Specify if the variance of the two vectors are equal. By default, set to `FALSE`

Ein Beispiel-T-Test in R

Der Einstichproben-t-Test oder Student-Test vergleicht den Mittelwert eines Vektors mit einem theoretischen Mittelwert. Ein Beispiel-T-Test in R. Die zur Berechnung des t-Tests verwendete Formel lautet:

Ein Beispiel-T-Test in R

Hier

  • Ein Beispiel-T-Test in R bezieht sich auf den Mittelwert
  • Ein Beispiel-T-Test in R zum theoretischen Mittelwert
  • s ist die Standardabweichung
  • n die Anzahl der Beobachtungen.

Um die statistische Signifikanz des t-Tests zu bewerten, müssen Sie Folgendes berechnen p-Wertdem „Vermischten Geschmack“. Seine p-Wert reicht von 0 bis 1 und wird wie folgt interpretiert:

  • Ein p-Wert unter 0.05 bedeutet, dass Sie die Nullhypothese mit großer Sicherheit ablehnen können und H3 daher akzeptiert wird.
  • Ein p-Wert über 0.05 weist darauf hin, dass Sie nicht über genügend Beweise verfügen, um die Nullhypothese abzulehnen.

Sie können den p-Wert konstruieren, indem Sie den entsprechenden Absolutwert des t-Tests in der Student-Verteilung mit einem Freiheitsgrad von gleich betrachten Ein Beispiel-T-Test in R

Wenn Sie beispielsweise 5 Beobachtungen haben, müssen Sie unseren t-Wert mit dem t-Wert in der Student-Verteilung mit 4 Freiheitsgraden und einem Konfidenzintervall von 95 Prozent vergleichen. Um die Nullhypothese abzulehnen, sollte der t-Wert höher als 2.77 sein.

Siehe Tabelle unten:

Ein Beispiel-T-Test in R

Ein Beispiel für einen T-Test in R

Angenommen, Sie sind ein Unternehmen, das Cookies herstellt. Jeder Keks soll 10 Gramm Zucker enthalten. Die Kekse werden von einer Maschine hergestellt, die den Zucker in eine Schüssel gibt, bevor alles vermischt wird. Sie glauben, dass die Maschine nicht für jeden Keks 10 Gramm Zucker hinzufügt. Wenn Ihre Annahme wahr ist, muss die Maschine repariert werden. Sie haben den Zuckergehalt von dreißig Keksen gespeichert.

Hinweis: Sie können einen randomisierten Vektor mit der Funktion rnorm() erstellen. Diese Funktion generiert normalverteilte Werte. Die grundlegende Syntax lautet:

rnorm(n, mean, sd)
arguments
- n: Number of observations to generate
- mean: The mean of the distribution. Optional
- sd: The standard deviation of the distribution. Optional

Sie können eine Verteilung mit 30 Beobachtungen mit einem Mittelwert von 9.99 und einer Standardabweichung von 0.04 erstellen.

set.seed(123) sugar_cookie <- rnorm(30, mean = 9.99, sd = 0.04)
head(sugar_cookie)

Ausgang:

## [1]  9.967581  9.980793 10.052348  9.992820  9.995172 10.058603

Mit einem T-Test bei einer Stichprobe können Sie prüfen, ob der Zuckergehalt vom Rezept abweicht. Sie können einen Hypothesentest erstellen:

  • H0: Der durchschnittliche Zuckergehalt beträgt 10
  • H3: Der durchschnittliche Zuckergehalt ist anders als 10

Sie verwenden ein Signifikanzniveau von 0.05.

# H0 : mu = 10
t.test(sugar_cookie, mu = 10)

Hier ist die Ausgabe:

Ein Beispiel für einen T-Test in R

Der p-Wert des T-Tests mit einer Stichprobe beträgt 0.1079 und über 0.05. Sie können zu 95 % sicher sein, dass die von der Maschine hinzugefügte Zuckermenge zwischen 9.973 und 10.002 Gramm liegt. Sie können die Nullhypothese (H0) nicht ablehnen. Es gibt nicht genügend Beweise dafür, dass die von der Maschine hinzugefügte Zuckermenge nicht dem Rezept entspricht.

Gepaarter T-Test in R

Der gepaarte T-Test oder abhängige Stichproben-T-Test wird verwendet, wenn der Mittelwert der behandelten Gruppe zweimal berechnet wird. Die grundlegende Anwendung des gepaarten t-Tests ist:

  • A/B-Tests: Vergleichen Sie zwei Varianten
  • Fallkontrollstudien: Vor/nach der Behandlung

Beispiel für einen gepaarten T-Test in R

Ein Getränkehersteller möchte wissen, wie sich ein Rabattprogramm auf den Umsatz auswirkt. Das Unternehmen hat beschlossen, die täglichen Umsätze eines seiner Geschäfte zu verfolgen, in denen das Programm beworben wird. Am Ende des Programms möchte das Unternehmen wissen, ob es einen statistischen Unterschied zwischen den durchschnittlichen Umsätzen des Geschäfts vor und nach dem Programm gibt.

  • Das Unternehmen verfolgte die Verkäufe jeden Tag vor Beginn des Programms. Dies ist unser erster Vektor.
  • Das Programm wird eine Woche lang beworben und die Verkäufe werden täglich aufgezeichnet. Dies ist unser zweiter Vektor.
  • Sie führen den T-Test durch, um die Wirksamkeit des Programms zu beurteilen. Dies wird als gepaarter t-Test bezeichnet, da die Werte beider Vektoren aus derselben Verteilung (dh aus demselben Shop) stammen.

Der Hypothesentest ist:

  • H0: Kein Unterschied im Mittelwert
  • H3: Die beiden Mittel sind unterschiedlich

Denken Sie daran, dass eine Annahme im t-Test eine unbekannte, aber gleiche Varianz ist. In Wirklichkeit weisen die Daten kaum den gleichen Mittelwert auf, was zu falschen Ergebnissen für den t-Test führt.

Eine Lösung zur Lockerung der Annahme gleicher Varianz ist die Verwendung des Welch-Tests. R geht davon aus, dass die beiden Varianzen standardmäßig nicht gleich sind. Wenn in Ihrem Datensatz beide Vektoren die gleiche Varianz haben, können Sie var.equal= TRUE setzen.

Sie erstellen zwei Zufallsvektoren aus einer Gauß-Verteilung mit einem höheren Mittelwert für die Verkäufe nach dem Programm.

set.seed(123)
# sales before the program
sales_before <- rnorm(7, mean = 50000, sd = 50)
# sales after the program.This has higher mean
sales_after <- rnorm(7, mean = 50075, sd = 50)
# draw the distribution
t.test(sales_before, sales_after,var.equal = TRUE)

Beispiel für einen gepaarten T-Test in R

Sie haben einen p-Wert von 0.04606 erhalten, der unter dem Schwellenwert von 0.05 liegt. Sie kommen zu dem Schluss, dass die Durchschnittswerte der beiden Gruppen deutlich unterschiedlich sind. Das Programm verbessert den Verkauf von Geschäften.

Zusammenfassung

  • Statistische Inferenz ist die Kunst, Schlussfolgerungen über die Verteilung der Daten zu ziehen.
  • Der T-Test gehört zur Familie der Inferenzstatistiken. Er wird häufig eingesetzt, um herauszufinden, ob zwischen den Mittelwerten zweier Gruppen ein statistischer Unterschied besteht.
  • Der Einstichproben-t-Test oder Student-Test vergleicht den Mittelwert eines Vektors mit einem theoretischen Mittelwert.
  • Der gepaarte T-Test oder abhängige Stichproben-T-Test wird verwendet, wenn der Mittelwert der behandelten Gruppe zweimal berechnet wird.

Wir können den T-Test in der folgenden Tabelle zusammenfassen:

Test Hypothese zum Testen p-Wert Code Optionales Argument
T-Test bei einer Stichprobe Der Mittelwert eines Vektors unterscheidet sich vom theoretischen Mittelwert 0.05
t.test(x, mu = mean)
gepaarter Stichproben-T-Test Mittelwert A unterscheidet sich vom Mittelwert B für dieselbe Gruppe 0.06
t.test(A,B, mu = mean)
var.equal= TRUE

Wenn wir davon ausgehen, dass die Varianzen gleich sind, müssen wir den Parameter var.equal= TRUE ändern.