T-Test στον προγραμματισμό R: One Sample & Paired T-Test [Παράδειγμα]

Τι είναι το στατιστικό συμπέρασμα;

Το στατιστικό συμπέρασμα είναι η τέχνη της παραγωγής συμπερασμάτων σχετικά με τη διανομή των δεδομένων. Ένας επιστήμονας δεδομένων συχνά εκτίθεται σε ερωτήσεις που μπορούν να απαντηθούν μόνο επιστημονικά. Επομένως, το στατιστικό συμπέρασμα είναι μια στρατηγική για να ελεγχθεί εάν μια υπόθεση είναι αληθής, δηλαδή επικυρωμένη από τα δεδομένα.

Μια κοινή στρατηγική για την αξιολόγηση της υπόθεσης είναι η διεξαγωγή ενός t-test. Ένα τεστ t μπορεί να πει αν δύο ομάδες έχουν τον ίδιο μέσο όρο. Ένα t-test ονομάζεται επίσης α Μαθητικό Τεστ. Ένα t-test μπορεί να εκτιμηθεί για:

  1. Ένα μεμονωμένο διάνυσμα (δηλαδή, ένα δείγμα t-test)
  2. Δύο διανύσματα από την ίδια ομάδα δειγμάτων (δηλαδή, ζεύγη t-test).

Υποθέτετε ότι και τα δύο διανύσματα είναι τυχαία δειγματοληπτικά, ανεξάρτητα και προέρχονται από έναν κανονικά κατανεμημένο πληθυσμό με άγνωστες αλλά ίσες διακυμάνσεις.

Τι είναι το T-Test στον προγραμματισμό R;

Η βασική ιδέα πίσω από ένα T-Test είναι η χρήση στατιστικών για την αξιολόγηση δύο αντίθετων υποθέσεων:

  • H0: NULL υπόθεση: Ο μέσος όρος είναι ίδιος με το δείγμα που χρησιμοποιήθηκε
  • H3: Σωστή υπόθεση: Ο μέσος όρος είναι διαφορετικός από το δείγμα που χρησιμοποιήθηκε

Το T-test χρησιμοποιείται συνήθως με μικρά μεγέθη δειγμάτων. Για να εκτελέσετε ένα τεστ t, πρέπει να υποθέσετε την κανονικότητα των δεδομένων.

T-Test Syntax στο R

Η βασική σύνταξη για το t.test() στο R είναι:

t.test(x, y = NULL,
       mu = 0, var.equal = FALSE)
arguments:
- x : A vector to compute the one-sample t-test
- y: A second vector to compute the two sample t-test
- mu: Mean of the population- var.equal: Specify if the variance of the two vectors are equal. By default, set to `FALSE`

Ένα δείγμα T-Test στο R

Το One Sample t-test, ή το test Student, συγκρίνει τον μέσο όρο ενός διανύσματος με έναν θεωρητικό μέσο όρο, Ένα δείγμα T-Test στο R. Ο τύπος που χρησιμοποιείται για τον υπολογισμό του t-test είναι:

Ένα δείγμα T-Test στο R

Εδώ,

  • Ένα δείγμα T-Test στο R αναφέρεται στη μέση
  • Ένα δείγμα T-Test στο R στο θεωρητικό μέσο
  • s είναι η τυπική απόκλιση
  • n τον αριθμό των παρατηρήσεων.

Για να αξιολογήσετε τη στατιστική σημασία του τεστ t, πρέπει να υπολογίσετε το p-value. ο p-value κυμαίνεται από 0 έως 1 και ερμηνεύεται ως εξής:

  • Μια τιμή p μικρότερη από 0.05 σημαίνει ότι είστε σίγουροι ότι θα απορρίψετε τη μηδενική υπόθεση, επομένως το H3 γίνεται αποδεκτό.
  • Μια τιμή p μεγαλύτερη από 0.05 υποδηλώνει ότι δεν έχετε αρκετά στοιχεία για να απορρίψετε τη μηδενική υπόθεση.

Μπορείτε να κατασκευάσετε την τιμή p κοιτάζοντας την αντίστοιχη απόλυτη τιμή του τεστ t στην κατανομή Student με βαθμούς ελευθερίας ίσους με Ένα δείγμα T-Test στο R

Για παράδειγμα, εάν έχετε 5 παρατηρήσεις, πρέπει να συγκρίνετε την τιμή t με την τιμή t στην κατανομή Student με 4 βαθμούς ελευθερίας και με διάστημα εμπιστοσύνης 95 τοις εκατό. Για να απορριφθεί η μηδενική υπόθεση, η τιμή t θα πρέπει να είναι υψηλότερη από 2.77.

Βλ πίνακα παρακάτω:

Ένα δείγμα T-Test στο R

Ένα δείγμα T-Test Παράδειγμα στο R

Ας υποθέσουμε ότι είστε μια εταιρεία που παράγει cookies. Κάθε μπισκότο υποτίθεται ότι περιέχει 10 γραμμάρια ζάχαρης. Τα μπισκότα παράγονται από μια μηχανή που προσθέτει τη ζάχαρη σε ένα μπολ πριν τα ανακατέψει όλα. Πιστεύετε ότι το μηχάνημα δεν προσθέτει 10 γραμμάρια ζάχαρης για κάθε μπισκότο. Εάν η υπόθεσή σας είναι αληθινή, το μηχάνημα πρέπει να επιδιορθωθεί. Αποθηκεύσατε το επίπεδο ζάχαρης των τριάντα μπισκότων.

Σημείωση: Μπορείτε να δημιουργήσετε ένα τυχαιοποιημένο διάνυσμα με τη συνάρτηση rnorm(). Αυτή η συνάρτηση δημιουργεί κανονικά κατανεμημένες τιμές. Η βασική σύνταξη είναι:

rnorm(n, mean, sd)
arguments
- n: Number of observations to generate
- mean: The mean of the distribution. Optional
- sd: The standard deviation of the distribution. Optional

Μπορείτε να δημιουργήσετε μια κατανομή με 30 παρατηρήσεις με μέσο όρο 9.99 και τυπική απόκλιση 0.04.

set.seed(123) sugar_cookie <- rnorm(30, mean = 9.99, sd = 0.04)
head(sugar_cookie)

Παραγωγή:

## [1]  9.967581  9.980793 10.052348  9.992820  9.995172 10.058603

Μπορείτε να χρησιμοποιήσετε ένα τεστ t ενός δείγματος για να ελέγξετε εάν το επίπεδο ζάχαρης είναι διαφορετικό από τη συνταγή. Μπορείτε να σχεδιάσετε ένα τεστ υποθέσεων:

  • H0: Το μέσο επίπεδο ζάχαρης είναι ίσο με 10
  • H3: Το μέσο επίπεδο ζάχαρης είναι διαφορετικό από 10

Χρησιμοποιείτε ένα επίπεδο σημαντικότητας 0.05.

# H0 : mu = 10
t.test(sugar_cookie, mu = 10)

Εδώ είναι η έξοδος:

Ένα δείγμα T-Test Παράδειγμα στο R

Η τιμή p του τεστ t ενός δείγματος είναι 0.1079 και πάνω από 0.05. Μπορείτε να είστε σίγουροι στο 95% ότι η ποσότητα ζάχαρης που προστίθεται από το μηχάνημα είναι μεταξύ 9.973 και 10.002 γραμμάρια. Δεν μπορείτε να απορρίψετε την μηδενική υπόθεση (H0). Δεν υπάρχουν αρκετές ενδείξεις ότι η ποσότητα ζάχαρης που προστίθεται από το μηχάνημα δεν ακολουθεί τη συνταγή.

Ζευγάρι T-Test στο R

Το Paired T-test, ή εξαρτημένο δείγμα t-test, χρησιμοποιείται όταν ο μέσος όρος της ομάδας που υποβλήθηκε σε αγωγή υπολογίζεται δύο φορές. Η βασική εφαρμογή του ζευγαρωμένου t-test είναι:

  • Δοκιμή A / B: Συγκρίνετε δύο παραλλαγές
  • Μελέτες ελέγχου περιπτώσεων: Πριν/μετά τη θεραπεία

Παράδειγμα Paired T-Test στο R

Μια εταιρεία ποτών ενδιαφέρεται να γνωρίζει την απόδοση ενός προγράμματος εκπτώσεων στις πωλήσεις. Η εταιρεία αποφάσισε να παρακολουθεί τις καθημερινές πωλήσεις ενός από τα καταστήματα της όπου προωθείται το πρόγραμμα. Στο τέλος του προγράμματος, η εταιρεία θέλει να μάθει εάν υπάρχει στατιστική διαφορά μεταξύ των μέσων πωλήσεων του καταστήματος πριν και μετά το πρόγραμμα.

  • Η εταιρεία παρακολουθούσε τις πωλήσεις καθημερινά πριν ξεκινήσει το πρόγραμμα. Αυτός είναι ο πρώτος μας φορέας.
  • Το πρόγραμμα προωθείται για μία εβδομάδα και οι πωλήσεις καταγράφονται καθημερινά. Αυτός είναι ο δεύτερος μας φορέας.
  • Θα εκτελέσετε το t-test για να κρίνετε την αποτελεσματικότητα του προγράμματος. Αυτό ονομάζεται ζευγοποιημένο t-test επειδή οι τιμές και των δύο διανυσμάτων προέρχονται από την ίδια κατανομή (δηλαδή, το ίδιο κατάστημα).

Ο έλεγχος της υπόθεσης είναι:

  • H0: Καμία διαφορά στη μέση τιμή
  • H3: Τα δύο μέσα είναι διαφορετικά

Θυμηθείτε, μια υπόθεση στο τεστ t είναι μια άγνωστη αλλά ίση διακύμανση. Στην πραγματικότητα, τα δεδομένα δεν έχουν ίσο μέσο όρο και οδηγεί σε εσφαλμένα αποτελέσματα για το τεστ t.

Μια λύση για να χαλαρώσει η υπόθεση ίσης διακύμανσης είναι η χρήση του τεστ Welch. Το R υποθέτει ότι οι δύο διακυμάνσεις δεν είναι ίσες από προεπιλογή. Στο σύνολο δεδομένων σας, και τα δύο διανύσματα έχουν την ίδια διακύμανση, μπορείτε να ορίσετε var.equal= TRUE.

Δημιουργείτε δύο τυχαία διανύσματα από μια κατανομή Gauss με υψηλότερο μέσο όρο για τις πωλήσεις μετά το πρόγραμμα.

set.seed(123)
# sales before the program
sales_before <- rnorm(7, mean = 50000, sd = 50)
# sales after the program.This has higher mean
sales_after <- rnorm(7, mean = 50075, sd = 50)
# draw the distribution
t.test(sales_before, sales_after,var.equal = TRUE)

Παράδειγμα Paired T-Test στο R

Λάβατε μια τιμή p 0.04606, χαμηλότερη από το όριο του 0.05. Συμπεραίνεις ότι οι μέσοι όροι των δύο ομάδων είναι σημαντικά διαφορετικοί. Το πρόγραμμα βελτιώνει τις πωλήσεις των καταστημάτων.

Σύνοψη

  • Το στατιστικό συμπέρασμα είναι η τέχνη της παραγωγής συμπερασμάτων σχετικά με τη διανομή των δεδομένων.
  • Το T-Test ανήκει στην οικογένεια των στατιστικών συμπερασμάτων. Συνήθως χρησιμοποιείται για να διαπιστωθεί εάν υπάρχει στατιστική διαφορά μεταξύ των μέσων των δύο ομάδων.
  • Το One Sample t-test, ή το test Student, συγκρίνει τον μέσο όρο ενός διανύσματος με έναν θεωρητικό μέσο όρο.
  • Το Paired T-test, ή εξαρτημένο δείγμα t-test, χρησιμοποιείται όταν ο μέσος όρος της ομάδας που υποβλήθηκε σε αγωγή υπολογίζεται δύο φορές.

Μπορούμε να συνοψίσουμε το t-test είναι ο παρακάτω πίνακας:

Δοκιμή Υπόθεση προς δοκιμή p-value Κώδικας Προαιρετικό επιχείρημα
ένα δείγμα t-test Ο μέσος όρος ενός διανύσματος είναι διαφορετικός από τον θεωρητικό μέσο όρο 0.05
t.test(x, mu = mean)
ζευγαρωμένο δείγμα t-test Ο μέσος όρος Α είναι διαφορετικός από τον μέσο όρο Β για την ίδια ομάδα 0.06
t.test(A,B, mu = mean)
var.equal= TRUE

Αν υποθέσουμε ότι οι διακυμάνσεις είναι ίσες, πρέπει να αλλάξουμε την παράμετρο var.equal= TRUE.