Test T nella programmazione R: test T su un campione e accoppiato [Esempio]
Cos'è l'inferenza statistica?
L'inferenza statistica è l'arte di trarre conclusioni sulla distribuzione dei dati. Uno scienziato dei dati è spesso esposto a domande a cui è possibile rispondere solo scientificamente. Pertanto, l'inferenza statistica è una strategia per verificare se un'ipotesi è vera, cioè convalidata dai dati.
Una strategia comune per valutare le ipotesi è condurre un t-test. Un test t può dire se due gruppi hanno la stessa media. Un test t è anche chiamato a Prova dello studente. È possibile stimare un t-test per:
- Un singolo vettore (ovvero, t-test per un campione)
- Due vettori dello stesso gruppo campione (cioè test t accoppiato).
Si presuppone che entrambi i vettori siano campionati in modo casuale, indipendenti e provengano da una popolazione distribuita normalmente con varianze sconosciute ma uguali.
Che cos'è il test T nella programmazione R?
L'idea di base alla base di un T-Test è utilizzare la statistica per valutare due ipotesi contrarie:
- H0: Ipotesi NULL: La media è la stessa del campione utilizzato
- H3: Ipotesi vera: la media è diversa dal campione utilizzato
Il test T è comunemente utilizzato con campioni di piccole dimensioni. Per eseguire un test t, è necessario assumere la normalità dei dati.
Sintassi del test T in R
La sintassi di base per t.test() in R è:
t.test(x, y = NULL, mu = 0, var.equal = FALSE) arguments: - x : A vector to compute the one-sample t-test - y: A second vector to compute the two sample t-test - mu: Mean of the population- var.equal: Specify if the variance of the two vectors are equal. By default, set to `FALSE`
Un test T campione in R
Il test t a campione singolo, o test di Student, confronta la media di un vettore con una media teorica, . La formula utilizzata per calcolare il t-test è:
Qui,
- si riferisce alla media
- alla media teorica
- s è la deviazione standard
- n il numero di osservazioni.
Per valutare la significatività statistica del test t, è necessario calcolare il p-value. p-value varia da 0 a 1 e viene interpretato come segue:
- Un valore p inferiore a 0.05 significa che sei fortemente fiducioso nel rifiutare l'ipotesi nulla, quindi H3 è accettato.
- Un valore p superiore a 0.05 indica che non hai prove sufficienti per rifiutare l'ipotesi nulla.
Puoi costruire il valore p osservando il corrispondente valore assoluto del test t nella distribuzione di Student con gradi di libertà pari a
Ad esempio, se hai 5 osservazioni, devi confrontare il nostro valore t con il valore t nella distribuzione di Student con 4 gradi di libertà e con un intervallo di confidenza del 95%. Per rifiutare l'ipotesi nulla, il valore t dovrebbe essere superiore a 2.77.
Cfr. la tabella seguente:
Un esempio di test T campione in R
Supponiamo che tu sia un'azienda che produce biscotti. Ogni biscotto dovrebbe contenere 10 grammi di zucchero. I biscotti vengono prodotti da una macchina che aggiunge lo zucchero in una ciotola prima di amalgamare il tutto. Credi che la macchina non aggiunga 10 grammi di zucchero per ogni biscotto. Se la tua ipotesi è vera, la macchina deve essere riparata. Hai memorizzato il livello di zucchero di trenta biscotti.
Note:: Puoi creare un vettore randomizzato con la funzione rnorm(). Questa funzione genera valori distribuiti normalmente. La sintassi di base è:
rnorm(n, mean, sd) arguments - n: Number of observations to generate - mean: The mean of the distribution. Optional - sd: The standard deviation of the distribution. Optional
Puoi creare una distribuzione con 30 osservazioni con una media di 9.99 e una deviazione standard di 0.04.
set.seed(123) sugar_cookie <- rnorm(30, mean = 9.99, sd = 0.04) head(sugar_cookie)
Produzione:
## [1] 9.967581 9.980793 10.052348 9.992820 9.995172 10.058603
È possibile utilizzare un test t su un campione per verificare se il livello di zucchero è diverso da quello della ricetta. Puoi disegnare un test di ipotesi:
- H0: Il livello medio di zucchero è pari a 10
- H3: Il livello medio di zucchero è diverso da 10
Utilizzi un livello di significatività pari a 0.05.
# H0 : mu = 10 t.test(sugar_cookie, mu = 10)
Ecco l'output:
Il valore p del test t per un campione è 0.1079 e superiore a 0.05. Puoi essere certo al 95% che la quantità di zucchero aggiunta dalla macchina è compresa tra 9.973 e 10.002 grammi. Non è possibile rifiutare l'ipotesi nulla (H0). Non ci sono prove sufficienti che la quantità di zucchero aggiunta dalla macchina non rispetti la ricetta.
T-Test accoppiato in R
Il test T accoppiato, o test t del campione dipendente, viene utilizzato quando la media del gruppo trattato viene calcolata due volte. L'applicazione di base del t-test appaiato è:
- Test A / B: Confronta due varianti
- Studi caso-controllo: Prima/dopo il trattamento
Esempio di test T accoppiato in R
Un'azienda di bevande è interessata a conoscere le performance di un programma di sconti sulle vendite. L'azienda ha deciso di seguire le vendite giornaliere di uno dei suoi negozi in cui il programma è in fase di promozione. Alla fine del programma, l'azienda vuole sapere se c'è una differenza statistica tra le vendite medie del negozio prima e dopo il programma.
- L'azienda monitorava le vendite ogni giorno prima dell'inizio del programma. Questo è il nostro primo vettore.
- Il programma viene promosso per una settimana e le vendite vengono registrate ogni giorno. Questo è il nostro secondo vettore.
- Eseguirai il t-test per giudicare l'efficacia del programma. Questo è chiamato test t appaiato perché i valori di entrambi i vettori provengono dalla stessa distribuzione (cioè dallo stesso negozio).
La verifica delle ipotesi è:
- H0: Nessuna differenza nella media
- H3: I due mezzi sono diversi
Ricorda, un presupposto nel test t è una varianza sconosciuta ma uguale. In realtà, i dati hanno a malapena la stessa media e ciò porta a risultati errati per il test t.
Una soluzione per allentare l'ipotesi di equa varianza è utilizzare il test di Welch. R presuppone che le due varianze non siano uguali per impostazione predefinita. Nel tuo set di dati, entrambi i vettori hanno la stessa varianza, puoi impostare var.equal= TRUE.
Crei due vettori casuali da una distribuzione gaussiana con una media più alta per le vendite dopo il programma.
set.seed(123) # sales before the program sales_before <- rnorm(7, mean = 50000, sd = 50) # sales after the program.This has higher mean sales_after <- rnorm(7, mean = 50075, sd = 50) # draw the distribution t.test(sales_before, sales_after,var.equal = TRUE)
Hai ottenuto un valore p di 0.04606, inferiore alla soglia di 0.05. Concludi che le medie dei due gruppi sono significativamente diverse. Il programma migliora le vendite dei negozi.
Sommario
- L'inferenza statistica è l'arte di trarre conclusioni sulla distribuzione dei dati.
- Il T-Test appartiene alla famiglia delle statistiche inferenziali. Viene comunemente utilizzato per scoprire se esiste una differenza statistica tra le medie di due gruppi.
- Il test t su un campione, o test di Student, confronta la media di un vettore con una media teorica.
- Il test T accoppiato, o test t del campione dipendente, viene utilizzato quando la media del gruppo trattato viene calcolata due volte.
Possiamo riassumere il t-test nella tabella seguente:
Test | Ipotesi da verificare | p-value | Code | Argomento facoltativo |
---|---|---|---|---|
test t per un campione | La media di un vettore è diversa dalla media teorica | 0.05 |
t.test(x, mu = mean) |
|
t-test per campioni appaiati | La media A è diversa dalla media B per lo stesso gruppo | 0.06 |
t.test(A,B, mu = mean) |
var.equal= TRUE |
Se assumiamo che le varianze siano uguali, dobbiamo modificare il parametro var.equal= TRUE.