Test T nella programmazione R: test T su un campione e accoppiato [Esempio]
Cos'รจ l'inferenza statistica?
L'inferenza statistica รจ l'arte di trarre conclusioni sulla distribuzione dei dati. Uno scienziato dei dati รจ spesso esposto a domande a cui รจ possibile rispondere solo scientificamente. Pertanto, l'inferenza statistica รจ una strategia per verificare se un'ipotesi รจ vera, cioรจ convalidata dai dati.
Una strategia comune per valutare le ipotesi รจ condurre un t-test. Un test t puรฒ dire se due gruppi hanno la stessa media. Un test t รจ anche chiamato a Prova dello studente. ร possibile stimare un t-test per:
- Un singolo vettore (ovvero, t-test per un campione)
- Due vettori dello stesso gruppo campione (cioรจ test t accoppiato).
Si presuppone che entrambi i vettori siano campionati in modo casuale, indipendenti e provengano da una popolazione distribuita normalmente con varianze sconosciute ma uguali.
Che cos'รจ il test T nella programmazione R?
L'idea di base alla base di un T-Test รจ utilizzare la statistica per valutare due ipotesi contrarie:
- H0: Ipotesi NULL: La media รจ la stessa del campione utilizzato
- H3: Ipotesi vera: la media รจ diversa dal campione utilizzato
Il test T รจ comunemente utilizzato con campioni di piccole dimensioni. Per eseguire un test t, รจ necessario assumere la normalitร dei dati.
Sintassi del test T in R
La sintassi di base per t.test() in R รจ:
t.test(x, y = NULL,
mu = 0, var.equal = FALSE)
arguments:
- x : A vector to compute the one-sample t-test
- y: A second vector to compute the two sample t-test
- mu: Mean of the population- var.equal: Specify if the variance of the two vectors are equal. By default, set to `FALSE`
Un test T campione in R
Il test t a campione singolo, o test di Student, confronta la media di un vettore con una media teorica, . La formula utilizzata per calcolare il t-test รจ:
Qui,
si riferisce alla media
alla media teorica
- s รจ la deviazione standard
- n il numero di osservazioni.
Per valutare la significativitร statistica del test t, รจ necessario calcolare il p-value. p-value varia da 0 a 1 e viene interpretato come segue:
- Un valore p inferiore a 0.05 significa che sei fortemente fiducioso nel rifiutare l'ipotesi nulla, quindi H3 รจ accettato.
- Un valore p superiore a 0.05 indica che non hai prove sufficienti per rifiutare l'ipotesi nulla.
Puoi costruire il valore p osservando il corrispondente valore assoluto del test t nella distribuzione di Student con gradi di libertร pari a
Ad esempio, se hai 5 osservazioni, devi confrontare il nostro valore t con il valore t nella distribuzione di Student con 4 gradi di libertร e con un intervallo di confidenza del 95%. Per rifiutare l'ipotesi nulla, il valore t dovrebbe essere superiore a 2.77.
Cfr. la tabella seguente:
Un esempio di test T campione in R
Supponiamo che tu sia un'azienda che produce biscotti. Ogni biscotto dovrebbe contenere 10 grammi di zucchero. I biscotti vengono prodotti da una macchina che aggiunge lo zucchero in una ciotola prima di amalgamare il tutto. Credi che la macchina non aggiunga 10 grammi di zucchero per ogni biscotto. Se la tua ipotesi รจ vera, la macchina deve essere riparata. Hai memorizzato il livello di zucchero di trenta biscotti.
Note:: Puoi creare un vettore randomizzato con la funzione rnorm(). Questa funzione genera valori distribuiti normalmente. La sintassi di base รจ:
rnorm(n, mean, sd) arguments - n: Number of observations to generate - mean: The mean of the distribution. Optional - sd: The standard deviation of the distribution. Optional
Puoi creare una distribuzione con 30 osservazioni con una media di 9.99 e una deviazione standard di 0.04.
set.seed(123) sugar_cookie <- rnorm(30, mean = 9.99, sd = 0.04) head(sugar_cookie)
Produzione:
## [1] 9.967581 9.980793 10.052348 9.992820 9.995172 10.058603
ร possibile utilizzare un test t su un campione per verificare se il livello di zucchero รจ diverso da quello della ricetta. Puoi disegnare un test di ipotesi:
- H0: Il livello medio di zucchero รจ pari a 10
- H3: Il livello medio di zucchero รจ diverso da 10
Utilizzi un livello di significativitร pari a 0.05.
# H0 : mu = 10 t.test(sugar_cookie, mu = 10)
Ecco l'output:
Il valore p del test t per un campione รจ 0.1079 e superiore a 0.05. Puoi essere certo al 95% che la quantitร di zucchero aggiunta dalla macchina รจ compresa tra 9.973 e 10.002 grammi. Non รจ possibile rifiutare l'ipotesi nulla (H0). Non ci sono prove sufficienti che la quantitร di zucchero aggiunta dalla macchina non rispetti la ricetta.
T-Test accoppiato in R
Il test T accoppiato, o test t del campione dipendente, viene utilizzato quando la media del gruppo trattato viene calcolata due volte. L'applicazione di base del t-test appaiato รจ:
- Test A / B: Confronta due varianti
- Studi caso-controllo: Prima/dopo il trattamento
Esempio di test T accoppiato in R
Un'azienda di bevande รจ interessata a conoscere le performance di un programma di sconti sulle vendite. L'azienda ha deciso di seguire le vendite giornaliere di uno dei suoi negozi in cui il programma รจ in fase di promozione. Alla fine del programma, l'azienda vuole sapere se c'รจ una differenza statistica tra le vendite medie del negozio prima e dopo il programma.
- Azienda tracAbbiamo analizzato le vendite ogni giorno prima dell'inizio del programma. Questo รจ il nostro primo vettore.
- Il programma viene promosso per una settimana e le vendite vengono registrate ogni giorno. Questo รจ il nostro secondo vettore.
- Eseguirai il t-test per giudicare l'efficacia del programma. Questo รจ chiamato test t appaiato perchรฉ i valori di entrambi i vettori provengono dalla stessa distribuzione (cioรจ dallo stesso negozio).
La verifica delle ipotesi รจ:
- H0: Nessuna differenza nella media
- H3: I due mezzi sono diversi
Ricorda, un presupposto nel test t รจ una varianza sconosciuta ma uguale. In realtร , i dati hanno a malapena la stessa media e ciรฒ porta a risultati errati per il test t.
Una soluzione per allentare l'ipotesi di equa varianza รจ utilizzare il test di Welch. R presuppone che le due varianze non siano uguali per impostazione predefinita. Nel tuo set di dati, entrambi i vettori hanno la stessa varianza, puoi impostare var.equal= TRUE.
Crei due vettori casuali da una distribuzione gaussiana con una media piรน alta per le vendite dopo il programma.
set.seed(123) # sales before the program sales_before <- rnorm(7, mean = 50000, sd = 50) # sales after the program.This has higher mean sales_after <- rnorm(7, mean = 50075, sd = 50) # draw the distribution t.test(sales_before, sales_after,var.equal = TRUE)
Hai ottenuto un valore p di 0.04606, inferiore alla soglia di 0.05. Concludi che le medie dei due gruppi sono significativamente diverse. Il programma migliora le vendite dei negozi.
Sintesi
- L'inferenza statistica รจ l'arte di trarre conclusioni sulla distribuzione dei dati.
- Il T-Test appartiene alla famiglia delle statistiche inferenziali. Viene comunemente utilizzato per scoprire se esiste una differenza statistica tra le medie di due gruppi.
- Il test t su un campione, o test di Student, confronta la media di un vettore con una media teorica.
- Il test T accoppiato, o test t del campione dipendente, viene utilizzato quando la media del gruppo trattato viene calcolata due volte.
Possiamo riassumere il t-test nella tabella seguente:
| Test | Ipotesi da verificare | p-value | Code | Argomento facoltativo |
|---|---|---|---|---|
| test t per un campione | La media di un vettore รจ diversa dalla media teorica | 0.05 |
t.test(x, mu = mean) |
|
| t-test per campioni appaiati | La media A รจ diversa dalla media B per lo stesso gruppo | 0.06 |
t.test(A,B, mu = mean) |
var.equal= TRUE |
Se assumiamo che le varianze siano uguali, dobbiamo modificare il parametro var.equal= TRUE.




