Test T dans la programmation R : un échantillon et un test T apparié [Exemple]
Qu’est-ce que l’inférence statistique ?
L'inférence statistique est l'art de générer des conclusions sur la distribution des données. Un data scientist est souvent exposé à des questions auxquelles on ne peut répondre que scientifiquement. L'inférence statistique est donc une stratégie permettant de tester si une hypothèse est vraie, c'est-à-dire validée par les données.
Une stratégie courante pour évaluer une hypothèse consiste à effectuer un test t. Un test t peut déterminer si deux groupes ont la même moyenne. Un test t est également appelé Test étudiant. Un test t peut être estimé pour :
- Un seul vecteur (c'est-à-dire un test t sur un échantillon)
- Deux vecteurs du même groupe d'échantillons (c'est-à-dire un test t apparié).
Vous supposez que les deux vecteurs sont échantillonnés de manière aléatoire, indépendants et proviennent d’une population normalement distribuée avec des variances inconnues mais égales.
Qu’est-ce que le test T dans la programmation R ?
L’idée de base d’un T-Test est d’utiliser des statistiques pour évaluer deux hypothèses contraires :
- H0: Hypothèse NULL : La moyenne est la même que celle de l'échantillon utilisé
- H3: Hypothèse vraie : La moyenne est différente de l’échantillon utilisé
Le test T est couramment utilisé avec des échantillons de petite taille. Pour effectuer un test t, vous devez supposer la normalité des données.
Syntaxe du test T dans R
La syntaxe de base de t.test() dans R est :
t.test(x, y = NULL, mu = 0, var.equal = FALSE) arguments: - x : A vector to compute the one-sample t-test - y: A second vector to compute the two sample t-test - mu: Mean of the population- var.equal: Specify if the variance of the two vectors are equal. By default, set to `FALSE`
Un échantillon de test T dans R
Le test t One Sample, ou test de Student, compare la moyenne d'un vecteur à une moyenne théorique, . La formule utilisée pour calculer le test t est la suivante :
Ici,
fait référence à la moyenne
à la moyenne théorique
- s est l'écart type
- n le nombre d'observations.
Pour évaluer la signification statistique du test t, vous devez calculer le p-valeurL’ p-valeur varie de 0 à 1, et est interprété comme suit :
- Une valeur p inférieure à 0.05 signifie que vous êtes fortement confiant de rejeter l'hypothèse nulle, donc H3 est accepté.
- Une valeur p supérieure à 0.05 indique que vous ne disposez pas de suffisamment de preuves pour rejeter l'hypothèse nulle.
Vous pouvez construire la valeur p en regardant la valeur absolue correspondante du test t dans la distribution de Student avec des degrés de liberté égaux à
Par exemple, si vous avez 5 observations, vous devez comparer notre valeur t avec la valeur t de la distribution de Student avec 4 degrés de liberté et avec un intervalle de confiance de 95 %. Pour rejeter l’hypothèse nulle, la valeur t doit être supérieure à 2.77.
Cf tableau ci-dessous :
Un exemple de test T dans R
Supposons que vous soyez une entreprise produisant des cookies. Chaque biscuit est censé contenir 10 grammes de sucre. Les biscuits sont fabriqués par une machine qui ajoute le sucre dans un bol avant de mélanger le tout. Vous pensez que la machine n'ajoute pas 10 grammes de sucre pour chaque cookie. Si votre hypothèse est vraie, la machine doit être réparée. Vous avez stocké le niveau de sucre de trente cookies.
Notez : : Vous pouvez créer un vecteur aléatoire avec la fonction rnorm(). Cette fonction génère des valeurs normalement distribuées. La syntaxe de base est la suivante :
rnorm(n, mean, sd) arguments - n: Number of observations to generate - mean: The mean of the distribution. Optional - sd: The standard deviation of the distribution. Optional
Vous pouvez créer une distribution avec 30 observations avec une moyenne de 9.99 et un écart type de 0.04.
set.seed(123) sugar_cookie <- rnorm(30, mean = 9.99, sd = 0.04) head(sugar_cookie)
Sortie :
## [1] 9.967581 9.980793 10.052348 9.992820 9.995172 10.058603
Vous pouvez utiliser un test t sur un échantillon pour vérifier si le niveau de sucre est différent de celui de la recette. Vous pouvez dessiner un test d'hypothèse :
- H0: Le taux moyen de sucre est égal à 10
- H3: Le taux moyen de sucre est différent de 10
Vous utilisez un niveau de signification de 0.05.
# H0 : mu = 10 t.test(sugar_cookie, mu = 10)
Voici la sortie:
La valeur p du test t sur un échantillon est de 0.1079 et supérieure à 0.05. Vous pouvez être sûr à 95 % que la quantité de sucre ajoutée par la machine est comprise entre 9.973 et 10.002 grammes. Vous ne pouvez pas rejeter l’hypothèse nulle (H0). Il n’y a pas suffisamment de preuves que la quantité de sucre ajoutée par la machine ne respecte pas la recette.
Test T apparié dans R
Le test T apparié, ou test t pour échantillon dépendant, est utilisé lorsque la moyenne du groupe traité est calculée deux fois. L’application de base du test t apparié est :
- Test A / B: Comparez deux variantes
- Études de contrôle de cas: Avant/après traitement
Exemple de test T apparié dans R
Une entreprise de boissons souhaite connaître les performances d’un programme de réduction sur les ventes. L'entreprise a décidé de suivre quotidiennement les ventes d'un de ses magasins où le programme est promu. À la fin du programme, l'entreprise souhaite savoir s'il existe une différence statistique entre les ventes moyennes du magasin avant et après le programme.
- L'entreprise suivait les ventes quotidiennement avant le début du programme. C'est notre premier vecteur.
- Le programme est promu pendant une semaine et les ventes sont enregistrées chaque jour. C'est notre deuxième vecteur.
- Vous effectuerez le test t pour juger de l’efficacité du programme. C'est ce qu'on appelle un test t apparié car les valeurs des deux vecteurs proviennent de la même distribution (c'est-à-dire du même magasin).
Le test d’hypothèse est le suivant :
- H0: Aucune différence de moyenne
- H3: Les deux moyens sont différents
N'oubliez pas qu'une hypothèse du test t est une variance inconnue mais égale. En réalité, les données ont à peine une moyenne égale, ce qui conduit à des résultats incorrects pour le test t.
Une solution pour assouplir l'hypothèse d'égalité de variance consiste à utiliser le test de Welch. R suppose que les deux variances ne sont pas égales par défaut. Dans votre ensemble de données, les deux vecteurs ont la même variance, vous pouvez définir var.equal= TRUE.
Vous créez deux vecteurs aléatoires à partir d'une distribution gaussienne avec une moyenne plus élevée pour les ventes après le programme.
set.seed(123) # sales before the program sales_before <- rnorm(7, mean = 50000, sd = 50) # sales after the program.This has higher mean sales_after <- rnorm(7, mean = 50075, sd = 50) # draw the distribution t.test(sales_before, sales_after,var.equal = TRUE)
Vous avez obtenu une valeur p de 0.04606, inférieure au seuil de 0.05. Vous concluez que les moyennes des deux groupes sont significativement différentes. Le programme améliore les ventes des magasins.
Résumé
- L'inférence statistique est l'art de générer des conclusions sur la distribution des données.
- Le T-Test appartient à la famille des statistiques inférentielles. Elle est couramment utilisée pour déterminer s'il existe une différence statistique entre les moyennes de deux groupes.
- Le test t One Sample, ou test de Student, compare la moyenne d'un vecteur à une moyenne théorique.
- Le test T apparié, ou test t pour échantillon dépendant, est utilisé lorsque la moyenne du groupe traité est calculée deux fois.
Nous pouvons résumer le test t dans le tableau ci-dessous :
Le test | Hypothèse à tester | p-valeur | Code | Argument facultatif |
---|---|---|---|---|
test t sur un échantillon | La moyenne d'un vecteur est différente de la moyenne théorique | 0.05 |
t.test(x, mu = mean) |
|
test t pour échantillons appariés | La moyenne A est différente de la moyenne B pour le même groupe | 0.06 |
t.test(A,B, mu = mean) |
var.equal= TRUE |
Si nous supposons que les variances sont égales, nous devons modifier le paramètre var.equal= TRUE.