Facteur en R : variable catégorielle et variables continues
Qu’est-ce que le facteur dans R ?
Facteur en R est une variable utilisée pour catégoriser et stocker les données, ayant un nombre limité de valeurs différentes. Il stocke les données sous forme de vecteur de valeurs entières. Factor in R est également connu comme une variable catégorielle qui stocke à la fois les valeurs de données de chaîne et les valeurs entières sous forme de niveaux. Le facteur est principalement utilisé dans la modélisation statistique et l'analyse exploratoire des données avec R.
Dans un jeu de données, on peut distinguer deux types de variables : catégorique et mes continu.
- Dans les statistiques descriptives des variables catégorielles dans R, la valeur est limitée et généralement basée sur un groupe fini particulier. Par exemple, une variable catégorielle dans R peut être le pays, l'année, le sexe, la profession.
- Cependant, une variable continue peut prendre n'importe quelle valeur, de l'entier à la décimale. Par exemple, on peut avoir le chiffre d'affaires, le prix d'une action, etc.
Variables catégorielles
Variables catégorielles dans R sont stockés dans un facteur. Vérifions le code ci-dessous pour convertir une variable de caractère en variable de facteur dans R. Les caractères ne sont pas pris en charge dans l'algorithme d'apprentissage automatique et le seul moyen est de convertir une chaîne en entier.
Syntaxe
factor(x = character(), levels, labels = levels, ordered = is.ordered(x))
Arguments:
- x: Un vecteur de données catégorielles dans R. Doit être une chaîne ou un entier, pas décimal.
- Niveaux: Un vecteur de valeurs possibles prises par x. Cet argument est facultatif. La valeur par défaut est la liste unique des éléments du vecteur x.
- Etiquettes: Ajoutez une étiquette aux x données catégorielles dans R. Par exemple, 1 peut prendre l'étiquette « mâle » tandis que 0, l'étiquette « femelle ».
- commandé: Déterminez si les niveaux doivent être ordonnés en données catégorielles dans R.
Mise en situation :
Créons un bloc de données factorielles.
# Create gender vector gender_vector <- c("Male", "Female", "Female", "Male", "Male") class(gender_vector) # Convert gender_vector to a factor factor_gender_vector <-factor(gender_vector) class(factor_gender_vector)
Sortie :
## [1] "character" ## [1] "factor"
Il est important de transformer un un magnifique en variable de facteur dans R lorsque nous effectuons une tâche d'apprentissage automatique.
Une variable catégorielle dans R peut être divisée en variable catégorielle nominale et mes variable catégorielle ordinale.
Variable catégorielle nominale
Une variable catégorielle a plusieurs valeurs mais l'ordre n'a pas d'importance. Par exemple, homme ou femme. Les variables catégorielles dans R n'ont pas d'ordre.
# Create a color vector color_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow') # Convert the vector to factor factor_color <- factor(color_vector) factor_color
Sortie :
## [1] blue red green white black yellow ## Levels: black blue green red white yellow
À partir du factor_color, nous ne pouvons déterminer aucun ordre.
Variable catégorielle ordinale
Les variables catégorielles ordinales ont un ordre naturel. On peut préciser l'ordre, du plus bas au plus élevé avec order = TRUE et du plus élevé au plus bas avec order = FALSE.
Mise en situation :
Nous pouvons utiliser le résumé pour compter les valeurs de chaque variable factorielle dans R.
# Create Ordinal categorical vector day_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening') # Convert `day_vector` to a factor with ordered level factor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight')) # Print the new variable factor_day
Sortie :
## [1] evening morning afternoon midday midnight evening
Mise en situation :
## Levels: morning < midday < afternoon < evening < midnight # Append the line to above code # Count the number of occurence of each level summary(factor_day)
Sortie :
## morning midday afternoon evening midnight ## 1 1 1 2 1
R a ordonné le niveau de « matin » à « minuit », comme spécifié dans les parenthèses de niveaux.
Variables continues
Les variables de classe continues sont la valeur par défaut dans R. Elles sont stockées sous forme numérique ou entière. Nous pouvons le voir à partir de l’ensemble de données ci-dessous. mtcars est un ensemble de données intégré. Il rassemble des informations sur différents types de voitures. Nous pouvons l'importer en utilisant mtcars et vérifier la classe de la variable mpg, mile par gallon. Il renvoie une valeur numérique, indiquant une variable continue.
dataset <- mtcars class(dataset$mpg)
Sortie
## [1] "numeric"