Facteur en R : variable catégorielle et variables continues

Qu’est-ce que le facteur dans R ?

Facteur en R est une variable utilisée pour catégoriser et stocker les données, ayant un nombre limité de valeurs différentes. Il stocke les données sous forme de vecteur de valeurs entières. Factor in R est également connu comme une variable catégorielle qui stocke à la fois les valeurs de données de chaîne et les valeurs entières sous forme de niveaux. Le facteur est principalement utilisé dans la modélisation statistique et l'analyse exploratoire des données avec R.

Dans un jeu de données, on peut distinguer deux types de variables : catégorique et mes continu.

  • Dans les statistiques descriptives des variables catégorielles dans R, la valeur est limitée et généralement basée sur un groupe fini particulier. Par exemple, une variable catégorielle dans R peut être le pays, l'année, le sexe, la profession.
  • Cependant, une variable continue peut prendre n'importe quelle valeur, de l'entier à la décimale. Par exemple, on peut avoir le chiffre d'affaires, le prix d'une action, etc.

Variables catégorielles

Variables catégorielles dans R sont stockés dans un facteur. Vérifions le code ci-dessous pour convertir une variable de caractère en variable de facteur dans R. Les caractères ne sont pas pris en charge dans l'algorithme d'apprentissage automatique et le seul moyen est de convertir une chaîne en entier.

Syntaxe

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

Arguments:

  • x: Un vecteur de données catégorielles dans R. Doit être une chaîne ou un entier, pas décimal.
  • Niveaux: Un vecteur de valeurs possibles prises par x. Cet argument est facultatif. La valeur par défaut est la liste unique des éléments du vecteur x.
  • Etiquettes: Ajoutez une étiquette aux x données catégorielles dans R. Par exemple, 1 peut prendre l'étiquette « mâle » tandis que 0, l'étiquette « femelle ».
  • commandé: Déterminez si les niveaux doivent être ordonnés en données catégorielles dans R.

Mise en situation :

Créons un bloc de données factorielles.

# Create gender vector
gender_vector <- c("Male", "Female", "Female", "Male", "Male")
class(gender_vector)
# Convert gender_vector to a factor
factor_gender_vector <-factor(gender_vector)
class(factor_gender_vector)

Sortie :

## [1] "character"
## [1] "factor"

Il est important de transformer un un magnifique en variable de facteur dans R lorsque nous effectuons une tâche d'apprentissage automatique.

Une variable catégorielle dans R peut être divisée en variable catégorielle nominale et mes variable catégorielle ordinale.

Variable catégorielle nominale

Une variable catégorielle a plusieurs valeurs mais l'ordre n'a pas d'importance. Par exemple, homme ou femme. Les variables catégorielles dans R n'ont pas d'ordre.

# Create a color vector
color_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')
# Convert the vector to factor
factor_color <- factor(color_vector)
factor_color

Sortie :

## [1] blue   red    green  white  black  yellow
## Levels: black blue green red white yellow

À partir du factor_color, nous ne pouvons déterminer aucun ordre.

Variable catégorielle ordinale

Les variables catégorielles ordinales ont un ordre naturel. On peut préciser l'ordre, du plus bas au plus élevé avec order = TRUE et du plus élevé au plus bas avec order = FALSE.

Mise en situation :

Nous pouvons utiliser le résumé pour compter les valeurs de chaque variable factorielle dans R.

# Create Ordinal categorical vector 
day_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')
# Convert `day_vector` to a factor with ordered level
factor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))
# Print the new variable
factor_day

Sortie :

## [1] evening   morning   afternoon midday    
midnight  evening

Mise en situation :

## Levels: morning < midday < afternoon < evening < midnight
# Append the line to above code
# Count the number of occurence of each level
summary(factor_day)

Sortie :

##   morning    midday afternoon   evening  midnight
##         1         1         1         2         1

R a ordonné le niveau de « matin » à « minuit », comme spécifié dans les parenthèses de niveaux.

Variables continues

Les variables de classe continues sont la valeur par défaut dans R. Elles sont stockées sous forme numérique ou entière. Nous pouvons le voir à partir de l’ensemble de données ci-dessous. mtcars est un ensemble de données intégré. Il rassemble des informations sur différents types de voitures. Nous pouvons l'importer en utilisant mtcars et vérifier la classe de la variable mpg, mile par gallon. Il renvoie une valeur numérique, indiquant une variable continue.

dataset <- mtcars
class(dataset$mpg)

Sortie

## [1] "numeric"