Fattore in R: variabile categoriale e variabili continue

Cos'è il fattore in R?

Fattore in R è una variabile utilizzata per classificare e archiviare i dati, avente un numero limitato di valori diversi. Memorizza i dati come un vettore di valori interi. Il fattore in R è anche noto come variabile categoriale che memorizza sia valori di dati stringa che interi come livelli. Il fattore viene utilizzato principalmente nella modellazione statistica e nell'analisi esplorativa dei dati con R.

In un set di dati, possiamo distinguere due tipi di variabili: categorico e continuo.

  • Nelle statistiche descrittive per variabili categoriali in R, il valore è limitato e solitamente basato su un particolare gruppo finito. Ad esempio, una variabile categoriale in R può essere paesi, anno, sesso, occupazione.
  • Una variabile continua, tuttavia, può assumere qualsiasi valore, dall'intero al decimale. Ad esempio, possiamo avere le entrate, il prezzo di un'azione, ecc.

Variabili categoriali

Variabili categoriali in R vengono memorizzati in un fattore. Controlliamo il codice seguente per convertire una variabile carattere in una variabile fattore in R. I caratteri non sono supportati nell'algoritmo di apprendimento automatico e l'unico modo è convertire una stringa in un numero intero.

Sintassi

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

Argomenti:

  • x: un vettore di dati categorici in R. Deve essere una stringa o un numero intero, non un decimale.
  • Livelli: Un vettore di possibili valori presi da x. Questo argomento è facoltativo. Il valore predefinito è l'elenco univoco di elementi del vettore x.
  • per il tuo brand: aggiungi un'etichetta ai dati categorici x in R. Ad esempio, 1 può prendere l'etichetta "maschio" mentre 0, l'etichetta "femmina".
  • ordinato: Determina se i livelli devono essere ordinati nei dati categorici in R.

Esempio:

Creiamo un frame di dati fattoriali.

# Create gender vector
gender_vector <- c("Male", "Female", "Female", "Male", "Male")
class(gender_vector)
# Convert gender_vector to a factor
factor_gender_vector <-factor(gender_vector)
class(factor_gender_vector)

Produzione:

## [1] "character"
## [1] "factor"

È importante trasformare a stringa nella variabile fattore in R quando eseguiamo attività di machine learning.

Una variabile categoriale in R può essere suddivisa in variabile categoriale nominale e variabile categoriale ordinale.

Variabile categoriale nominale

Una variabile categoriale ha diversi valori ma l'ordine non ha importanza. Ad esempio, maschio o femmina. Le variabili categoriali in R non hanno ordinamento.

# Create a color vector
color_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')
# Convert the vector to factor
factor_color <- factor(color_vector)
factor_color

Produzione:

## [1] blue   red    green  white  black  yellow
## Levels: black blue green red white yellow

Dal factor_color non possiamo distinguere alcun ordine.

Variabile categoriale ordinale

Le variabili categoriali ordinali hanno un ordinamento naturale. Possiamo specificare l'ordine, dal più basso al più alto con ordine = TRUE e dal più alto al più basso con ordine = FALSE.

Esempio:

Possiamo usare il riepilogo per contare i valori per ciascuna variabile fattore in R.

# Create Ordinal categorical vector 
day_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')
# Convert `day_vector` to a factor with ordered level
factor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))
# Print the new variable
factor_day

Produzione:

## [1] evening   morning   afternoon midday    
midnight  evening

Esempio:

## Levels: morning < midday < afternoon < evening < midnight
# Append the line to above code
# Count the number of occurence of each level
summary(factor_day)

Produzione:

##   morning    midday afternoon   evening  midnight
##         1         1         1         2         1

R ha ordinato il livello da "mattina" a "mezzanotte" come specificato nella parentesi dei livelli.

Variabili continue

Le variabili di classe continua sono il valore predefinito in R. Sono archiviate come numeriche o intere. Possiamo vederlo dal set di dati qui sotto. mtcars è un set di dati integrato. Raccoglie informazioni su diversi tipi di auto. Possiamo importarlo utilizzando mtcars e controllare la classe della variabile mpg, miglia per gallone. Restituisce un valore numerico, che indica una variabile continua.

dataset <- mtcars
class(dataset$mpg)

Uscita

## [1] "numeric"