Fattore in R: variabile categoriale e variabili continue
Cos'è il fattore in R?
Fattore in R è una variabile utilizzata per classificare e archiviare i dati, avente un numero limitato di valori diversi. Memorizza i dati come un vettore di valori interi. Il fattore in R è anche noto come variabile categoriale che memorizza sia valori di dati stringa che interi come livelli. Il fattore viene utilizzato principalmente nella modellazione statistica e nell'analisi esplorativa dei dati con R.
In un set di dati, possiamo distinguere due tipi di variabili: categorico e continuo.
- Nelle statistiche descrittive per variabili categoriali in R, il valore è limitato e solitamente basato su un particolare gruppo finito. Ad esempio, una variabile categoriale in R può essere paesi, anno, sesso, occupazione.
- Una variabile continua, tuttavia, può assumere qualsiasi valore, dall'intero al decimale. Ad esempio, possiamo avere le entrate, il prezzo di un'azione, ecc.
Variabili categoriali
Variabili categoriali in R vengono memorizzati in un fattore. Controlliamo il codice seguente per convertire una variabile carattere in una variabile fattore in R. I caratteri non sono supportati nell'algoritmo di apprendimento automatico e l'unico modo è convertire una stringa in un numero intero.
Sintassi
factor(x = character(), levels, labels = levels, ordered = is.ordered(x))
Argomenti:
- x: un vettore di dati categorici in R. Deve essere una stringa o un numero intero, non un decimale.
- Livelli: Un vettore di possibili valori presi da x. Questo argomento è facoltativo. Il valore predefinito è l'elenco univoco di elementi del vettore x.
- per il tuo brand: aggiungi un'etichetta ai dati categorici x in R. Ad esempio, 1 può prendere l'etichetta "maschio" mentre 0, l'etichetta "femmina".
- ordinato: Determina se i livelli devono essere ordinati nei dati categorici in R.
Esempio:
Creiamo un frame di dati fattoriali.
# Create gender vector gender_vector <- c("Male", "Female", "Female", "Male", "Male") class(gender_vector) # Convert gender_vector to a factor factor_gender_vector <-factor(gender_vector) class(factor_gender_vector)
Produzione:
## [1] "character" ## [1] "factor"
È importante trasformare a stringa nella variabile fattore in R quando eseguiamo attività di machine learning.
Una variabile categoriale in R può essere suddivisa in variabile categoriale nominale e variabile categoriale ordinale.
Variabile categoriale nominale
Una variabile categoriale ha diversi valori ma l'ordine non ha importanza. Ad esempio, maschio o femmina. Le variabili categoriali in R non hanno ordinamento.
# Create a color vector color_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow') # Convert the vector to factor factor_color <- factor(color_vector) factor_color
Produzione:
## [1] blue red green white black yellow ## Levels: black blue green red white yellow
Dal factor_color non possiamo distinguere alcun ordine.
Variabile categoriale ordinale
Le variabili categoriali ordinali hanno un ordinamento naturale. Possiamo specificare l'ordine, dal più basso al più alto con ordine = TRUE e dal più alto al più basso con ordine = FALSE.
Esempio:
Possiamo usare il riepilogo per contare i valori per ciascuna variabile fattore in R.
# Create Ordinal categorical vector day_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening') # Convert `day_vector` to a factor with ordered level factor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight')) # Print the new variable factor_day
Produzione:
## [1] evening morning afternoon midday midnight evening
Esempio:
## Levels: morning < midday < afternoon < evening < midnight # Append the line to above code # Count the number of occurence of each level summary(factor_day)
Produzione:
## morning midday afternoon evening midnight ## 1 1 1 2 1
R ha ordinato il livello da "mattina" a "mezzanotte" come specificato nella parentesi dei livelli.
Variabili continue
Le variabili di classe continua sono il valore predefinito in R. Sono archiviate come numeriche o intere. Possiamo vederlo dal set di dati qui sotto. mtcars è un set di dati integrato. Raccoglie informazioni su diversi tipi di auto. Possiamo importarlo utilizzando mtcars e controllare la classe della variabile mpg, miglia per gallone. Restituisce un valore numerico, che indica una variabile continua.
dataset <- mtcars class(dataset$mpg)
Uscita
## [1] "numeric"