Factorul în R: variabile categorice și variabile continue
Ce este factorul în R?
Factorul în R este o variabilă folosită pentru a clasifica și stoca datele, având un număr limitat de valori diferite. Stochează datele ca un vector de valori întregi. Factorul în R este cunoscut și ca o variabilă categorială care stochează atât valorile șirurilor de date, cât și valorile întregi ca nivele. Factor este utilizat în principal în modelarea statistică și analiza exploratorie a datelor cu R.
Într-un set de date, putem distinge două tipuri de variabile: categoric si continuu.
- În statistica descriptivă pentru variabilele categoriale din R, valoarea este limitată și, de obicei, se bazează pe un anumit grup finit. De exemplu, o variabilă categorială din R poate fi țări, anul, sexul, ocupația.
- O variabilă continuă, totuși, poate lua orice valoare, de la întreg la zecimal. De exemplu, putem avea venitul, prețul unei acțiuni etc.
Variabile categoriale
Variabilele categoriale în R sunt stocate într-un factor. Să verificăm codul de mai jos pentru a converti o variabilă caracter într-o variabilă factor în R. Caracterele nu sunt acceptate în algoritmul de învățare automată și singura modalitate este de a converti un șir într-un număr întreg.
Sintaxă
factor(x = character(), levels, labels = levels, ordered = is.ordered(x))
argumente:
- x: Un vector de date categorice în R. Trebuie să fie un șir sau un întreg, nu zecimal.
- Niveluri: Un vector de valori posibile luate de x. Acest argument este opțional. Valoarea implicită este lista unică de elemente ale vectorului x.
- etichete: Adăugați o etichetă la datele x categorice din R. De exemplu, 1 poate lua eticheta `masculin`, în timp ce 0, eticheta `femeie`.
- ordonat: Determinați dacă nivelurile ar trebui ordonate în date categorice în R.
Exemplu:
Să creăm un cadru de date factor.
# Create gender vector gender_vector <- c("Male", "Female", "Female", "Male", "Male") class(gender_vector) # Convert gender_vector to a factor factor_gender_vector <-factor(gender_vector) class(factor_gender_vector)
ieșire:
## [1] "character" ## [1] "factor"
Este important să se transforme a şir în variabila factor în R atunci când executăm sarcina de învățare automată.
O variabilă categorială din R poate fi împărțită în variabilă categorială nominală si variabilă categorială ordinală.
Variabila categorica nominala
O variabilă categorială are mai multe valori, dar ordinea nu contează. De exemplu, bărbat sau femeie. Variabilele categoriale din R nu au ordine.
# Create a color vector color_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow') # Convert the vector to factor factor_color <- factor(color_vector) factor_color
ieșire:
## [1] blue red green white black yellow ## Levels: black blue green red white yellow
Din factor_color, nu putem spune nicio comandă.
Variabilă categorială ordinală
Variabilele categoriale ordinale au o ordonare naturală. Putem specifica ordinea, de la cel mai mic la cel mai mare cu ordinul = TRUE și cel mai mare la cel mai mic cu ordinul = FALS.
Exemplu:
Putem folosi sumarul pentru a număra valorile pentru fiecare variabilă factor din R.
# Create Ordinal categorical vector day_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening') # Convert `day_vector` to a factor with ordered level factor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight')) # Print the new variable factor_day
ieșire:
## [1] evening morning afternoon midday midnight evening
Exemplu:
## Levels: morning < midday < afternoon < evening < midnight # Append the line to above code # Count the number of occurence of each level summary(factor_day)
ieșire:
## morning midday afternoon evening midnight ## 1 1 1 2 1
R a ordonat nivelul de la „dimineața” la „miezul nopții”, așa cum este specificat în paranteza nivelurilor.
Variabile continue
Variabilele de clasă continuă sunt valoarea implicită în R. Ele sunt stocate ca numere numerice sau întregi. O putem vedea din setul de date de mai jos. mtcars este un set de date încorporat. Acesta adună informații despre diferite tipuri de mașini. Îl putem importa folosind mtcars și verificăm clasa variabilei mpg, mile per galon. Returnează o valoare numerică, indicând o variabilă continuă.
dataset <- mtcars class(dataset$mpg)
producție
## [1] "numeric"