Factorul în R: variabile categorice și variabile continue

Ce este factorul în R?

Factorul în R este o variabilă folosită pentru a clasifica și stoca datele, având un număr limitat de valori diferite. Stochează datele ca un vector de valori întregi. Factorul în R este cunoscut și ca o variabilă categorială care stochează atât valorile șirurilor de date, cât și valorile întregi ca nivele. Factor este utilizat în principal în modelarea statistică și analiza exploratorie a datelor cu R.

Într-un set de date, putem distinge două tipuri de variabile: categoric si continuu.

  • În statistica descriptivă pentru variabilele categoriale din R, valoarea este limitată și, de obicei, se bazează pe un anumit grup finit. De exemplu, o variabilă categorială din R poate fi țări, anul, sexul, ocupația.
  • O variabilă continuă, totuși, poate lua orice valoare, de la întreg la zecimal. De exemplu, putem avea venitul, prețul unei acțiuni etc.

Variabile categoriale

Variabilele categoriale în R sunt stocate într-un factor. Să verificăm codul de mai jos pentru a converti o variabilă caracter într-o variabilă factor în R. Caracterele nu sunt acceptate în algoritmul de învățare automată și singura modalitate este de a converti un șir într-un număr întreg.

Sintaxă

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

argumente:

  • x: Un vector de date categorice în R. Trebuie să fie un șir sau un întreg, nu zecimal.
  • Niveluri: Un vector de valori posibile luate de x. Acest argument este opțional. Valoarea implicită este lista unică de elemente ale vectorului x.
  • etichete: Adăugați o etichetă la datele x categorice din R. De exemplu, 1 poate lua eticheta `masculin`, în timp ce 0, eticheta `femeie`.
  • ordonat: Determinați dacă nivelurile ar trebui ordonate în date categorice în R.

Exemplu:

Să creăm un cadru de date factor.

# Create gender vector
gender_vector <- c("Male", "Female", "Female", "Male", "Male")
class(gender_vector)
# Convert gender_vector to a factor
factor_gender_vector <-factor(gender_vector)
class(factor_gender_vector)

ieșire:

## [1] "character"
## [1] "factor"

Este important să se transforme a şir în variabila factor în R atunci când executăm sarcina de învățare automată.

O variabilă categorială din R poate fi împărțită în variabilă categorială nominală si variabilă categorială ordinală.

Variabila categorica nominala

O variabilă categorială are mai multe valori, dar ordinea nu contează. De exemplu, bărbat sau femeie. Variabilele categoriale din R nu au ordine.

# Create a color vector
color_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')
# Convert the vector to factor
factor_color <- factor(color_vector)
factor_color

ieșire:

## [1] blue   red    green  white  black  yellow
## Levels: black blue green red white yellow

Din factor_color, nu putem spune nicio comandă.

Variabilă categorială ordinală

Variabilele categoriale ordinale au o ordonare naturală. Putem specifica ordinea, de la cel mai mic la cel mai mare cu ordinul = TRUE și cel mai mare la cel mai mic cu ordinul = FALS.

Exemplu:

Putem folosi sumarul pentru a număra valorile pentru fiecare variabilă factor din R.

# Create Ordinal categorical vector 
day_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')
# Convert `day_vector` to a factor with ordered level
factor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))
# Print the new variable
factor_day

ieșire:

## [1] evening   morning   afternoon midday    
midnight  evening

Exemplu:

## Levels: morning < midday < afternoon < evening < midnight
# Append the line to above code
# Count the number of occurence of each level
summary(factor_day)

ieșire:

##   morning    midday afternoon   evening  midnight
##         1         1         1         2         1

R a ordonat nivelul de la „dimineața” la „miezul nopții”, așa cum este specificat în paranteza nivelurilor.

Variabile continue

Variabilele de clasă continuă sunt valoarea implicită în R. Ele sunt stocate ca numere numerice sau întregi. O putem vedea din setul de date de mai jos. mtcars este un set de date încorporat. Acesta adună informații despre diferite tipuri de mașini. Îl putem importa folosind mtcars și verificăm clasa variabilei mpg, mile per galon. Returnează o valoare numerică, indicând o variabilă continuă.

dataset <- mtcars
class(dataset$mpg)

producție

## [1] "numeric"

Buletin informativ zilnic Guru99

Începe-ți ziua cu cele mai recente și importante știri despre inteligența artificială, livrate chiar acum.