R의 요인: 범주형 변수 및 연속형 변수

R의 Factor란 무엇인가요?

R의 요인 제한된 수의 서로 다른 값을 갖는 데이터를 분류하고 저장하는 데 사용되는 변수입니다. 데이터를 정수 값의 벡터로 저장합니다. R의 Factor는 문자열과 정수 데이터 값을 모두 수준으로 저장하는 범주형 변수라고도 합니다. Factor는 주로 R을 사용한 통계 모델링 및 탐색적 데이터 분석에 사용됩니다.

데이터 세트에서는 두 가지 유형의 변수를 구분할 수 있습니다. 범주 형 and 끊임없는.

  • R의 범주형 변수에 대한 기술 통계에서 값은 제한되며 일반적으로 특정 유한 그룹을 기반으로 합니다. 예를 들어 R의 범주형 변수는 국가, 연도, 성별, 직업이 될 수 있습니다.
  • 그러나 연속형 변수는 정수에서 십진수까지 어떤 값이든 가질 수 있습니다. 예를 들어 수익, 주식 가격 등을 알 수 있습니다.

범주형 변수

범주형 변수 R 팩터로 저장됩니다. R에서 문자변수를 요인변수로 변환하는 방법은 아래 코드를 확인해보겠습니다. 기계학습 알고리즘에서는 문자를 지원하지 않으며, 문자열을 정수로 변환하는 방법밖에 없습니다.

통사론

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

인수 :

  • x: R의 범주형 데이터 벡터입니다. 소수가 아닌 문자열 또는 정수여야 합니다.
  • 레벨: x가 취하는 가능한 값의 벡터입니다. 이 인수는 선택 사항입니다. 기본값은 벡터 x의 고유한 항목 목록입니다.
  • 레이블: R의 x 범주형 데이터에 라벨을 추가합니다. 예를 들어 1은 '남성' 라벨을 사용할 수 있고 0은 '여성' 라벨을 사용할 수 있습니다.
  • 주문한: R의 범주형 데이터에서 수준을 정렬해야 하는지 결정합니다.

예:

팩터 데이터 프레임을 만들어 보겠습니다.

# Create gender vector
gender_vector <- c("Male", "Female", "Female", "Male", "Male")
class(gender_vector)
# Convert gender_vector to a factor
factor_gender_vector <-factor(gender_vector)
class(factor_gender_vector)

출력:

## [1] "character"
## [1] "factor"

변화시키는 것이 중요하다 Machine Learning 작업을 수행할 때 R의 요인 변수로 변환됩니다.

R의 범주형 변수는 다음과 같이 나눌 수 있습니다. 명목형 범주형 변수 and 순서 범주형 변수.

명목형 범주형 변수

범주형 변수에는 여러 값이 있지만 순서는 중요하지 않습니다. 예를 들어, 남성 또는 여성. R의 범주형 변수에는 순서가 없습니다.

# Create a color vector
color_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')
# Convert the vector to factor
factor_color <- factor(color_vector)
factor_color

출력:

## [1] blue   red    green  white  black  yellow
## Levels: black blue green red white yellow

Factor_color에서는 순서를 알 수 없습니다.

순서형 범주형 변수

순서형 범주형 변수에는 자연스러운 순서가 있습니다. order = TRUE인 경우 가장 낮은 것부터 가장 높은 것까지, order = FALSE인 경우 가장 높은 것부터 낮은 것까지 순서를 지정할 수 있습니다.

예:

요약을 사용하여 R의 각 요인 변수에 대한 값을 계산할 수 있습니다.

# Create Ordinal categorical vector 
day_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')
# Convert `day_vector` to a factor with ordered level
factor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))
# Print the new variable
factor_day

출력:

## [1] evening   morning   afternoon midday    
midnight  evening

예:

## Levels: morning < midday < afternoon < evening < midnight
# Append the line to above code
# Count the number of occurence of each level
summary(factor_day)

출력:

##   morning    midday afternoon   evening  midnight
##         1         1         1         2         1

R은 레벨 괄호에 지정된 대로 '아침'부터 '자정'까지 레벨을 정렬했습니다.

연속변수

연속 클래스 변수는 R의 기본값입니다. 숫자 또는 정수로 저장됩니다. 아래 데이터 세트에서 이를 확인할 수 있습니다. mtcars는 내장된 데이터 세트입니다. 다양한 종류의 자동차에 대한 정보를 수집합니다. mtcars를 사용하여 이를 가져오고 변수 mpg, 갤런당 마일의 클래스를 확인할 수 있습니다. 연속형 변수를 나타내는 숫자 값을 반환합니다.

dataset <- mtcars
class(dataset$mpg)

산출

## [1] "numeric"