R의 요인: 범주형 변수 및 연속형 변수
R의 Factor란 무엇인가요?
R의 요인 제한된 수의 서로 다른 값을 갖는 데이터를 분류하고 저장하는 데 사용되는 변수입니다. 데이터를 정수 값의 벡터로 저장합니다. R의 Factor는 문자열과 정수 데이터 값을 모두 수준으로 저장하는 범주형 변수라고도 합니다. Factor는 주로 R을 사용한 통계 모델링 및 탐색적 데이터 분석에 사용됩니다.
데이터 세트에서는 두 가지 유형의 변수를 구분할 수 있습니다. 범주 형 and 끊임없는.
- R의 범주형 변수에 대한 기술 통계에서 값은 제한되며 일반적으로 특정 유한 그룹을 기반으로 합니다. 예를 들어 R의 범주형 변수는 국가, 연도, 성별, 직업이 될 수 있습니다.
- 그러나 연속형 변수는 정수에서 십진수까지 어떤 값이든 가질 수 있습니다. 예를 들어 수익, 주식 가격 등을 알 수 있습니다.
범주형 변수
범주형 변수 R 팩터로 저장됩니다. R에서 문자변수를 요인변수로 변환하는 방법은 아래 코드를 확인해보겠습니다. 기계학습 알고리즘에서는 문자를 지원하지 않으며, 문자열을 정수로 변환하는 방법밖에 없습니다.
통사론
factor(x = character(), levels, labels = levels, ordered = is.ordered(x))
인수 :
- x: R의 범주형 데이터 벡터입니다. 소수가 아닌 문자열 또는 정수여야 합니다.
- 레벨: x가 취하는 가능한 값의 벡터입니다. 이 인수는 선택 사항입니다. 기본값은 벡터 x의 고유한 항목 목록입니다.
- 레이블: R의 x 범주형 데이터에 라벨을 추가합니다. 예를 들어 1은 '남성' 라벨을 사용할 수 있고 0은 '여성' 라벨을 사용할 수 있습니다.
- 주문한: R의 범주형 데이터에서 수준을 정렬해야 하는지 결정합니다.
예:
팩터 데이터 프레임을 만들어 보겠습니다.
# Create gender vector gender_vector <- c("Male", "Female", "Female", "Male", "Male") class(gender_vector) # Convert gender_vector to a factor factor_gender_vector <-factor(gender_vector) class(factor_gender_vector)
출력:
## [1] "character" ## [1] "factor"
변화시키는 것이 중요하다 현 Machine Learning 작업을 수행할 때 R의 요인 변수로 변환됩니다.
R의 범주형 변수는 다음과 같이 나눌 수 있습니다. 명목형 범주형 변수 and 순서 범주형 변수.
명목형 범주형 변수
범주형 변수에는 여러 값이 있지만 순서는 중요하지 않습니다. 예를 들어, 남성 또는 여성. R의 범주형 변수에는 순서가 없습니다.
# Create a color vector color_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow') # Convert the vector to factor factor_color <- factor(color_vector) factor_color
출력:
## [1] blue red green white black yellow ## Levels: black blue green red white yellow
Factor_color에서는 순서를 알 수 없습니다.
순서형 범주형 변수
순서형 범주형 변수에는 자연스러운 순서가 있습니다. order = TRUE인 경우 가장 낮은 것부터 가장 높은 것까지, order = FALSE인 경우 가장 높은 것부터 낮은 것까지 순서를 지정할 수 있습니다.
예:
요약을 사용하여 R의 각 요인 변수에 대한 값을 계산할 수 있습니다.
# Create Ordinal categorical vector day_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening') # Convert `day_vector` to a factor with ordered level factor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight')) # Print the new variable factor_day
출력:
## [1] evening morning afternoon midday midnight evening
예:
## Levels: morning < midday < afternoon < evening < midnight # Append the line to above code # Count the number of occurence of each level summary(factor_day)
출력:
## morning midday afternoon evening midnight ## 1 1 1 2 1
R은 레벨 괄호에 지정된 대로 '아침'부터 '자정'까지 레벨을 정렬했습니다.
연속변수
연속 클래스 변수는 R의 기본값입니다. 숫자 또는 정수로 저장됩니다. 아래 데이터 세트에서 이를 확인할 수 있습니다. mtcars는 내장된 데이터 세트입니다. 다양한 종류의 자동차에 대한 정보를 수집합니다. mtcars를 사용하여 이를 가져오고 변수 mpg, 갤런당 마일의 클래스를 확인할 수 있습니다. 연속형 변수를 나타내는 숫자 값을 반환합니다.
dataset <- mtcars class(dataset$mpg)
산출
## [1] "numeric"