Фактор R: категориальная переменная и непрерывные переменные

Что такое фактор в R?

Коэффициент R — это переменная, используемая для категоризации и хранения данных, имеющая ограниченное количество различных значений. Он хранит данные как вектор целочисленных значений. Фактор в R также известен как категориальная переменная, которая хранит как строковые, так и целочисленные значения данных в виде уровней. Фактор в основном используется в статистическом моделировании и исследовательском анализе данных с помощью R.

В наборе данных мы можем выделить два типа переменных: категорический и (CIJ).

  • В описательной статистике категориальных переменных в R значение ограничено и обычно основано на конкретной конечной группе. Например, категориальной переменной в R могут быть страна, год, пол, род занятий.
  • Однако непрерывная переменная может принимать любые значения, от целых до десятичных. Например, мы можем указать выручку, цену акции и т. д.

Категориальные переменные

Категориальные переменные в R сохраняются в факторе. Давайте проверим приведенный ниже код, чтобы преобразовать символьную переменную в факторную переменную в R. Символы не поддерживаются в алгоритме машинного обучения, и единственный способ — преобразовать строку в целое число.

Синтаксис

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

Аргументы:

  • x: вектор категориальных данных в R. Должен быть строкой или целым числом, а не десятичным числом.
  • Уровни: вектор возможных значений, взятый x. Этот аргумент является необязательным. Значением по умолчанию является уникальный список элементов вектора x.
  • Метки: добавьте метку к категориальным данным x в R. Например, 1 может иметь метку «мужской», а 0 — метку «женский».
  • приказал: Определите, следует ли упорядочивать уровни в категориальных данных в R.

Это критически важно для анализа и выбора наиболее эффективных ключевых слов для улучшения рейтинга вашего сайта.

Давайте создадим фрейм данных фактора.

# Create gender vector
gender_vector <- c("Male", "Female", "Female", "Male", "Male")
class(gender_vector)
# Convert gender_vector to a factor
factor_gender_vector <-factor(gender_vector)
class(factor_gender_vector)

Вывод:

## [1] "character"
## [1] "factor"

Важно преобразовать string в факторную переменную в R, когда мы выполняем задачу машинного обучения.

Категориальную переменную в R можно разделить на номинальная категориальная переменная и порядковая категориальная переменная.

Номинальная категориальная переменная

Категориальная переменная имеет несколько значений, но порядок не имеет значения. Например, мужской или женский. Категориальные переменные в R не имеют порядка.

# Create a color vector
color_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')
# Convert the vector to factor
factor_color <- factor(color_vector)
factor_color

Вывод:

## [1] blue   red    green  white  black  yellow
## Levels: black blue green red white yellow

По фактору_color мы не можем определить какой-либо порядок.

Порядковая категориальная переменная

Порядковые категориальные переменные имеют естественный порядок. Мы можем указать порядок: от самого низкого к высшему с помощью order = TRUE и от самого высокого к самому низкому с помощью order = FALSE.

Это критически важно для анализа и выбора наиболее эффективных ключевых слов для улучшения рейтинга вашего сайта.

Мы можем использовать сводку для подсчета значений для каждой факторной переменной в R.

# Create Ordinal categorical vector 
day_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')
# Convert `day_vector` to a factor with ordered level
factor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))
# Print the new variable
factor_day

Вывод:

## [1] evening   morning   afternoon midday    
midnight  evening

Это критически важно для анализа и выбора наиболее эффективных ключевых слов для улучшения рейтинга вашего сайта.

## Levels: morning < midday < afternoon < evening < midnight
# Append the line to above code
# Count the number of occurence of each level
summary(factor_day)

Вывод:

##   morning    midday afternoon   evening  midnight
##         1         1         1         2         1

R расположил уровень от «утра» до «полночи», как указано в скобках «Уровни».

Непрерывные переменные

Переменные непрерывного класса являются значениями по умолчанию в R. Они хранятся в числовом или целочисленном виде. Мы можем видеть это из набора данных ниже. mtcars — это встроенный набор данных. Он собирает информацию о различных типах автомобилей. Мы можем импортировать его с помощью mtcars и проверить класс переменной mpg, миль на галлон. Он возвращает числовое значение, указывающее на непрерывную переменную.

dataset <- mtcars
class(dataset$mpg)

Результат

## [1] "numeric"