Фактор R: категориальная переменная и непрерывные переменные
Что такое фактор в R?
Коэффициент R — это переменная, используемая для категоризации и хранения данных, имеющая ограниченное количество различных значений. Он хранит данные как вектор целочисленных значений. Фактор в R также известен как категориальная переменная, которая хранит как строковые, так и целочисленные значения данных в виде уровней. Фактор в основном используется в статистическом моделировании и исследовательском анализе данных с помощью R.
В наборе данных мы можем выделить два типа переменных: категорический и (CIJ).
- В описательной статистике категориальных переменных в R значение ограничено и обычно основано на конкретной конечной группе. Например, категориальной переменной в R могут быть страна, год, пол, род занятий.
- Однако непрерывная переменная может принимать любые значения, от целых до десятичных. Например, мы можем указать выручку, цену акции и т. д.
Категориальные переменные
Категориальные переменные в R сохраняются в факторе. Давайте проверим приведенный ниже код, чтобы преобразовать символьную переменную в факторную переменную в R. Символы не поддерживаются в алгоритме машинного обучения, и единственный способ — преобразовать строку в целое число.
Синтаксис
factor(x = character(), levels, labels = levels, ordered = is.ordered(x))
Аргументы:
- x: вектор категориальных данных в R. Должен быть строкой или целым числом, а не десятичным числом.
- Уровни: вектор возможных значений, взятый x. Этот аргумент является необязательным. Значением по умолчанию является уникальный список элементов вектора x.
- Метки: добавьте метку к категориальным данным x в R. Например, 1 может иметь метку «мужской», а 0 — метку «женский».
- приказал: Определите, следует ли упорядочивать уровни в категориальных данных в R.
Это критически важно для анализа и выбора наиболее эффективных ключевых слов для улучшения рейтинга вашего сайта.
Давайте создадим фрейм данных фактора.
# Create gender vector gender_vector <- c("Male", "Female", "Female", "Male", "Male") class(gender_vector) # Convert gender_vector to a factor factor_gender_vector <-factor(gender_vector) class(factor_gender_vector)
Вывод:
## [1] "character" ## [1] "factor"
Важно преобразовать string в факторную переменную в R, когда мы выполняем задачу машинного обучения.
Категориальную переменную в R можно разделить на номинальная категориальная переменная и порядковая категориальная переменная.
Номинальная категориальная переменная
Категориальная переменная имеет несколько значений, но порядок не имеет значения. Например, мужской или женский. Категориальные переменные в R не имеют порядка.
# Create a color vector color_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow') # Convert the vector to factor factor_color <- factor(color_vector) factor_color
Вывод:
## [1] blue red green white black yellow ## Levels: black blue green red white yellow
По фактору_color мы не можем определить какой-либо порядок.
Порядковая категориальная переменная
Порядковые категориальные переменные имеют естественный порядок. Мы можем указать порядок: от самого низкого к высшему с помощью order = TRUE и от самого высокого к самому низкому с помощью order = FALSE.
Это критически важно для анализа и выбора наиболее эффективных ключевых слов для улучшения рейтинга вашего сайта.
Мы можем использовать сводку для подсчета значений для каждой факторной переменной в R.
# Create Ordinal categorical vector day_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening') # Convert `day_vector` to a factor with ordered level factor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight')) # Print the new variable factor_day
Вывод:
## [1] evening morning afternoon midday midnight evening
Это критически важно для анализа и выбора наиболее эффективных ключевых слов для улучшения рейтинга вашего сайта.
## Levels: morning < midday < afternoon < evening < midnight # Append the line to above code # Count the number of occurence of each level summary(factor_day)
Вывод:
## morning midday afternoon evening midnight ## 1 1 1 2 1
R расположил уровень от «утра» до «полночи», как указано в скобках «Уровни».
Непрерывные переменные
Переменные непрерывного класса являются значениями по умолчанию в R. Они хранятся в числовом или целочисленном виде. Мы можем видеть это из набора данных ниже. mtcars — это встроенный набор данных. Он собирает информацию о различных типах автомобилей. Мы можем импортировать его с помощью mtcars и проверить класс переменной mpg, миль на галлон. Он возвращает числовое значение, указывающее на непрерывную переменную.
dataset <- mtcars class(dataset$mpg)
Результат
## [1] "numeric"