Fator em R: Variável Categórica e Variáveis ​​Contínuas

O que é fator em R?

Fator em R é uma variável usada para categorizar e armazenar os dados, possuindo um número limitado de valores diferentes. Ele armazena os dados como um vetor de valores inteiros. O fator em R também é conhecido como uma variável categórica que armazena valores de dados de string e inteiros como níveis. O fator é usado principalmente em modelagem estatística e análise exploratória de dados com R.

Num conjunto de dados, podemos distinguir dois tipos de variáveis: categórico e contínuo.

  • Nas estatísticas descritivas para variáveis ​​categóricas em R, o valor é limitado e geralmente baseado em um determinado grupo finito. Por exemplo, uma variável categórica em R pode ser países, ano, sexo, ocupação.
  • Uma variável contínua, entretanto, pode assumir qualquer valor, de inteiro a decimal. Por exemplo, podemos ter a receita, o preço de uma ação, etc.

Variáveis ​​categóricas

Variáveis ​​​​categóricas em R são armazenados em um fator. Vamos verificar o código abaixo para converter uma variável de caractere em uma variável de fator em R. Caracteres não são suportados no algoritmo de aprendizado de máquina e a única maneira é converter uma string em um número inteiro.

Sintaxe

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

Argumentos:

  • x: Um vetor de dados categóricos em R. Precisa ser uma string ou número inteiro, não decimal.
  • Níveis: Um vetor de valores possíveis obtidos por x. Este argumento é opcional. O valor padrão é a lista exclusiva de itens do vetor x.
  • Rótulos: Adicione um rótulo aos dados categóricos x em R. Por exemplo, 1 pode receber o rótulo `masculino` enquanto 0, o rótulo `feminino`.
  • ordenado: Determine se os níveis devem ser ordenados em dados categóricos em R.

Exemplo:

Vamos criar um quadro de dados de fator.

# Create gender vector
gender_vector <- c("Male", "Female", "Female", "Male", "Male")
class(gender_vector)
# Convert gender_vector to a factor
factor_gender_vector <-factor(gender_vector)
class(factor_gender_vector)

Saída:

## [1] "character"
## [1] "factor"

É importante transformar um corda na variável de fator em R quando executamos a tarefa de aprendizado de máquina.

Uma variável categórica em R pode ser dividida em variável categórica nominal e variável categórica ordinal.

Variável Categórica Nominal

Uma variável categórica possui vários valores, mas a ordem não importa. Por exemplo, homem ou mulher. Variáveis ​​​​categóricas em R não possuem ordenação.

# Create a color vector
color_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')
# Convert the vector to factor
factor_color <- factor(color_vector)
factor_color

Saída:

## [1] blue   red    green  white  black  yellow
## Levels: black blue green red white yellow

A partir do factor_color, não podemos identificar nenhuma ordem.

Variável categórica ordinal

Variáveis ​​categóricas ordinais têm uma ordenação natural. Podemos especificar a ordem, do menor para o maior com pedido = TRUE e do maior para o menor com pedido = FALSE.

Exemplo:

Podemos usar resumo para contar os valores de cada variável de fator em R.

# Create Ordinal categorical vector 
day_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')
# Convert `day_vector` to a factor with ordered level
factor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))
# Print the new variable
factor_day

Saída:

## [1] evening   morning   afternoon midday    
midnight  evening

Exemplo:

## Levels: morning < midday < afternoon < evening < midnight
# Append the line to above code
# Count the number of occurence of each level
summary(factor_day)

Saída:

##   morning    midday afternoon   evening  midnight
##         1         1         1         2         1

R ordenou o nível de 'manhã' a 'meia-noite' conforme especificado entre parênteses de níveis.

Variáveis ​​Contínuas

Variáveis ​​de classe contínuas são o valor padrão em R. Elas são armazenadas como numéricas ou inteiras. Podemos ver isso no conjunto de dados abaixo. mtcars é um conjunto de dados integrado. Reúne informações sobre diferentes tipos de automóveis. Podemos importá-lo usando mtcars e verificar a classe da variável mpg, milha por galão. Retorna um valor numérico, indicando uma variável contínua.

dataset <- mtcars
class(dataset$mpg)

saída

## [1] "numeric"

Boletim informativo diário Guru99

Comece o seu dia com as últimas e mais importantes notícias sobre IA entregues agora mesmo.