Fator em R: Variável Categórica e Variáveis Contínuas
O que é fator em R?
Fator em R é uma variável usada para categorizar e armazenar os dados, possuindo um número limitado de valores diferentes. Ele armazena os dados como um vetor de valores inteiros. O fator em R também é conhecido como uma variável categórica que armazena valores de dados de string e inteiros como níveis. O fator é usado principalmente em modelagem estatística e análise exploratória de dados com R.
Num conjunto de dados, podemos distinguir dois tipos de variáveis: categórico e contínuo.
- Nas estatísticas descritivas para variáveis categóricas em R, o valor é limitado e geralmente baseado em um determinado grupo finito. Por exemplo, uma variável categórica em R pode ser países, ano, sexo, ocupação.
- Uma variável contínua, entretanto, pode assumir qualquer valor, de inteiro a decimal. Por exemplo, podemos ter a receita, o preço de uma ação, etc.
Variáveis categóricas
Variáveis categóricas em R são armazenados em um fator. Vamos verificar o código abaixo para converter uma variável de caractere em uma variável de fator em R. Caracteres não são suportados no algoritmo de aprendizado de máquina e a única maneira é converter uma string em um número inteiro.
Sintaxe
factor(x = character(), levels, labels = levels, ordered = is.ordered(x))
Argumentos:
- x: Um vetor de dados categóricos em R. Precisa ser uma string ou número inteiro, não decimal.
- Níveis: Um vetor de valores possíveis obtidos por x. Este argumento é opcional. O valor padrão é a lista exclusiva de itens do vetor x.
- Rótulos: Adicione um rótulo aos dados categóricos x em R. Por exemplo, 1 pode receber o rótulo `masculino` enquanto 0, o rótulo `feminino`.
- ordenado: Determine se os níveis devem ser ordenados em dados categóricos em R.
Exemplo:
Vamos criar um quadro de dados de fator.
# Create gender vector gender_vector <- c("Male", "Female", "Female", "Male", "Male") class(gender_vector) # Convert gender_vector to a factor factor_gender_vector <-factor(gender_vector) class(factor_gender_vector)
Saída:
## [1] "character" ## [1] "factor"
É importante transformar um corda na variável de fator em R quando executamos a tarefa de aprendizado de máquina.
Uma variável categórica em R pode ser dividida em variável categórica nominal e variável categórica ordinal.
Variável Categórica Nominal
Uma variável categórica possui vários valores, mas a ordem não importa. Por exemplo, homem ou mulher. Variáveis categóricas em R não possuem ordenação.
# Create a color vector color_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow') # Convert the vector to factor factor_color <- factor(color_vector) factor_color
Saída:
## [1] blue red green white black yellow ## Levels: black blue green red white yellow
A partir do factor_color, não podemos identificar nenhuma ordem.
Variável categórica ordinal
Variáveis categóricas ordinais têm uma ordenação natural. Podemos especificar a ordem, do menor para o maior com pedido = TRUE e do maior para o menor com pedido = FALSE.
Exemplo:
Podemos usar resumo para contar os valores de cada variável de fator em R.
# Create Ordinal categorical vector day_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening') # Convert `day_vector` to a factor with ordered level factor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight')) # Print the new variable factor_day
Saída:
## [1] evening morning afternoon midday midnight evening
Exemplo:
## Levels: morning < midday < afternoon < evening < midnight # Append the line to above code # Count the number of occurence of each level summary(factor_day)
Saída:
## morning midday afternoon evening midnight ## 1 1 1 2 1
R ordenou o nível de 'manhã' a 'meia-noite' conforme especificado entre parênteses de níveis.
Variáveis Contínuas
Variáveis de classe contínuas são o valor padrão em R. Elas são armazenadas como numéricas ou inteiras. Podemos ver isso no conjunto de dados abaixo. mtcars é um conjunto de dados integrado. Reúne informações sobre diferentes tipos de automóveis. Podemos importá-lo usando mtcars e verificar a classe da variável mpg, milha por galão. Retorna um valor numérico, indicando uma variável contínua.
dataset <- mtcars class(dataset$mpg)
saída
## [1] "numeric"