Faktor dalam R: Variabel Kategorikal & Variabel Kontinu

Apa itu Faktor dalam R?

Faktorkan dalam R adalah variabel yang digunakan untuk mengkategorikan dan menyimpan data, yang memiliki sejumlah nilai berbeda. Ini menyimpan data sebagai vektor nilai integer. Faktor dalam R juga dikenal sebagai variabel kategori yang menyimpan nilai data string dan integer sebagai level. Faktor banyak digunakan dalam Pemodelan Statistik dan analisis data eksplorasi dengan R.

Dalam sebuah dataset, kita dapat membedakan dua jenis variabel: kategorikal dan kontinu.

  • Dalam statistik deskriptif untuk variabel kategori dalam R, nilainya terbatas dan biasanya didasarkan pada kelompok terbatas tertentu. Misalnya, variabel kategori dalam R dapat berupa negara, tahun, jenis kelamin, pekerjaan.
  • Namun, variabel kontinu dapat mengambil nilai apa pun, dari bilangan bulat hingga desimal. Misalnya, kita dapat mengetahui pendapatan, harga saham, dll.

Variabel Kategoris

Variabel kategori di R disimpan ke dalam sebuah faktor. Mari kita periksa kode di bawah ini untuk mengubah variabel karakter menjadi variabel faktor di R. Karakter tidak didukung dalam algoritme pembelajaran mesin, dan satu-satunya cara adalah dengan mengonversi string menjadi bilangan bulat.

Sintaksis

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

Argumen:

  • x: Vektor data kategorikal dalam R. Harus berupa string atau bilangan bulat, bukan desimal.
  • tingkat: Vektor dari nilai yang mungkin diambil oleh x. Argumen ini bersifat opsional. Nilai defaultnya adalah daftar unik item vektor x.
  • Label: Tambahkan label ke data kategori x di R. Misalnya, 1 dapat mengambil label `male` sedangkan 0, label `female`.
  • dipesan: Tentukan apakah level harus diurutkan dalam data kategorikal di R.

Contoh:

Mari kita membuat kerangka data faktor.

# Create gender vector
gender_vector <- c("Male", "Female", "Female", "Male", "Male")
class(gender_vector)
# Convert gender_vector to a factor
factor_gender_vector <-factor(gender_vector)
class(factor_gender_vector)

Keluaran:

## [1] "character"
## [1] "factor"

Penting untuk melakukan transformasi a string menjadi variabel faktor di R saat kita melakukan tugas Machine Learning.

Variabel kategori dalam R dapat dibagi menjadi variabel kategori nominal dan variabel kategoris ordinal.

Variabel Kategorikal Nominal

Variabel kategorikal mempunyai beberapa nilai tetapi urutannya tidak menjadi masalah. Misalnya, laki-laki atau perempuan. Variabel kategori di R tidak memiliki urutan.

# Create a color vector
color_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')
# Convert the vector to factor
factor_color <- factor(color_vector)
factor_color

Keluaran:

## [1] blue   red    green  white  black  yellow
## Levels: black blue green red white yellow

Dari faktor_warna, kami tidak dapat membedakan pesanan apa pun.

Variabel Kategori Ordinal

Variabel kategori ordinal memang memiliki keteraturan alami. Kita dapat menentukan urutannya, dari yang terendah sampai yang tertinggi dengan urutan = TRUE dan yang tertinggi sampai yang terendah dengan urutan = FALSE.

Contoh:

Kita dapat menggunakan ringkasan untuk menghitung nilai setiap variabel faktor di R.

# Create Ordinal categorical vector 
day_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')
# Convert `day_vector` to a factor with ordered level
factor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))
# Print the new variable
factor_day

Keluaran:

## [1] evening   morning   afternoon midday    
midnight  evening

Contoh:

## Levels: morning < midday < afternoon < evening < midnight
# Append the line to above code
# Count the number of occurence of each level
summary(factor_day)

Keluaran:

##   morning    midday afternoon   evening  midnight
##         1         1         1         2         1

R mengurutkan level dari 'pagi' hingga 'tengah malam' seperti yang ditentukan dalam tanda kurung level.

Variabel Kontinu

Variabel kelas kontinu adalah nilai default di R. Variabel tersebut disimpan sebagai numerik atau bilangan bulat. Kita bisa melihatnya dari dataset di bawah ini. mtcars adalah kumpulan data bawaan. Ini mengumpulkan informasi tentang berbagai jenis mobil. Kita dapat mengimpornya dengan menggunakan mtcars dan memeriksa kelas variabel mpg, mil per galon. Ini mengembalikan nilai numerik, yang menunjukkan variabel kontinu.

dataset <- mtcars
class(dataset$mpg)

Keluaran

## [1] "numeric"