Faktor dalam R: Variabel Kategorikal & Variabel Kontinu
Apa itu Faktor dalam R?
Faktorkan dalam R adalah variabel yang digunakan untuk mengkategorikan dan menyimpan data, yang memiliki sejumlah nilai berbeda. Ini menyimpan data sebagai vektor nilai integer. Faktor dalam R juga dikenal sebagai variabel kategori yang menyimpan nilai data string dan integer sebagai level. Faktor banyak digunakan dalam Pemodelan Statistik dan analisis data eksplorasi dengan R.
Dalam sebuah dataset, kita dapat membedakan dua jenis variabel: kategorikal dan kontinu.
- Dalam statistik deskriptif untuk variabel kategori dalam R, nilainya terbatas dan biasanya didasarkan pada kelompok terbatas tertentu. Misalnya, variabel kategori dalam R dapat berupa negara, tahun, jenis kelamin, pekerjaan.
- Namun, variabel kontinu dapat mengambil nilai apa pun, dari bilangan bulat hingga desimal. Misalnya, kita dapat mengetahui pendapatan, harga saham, dll.
Variabel Kategoris
Variabel kategori di R disimpan ke dalam sebuah faktor. Mari kita periksa kode di bawah ini untuk mengubah variabel karakter menjadi variabel faktor di R. Karakter tidak didukung dalam algoritme pembelajaran mesin, dan satu-satunya cara adalah dengan mengonversi string menjadi bilangan bulat.
Sintaksis
factor(x = character(), levels, labels = levels, ordered = is.ordered(x))
Argumen:
- x: Vektor data kategorikal dalam R. Harus berupa string atau bilangan bulat, bukan desimal.
- tingkat: Vektor dari nilai yang mungkin diambil oleh x. Argumen ini bersifat opsional. Nilai defaultnya adalah daftar unik item vektor x.
- Label: Tambahkan label ke data kategori x di R. Misalnya, 1 dapat mengambil label `male` sedangkan 0, label `female`.
- dipesan: Tentukan apakah level harus diurutkan dalam data kategorikal di R.
Contoh:
Mari kita membuat kerangka data faktor.
# Create gender vector gender_vector <- c("Male", "Female", "Female", "Male", "Male") class(gender_vector) # Convert gender_vector to a factor factor_gender_vector <-factor(gender_vector) class(factor_gender_vector)
Keluaran:
## [1] "character" ## [1] "factor"
Penting untuk melakukan transformasi a string menjadi variabel faktor di R saat kita melakukan tugas Machine Learning.
Variabel kategori dalam R dapat dibagi menjadi variabel kategori nominal dan variabel kategoris ordinal.
Variabel Kategorikal Nominal
Variabel kategorikal mempunyai beberapa nilai tetapi urutannya tidak menjadi masalah. Misalnya, laki-laki atau perempuan. Variabel kategori di R tidak memiliki urutan.
# Create a color vector color_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow') # Convert the vector to factor factor_color <- factor(color_vector) factor_color
Keluaran:
## [1] blue red green white black yellow ## Levels: black blue green red white yellow
Dari faktor_warna, kami tidak dapat membedakan pesanan apa pun.
Variabel Kategori Ordinal
Variabel kategori ordinal memang memiliki keteraturan alami. Kita dapat menentukan urutannya, dari yang terendah sampai yang tertinggi dengan urutan = TRUE dan yang tertinggi sampai yang terendah dengan urutan = FALSE.
Contoh:
Kita dapat menggunakan ringkasan untuk menghitung nilai setiap variabel faktor di R.
# Create Ordinal categorical vector day_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening') # Convert `day_vector` to a factor with ordered level factor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight')) # Print the new variable factor_day
Keluaran:
## [1] evening morning afternoon midday midnight evening
Contoh:
## Levels: morning < midday < afternoon < evening < midnight # Append the line to above code # Count the number of occurence of each level summary(factor_day)
Keluaran:
## morning midday afternoon evening midnight ## 1 1 1 2 1
R mengurutkan level dari 'pagi' hingga 'tengah malam' seperti yang ditentukan dalam tanda kurung level.
Variabel Kontinu
Variabel kelas kontinu adalah nilai default di R. Variabel tersebut disimpan sebagai numerik atau bilangan bulat. Kita bisa melihatnya dari dataset di bawah ini. mtcars adalah kumpulan data bawaan. Ini mengumpulkan informasi tentang berbagai jenis mobil. Kita dapat mengimpornya dengan menggunakan mtcars dan memeriksa kelas variabel mpg, mil per galon. Ini mengembalikan nilai numerik, yang menunjukkan variabel kontinu.
dataset <- mtcars class(dataset$mpg)
Keluaran
## [1] "numeric"