R'deki Faktör: Kategorik Değişken ve Sürekli Değişkenler
R'deki Faktör Nedir?
R'deki faktör verileri kategorize etmek ve depolamak için kullanılan, sınırlı sayıda farklı değere sahip bir değişkendir. Verileri tam sayı değerlerinin bir vektörü olarak saklar. R'deki faktör aynı zamanda hem dize hem de tamsayı veri değerlerini düzeyler olarak saklayan kategorik bir değişken olarak da bilinir. Faktör çoğunlukla R ile İstatistiksel Modelleme ve keşfedici veri analizinde kullanılır.
Bir veri setinde iki tür değişkeni ayırt edebiliriz: kategorik ve sürekli.
- R'deki kategorik değişkenler için tanımlayıcı istatistiklerde değer sınırlıdır ve genellikle belirli bir sonlu gruba dayanır. Örneğin R'deki kategorik bir değişken ülkeler, yıl, cinsiyet, meslek olabilir.
- Ancak sürekli bir değişken tam sayıdan ondalık sayıya kadar herhangi bir değeri alabilir. Örneğin, bir hissenin geliri, fiyatı vb. bilgilerine sahip olabiliriz.
Kategorik değişkenler
Kategorik değişkenler R bir faktörde saklanır. R'de bir karakter değişkenini faktör değişkenine dönüştürmek için aşağıdaki kodu kontrol edelim. Makine öğrenimi algoritmasında karakterler desteklenmez ve tek yol, bir dizeyi bir tam sayıya dönüştürmektir.
Sözdizimi
factor(x = character(), levels, labels = levels, ordered = is.ordered(x))
argümanlar:
- x: R'deki kategorik verilerin bir vektörü. Ondalık sayı değil, dize veya tam sayı olması gerekir.
- Düzeyleri: X tarafından alınan olası değerlerin bir vektörü. Bu argüman isteğe bağlıdır. Varsayılan değer, x vektörünün öğelerinin benzersiz listesidir.
- Etiketler: R'deki x kategorik verisine bir etiket ekleyin. Örneğin 1 "erkek" etiketini alırken 0 "kadın" etiketini alabilir.
- düzenli: R'deki kategorik verilerde düzeylerin sıralanması gerekip gerekmediğini belirleyin.
Örnek:
Bir faktör veri çerçevesi oluşturalım.
# Create gender vector gender_vector <- c("Male", "Female", "Female", "Male", "Male") class(gender_vector) # Convert gender_vector to a factor factor_gender_vector <-factor(gender_vector) class(factor_gender_vector)
Çıktı:
## [1] "character" ## [1] "factor"
Bir dönüşümü dönüştürmek önemlidir dizi Makine Öğrenimi görevini gerçekleştirdiğimizde R'deki faktör değişkenine.
R'deki kategorik bir değişken şu şekilde ayrılabilir: nominal kategorik değişken ve sıralı kategorik değişken.
Nominal Kategorik Değişken
Kategorik bir değişkenin birden fazla değeri vardır ancak sıra önemli değildir. Mesela erkek veya kadın. R'deki kategorik değişkenlerin sıralaması yoktur.
# Create a color vector color_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow') # Convert the vector to factor factor_color <- factor(color_vector) factor_color
Çıktı:
## [1] blue red green white black yellow ## Levels: black blue green red white yellow
Factor_color'dan herhangi bir sırayı söyleyemeyiz.
Sıralı Kategorik Değişken
Sıralı kategorik değişkenlerin doğal bir sıralaması vardır. En düşükten en yükseğe doğru sıra = DOĞRU ve en yüksekten en düşüğe doğru sıra = YANLIŞ ile sıralamayı belirtebiliriz.
Örnek:
R'deki her faktör değişkeninin değerlerini saymak için özeti kullanabiliriz.
# Create Ordinal categorical vector day_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening') # Convert `day_vector` to a factor with ordered level factor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight')) # Print the new variable factor_day
Çıktı:
## [1] evening morning afternoon midday midnight evening
Örnek:
## Levels: morning < midday < afternoon < evening < midnight # Append the line to above code # Count the number of occurence of each level summary(factor_day)
Çıktı:
## morning midday afternoon evening midnight ## 1 1 1 2 1
R, seviye parantezinde belirtildiği gibi seviyeyi 'sabah'tan 'gece yarısına' kadar sıraladı.
Sürekli değişkenler
Sürekli sınıf değişkenleri R'de varsayılan değerdir. Sayısal veya tam sayı olarak saklanırlar. Bunu aşağıdaki veri setinden görebiliriz. mtcars yerleşik bir veri kümesidir. Farklı araba türleri hakkında bilgi toplar. Bunu mtcars kullanarak içe aktarabilir ve mpg değişkeninin sınıfını (mil başına galon) kontrol edebiliriz. Sürekli bir değişkeni belirten sayısal bir değer döndürür.
dataset <- mtcars class(dataset$mpg)
Çıktı
## [1] "numeric"