R'deki Faktör: Kategorik Değişken ve Sürekli Değişkenler

R'deki Faktör Nedir?

R'deki faktör verileri kategorize etmek ve depolamak için kullanılan, sınırlı sayıda farklı değere sahip bir değişkendir. Verileri tam sayı değerlerinin bir vektörü olarak saklar. R'deki faktör aynı zamanda hem dize hem de tamsayı veri değerlerini düzeyler olarak saklayan kategorik bir değişken olarak da bilinir. Faktör çoğunlukla R ile İstatistiksel Modelleme ve keşfedici veri analizinde kullanılır.

Bir veri setinde iki tür değişkeni ayırt edebiliriz: kategorik ve sürekli.

  • R'deki kategorik değişkenler için tanımlayıcı istatistiklerde değer sınırlıdır ve genellikle belirli bir sonlu gruba dayanır. Örneğin R'deki kategorik bir değişken ülkeler, yıl, cinsiyet, meslek olabilir.
  • Ancak sürekli bir değişken tam sayıdan ondalık sayıya kadar herhangi bir değeri alabilir. Örneğin, bir hissenin geliri, fiyatı vb. bilgilerine sahip olabiliriz.

Kategorik değişkenler

Kategorik değişkenler R bir faktörde saklanır. R'de bir karakter değişkenini faktör değişkenine dönüştürmek için aşağıdaki kodu kontrol edelim. Makine öğrenimi algoritmasında karakterler desteklenmez ve tek yol, bir dizeyi bir tam sayıya dönüştürmektir.

Sözdizimi

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

argümanlar:

  • x: R'deki kategorik verilerin bir vektörü. Ondalık sayı değil, dize veya tam sayı olması gerekir.
  • Düzeyleri: X tarafından alınan olası değerlerin bir vektörü. Bu argüman isteğe bağlıdır. Varsayılan değer, x vektörünün öğelerinin benzersiz listesidir.
  • Etiketler: R'deki x kategorik verisine bir etiket ekleyin. Örneğin 1 "erkek" etiketini alırken 0 "kadın" etiketini alabilir.
  • düzenli: R'deki kategorik verilerde düzeylerin sıralanması gerekip gerekmediğini belirleyin.

Örnek:

Bir faktör veri çerçevesi oluşturalım.

# Create gender vector
gender_vector <- c("Male", "Female", "Female", "Male", "Male")
class(gender_vector)
# Convert gender_vector to a factor
factor_gender_vector <-factor(gender_vector)
class(factor_gender_vector)

Çıktı:

## [1] "character"
## [1] "factor"

Bir dönüşümü dönüştürmek önemlidir dizi Makine Öğrenimi görevini gerçekleştirdiğimizde R'deki faktör değişkenine.

R'deki kategorik bir değişken şu şekilde ayrılabilir: nominal kategorik değişken ve sıralı kategorik değişken.

Nominal Kategorik Değişken

Kategorik bir değişkenin birden fazla değeri vardır ancak sıra önemli değildir. Mesela erkek veya kadın. R'deki kategorik değişkenlerin sıralaması yoktur.

# Create a color vector
color_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')
# Convert the vector to factor
factor_color <- factor(color_vector)
factor_color

Çıktı:

## [1] blue   red    green  white  black  yellow
## Levels: black blue green red white yellow

Factor_color'dan herhangi bir sırayı söyleyemeyiz.

Sıralı Kategorik Değişken

Sıralı kategorik değişkenlerin doğal bir sıralaması vardır. En düşükten en yükseğe doğru sıra = DOĞRU ve en yüksekten en düşüğe doğru sıra = YANLIŞ ile sıralamayı belirtebiliriz.

Örnek:

R'deki her faktör değişkeninin değerlerini saymak için özeti kullanabiliriz.

# Create Ordinal categorical vector 
day_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')
# Convert `day_vector` to a factor with ordered level
factor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))
# Print the new variable
factor_day

Çıktı:

## [1] evening   morning   afternoon midday    
midnight  evening

Örnek:

## Levels: morning < midday < afternoon < evening < midnight
# Append the line to above code
# Count the number of occurence of each level
summary(factor_day)

Çıktı:

##   morning    midday afternoon   evening  midnight
##         1         1         1         2         1

R, seviye parantezinde belirtildiği gibi seviyeyi 'sabah'tan 'gece yarısına' kadar sıraladı.

Sürekli değişkenler

Sürekli sınıf değişkenleri R'de varsayılan değerdir. Sayısal veya tam sayı olarak saklanırlar. Bunu aşağıdaki veri setinden görebiliriz. mtcars yerleşik bir veri kümesidir. Farklı araba türleri hakkında bilgi toplar. Bunu mtcars kullanarak içe aktarabilir ve mpg değişkeninin sınıfını (mil başına galon) kontrol edebiliriz. Sürekli bir değişkeni belirten sayısal bir değer döndürür.

dataset <- mtcars
class(dataset$mpg)

Çıktı

## [1] "numeric"