Hệ số trong R: Biến phân loại & Biến liên tục
Yếu tố trong R là gì?
Hệ số trong R là một biến được sử dụng để phân loại và lưu trữ dữ liệu, có số lượng giới hạn các giá trị khác nhau. Nó lưu trữ dữ liệu dưới dạng một vectơ có giá trị nguyên. Yếu tố trong R còn được gọi là biến phân loại lưu trữ cả giá trị dữ liệu chuỗi và số nguyên dưới dạng cấp độ. Yếu tố chủ yếu được sử dụng trong Mô hình thống kê và phân tích dữ liệu khám phá với R.
Trong tập dữ liệu, chúng ta có thể phân biệt hai loại biến: phân loại và liên tục.
- Trong thống kê mô tả cho các biến phân loại trong R, giá trị bị giới hạn và thường dựa trên một nhóm hữu hạn cụ thể. Ví dụ: một biến phân loại trong R có thể là quốc gia, năm, giới tính, nghề nghiệp.
- Tuy nhiên, một biến liên tục có thể nhận bất kỳ giá trị nào, từ số nguyên đến số thập phân. Ví dụ: chúng ta có thể có doanh thu, giá cổ phiếu, v.v.
Các biến phân loại
Các biến phân loại trong R được lưu trữ vào một yếu tố. Hãy kiểm tra mã bên dưới để chuyển đổi một biến ký tự thành biến nhân tố trong R. Các ký tự không được hỗ trợ trong thuật toán học máy và cách duy nhất là chuyển đổi một chuỗi thành số nguyên.
cú pháp
factor(x = character(), levels, labels = levels, ordered = is.ordered(x))
đối số:
- x: Vectơ dữ liệu phân loại trong R. Cần phải là chuỗi hoặc số nguyên, không phải số thập phân.
- Levels: Một vectơ các giá trị có thể được lấy bởi x. Đối số này là tùy chọn. Giá trị mặc định là danh sách các mục duy nhất của vectơ x.
- Nhãn: Thêm nhãn vào dữ liệu phân loại x trong R. Ví dụ: 1 có thể lấy nhãn `nam` trong khi 0, nhãn `nữ`.
- đặt hàng: Xác định xem các mức có nên được sắp xếp trong dữ liệu phân loại trong R hay không.
Ví dụ:
Hãy tạo một khung dữ liệu yếu tố.
# Create gender vector gender_vector <- c("Male", "Female", "Female", "Male", "Male") class(gender_vector) # Convert gender_vector to a factor factor_gender_vector <-factor(gender_vector) class(factor_gender_vector)
Đầu ra:
## [1] "character" ## [1] "factor"
Điều quan trọng là phải biến đổi một chuỗi thành biến nhân tố trong R khi chúng ta thực hiện tác vụ Machine Learning.
Một biến phân loại trong R có thể được chia thành biến phân loại danh nghĩa và biến phân loại thứ tự.
Biến phân loại danh nghĩa
Một biến phân loại có nhiều giá trị nhưng thứ tự không quan trọng. Ví dụ như nam hay nữ. Các biến phân loại trong R không có thứ tự.
# Create a color vector color_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow') # Convert the vector to factor factor_color <- factor(color_vector) factor_color
Đầu ra:
## [1] blue red green white black yellow ## Levels: black blue green red white yellow
Từ yếu tố_color, chúng tôi không thể xác định thứ tự nào.
Biến phân loại thứ tự
Các biến phân loại thứ tự có thứ tự tự nhiên. Chúng ta có thể chỉ định thứ tự, từ thấp nhất đến cao nhất với order = TRUE và cao nhất đến thấp nhất với order = FALSE.
Ví dụ:
Chúng ta có thể sử dụng tóm tắt để đếm các giá trị cho từng biến yếu tố trong R.
# Create Ordinal categorical vector day_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening') # Convert `day_vector` to a factor with ordered level factor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight')) # Print the new variable factor_day
Đầu ra:
## [1] evening morning afternoon midday midnight evening
Ví dụ:
## Levels: morning < midday < afternoon < evening < midnight # Append the line to above code # Count the number of occurence of each level summary(factor_day)
Đầu ra:
## morning midday afternoon evening midnight ## 1 1 1 2 1
R sắp xếp cấp độ từ 'sáng' đến 'nửa đêm' như được chỉ định trong dấu ngoặc đơn của cấp độ.
Biến liên tục
Các biến lớp liên tục là giá trị mặc định trong R. Chúng được lưu trữ dưới dạng số hoặc số nguyên. Chúng ta có thể thấy nó từ tập dữ liệu dưới đây. mtcars là một tập dữ liệu tích hợp. Nó thu thập thông tin về các loại xe khác nhau. Chúng ta có thể nhập nó bằng cách sử dụng mtcars và kiểm tra loại của biến mpg, dặm trên gallon. Nó trả về một giá trị số, biểu thị một biến liên tục.
dataset <- mtcars class(dataset$mpg)
Đầu ra
## [1] "numeric"