Współczynnik R: zmienna kategoryczna i zmienne ciągłe
Co to jest współczynnik w R?
Czynnik w R to zmienna służąca do kategoryzowania i przechowywania danych, posiadająca ograniczoną liczbę różnych wartości. Przechowuje dane jako wektor wartości całkowitych. Współczynnik w R jest również znany jako zmienna jakościowa, która przechowuje wartości danych w postaci ciągów znaków i liczb całkowitych jako poziomy. Czynnik jest najczęściej używany w modelowaniu statystycznym i eksploracyjnej analizie danych za pomocą R.
W zbiorze danych możemy wyróżnić dwa typy zmiennych: kategoryczny i ciągły.
- W statystyce opisowej zmiennych kategorycznych w R wartość jest ograniczona i zwykle opiera się na określonej skończonej grupie. Na przykład zmienną kategoryczną w R mogą być kraje, rok, płeć, zawód.
- Zmienna ciągła może jednak przyjmować dowolne wartości, od liczby całkowitej do dziesiętnej. Na przykład możemy mieć przychód, cenę akcji itp.
Zmienne kategorialne
Zmienne kategoryczne w R są przechowywane w czynniku. Sprawdźmy poniższy kod, aby przekonwertować zmienną znakową na zmienną czynnikową w języku R. Znaki nie są obsługiwane w algorytmie uczenia maszynowego i jedynym sposobem jest konwersja ciągu znaków na liczbę całkowitą.
Składnia
factor(x = character(), levels, labels = levels, ordered = is.ordered(x))
argumenty:
- x: wektor danych kategorycznych w R. Musi być ciągiem znaków lub liczbą całkowitą, a nie dziesiętną.
- Poziomy: Wektor możliwych wartości przyjętych przez x. Ten argument jest opcjonalny. Wartość domyślna to unikalna lista elementów wektora x.
- Etykiety: Dodaj etykietę do danych kategorycznych x w R. Na przykład 1 może przyjąć etykietę „mężczyzna”, a 0 – etykietę „kobieta”.
- zamówiony: Określ, czy poziomy powinny być uporządkowane w danych kategorycznych w R.
Przykład:
Stwórzmy ramkę danych czynnikowych.
# Create gender vector gender_vector <- c("Male", "Female", "Female", "Male", "Male") class(gender_vector) # Convert gender_vector to a factor factor_gender_vector <-factor(gender_vector) class(factor_gender_vector)
Wyjście:
## [1] "character" ## [1] "factor"
Ważne jest, aby przekształcić a ciąg na zmienną czynnikową w R, gdy wykonujemy zadanie uczenia maszynowego.
Zmienną kategoryczną w R można podzielić na nominalna zmienna kategoryczna i porządkowa zmienna kategoryczna.
Nominalna zmienna kategoryczna
Zmienna kategoryczna ma kilka wartości, ale kolejność nie ma znaczenia. Na przykład mężczyzna lub kobieta. Zmienne kategoryczne w R nie mają uporządkowania.
# Create a color vector color_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow') # Convert the vector to factor factor_color <- factor(color_vector) factor_color
Wyjście:
## [1] blue red green white black yellow ## Levels: black blue green red white yellow
Na podstawie współczynnika color_color nie możemy określić żadnej kolejności.
Porządkowa zmienna kategoryczna
Porządkowe zmienne kategoryczne mają naturalny porządek. Możemy określić kolejność, od najniższej do najwyższej w przypadku zamówienia = TRUE i najwyższej do najniższej w przypadku zamówienia = FALSE.
Przykład:
Możemy użyć podsumowania, aby policzyć wartości każdej zmiennej czynnikowej w R.
# Create Ordinal categorical vector day_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening') # Convert `day_vector` to a factor with ordered level factor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight')) # Print the new variable factor_day
Wyjście:
## [1] evening morning afternoon midday midnight evening
Przykład:
## Levels: morning < midday < afternoon < evening < midnight # Append the line to above code # Count the number of occurence of each level summary(factor_day)
Wyjście:
## morning midday afternoon evening midnight ## 1 1 1 2 1
R uporządkował poziom od „rana” do „północy”, jak określono w nawiasach poziomów.
Zmienne ciągłe
Zmienne klasy ciągłej są wartością domyślną w R. Są przechowywane jako liczby lub liczby całkowite. Możemy to zobaczyć na podstawie poniższego zestawu danych. mtcars to wbudowany zbiór danych. Gromadzi informacje na temat różnych typów samochodów. Możemy go zaimportować za pomocą mtcars i sprawdzić klasę zmiennej mpg, mila na galon. Zwraca wartość liczbową, wskazując zmienną ciągłą.
dataset <- mtcars class(dataset$mpg)
Wydajność
## [1] "numeric"