Faktor in R: Kategoriale Variable und kontinuierliche Variablen
Was ist der Faktor in R?
Berücksichtigen Sie R ist eine Variable, die zur Kategorisierung und Speicherung der Daten verwendet wird und eine begrenzte Anzahl unterschiedlicher Werte aufweist. Es speichert die Daten als Vektor ganzzahliger Werte. Der Faktor in R wird auch als kategoriale Variable bezeichnet, die sowohl Zeichenfolgen- als auch Ganzzahldatenwerte als Ebenen speichert. Der Faktor wird hauptsächlich in der statistischen Modellierung und der explorativen Datenanalyse mit R verwendet.
In einem Datensatz können wir zwei Arten von Variablen unterscheiden: kategorisch und kontinuierlich.
- In der deskriptiven Statistik für kategoriale Variablen in R ist der Wert begrenzt und basiert normalerweise auf einer bestimmten endlichen Gruppe. Eine kategoriale Variable in R kann beispielsweise Länder, Jahr, Geschlecht, Beruf sein.
- Eine kontinuierliche Variable kann jedoch beliebige Werte annehmen, von ganzzahlig bis dezimal. Wir können zum Beispiel den Umsatz, den Preis einer Aktie usw. haben.
Kategorische Variablen
Kategoriale Variablen in R werden in einem Faktor gespeichert. Sehen wir uns den folgenden Code an, um eine Zeichenvariable in eine Faktorvariable in R umzuwandeln. Zeichen werden im Algorithmus für maschinelles Lernen nicht unterstützt und die einzige Möglichkeit besteht darin, eine Zeichenfolge in eine Ganzzahl umzuwandeln.
Syntax
factor(x = character(), levels, labels = levels, ordered = is.ordered(x))
Argumente:
- x: Ein Vektor kategorialer Daten in R. Muss eine Zeichenfolge oder Ganzzahl sein, keine Dezimalzahl.
- Stufen: Ein Vektor möglicher Werte, die von x angenommen werden. Dieses Argument ist optional. Der Standardwert ist die eindeutige Liste von Elementen des Vektors x.
- Labels: Fügen Sie den x kategorialen Daten in R eine Bezeichnung hinzu. Beispielsweise kann 1 die Bezeichnung „männlich“ annehmen, während 0 die Bezeichnung „weiblich“ annehmen kann.
- bestellt: Bestimmen Sie, ob die Ebenen in kategorialen Daten in R geordnet werden sollen.
Ejemplo:
Lassen Sie uns einen Faktordatenrahmen erstellen.
# Create gender vector gender_vector <- c("Male", "Female", "Female", "Male", "Male") class(gender_vector) # Convert gender_vector to a factor factor_gender_vector <-factor(gender_vector) class(factor_gender_vector)
Ausgang:
## [1] "character" ## [1] "factor"
Es ist wichtig, a zu transformieren Schnur in eine Faktorvariable in R um, wenn wir eine maschinelle Lernaufgabe ausführen.
Eine kategoriale Variable in R kann unterteilt werden in nominale kategoriale Variable und ordinale kategoriale Variable.
Nominale kategoriale Variable
Eine kategoriale Variable hat mehrere Werte, aber die Reihenfolge spielt keine Rolle. Zum Beispiel männlich oder weiblich. Kategoriale Variablen in R haben keine Reihenfolge.
# Create a color vector color_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow') # Convert the vector to factor factor_color <- factor(color_vector) factor_color
Ausgang:
## [1] blue red green white black yellow ## Levels: black blue green red white yellow
Aus dem Faktor_Farbe können wir keine Reihenfolge erkennen.
Ordinale kategoriale Variable
Ordinale kategoriale Variablen haben eine natürliche Reihenfolge. Wir können die Reihenfolge angeben, von der niedrigsten zur höchsten mit order = TRUE und von der höchsten zur niedrigsten mit order = FALSE.
Ejemplo:
Wir können die Zusammenfassung verwenden, um die Werte für jede Faktorvariable in R zu zählen.
# Create Ordinal categorical vector day_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening') # Convert `day_vector` to a factor with ordered level factor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight')) # Print the new variable factor_day
Ausgang:
## [1] evening morning afternoon midday midnight evening
Ejemplo:
## Levels: morning < midday < afternoon < evening < midnight # Append the line to above code # Count the number of occurence of each level summary(factor_day)
Ausgang:
## morning midday afternoon evening midnight ## 1 1 1 2 1
R ordnete den Level von „Morgen“ bis „Mitternacht“, wie in den Level-Klammern angegeben.
Kontinuierliche Variablen
Kontinuierliche Klassenvariablen sind der Standardwert in R. Sie werden als Zahl oder Ganzzahl gespeichert. Wir können es aus dem Datensatz unten sehen. mtcars ist ein integrierter Datensatz. Es sammelt Informationen zu verschiedenen Fahrzeugtypen. Wir können es mithilfe von mtcars importieren und die Klasse der Variablen mpg, Meile pro Gallone überprüfen. Es gibt einen numerischen Wert zurück, der eine kontinuierliche Variable angibt.
dataset <- mtcars class(dataset$mpg)
Ausgang
## [1] "numeric"