Faktor in R: Kategoriale Variable und kontinuierliche Variablen

Was ist der Faktor in R?

Berücksichtigen Sie R ist eine Variable, die zur Kategorisierung und Speicherung der Daten verwendet wird und eine begrenzte Anzahl unterschiedlicher Werte aufweist. Es speichert die Daten als Vektor ganzzahliger Werte. Der Faktor in R wird auch als kategoriale Variable bezeichnet, die sowohl Zeichenfolgen- als auch Ganzzahldatenwerte als Ebenen speichert. Der Faktor wird hauptsächlich in der statistischen Modellierung und der explorativen Datenanalyse mit R verwendet.

In einem Datensatz können wir zwei Arten von Variablen unterscheiden: kategorisch und kontinuierlich.

  • In der deskriptiven Statistik für kategoriale Variablen in R ist der Wert begrenzt und basiert normalerweise auf einer bestimmten endlichen Gruppe. Eine kategoriale Variable in R kann beispielsweise Länder, Jahr, Geschlecht, Beruf sein.
  • Eine kontinuierliche Variable kann jedoch beliebige Werte annehmen, von ganzzahlig bis dezimal. Wir können zum Beispiel den Umsatz, den Preis einer Aktie usw. haben.

Kategorische Variablen

Kategoriale Variablen in R werden in einem Faktor gespeichert. Sehen wir uns den folgenden Code an, um eine Zeichenvariable in eine Faktorvariable in R umzuwandeln. Zeichen werden im Algorithmus für maschinelles Lernen nicht unterstützt und die einzige Möglichkeit besteht darin, eine Zeichenfolge in eine Ganzzahl umzuwandeln.

Syntax

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

Argumente:

  • x: Ein Vektor kategorialer Daten in R. Muss eine Zeichenfolge oder Ganzzahl sein, keine Dezimalzahl.
  • Stufen: Ein Vektor möglicher Werte, die von x angenommen werden. Dieses Argument ist optional. Der Standardwert ist die eindeutige Liste von Elementen des Vektors x.
  • Labels: Fügen Sie den x kategorialen Daten in R eine Bezeichnung hinzu. Beispielsweise kann 1 die Bezeichnung „männlich“ annehmen, während 0 die Bezeichnung „weiblich“ annehmen kann.
  • bestellt: Bestimmen Sie, ob die Ebenen in kategorialen Daten in R geordnet werden sollen.

Ejemplo:

Lassen Sie uns einen Faktordatenrahmen erstellen.

# Create gender vector
gender_vector <- c("Male", "Female", "Female", "Male", "Male")
class(gender_vector)
# Convert gender_vector to a factor
factor_gender_vector <-factor(gender_vector)
class(factor_gender_vector)

Ausgang:

## [1] "character"
## [1] "factor"

Es ist wichtig, a zu transformieren Schnur in eine Faktorvariable in R um, wenn wir eine maschinelle Lernaufgabe ausführen.

Eine kategoriale Variable in R kann unterteilt werden in nominale kategoriale Variable und ordinale kategoriale Variable.

Nominale kategoriale Variable

Eine kategoriale Variable hat mehrere Werte, aber die Reihenfolge spielt keine Rolle. Zum Beispiel männlich oder weiblich. Kategoriale Variablen in R haben keine Reihenfolge.

# Create a color vector
color_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')
# Convert the vector to factor
factor_color <- factor(color_vector)
factor_color

Ausgang:

## [1] blue   red    green  white  black  yellow
## Levels: black blue green red white yellow

Aus dem Faktor_Farbe können wir keine Reihenfolge erkennen.

Ordinale kategoriale Variable

Ordinale kategoriale Variablen haben eine natürliche Reihenfolge. Wir können die Reihenfolge angeben, von der niedrigsten zur höchsten mit order = TRUE und von der höchsten zur niedrigsten mit order = FALSE.

Ejemplo:

Wir können die Zusammenfassung verwenden, um die Werte für jede Faktorvariable in R zu zählen.

# Create Ordinal categorical vector 
day_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')
# Convert `day_vector` to a factor with ordered level
factor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))
# Print the new variable
factor_day

Ausgang:

## [1] evening   morning   afternoon midday    
midnight  evening

Ejemplo:

## Levels: morning < midday < afternoon < evening < midnight
# Append the line to above code
# Count the number of occurence of each level
summary(factor_day)

Ausgang:

##   morning    midday afternoon   evening  midnight
##         1         1         1         2         1

R ordnete den Level von „Morgen“ bis „Mitternacht“, wie in den Level-Klammern angegeben.

Kontinuierliche Variablen

Kontinuierliche Klassenvariablen sind der Standardwert in R. Sie werden als Zahl oder Ganzzahl gespeichert. Wir können es aus dem Datensatz unten sehen. mtcars ist ein integrierter Datensatz. Es sammelt Informationen zu verschiedenen Fahrzeugtypen. Wir können es mithilfe von mtcars importieren und die Klasse der Variablen mpg, Meile pro Gallone überprüfen. Es gibt einen numerischen Wert zurück, der eine kontinuierliche Variable angibt.

dataset <- mtcars
class(dataset$mpg)

Ausgang

## [1] "numeric"