R Select()、Filter()、Arrange()、パイプラインと例

dplyr と呼ばれるライブラリには、データセット内を移動するための貴重な動詞が含まれています。 このチュートリアルでは、移動時間データセットを使用します。 このデータセットは、ドライバーが自宅と職場を結ぶ移動に関する情報を収集します。 データセットには次の XNUMX 個の変数があります。

  • DayOfWeek: ドライバーが車を使用する曜日を特定します。
  • 距離: 移動の合計距離
  • MaxSpeed: 移動の最高速度
  • TotalTime: 移動の長さ (分単位)

データセットには約 200 の観測値が含まれており、乗車は次の時間帯に発生しました。 Monday 金曜日まで。

まず最初に、次のことを行う必要があります。

  • データセットをロードする
  • データの構造を確認してください。

dplyr の便利な機能の XNUMX つは、glance() 関数です。 これは str() の改良点です。 sinners() を使用すると、データセットの構造を確認し、どのような操作が必要かを判断できます。

library(dplyr) 
PATH <- "https://raw.githubusercontent.com/guru99-edu/R-Programming/master/travel_times.csv"
df <- read.csv(PATH)
glimpse(df)

出力:

## Observations: 205
## Variables: 14
## $ X              <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, ...
## $ Date           <fctr> 1/6/2012, 1/6/2012, 1/4/2012, 1/4/2012, 1/3/20...
## $ StartTime      <fctr> 16:37, 08:20, 16:17, 07:53, 18:57, 07:57, 17:3...
## $ DayOfWeek      <fctr> Friday, Friday, Wednesday, Wednesday, Tuesday,...
## $ GoingTo        <fctr> Home, GSK, Home, GSK, Home, GSK, Home, GSK, GS...
## $ Distance       <dbl> 51.29, 51.63, 51.27, 49.17, 51.15, 51.80, 51.37...
## $ MaxSpeed       <dbl> 127.4, 130.3, 127.4, 132.3, 136.2, 135.8, 123.2...
## $ AvgSpeed       <dbl> 78.3, 81.8, 82.0, 74.2, 83.4, 84.5, 82.9, 77.5,...
## $ AvgMovingSpeed <dbl> 84.8, 88.9, 85.8, 82.9, 88.1, 88.8, 87.3, 85.9,...
## $ FuelEconomy    <fctr> , , , , , , -, -, 8.89, 8.89, 8.89, 8.89, 8.89...
## $ TotalTime      <dbl> 39.3, 37.9, 37.5, 39.8, 36.8, 36.8, 37.2, 37.9,...
## $ MovingTime     <dbl> 36.3, 34.9, 35.9, 35.6, 34.8, 35.0, 35.3, 34.3,...
## $ Take407All     <fctr> No, No, No, No, No, No, No, No, No, No, No, No...
## $ Comments       <fctr> , , , , , , , , , , , , , , , Put snow tires o...	

これは、変数 Comments にさらなる診断が必要であることは明らかです。 Comments 変数の最初の観測値は欠損値のみです。

sum(df$Comments =="")

コードの説明

  • sum(df$Comments ==””): df からの列コメントの「」に等しい観測値を合計します。

出力:

## [1] 181

選択する()

select() 動詞から始めます。 必ずしもすべての変数が必要なわけではありません。関連性があると思われる変数のみを選択することをお勧めします。

欠落している観測値は 181 個あり、これはデータセットのほぼ 90% です。 それらを除外すると、分析を続行できなくなります。

もう XNUMX つの方法は、select() 動詞を使用して変数 Comment を削除することです。

select() を使用すると、さまざまな方法で変数を選択できます。 最初の引数はデータセットであることに注意してください。

- `select(df, A, B ,C)`: Select the variables A, B and C from df dataset.
- `select(df, A:C)`: Select all variables from A to C from df dataset.
- `select(df, -C)`: Exclude C from the dataset from df dataset.	

XNUMX 番目の方法を使用して、Comments 変数を除外できます。

step_1_df <- select(df, -Comments)
dim(df)

出力:

## [1] 205  14
dim(step_1_df)

出力:

## [1] 205  13

元のデータセットには 14 個の特徴がありますが、step_1_df には 13 個の特徴があります。

フィルター()

filter() 動詞は、基準に従って観測を維持するのに役立ちます。filter() は select() とまったく同じように機能し、最初にデータ フレームを渡し、次にコンマで区切られた条件を渡します。

filter(df, condition)
arguments:
- df: dataset used to filter the data
- condition:  Condition used to filter the data	

一つの基準

まず、因子変数の各レベル内の観測値の数を数えることができます。

table(step_1_df$GoingTo)

コードの説明

  • table(): レベルごとに観測値の数をカウントします。 因子水準変数のみが受け入れられることに注意してください
  • table(step_1_df$GoingTo): 最終目的地に向かう旅行の回数をカウントします。

出力:

## 
##  GSK Home 
##  105  100	

関数 table() は、105 の乗り物が GSK に行き、100 がホームに行くことを示します。

データをフィルタリングして、105 個の観測値を含む 100 つのデータセットと XNUMX 個の観測値を含む別のデータセットを返すことができます。

# Select observations
if GoingTo == Home
select_home <- filter(df, GoingTo == "Home")
dim(select_home)

出力:

## [1] 100  14
# Select observations
if GoingTo == Work
select_work <- filter(df, GoingTo == "GSK")
dim(select_work)

出力:

## [1] 105  14

複数の基準

複数の基準を使用してデータセットをフィルタリングできます。 たとえば、目的地が自宅で水曜日に発生した観測を抽出できます。

select_home_wed <- filter(df, GoingTo == "Home" & DayOfWeek == "Wednesday")
dim(select_home_wed)

出力:

## [1] 23 14

23 件の観察がこの基準に一致しました。

パイプライン

データセットの作成には、次のような多くの操作が必要です。

  • インポート
  • マージ
  • 選択
  • フィルタリング
  • 等々

dplyrライブラリには、%>%と呼ばれる実用的な演算子が付属しています。 パイプライン。 パイプライン機能により、操作がクリーンかつ高速になり、エラーが発生しにくくなります。

この演算子は、中間ステップをハード ドライブに保存せずにステップを実行するコードです。上記の例に戻ると、関心のある変数を選択してフィルターすることができます。3 つのステップがあります。

  • ステップ 1: データのインポート: GPS データをインポートします。
  • ステップ 2: データの選択: GoingTo と DayOfWeek を選択します
  • ステップ 3: データのフィルター: 家と水曜日のみを返す

これを行うには難しい方法を使用できます。

# Step 1
step_1 <- read.csv(PATH)

# Step 2 
step_2 <- select(step_1, GoingTo, DayOfWeek)

# Step 3 
step_3 <- filter(step_2, GoingTo == "Home", DayOfWeek == "Wednesday")

head(step_3)

出力:

##   GoingTo DayOfWeek
## 1    Home Wednesday
## 2    Home Wednesday
## 3    Home Wednesday
## 4    Home Wednesday
## 5    Home Wednesday
## 6    Home Wednesday	

これは、特にステップ数が多い状況では、多くの操作を実行するのに便利な方法ではありません。環境には最終的に多くのオブジェクトが保存されることになります。

代わりにパイプライン演算子 %>% を使用しましょう。最初に使用するデータ フレームを定義するだけで、すべてのプロセスがそこから流れます。

パイプラインの基本構文

New_df <- df %>%
step 1 %>%
step 2 %>%
...
arguments
- New_df: Name of the new data frame 
- df: Data frame used to compute the step
- step: Instruction for each step
- Note: The last instruction does not need the pipe operator `%`, you don't have instructions to pipe anymore
Note: Create a new variable is optional. If not included, the output will be displayed in the console.

上記の手順に従って、最初のパイプを作成できます。

# Create the data frame filter_home_wed.It will be the object return at the end of the pipeline
filter_home_wed <- 

#Step 1
read.csv(PATH) % > % 

#Step 2
select(GoingTo, DayOfWeek) % > % 

#Step 3
filter(GoingTo == "Home",DayOfWeek == "Wednesday")
identical(step_3, filter_home_wed)

出力:

## [1] TRUE

パイプライン演算子を使用して素晴らしいデータセットを作成する準備が整いました。

整える()

前のチュートリアルでは、関数 sort() を使用して値を並べ替える方法を学びます。 ライブラリ dplyr にはソート機能があります。 パイプラインでは魅力的に機能します。 assign() 動詞は、XNUMX つまたは複数の行を昇順 (デフォルト) または降順に並べ替えることができます。

- `arrange(A)`: Ascending sort of variable A
- `arrange(A, B)`: Ascending sort of variable A and B
- `arrange(desc(A), B)`: Descending sort of variable A and ascending sort of B

目的地ごとに距離を並べ替えることができます。

# Sort by destination and distance
step_2_df <-step_1_df %>%
	arrange(GoingTo, Distance)
head<step_2_df)

出力:

##     X       Date StartTime DayOfWeek GoingTo Distance MaxSpeed AvgSpeed
## 1 193  7/25/2011     08:06    Monday     GSK    48.32    121.2     63.4
## 2 196  7/21/2011     07:59  Thursday     GSK    48.35    129.3     81.5
## 3 198  7/20/2011     08:24 Wednesday     GSK    48.50    125.8     75.7
## 4 189  7/27/2011     08:15 Wednesday     GSK    48.82    124.5     70.4
## 5  95 10/11/2011     08:25   Tuesday     GSK    48.94    130.8     85.7
## 6 171  8/10/2011     08:13 Wednesday     GSK    48.98    124.8     72.8
##   AvgMovingSpeed FuelEconomy TotalTime MovingTime Take407All
## 1           78.4        8.45      45.7       37.0         No
## 2           89.0        8.28      35.6       32.6        Yes
## 3           87.3        7.89      38.5       33.3        Yes
## 4           77.8        8.45      41.6       37.6         No
## 5           93.2        7.81      34.3       31.5        Yes
## 6           78.8        8.54      40.4       37.3         No

まとめ

以下の表に、チュートリアルで学習したすべての操作をまとめます。

動詞 DevOps Tools Engineer試験のObjective Code 説明
垣間見る DF の構造をチェックする
glimpse(df)
str() と同じ
選択する() 変数の選択/除外
select(df, A, B ,C)
変数 A、B、C を選択します
select(df, A:C)
A から C までのすべての変数を選択します
select(df, -C)
Cを除く
フィルタ() XNUMX つまたは複数の条件に基づいて DF をフィルタリングします
filter(df, condition1)
XNUMXつの条件
filter(df, condition1
条件2)
整える() XNUMX つまたは複数の変数を使用してデータセットを並べ替える
arrange(A)
変数 A の昇順ソート
arrange(A, B)
変数 A と B の昇順ソート
arrange(desc(A), B)
変数 A の降順ソートと変数 B の昇順ソート
%>% 各ステップ間にパイプラインを作成する
step 1 %>% step 2 %>% step 3