R 集計関数: Summarise と Group_by() の例

変数の要約は、データについてのアイデアを得るために重要です。ただし、変数をグループごとに要約すると、データの分布に関するより優れた情報が得られます。

このチュートリアルでは、dplyr ライブラリを使用してデータセットをグループ別に要約する方法を学習します。

このチュートリアルでは、バッティング データセットを使用します。元のデータセットには、102816 個の観測値と 22 個の変数が含まれています。このデータセットの 20 パーセントのみを使用し、次の変数を使用します。

  • playerID: プレイヤーIDコード。 要素
  • yearID: 年。 要素
  • チームID: チーム。 要素
  • lgID: リーグ。 要因: AA AL FL NL PL UA
  • AB:打席です。 数値
  • G: ゲーム: プレイヤーによるゲーム数。 数値
  • R:走ります。 数値
  • HR: ホームラン。 数値
  • SH:犠打。 数値

要約を実行する前に、次の手順を実行してデータを準備します。

  • ステップ 1: データをインポートする
  • ステップ 2: 関連する変数を選択する
  • ステップ 3: データを並べ替える
library(dplyr)

# Step 1
data <- read.csv("https://raw.githubusercontent.com/guru99-edu/R-Programming/master/lahman-batting.csv") % > %

# Step 2
select(c(playerID, yearID, AB, teamID, lgID, G, R, HR, SH))  % > % 

# Step 3
arrange(playerID, teamID, yearID)

データセットをインポートするときは、glance() 関数を使用してデータセットの構造について把握することをお勧めします。

# Structure of the data
glimpse(data)

出力:

Observations: 104,324
Variables: 9
$ playerID <fctr> aardsda01, aardsda01, aardsda01, aardsda01, aardsda01, a...
$ yearID   <int> 2015, 2008, 2007, 2006, 2012, 2013, 2009, 2010, 2004, 196...
$ AB       <int> 1, 1, 0, 2, 0, 0, 0, 0, 0, 603, 600, 606, 547, 516, 495, ...
$ teamID   <fctr> ATL, BOS, CHA, CHN, NYA, NYN, SEA, SEA, SFN, ATL, ATL, A...
$ lgID     <fctr> NL, AL, AL, NL, AL, NL, AL, AL, NL, NL, NL, NL, NL, NL, ...
$ G        <int> 33, 47, 25, 45, 1, 43, 73, 53, 11, 158, 155, 160, 147, 15...
$ R        <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 117, 113, 84, 100, 103, 95, 75...
$ HR       <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 44, 39, 29, 44, 38, 47, 34, 40...
$ SH       <int> 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 6, ...

要約()

summarise() の構文は基本的なものであり、dplyr ライブラリに含まれる他の動詞と一致しています。

summarise(df, variable_name=condition) 
arguments: 
- `df`: Dataset used to construct the summary statistics 
- `variable_name=condition`: Formula to create the new variable

以下のコードを見てください。

summarise(data, mean_run =mean(R))

コードの説明

  • summarise(data, mean_run = mean(R)): データセットデータからの列実行の平均であるmean_runという変数を作成します。

出力:

##   mean_run
## 1 19.20114

必要なだけ変数を追加できます。平均ゲーム数と平均犠牲ヒット数を返します。

summarise(data, mean_games = mean(G),
    mean_SH = mean(SH, na.rm = TRUE))

コードの説明

  • mean_SH = mean(SH, na.rm = TRUE): 2 番目の変数を要約します。列 SH に欠損値が含まれているため、na.rm = TRUE を設定します。

出力:

##   mean_games  mean_SH
## 1   51.98361 2.340085

Group_by と group_by なし

group_by() のない関数 Summerise() は意味がありません。 グループごとに要約統計を作成します。 図書館 dplyr 動詞 group_by 内で渡したグループに関数を自動的に適用します。

group_by は他のすべての動詞 (つまり、mutate()、filter()、arrange() など) と完全に連携することに注意してください。

複数のステップがある場合は、パイプライン演算子を使用すると便利です。野球リーグごとの平均ホームランを計算できます。

data % > %
	group_by(lgID) % > %
	summarise(mean_run = mean(HR))

コードの説明

  • data: 要約統計量の構築に使用されるデータセット
  • group_by(lgID): 変数 `lgID をグループ化して要約を計算します。
  • summarise(mean_run = mean(HR)): 平均ホームランを計算する

出力:

## 
# A tibble: 7 x 2
##     lgID  mean_run
##   <fctr>     <dbl>
## 1     AA 0.9166667
## 2     AL 3.1270988
## 3     FL 1.3131313
## 4     NL 2.8595953
## 5     PL 2.5789474
## 6     UA 0.6216216
## 7   <NA> 0.2867133	

パイプ演算子は ggplot() でも機能します。グラフを使用して要約統計を簡単に表示できます。グラフがプロットされるまで、すべてのステップがパイプライン内にプッシュされます。リーグ別の平均ホームランを棒グラフで表示すると、より視覚的に見えます。以下のコードは、group_by()、summarise()、ggplot() を組み合わせた場合の威力を示しています。

次の手順を実行します。

  • ステップ 1: データ フレームを選択する
  • ステップ 2: データをグループ化する
  • ステップ3: データを要約する
  • ステップ 4: 要約統計量をプロットする
library(ggplot2)
# Step 1
data % > % 
#Step 2
group_by(lgID) % > % 
#Step 3
summarise(mean_home_run = mean(HR)) % > % 
#Step 4
ggplot(aes(x = lgID, y = mean_home_run, fill = lgID)) +
    geom_bar(stat = "identity") +
    theme_classic() +
    labs(
        x = "baseball league",
        y = "Average home run",
        title = paste(
            "Example group_by() with summarise()"
        )
    )

出力:

Summarise を使用した Group_by の例

summarise() 内の関数

動詞 summarise() は、R のほぼすべての関数と互換性があります。summarise() と一緒に使用できる便利な関数の短いリストを以下に示します。

DevOps Tools Engineer試験のObjective 演算 詳細説明
Basic 平均() ベクトル x の平均
中央値() ベクトル x の中央値
和() ベクトル x の合計
変動 SD() ベクトル x の標準偏差
IQR() ベクトル x の四分位数
レンジ min() ベクトル x の最小値
max() ベクトル x の最大値
分位数() ベクトル x の分位数
役職 最初() group_by() と併用 グループの最初の観察
過去() group_by() と一緒に使用します。 グループの最後の観察
nth() group_by() と一緒に使用します。 グループのn回目の観察
数量カウント n() group_by() と一緒に使用します。 行数を数える
n_distinct() group_by() と一緒に使用します。 個別の観測値の数を数える

表 1 の各関数の例を見ていきます。

基本機能

前の例では、要約統計量をデータ フレームに保存しませんでした。

概要から日付フレームを生成するには、次の XNUMX つの手順を実行できます。

  • ステップ 1: 今後使用するためにデータ フレームを保存する
  • ステップ 2: データセットを使用して折れ線プロットを作成する

ステップ1) 年ごとにプレイされるゲームの平均数を計算します。

## Mean
ex1 <- data % > %
	group_by(yearID) % > %
	summarise(mean_game_year = mean(G))
head(ex1)

コードの説明

  • 打撃データセットの要約統計量はデータフレーム ex1 に格納されます。

出力:

## # A tibble: 6 x 2
##   yearID mean_game_year
##    <int>          <dbl>
## 1   1871       23.42308
## 2   1872       18.37931
## 3   1873       25.61538
## 4   1874       39.05263
## 5   1875       28.39535
## 6   1876       35.90625	

ステップ2) 折れ線グラフで要約統計量を表示し、傾向を確認します。

# Plot the graph
ggplot(ex1, aes(x = yearID, y = mean_game_year)) +
    geom_line() +
    theme_classic() +
    labs(
        x = "Year",
        y = "Average games played",
        title = paste(
            "Average games played from 1871 to 2016"
        )
    )

出力:

基本的な機能例

サブセット化

関数 summarise() はサブセット化と互換性があります。

## Subsetting + Median
data % > %
group_by(lgID) % > %
summarise(median_at_bat_league = median(AB), 
	#Compute the median without the zero 
	median_at_bat_league_no_zero = median(AB[AB > 0]))

コードの説明

  • median_at_bat_league_no_zero = median(AB[AB > 0]): 変数 AB には 0 がたくさん含まれています。中央値を比較できます。 打席で 0 を含む変数と XNUMX を含まない変数。

出力:

## # A tibble: 7 x 3
##     lgID median_at_bat_league median_at_bat_league_no_zero
##   <fctr>                <dbl>                        <dbl>
## 1     AA                  130                          131
## 2     AL                   38                           85
## 3     FL                   88                           97
## 4     NL                   56                           67
## 5     PL                  238                          238
## 6     UA                   35                           35
## 7   <NA>                  101                          101	

合計

変数を集計するためのもう XNUMX つの便利な関数は sum() です。

どのリーグのホームラン数が多いかを確認できます。

## Sum
data % > %
	group_by(lgID) % > %
	summarise(sum_homerun_league = sum(HR))

出力:

## # A tibble: 7 x 2
##     lgID sum_homerun_league
##   <fctr>              <int>
## 1     AA                341
## 2     AL              29426
## 3     FL                130
## 4     NL              29817
## 5     PL                 98
## 6     UA                 46
## 7   <NA>                 41	

標準偏差

データの広がりは、標準偏差または R の sd() を使用して計算されます。

# Spread
data % > %
	group_by(teamID) % > %
	summarise(sd_at_bat_league = sd(HR))

出力:

## # A tibble: 148 x 2
##    teamID sd_at_bat_league
##    <fctr>            <dbl>
##  1    ALT               NA
##  2    ANA        8.7816395
##  3    ARI        6.0765503
##  4    ATL        8.5363863
##  5    BAL        7.7350173
##  6    BFN        1.3645163
##  7    BFP        0.4472136
##  8    BL1        0.6992059
##  9    BL2        1.7106757
## 10    BL3        1.0000000
## # ... with 138 more rows		

各チームのホームランの量には大きな差があります。

最小および最大

関数 min() および max() を使用して、ベクトルの最小値と最大値にアクセスできます。

以下のコードは、プレーヤーがシーズン中にプレーしたゲームの最小数と最大数を返します。

# Min and max
data % > %
	group_by(playerID) % > %
	summarise(min_G = min(G),
    max_G = max(G))

出力:

## # A tibble: 10,395 x 3
##     playerID min_G max_G
##       <fctr>       <int>
##  1 aardsda01    53    73
##  2 aaronha01   120   156
##  3  aasedo01    24    66
##  4  abadfe01    18    18
##  5 abadijo01    11    11
##  6 abbated01     3   153
##  7 abbeybe01    11    11
##  8 abbeych01    80   132
##  9 abbotgl01     5    23
## 10 abbotji01    13    29
## # ... with 10,385 more rows

数量カウント

グループごとに観測値をカウントすることは常に良いアイデアです。 Rではn()で出現回数を集計することができます。

たとえば、以下のコードは各プレーヤーのプレー年数を計算します。

# count observations
data % > %
	group_by(playerID) % > %
	summarise(number_year = n()) % > %
	arrange(desc(number_year))

出力:

## # A tibble: 10,395 x 2
##     playerID number_year
##       <fctr>       <int>
##  1 pennohe01          11
##  2 joosted01          10
##  3 mcguide01          10
##  4  rosepe01          10
##  5 davisha01           9
##  6 johnssi01           9
##  7  kaatji01           9
##  8 keelewi01           9
##  9 marshmi01           9
## 10 quirkja01           9
## # ... with 10,385 more rows

始めと終わり

グループの最初、最後、または n 番目の位置を選択できます。

たとえば、各プレーヤーの最初の年と最後の年を見つけることができます。

# first and last
data % > %
	group_by(playerID) % > %
	summarise(first_appearance = first(yearID),
		last_appearance = last(yearID))

出力:

## # A tibble: 10,395 x 3
##     playerID first_appearance last_appearance
##       <fctr>            <int>           <int>
##  1 aardsda01             2009            2010
##  2 aaronha01             1973            1975
##  3  aasedo01             1986            1990
##  4  abadfe01             2016            2016
##  5 abadijo01             1875            1875
##  6 abbated01             1905            1897
##  7 abbeybe01             1894            1894
##  8 abbeych01             1895            1897
##  9 abbotgl01             1973            1979
## 10 abbotji01             1992            1996
## # ... with 10,385 more rows

n回目の観測

関数 nth() は、first() および last() を補完します。 返されるインデックスを使用して、グループ内の n 番目の観測値にアクセスできます。

たとえば、チームがプレーした 2 年目だけをフィルタリングできます。

# nth
data % > %
	group_by(teamID) % > %
	summarise(second_game = nth(yearID, 2)) % > %
	arrange(second_game)

出力:

## # A tibble: 148 x 2
##    teamID second_game
##    <fctr>       <int>
##  1    BS1        1871
##  2    CH1        1871
##  3    FW1        1871
##  4    NY2        1871
##  5    RC1        1871
##  6    BR1        1872
##  7    BR2        1872
##  8    CL1        1872
##  9    MID        1872
## 10    TRO        1872
## # ... with 138 more rows

個別の観測数

関数 n() は、現在のグループ内の観測値の数を返します。 n() の閉じた関数は n_distinct() で、一意の値の数をカウントします。

次の例では、全期間中にチームが採用した選手の合計を合計します。

# distinct values
data % > %
	group_by(teamID) % > %
	summarise(number_player = n_distinct(playerID)) % > %
	arrange(desc(number_player))

コードの説明

  • group_by(チームID): 年ごとのグループ化   チーム
  • 要約(プレイヤー数 = n_distinct(playerID)): チームごとに個別のプレーヤー数をカウントします。
  • assign(desc(number_player)): データをプレイヤー数でソートします。

出力:

## # A tibble: 148 x 2
##    teamID number_player
##    <fctr>         <int>
##  1    CHN           751
##  2    SLN           729
##  3    PHI           699
##  4    PIT           683
##  5    CIN           679
##  6    BOS           647
##  7    CLE           646
##  8    CHA           636
##  9    DET           623
## 10    NYA           612
## # ... with 138 more rows

複数のグループ

複数のグループ間で要約統計を実現できます。

# Multiple groups
data % > %
	group_by(yearID, teamID) % > %
	summarise(mean_games = mean(G)) % > %
	arrange(desc(teamID, yearID))

コードの説明

  • group_by(年ID, チームID): 年ごとにグループ化します。   チーム
  • summarise(mean_games = mean(G)): ゲームプレイヤーの数を集計する
  • assign(desc(teamID, yearID)): データをチームと年で並べ替えます。

出力:

## # A tibble: 2,829 x 3
## # Groups:   yearID [146]
##    yearID teamID mean_games
##     <int> <fctr>      <dbl>
##  1   1884    WSU   20.41667
##  2   1891    WS9   46.33333
##  3   1886    WS8   22.00000
##  4   1887    WS8   51.00000
##  5   1888    WS8   27.00000
##  6   1889    WS8   52.42857
##  7   1884    WS7    8.00000
##  8   1875    WS6   14.80000
##  9   1873    WS5   16.62500
## 10   1872    WS4    4.20000
## # ... with 2,819 more rows

フィルター

操作を実行する前に、データセットをフィルタリングできます。データセットは 1871 年から始まり、分析では 1980 年より前の年は必要ありません。

# Filter
data % > %
	filter(yearID > 1980) % > %
	group_by(yearID) % > %
	summarise(mean_game_year = mean(G))

コードの説明

  • filter(yearID > 1980): データをフィルタリングして、関連する年 (つまり 1980 年以降) のみを表示します。
  • group_by(yearID): 年ごとにグループ化します。
  • summarise(mean_game_year = mean(G)): データを要約する

出力:

## # A tibble: 36 x 2
##    yearID mean_game_year
##     <int>          <dbl>
##  1   1981       40.64583
##  2   1982       56.97790
##  3   1983       60.25128
##  4   1984       62.97436
##  5   1985       57.82828
##  6   1986       58.55340
##  7   1987       48.74752
##  8   1988       52.57282
##  9   1989       58.16425
## 10   1990       52.91556
## # ... with 26 more rows

グループ解除

最後に重要なことですが、計算のレベルを変更する前に、グループ化を削除する必要があります。

# Ungroup the data
data % > %
	filter(HR > 0) % > %
	group_by(playerID) % > %
	summarise(average_HR_game = sum(HR) / sum(G)) % > %
	ungroup() % > %
	summarise(total_average_homerun = mean(average_HR_game))

コードの説明

  • filter(HR >0) : ゼロホームランを除外します
  • group_by(playerID): プレイヤーごとにグループ化
  • summarise(average_HR_game = sum(HR)/sum(G)): 選手ごとの平均ホームラン数を計算する
  • ungroup(): グループ化を削除します
  • summarise(total_average_homerun = mean(average_HR_game)): データを要約する

出力:

## # A tibble: 1 x 1
##   total_average_homerun
##                   <dbl>
## 1            0.06882226	

製品概要

グループごとの概要を返したい場合は、次を使用できます。

# group by X1, X2, X3
group(df, X1, X2, X3)

次のようにしてデータのグループ化を解除する必要があります。

ungroup(df)

以下の表は、summarise() で学習した関数をまとめたものです。

方法 演算 CPコード
意味する 意味する
summarise(df,mean_x1 = mean(x1))
中央値 中央値
summarise(df,median_x1 = median(x1))
合計 合計
summarise(df,sum_x1 = sum(x1))
標準偏差 sd
summarise(df,sd_x1 = sd(x1))
四分位 I.Q.R.
summarise(df,interquartile_x1 = IQR(x1))
最小
summarise(df,minimum_x1 = min(x1))
マックス
summarise(df,maximum_x1 = max(x1))
分位 分位
summarise(df,quantile_x1 = quantile(x1))
最初の観察 最初の
summarise(df,first_x1 = first(x1))
最後の観察 last
summarise(df,last_x1 = last(x1))
n回目の観測 n番目の
summarise(df,nth_x1 = nth(x1, 2))
出現数 n
summarise(df,n_x1 = n(x1))
個別の出現の数 n_distinct
summarise(df,n_distinct _x1 = n_distinct(x1))