R 聚合函数:Summarise 和 Group_by() 示例

变量汇总对于了解数据非常重要。但是,按组汇总变量可以提供有关数据分布的更好信息。

在本教程中,您将学习如何使用 dplyr 库按组汇总数据集。

在本教程中,您将使用击球数据集。原始数据集包含 102816 个观测值和 22 个变量。您将仅使用此数据集的 20%,并使用以下变量:

  • playerID:玩家ID代码。因素
  • yearID: 年份。因素
  • teamID:团队。因素
  • lgID:联盟。因素:AA AL FL NL PL UA
  • AB:击球数。数字
  • G:游戏:玩家的游戏次数。数字
  • R:运行。数值
  • HR:本垒打。数字
  • SH:牺牲命中。数值

在进行汇总之前,您将执行以下步骤来准备数据:

  • 步骤 1:导入数据
  • 第 2 步:选择相关变量
  • 步骤 3:对数据进行排序
library(dplyr)

# Step 1
data <- read.csv("https://raw.githubusercontent.com/guru99-edu/R-Programming/master/lahman-batting.csv") % > %

# Step 2
select(c(playerID, yearID, AB, teamID, lgID, G, R, HR, SH))  % > % 

# Step 3
arrange(playerID, teamID, yearID)

导入数据集时,一个好的做法是使用 glimpse() 函数来了解数据集的结构。

# Structure of the data
glimpse(data)

输出:

Observations: 104,324
Variables: 9
$ playerID <fctr> aardsda01, aardsda01, aardsda01, aardsda01, aardsda01, a...
$ yearID   <int> 2015, 2008, 2007, 2006, 2012, 2013, 2009, 2010, 2004, 196...
$ AB       <int> 1, 1, 0, 2, 0, 0, 0, 0, 0, 603, 600, 606, 547, 516, 495, ...
$ teamID   <fctr> ATL, BOS, CHA, CHN, NYA, NYN, SEA, SEA, SFN, ATL, ATL, A...
$ lgID     <fctr> NL, AL, AL, NL, AL, NL, AL, AL, NL, NL, NL, NL, NL, NL, ...
$ G        <int> 33, 47, 25, 45, 1, 43, 73, 53, 11, 158, 155, 160, 147, 15...
$ R        <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 117, 113, 84, 100, 103, 95, 75...
$ HR       <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 44, 39, 29, 44, 38, 47, 34, 40...
$ SH       <int> 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 6, ...

总结()

summarise() 的语法很基本,并且与 dplyr 库中包含的其他动词一致。

summarise(df, variable_name=condition) 
arguments: 
- `df`: Dataset used to construct the summary statistics 
- `variable_name=condition`: Formula to create the new variable

看看下面的代码:

summarise(data, mean_run =mean(R))

代码说明

  • summarise(data, mean_run = mean(R)):创建一个名为 mean_run 的变量,它是数据集数据中列运行的平均值。

输出:

##   mean_run
## 1 19.20114

你可以添加任意数量的变量。返回平均比赛场次和平均牺牲命中数。

summarise(data, mean_games = mean(G),
    mean_SH = mean(SH, na.rm = TRUE))

代码说明

  • mean_SH = mean(SH, na.rm = TRUE):汇总第二个变量。您设置 na.rm = TRUE,因为 SH 列包含缺失的观测值。

输出:

##   mean_games  mean_SH
## 1   51.98361 2.340085

Group_by 与无 groupby

没有 group_by() 的函数 summerise() 没有任何意义。它按组创建汇总统计数据。库 dplyr 自动将函数应用于您在动词 group_by 中传递的组。

请注意,group_by 与所有其他动词(即 mutate()、filter()、arrange() 等)完美配合。

当您有多个步骤时,使用管道运算符会很方便。您可以计算棒球联盟的平均本垒打数。

data % > %
	group_by(lgID) % > %
	summarise(mean_run = mean(HR))

代码说明

  • 数据:用于构建汇总统计数据的数据集
  • group_by(lgID):通过对变量“lgID”进行分组来计算摘要
  • summarise(mean_run = mean(HR)):计算平均本垒打数

输出:

## 
# A tibble: 7 x 2
##     lgID  mean_run
##   <fctr>     <dbl>
## 1     AA 0.9166667
## 2     AL 3.1270988
## 3     FL 1.3131313
## 4     NL 2.8595953
## 5     PL 2.5789474
## 6     UA 0.6216216
## 7   <NA> 0.2867133	

管道运算符也适用于 ggplot()。您可以轻松地用图表显示汇总统计数据。所有步骤都被推入管道内部,直到绘制出图表。用条形图查看联盟平均本垒打似乎更直观。下面的代码演示了将 group_by()、summarise() 和 ggplot() 结合在一起的强大功能。

您将执行以下步骤:

  • 步骤 1:选择数据框
  • 第 2 步:分组数据
  • 步骤 3:汇总数据
  • 步骤 4:绘制汇总统计数据
library(ggplot2)
# Step 1
data % > % 
#Step 2
group_by(lgID) % > % 
#Step 3
summarise(mean_home_run = mean(HR)) % > % 
#Step 4
ggplot(aes(x = lgID, y = mean_home_run, fill = lgID)) +
    geom_bar(stat = "identity") +
    theme_classic() +
    labs(
        x = "baseball league",
        y = "Average home run",
        title = paste(
            "Example group_by() with summarise()"
        )
    )

输出:

Group_by 示例与 Summarise

summarise() 中的函数

动词 summarise() 与 R 中的几乎所有函数兼容。下面是可以与 summarise() 一起使用的一些有用函数的简短列表:

目的 功能 描述
基础 意思() 向量 x 的平均值
中位数() 向量 x 的中值
总和() 向量 x 的和
变异 sd() 向量 x 的标准差
四分位间距() 向量 x 的四分位数
范围 分钟() 向量 x 的最小值
最大限度() 向量 x 的最大值
分位数() 向量 x 的分位数
职务 第一() 与 group_by() 一起使用对组进行首次观察
最后的() 与 group_by() 一起使用。该组的最后一次观察
第 n 个() 与 group_by() 一起使用。该组的第 n 次观察
计数 n() 与 group_by() 一起使用。统计行数
n_distinct() 与 group_by() 一起使用。计算不同观察值的数量

我们将看到表 1 中每个函数的示例。

基本功能

在前面的例子中,您没有将汇总统计数据存储在数据框中。

您可以按照两个步骤从摘要生成日期范围:

  • 步骤 1:存储数据框以供进一步使用
  • 步骤 2:使用数据集创建线图

步骤1) 计算每年玩过的游戏的平均场次。

## Mean
ex1 <- data % > %
	group_by(yearID) % > %
	summarise(mean_game_year = mean(G))
head(ex1)

代码说明

  • 击球数据集的摘要统计数据存储在数据框 ex1 中。

输出:

## # A tibble: 6 x 2
##   yearID mean_game_year
##    <int>          <dbl>
## 1   1871       23.42308
## 2   1872       18.37931
## 3   1873       25.61538
## 4   1874       39.05263
## 5   1875       28.39535
## 6   1876       35.90625	

步骤2) 您可以使用线图显示汇总统计数据并查看趋势。

# Plot the graph
ggplot(ex1, aes(x = yearID, y = mean_game_year)) +
    geom_line() +
    theme_classic() +
    labs(
        x = "Year",
        y = "Average games played",
        title = paste(
            "Average games played from 1871 to 2016"
        )
    )

输出:

基本函数示例

子集

函数 summarise() 与子集兼容。

## Subsetting + Median
data % > %
group_by(lgID) % > %
summarise(median_at_bat_league = median(AB), 
	#Compute the median without the zero 
	median_at_bat_league_no_zero = median(AB[AB > 0]))

代码说明

  • median_at_bat_league_no_zero = median(AB[AB > 0]): 变量 AB 包含大量 0。你可以比较 在蝙蝠 有或没有 0 的变量。

输出:

## # A tibble: 7 x 3
##     lgID median_at_bat_league median_at_bat_league_no_zero
##   <fctr>                <dbl>                        <dbl>
## 1     AA                  130                          131
## 2     AL                   38                           85
## 3     FL                   88                           97
## 4     NL                   56                           67
## 5     PL                  238                          238
## 6     UA                   35                           35
## 7   <NA>                  101                          101	

总和

另一个用于聚合变量的有用函数是 sum()。

您可以查看哪些联赛的本垒打更多。

## Sum
data % > %
	group_by(lgID) % > %
	summarise(sum_homerun_league = sum(HR))

输出:

## # A tibble: 7 x 2
##     lgID sum_homerun_league
##   <fctr>              <int>
## 1     AA                341
## 2     AL              29426
## 3     FL                130
## 4     NL              29817
## 5     PL                 98
## 6     UA                 46
## 7   <NA>                 41	

标准偏差

数据的分散性通过 R 中的标准差或 sd() 来计算。

# Spread
data % > %
	group_by(teamID) % > %
	summarise(sd_at_bat_league = sd(HR))

输出:

## # A tibble: 148 x 2
##    teamID sd_at_bat_league
##    <fctr>            <dbl>
##  1    ALT               NA
##  2    ANA        8.7816395
##  3    ARI        6.0765503
##  4    ATL        8.5363863
##  5    BAL        7.7350173
##  6    BFN        1.3645163
##  7    BFP        0.4472136
##  8    BL1        0.6992059
##  9    BL2        1.7106757
## 10    BL3        1.0000000
## # ... with 138 more rows		

各队本垒打数量存在很大差异。

最小值和最大值

您可以使用函数 min() 和 max() 访问向量的最小值和最大值。

下面的代码返回一名球员在一个赛季中参加的最低和最高比赛场次。

# Min and max
data % > %
	group_by(playerID) % > %
	summarise(min_G = min(G),
    max_G = max(G))

输出:

## # A tibble: 10,395 x 3
##     playerID min_G max_G
##       <fctr>       <int>
##  1 aardsda01    53    73
##  2 aaronha01   120   156
##  3  aasedo01    24    66
##  4  abadfe01    18    18
##  5 abadijo01    11    11
##  6 abbated01     3   153
##  7 abbeybe01    11    11
##  8 abbeych01    80   132
##  9 abbotgl01     5    23
## 10 abbotji01    13    29
## # ... with 10,385 more rows

计数

按组计数观察结果始终是一个好主意。使用 R,你可以使用 n() 汇总发生次数。

例如,下面的代码计算每个球员打球的年数。

# count observations
data % > %
	group_by(playerID) % > %
	summarise(number_year = n()) % > %
	arrange(desc(number_year))

输出:

## # A tibble: 10,395 x 2
##     playerID number_year
##       <fctr>       <int>
##  1 pennohe01          11
##  2 joosted01          10
##  3 mcguide01          10
##  4  rosepe01          10
##  5 davisha01           9
##  6 johnssi01           9
##  7  kaatji01           9
##  8 keelewi01           9
##  9 marshmi01           9
## 10 quirkja01           9
## # ... with 10,385 more rows

第一和最后

您可以选择一个组的第一个、最后一个或第 n 个位置。

例如,您可以找到每个球员的第一年和最后一年。

# first and last
data % > %
	group_by(playerID) % > %
	summarise(first_appearance = first(yearID),
		last_appearance = last(yearID))

输出:

## # A tibble: 10,395 x 3
##     playerID first_appearance last_appearance
##       <fctr>            <int>           <int>
##  1 aardsda01             2009            2010
##  2 aaronha01             1973            1975
##  3  aasedo01             1986            1990
##  4  abadfe01             2016            2016
##  5 abadijo01             1875            1875
##  6 abbated01             1905            1897
##  7 abbeybe01             1894            1894
##  8 abbeych01             1895            1897
##  9 abbotgl01             1973            1979
## 10 abbotji01             1992            1996
## # ... with 10,385 more rows

第 n 次观察

函数 nth() 与 first() 和 last() 互补。您可以使用要返回的索引访问组中的第 n 个观察值。

例如,您可以仅过滤某支球队比赛的第二年。

# nth
data % > %
	group_by(teamID) % > %
	summarise(second_game = nth(yearID, 2)) % > %
	arrange(second_game)

输出:

## # A tibble: 148 x 2
##    teamID second_game
##    <fctr>       <int>
##  1    BS1        1871
##  2    CH1        1871
##  3    FW1        1871
##  4    NY2        1871
##  5    RC1        1871
##  6    BR1        1872
##  7    BR2        1872
##  8    CL1        1872
##  9    MID        1872
## 10    TRO        1872
## # ... with 138 more rows

观察的不同数量

函数 n() 返回当前组中的观察值数量。n() 的一个封闭函数是 n_distinct(),它计算唯一值的数量。

在下一个例子中,您将一支球队在所有时期内招募的球员总数加起来。

# distinct values
data % > %
	group_by(teamID) % > %
	summarise(number_player = n_distinct(playerID)) % > %
	arrange(desc(number_player))

代码说明

  • group_by(teamID):按年份分组 团队
  • 总结(number_player = n_distinct(playerID)): 统计不同队伍的球员人数
  • 排列(desc(number_player)):按玩家数量对数据进行排序

输出:

## # A tibble: 148 x 2
##    teamID number_player
##    <fctr>         <int>
##  1    CHN           751
##  2    SLN           729
##  3    PHI           699
##  4    PIT           683
##  5    CIN           679
##  6    BOS           647
##  7    CLE           646
##  8    CHA           636
##  9    DET           623
## 10    NYA           612
## # ... with 138 more rows

多组

可实现多个组之间的汇总统计。

# Multiple groups
data % > %
	group_by(yearID, teamID) % > %
	summarise(mean_games = mean(G)) % > %
	arrange(desc(teamID, yearID))

代码说明

  • group_by(yearID, teamID): 按年份分组 团队
  • summarise(mean_games = mean(G)): 汇总游戏玩家数量
  • 排列(desc(teamID,yearID)):按团队和年份对数据进行排序

输出:

## # A tibble: 2,829 x 3
## # Groups:   yearID [146]
##    yearID teamID mean_games
##     <int> <fctr>      <dbl>
##  1   1884    WSU   20.41667
##  2   1891    WS9   46.33333
##  3   1886    WS8   22.00000
##  4   1887    WS8   51.00000
##  5   1888    WS8   27.00000
##  6   1889    WS8   52.42857
##  7   1884    WS7    8.00000
##  8   1875    WS6   14.80000
##  9   1873    WS5   16.62500
## 10   1872    WS4    4.20000
## # ... with 2,819 more rows

筛选

在进行操作之前,可以先过滤一下数据集,数据集从1871年开始,分析不需要1980年之前的年份。

# Filter
data % > %
	filter(yearID > 1980) % > %
	group_by(yearID) % > %
	summarise(mean_game_year = mean(G))

代码说明

  • filter(yearID > 1980):过滤数据以仅显示相关年份(即 1980 年以后)
  • group_by(yearID):按年份分组
  • summarise(mean_game_year = mean(G)):汇总数据

输出:

## # A tibble: 36 x 2
##    yearID mean_game_year
##     <int>          <dbl>
##  1   1981       40.64583
##  2   1982       56.97790
##  3   1983       60.25128
##  4   1984       62.97436
##  5   1985       57.82828
##  6   1986       58.55340
##  7   1987       48.74752
##  8   1988       52.57282
##  9   1989       58.16425
## 10   1990       52.91556
## # ... with 26 more rows

取消组合

最后但同样重要的一点是,在您想要更改计算级别之前,您需要删除分组。

# Ungroup the data
data % > %
	filter(HR > 0) % > %
	group_by(playerID) % > %
	summarise(average_HR_game = sum(HR) / sum(G)) % > %
	ungroup() % > %
	summarise(total_average_homerun = mean(average_HR_game))

代码说明

  • filter(HR >0) :排除零本垒打
  • group_by(playerID): 按玩家分组
  • summarise(average_HR_game = sum(HR)/sum(G)): 计算球员平均本垒打数
  • ungroup():取消分组
  • summarise(total_average_homerun = mean(average_HR_game)):汇总数据

输出:

## # A tibble: 1 x 1
##   total_average_homerun
##                   <dbl>
## 1            0.06882226	

总结

当您想要按组返回摘要时,可以使用:

# group by X1, X2, X3
group(df, X1, X2, X3)

您需要使用以下方法取消数据分组:

ungroup(df)

下表总结了你通过 summarise() 学到的功能

付款方式 功能 代码
意味着 意味着
summarise(df,mean_x1 = mean(x1))
中位数 中位数
summarise(df,median_x1 = median(x1))
总和 总和
summarise(df,sum_x1 = sum(x1))
标准偏差 sd
summarise(df,sd_x1 = sd(x1))
四分位数 智商
summarise(df,interquartile_x1 = IQR(x1))
最低限度 分钟
summarise(df,minimum_x1 = min(x1))
最多 最大
summarise(df,maximum_x1 = max(x1))
分位数 分位数
summarise(df,quantile_x1 = quantile(x1))
第一次观察 第一
summarise(df,first_x1 = first(x1))
最后的观察 最后
summarise(df,last_x1 = last(x1))
第 n 次观察 第XNUMX
summarise(df,nth_x1 = nth(x1, 2))
发生次数 n
summarise(df,n_x1 = n(x1))
不同发生次数 n_distinct
summarise(df,n_distinct _x1 = n_distinct(x1))