R 聚合函数:Summarise 和 Group_by() 示例
变量汇总对于了解数据非常重要。但是,按组汇总变量可以提供有关数据分布的更好信息。
在本教程中,您将学习如何使用 dplyr 库按组汇总数据集。
在本教程中,您将使用击球数据集。原始数据集包含 102816 个观测值和 22 个变量。您将仅使用此数据集的 20%,并使用以下变量:
- playerID:玩家ID代码。因素
- yearID: 年份。因素
- teamID:团队。因素
- lgID:联盟。因素:AA AL FL NL PL UA
- AB:击球数。数字
- G:游戏:玩家的游戏次数。数字
- R:运行。数值
- HR:本垒打。数字
- SH:牺牲命中。数值
在进行汇总之前,您将执行以下步骤来准备数据:
- 步骤 1:导入数据
- 第 2 步:选择相关变量
- 步骤 3:对数据进行排序
library(dplyr) # Step 1 data <- read.csv("https://raw.githubusercontent.com/guru99-edu/R-Programming/master/lahman-batting.csv") % > % # Step 2 select(c(playerID, yearID, AB, teamID, lgID, G, R, HR, SH)) % > % # Step 3 arrange(playerID, teamID, yearID)
导入数据集时,一个好的做法是使用 glimpse() 函数来了解数据集的结构。
# Structure of the data glimpse(data)
输出:
Observations: 104,324 Variables: 9 $ playerID <fctr> aardsda01, aardsda01, aardsda01, aardsda01, aardsda01, a... $ yearID <int> 2015, 2008, 2007, 2006, 2012, 2013, 2009, 2010, 2004, 196... $ AB <int> 1, 1, 0, 2, 0, 0, 0, 0, 0, 603, 600, 606, 547, 516, 495, ... $ teamID <fctr> ATL, BOS, CHA, CHN, NYA, NYN, SEA, SEA, SFN, ATL, ATL, A... $ lgID <fctr> NL, AL, AL, NL, AL, NL, AL, AL, NL, NL, NL, NL, NL, NL, ... $ G <int> 33, 47, 25, 45, 1, 43, 73, 53, 11, 158, 155, 160, 147, 15... $ R <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 117, 113, 84, 100, 103, 95, 75... $ HR <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 44, 39, 29, 44, 38, 47, 34, 40... $ SH <int> 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 6, ...
总结()
summarise() 的语法很基本,并且与 dplyr 库中包含的其他动词一致。
summarise(df, variable_name=condition) arguments: - `df`: Dataset used to construct the summary statistics - `variable_name=condition`: Formula to create the new variable
看看下面的代码:
summarise(data, mean_run =mean(R))
代码说明
- summarise(data, mean_run = mean(R)):创建一个名为 mean_run 的变量,它是数据集数据中列运行的平均值。
输出:
## mean_run ## 1 19.20114
你可以添加任意数量的变量。返回平均比赛场次和平均牺牲命中数。
summarise(data, mean_games = mean(G), mean_SH = mean(SH, na.rm = TRUE))
代码说明
- mean_SH = mean(SH, na.rm = TRUE):汇总第二个变量。您设置 na.rm = TRUE,因为 SH 列包含缺失的观测值。
输出:
## mean_games mean_SH ## 1 51.98361 2.340085
Group_by 与无 groupby
没有 group_by() 的函数 summerise() 没有任何意义。它按组创建汇总统计数据。库 dplyr 自动将函数应用于您在动词 group_by 中传递的组。
请注意,group_by 与所有其他动词(即 mutate()、filter()、arrange() 等)完美配合。
当您有多个步骤时,使用管道运算符会很方便。您可以计算棒球联盟的平均本垒打数。
data % > % group_by(lgID) % > % summarise(mean_run = mean(HR))
代码说明
- 数据:用于构建汇总统计数据的数据集
- group_by(lgID):通过对变量“lgID”进行分组来计算摘要
- summarise(mean_run = mean(HR)):计算平均本垒打数
输出:
## # A tibble: 7 x 2 ## lgID mean_run ## <fctr> <dbl> ## 1 AA 0.9166667 ## 2 AL 3.1270988 ## 3 FL 1.3131313 ## 4 NL 2.8595953 ## 5 PL 2.5789474 ## 6 UA 0.6216216 ## 7 <NA> 0.2867133
管道运算符也适用于 ggplot()。您可以轻松地用图表显示汇总统计数据。所有步骤都被推入管道内部,直到绘制出图表。用条形图查看联盟平均本垒打似乎更直观。下面的代码演示了将 group_by()、summarise() 和 ggplot() 结合在一起的强大功能。
您将执行以下步骤:
- 步骤 1:选择数据框
- 第 2 步:分组数据
- 步骤 3:汇总数据
- 步骤 4:绘制汇总统计数据
library(ggplot2) # Step 1 data % > % #Step 2 group_by(lgID) % > % #Step 3 summarise(mean_home_run = mean(HR)) % > % #Step 4 ggplot(aes(x = lgID, y = mean_home_run, fill = lgID)) + geom_bar(stat = "identity") + theme_classic() + labs( x = "baseball league", y = "Average home run", title = paste( "Example group_by() with summarise()" ) )
输出:
summarise() 中的函数
动词 summarise() 与 R 中的几乎所有函数兼容。下面是可以与 summarise() 一起使用的一些有用函数的简短列表:
目的 | 功能 | 描述 |
---|---|---|
基础 | 意思() | 向量 x 的平均值 |
中位数() | 向量 x 的中值 | |
总和() | 向量 x 的和 | |
变异 | sd() | 向量 x 的标准差 |
四分位间距() | 向量 x 的四分位数 | |
范围 | 分钟() | 向量 x 的最小值 |
最大限度() | 向量 x 的最大值 | |
分位数() | 向量 x 的分位数 | |
职务 | 第一() | 与 group_by() 一起使用对组进行首次观察 |
最后的() | 与 group_by() 一起使用。该组的最后一次观察 | |
第 n 个() | 与 group_by() 一起使用。该组的第 n 次观察 | |
计数 | n() | 与 group_by() 一起使用。统计行数 |
n_distinct() | 与 group_by() 一起使用。计算不同观察值的数量 |
我们将看到表 1 中每个函数的示例。
基本功能
在前面的例子中,您没有将汇总统计数据存储在数据框中。
您可以按照两个步骤从摘要生成日期范围:
- 步骤 1:存储数据框以供进一步使用
- 步骤 2:使用数据集创建线图
步骤1) 计算每年玩过的游戏的平均场次。
## Mean ex1 <- data % > % group_by(yearID) % > % summarise(mean_game_year = mean(G)) head(ex1)
代码说明
- 击球数据集的摘要统计数据存储在数据框 ex1 中。
输出:
## # A tibble: 6 x 2 ## yearID mean_game_year ## <int> <dbl> ## 1 1871 23.42308 ## 2 1872 18.37931 ## 3 1873 25.61538 ## 4 1874 39.05263 ## 5 1875 28.39535 ## 6 1876 35.90625
步骤2) 您可以使用线图显示汇总统计数据并查看趋势。
# Plot the graph ggplot(ex1, aes(x = yearID, y = mean_game_year)) + geom_line() + theme_classic() + labs( x = "Year", y = "Average games played", title = paste( "Average games played from 1871 to 2016" ) )
输出:
子集
函数 summarise() 与子集兼容。
## Subsetting + Median data % > % group_by(lgID) % > % summarise(median_at_bat_league = median(AB), #Compute the median without the zero median_at_bat_league_no_zero = median(AB[AB > 0]))
代码说明
- median_at_bat_league_no_zero = median(AB[AB > 0]): 变量 AB 包含大量 0。你可以比较 在蝙蝠 有或没有 0 的变量。
输出:
## # A tibble: 7 x 3 ## lgID median_at_bat_league median_at_bat_league_no_zero ## <fctr> <dbl> <dbl> ## 1 AA 130 131 ## 2 AL 38 85 ## 3 FL 88 97 ## 4 NL 56 67 ## 5 PL 238 238 ## 6 UA 35 35 ## 7 <NA> 101 101
总和
另一个用于聚合变量的有用函数是 sum()。
您可以查看哪些联赛的本垒打更多。
## Sum data % > % group_by(lgID) % > % summarise(sum_homerun_league = sum(HR))
输出:
## # A tibble: 7 x 2 ## lgID sum_homerun_league ## <fctr> <int> ## 1 AA 341 ## 2 AL 29426 ## 3 FL 130 ## 4 NL 29817 ## 5 PL 98 ## 6 UA 46 ## 7 <NA> 41
标准偏差
数据的分散性通过 R 中的标准差或 sd() 来计算。
# Spread data % > % group_by(teamID) % > % summarise(sd_at_bat_league = sd(HR))
输出:
## # A tibble: 148 x 2 ## teamID sd_at_bat_league ## <fctr> <dbl> ## 1 ALT NA ## 2 ANA 8.7816395 ## 3 ARI 6.0765503 ## 4 ATL 8.5363863 ## 5 BAL 7.7350173 ## 6 BFN 1.3645163 ## 7 BFP 0.4472136 ## 8 BL1 0.6992059 ## 9 BL2 1.7106757 ## 10 BL3 1.0000000 ## # ... with 138 more rows
各队本垒打数量存在很大差异。
最小值和最大值
您可以使用函数 min() 和 max() 访问向量的最小值和最大值。
下面的代码返回一名球员在一个赛季中参加的最低和最高比赛场次。
# Min and max data % > % group_by(playerID) % > % summarise(min_G = min(G), max_G = max(G))
输出:
## # A tibble: 10,395 x 3 ## playerID min_G max_G ## <fctr> <int> ## 1 aardsda01 53 73 ## 2 aaronha01 120 156 ## 3 aasedo01 24 66 ## 4 abadfe01 18 18 ## 5 abadijo01 11 11 ## 6 abbated01 3 153 ## 7 abbeybe01 11 11 ## 8 abbeych01 80 132 ## 9 abbotgl01 5 23 ## 10 abbotji01 13 29 ## # ... with 10,385 more rows
计数
按组计数观察结果始终是一个好主意。使用 R,你可以使用 n() 汇总发生次数。
例如,下面的代码计算每个球员打球的年数。
# count observations data % > % group_by(playerID) % > % summarise(number_year = n()) % > % arrange(desc(number_year))
输出:
## # A tibble: 10,395 x 2 ## playerID number_year ## <fctr> <int> ## 1 pennohe01 11 ## 2 joosted01 10 ## 3 mcguide01 10 ## 4 rosepe01 10 ## 5 davisha01 9 ## 6 johnssi01 9 ## 7 kaatji01 9 ## 8 keelewi01 9 ## 9 marshmi01 9 ## 10 quirkja01 9 ## # ... with 10,385 more rows
第一和最后
您可以选择一个组的第一个、最后一个或第 n 个位置。
例如,您可以找到每个球员的第一年和最后一年。
# first and last data % > % group_by(playerID) % > % summarise(first_appearance = first(yearID), last_appearance = last(yearID))
输出:
## # A tibble: 10,395 x 3 ## playerID first_appearance last_appearance ## <fctr> <int> <int> ## 1 aardsda01 2009 2010 ## 2 aaronha01 1973 1975 ## 3 aasedo01 1986 1990 ## 4 abadfe01 2016 2016 ## 5 abadijo01 1875 1875 ## 6 abbated01 1905 1897 ## 7 abbeybe01 1894 1894 ## 8 abbeych01 1895 1897 ## 9 abbotgl01 1973 1979 ## 10 abbotji01 1992 1996 ## # ... with 10,385 more rows
第 n 次观察
函数 nth() 与 first() 和 last() 互补。您可以使用要返回的索引访问组中的第 n 个观察值。
例如,您可以仅过滤某支球队比赛的第二年。
# nth data % > % group_by(teamID) % > % summarise(second_game = nth(yearID, 2)) % > % arrange(second_game)
输出:
## # A tibble: 148 x 2 ## teamID second_game ## <fctr> <int> ## 1 BS1 1871 ## 2 CH1 1871 ## 3 FW1 1871 ## 4 NY2 1871 ## 5 RC1 1871 ## 6 BR1 1872 ## 7 BR2 1872 ## 8 CL1 1872 ## 9 MID 1872 ## 10 TRO 1872 ## # ... with 138 more rows
观察的不同数量
函数 n() 返回当前组中的观察值数量。n() 的一个封闭函数是 n_distinct(),它计算唯一值的数量。
在下一个例子中,您将一支球队在所有时期内招募的球员总数加起来。
# distinct values data % > % group_by(teamID) % > % summarise(number_player = n_distinct(playerID)) % > % arrange(desc(number_player))
代码说明
- group_by(teamID):按年份分组 和 团队
- 总结(number_player = n_distinct(playerID)): 统计不同队伍的球员人数
- 排列(desc(number_player)):按玩家数量对数据进行排序
输出:
## # A tibble: 148 x 2 ## teamID number_player ## <fctr> <int> ## 1 CHN 751 ## 2 SLN 729 ## 3 PHI 699 ## 4 PIT 683 ## 5 CIN 679 ## 6 BOS 647 ## 7 CLE 646 ## 8 CHA 636 ## 9 DET 623 ## 10 NYA 612 ## # ... with 138 more rows
多组
可实现多个组之间的汇总统计。
# Multiple groups data % > % group_by(yearID, teamID) % > % summarise(mean_games = mean(G)) % > % arrange(desc(teamID, yearID))
代码说明
- group_by(yearID, teamID): 按年份分组 和 团队
- summarise(mean_games = mean(G)): 汇总游戏玩家数量
- 排列(desc(teamID,yearID)):按团队和年份对数据进行排序
输出:
## # A tibble: 2,829 x 3 ## # Groups: yearID [146] ## yearID teamID mean_games ## <int> <fctr> <dbl> ## 1 1884 WSU 20.41667 ## 2 1891 WS9 46.33333 ## 3 1886 WS8 22.00000 ## 4 1887 WS8 51.00000 ## 5 1888 WS8 27.00000 ## 6 1889 WS8 52.42857 ## 7 1884 WS7 8.00000 ## 8 1875 WS6 14.80000 ## 9 1873 WS5 16.62500 ## 10 1872 WS4 4.20000 ## # ... with 2,819 more rows
筛选
在进行操作之前,可以先过滤一下数据集,数据集从1871年开始,分析不需要1980年之前的年份。
# Filter data % > % filter(yearID > 1980) % > % group_by(yearID) % > % summarise(mean_game_year = mean(G))
代码说明
- filter(yearID > 1980):过滤数据以仅显示相关年份(即 1980 年以后)
- group_by(yearID):按年份分组
- summarise(mean_game_year = mean(G)):汇总数据
输出:
## # A tibble: 36 x 2 ## yearID mean_game_year ## <int> <dbl> ## 1 1981 40.64583 ## 2 1982 56.97790 ## 3 1983 60.25128 ## 4 1984 62.97436 ## 5 1985 57.82828 ## 6 1986 58.55340 ## 7 1987 48.74752 ## 8 1988 52.57282 ## 9 1989 58.16425 ## 10 1990 52.91556 ## # ... with 26 more rows
取消组合
最后但同样重要的一点是,在您想要更改计算级别之前,您需要删除分组。
# Ungroup the data data % > % filter(HR > 0) % > % group_by(playerID) % > % summarise(average_HR_game = sum(HR) / sum(G)) % > % ungroup() % > % summarise(total_average_homerun = mean(average_HR_game))
代码说明
- filter(HR >0) :排除零本垒打
- group_by(playerID): 按玩家分组
- summarise(average_HR_game = sum(HR)/sum(G)): 计算球员平均本垒打数
- ungroup():取消分组
- summarise(total_average_homerun = mean(average_HR_game)):汇总数据
输出:
## # A tibble: 1 x 1 ## total_average_homerun ## <dbl> ## 1 0.06882226
总结
当您想要按组返回摘要时,可以使用:
# group by X1, X2, X3 group(df, X1, X2, X3)
您需要使用以下方法取消数据分组:
ungroup(df)
下表总结了你通过 summarise() 学到的功能
付款方式 | 功能 | 代码 |
---|---|---|
意味着 | 意味着 |
summarise(df,mean_x1 = mean(x1)) |
中位数 | 中位数 |
summarise(df,median_x1 = median(x1)) |
总和 | 总和 |
summarise(df,sum_x1 = sum(x1)) |
标准偏差 | sd |
summarise(df,sd_x1 = sd(x1)) |
四分位数 | 智商 |
summarise(df,interquartile_x1 = IQR(x1)) |
最低限度 | 分钟 |
summarise(df,minimum_x1 = min(x1)) |
最多 | 最大 |
summarise(df,maximum_x1 = max(x1)) |
分位数 | 分位数 |
summarise(df,quantile_x1 = quantile(x1)) |
第一次观察 | 第一 |
summarise(df,first_x1 = first(x1)) |
最后的观察 | 最后 |
summarise(df,last_x1 = last(x1)) |
第 n 次观察 | 第XNUMX |
summarise(df,nth_x1 = nth(x1, 2)) |
发生次数 | n |
summarise(df,n_x1 = n(x1)) |
不同发生次数 | n_distinct |
summarise(df,n_distinct _x1 = n_distinct(x1)) |