Hàm tổng hợp R: Ví dụ tóm tắt & Group_by()

Tóm tắt một biến là điều quan trọng để có ý tưởng về dữ liệu. Mặc dù vậy, việc tóm tắt một biến theo nhóm sẽ cung cấp thông tin tốt hơn về việc phân bổ dữ liệu.

Trong hướng dẫn này, bạn sẽ tìm hiểu cách tóm tắt tập dữ liệu theo nhóm bằng thư viện dplyr.

Đối với hướng dẫn này, bạn sẽ sử dụng tập dữ liệu đánh bóng. Tập dữ liệu gốc chứa 102816 quan sát và 22 biến. Bạn sẽ chỉ sử dụng 20 phần trăm của tập dữ liệu này và sử dụng các biến sau:

  • playerID: Mã ID người chơi. Nhân tố
  • nămID: Năm. Nhân tố
  • teamID: Đội. nhân tố
  • lgID: Liên đoàn. Hệ số: AA AL FL NL PL UA
  • AB: Ở con dơi. số
  • G: Games: số trận đấu của một người chơi. số
  • R: Chạy. số
  • Nhân sự: Homeruns. số
  • SH: Những đòn hy sinh. số

Trước khi thực hiện tóm tắt, bạn sẽ thực hiện các bước sau để chuẩn bị dữ liệu:

  • Bước 1: Nhập dữ liệu
  • Bước 2: Chọn các biến liên quan
  • Bước 3: Sắp xếp dữ liệu
library(dplyr)

# Step 1
data <- read.csv("https://raw.githubusercontent.com/guru99-edu/R-Programming/master/lahman-batting.csv") % > %

# Step 2
select(c(playerID, yearID, AB, teamID, lgID, G, R, HR, SH))  % > % 

# Step 3
arrange(playerID, teamID, yearID)

Một cách tốt khi bạn nhập tập dữ liệu là sử dụng hàm look() để biết về cấu trúc của tập dữ liệu.

# Structure of the data
glimpse(data)

Đầu ra:

Observations: 104,324
Variables: 9
$ playerID <fctr> aardsda01, aardsda01, aardsda01, aardsda01, aardsda01, a...
$ yearID   <int> 2015, 2008, 2007, 2006, 2012, 2013, 2009, 2010, 2004, 196...
$ AB       <int> 1, 1, 0, 2, 0, 0, 0, 0, 0, 603, 600, 606, 547, 516, 495, ...
$ teamID   <fctr> ATL, BOS, CHA, CHN, NYA, NYN, SEA, SEA, SFN, ATL, ATL, A...
$ lgID     <fctr> NL, AL, AL, NL, AL, NL, AL, AL, NL, NL, NL, NL, NL, NL, ...
$ G        <int> 33, 47, 25, 45, 1, 43, 73, 53, 11, 158, 155, 160, 147, 15...
$ R        <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 117, 113, 84, 100, 103, 95, 75...
$ HR       <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 44, 39, 29, 44, 38, 47, 34, 40...
$ SH       <int> 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 6, ...

Tóm tắt()

Cú pháp của summarise() là cơ bản và nhất quán với các động từ khác có trong thư viện dplyr.

summarise(df, variable_name=condition) 
arguments: 
- `df`: Dataset used to construct the summary statistics 
- `variable_name=condition`: Formula to create the new variable

Nhìn vào đoạn mã dưới đây:

summarise(data, mean_run =mean(R))

Giải thích mã

  • tóm tắt (dữ liệu, Mean_run = Mean(R)): Tạo một biến có tên Mean_run là giá trị trung bình của cột chạy từ dữ liệu tập dữ liệu.

Đầu ra:

##   mean_run
## 1 19.20114

Bạn có thể thêm bao nhiêu biến tùy thích. Bạn trả lại số trò chơi trung bình đã chơi và số lần hy sinh trung bình.

summarise(data, mean_games = mean(G),
    mean_SH = mean(SH, na.rm = TRUE))

Giải thích mã

  • Mean_SH = Mean(SH, na.rm = TRUE): Tổng hợp biến thứ 2. Bạn đặt na.rm = TRUE vì cột SH chứa các quan sát bị thiếu.

Đầu ra:

##   mean_games  mean_SH
## 1   51.98361 2.340085

Group_by so với không có nhóm_by

Hàm summerise() không có group_by() sẽ không có ý nghĩa gì. Nó tạo ra số liệu thống kê tóm tắt theo nhóm. Thư viện dplyr tự động áp dụng một hàm cho nhóm bạn đã chuyển vào bên trong động từ group_by.

Lưu ý rằng, group_by hoạt động hoàn hảo với tất cả các động từ khác (tức là mutate(), filter(), sắp xếp(), …).

Sẽ rất thuận tiện khi sử dụng toán tử đường ống khi bạn có nhiều bước. Bạn có thể tính toán homerun trung bình theo giải đấu bóng chày.

data % > %
	group_by(lgID) % > %
	summarise(mean_run = mean(HR))

Giải thích mã

  • dữ liệu: Tập dữ liệu được sử dụng để xây dựng số liệu thống kê tóm tắt
  • group_by(lgID): Tính toán tóm tắt bằng cách nhóm biến `lgID
  • tóm tắt(mean_run = Mean(HR)): Tính homerun trung bình

Đầu ra:

## 
# A tibble: 7 x 2
##     lgID  mean_run
##   <fctr>     <dbl>
## 1     AA 0.9166667
## 2     AL 3.1270988
## 3     FL 1.3131313
## 4     NL 2.8595953
## 5     PL 2.5789474
## 6     UA 0.6216216
## 7   <NA> 0.2867133	

Toán tử đường ống cũng hoạt động với ggplot(). Bạn có thể dễ dàng hiển thị số liệu thống kê tóm tắt bằng biểu đồ. Tất cả các bước được đẩy vào bên trong đường ống cho đến khi biểu đồ được vẽ. Có vẻ trực quan hơn khi xem homerun trung bình theo giải đấu với một thanh char. Đoạn mã dưới đây thể hiện sức mạnh của việc kết hợp group_by(), summarise() và ggplot() với nhau.

Bạn sẽ thực hiện các bước sau:

  • Bước 1: Chọn khung dữ liệu
  • Bước 2: Nhóm dữ liệu
  • Bước 3: Tóm tắt dữ liệu
  • Bước 4: Vẽ biểu đồ thống kê tóm tắt
library(ggplot2)
# Step 1
data % > % 
#Step 2
group_by(lgID) % > % 
#Step 3
summarise(mean_home_run = mean(HR)) % > % 
#Step 4
ggplot(aes(x = lgID, y = mean_home_run, fill = lgID)) +
    geom_bar(stat = "identity") +
    theme_classic() +
    labs(
        x = "baseball league",
        y = "Average home run",
        title = paste(
            "Example group_by() with summarise()"
        )
    )

Đầu ra:

Ví dụ Group_by với Tóm tắt

Tóm tắt hàm()

Động từ summarise() tương thích với hầu hết tất cả các hàm trong R. Dưới đây là danh sách ngắn các hàm hữu ích mà bạn có thể sử dụng cùng với summarise():

Mục tiêu Chức năng Mô tả
Cơ bản bần tiện() Trung bình của vectơ x
Trung bình() Trung vị của vectơ x
Tổng() Tổng vectơ x
biến thể sd() độ lệch chuẩn của vectơ x
IQR() Tứ phân vị của vectơ x
Phạm vi min () Tối thiểu của vectơ x
max () Tối đa của vectơ x
lượng tử() Lượng tử của vectơ x
Chức vụ đầu tiên() Sử dụng với group_by() Quan sát đầu tiên của nhóm
cuối cùng() Sử dụng với group_by(). Quan sát cuối cùng của nhóm
thứ n() Sử dụng với group_by(). quan sát thứ n của nhóm
Đếm n () Sử dụng với group_by(). Đếm số hàng
n_distinct() Sử dụng với group_by(). Đếm số lượng quan sát riêng biệt

Chúng ta sẽ xem các ví dụ cho mọi chức năng của bảng 1.

Chức năng cơ bản

Trong ví dụ trước, bạn không lưu trữ số liệu thống kê tóm tắt trong khung dữ liệu.

Bạn có thể tiến hành theo hai bước để tạo khung ngày từ bản tóm tắt:

  • Bước 1: Lưu trữ khung dữ liệu để sử dụng tiếp
  • Bước 2: Sử dụng tập dữ liệu để tạo biểu đồ đường

Bước 1) Bạn tính số lượng trò chơi trung bình được chơi theo năm.

## Mean
ex1 <- data % > %
	group_by(yearID) % > %
	summarise(mean_game_year = mean(G))
head(ex1)

Giải thích mã

  • Thống kê tóm tắt về tập dữ liệu đánh bóng được lưu trữ trong khung dữ liệu ex1.

Đầu ra:

## # A tibble: 6 x 2
##   yearID mean_game_year
##    <int>          <dbl>
## 1   1871       23.42308
## 2   1872       18.37931
## 3   1873       25.61538
## 4   1874       39.05263
## 5   1875       28.39535
## 6   1876       35.90625	

Bước 2) Bạn hiển thị số liệu thống kê tóm tắt bằng biểu đồ đường và xem xu hướng.

# Plot the graph
ggplot(ex1, aes(x = yearID, y = mean_game_year)) +
    geom_line() +
    theme_classic() +
    labs(
        x = "Year",
        y = "Average games played",
        title = paste(
            "Average games played from 1871 to 2016"
        )
    )

Đầu ra:

Ví dụ về hàm cơ bản

Thiết lập con

Hàm tóm tắt() tương thích với tập hợp con.

## Subsetting + Median
data % > %
group_by(lgID) % > %
summarise(median_at_bat_league = median(AB), 
	#Compute the median without the zero 
	median_at_bat_league_no_zero = median(AB[AB > 0]))

Giải thích mã

  • trung vị_at_bat_league_no_zero = trung vị(AB[AB > 0]): Biến AB chứa nhiều số 0. Bạn có thể so sánh trung vị của tại dơi biến có và không có 0.

Đầu ra:

## # A tibble: 7 x 3
##     lgID median_at_bat_league median_at_bat_league_no_zero
##   <fctr>                <dbl>                        <dbl>
## 1     AA                  130                          131
## 2     AL                   38                           85
## 3     FL                   88                           97
## 4     NL                   56                           67
## 5     PL                  238                          238
## 6     UA                   35                           35
## 7   <NA>                  101                          101	

Tổng

Một hàm hữu ích khác để tổng hợp biến là sum().

Bạn có thể kiểm tra xem giải đấu nào có nhiều homerun hơn.

## Sum
data % > %
	group_by(lgID) % > %
	summarise(sum_homerun_league = sum(HR))

Đầu ra:

## # A tibble: 7 x 2
##     lgID sum_homerun_league
##   <fctr>              <int>
## 1     AA                341
## 2     AL              29426
## 3     FL                130
## 4     NL              29817
## 5     PL                 98
## 6     UA                 46
## 7   <NA>                 41	

Độ lệch chuẩn

Độ trải rộng của dữ liệu được tính bằng độ lệch chuẩn hoặc sd() trong R.

# Spread
data % > %
	group_by(teamID) % > %
	summarise(sd_at_bat_league = sd(HR))

Đầu ra:

## # A tibble: 148 x 2
##    teamID sd_at_bat_league
##    <fctr>            <dbl>
##  1    ALT               NA
##  2    ANA        8.7816395
##  3    ARI        6.0765503
##  4    ATL        8.5363863
##  5    BAL        7.7350173
##  6    BFN        1.3645163
##  7    BFP        0.4472136
##  8    BL1        0.6992059
##  9    BL2        1.7106757
## 10    BL3        1.0000000
## # ... with 138 more rows		

Có rất nhiều sự không đồng đều về số lượng homerun được thực hiện bởi mỗi đội.

Tối thiểu và tối đa

Bạn có thể truy cập mức tối thiểu và tối đa của một vectơ bằng hàm min() và max().

Mã bên dưới trả về số trận đấu thấp nhất và cao nhất trong một mùa giải mà một người chơi đã chơi.

# Min and max
data % > %
	group_by(playerID) % > %
	summarise(min_G = min(G),
    max_G = max(G))

Đầu ra:

## # A tibble: 10,395 x 3
##     playerID min_G max_G
##       <fctr>       <int>
##  1 aardsda01    53    73
##  2 aaronha01   120   156
##  3  aasedo01    24    66
##  4  abadfe01    18    18
##  5 abadijo01    11    11
##  6 abbated01     3   153
##  7 abbeybe01    11    11
##  8 abbeych01    80   132
##  9 abbotgl01     5    23
## 10 abbotji01    13    29
## # ... with 10,385 more rows

Đếm

Đếm các quan sát theo nhóm luôn là một ý tưởng hay. Với R, bạn có thể tổng hợp số lần xuất hiện bằng n().

Ví dụ: mã bên dưới tính số năm chơi của mỗi người chơi.

# count observations
data % > %
	group_by(playerID) % > %
	summarise(number_year = n()) % > %
	arrange(desc(number_year))

Đầu ra:

## # A tibble: 10,395 x 2
##     playerID number_year
##       <fctr>       <int>
##  1 pennohe01          11
##  2 joosted01          10
##  3 mcguide01          10
##  4  rosepe01          10
##  5 davisha01           9
##  6 johnssi01           9
##  7  kaatji01           9
##  8 keelewi01           9
##  9 marshmi01           9
## 10 quirkja01           9
## # ... with 10,385 more rows

Đầu tiên và cuối cùng

Bạn có thể chọn vị trí đầu tiên, cuối cùng hoặc thứ n của một nhóm.

Ví dụ: bạn có thể tìm thấy năm đầu tiên và năm cuối cùng của mỗi người chơi.

# first and last
data % > %
	group_by(playerID) % > %
	summarise(first_appearance = first(yearID),
		last_appearance = last(yearID))

Đầu ra:

## # A tibble: 10,395 x 3
##     playerID first_appearance last_appearance
##       <fctr>            <int>           <int>
##  1 aardsda01             2009            2010
##  2 aaronha01             1973            1975
##  3  aasedo01             1986            1990
##  4  abadfe01             2016            2016
##  5 abadijo01             1875            1875
##  6 abbated01             1905            1897
##  7 abbeybe01             1894            1894
##  8 abbeych01             1895            1897
##  9 abbotgl01             1973            1979
## 10 abbotji01             1992            1996
## # ... with 10,385 more rows

quan sát thứ n

Chức năng nth() bổ sung cho First() và Last(). Bạn có thể truy cập quan sát thứ n trong một nhóm có chỉ mục để trả về.

Ví dụ: bạn chỉ có thể lọc năm thứ hai mà một đội đã thi đấu.

# nth
data % > %
	group_by(teamID) % > %
	summarise(second_game = nth(yearID, 2)) % > %
	arrange(second_game)

Đầu ra:

## # A tibble: 148 x 2
##    teamID second_game
##    <fctr>       <int>
##  1    BS1        1871
##  2    CH1        1871
##  3    FW1        1871
##  4    NY2        1871
##  5    RC1        1871
##  6    BR1        1872
##  7    BR2        1872
##  8    CL1        1872
##  9    MID        1872
## 10    TRO        1872
## # ... with 138 more rows

Số lượng quan sát khác biệt

Hàm n() trả về số lượng quan sát trong nhóm hiện tại. Hàm đóng của n() là n_distinct(), đếm số lượng giá trị duy nhất.

Trong ví dụ tiếp theo, bạn cộng tổng số cầu thủ mà một đội đã tuyển dụng trong tất cả các giai đoạn.

# distinct values
data % > %
	group_by(teamID) % > %
	summarise(number_player = n_distinct(playerID)) % > %
	arrange(desc(number_player))

Giải thích mã

  • group_by(teamID): Nhóm theo năm nhóm
  • tóm tắt(number_player = n_khác biệt(playerID)): Đếm số lượng người chơi riêng biệt theo đội
  • sắp xếp(desc(number_player)): Sắp xếp dữ liệu theo số lượng người chơi

Đầu ra:

## # A tibble: 148 x 2
##    teamID number_player
##    <fctr>         <int>
##  1    CHN           751
##  2    SLN           729
##  3    PHI           699
##  4    PIT           683
##  5    CIN           679
##  6    BOS           647
##  7    CLE           646
##  8    CHA           636
##  9    DET           623
## 10    NYA           612
## # ... with 138 more rows

Nhiều nhóm

Một thống kê tóm tắt có thể được thực hiện giữa nhiều nhóm.

# Multiple groups
data % > %
	group_by(yearID, teamID) % > %
	summarise(mean_games = mean(G)) % > %
	arrange(desc(teamID, yearID))

Giải thích mã

  • group_by(yearID, teamID): Nhóm theo năm nhóm
  • summarise(mean_games = Mean(G)): Tổng hợp số lượng người chơi game
  • sắp xếp(desc(teamID, YearID)): Sắp xếp dữ liệu theo nhóm và năm

Đầu ra:

## # A tibble: 2,829 x 3
## # Groups:   yearID [146]
##    yearID teamID mean_games
##     <int> <fctr>      <dbl>
##  1   1884    WSU   20.41667
##  2   1891    WS9   46.33333
##  3   1886    WS8   22.00000
##  4   1887    WS8   51.00000
##  5   1888    WS8   27.00000
##  6   1889    WS8   52.42857
##  7   1884    WS7    8.00000
##  8   1875    WS6   14.80000
##  9   1873    WS5   16.62500
## 10   1872    WS4    4.20000
## # ... with 2,819 more rows

Lọc

Trước khi định thực hiện một thao tác, bạn có thể lọc tập dữ liệu. Tập dữ liệu bắt đầu vào năm 1871 và việc phân tích không cần những năm trước năm 1980.

# Filter
data % > %
	filter(yearID > 1980) % > %
	group_by(yearID) % > %
	summarise(mean_game_year = mean(G))

Giải thích mã

  • filter(yearID > 1980): Lọc dữ liệu để chỉ hiển thị các năm liên quan (tức là sau năm 1980)
  • group_by(yearID): Nhóm theo năm
  • summarise(mean_game_year = Mean(G)): Tóm tắt dữ liệu

Đầu ra:

## # A tibble: 36 x 2
##    yearID mean_game_year
##     <int>          <dbl>
##  1   1981       40.64583
##  2   1982       56.97790
##  3   1983       60.25128
##  4   1984       62.97436
##  5   1985       57.82828
##  6   1986       58.55340
##  7   1987       48.74752
##  8   1988       52.57282
##  9   1989       58.16425
## 10   1990       52.91556
## # ... with 26 more rows

Cuối cùng nhưng không kém phần quan trọng, bạn cần xóa nhóm trước khi muốn thay đổi mức độ tính toán.

# Ungroup the data
data % > %
	filter(HR > 0) % > %
	group_by(playerID) % > %
	summarise(average_HR_game = sum(HR) / sum(G)) % > %
	ungroup() % > %
	summarise(total_average_homerun = mean(average_HR_game))

Giải thích mã

  • filter(HR >0) : Loại trừ zero homerun
  • group_by(playerID): nhóm theo người chơi
  • tóm tắt(average_HR_game = sum(HR)/sum(G)): Tính homerun trung bình của người chơi
  • ungroup(): xóa nhóm
  • summarise(total_average_homerun =mean(average_HR_game)): Tóm tắt dữ liệu

Đầu ra:

## # A tibble: 1 x 1
##   total_average_homerun
##                   <dbl>
## 1            0.06882226	

Tổng kết

Khi bạn muốn trả về một bản tóm tắt theo nhóm, bạn có thể sử dụng:

# group by X1, X2, X3
group(df, X1, X2, X3)

bạn cần rã nhóm dữ liệu với:

ungroup(df)

Bảng dưới đây tóm tắt hàm bạn đã học với summarise()

Phương pháp Chức năng
nghĩa là nghĩa là
summarise(df,mean_x1 = mean(x1))
trung vị trung vị
summarise(df,median_x1 = median(x1))
tổng hợp tổng hợp
summarise(df,sum_x1 = sum(x1))
độ lệch chuẩn sd
summarise(df,sd_x1 = sd(x1))
tứ phân vị I.Q.R.
summarise(df,interquartile_x1 = IQR(x1))
tối thiểu phút
summarise(df,minimum_x1 = min(x1))
tối đa tối đa
summarise(df,maximum_x1 = max(x1))
lượng tử lượng tử
summarise(df,quantile_x1 = quantile(x1))
quan sát đầu tiên Thành phố điện khí hóa phía tây dãy núi Rocky đầu tiên
summarise(df,first_x1 = first(x1))
quan sát cuối cùng cuối cùng
summarise(df,last_x1 = last(x1))
quan sát thứ n thứ n
summarise(df,nth_x1 = nth(x1, 2))
số lần xuất hiện n
summarise(df,n_x1 = n(x1))
số lần xuất hiện khác biệt n_khác biệt
summarise(df,n_distinct _x1 = n_distinct(x1))