ฟังก์ชัน R Aggregate: ตัวอย่าง Summarise และ Group_by()

การสรุปตัวแปรเป็นสิ่งสำคัญในการทราบข้อมูล แม้ว่าการสรุปตัวแปรตามกลุ่มจะให้ข้อมูลที่ดีกว่าเกี่ยวกับการกระจายตัวของข้อมูลก็ตาม

ในบทช่วยสอนนี้ คุณจะได้เรียนรู้วิธีสรุปชุดข้อมูลตามกลุ่มด้วยไลบรารี dplyr

สำหรับบทช่วยสอนนี้ คุณจะใช้ชุดข้อมูลการตี ชุดข้อมูลดั้งเดิมประกอบด้วยการสังเกต 102816 รายการและตัวแปร 22 ตัว คุณจะใช้เพียง 20 เปอร์เซ็นต์ของชุดข้อมูลนี้และใช้ตัวแปรต่อไปนี้:

  • playerID: รหัสประจำตัวผู้เล่น ปัจจัย
  • รหัสปี: ปี ปัจจัย
  • รหัสทีม: ทีม. ปัจจัย
  • lgID: ลีก. ปัจจัย: AA อัล ชั้น NL PL UA
  • AB: ที่ค้างคาว ตัวเลข
  • G: เกม: จำนวนเกมโดยผู้เล่น ตัวเลข
  • ร: วิ่ง ตัวเลข
  • HR: โฮมรัน ตัวเลข
  • SH: การสังเวยเพลงฮิต. ตัวเลข

ก่อนที่จะทำการสรุป คุณจะต้องดำเนินการตามขั้นตอนต่อไปนี้เพื่อเตรียมข้อมูล:

  • ขั้นตอนที่ 1: นำเข้าข้อมูล
  • ขั้นตอนที่ 2: เลือกตัวแปรที่เกี่ยวข้อง
  • ขั้นตอนที่ 3: จัดเรียงข้อมูล
library(dplyr)

# Step 1
data <- read.csv("https://raw.githubusercontent.com/guru99-edu/R-Programming/master/lahman-batting.csv") % > %

# Step 2
select(c(playerID, yearID, AB, teamID, lgID, G, R, HR, SH))  % > % 

# Step 3
arrange(playerID, teamID, yearID)

แนวปฏิบัติที่ดีเมื่อคุณนำเข้าชุดข้อมูลคือการใช้ฟังก์ชัน glimpse() เพื่อให้ทราบแนวคิดเกี่ยวกับโครงสร้างของชุดข้อมูล

# Structure of the data
glimpse(data)

Output:

Observations: 104,324
Variables: 9
$ playerID <fctr> aardsda01, aardsda01, aardsda01, aardsda01, aardsda01, a...
$ yearID   <int> 2015, 2008, 2007, 2006, 2012, 2013, 2009, 2010, 2004, 196...
$ AB       <int> 1, 1, 0, 2, 0, 0, 0, 0, 0, 603, 600, 606, 547, 516, 495, ...
$ teamID   <fctr> ATL, BOS, CHA, CHN, NYA, NYN, SEA, SEA, SFN, ATL, ATL, A...
$ lgID     <fctr> NL, AL, AL, NL, AL, NL, AL, AL, NL, NL, NL, NL, NL, NL, ...
$ G        <int> 33, 47, 25, 45, 1, 43, 73, 53, 11, 158, 155, 160, 147, 15...
$ R        <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 117, 113, 84, 100, 103, 95, 75...
$ HR       <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 44, 39, 29, 44, 38, 47, 34, 40...
$ SH       <int> 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 6, ...

สรุป()

รูปแบบโครงสร้างของ summarise() เป็นแบบพื้นฐานและสอดคล้องกับคำกริยาอื่นๆ ที่รวมอยู่ในไลบรารี dplyr

summarise(df, variable_name=condition) 
arguments: 
- `df`: Dataset used to construct the summary statistics 
- `variable_name=condition`: Formula to create the new variable

ดูรหัสด้านล่าง:

summarise(data, mean_run =mean(R))

คำอธิบายรหัส

  • summarise(data, mean_run = mean(R)): สร้างตัวแปรชื่อ mean_run ซึ่งเป็นค่าเฉลี่ยของคอลัมน์ที่รันจากข้อมูลชุดข้อมูล

Output:

##   mean_run
## 1 19.20114

คุณสามารถเพิ่มตัวแปรได้มากเท่าที่คุณต้องการ โดยจะคืนค่าเกมเฉลี่ยที่เล่นและค่าเสียสละเฉลี่ย

summarise(data, mean_games = mean(G),
    mean_SH = mean(SH, na.rm = TRUE))

คำอธิบายรหัส

  • mean_SH = mean(SH, na.rm = TRUE): สรุปค่าตัวแปรที่สอง คุณตั้งค่า na.rm = TRUE เนื่องจากคอลัมน์ SH มีข้อสังเกตที่ขาดหายไป

Output:

##   mean_games  mean_SH
## 1   51.98361 2.340085

Group_by กับไม่มี group_by

ฟังก์ชัน summerise() ที่ไม่มี group_by() ไม่สมเหตุสมผลเลย สร้างสถิติสรุปตามกลุ่ม ห้องสมุด ดีพลีร์ ใช้ฟังก์ชันกับกลุ่มที่คุณส่งผ่านภายในกริยา group_by โดยอัตโนมัติ

โปรดทราบว่า group_by ทำงานได้อย่างสมบูรณ์แบบกับคำกริยาอื่นๆ ทั้งหมด (เช่น mutate(), filter(), Arrange(), …)

การใช้ตัวดำเนินการท่อจะสะดวกในกรณีที่คุณมีขั้นตอนมากกว่าหนึ่งขั้นตอน คุณสามารถคำนวณโฮมรันเฉลี่ยตามลีกเบสบอลได้

data % > %
	group_by(lgID) % > %
	summarise(mean_run = mean(HR))

คำอธิบายรหัส

  • data: ชุดข้อมูลที่ใช้สร้างสถิติสรุป
  • group_by(lgID): คำนวณสรุปโดยการจัดกลุ่มตัวแปร `lgID
  • สรุป (mean_run = mean (HR)): คำนวณโฮมรันเฉลี่ย

Output:

## 
# A tibble: 7 x 2
##     lgID  mean_run
##   <fctr>     <dbl>
## 1     AA 0.9166667
## 2     AL 3.1270988
## 3     FL 1.3131313
## 4     NL 2.8595953
## 5     PL 2.5789474
## 6     UA 0.6216216
## 7   <NA> 0.2867133	

ตัวดำเนินการท่อทำงานร่วมกับ ggplot() เช่นกัน คุณสามารถแสดงสถิติสรุปได้อย่างง่ายดายด้วยกราฟ ขั้นตอนทั้งหมดจะถูกผลักเข้าไปในท่อจนกระทั่งกราฟกลายเป็นพล็อต การดูโฮมรันเฉลี่ยตามลีกด้วยแท่งกราฟจะดูชัดเจนกว่า โค้ดด้านล่างแสดงให้เห็นถึงพลังของการรวม group_by(), summarise() และ ggplot() เข้าด้วยกัน

คุณจะดำเนินการตามขั้นตอนต่อไปนี้:

  • ขั้นตอนที่ 1: เลือกกรอบข้อมูล
  • ขั้นตอนที่ 2: จัดกลุ่มข้อมูล
  • ขั้นตอนที่ 3: สรุปข้อมูล
  • ขั้นตอนที่ 4: พล็อตสถิติสรุป
library(ggplot2)
# Step 1
data % > % 
#Step 2
group_by(lgID) % > % 
#Step 3
summarise(mean_home_run = mean(HR)) % > % 
#Step 4
ggplot(aes(x = lgID, y = mean_home_run, fill = lgID)) +
    geom_bar(stat = "identity") +
    theme_classic() +
    labs(
        x = "baseball league",
        y = "Average home run",
        title = paste(
            "Example group_by() with summarise()"
        )
    )

Output:

ตัวอย่าง Group_by พร้อมสรุป

ฟังก์ชั่นในการ summarise()

กริยา summarise() เข้ากันได้กับฟังก์ชันเกือบทั้งหมดใน R ต่อไปนี้คือรายการฟังก์ชันที่มีประโยชน์สั้นๆ ที่คุณสามารถใช้ร่วมกับ summarise():

วัตถุประสงค์ ฟังก์ชัน Descriptไอออน
ขั้นพื้นฐาน หมายถึง() ค่าเฉลี่ยของเวกเตอร์ x
ค่ามัธยฐาน () ค่ามัธยฐานของเวกเตอร์ x
ผลรวม () ผลรวมของเวกเตอร์ x
การเปลี่ยนแปลง เอสดี() ค่าเบี่ยงเบนมาตรฐานของเวกเตอร์ x
ไอคิวอาร์() อินเทอร์ควอไทล์ของเวกเตอร์ x
พิสัย นาที() ขั้นต่ำของเวกเตอร์ x
สูงสุด () สูงสุดของเวกเตอร์ x
ปริมาณ() ควอไทล์ของเวกเตอร์ x
ตำแหน่ง แรก() ใช้กับ group_by() การสังเกตครั้งแรกของกลุ่ม
ล่าสุด() ใช้กับ group_by() การสังเกตครั้งสุดท้ายของกลุ่ม
ที่ n() ใช้กับ group_by() การสังเกตครั้งที่ n ของกลุ่ม
นับ เอ็น() ใช้กับ group_by() นับจำนวนแถว
n_แตกต่าง() ใช้กับ group_by() นับจำนวนการสังเกตที่แตกต่างกัน

เราจะดูตัวอย่างสำหรับทุกฟังก์ชันของตารางที่ 1

ฟังก์ชั่นพื้นฐาน

ในตัวอย่างก่อนหน้านี้ คุณไม่ได้จัดเก็บสถิติสรุปไว้ในกรอบข้อมูล

คุณสามารถดำเนินการในสองขั้นตอนเพื่อสร้างกรอบวันที่จากสรุป:

  • ขั้นตอนที่ 1: จัดเก็บ data frame เพื่อใช้งานต่อไป
  • ขั้นตอนที่ 2: ใช้ชุดข้อมูลเพื่อสร้างการลงจุดเส้น

ขั้นตอน 1) คุณคำนวณจำนวนเกมเฉลี่ยที่เล่นในแต่ละปี

## Mean
ex1 <- data % > %
	group_by(yearID) % > %
	summarise(mean_game_year = mean(G))
head(ex1)

คำอธิบายรหัส

  • สถิติสรุปของชุดข้อมูลการตีถูกจัดเก็บไว้ใน data frame ex1

Output:

## # A tibble: 6 x 2
##   yearID mean_game_year
##    <int>          <dbl>
## 1   1871       23.42308
## 2   1872       18.37931
## 3   1873       25.61538
## 4   1874       39.05263
## 5   1875       28.39535
## 6   1876       35.90625	

ขั้นตอน 2) คุณแสดงสถิติสรุปด้วยการวาดเส้นและดูแนวโน้ม

# Plot the graph
ggplot(ex1, aes(x = yearID, y = mean_game_year)) +
    geom_line() +
    theme_classic() +
    labs(
        x = "Year",
        y = "Average games played",
        title = paste(
            "Average games played from 1871 to 2016"
        )
    )

Output:

ตัวอย่างฟังก์ชั่นพื้นฐาน

เซตย่อย

ฟังก์ชัน summarise() สามารถทำงานร่วมกับการตั้งค่าย่อยได้

## Subsetting + Median
data % > %
group_by(lgID) % > %
summarise(median_at_bat_league = median(AB), 
	#Compute the median without the zero 
	median_at_bat_league_no_zero = median(AB[AB > 0]))

คำอธิบายรหัส

  • median_at_bat_league_no_zero = ค่ามัธยฐาน (AB[AB > 0]): ตัวแปร AB มี 0 จำนวนมาก คุณสามารถเปรียบเทียบค่ามัธยฐานของ ที่ค้างคาว ตัวแปรที่มีและไม่มี 0

Output:

## # A tibble: 7 x 3
##     lgID median_at_bat_league median_at_bat_league_no_zero
##   <fctr>                <dbl>                        <dbl>
## 1     AA                  130                          131
## 2     AL                   38                           85
## 3     FL                   88                           97
## 4     NL                   56                           67
## 5     PL                  238                          238
## 6     UA                   35                           35
## 7   <NA>                  101                          101	

รวม

ฟังก์ชั่นที่มีประโยชน์อีกอย่างในการรวมตัวแปรคือ sum()

คุณสามารถตรวจสอบว่าลีกใดมีโฮมรันมากกว่า

## Sum
data % > %
	group_by(lgID) % > %
	summarise(sum_homerun_league = sum(HR))

Output:

## # A tibble: 7 x 2
##     lgID sum_homerun_league
##   <fctr>              <int>
## 1     AA                341
## 2     AL              29426
## 3     FL                130
## 4     NL              29817
## 5     PL                 98
## 6     UA                 46
## 7   <NA>                 41	

ส่วนเบี่ยงเบนมาตรฐาน

การแพร่กระจายในข้อมูลคำนวณด้วยค่าเบี่ยงเบนมาตรฐานหรือ sd() ใน R

# Spread
data % > %
	group_by(teamID) % > %
	summarise(sd_at_bat_league = sd(HR))

Output:

## # A tibble: 148 x 2
##    teamID sd_at_bat_league
##    <fctr>            <dbl>
##  1    ALT               NA
##  2    ANA        8.7816395
##  3    ARI        6.0765503
##  4    ATL        8.5363863
##  5    BAL        7.7350173
##  6    BFN        1.3645163
##  7    BFP        0.4472136
##  8    BL1        0.6992059
##  9    BL2        1.7106757
## 10    BL3        1.0000000
## # ... with 138 more rows		

มีความไม่เท่าเทียมกันมากมายในปริมาณโฮมรันที่ทำโดยแต่ละทีม

ขั้นต่ำและสูงสุด

คุณสามารถเข้าถึงค่าต่ำสุดและค่าสูงสุดของเวกเตอร์ได้ด้วยฟังก์ชัน min() และ max()

โค้ดด้านล่างนี้ส่งคืนจำนวนเกมสูงสุดและต่ำสุดในหนึ่งฤดูกาลที่เล่นโดยผู้เล่น

# Min and max
data % > %
	group_by(playerID) % > %
	summarise(min_G = min(G),
    max_G = max(G))

Output:

## # A tibble: 10,395 x 3
##     playerID min_G max_G
##       <fctr>       <int>
##  1 aardsda01    53    73
##  2 aaronha01   120   156
##  3  aasedo01    24    66
##  4  abadfe01    18    18
##  5 abadijo01    11    11
##  6 abbated01     3   153
##  7 abbeybe01    11    11
##  8 abbeych01    80   132
##  9 abbotgl01     5    23
## 10 abbotji01    13    29
## # ... with 10,385 more rows

นับ

การนับการสังเกตโดยกลุ่มถือเป็นความคิดที่ดีเสมอ ด้วย R คุณสามารถรวมจำนวนครั้งที่เกิดขึ้นด้วย n()

ตัวอย่างเช่นโค้ดด้านล่างนี้จะคำนวณจำนวนปีที่เล่นโดยผู้เล่นแต่ละคน

# count observations
data % > %
	group_by(playerID) % > %
	summarise(number_year = n()) % > %
	arrange(desc(number_year))

Output:

## # A tibble: 10,395 x 2
##     playerID number_year
##       <fctr>       <int>
##  1 pennohe01          11
##  2 joosted01          10
##  3 mcguide01          10
##  4  rosepe01          10
##  5 davisha01           9
##  6 johnssi01           9
##  7  kaatji01           9
##  8 keelewi01           9
##  9 marshmi01           9
## 10 quirkja01           9
## # ... with 10,385 more rows

ครั้งแรกและครั้งสุดท้าย

คุณสามารถเลือกตำแหน่งแรก สุดท้าย หรือตำแหน่งที่ n ของกลุ่มได้

ตัวอย่างเช่น คุณสามารถค้นหาปีแรกและปีสุดท้ายของผู้เล่นแต่ละคนได้

# first and last
data % > %
	group_by(playerID) % > %
	summarise(first_appearance = first(yearID),
		last_appearance = last(yearID))

Output:

## # A tibble: 10,395 x 3
##     playerID first_appearance last_appearance
##       <fctr>            <int>           <int>
##  1 aardsda01             2009            2010
##  2 aaronha01             1973            1975
##  3  aasedo01             1986            1990
##  4  abadfe01             2016            2016
##  5 abadijo01             1875            1875
##  6 abbated01             1905            1897
##  7 abbeybe01             1894            1894
##  8 abbeych01             1895            1897
##  9 abbotgl01             1973            1979
## 10 abbotji01             1992            1996
## # ... with 10,385 more rows

การสังเกตครั้งที่ n

ฟังก์ชัน nth() เป็นส่วนเสริมของ first() และ Last() คุณสามารถเข้าถึงการสังเกตครั้งที่ n ภายในกลุ่มโดยมีดัชนีที่ส่งคืน

ตัวอย่างเช่น คุณสามารถกรองเฉพาะปีที่สองที่ทีมเล่นได้

# nth
data % > %
	group_by(teamID) % > %
	summarise(second_game = nth(yearID, 2)) % > %
	arrange(second_game)

Output:

## # A tibble: 148 x 2
##    teamID second_game
##    <fctr>       <int>
##  1    BS1        1871
##  2    CH1        1871
##  3    FW1        1871
##  4    NY2        1871
##  5    RC1        1871
##  6    BR1        1872
##  7    BR2        1872
##  8    CL1        1872
##  9    MID        1872
## 10    TRO        1872
## # ... with 138 more rows

จำนวนการสังเกตที่แตกต่างกัน

ฟังก์ชัน n() ส่งกลับจำนวนการสังเกตในกลุ่มปัจจุบัน ฟังก์ชันปิดของ n() คือ n_distinct() ซึ่งนับจำนวนค่าที่ไม่ซ้ำ

ในตัวอย่างถัดไป คุณจะบวกจำนวนผู้เล่นทั้งหมดที่ทีมคัดเลือกระหว่างช่วงเวลาทั้งหมด

# distinct values
data % > %
	group_by(teamID) % > %
	summarise(number_player = n_distinct(playerID)) % > %
	arrange(desc(number_player))

คำอธิบายรหัส

  • group_by(teamID): จัดกลุ่มตามปี และ ทีม
  • สรุป(จำนวนผู้เล่น = n_แตกต่าง(playerID)): นับจำนวนผู้เล่นแยกตามทีม
  • Arrange(desc(number_player)): จัดเรียงข้อมูลตามจำนวนผู้เล่น

Output:

## # A tibble: 148 x 2
##    teamID number_player
##    <fctr>         <int>
##  1    CHN           751
##  2    SLN           729
##  3    PHI           699
##  4    PIT           683
##  5    CIN           679
##  6    BOS           647
##  7    CLE           646
##  8    CHA           636
##  9    DET           623
## 10    NYA           612
## # ... with 138 more rows

หลายกลุ่ม

สถิติสรุปสามารถรับรู้ได้ในหลายกลุ่ม

# Multiple groups
data % > %
	group_by(yearID, teamID) % > %
	summarise(mean_games = mean(G)) % > %
	arrange(desc(teamID, yearID))

คำอธิบายรหัส

  • group_by(yearID, teamID): จัดกลุ่มตามปี และ ทีม
  • summarise(mean_games = mean(G)): สรุปจำนวนผู้เล่นเกม
  • Arrange(desc(teamID, yearID)): จัดเรียงข้อมูลตามทีมและปี

Output:

## # A tibble: 2,829 x 3
## # Groups:   yearID [146]
##    yearID teamID mean_games
##     <int> <fctr>      <dbl>
##  1   1884    WSU   20.41667
##  2   1891    WS9   46.33333
##  3   1886    WS8   22.00000
##  4   1887    WS8   51.00000
##  5   1888    WS8   27.00000
##  6   1889    WS8   52.42857
##  7   1884    WS7    8.00000
##  8   1875    WS6   14.80000
##  9   1873    WS5   16.62500
## 10   1872    WS4    4.20000
## # ... with 2,819 more rows

ตัวกรอง

ก่อนที่คุณจะดำเนินการใดๆ คุณสามารถกรองชุดข้อมูลได้ ชุดข้อมูลเริ่มต้นในปี พ.ศ. 1871 และการวิเคราะห์ไม่จำเป็นต้องมีปีก่อนหน้า พ.ศ. 1980

# Filter
data % > %
	filter(yearID > 1980) % > %
	group_by(yearID) % > %
	summarise(mean_game_year = mean(G))

คำอธิบายรหัส

  • filter(yearID > 1980): กรองข้อมูลเพื่อแสดงเฉพาะปีที่เกี่ยวข้อง (เช่น หลังปี 1980)
  • group_by(yearID): จัดกลุ่มตามปี
  • summarise(mean_game_year = mean(G)): สรุปข้อมูล

Output:

## # A tibble: 36 x 2
##    yearID mean_game_year
##     <int>          <dbl>
##  1   1981       40.64583
##  2   1982       56.97790
##  3   1983       60.25128
##  4   1984       62.97436
##  5   1985       57.82828
##  6   1986       58.55340
##  7   1987       48.74752
##  8   1988       52.57282
##  9   1989       58.16425
## 10   1990       52.91556
## # ... with 26 more rows

ยกเลิกการจัดกลุ่ม

สุดท้ายแต่ไม่ท้ายสุด คุณต้องลบการจัดกลุ่มออกก่อนที่จะต้องการเปลี่ยนระดับการคำนวณ

# Ungroup the data
data % > %
	filter(HR > 0) % > %
	group_by(playerID) % > %
	summarise(average_HR_game = sum(HR) / sum(G)) % > %
	ungroup() % > %
	summarise(total_average_homerun = mean(average_HR_game))

คำอธิบายรหัส

  • filter(HR >0) : ไม่รวมโฮมรันเป็นศูนย์
  • group_by (playerID): จัดกลุ่มตามผู้เล่น
  • สรุป (ค่าเฉลี่ย_HR_game = ผลรวม (HR) / ผลรวม (G)): คำนวณโฮมรันเฉลี่ยตามผู้เล่น
  • ungroup(): ลบการจัดกลุ่ม
  • summarise(total_average_homerun = mean(average_HR_game)): สรุปข้อมูล

Output:

## # A tibble: 1 x 1
##   total_average_homerun
##                   <dbl>
## 1            0.06882226	

สรุป

เมื่อคุณต้องการส่งคืนข้อมูลสรุปตามกลุ่ม คุณสามารถใช้:

# group by X1, X2, X3
group(df, X1, X2, X3)

คุณต้องยกเลิกการจัดกลุ่มข้อมูลด้วย:

ungroup(df)

ตารางด้านล่างนี้สรุปฟังก์ชันที่คุณเรียนรู้ด้วย summarise()

วิธี ฟังก์ชัน รหัส
หมายความ หมายความ
summarise(df,mean_x1 = mean(x1))
มัธยฐาน มัธยฐาน
summarise(df,median_x1 = median(x1))
รวม รวม
summarise(df,sum_x1 = sum(x1))
ส่วนเบี่ยงเบนมาตรฐาน sd
summarise(df,sd_x1 = sd(x1))
ควอไทล์ ไอคิวอาร์
summarise(df,interquartile_x1 = IQR(x1))
ขั้นต่ำ นาที
summarise(df,minimum_x1 = min(x1))
สูงสุด แม็กซ์
summarise(df,maximum_x1 = max(x1))
ปริมาณ ปริมาณ
summarise(df,quantile_x1 = quantile(x1))
การสังเกตครั้งแรก เป็นครั้งแรก
summarise(df,first_x1 = first(x1))
การสังเกตครั้งสุดท้าย ล่าสุด
summarise(df,last_x1 = last(x1))
การสังเกตครั้งที่ n ที่ n
summarise(df,nth_x1 = nth(x1, 2))
จำนวนครั้งที่เกิดขึ้น n
summarise(df,n_x1 = n(x1))
จำนวนเหตุการณ์ที่แตกต่างกัน n_แตกต่าง
summarise(df,n_distinct _x1 = n_distinct(x1))