Przykład funkcji agregującej R: summarise() i group

⚡ Inteligentne podsumowanie

Funkcja agregująca w R z funkcją dplyr łączy wiele wierszy w jedną statystykę dla każdej grupy. Ten przewodnik łączy funkcje group_by() z summarise() dla danych dotyczących odbijania piłki Lahmana, aby obliczyć średnie, sumy, spready, zliczenia i wartości pozycyjne dla 104 324 obserwacji.

🧮 Czasownik podstawowy: summarise(df, name = function(column)) zwraca jeden wiersz, a group_by() najpierw zamienia go na jeden wiersz na grupę.
📊 Rodziny statystyczne: średnia i mediana opisują środek, odchylenie standardowe i IQR opisują rozrzut, minimum i maksimum opisują zakres.
🔢 Rachunkowość: Funkcja n() zlicza wiersze w bieżącej grupie, natomiast funkcja n_distinct() zlicza unikalne wartości w jej obrębie.
📍 Pomocnicy pozycyjni: first(), last() i nth() np.trackonkretne spostrzeżenia z każdej grupy.
🔄 Praca wielokolumnowa: across() stosuje jedną funkcję do wielu kolumn bez powtarzania kodu dla każdej z nich.
🔓 Grouping Higiena: Zawsze wywołuj ungroup() przed obliczeniem, które ma zostać wykonane ponownie na całej tabeli.

Czytaj więcej

Zestaw danych użyty w tym samouczku

Podsumowanie zmiennej daje wstępne pojęcie o danych, a podsumowanie jej według grup pozwala znacznie lepiej zrozumieć rozkład wartości. Ten samouczek pokazuje, jak agregować zbiór danych według grup za pomocą biblioteki dplyr.

W tym samouczku wykorzystano zbiór danych Lahmana do odbijania piłek. Po zaimportowaniu i zapisaniuping tylko dziewięć kolumn wymienionych poniżej, robocza ramka danych zawiera 104 324 obserwacji i 9 zmiennych:

playerID: Kod identyfikacyjny gracza. Czynnik
ID roku: Rok. Czynnik
ID zespołu: Zespół. czynnik
lgID: Liga. Czynnik: AA AL FL NL PL UA
AB: U nietoperzy. Numeryczny
G: Gry: liczba gier rozegranych przez gracza. Numeryczny
R: Biegnie. Numeryczny
HR: Homeruny. Numeryczny
SH: Ofiarne uderzenia. Numeryczny

Zanim wykonasz podsumowanie, wykonaj następujące czynności w celu przygotowania danych:

Krok 1: Zaimportuj dane
Krok 2: Wybierz odpowiednie zmienne
Krok 3: Posortuj dane

library(dplyr)

# Step 1
data <- read.csv("https://raw.githubusercontent.com/guru99-edu/R-Programming/master/lahman-batting.csv") %>%

# Step 2
select(c(playerID, yearID, AB, teamID, lgID, G, R, HR, SH))  %>% 

# Step 3
arrange(playerID, teamID, yearID)

Dobrą praktyką podczas importowania zbioru danych jest użycie funkcji przebłysk(), aby zorientować się w strukturze zbioru danych.

# Structure of the data
glimpse(data)

Wyjście:

Observations: 104,324
Variables: 9
$ playerID <fctr> aardsda01, aardsda01, aardsda01, aardsda01, aardsda01, a...
$ yearID   <int> 2015, 2008, 2007, 2006, 2012, 2013, 2009, 2010, 2004, 196...
$ AB       <int> 1, 1, 0, 2, 0, 0, 0, 0, 0, 603, 600, 606, 547, 516, 495, ...
$ teamID   <fctr> ATL, BOS, CHA, CHN, NYA, NYN, SEA, SEA, SFN, ATL, ATL, A...
$ lgID     <fctr> NL, AL, AL, NL, AL, NL, AL, AL, NL, NL, NL, NL, NL, NL, ...
$ G        <int> 33, 47, 25, 45, 1, 43, 73, 53, 11, 158, 155, 160, 147, 15...
$ R        <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 117, 113, 84, 100, 103, 95, 75...
$ HR       <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 44, 39, 29, 44, 38, 47, 34, 40...
$ SH       <int> 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 6, ...

streszczać()

Składnia funkcji summarise() jest podstawowa i zgodna z pozostałymi czasownikami zawartymi w bibliotece dplyr.

summarise(df, variable_name=condition) 
arguments: 
- `df`: Dataset used to construct the summary statistics 
- `variable_name=condition`: Formula to create the new variable

Spójrz na poniższy kod:

summarise(data, mean_run =mean(R))

Code Wyjaśnienie

summarise(data, mean_run = mean(R)): Tworzy zmienną o nazwie mean_run, która jest średnią kolumny uruchomionej na podstawie danych zestawu danych.

Wyjście:

##   mean_run
## 1 19.20114

Możesz dodać tyle zmiennych, ile chcesz. Zwracasz średnią liczbę rozegranych gier i średnią liczbę trafień poświęceń.

summarise(data, mean_games = mean(G),
    mean_SH = mean(SH, na.rm = TRUE))

Code Wyjaśnienie

mean_SH = mean(SH, na.rm = TRUE): Podsumuj drugą zmienną. Ustawiasz na.rm = TRUE, ponieważ kolumna SH zawiera brakujące obserwacje.

Wyjście:

##   mean_games  mean_SH
## 1   51.98361 2.340085

group_by() vs. brak group_by()

Używana samodzielnie funkcja summarise() kompresuje całą ramkę danych do jednego wiersza, jak pokazują powyższe przykłady. Jej prawdziwa moc ujawnia się po dodaniu funkcji group_by(): dplyr Biblioteka stosuje następnie to samo obliczenie dla każdej grupy osobno i zwraca jeden wiersz na grupę.

Zauważ, że group_by doskonale współpracuje ze wszystkimi innymi czasownikami (tj. mutate(), filter(), aranżuj(),…).

Wygodnie jest używać operatora pipeline, gdy masz więcej niż jeden krok. Możesz obliczyć średnią liczbę homerunów według ligi baseballowej.

data %>%
	group_by(lgID) %>%
	summarise(mean_run = mean(HR))

Code Wyjaśnienie

dane: Zbiór danych używany do konstruowania statystyk podsumowujących
group_by(lgID): Podziel dane według wartości lgID przed podsumowaniem
summarise(mean_run = mean(HR)): Oblicz średnią liczbę homerunów

Wyjście:

## 
# A tibble: 7 x 2
##     lgID  mean_run
##   <fctr>     <dbl>
## 1     AA 0.9166667
## 2     AL 3.1270988
## 3     FL 1.3131313
## 4     NL 2.8595953
## 5     PL 2.5789474
## 6     UA 0.6216216
## 7   <NA> 0.2867133

Pipe współpracuje również z ggplot(), więc cały łańcuch od surowych danych do gotowego wykresu znajduje się w jednym poleceniu. Poniższy kod łączy funkcje group_by(), summarise() i ggplot(), aby pokazać średnią liczbę home runów w lidze w formie wykresu słupkowego.

Wykonaj następujący krok:

Krok 1: Wybierz ramkę danych
Krok 2: Dane grupowe
Krok 3: Podsumowanie danych
Krok 4: Wykreśl statystyki podsumowujące

library(ggplot2)
# Step 1
data %>% 
#Step 2
group_by(lgID) %>% 
#Step 3
summarise(mean_home_run = mean(HR)) %>% 
#Step 4
ggplot(aes(x = lgID, y = mean_home_run, fill = lgID)) +
    geom_bar(stat = "identity") +
    theme_classic() +
    labs(
        x = "baseball league",
        y = "Average home run",
        title = paste(
            "Example group_by() with summarise()"
        )
    )

Wyjście:

Funkcje, których możesz używać wewnątrz summarise()

Czasownik summarise() jest zgodny z niemal wszystkimi funkcjami w R. Oto krótka lista przydatnych funkcji, których można używać razem z summarise():

Cel	Funkcjonować	OPIS
Basic	oznaczać()	Średnia wektora x
	mediana()	Mediana wektora x
	suma()	Suma wektora x
zmienność	SD()	odchylenie standardowe wektora x
	IQR()	Międzykwartyl wektora x
łodzie	min ()	Minimum wektora x
	max ()	Maksimum wektora x
	kwantyl()	Kwantyl wektora x
Stanowisko	Pierwszy()	Użyj z group_by() Pierwsza obserwacja grupy
	ostatni()	Używaj z group_by(). Ostatnia obserwacja grupy
	n-te()	Używaj z group_by(). n-ta obserwacja grupy
Liczyć	n ()	Używaj z group_by(). Policz liczbę rzędów
	n_distinct()	Używaj z group_by(). Policz liczbę różnych obserwacji

Poniższe sekcje omawiają przykład dla każdej funkcji z powyższej tabeli. Jeśli jesteś nowy w temacie „pipe” i innych czasowników, zacznij od… samouczek dotyczący wyboru, filtrowania i układania.

Podstawowa funkcja

W poprzednim przykładzie statystyka podsumowująca nie została zapisana w ramce danych.

Możesz wygenerować ramkę danych z podsumowania w dwóch krokach:

Krok 1: Zapisz ramkę danych do dalszego wykorzystania
Krok 2: Użyj zbioru danych, aby utworzyć wykres liniowy

Krok 1) Obliczasz średnią liczbę rozegranych meczów w danym roku.

## Mean
ex1 <- data %>%
	group_by(yearID) %>%
	summarise(mean_game_year = mean(G))
head(ex1)

Code Wyjaśnienie

Statystyka podsumowująca zbiór danych dotyczących mrugnięcia jest przechowywana w ramce danych ex1.

Wyjście:

## # A tibble: 6 x 2
##   yearID mean_game_year
##    <int>          <dbl>
## 1   1871       23.42308
## 2   1872       18.37931
## 3   1873       25.61538
## 4   1874       39.05263
## 5   1875       28.39535
## 6   1876       35.90625

Krok 2) Pokazujesz statystykę podsumowującą w postaci wykresu liniowego i widzisz trend.

# Plot the graph
ggplot(ex1, aes(x = yearID, y = mean_game_year)) +
    geom_line() +
    theme_classic() +
    labs(
        x = "Year",
        y = "Average games played",
        title = paste(
            "Average games played from 1871 to 2016"
        )
    )

Wyjście:

Podzbiór

Funkcja summarise() jest zgodna z podzbiorem.

## Subsetting + Median
data %>%
group_by(lgID) %>%
summarise(median_at_bat_league = median(AB), 
	#Compute the median without the zero 
	median_at_bat_league_no_zero = median(AB[AB > 0]))

Code Wyjaśnienie

median_at_bat_league_no_zero = mediana(AB[AB > 0]): Zmienna AB zawiera wiele zer. Możesz porównać medianę w bat zmienna z i bez 0.

Wyjście:

## # A tibble: 7 x 3
##     lgID median_at_bat_league median_at_bat_league_no_zero
##   <fctr>                <dbl>                        <dbl>
## 1     AA                  130                          131
## 2     AL                   38                           85
## 3     FL                   88                           97
## 4     NL                   56                           67
## 5     PL                  238                          238
## 6     UA                   35                           35
## 7   <NA>                  101                          101

Suma

Inną przydatną funkcją do agregowania zmiennej jest sum().

Możesz sprawdzić, które ligi mają więcej homerunów.

## Sum
data %>%
	group_by(lgID) %>%
	summarise(sum_homerun_league = sum(HR))

Wyjście:

## # A tibble: 7 x 2
##     lgID sum_homerun_league
##   <fctr>              <int>
## 1     AA                341
## 2     AL              29426
## 3     FL                130
## 4     NL              29817
## 5     PL                 98
## 6     UA                 46
## 7   <NA>                 41

Odchylenie standardowe

Rozrzut danych jest obliczany za pomocą odchylenia standardowego lub sd() w R.

# Spread
data %>%
	group_by(teamID) %>%
	summarise(sd_at_bat_league = sd(HR))

Wyjście:

## # A tibble: 148 x 2
##    teamID sd_at_bat_league
##    <fctr>            <dbl>
##  1    ALT               NA
##  2    ANA        8.7816395
##  3    ARI        6.0765503
##  4    ATL        8.5363863
##  5    BAL        7.7350173
##  6    BFN        1.3645163
##  7    BFP        0.4472136
##  8    BL1        0.6992059
##  9    BL2        1.7106757
## 10    BL3        1.0000000
## # ... with 138 more rows

Rozpiętość w liczbie home runów znacznie różni się między drużynami, a funkcja ALT zwraca wartość NA, ponieważ dana drużyna ma tylko jeden wiersz, więc nie można obliczyć odchylenia standardowego.

Minimalne i maksymalne

Dostęp do minimum i maksimum wektora można uzyskać za pomocą funkcji min() i max().

Poniższy kod zwraca najniższą i najwyższą liczbę meczów w sezonie rozegranych przez danego zawodnika.

# Min and max
data %>%
	group_by(playerID) %>%
	summarise(min_G = min(G),
    max_G = max(G))

Wyjście:

## # A tibble: 10,395 x 3
##     playerID min_G max_G
##       <fctr>       <int>
##  1 aardsda01    53    73
##  2 aaronha01   120   156
##  3  aasedo01    24    66
##  4  abadfe01    18    18
##  5 abadijo01    11    11
##  6 abbated01     3   153
##  7 abbeybe01    11    11
##  8 abbeych01    80   132
##  9 abbotgl01     5    23
## 10 abbotji01    13    29
## # ... with 10,385 more rows

Liczyć

Zawsze warto zliczać obserwacje w każdej grupie. W R funkcja n() zwraca liczbę wierszy w bieżącej grupie.

Na przykład poniższy kod oblicza liczbę lat gry każdego gracza.

# count observations
data %>%
	group_by(playerID) %>%
	summarise(number_year = n()) %>%
	arrange(desc(number_year))

Wyjście:

## # A tibble: 10,395 x 2
##     playerID number_year
##       <fctr>       <int>
##  1 pennohe01          11
##  2 joosted01          10
##  3 mcguide01          10
##  4  rosepe01          10
##  5 davisha01           9
##  6 johnssi01           9
##  7  kaatji01           9
##  8 keelewi01           9
##  9 marshmi01           9
## 10 quirkja01           9
## # ... with 10,385 more rows

Pierwszy i ostatni

Można wybrać pierwszą, ostatnią lub n-tą pozycję grupy.

Na przykład możesz znaleźć pierwszy i ostatni rok każdego gracza.

# first and last
data %>%
	group_by(playerID) %>%
	summarise(first_appearance = first(yearID),
		last_appearance = last(yearID))

Wyjście:

## # A tibble: 10,395 x 3
##     playerID first_appearance last_appearance
##       <fctr>            <int>           <int>
##  1 aardsda01             2009            2010
##  2 aaronha01             1973            1975
##  3  aasedo01             1986            1990
##  4  abadfe01             2016            2016
##  5 abadijo01             1875            1875
##  6 abbated01             1905            1897
##  7 abbeybe01             1894            1894
##  8 abbeych01             1895            1897
##  9 abbotgl01             1973            1979
## 10 abbotji01             1992            1996
## # ... with 10,385 more rows

n-ta obserwacja

Funkcja nth() uzupełnia funkcje first() i last(). Zwraca obserwację pod podanym indeksem w każdej grupie.

Możesz na przykład filtrować tylko drugi rok, w którym grała dana drużyna.

# nth
data %>%
	group_by(teamID) %>%
	summarise(second_game = nth(yearID, 2)) %>%
	arrange(second_game)

Wyjście:

## # A tibble: 148 x 2
##    teamID second_game
##    <fctr>       <int>
##  1    BS1        1871
##  2    CH1        1871
##  3    FW1        1871
##  4    NY2        1871
##  5    RC1        1871
##  6    BR1        1872
##  7    BR2        1872
##  8    CL1        1872
##  9    MID        1872
## 10    TRO        1872
## # ... with 138 more rows

Wyraźna liczba obserwacji

Funkcja n() zwraca liczbę wierszy w bieżącej grupie. Powiązana funkcja n_distinct() zlicza wartości unikatowe.

W następnym przykładzie sumujesz całkowitą liczbę graczy, których zespół zrekrutował we wszystkich okresach.

# distinct values
data %>%
	group_by(teamID) %>%
	summarise(number_player = n_distinct(playerID)) %>%
	arrange(desc(number_player))

Code Wyjaśnienie

group_by(teamID): Grupuj według zespołu
podsumuj(liczba_graczy = n_odrębny(playerID)): Policz różnych graczy w każdej drużynie
aranżuj(desc(number_player)): Sortuj dane według liczby graczy

Wyjście:

## # A tibble: 148 x 2
##    teamID number_player
##    <fctr>         <int>
##  1    CHN           751
##  2    SLN           729
##  3    PHI           699
##  4    PIT           683
##  5    CIN           679
##  6    BOS           647
##  7    CLE           646
##  8    CHA           636
##  9    DET           623
## 10    NYA           612
## # ... with 138 more rows

Wiele grup

Statystyka podsumowująca może być realizowana pomiędzy wieloma grupami.

# Multiple groups
data %>%
	group_by(yearID, teamID) %>%
	summarise(mean_games = mean(G)) %>%
	arrange(desc(teamID, yearID))

Code Wyjaśnienie

group_by(yearID, teamID): Grupa według roku oraz Zespół
summarise(mean_games = mean(G)): Uśrednij liczbę rozegranych gier
aranżuj(desc(IDzespołu, ID roku)): Sortuj dane według zespołu i roku

Wyjście:

## # A tibble: 2,829 x 3
## # Groups:   yearID [146]
##    yearID teamID mean_games
##     <int> <fctr>      <dbl>
##  1   1884    WSU   20.41667
##  2   1891    WS9   46.33333
##  3   1886    WS8   22.00000
##  4   1887    WS8   51.00000
##  5   1888    WS8   27.00000
##  6   1889    WS8   52.42857
##  7   1884    WS7    8.00000
##  8   1875    WS6   14.80000
##  9   1873    WS5   16.62500
## 10   1872    WS4    4.20000
## # ... with 2,819 more rows

Filtruj

Zanim zamierzasz wykonać operację, możesz przefiltrować zbiór danych. Zbiór danych zaczyna się w 1871 r., a analiza nie wymaga lat sprzed 1980 r.

# Filter
data %>%
	filter(yearID > 1980) %>%
	group_by(yearID) %>%
	summarise(mean_game_year = mean(G))

Code Wyjaśnienie

filter(yearID > 1980): Filtruj dane, aby wyświetlić tylko odpowiednie lata (tj. po 1980 r.)
group_by(yearID): Grupa według roku
summarise(mean_game_year = mean(G)): Podsumuj dane

Wyjście:

## # A tibble: 36 x 2
##    yearID mean_game_year
##     <int>          <dbl>
##  1   1981       40.64583
##  2   1982       56.97790
##  3   1983       60.25128
##  4   1984       62.97436
##  5   1985       57.82828
##  6   1986       58.55340
##  7   1987       48.74752
##  8   1988       52.57282
##  9   1989       58.16425
## 10   1990       52.91556
## # ... with 26 more rows

Rozgrupuj

Na koniec należy usunąć grouping przed zmianą poziomu, na którym wykonywane jest obliczenie. Bez ungroup() drugie summarise() nadal działałoby dla każdego gracza.

# Ungroup the data
data %>%
	filter(HR > 0) %>%
	group_by(playerID) %>%
	summarise(average_HR_game = sum(HR) / sum(G)) %>%
	ungroup() %>%
	summarise(total_average_homerun = mean(average_HR_game))

Code Wyjaśnienie

filter(HR >0): Wyklucz zerowy homerun
group_by(playerID): grupa według gracza
summarise(average_HR_game = sum(HR)/sum(G)): Oblicz średnią liczbę homerunów dla każdego gracza
ungroup(): usuń grupęping
summarise(total_average_homerun = mean(average_HR_game)): Podsumuj dane

Wyjście:

## # A tibble: 1 x 1
##   total_average_homerun
##                   <dbl>
## 1            0.06882226

Jak podsumować wiele kolumn za pomocą across()

Każdy z powyższych przykładów podaje nazwę jednej kolumny na raz. Gdy ta sama statystyka jest potrzebna dla wielu kolumn, funkcja across() stosuje ją do wszystkich w jednym wywołaniu.

# One function, several columns
data %>%
    group_by(lgID) %>%
    summarise(across(c(R, HR, G), mean, .names = "mean_{.col}"))

# Every numeric column at once
data %>%
    group_by(lgID) %>%
    summarise(across(where(is.numeric), mean, na.rm = TRUE))

# Several functions applied to several columns
data %>%
    group_by(teamID) %>%
    summarise(across(c(R, HR), list(avg = mean, total = sum)))

Trzy argumenty kontrolują zachowanie:

.cols: kolumny, na których należy wykonać działanie, zapisane przy użyciu tych samych funkcji pomocniczych co select(), łącznie z where(is.numeric).
.fns: jedna funkcja lub nazwana lista funkcji, które mają zostać zastosowane do każdej kolumny.
.nazwy:wzorzec nazewnictwa dla wyjścia, gdzie {.col} to kolumna, a {.fn} to nazwa funkcji.

Funkcja across() zastąpiła starsze funkcje pomocnicze summarise_all(), summarise_at() i summarise_if() w dplyr 1.0.0. Nadal działają, ale zostały zastąpione nowymi, więc nowy kod powinien korzystać z funkcji across().

Typowe błędy funkcji summarise() i jak je naprawić

Większość nieudanych agregacji wynika z czterech problemów.

Wynik jest NA. mean() i sum() zwracają wartość NA, jeśli brakuje jakiejkolwiek wartości. Dodaj na.rm = TRUE, tak jak w powyższym przykładzie mean_SH.
Komunikat „summarise() ma pogrupowane dane wyjściowe”. Grouping przez dwie zmienne pozostawia wynik pogrupowany według pierwszej. Przekaż .groups = „drop”, aby usunąć grupępinglub później wywołaj ungroup().
Późniejsze obliczenia wykazały błędny poziom. Ramka danych pozostaje zgrupowana, dopóki jej nie rozgrupujesz, więc dla każdej grupy nadal uruchamia się druga funkcja summarise(). Dokładnie to demonstruje przykład ungroup().
Wynik zawiera więcej wierszy niż oczekiwano. summarise() zwraca jeden wiersz na grupę, więc niezamierzona grupaping Zmienna mnoży wynik. Sprawdź wiersz „Grupy:” wydrukowany nad dowolnym znacznikiem.

# Drop the grouping as part of the call
data %>%
    group_by(yearID, teamID) %>%
    summarise(mean_games = mean(G), .groups = "drop")

summarise() w R: Odniesienie do funkcji

Aby zwrócić podsumowanie według grupy, najpierw podziel dane:

# group by X1, X2, X3
group_by(df, X1, X2, X3)

i usuń grouping gdy obliczenie zmienia poziom:

ungroup(df)

Poniższa tabela zawiera listę wszystkich funkcji użytych z summarise() w tym samouczku:

Metoda wykonania	Funkcjonować	Code
oznaczać	oznaczać	summarise(df, mean_x1 = mean(x1))
mediana	mediana	summarise(df, median_x1 = median(x1))
suma	suma	summarise(df, sum_x1 = sum(x1))
odchylenie standardowe	sd	summarise(df, sd_x1 = sd(x1))
międzykwartyl	IQR	summarise(df, interquartile_x1 = IQR(x1))
minimum	min	summarise(df, minimum_x1 = min(x1))
maksymalny	max	summarise(df, maximum_x1 = max(x1))
kwantyl	kwantyl	summarise(df, quantile_x1 = quantile(x1, probs = 0.75))
pierwsza obserwacja	drugim	summarise(df, first_x1 = first(x1))
ostatnia obserwacja	trwać	summarise(df, last_x1 = last(x1))
n-ta obserwacja	n-ty	summarise(df, nth_x1 = nth(x1, 2))
liczba wystąpień	n	summarise(df, n_x1 = n())
liczba odrębnych zdarzeń	n_odrębny	summarise(df, n_distinct_x1 = n_distinct(x1))

FAQ

Funkcja summarise() łączy każdą grupę w pojedynczy wiersz statystyk. Funkcja mutate() zachowuje każdy wiersz i dodaje nową kolumnę. Użyj funkcji mutate(), gdy statystyka grupy musi być umieszczona obok oryginalnych obserwacji.

Grouping Pogrupowanie przez dwie lub więcej zmiennych powoduje pogrupowanie wyniku według wszystkich zmiennych oprócz ostatniej. dplyr ostrzega, ponieważ późniejsze czasowniki byłyby automatycznie uruchamiane w grupach. Aby tego uniknąć, należy użyć .groups = „drop”.

Funkcja n() zlicza każdy wiersz w bieżącej grupie, łącznie z powtórzeniami. Funkcja n_distinct() zlicza unikatowe wartości w kolumnie. Zliczanie graczy w drużynie wymaga funkcji n_distinct(), ponieważ jeden zawodnik występuje w wielu sezonach.

Agregaty na poziomie grup, takie jak średnie wartości klientów, liczby i wartości aktualności, należą do najsilniejszych predyktorów w tabelarycznych modelach sztucznej inteligencji. Funkcja group_by() z funkcją summarise() to standardowy sposób ich powtarzalnego tworzenia.

Tak. Asystenci AI mogą przepisać funkcje aggregate() i tapply() jako potoki group_by() i summarise(). Porównaj liczbę wierszy w obu wersjach, ponieważ base R i dplyr inaczej obsługują brakujące grupy.

Przykład funkcji agregującej R: summarise() i group_by()

Zestaw danych użyty w tym samouczku

streszczać()

group_by() vs. brak group_by()

Funkcje, których możesz używać wewnątrz summarise()

Podstawowa funkcja

Podzbiór

Suma

Odchylenie standardowe

Minimalne i maksymalne

Liczyć

Pierwszy i ostatni

n-ta obserwacja

Wyraźna liczba obserwacji

Wiele grup

Filtruj

Rozgrupuj

Jak podsumować wiele kolumn za pomocą across()

Typowe błędy funkcji summarise() i jak je naprawić

summarise() w R: Odniesienie do funkcji

FAQ

Podsumuj ten post następująco:

Zapisz się do newslettera

Zestaw danych użyty w tym samouczku

streszczać()

group_by() vs. brak group_by()

POWIĄZANE ARTYKUŁY

Funkcje, których możesz używać wewnątrz summarise()

Podstawowa funkcja

Podzbiór

Suma

Odchylenie standardowe

Minimalne i maksymalne

Liczyć

Pierwszy i ostatni

n-ta obserwacja

Wyraźna liczba obserwacji

Wiele grup

Filtruj

Rozgrupuj

Jak podsumować wiele kolumn za pomocą across()

Typowe błędy funkcji summarise() i jak je naprawić

summarise() w R: Odniesienie do funkcji

FAQ

Podsumuj ten post następująco:

Zapisz się do newslettera