Import dat v R: Čtení souborů CSV, Excel, SPSS, Stata, SAS
Data mohou existovat v různých formátech. Pro každý formát R má specifickou funkci a argument. Tento tutoriál vysvětluje, jak importovat data do R.
Přečtěte si CSV
Jedním z nejrozšířenějších datových úložišť jsou formáty souborů .csv (hodnoty oddělené čárkou). R načte během spouštění řadu knihoven, včetně balíčku utils. Tento balíček je vhodný pro otevírání souborů csv v kombinaci s funkcí read.csv(). Zde je syntaxe pro read.csv
read.csv(file, header = TRUE, sep = ",")
Argument:
- soubor: PATH, kde je soubor uložen
- hlavička: potvrzení, zda má soubor záhlaví nebo ne, ve výchozím nastavení je záhlaví nastaveno na hodnotu TRUE
- září: symbol používaný k rozdělení proměnné. Ve výchozím nastavení `,`.
Přečteme název datového souboru mtcats. Soubor csv je uložen online. Pokud je váš soubor .csv uložen místně, můžete nahradit PATH uvnitř fragmentu kódu. Nezapomeňte jej zabalit dovnitř „ “. PATH musí být řetězcová hodnota.
Pro uživatele systému Mac je cesta ke složce pro stahování:
"/Users/USERNAME/Downloads/FILENAME.csv"
Pro uživatele systému Windows:
"C:\Users\USERNAME\Downloads\FILENAME.csv"
Všimněte si, že bychom měli vždy zadat příponu názvu souboru.
- . CSV
- . XLSX
- . Txt
- ...
PATH <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/mtcars.csv' df <- read.csv(PATH, header = TRUE, sep = ',') length(df)
Výstup
## [1] 12
class(df$X)
Výstup
## [1] "factor"
R ve výchozím nastavení vrací hodnoty znaků jako faktor. Toto nastavení můžeme vypnout přidáním stringsAsFactors = FALSE.
PATH <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/mtcars.csv' df <-read.csv(PATH, header =TRUE, sep = ',', stringsAsFactors =FALSE) class(df$X)
Výstup
## [1] "character"
Třída pro proměnnou X je nyní znak.
Číst soubory Excel
vynikat soubory jsou mezi datovými analytiky velmi oblíbené. S tabulkami se snadno pracuje a jsou flexibilní. R je vybaven knihovnou readxl pro import tabulky Excel.
Použijte tento kód
require(readxl)
zkontrolujte, zda je ve vašem počítači nainstalován readxl. Pokud nainstalujete r pomocí r-conda-essential, knihovna je již nainstalována. V příkazovém okně byste měli vidět:
Výstup
Loading required package: readxl.
Pokud balíček neukončí, můžete jej nainstalovat s conda knihovna nebo v terminálu použijte conda install -c mittner r-readxl.
Pomocí následujícího příkazu načtěte knihovnu pro import souborů aplikace Excel.
library(readxl)
readxl_example()
V tomto tutoriálu používáme příklady obsažené v balíčku readxl.
Použijte kód
readxl_example()
zobrazíte všechny dostupné tabulky v knihovně.
Chcete-li zkontrolovat umístění tabulky s názvem clippy.xls, jednoduché použití
readxl_example("geometry.xls")
Pokud nainstalujete R s conda, tabulky jsou umístěny v Anaconda3/lib/R/library/readxl/extdata/filename.xls
read_excel()
Funkce read_excel() je velmi užitečná, pokud jde o otevření rozšíření xls a xlsx.
Syntaxe je:
read_excel(PATH, sheet = NULL, range= NULL, col_names = TRUE) arguments: -PATH: Path where the excel is located -sheet: Select the sheet to import. By default, all -range: Select the range to import. By default, all non-null cells -col_names: Select the columns to import. By default, all non-null columns
Můžeme importovat tabulky z knihovny readxl a spočítat počet sloupců v prvním listu.
# Store the path of `datasets.xlsx` example <- readxl_example("datasets.xlsx") # Import the spreadsheet df <- read_excel(example) # Count the number of columns length(df)
Výstup
## [1] 5
excel_sheets()
Soubor datasets.xlsx se skládá ze 4 listů. Které listy jsou v sešitu k dispozici, můžeme zjistit pomocí funkce excel_sheets().
example <- readxl_example("datasets.xlsx") excel_sheets(example)
Výstup
[1] "iris" "mtcars" "chickwts" "quakes"
Pokud list obsahuje mnoho listů, je snadné vybrat konkrétní list pomocí argumentů listu. Můžeme zadat název listu nebo index listu. Můžeme ověřit, zda obě funkce vrací stejný výstup s identickou().
example <- readxl_example("datasets.xlsx") quake <- read_excel(example, sheet = "quakes") quake_1 <-read_excel(example, sheet = 4) identical(quake, quake_1)
Výstup
## [1] TRUE
Můžeme ovládat, které buňky číst, dvěma způsoby
- Použijte argument n_max k vrácení n řádků
- Použijte argument rozsahu v kombinaci s buňkami řádky nebo sloupce buněk
Například nastavíme n_max rovno 5, abychom importovali prvních pět řádků.
# Read the first five row: with header iris <-read_excel(example, n_max =5, col_names =TRUE)
Pokud změníme col_names na FALSE, R vytvoří záhlaví automaticky.
# Read the first five row: without header iris_no_header <-read_excel(example, n_max =5, col_names =FALSE)
iris_no_header
V datovém rámci iris_no_header vytvořil R pět nových proměnných pojmenovaných X__1, X__2, X__3, X__4 a X__5
Rozsah argumentů můžeme také použít k výběru řádků a sloupců v tabulce. V níže uvedeném kódu používáme excelový styl k výběru rozsahu A1 až B5.
# Read rows A1 to B5 example_1 <-read_excel(example, range = "A1:B5", col_names =TRUE) dim(example_1)
Výstup
## [1] 4 2
Vidíme, že příklad_1 vrací 4 řádky se 2 sloupci. Datový soubor má hlavičku, proto je rozměr 4×2.
Ve druhém příkladu používáme funkci cell_rows(), která řídí rozsah řádků, které se mají vrátit. Pokud chceme importovat řádky 1 až 5, můžeme nastavit cell_rows(1:5). Všimněte si, že cell_rows(1:5) vrací stejný výstup jako cell_rows(5:1).
# Read rows 1 to 5 example_2 <-read_excel(example, range =cell_rows(1:5),col_names =TRUE) dim(example_2)
Výstup
## [1] 4 5
Příklad_2 je však matice 4×5. Datový soubor duhovky má 5 sloupců se záhlavím. Vrátíme první čtyři řádky se záhlavím všech sloupců
V případě, že chceme importovat řádky, které nezačínají na prvním řádku, musíme zahrnout col_names = FALSE. Pokud použijeme range = cell_rows(2:5), je zřejmé, že náš datový rámec již nemá záhlaví.
iris_row_with_header <-read_excel(example, range =cell_rows(2:3), col_names=TRUE) iris_row_no_header <-read_excel(example, range =cell_rows(2:3),col_names =FALSE)
We can select the columns with the letter, like in Excel. # Select columns A and B col <-read_excel(example, range =cell_cols("A:B")) dim(col)
Výstup
## [1] 150 2
Poznámka: range = cell_cols(“A:B”), vrátí výstup všech buněk s nenulovou hodnotou. Datová sada obsahuje 150 řádků, proto read_excel() vrací řádky až 150. To je ověřeno funkcí dim().
read_excel() vrátí NA, když se v buňce objeví symbol bez číselné hodnoty. Kombinací dvou funkcí můžeme spočítat počet chybějících hodnot
- součet
- je.na
Zde je kód
iris_na <-read_excel(example, na ="setosa") sum(is.na(iris_na))
Výstup
## [1] 50
Chybí nám 50 hodnot, což jsou řádky patřící druhu setosa.
Importujte data z jiného statistického softwaru
Pomocí balíčku nebe budeme importovat různé formáty souborů. Tento balíček podporuje SAS, STATA a SPSS software. Pomocí následující funkce můžeme otevřít různé typy datových sad podle přípony souboru:
- SAS: read_sas()
- STATA: read_dta() (nebo read_stata(), které jsou identické)
- SPSS: read_sav() nebo read_por(). Musíme zkontrolovat rozšíření
V rámci této funkce je vyžadován pouze jeden argument. Potřebujeme znát PATH, kde je soubor uložen. To je vše, jsme připraveni otevřít všechny soubory ze SAS, STATA a SPSS. Tyto tři funkce akceptují také URL.
library(haven)
Haven přichází s conda r-essential jinak jděte do https://trials.autocruitment.com nebo v terminálu conda install -c conda-forge r-haven
Přečtěte si sas
Pro náš příklad použijeme vstupní datovou sadu z IDRE.
PATH_sas <- 'https://github.com/guru99-edu/R-Programming/blob/master/binary.sas7bdat?raw=true' df <- read_sas(PATH_sas) head(df)
Výstup
## # A tibble: 6 x 4 ## ADMIT GRE GPA RANK ## <dbl> <dbl> <dbl> <dbl> ## 1 0 380 3.61 3 ## 2 1 660 3.67 3 ## 3 1 800 4.00 1 ## 4 1 640 3.19 4 ## 5 0 520 2.93 4 ## 6 1 760 3.00 2
Přečtěte si STATA
Pro datové soubory STATA můžete použít read_dta(). Používáme přesně stejnou datovou sadu, ale ukládáme ji do souboru .dta.
PATH_stata <- 'https://github.com/guru99-edu/R-Programming/blob/master/binary.dta?raw=true' df <- read_dta(PATH_stata) head(df)
Výstup
## # A tibble: 6 x 4 ## admit gre gpa rank ## <dbl> <dbl> <dbl> <dbl> ## 1 0 380 3.61 3 ## 2 1 660 3.67 3 ## 3 1 800 4.00 1 ## 4 1 640 3.19 4 ## 5 0 520 2.93 4 ## 6 1 760 3.00 2
Přečtěte si SPSS
K otevření souboru SPSS používáme funkci read_sav(). Přípona souboru „.sav“
PATH_spss <- 'https://github.com/guru99-edu/R-Programming/blob/master/binary.sav?raw=true' df <- read_sav(PATH_spss) head(df)
Výstup
## # A tibble: 6 x 4 ## admit gre gpa rank ## <dbl> <dbl> <dbl> <dbl> ## 1 0 380 3.61 3 ## 2 1 660 3.67 3 ## 3 1 800 4.00 1 ## 4 1 640 3.19 4 ## 5 0 520 2.93 4 ## 6 1 760 3.00 2
Doporučené postupy pro import údajů
Když chceme importovat data do R, je užitečné implementovat následující kontrolní seznam. Usnadní to správné importování dat do R:
- Typickým formátem tabulky je použití prvních řádků jako záhlaví (obvykle název proměnné).
- Vyhněte se pojmenování datové sady s prázdnými mezerami; může vést k interpretaci jako samostatné proměnné. Případně raději použijte '_' nebo '-.'
- Preferují se krátká jména
- Do názvu neuvádějte symbol: např.: exchange_rate_$_€ není správné. Raději to pojmenujte: exchange_rate_dollar_euro
- Jinak použijte pro chybějící hodnoty NA; musíme formát vyčistit později.
Shrnutí
Následující tabulka shrnuje funkce, které se mají použít pro import různých typů souborů v R. První sloupec uvádí knihovnu související s funkcí. Poslední sloupec odkazuje na výchozí argument.
Knihovna | Objektivní | funkce | Výchozí argumenty |
---|---|---|---|
utils | Přečtěte si soubor CSV | read.csv() | file, header =,TRUE, sep = "," |
readxl | Přečtěte si soubor EXCEL | read_excel() | cesta, rozsah = NULL, názvy sloupců = TRUE |
útočiště | Přečtěte si soubor SAS | read_sas() | cesta |
útočiště | Přečtěte si soubor STATA | read_stata() | cesta |
útočiště | Přečtěte si soubor SPSS | read_sav() | cesta |
Následující tabulka ukazuje různé způsoby importu výběru pomocí funkce read_excel().
funkce | Objektivní | Argumenty |
---|---|---|
read_excel() | Přečtěte n počet řádků | n_max = 10 |
Vyberte řádky a sloupce jako v Excelu | rozsah = "A1:D10" | |
Vyberte řádky s indexy | range= cell_rows(1:3) | |
Vyberte sloupce s písmeny | rozsah = cell_cols(“A:C”) |