Import dat v R: Čtení souborů CSV, Excel, SPSS, Stata, SAS

Data mohou existovat v různých formátech. Pro každý formát R má specifickou funkci a argument. Tento tutoriál vysvětluje, jak importovat data do R.

Přečtěte si CSV

Jedním z nejrozšířenějších datových úložišť jsou formáty souborů .csv (hodnoty oddělené čárkou). R načte během spouštění řadu knihoven, včetně balíčku utils. Tento balíček je vhodný pro otevírání souborů csv v kombinaci s funkcí read.csv(). Zde je syntaxe pro read.csv

read.csv(file, header = TRUE, sep = ",")

Argument:

  • soubor: PATH, kde je soubor uložen
  • hlavička: potvrzení, zda má soubor záhlaví nebo ne, ve výchozím nastavení je záhlaví nastaveno na hodnotu TRUE
  • září: symbol používaný k rozdělení proměnné. Ve výchozím nastavení `,`.

Přečteme název datového souboru mtcats. Soubor csv je uložen online. Pokud je váš soubor .csv uložen místně, můžete nahradit PATH uvnitř fragmentu kódu. Nezapomeňte jej zabalit dovnitř „ “. PATH musí být řetězcová hodnota.

Pro uživatele systému Mac je cesta ke složce pro stahování:

 "/Users/USERNAME/Downloads/FILENAME.csv"

Pro uživatele systému Windows:

"C:\Users\USERNAME\Downloads\FILENAME.csv"

Všimněte si, že bychom měli vždy zadat příponu názvu souboru.

  • . CSV
  • . XLSX
  • . Txt
  • ...
PATH <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/mtcars.csv'                
df <- read.csv(PATH, header =  TRUE, sep = ',')
length(df)

Výstup

## [1] 12
class(df$X)

Výstup

## [1] "factor"

R ve výchozím nastavení vrací hodnoty znaků jako faktor. Toto nastavení můžeme vypnout přidáním stringsAsFactors = FALSE.

PATH <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/mtcars.csv'
df <-read.csv(PATH, header =TRUE, sep = ',', stringsAsFactors =FALSE)
class(df$X)

Výstup

## [1] "character"

Třída pro proměnnou X je nyní znak.

Číst soubory Excel

vynikat soubory jsou mezi datovými analytiky velmi oblíbené. S tabulkami se snadno pracuje a jsou flexibilní. R je vybaven knihovnou readxl pro import tabulky Excel.

Použijte tento kód

require(readxl)

zkontrolujte, zda je ve vašem počítači nainstalován readxl. Pokud nainstalujete r pomocí r-conda-essential, knihovna je již nainstalována. V příkazovém okně byste měli vidět:

Výstup

Loading required package: readxl.

Pokud balíček neukončí, můžete jej nainstalovat s conda knihovna nebo v terminálu použijte conda install -c mittner r-readxl.

Pomocí následujícího příkazu načtěte knihovnu pro import souborů aplikace Excel.

library(readxl)

readxl_example()

V tomto tutoriálu používáme příklady obsažené v balíčku readxl.

Použijte kód

readxl_example()

zobrazíte všechny dostupné tabulky v knihovně.

Readxl_Example

Chcete-li zkontrolovat umístění tabulky s názvem clippy.xls, jednoduché použití

readxl_example("geometry.xls")

Readxl_Example

Pokud nainstalujete R s conda, tabulky jsou umístěny v Anaconda3/lib/R/library/readxl/extdata/filename.xls

read_excel()

Funkce read_excel() je velmi užitečná, pokud jde o otevření rozšíření xls a xlsx.

Syntaxe je:

read_excel(PATH, sheet = NULL, range= NULL, col_names = TRUE)
arguments:
-PATH: Path where the excel is located
-sheet: Select the sheet to import. By default, all
-range: Select the range to import. By default, all non-null cells
-col_names: Select the columns to import. By default, all non-null columns

Můžeme importovat tabulky z knihovny readxl a spočítat počet sloupců v prvním listu.

# Store the path of `datasets.xlsx`
example <- readxl_example("datasets.xlsx")
# Import the spreadsheet
df <- read_excel(example)
# Count the number of columns
length(df)

Výstup

## [1] 5

excel_sheets()

Soubor datasets.xlsx se skládá ze 4 listů. Které listy jsou v sešitu k dispozici, můžeme zjistit pomocí funkce excel_sheets().

example <- readxl_example("datasets.xlsx")

excel_sheets(example)

Výstup

[1] "iris"     "mtcars"   "chickwts" "quakes"

Pokud list obsahuje mnoho listů, je snadné vybrat konkrétní list pomocí argumentů listu. Můžeme zadat název listu nebo index listu. Můžeme ověřit, zda obě funkce vrací stejný výstup s identickou().

example <- readxl_example("datasets.xlsx")
quake <- read_excel(example, sheet = "quakes")
quake_1 <-read_excel(example, sheet = 4)
identical(quake, quake_1)

Výstup

## [1] TRUE

Můžeme ovládat, které buňky číst, dvěma způsoby

  1. Použijte argument n_max k vrácení n řádků
  2. Použijte argument rozsahu v kombinaci s buňkami řádky nebo sloupce buněk

Například nastavíme n_max rovno 5, abychom importovali prvních pět řádků.

# Read the first five row: with header
iris <-read_excel(example, n_max =5, col_names =TRUE)

Excel_Tabulky

Pokud změníme col_names na FALSE, R vytvoří záhlaví automaticky.

# Read the first five row: without header
iris_no_header <-read_excel(example, n_max =5, col_names =FALSE)

iris_no_header

V datovém rámci iris_no_header vytvořil R pět nových proměnných pojmenovaných X__1, X__2, X__3, X__4 a X__5

Excel_Tabulky

Rozsah argumentů můžeme také použít k výběru řádků a sloupců v tabulce. V níže uvedeném kódu používáme excelový styl k výběru rozsahu A1 až B5.

# Read rows A1 to B5
example_1 <-read_excel(example, range = "A1:B5", col_names =TRUE)
dim(example_1)

Výstup

## [1] 4 2

Vidíme, že příklad_1 vrací 4 řádky se 2 sloupci. Datový soubor má hlavičku, proto je rozměr 4×2.

Excel_Tabulky

Ve druhém příkladu používáme funkci cell_rows(), která řídí rozsah řádků, které se mají vrátit. Pokud chceme importovat řádky 1 až 5, můžeme nastavit cell_rows(1:5). Všimněte si, že cell_rows(1:5) vrací stejný výstup jako cell_rows(5:1).

# Read rows 1 to 5
example_2 <-read_excel(example, range =cell_rows(1:5),col_names =TRUE)			
dim(example_2)

Výstup

## [1] 4 5

Příklad_2 je však matice 4×5. Datový soubor duhovky má 5 sloupců se záhlavím. Vrátíme první čtyři řádky se záhlavím všech sloupců

Excel_Tabulky

V případě, že chceme importovat řádky, které nezačínají na prvním řádku, musíme zahrnout col_names = FALSE. Pokud použijeme range = cell_rows(2:5), je zřejmé, že náš datový rámec již nemá záhlaví.

iris_row_with_header <-read_excel(example, range =cell_rows(2:3), col_names=TRUE)
iris_row_no_header <-read_excel(example, range =cell_rows(2:3),col_names =FALSE)

Excel_Tabulky

We can select the columns with the letter, like in Excel.
# Select columns A and B
col <-read_excel(example, range =cell_cols("A:B"))
dim(col)

Výstup

## [1] 150   2

Poznámka: range = cell_cols(“A:B”), vrátí výstup všech buněk s nenulovou hodnotou. Datová sada obsahuje 150 řádků, proto read_excel() vrací řádky až 150. To je ověřeno funkcí dim().

read_excel() vrátí NA, když se v buňce objeví symbol bez číselné hodnoty. Kombinací dvou funkcí můžeme spočítat počet chybějících hodnot

  1. součet
  2. je.na

Zde je kód

iris_na <-read_excel(example, na ="setosa")
sum(is.na(iris_na))

Výstup

## [1] 50

Chybí nám 50 hodnot, což jsou řádky patřící druhu setosa.

Importujte data z jiného statistického softwaru

Pomocí balíčku nebe budeme importovat různé formáty souborů. Tento balíček podporuje SAS, STATA a SPSS software. Pomocí následující funkce můžeme otevřít různé typy datových sad podle přípony souboru:

  • SAS: read_sas()
  • STATA: read_dta() (nebo read_stata(), které jsou identické)
  • SPSS: read_sav() nebo read_por(). Musíme zkontrolovat rozšíření

V rámci této funkce je vyžadován pouze jeden argument. Potřebujeme znát PATH, kde je soubor uložen. To je vše, jsme připraveni otevřít všechny soubory ze SAS, STATA a SPSS. Tyto tři funkce akceptují také URL.

library(haven)

Haven přichází s conda r-essential jinak jděte do https://trials.autocruitment.com nebo v terminálu conda install -c conda-forge r-haven

Přečtěte si sas

Pro náš příklad použijeme vstupní datovou sadu z IDRE.

PATH_sas <- 'https://github.com/guru99-edu/R-Programming/blob/master/binary.sas7bdat?raw=true'
df <- read_sas(PATH_sas)
head(df)

Výstup

## # A tibble: 6 x 4
##   ADMIT   GRE   GPA  RANK
##   <dbl> <dbl> <dbl> <dbl>
## 1     0   380  3.61     3
## 2     1   660  3.67     3
## 3     1   800  4.00     1
## 4     1   640  3.19     4
## 5     0   520  2.93     4
## 6     1   760  3.00     2

Přečtěte si STATA

Pro datové soubory STATA můžete použít read_dta(). Používáme přesně stejnou datovou sadu, ale ukládáme ji do souboru .dta.

PATH_stata <- 'https://github.com/guru99-edu/R-Programming/blob/master/binary.dta?raw=true'
df <- read_dta(PATH_stata)
head(df)

Výstup

## # A tibble: 6 x 4				
##   admit   gre   gpa  rank				
##   <dbl> <dbl> <dbl> <dbl>				
## 1     0   380  3.61     3				
## 2     1   660  3.67     3				
## 3     1   800  4.00     1				
## 4     1   640  3.19     4				
## 5     0   520  2.93     4				
## 6     1   760  3.00     2

Přečtěte si SPSS

K otevření souboru SPSS používáme funkci read_sav(). Přípona souboru „.sav“

PATH_spss <- 'https://github.com/guru99-edu/R-Programming/blob/master/binary.sav?raw=true'
df <- read_sav(PATH_spss)
head(df)

Výstup

## # A tibble: 6 x 4				
##   admit   gre   gpa  rank				
##   <dbl> <dbl> <dbl> <dbl>				
## 1     0   380  3.61     3				
## 2     1   660  3.67     3			
## 3     1   800  4.00     1				
## 4     1   640  3.19     4				
## 5     0   520  2.93     4				
## 6     1   760  3.00     2

Doporučené postupy pro import údajů

Když chceme importovat data do R, je užitečné implementovat následující kontrolní seznam. Usnadní to správné importování dat do R:

  • Typickým formátem tabulky je použití prvních řádků jako záhlaví (obvykle název proměnné).
  • Vyhněte se pojmenování datové sady s prázdnými mezerami; může vést k interpretaci jako samostatné proměnné. Případně raději použijte '_' nebo '-.'
  • Preferují se krátká jména
  • Do názvu neuvádějte symbol: např.: exchange_rate_$_€ není správné. Raději to pojmenujte: exchange_rate_dollar_euro
  • Jinak použijte pro chybějící hodnoty NA; musíme formát vyčistit později.

Shrnutí

Následující tabulka shrnuje funkce, které se mají použít pro import různých typů souborů v R. První sloupec uvádí knihovnu související s funkcí. Poslední sloupec odkazuje na výchozí argument.

Knihovna Objektivní funkce Výchozí argumenty
utils Přečtěte si soubor CSV read.csv() file, header =,TRUE, sep = ","
readxl Přečtěte si soubor EXCEL read_excel() cesta, rozsah = NULL, názvy sloupců = TRUE
útočiště Přečtěte si soubor SAS read_sas() cesta
útočiště Přečtěte si soubor STATA read_stata() cesta
útočiště Přečtěte si soubor SPSS read_sav() cesta

Následující tabulka ukazuje různé způsoby importu výběru pomocí funkce read_excel().

funkce Objektivní Argumenty
read_excel() Přečtěte n počet řádků n_max = 10
Vyberte řádky a sloupce jako v Excelu rozsah = "A1:D10"
Vyberte řádky s indexy range= cell_rows(1:3)
Vyberte sloupce s písmeny rozsah = cell_cols(“A:C”)