Co je programovací jazyk R? Úvod a základy R
Co je R Software?
R je programovací jazyk a svobodný software vyvinutý Rossem Ihakou a Robertem Gentlemanem v roce 1993. R vlastní rozsáhlý katalog statistických a grafických metod. Zahrnuje algoritmy strojového učení, lineární regresi, časové řady, statistickou inferenci, abychom jmenovali alespoň některé. Většina knihoven R je napsána v R, ale pro těžké výpočetní úlohy je C, C++ si FortraPreferováno je n kódů.
R není svěřeno pouze akademickým pracovníkům, ale programovací jazyk R používá i mnoho velkých společností, včetně Uber, Google, Airbnb, Facebook a tak dále.
Analýza dat pomocí R se provádí v sérii kroků; programování, transformace, objevování, modelování a sdělování výsledků
- Program: R je přehledný a dostupný programovací nástroj
- Změnit: R se skládá z kolekce knihoven navržených speciálně pro datovou vědu
- Discover: Prozkoumejte data, upřesněte svou hypotézu a analyzujte je
- Model: R poskytuje širokou škálu nástrojů pro zachycení správného modelu pro vaše data
- Komunikovat: Integrujte kódy, grafy a výstupy do sestavy pomocí R Markdown nebo vytvářejte lesklé aplikace pro sdílení se světem
K čemu se R používá?
- Statistická inference
- Analýza dat
- Algoritmus strojového učení
R od Industry
Pokud rozložíme používání R podle odvětví, vidíme, že akademici jsou na prvním místě. R je jazyk pro statistiku. R je první volbou ve zdravotnictví, následuje vláda a poradenství.
R balíček
Primárním využitím R je a vždy bude statistika, vizualizace a strojové učení. Obrázek níže ukazuje, který balíček R dostal nejvíce otázek v Stack Overflow. V top 10 se většina z nich týká pracovního postupu datového vědce: příprava dat a sdělování výsledků.
Všechny knihovny R, téměř 12k, jsou uloženy v CRAN. CRAN je bezplatný a otevřený zdroj. Můžete si stáhnout a používat četné knihovny k provedení Strojové učení nebo analýza časových řad.
Komunikujte s R
R má několik způsobů, jak prezentovat a sdílet práci, buď prostřednictvím dokumentu markdown nebo lesklé aplikace. Vše může být hostováno v Rpub, GitHubu nebo na webu firmy.
Níže je uveden příklad prezentace hostované na Rpub
Rstudio přijímá markdown k napsání dokumentu. Dokumenty můžete exportovat v různých formátech:
- dokument:
- HTML
- PDF/Latex
- Slovo
- představení
- HTML
- PDF projektor
Rstudio má skvělý nástroj pro snadné vytvoření aplikace. Níže je uveden příklad aplikace s daty Světové banky.
Proč používat R?
Datová věda utváří způsob, jakým společnosti provozují své podnikání. Zůstat od umělé inteligence a strojů bezpochyby povede k úpadku společnosti. Velkou otázkou je, který nástroj/jazyk byste měli používat?
Na trhu je k dispozici spousta nástrojů k provádění analýzy dat. Naučit se nový jazyk vyžaduje určitou časovou investici. Obrázek níže znázorňuje křivku učení ve srovnání s obchodními schopnostmi, které jazyk nabízí. Negativní vztah znamená, že neexistuje oběd zdarma. Pokud chcete z dat poskytnout nejlepší náhled, musíte strávit nějaký čas učením se vhodného nástroje, kterým je R.
V levé horní části grafu vidíte Excel a PowerBI. Tyto dva nástroje se snadno učí, ale nenabízejí vynikající obchodní schopnosti, zejména pokud jde o modelování. Uprostřed můžete vidět Python a SAS. SAS je specializovaný nástroj pro provádění statistické analýzy pro podniky, ale není zdarma. SAS je software typu click and run. Python, je však jazyk s monotónní křivkou učení. Python je fantastický nástroj pro nasazení strojového učení a umělé inteligence, ale postrádá komunikační funkce. Díky stejné křivce učení je R dobrým kompromisem mezi implementací a analýzou dat.
Pokud jde o vizualizaci dat (DataViz), pravděpodobně jste slyšeli o Tableau. Tableau je bezpochyby skvělý nástroj k objevování vzorců prostřednictvím grafů a tabulek. Kromě toho není učení Tableau časově náročné. Jedním z velkých problémů s vizualizací dat je, že se vám může stát, že nikdy nenajdete vzor nebo jen vytvoříte spoustu zbytečných grafů. Tableau je dobrý nástroj pro rychlou vizualizaci dat nebo Business Intelligence. Pokud jde o statistiku a nástroj pro rozhodování, R je vhodnější.
Stack Overflow je velká komunita programovacích jazyků. Pokud máte problém s kódováním nebo potřebujete porozumět modelu, Stack Overflow vám pomůže. V průběhu roku se procento zobrazení otázek pro R ve srovnání s ostatními jazyky prudce zvýšilo. Tento trend samozřejmě vysoce koreluje s rozkvětem datové vědy, ale odráží poptávku jazyka R pro datovou vědu.
V datové vědě existují dva nástroje, které si navzájem konkurují. R a Python jsou pravděpodobně programovacím jazykem, který definuje datovou vědu.
Měli byste si vybrat R?
Datový vědec může použít dva vynikající nástroje: R a Python. Možná nebudete mít čas se je naučit oba, zvláště pokud se začnete učit datovou vědu. Naučit se statistickému modelování a algoritmu je mnohem důležitější než se naučit programovací jazyk. A programovací jazyk je nástroj pro výpočet a sdělení vašeho objevu. Nejdůležitějším úkolem ve vědě o datech je způsob, jakým s daty nakládáte: import, čištění, příprava, inženýrství funkcí, výběr funkcí. To by mělo být vaším hlavním zaměřením. Pokud se snažíte naučit R a Python zároveň bez solidního zázemí ve statistikách je to obyčejná hloupost. Datoví vědci nejsou programátoři. Jejich úkolem je porozumět datům, manipulovat s nimi a odhalit nejlepší přístup. Pokud přemýšlíte, jaký jazyk se učit, pojďme se podívat, který jazyk je pro vás nejvhodnější.
Hlavním publikem pro datovou vědu jsou obchodní profesionálové. V podnikání je jedním velkým důsledkem komunikace. Existuje mnoho způsobů komunikace: sestava, webová aplikace, řídicí panel. Potřebujete nástroj, který to všechno zvládne dohromady.
Je R obtížné?
Před lety byl jazyk R obtížně zvládnutelný. Jazyk byl matoucí a nebyl tak strukturovaný jako ostatní programovací nástroje. K překonání tohoto zásadního problému vyvinul Hadley Wickham sbírku balíčků nazvanou tidyverse. Pravidla hry se změnila v nejlepší. Manipulace s daty se stává triviální a intuitivní. Vytvoření grafu již nebylo tak obtížné.
Nejlepší algoritmy pro strojové učení lze implementovat pomocí R. Balíčky jako Keras a TensorFlow umožňují vytvářet špičkovou techniku strojového učení. R má také balíček pro provádění Xgboost, jednoho z nejlepších algoritmů pro soutěž Kaggle.
R může komunikovat s jiným jazykem. Je možné zavolat Python, Java, C++ v R. Svět velkých dat je přístupný také R. R můžete propojit s různými databázemi, např Spark nebo Hadoop.
Nakonec se R vyvinul a umožnil paralelizační operaci pro urychlení výpočtu. Ve skutečnosti byl R kritizován za používání pouze jednoho CPU najednou. Paralelní balíček vám umožňuje provádět úkoly v různých jádrech stroje.
Shrnutí
Stručně řečeno, R je skvělý nástroj pro zkoumání a zkoumání dat. Propracovaná analýza, jako je shlukování, korelace a redukce dat, se provádí pomocí R. Toto je nejdůležitější část, bez dobrého inženýrství funkcí a modelu nebude nasazení strojového učení poskytovat smysluplné výsledky.