Što je programski jezik R? Uvod i osnove R

Što je R softver?

R je programski jezik i besplatni softver koji su razvili Ross Ihaka i Robert Gentleman 1993. R posjeduje opsežan katalog statističkih i grafičkih metoda. Uključuje algoritme strojnog učenja, linearnu regresiju, vremenske serije, statističko zaključivanje da spomenemo samo neke. Većina R knjižnica napisana je u R-u, ali za teške računalne zadatke, C, C++ i Fortrapoželjni su n kodovi.

R nije povjeren samo akademskim zajednicama, već i mnoge velike tvrtke također koriste R programski jezik, uključujući Uber, Google, Airbnb, Facebook i tako dalje.

Analiza podataka s R-om provodi se u nizu koraka; programiranje, transformiranje, otkrivanje, modeliranje i komuniciranje rezultata

  • program: R je jasan i pristupačan alat za programiranje
  • Transformirati: R se sastoji od zbirke knjižnica dizajniranih posebno za znanost podataka
  • Istražite: Istražite podatke, pročistite svoju hipotezu i analizirajte ih
  • Model: R pruža široku lepezu alata za snimanje pravog modela za vaše podatke
  • Komunicirati: Integrirajte kodove, grafikone i izlaze u izvješće uz R Markdown ili izradite Shiny aplikacije za dijeljenje sa svijetom

Za što se koristi R?

  • Statističko zaključivanje
  • Analiza podataka
  • Algoritam strojnog učenja

R po industriji

Ako raščlanimo korištenje R-a po industriji, vidjet ćemo da su akademici na prvom mjestu. R je jezik za statistiku. R je prvi izbor u zdravstvenoj industriji, a slijede ga vlada i savjetovanje.

R po industriji

R paket

Primarna upotreba R-a jest i uvijek će biti statistika, vizualizacija i strojno učenje. Slika ispod pokazuje koji je R paket dobio najviše pitanja u Stack Overflowu. U prvih 10, većina ih je povezana s tijek rada podatkovnog znanstvenika: priprema podataka i priopćavanje rezultata.

R paket

Sve biblioteke R-a, gotovo 12k, pohranjene su u CRAN-u. CRAN je besplatan i otvorenog koda. Možete preuzeti i koristiti brojne biblioteke za izvođenje Strojno učenje ili analiza vremenskih serija.

R paket

Komunicirajte s R

R ima više načina za predstavljanje i dijeljenje rada, bilo putem dokumenta s markom ili sjajne aplikacije. Sve se može smjestiti na Rpub, GitHub ili web stranicu tvrtke.

Ispod je primjer prezentacije koja se nalazi na Rpub

Komunicirajte s R

Rstudio prihvaća markdown za pisanje dokumenta. Dokumente možete izvesti u različitim formatima:

  • Dokument:
    • HTML
    • PDF/lateks
    • riječ
  • Prezentacija
    • HTML
    • PDF beamer

Komunicirajte s R

Rstudio ima sjajan alat za jednostavno stvaranje aplikacije. Ispod je primjer aplikacije s podacima Svjetske banke.

Komunicirajte s R

Zašto koristiti R?

Znanost o podacima oblikuje način na koji tvrtke vode svoje poslovanje. Bez sumnje, držanje podalje od umjetne inteligencije i stroja dovest će tvrtku do propasti. Veliko je pitanje koji alat/jezik trebate koristiti?

Na tržištu je dostupno mnogo alata za analizu podataka. Učenje novog jezika zahtijeva određeno vrijeme. Slika ispod prikazuje krivulju učenja u usporedbi s poslovnom sposobnošću koju jezik nudi. Negativan odnos implicira da nema besplatnog ručka. Ako želite dati najbolji uvid iz podataka, tada morate potrošiti neko vrijeme na učenje odgovarajućeg alata, a to je R.

Data Science for Business Capability Rating

U gornjem lijevom kutu grafikona možete vidjeti Excel i PowerBI. Ova dva alata je jednostavno naučiti, ali ne nude izvanredne poslovne mogućnosti, posebno u smislu modeliranja. U sredini, možete vidjeti Python i SAS. SAS je namjenski alat za pokretanje statističke analize za poslovanje, ali nije besplatan. SAS je softver klikni i pokreni. Python, međutim, jezik je s monotonom krivuljom učenja. Python fantastičan je alat za implementaciju strojnog učenja i umjetne inteligencije, ali nema komunikacijskih značajki. S identičnom krivuljom učenja, R je dobar kompromis između implementacije i analize podataka.

Kada je riječ o vizualizaciji podataka (DataViz), vjerojatno ste čuli za Tableau. Tableau je bez sumnje izvrstan alat za otkrivanje obrazaca kroz grafikone i dijagrame. Osim toga, učenje Tableaua ne oduzima puno vremena. Jedan veliki problem s vizualizacijom podataka jest da možete završiti tako da nikada ne pronađete uzorak ili samo stvorite mnoštvo beskorisnih grafikona. Tableau je dobar alat za brzu vizualizaciju podataka ili Business Intelligence. Kada je riječ o statistici i alatu za donošenje odluka, R je prikladniji.

Stack Overflow je velika zajednica za programske jezike. Ako imate problema s kodiranjem ili trebate razumjeti model, Stack Overflow je tu da vam pomogne. Tijekom godine, postotak pregleda pitanja naglo je porastao za R u usporedbi s drugim jezicima. Ovaj je trend naravno u velikoj korelaciji s dobom procvata znanosti o podacima, ali odražava potražnju R jezika za znanošću o podacima.

Stack Overflow Promet

U znanosti o podacima postoje dva alata koji se međusobno natječu. R i Python su vjerojatno programski jezik koji definira podatkovnu znanost.

Trebate li odabrati R?

Podatkovni znanstvenik može koristiti dva izvrsna alata: R i Python. Možda nećete imati vremena naučiti oboje, pogotovo ako ste počeli učiti znanost o podacima. Učenje statističkog modeliranja i algoritama daleko je važnije od učenja programskog jezika. A programski jezik je alat za izračunavanje i priopćavanje vašeg otkrića. Najvažniji zadatak u znanosti o podacima je način na koji se nosite s podacima: uvoz, čišćenje, priprema, inženjering značajki, odabir značajki. Ovo bi trebao biti vaš primarni fokus. Ako pokušavate naučiti R i Python u isto vrijeme bez solidne pozadine u statistici, jednostavno je glupo. Znanstvenici za podatke nisu programeri. Njihov je posao razumjeti podatke, manipulirati njima i izložiti najbolji pristup. Ako razmišljate koji jezik učiti, da vidimo koji vam jezik najviše odgovara.

Glavna publika za podatkovnu znanost su poslovni profesionalci. U poslu, jedna velika implikacija je komunikacija. Postoji mnogo načina za komunikaciju: izvješće, web aplikacija, nadzorna ploča. Potreban vam je alat koji sve to čini zajedno.

Je li R teško?

Prije mnogo godina, R je bio težak jezik za svladavanje. Jezik je bio zbunjujući i nije tako strukturiran kao drugi programski alati. Kako bi prevladao ovaj veliki problem, Hadley Wickham je razvio kolekciju paketa pod nazivom tidyverse. Pravila igre promijenila su se nabolje. Manipulacija podacima postaje trivijalna i intuitivna. Izrada grafikona više nije bila tako teška.

Najbolji algoritmi za strojno učenje mogu se implementirati s R. Paketi kao što su Keras i TensorFlow omogućuju stvaranje vrhunske tehnike strojnog učenja. R također ima paket za izvođenje Xgboosta, jednog od najboljih algoritama za Kaggle konkurenciju.

R može komunicirati s drugim jezikom. Moguće je nazvati Python, Java, C++ u R. Svijet velikih podataka također je dostupan R. R možete povezati s različitim bazama podataka kao što su Spark ili Hadoop.

Konačno, R je evoluirao i omogućio paraleliziranje operacija za ubrzanje izračuna. Zapravo, R je kritiziran zbog korištenja samo jednog CPU-a odjednom. Paralelni paket vam omogućuje izvršavanje zadataka u različitim jezgrama stroja.

rezime

Ukratko, R je izvrstan alat za istraživanje i istraživanje podataka. Razrađene analize poput klasteriranja, korelacije i redukcije podataka izvode se s R. Ovo je najvažniji dio, bez dobrog inženjeringa značajki i modela, implementacija strojnog učenja neće dati značajne rezultate.