Mi az R programozási nyelv? Az R bevezetése és alapjai

Mi az az R szoftver?

R egy programozási nyelv és ingyenes szoftver, amelyet Ross Ihaka és Robert Gentleman fejlesztett ki 1993-ban. Az R kiterjedt statisztikai és grafikus módszerek katalógusával rendelkezik. Tartalmaz gépi tanulási algoritmusokat, lineáris regressziót, idősorokat, statisztikai következtetéseket, hogy csak néhányat említsünk. Az R könyvtárak többsége R-ben van írva, de nehéz számítási feladatokhoz C, C++ és a Fortran kódok előnyösek.

Az R-re nemcsak az akadémikusok bízzák meg, hanem sok nagy cég is használja az R programozási nyelvet, köztük az Uber, a Google, az Airbnb, a Facebook és így tovább.

Az R-vel végzett adatelemzés több lépésben történik; programozás, átalakítás, felfedezés, modellezés és az eredmények közlése

  • Program: R egy áttekinthető és hozzáférhető programozási eszköz
  • Átalakítás: R kifejezetten adattudományi célokra tervezett könyvtárak gyűjteményéből áll
  • Ismerjen meg minket: Vizsgálja meg az adatokat, finomítsa hipotézisét és elemezze azokat
  • Modell: Az R eszközök széles skáláját kínálja az adatok megfelelő modelljének rögzítéséhez
  • Közöl: Integráljon kódokat, grafikonokat és kimeneteket egy jelentésbe az R Markdown segítségével, vagy készítsen Shiny alkalmazásokat, hogy megoszthassa a világgal

Mire használható az R?

  • Statisztikai következtetés
  • Az adatok elemzése
  • Gépi tanulási algoritmus

R az ipartól

Ha az R használatát iparágra bontjuk, azt látjuk, hogy az akadémikusok az elsők. Az R a statisztika nyelve. Az R az első választás az egészségügyben, ezt követi a kormányzat és a tanácsadás.

R az ipartól

R csomag

Az R elsődleges felhasználási területei a statisztika, a vizualizáció és a gépi tanulás, és az is marad. Az alábbi képen látható, hogy melyik R csomagban volt a legtöbb kérdés a Stack Overflow-ban. A top 10-ben ezek többsége egy adattudós munkafolyamatához kapcsolódik: az adatok előkészítéséhez és az eredmények kommunikálásához.

R csomag

Az R összes könyvtára, csaknem 12k, a CRAN-ban van tárolva. A CRAN egy ingyenes és nyílt forráskódú. Letöltheti és felhasználhatja a számos könyvtárat Gépi tanulás vagy idősor elemzés.

R csomag

Kommunikálj R-vel

Az R többféle módon is bemutathatja és megoszthatja a munkáját, akár leértékelési dokumentumon, akár fényes alkalmazáson keresztül. Mindent tárolhat az Rpub, a GitHub vagy a vállalkozás webhelyén.

Az alábbiakban egy példát mutatunk be egy prezentációra, amelyet itt tároltak Rpub

Kommunikálj R-vel

Az Rstudio elfogadja a leértékelést a dokumentum írásához. A dokumentumokat különböző formátumokban exportálhatja:

  • dokumentum:
    • HTML
    • PDF/latex
    • szó
  • Bemutatás
    • HTML
    • PDF sugárzó

Kommunikálj R-vel

Az Rstudio nagyszerű eszközzel rendelkezik az alkalmazások egyszerű létrehozásához. Az alábbiakban egy példa látható a Világbank adatait tartalmazó alkalmazásra.

Kommunikálj R-vel

Miért használja az R-t?

Az adattudomány alakítja a vállalatok üzletvitelét. Kétségtelen, hogy a mesterséges intelligenciától és a gépektől való távolmaradás a vállalat kudarcához vezet. A nagy kérdés az, hogy melyik eszközt/nyelvet érdemes használni?

Rengeteg eszköz áll rendelkezésre a piacon az adatok elemzéséhez. Egy új nyelv elsajátítása időbefektetést igényel. Az alábbi kép a tanulási görbét mutatja a nyelv által kínált üzleti lehetőségekhez képest. A negatív kapcsolat azt jelenti, hogy nincs ingyen ebéd. Ha a legjobb betekintést szeretné adni az adatokból, akkor el kell szánnia egy kis időt a megfelelő eszköz, azaz az R megtanulására.

Data Science for Business Capability minősítés

A grafikon bal felső sarkában az Excel és a PowerBI látható. Ez a két eszköz könnyen megtanulható, de nem kínál kiemelkedő üzleti képességeket, különösen a modellezés terén. Középen láthatod Python és a SAS. A SAS egy dedikált eszköz az üzleti statisztikai elemzések futtatásához, de nem ingyenes. A SAS egy kattintással futtatható szoftver. Pythonazonban egy monoton tanulási görbével rendelkező nyelv. Python egy fantasztikus eszköz a Machine Learning és az AI bevezetéséhez, de hiányoznak a kommunikációs funkciók. Azonos tanulási görbével az R jó kompromisszum az implementáció és az adatelemzés között.

Amikor az adatok vizualizálásáról van szó (DataViz), valószínűleg hallott már Tableau-ról. A Tableau kétségtelenül nagyszerű eszköz a minták felfedezésére grafikonokon és diagramokon keresztül. Emellett a Tableau megtanulása nem időigényes. Az adatvizualizáció egyik nagy problémája, hogy előfordulhat, hogy soha nem talál mintát, vagy egyszerűen csak rengeteg haszontalan diagramot hoz létre. A Tableau jó eszköz az adatok vagy az üzleti intelligencia gyors megjelenítésére. Ha a statisztikákról és a döntéshozatali eszközről van szó, az R a megfelelőbb.

A Stack Overflow egy nagy közösség a programozási nyelvek számára. Ha kódolási problémája van, vagy meg kell értenie egy modellt, a Stack Overflow készen áll a segítségére. Az év során a kérdésmegtekintések aránya meredeken nőtt az R esetében a többi nyelvhez képest. Ez a tendencia természetesen erősen korrelál az adattudomány virágzó korával, de tükrözi az R nyelv adattudomány iránti igényét.

Stack túlcsordulási forgalom

Az adattudományban két eszköz versenyez egymással. R és Python valószínűleg az adattudományt meghatározó programozási nyelv.

Válaszd az R-t?

Az adattudós két kiváló eszközt tud használni: R és Python. Lehet, hogy nincs ideje mindkettőt megtanulni, különösen, ha elkezdi tanulni az adattudományt. Statisztikai modellezés és algoritmus tanulása sokkal fontosabb, mint egy programozási nyelv megtanulása. A programozási nyelv egy eszköz a felfedezés kiszámításához és közléséhez. Az adattudományban a legfontosabb feladat az adatok kezelésének módja: importálás, tisztítás, előkészítés, jellemzők tervezése, jellemző kiválasztása. Ennek kell az elsődleges fókusznak lennie. Ha megpróbálja megtanulni az R és Python ugyanakkor szilárd statisztikai háttér nélkül ez sima hülyeség. Az adattudósok nem programozók. Feladatuk az adatok megértése, manipulálása és a legjobb megközelítés feltárása. Ha azon gondolkodik, hogy melyik nyelvet tanulja meg, nézzük meg, melyik nyelv a legmegfelelőbb az Ön számára.

Az adattudomány fő közönsége az üzleti szakemberek. Az üzletben az egyik nagy vonzat a kommunikáció. A kommunikációnak számos módja van: jelentés, webalkalmazás, irányítópult. Szüksége van egy eszközre, amely mindezt együtt teszi.

R nehéz?

Évekkel ezelőtt az R nyelvet nehéz elsajátítani. A nyelv zavaró volt, és nem olyan strukturált, mint a többi programozási eszköz. Ennek a nagy problémának a megoldására Hadley Wickham kifejlesztett egy tidyverse nevű csomaggyűjteményt. A játékszabály a javából megváltozott. Az adatkezelés triviálissá és intuitívá válik. A grafikon készítése már nem volt olyan nehéz.

A gépi tanulás legjobb algoritmusai az R-vel valósíthatók meg. Az olyan csomagok, mint a Keras és a TensorFlow, lehetővé teszik a csúcskategóriás gépi tanulási technika létrehozását. Az R-nek van egy csomagja az Xgboost végrehajtásához, amely az egyik legjobb algoritmus a Kaggle versenyhez.

R tud kommunikálni a másik nyelvvel. Lehetőség van hívni Python, Java, C++ R-ben. A big data világa az R számára is elérhető. Az R-t különféle adatbázisokkal kapcsolhatja össze, mint pl Spark vagy Hadoop.

Végül az R fejlődött, és lehetővé tette a párhuzamosítást, hogy felgyorsítsa a számítást. Valójában R-t kritizálták, amiért egyszerre csak egy CPU-t használ. A párhuzamos csomag lehetővé teszi a feladatok elvégzését a gép különböző magjaiban.

Összegzésként

Dióhéjban az R nagyszerű eszköz az adatok feltárására és vizsgálatára. A kidolgozott elemzések, mint például a klaszterezés, a korreláció és az adatok redukciója az R segítségével történik. Ez a legfontosabb rész, jó tulajdonságtervezés és modell nélkül a gépi tanulás bevezetése nem hoz érdemi eredményeket.