Mi az R programozási nyelv? Az R bevezetése és alapjai
Mi az az R szoftver?
R egy programozási nyelv és ingyenes szoftver, amelyet Ross Ihaka és Robert Gentleman fejlesztett ki 1993-ban. Az R kiterjedt statisztikai és grafikus módszerek katalógusával rendelkezik. Tartalmaz gépi tanulási algoritmusokat, lineáris regressziót, idősorokat, statisztikai következtetéseket, hogy csak néhányat említsünk. Az R könyvtárak többsége R-ben van írva, de nehéz számítási feladatokhoz C, C++ és a Fortran kódok előnyösek.
Az R-re nemcsak az akadémikusok bízzák meg, hanem sok nagy cég is használja az R programozási nyelvet, köztük az Uber, a Google, az Airbnb, a Facebook és így tovább.
Az R-vel végzett adatelemzés több lépésben történik; programozás, átalakítás, felfedezés, modellezés és az eredmények közlése
- Program: R egy áttekinthető és hozzáférhető programozási eszköz
- Átalakítás: R kifejezetten adattudományi célokra tervezett könyvtárak gyűjteményéből áll
- Ismerjen meg minket: Vizsgálja meg az adatokat, finomítsa hipotézisét és elemezze azokat
- Modell: Az R eszközök széles skáláját kínálja az adatok megfelelő modelljének rögzítéséhez
- Közöl: Integráljon kódokat, grafikonokat és kimeneteket egy jelentésbe az R Markdown segítségével, vagy készítsen Shiny alkalmazásokat, hogy megoszthassa a világgal
Mire használható az R?
- Statisztikai következtetés
- Az adatok elemzése
- Gépi tanulási algoritmus
R az ipartól
Ha az R használatát iparágra bontjuk, azt látjuk, hogy az akadémikusok az elsők. Az R a statisztika nyelve. Az R az első választás az egészségügyben, ezt követi a kormányzat és a tanácsadás.
R csomag
Az R elsődleges felhasználási területei a statisztika, a vizualizáció és a gépi tanulás, és az is marad. Az alábbi képen látható, hogy melyik R csomagban volt a legtöbb kérdés a Stack Overflow-ban. A top 10-ben ezek többsége egy adattudós munkafolyamatához kapcsolódik: az adatok előkészítéséhez és az eredmények kommunikálásához.
Az R összes könyvtára, csaknem 12k, a CRAN-ban van tárolva. A CRAN egy ingyenes és nyílt forráskódú. Letöltheti és felhasználhatja a számos könyvtárat Gépi tanulás vagy idősor elemzés.
Kommunikálj R-vel
Az R többféle módon is bemutathatja és megoszthatja a munkáját, akár leértékelési dokumentumon, akár fényes alkalmazáson keresztül. Mindent tárolhat az Rpub, a GitHub vagy a vállalkozás webhelyén.
Az alábbiakban egy példát mutatunk be egy prezentációra, amelyet itt tároltak Rpub
Az Rstudio elfogadja a leértékelést a dokumentum írásához. A dokumentumokat különböző formátumokban exportálhatja:
- dokumentum:
- HTML
- PDF/latex
- szó
- Bemutatás
- HTML
- PDF sugárzó
Az Rstudio nagyszerű eszközzel rendelkezik az alkalmazások egyszerű létrehozásához. Az alábbiakban egy példa látható a Világbank adatait tartalmazó alkalmazásra.
Miért használja az R-t?
Az adattudomány alakítja a vállalatok üzletvitelét. Kétségtelen, hogy a mesterséges intelligenciától és a gépektől való távolmaradás a vállalat kudarcához vezet. A nagy kérdés az, hogy melyik eszközt/nyelvet érdemes használni?
Rengeteg eszköz áll rendelkezésre a piacon az adatok elemzéséhez. Egy új nyelv elsajátítása időbefektetést igényel. Az alábbi kép a tanulási görbét mutatja a nyelv által kínált üzleti lehetőségekhez képest. A negatív kapcsolat azt jelenti, hogy nincs ingyen ebéd. Ha a legjobb betekintést szeretné adni az adatokból, akkor el kell szánnia egy kis időt a megfelelő eszköz, azaz az R megtanulására.
A grafikon bal felső sarkában az Excel és a PowerBI látható. Ez a két eszköz könnyen megtanulható, de nem kínál kiemelkedő üzleti képességeket, különösen a modellezés terén. Középen láthatod Python és a SAS. A SAS egy dedikált eszköz az üzleti statisztikai elemzések futtatásához, de nem ingyenes. A SAS egy kattintással futtatható szoftver. Pythonazonban egy monoton tanulási görbével rendelkező nyelv. Python egy fantasztikus eszköz a Machine Learning és az AI bevezetéséhez, de hiányoznak a kommunikációs funkciók. Azonos tanulási görbével az R jó kompromisszum az implementáció és az adatelemzés között.
Amikor az adatok vizualizálásáról van szó (DataViz), valószínűleg hallott már Tableau-ról. A Tableau kétségtelenül nagyszerű eszköz a minták felfedezésére grafikonokon és diagramokon keresztül. Emellett a Tableau megtanulása nem időigényes. Az adatvizualizáció egyik nagy problémája, hogy előfordulhat, hogy soha nem talál mintát, vagy egyszerűen csak rengeteg haszontalan diagramot hoz létre. A Tableau jó eszköz az adatok vagy az üzleti intelligencia gyors megjelenítésére. Ha a statisztikákról és a döntéshozatali eszközről van szó, az R a megfelelőbb.
A Stack Overflow egy nagy közösség a programozási nyelvek számára. Ha kódolási problémája van, vagy meg kell értenie egy modellt, a Stack Overflow készen áll a segítségére. Az év során a kérdésmegtekintések aránya meredeken nőtt az R esetében a többi nyelvhez képest. Ez a tendencia természetesen erősen korrelál az adattudomány virágzó korával, de tükrözi az R nyelv adattudomány iránti igényét.
Az adattudományban két eszköz versenyez egymással. R és Python valószínűleg az adattudományt meghatározó programozási nyelv.
Válaszd az R-t?
Az adattudós két kiváló eszközt tud használni: R és Python. Lehet, hogy nincs ideje mindkettőt megtanulni, különösen, ha elkezdi tanulni az adattudományt. Statisztikai modellezés és algoritmus tanulása sokkal fontosabb, mint egy programozási nyelv megtanulása. A programozási nyelv egy eszköz a felfedezés kiszámításához és közléséhez. Az adattudományban a legfontosabb feladat az adatok kezelésének módja: importálás, tisztítás, előkészítés, jellemzők tervezése, jellemző kiválasztása. Ennek kell az elsődleges fókusznak lennie. Ha megpróbálja megtanulni az R és Python ugyanakkor szilárd statisztikai háttér nélkül ez sima hülyeség. Az adattudósok nem programozók. Feladatuk az adatok megértése, manipulálása és a legjobb megközelítés feltárása. Ha azon gondolkodik, hogy melyik nyelvet tanulja meg, nézzük meg, melyik nyelv a legmegfelelőbb az Ön számára.
Az adattudomány fő közönsége az üzleti szakemberek. Az üzletben az egyik nagy vonzat a kommunikáció. A kommunikációnak számos módja van: jelentés, webalkalmazás, irányítópult. Szüksége van egy eszközre, amely mindezt együtt teszi.
R nehéz?
Évekkel ezelőtt az R nyelvet nehéz elsajátítani. A nyelv zavaró volt, és nem olyan strukturált, mint a többi programozási eszköz. Ennek a nagy problémának a megoldására Hadley Wickham kifejlesztett egy tidyverse nevű csomaggyűjteményt. A játékszabály a javából megváltozott. Az adatkezelés triviálissá és intuitívá válik. A grafikon készítése már nem volt olyan nehéz.
A gépi tanulás legjobb algoritmusai az R-vel valósíthatók meg. Az olyan csomagok, mint a Keras és a TensorFlow, lehetővé teszik a csúcskategóriás gépi tanulási technika létrehozását. Az R-nek van egy csomagja az Xgboost végrehajtásához, amely az egyik legjobb algoritmus a Kaggle versenyhez.
R tud kommunikálni a másik nyelvvel. Lehetőség van hívni Python, Java, C++ R-ben. A big data világa az R számára is elérhető. Az R-t különféle adatbázisokkal kapcsolhatja össze, mint pl Spark vagy Hadoop.
Végül az R fejlődött, és lehetővé tette a párhuzamosítást, hogy felgyorsítsa a számítást. Valójában R-t kritizálták, amiért egyszerre csak egy CPU-t használ. A párhuzamos csomag lehetővé teszi a feladatok elvégzését a gép különböző magjaiban.
Összegzésként
Dióhéjban az R nagyszerű eszköz az adatok feltárására és vizsgálatára. A kidolgozott elemzések, mint például a klaszterezés, a korreláció és az adatok redukciója az R segítségével történik. Ez a legfontosabb rész, jó tulajdonságtervezés és modell nélkül a gépi tanulás bevezetése nem hoz érdemi eredményeket.