Ce este limbajul de programare R? Introducere și elemente de bază ale lui R
Ce este R Software?
R este un limbaj de programare și software liber dezvoltat de Ross Ihaka și Robert Gentleman în 1993. R posedă un catalog extins de metode statistice și grafice. Include algoritmi de învățare automată, regresie liniară, serii de timp, inferență statistică pentru a numi câteva. Majoritatea bibliotecilor R sunt scrise în R, dar pentru sarcini de calcul grele, C, C++ și Fortran coduri sunt preferate.
R nu este încredințat doar de mediul academic, dar multe companii mari folosesc și limbajul de programare R, inclusiv Uber, Google, Airbnb, Facebook și așa mai departe.
Analiza datelor cu R se face într-o serie de pași; programarea, transformarea, descoperirea, modelarea și comunicarea rezultatelor
- Program: R este un instrument de programare clar și accesibil
- Transforma: R este alcătuit dintr-o colecție de biblioteci concepute special pentru știința datelor
- Descopera: Investigați datele, rafinați-vă ipoteza și analizați-le
- Model: R oferă o gamă largă de instrumente pentru a captura modelul potrivit pentru datele dvs
- Comunica: Integrați coduri, grafice și rezultate într-un raport cu R Markdown sau creați aplicații Shiny pentru a le partaja lumii
La ce se folosește R?
- Inferență statistică
- Analiza datelor
- Algoritm de învățare automată
R după industrie
Dacă defalcăm utilizarea lui R de către industrie, vedem că academicienii sunt pe primul loc. R este un limbaj pentru a face statistică. R este prima alegere în industria sănătății, urmată de guvern și consultanță.
Pachet R
Utilizările principale ale lui R sunt și vor fi întotdeauna statistica, vizualizarea și învățarea automată. Imaginea de mai jos arată care pachet R a primit cele mai multe întrebări în Stack Overflow. În top 10, majoritatea sunt legate de fluxul de lucru al unui cercetător de date: pregătirea datelor și comunicarea rezultatelor.
Toate bibliotecile lui R, aproape 12k, sunt stocate în CRAN. CRAN este o sursă gratuită și deschisă. Puteți descărca și utiliza numeroasele biblioteci pentru a performa Invatare mecanica sau analiza serii temporale.
Comunica cu R
R are mai multe moduri de a prezenta și partaja munca, fie printr-un document de reducere, fie printr-o aplicație strălucitoare. Totul poate fi găzduit în Rpub, GitHub sau site-ul companiei.
Mai jos este un exemplu de prezentare găzduită pe Rpub
Rstudio acceptă reducere pentru a scrie un document. Puteți exporta documentele în diferite formate:
- Document:
- HTML
- PDF/Latex
- Cuvânt
- Despre Institutul Bruno Comby
- HTML
- Beamer PDF
Rstudio are un instrument excelent pentru a crea o aplicație cu ușurință. Mai jos este un exemplu de aplicație cu datele Băncii Mondiale.
De ce să folosești R?
Știința datelor modelează modul în care companiile își conduc afacerile. Fără îndoială, a rămâne departe de Inteligența Artificială și Mașină va duce compania la eșec. Marea întrebare este ce instrument/limbă ar trebui să utilizați?
Sunt o mulțime de instrumente disponibile pe piață pentru a efectua analiza datelor. Învățarea unei limbi noi necesită o investiție de timp. Imaginea de mai jos ilustrează curba de învățare în comparație cu capacitatea de afaceri pe care o oferă o limbă. Relația negativă implică faptul că nu există prânz gratuit. Dacă doriți să oferiți cele mai bune informații din date, atunci trebuie să petreceți ceva timp învățând instrumentul adecvat, care este R.
În partea stângă sus a graficului, puteți vedea Excel și PowerBI. Aceste două instrumente sunt ușor de învățat, dar nu oferă o capacitate de afaceri remarcabilă, mai ales în ceea ce privește modelarea. În mijloc, puteți vedea Python și SAS. SAS este un instrument dedicat pentru a rula o analiză statistică pentru afaceri, dar nu este gratuit. SAS este un software click and run. Python, totuși, este o limbă cu o curbă de învățare monotonă. Python este un instrument fantastic pentru a implementa Machine Learning și AI, dar îi lipsesc funcțiile de comunicare. Cu o curbă de învățare identică, R este un bun compromis între implementare și analiza datelor.
Când vine vorba de vizualizarea datelor (DataViz), probabil ați auzit despre Tableau. Tableau este, fără îndoială, un instrument excelent pentru a descoperi modele prin grafice și diagrame. În plus, învățarea Tableau nu necesită timp. O mare problemă cu vizualizarea datelor este că s-ar putea să nu găsiți niciodată un model sau să creați o mulțime de diagrame inutile. Tableau este un instrument bun pentru vizualizarea rapidă a datelor sau Business Intelligence. Când vine vorba de statistici și instrument de luare a deciziilor, R este mai potrivit.
Stack Overflow este o comunitate mare pentru limbaje de programare. Dacă aveți o problemă de codificare sau trebuie să înțelegeți un model, Stack Overflow este aici pentru a vă ajuta. De-a lungul anului, procentul de vizionări cu întrebări a crescut brusc pentru R în comparație cu celelalte limbi. Această tendință este, desigur, foarte corelată cu epoca în plină expansiune a științei datelor, dar reflectă cererea limbajului R pentru știința datelor.
În știința datelor, există două instrumente care concurează între ele. R și Python sunt probabil limbajul de programare care definește știința datelor.
Ar trebui să alegi R?
Data scientist poate folosi două instrumente excelente: R și Python. Este posibil să nu aveți timp să le învățați pe amândouă, mai ales dacă începeți să învățați știința datelor. Învățarea modelării statistice și a algoritmului este mult mai important decât să înveți un limbaj de programare. A limbaj de programare este un instrument pentru a calcula și a comunica descoperirea ta. Cea mai importantă sarcină în știința datelor este modul în care tratați datele: import, curățare, pregătire, inginerie de caracteristici, selecție de caracteristici. Acesta ar trebui să fie obiectivul dvs. principal. Dacă încerci să înveți R și Python în același timp, fără un fundal solid în statistică, este pur și simplu stupid. Oamenii de știință de date nu sunt programatori. Sarcina lor este să înțeleagă datele, să le manipuleze și să expună cea mai bună abordare. Dacă te gândești ce limbă să înveți, hai să vedem care este cea mai potrivită pentru tine.
Publicul principal pentru știința datelor este profesioniștii în afaceri. În afaceri, o mare implicație este comunicarea. Există multe modalități de a comunica: raport, aplicație web, tablou de bord. Ai nevoie de un instrument care să facă toate acestea împreună.
R este dificil?
Cu ani în urmă, R era o limbă dificil de stăpânit. Limbajul era confuz și nu la fel de structurat ca celelalte instrumente de programare. Pentru a depăși această problemă majoră, Hadley Wickham a dezvoltat o colecție de pachete numite tidyverse. Regula jocului s-a schimbat în bine. Manipularea datelor devine banală și intuitivă. Crearea unui grafic nu mai era atât de dificilă.
Cei mai buni algoritmi pentru învățarea automată pot fi implementați cu R. Pachete precum Keras și TensorFlow permit crearea tehnicii de învățare automată de vârf. R are, de asemenea, un pachet pentru a efectua Xgboost, unul dintre cei mai buni algoritmi pentru competiția Kaggle.
R poate comunica cu cealaltă limbă. Este posibil să sunați Python, Java, C++ în R. Lumea datelor mari este accesibilă și lui R. Puteți conecta R cu diferite baze de date, cum ar fi Spark sau Hadoop.
În cele din urmă, R a evoluat și a permis operația de paralelizare pentru a accelera calculul. De fapt, R a fost criticat pentru că folosește un singur procesor la un moment dat. Pachetul paralel vă permite să efectuați sarcini în diferite nuclee ale mașinii.
Rezumat
Pe scurt, R este un instrument excelent pentru a explora și investiga datele. Analizele elaborate, cum ar fi gruparea, corelarea și reducerea datelor sunt realizate cu R. Aceasta este cea mai importantă parte, fără o inginerie și un model bun de caracteristici, implementarea învățării automate nu va da rezultate semnificative.








