Hvad er R-programmeringssprog? Introduktion og grundlæggende om R

Hvad er R Software?

R er et programmeringssprog og gratis software udviklet af Ross Ihaka og Robert Gentleman i 1993. R besidder et omfattende katalog over statistiske og grafiske metoder. Det inkluderer maskinlæringsalgoritmer, lineær regression, tidsserier, statistisk inferens for at nævne nogle få. De fleste af R-bibliotekerne er skrevet i R, men til tunge beregningsopgaver, C, C++ og Fortran koder foretrækkes.

R er ikke kun betroet af akademikere, men mange store virksomheder bruger også R programmeringssprog, herunder Uber, Google, Airbnb, Facebook og så videre.

Dataanalyse med R udføres i en række trin; programmere, transformere, opdage, modellere og formidle resultaterne

  • Program: R er et overskueligt og tilgængeligt programmeringsværktøj
  • Transform: R består af en samling af biblioteker designet specifikt til datavidenskab
  • Opdag: Undersøg dataene, finpuds din hypotese og analyser dem
  • Model: R giver en bred vifte af værktøjer til at fange den rigtige model til dine data
  • Kommunikere: Integrer koder, grafer og output til en rapport med R Markdown eller byg skinnende apps til at dele med verden

Hvad bruges R til?

  • Statistisk slutning
  • Dataanalyse
  • Maskinlæringsalgoritme

R efter industri

Hvis vi opdeler brugen af ​​R efter branche, ser vi, at akademikerne kommer først. R er et sprog til at lave statistik. R er det første valg i sundhedssektoren, efterfulgt af regering og rådgivning.

R efter industri

R pakke

De primære anvendelser af R er og vil altid være statistik, visualisering og maskinlæring. Billedet nedenfor viser, hvilken R-pakke der fik flest spørgsmål i Stack Overflow. I top 10 er de fleste af dem relateret til en dataforskers arbejdsgang: dataforberedelse og formidling af resultaterne.

R Pakke

Alle bibliotekerne i R, næsten 12k, er gemt i CRAN. CRAN er en gratis og open source. Du kan downloade og bruge de mange biblioteker til at udføre Maskinelæring eller tidsserieanalyse.

R Pakke

Kommuniker med R

R har flere måder at præsentere og dele arbejde på, enten gennem et markdown-dokument eller en skinnende app. Alt kan hostes i Rpub, GitHub eller virksomhedens hjemmeside.

Nedenfor er et eksempel på en præsentation afholdt på Rpub

Kommuniker med R

Rstudio accepterer markdown for at skrive et dokument. Du kan eksportere dokumenterne i forskellige formater:

  • Dokument:
    • HTML
    • PDF/Latex
    • ord
  • Præsentation
    • HTML
    • PDF-beamer

Kommuniker med R

Rstudio har et fantastisk værktøj til nemt at oprette en app. Nedenfor er et eksempel på app med Verdensbankens data.

Kommuniker med R

Hvorfor bruge R?

Datavidenskab former den måde, virksomheder driver deres forretninger på. Uden tvivl vil det at holde sig væk fra kunstig intelligens og maskine føre til, at virksomheden mislykkes. Det store spørgsmål er hvilket værktøj/sprog du skal bruge?

De er masser af værktøjer tilgængelige på markedet til at udføre dataanalyse. At lære et nyt sprog kræver en del tidsinvestering. Billedet nedenfor viser læringskurven sammenlignet med den forretningsmæssige kapacitet et sprog tilbyder. Det negative forhold indebærer, at der ikke er gratis frokost. Hvis du vil give den bedste indsigt fra dataene, så skal du bruge lidt tid på at lære det passende værktøj, som er R.

Data Science for Business Capability Rating

Øverst til venstre på grafen kan du se Excel og PowerBI. Disse to værktøjer er nemme at lære, men tilbyder ikke enestående forretningskapacitet, især med hensyn til modellering. I midten kan du se Python og SAS. SAS er et dedikeret værktøj til at køre en statistisk analyse for erhvervslivet, men det er ikke gratis. SAS er en klik og kør software. Python, er dog et sprog med en monoton indlæringskurve. Python er et fantastisk værktøj til at implementere Machine Learning og AI, men mangler kommunikationsfunktioner. Med en identisk indlæringskurve er R en god afvejning mellem implementering og dataanalyse.

Når det kommer til datavisualisering (DataViz), havde du sikkert hørt om Tableau. Tableau er uden tvivl et fantastisk værktøj til at opdage mønstre gennem grafer og diagrammer. Desuden er det ikke tidskrævende at lære Tableau. Et stort problem med datavisualisering er, at du kan ende med aldrig at finde et mønster eller bare oprette masser af ubrugelige diagrammer. Tableau er et godt værktøj til hurtig visualisering af data eller Business Intelligence. Når det kommer til statistik og beslutningsværktøj, er R mere passende.

Stack Overflow er et stort fællesskab for programmeringssprog. Hvis du har et kodningsproblem eller har brug for at forstå en model, er Stack Overflow her for at hjælpe. I løbet af året er procentdelen af ​​spørgsmål-views steget markant for R sammenlignet med de andre sprog. Denne tendens er naturligvis stærkt korreleret med datavidenskabens blomstrende tidsalder, men den afspejler efterspørgslen fra R-sprog til datavidenskab.

Stakoverløbstrafik

Inden for datavidenskab er der to værktøjer, der konkurrerer med hinanden. R og Python er sandsynligvis det programmeringssprog, der definerer datavidenskab.

Skal du vælge R?

Data scientist kan bruge to fremragende værktøjer: R og Python. Du har måske ikke tid til at lære dem begge, især hvis du begynder at lære datavidenskab. Lære statistisk modellering og algoritme er langt vigtigere end at lære et programmeringssprog. EN programmeringssprog er et værktøj til at beregne og kommunikere din opdagelse. Den vigtigste opgave inden for datavidenskab er den måde, du håndterer data på: import, oprydning, forberedelse, funktionsudvikling, funktionsvalg. Dette bør være dit primære fokus. Hvis du prøver at lære R og Python på samme tid uden en solid baggrund i statistik, det er almindeligt dumt. Data scientist er ikke programmører. Deres opgave er at forstå dataene, manipulere dem og afsløre den bedste tilgang. Hvis du tænker på, hvilket sprog du skal lære, så lad os se, hvilket sprog der passer bedst til dig.

Det primære publikum for datavidenskab er erhvervsfolk. I branchen er en stor implikation kommunikation. Der er mange måder at kommunikere på: rapport, webapp, dashboard. Du har brug for et værktøj, der gør alt dette sammen.

Er R svært?

For år tilbage var R et svært sprog at mestre. Sproget var forvirrende og ikke så struktureret som de andre programmeringsværktøjer. For at overvinde dette store problem udviklede Hadley Wickham en samling pakker kaldet tidyverse. Reglen for spillet ændrede sig til det bedste. Datamanipulation bliver trivielt og intuitivt. At lave en graf var ikke så svært længere.

De bedste algoritmer til maskinlæring kan implementeres med R. Pakker som Keras og TensorFlow giver mulighed for at skabe avanceret maskinlæringsteknik. R har også en pakke til at udføre Xgboost, en af ​​de bedste algoritmer til Kaggle-konkurrence.

R kan kommunikere med det andet sprog. Det er muligt at ringe Python, Java, C++ i R. Big data-verdenen er også tilgængelig for R. Du kan forbinde R med forskellige databaser som f.eks Spark eller Hadoop.

Endelig har R udviklet sig og tilladt paralleliseringsoperation for at fremskynde beregningen. Faktisk blev R kritiseret for kun at bruge én CPU ad gangen. Parallelpakken giver dig mulighed for at udføre opgaver i forskellige kerner af maskinen.

Resumé

I en nøddeskal er R et fantastisk værktøj til at udforske og undersøge dataene. Udførlige analyser som clustering, korrelation og datareduktion udføres med R. Dette er den mest afgørende del, uden en god feature engineering og model vil implementeringen af ​​maskinlæring ikke give meningsfulde resultater.

Opsummer dette indlæg med: