Hva er R programmeringsspråk? Introduksjon og grunnleggende om R

Hva er R Software?

R er et programmeringsspråk og gratis programvare utviklet av Ross Ihaka og Robert Gentleman i 1993. R har en omfattende katalog over statistiske og grafiske metoder. Det inkluderer maskinlæringsalgoritmer, lineær regresjon, tidsserier, statistisk slutning for å nevne noen. De fleste av R-bibliotekene er skrevet i R, men for tunge beregningsoppgaver, C, C++ og Fortran koder er foretrukket.

R er ikke bare betrodd av akademikere, men mange store selskaper bruker også R programmeringsspråk, inkludert Uber, Google, Airbnb, Facebook og så videre.

Dataanalyse med R gjøres i en rekke trinn; programmere, transformere, oppdage, modellere og kommunisere resultatene

  • program: R er et oversiktlig og tilgjengelig programmeringsverktøy
  • Transform: R består av en samling biblioteker designet spesielt for datavitenskap
  • Utforsk: Undersøk dataene, avgrens hypotesen din og analyser dem
  • Modell: R tilbyr et bredt utvalg av verktøy for å fange den riktige modellen for dataene dine
  • Kommunisere: Integrer koder, grafer og utdata til en rapport med R Markdown eller bygg skinnende apper for å dele med verden

Hva brukes R til?

  • Statistisk slutning
  • Dataanalyse
  • Maskinlæringsalgoritme

R etter industri

Hvis vi bryter ned bruken av R etter bransje, ser vi at akademikerne kommer først. R er et språk for å gjøre statistikk. R er førstevalget i helsesektoren, etterfulgt av myndigheter og rådgivning.

R etter industri

R-pakke

De primære bruksområdene for R er og vil alltid være statistikk, visualisering og maskinlæring. Bildet under viser hvilken R-pakke som fikk flest spørsmål i Stack Overflow. På topp 10 er de fleste av dem relatert til arbeidsflyten til en dataforsker: dataforberedelse og formidling av resultatene.

R-pakke

Alle bibliotekene til R, nesten 12k, er lagret i CRAN. CRAN er en gratis og åpen kildekode. Du kan laste ned og bruke de mange bibliotekene til å utføre Maskinlæring eller tidsserieanalyse.

R-pakke

Kommuniser med R

R har flere måter å presentere og dele arbeid på, enten gjennom et markdown-dokument eller en skinnende app. Alt kan hostes i Rpub, GitHub eller virksomhetens nettside.

Nedenfor er et eksempel på en presentasjon som arrangeres på Rpub

Kommuniser med R

Rstudio godtar markdown for å skrive et dokument. Du kan eksportere dokumentene i forskjellige formater:

  • Dokument :
    • HTML
    • PDF/latex
    • ord
  • Presentasjon
    • HTML
    • PDF-beamer

Kommuniser med R

Rstudio har et flott verktøy for å lage en app enkelt. Nedenfor er et eksempel på app med Verdensbankens data.

Kommuniser med R

Hvorfor bruke R?

Datavitenskap former måten bedrifter driver sine virksomheter på. Uten tvil vil det å holde seg unna kunstig intelligens og maskin føre til at selskapet mislykkes. Det store spørsmålet er hvilket verktøy/språk du skal bruke?

De er mange verktøy tilgjengelig i markedet for å utføre dataanalyse. Å lære et nytt språk krever litt tid. Bildet nedenfor viser læringskurven sammenlignet med forretningsevnen et språk tilbyr. Det negative forholdet innebærer at det ikke er gratis lunsj. Hvis du vil gi den beste innsikten fra dataene, må du bruke litt tid på å lære det riktige verktøyet, som er R.

Data Science for Business Capability Rating

Øverst til venstre i grafen kan du se Excel og PowerBI. Disse to verktøyene er enkle å lære, men tilbyr ikke enestående forretningsevne, spesielt når det gjelder modellering. I midten kan du se Python og SAS. SAS er et dedikert verktøy for å kjøre en statistisk analyse for bedrifter, men det er ikke gratis. SAS er en klikk-og-kjør-programvare. Python, derimot, er et språk med en monoton læringskurve. Python er et fantastisk verktøy for å distribuere maskinlæring og AI, men mangler kommunikasjonsfunksjoner. Med en identisk læringskurve er R en god avveining mellom implementering og dataanalyse.

Når det gjelder datavisualisering (DataViz), har du sikkert hørt om Tableau. Tableau er uten tvil et flott verktøy for å oppdage mønstre gjennom grafer og diagrammer. Dessuten er det ikke tidkrevende å lære Tableau. Et stort problem med datavisualisering er at du kan ende opp med å aldri finne et mønster eller bare lage mange ubrukelige diagrammer. Tableau er et godt verktøy for rask visualisering av dataene eller Business Intelligence. Når det gjelder statistikk og beslutningsverktøy, er R mer hensiktsmessig.

Stack Overflow er et stort fellesskap for programmeringsspråk. Hvis du har et kodingsproblem eller trenger å forstå en modell, er Stack Overflow her for å hjelpe. Gjennom året har andelen spørsmålsvisninger økt kraftig for R sammenlignet med de andre språkene. Denne trenden er selvfølgelig sterkt korrelert med datavitenskapens blomstrende tidsalder, men den gjenspeiler etterspørselen til R-språket for datavitenskap.

Stack Overflow Trafikk

Innen datavitenskap er det to verktøy som konkurrerer med hverandre. R og Python er sannsynligvis programmeringsspråket som definerer datavitenskap.

Bør du velge R?

Dataforsker kan bruke to utmerkede verktøy: R og Python. Du har kanskje ikke tid til å lære dem begge, spesielt hvis du begynner å lære datavitenskap. Lære statistisk modellering og algoritme er langt viktigere enn å lære et programmeringsspråk. EN programmeringsspråk er et verktøy for å beregne og kommunisere oppdagelsen din. Den viktigste oppgaven innen datavitenskap er måten du håndterer dataene på: import, clean, prep, feature engineering, feature selection. Dette bør være ditt primære fokus. Hvis du prøver å lære R og Python samtidig uten en solid bakgrunn i statistikk, det er rett og slett dumt. Dataforskere er ikke programmerere. Jobben deres er å forstå dataene, manipulere dem og avsløre den beste tilnærmingen. Hvis du tenker på hvilket språk du skal lære, la oss se hvilket språk som passer best for deg.

Hovedmålgruppen for datavitenskap er forretningsfolk. I bransjen er en stor implikasjon kommunikasjon. Det er mange måter å kommunisere på: rapport, nettapp, dashbord. Du trenger et verktøy som gjør alt dette sammen.

Er R vanskelig?

For år siden var R et vanskelig språk å mestre. Språket var forvirrende og ikke så strukturert som de andre programmeringsverktøyene. For å overvinne dette store problemet utviklet Hadley Wickham en samling pakker kalt tidyverse. Spilleregelen endret seg til det beste. Datamanipulering blir triviell og intuitiv. Å lage en graf var ikke så vanskelig lenger.

De beste algoritmene for maskinlæring kan implementeres med R. Pakker som Keras og TensorFlow lar deg lage avanserte maskinlæringsteknikker. R har også en pakke for å utføre Xgboost, en av de beste algoritmene for Kaggle-konkurranse.

R kan kommunisere med det andre språket. Det er mulig å ringe Python, Java, C++ i R. En verden av store data er også tilgjengelig for R. Du kan koble R med forskjellige databaser som Spark eller Hadoop.

Endelig har R utviklet seg og tillatt parallelliseringsoperasjon for å øke hastigheten på beregningen. Faktisk ble R kritisert for å bruke bare én CPU om gangen. Parallellpakken lar deg utføre oppgaver i forskjellige kjerner av maskinen.

Sammendrag

I et nøtteskall er R et flott verktøy for å utforske og undersøke dataene. Forseggjorte analyser som clustering, korrelasjon og datareduksjon gjøres med R. Dette er den mest avgjørende delen, uten en god funksjonsteknikk og modell vil ikke utrullingen av maskinlæring gi meningsfulle resultater.