Vad är R programmeringsspråk? Introduktion och grunderna för R
Vad är R Software?
R är ett programmeringsspråk och fri programvara utvecklad av Ross Ihaka och Robert Gentleman 1993. R har en omfattande katalog över statistiska och grafiska metoder. Det inkluderar maskininlärningsalgoritmer, linjär regression, tidsserier, statistisk slutledning för att nämna några. De flesta av R-biblioteken är skrivna i R, men för tunga beräkningsuppgifter, C, C++ och Fortran koder är att föredra.
R är inte bara anförtrodd av akademiker, utan många stora företag använder också R programmeringsspråk, inklusive Uber, Google, Airbnb, Facebook och så vidare.
Dataanalys med R görs i en serie steg; programmera, transformera, upptäcka, modellera och kommunicera resultaten
- Prográmma: R är ett tydligt och lättillgängligt programmeringsverktyg
- Förvandla: R består av en samling bibliotek som utformats specifikt för datavetenskap
- Upptäck: Undersök data, förfina din hypotes och analysera dem
- Modell: R tillhandahåller ett brett utbud av verktyg för att fånga rätt modell för din data
- Kommunicera: Integrera koder, grafer och utdata till en rapport med R Markdown eller bygg glänsande appar att dela med världen
Vad används R till?
- Statistisk slutsats
- Dataanalys
- Maskininlärningsalgoritm
R efter industri
Om vi bryter ner användningen av R efter bransch ser vi att akademiker kommer först. R är ett språk för att göra statistik. R är förstahandsvalet inom vårdbranschen, följt av regering och konsultverksamhet.
R-paket
De primära användningsområdena för R är och kommer alltid att vara statistik, visualisering och maskininlärning. Bilden nedan visar vilket R-paket som fick flest frågor i Stack Overflow. I topp 10 är de flesta relaterade till en datavetares arbetsflöde: dataförberedelse och kommunicera resultaten.
Alla bibliotek i R, nästan 12k, lagras i CRAN. CRAN är en gratis och öppen källkod. Du kan ladda ner och använda de många biblioteken för att utföra Maskininlärning eller tidsserieanalys.
Kommunicera med R
R har flera sätt att presentera och dela arbete, antingen genom ett markdown-dokument eller en glänsande app. Allt kan hostas i Rpub, GitHub eller verksamhetens hemsida.
Nedan är ett exempel på en presentation som hålls på Rpub
Rstudio accepterar markdown för att skriva ett dokument. Du kan exportera dokumenten i olika format:
- Dokument:
- html
- PDF/Latex
- ord
- Presentation
- html
- PDF-beamer
Rstudio har ett bra verktyg för att enkelt skapa en app. Nedan är ett exempel på app med Världsbankens data.
Varför använda R?
Datavetenskap formar hur företag driver sina företag. Utan tvekan kommer att hålla sig borta från artificiell intelligens och maskin leda till att företaget misslyckas. Den stora frågan är vilket verktyg/språk du ska använda?
De är många verktyg tillgängliga på marknaden för att utföra dataanalys. Att lära sig ett nytt språk kräver lite tid. Bilden nedan visar inlärningskurvan jämfört med den affärsförmåga ett språk erbjuder. Det negativa förhållandet innebär att det inte finns någon gratis lunch. Om du vill ge den bästa insikten från data, måste du lägga lite tid på att lära dig det lämpliga verktyget, som är R.
Längst upp till vänster i grafen kan du se Excel och PowerBI. Dessa två verktyg är enkla att lära sig men erbjuder inte enastående affärskapacitet, särskilt när det gäller modellering. I mitten kan du se Python och SAS. SAS är ett dedikerat verktyg för att köra en statistisk analys för företag, men det är inte gratis. SAS är en klicka och kör programvara. Python, är dock ett språk med en monoton inlärningskurva. Python är ett fantastiskt verktyg för att distribuera maskininlärning och AI men saknar kommunikationsfunktioner. Med en identisk inlärningskurva är R en bra avvägning mellan implementering och dataanalys.
När det gäller datavisualisering (DataViz), hade du förmodligen hört talas om Tableau. Tableau är utan tvekan ett utmärkt verktyg för att upptäcka mönster genom grafer och diagram. Dessutom är det inte tidskrävande att lära sig tablå. Ett stort problem med datavisualisering är att du kanske aldrig hittar ett mönster eller bara skapar massor av värdelösa diagram. Tableau är ett bra verktyg för snabb visualisering av data eller Business Intelligence. När det kommer till statistik och beslutsverktyg är R lämpligare.
Stack Overflow är en stor community för programmeringsspråk. Om du har ett kodningsproblem eller behöver förstå en modell är Stack Overflow här för att hjälpa dig. Under året har andelen frågevyer ökat kraftigt för R jämfört med de andra språken. Denna trend är naturligtvis starkt korrelerad med datavetenskapens blomstrande ålder, men den speglar efterfrågan på R-språket för datavetenskap.
Inom datavetenskap finns det två verktyg som konkurrerar med varandra. R och Python är förmodligen det programmeringsspråk som definierar datavetenskap.
Ska du välja R?
Data scientist kan använda två utmärkta verktyg: R och Python. Du kanske inte har tid att lära dig båda, särskilt om du börjar lära dig datavetenskap. Lär dig statistisk modellering och algoritm är mycket viktigare än att lära sig ett programmeringsspråk. A programmeringsspråk är ett verktyg för att beräkna och kommunicera din upptäckt. Den viktigaste uppgiften inom datavetenskap är hur du hanterar data: import, rengör, prep, funktionsteknik, funktionsval. Detta bör vara ditt primära fokus. Om du försöker lära dig R och Python samtidigt utan en gedigen bakgrund inom statistik, det är helt enkelt dumt. Dataforskare är inte programmerare. Deras jobb är att förstå data, manipulera den och avslöja den bästa metoden. Om du funderar på vilket språk du ska lära dig, låt oss se vilket språk som är mest lämpligt för dig.
Den huvudsakliga publiken för datavetenskap är affärsmän. I branschen är en stor innebörd kommunikation. Det finns många sätt att kommunicera: rapport, webbapp, instrumentpanel. Du behöver ett verktyg som gör allt detta tillsammans.
Är R svårt?
För år sedan var R ett svårt språk att behärska. Språket var förvirrande och inte lika strukturerat som de andra programmeringsverktygen. För att övervinna detta stora problem utvecklade Hadley Wickham en samling paket som kallas tidyverse. Spelregeln ändrades till det bästa. Datamanipulation blir trivial och intuitiv. Att skapa en graf var inte så svårt längre.
De bästa algoritmerna för maskininlärning kan implementeras med R. Paket som Keras och TensorFlow gör det möjligt att skapa avancerad maskininlärningsteknik. R har också ett paket för att utföra Xgboost, en av de bästa algoritmerna för Kaggle-tävlingar.
R kan kommunicera med det andra språket. Det går att ringa Python, Java, C++ i R. En värld av big data är också tillgänglig för R. Du kan koppla R med olika databaser som Spark eller Hadoop.
Slutligen har R utvecklats och tillåtit parallelliseringsoperation för att påskynda beräkningen. Faktum är att R kritiserades för att bara använda en CPU åt gången. Parallellpaketet låter dig utföra uppgifter i olika kärnor i maskinen.
Sammanfattning
I ett nötskal är R ett utmärkt verktyg för att utforska och undersöka data. Utvecklad analys som klustring, korrelation och datareduktion görs med R. Detta är den mest avgörande delen, utan en bra funktionsteknik och modell kommer utplaceringen av maskininlärningen inte att ge meningsfulla resultat.