Wat is R-programmeertaal? Introductie en basisprincipes van R
Wat is R-software?
R is een programmeertaal en gratis software die in 1993 is ontwikkeld door Ross Ihaka en Robert Gentleman. R heeft een uitgebreide catalogus met statistische en grafische methoden. Het omvat machine learning-algoritmen, lineaire regressie, tijdreeksen en statistische inferentie, om er maar een paar te noemen. De meeste R-bibliotheken zijn geschreven in R, maar voor zware rekentaken is C, C++ en Fortran-codes hebben de voorkeur.
R wordt niet alleen toevertrouwd door academici, maar veel grote bedrijven gebruiken ook de programmeertaal R, waaronder Uber, Google, Airbnb, Facebook enzovoort.
Data-analyse met R gebeurt in een reeks stappen; programmeren, transformeren, ontdekken, modelleren en de resultaten communiceren
- Programma: R is een duidelijke en toegankelijke programmeertool
- Transformeren: R bestaat uit een verzameling bibliotheken die speciaal zijn ontworpen voor datawetenschap
- Ontdek: Onderzoek de gegevens, verfijn uw hypothese en analyseer ze
- Model: R biedt een breed scala aan hulpmiddelen om het juiste model voor uw gegevens vast te leggen
- Communiceer : Integreer codes, grafieken en uitvoer in een rapport met R Markdown of bouw glanzende apps om met de wereld te delen
Waar wordt R voor gebruikt?
- Statistische gevolgtrekking
- Data-analyse
- Algoritme voor machine learning
R per industrie
Als we het gebruik van R uitsplitsen naar de industrie, zien we dat academici op de eerste plaats komen. R is een taal om statistiek uit te voeren. R is de eerste keuze in de gezondheidszorg, gevolgd door overheid en advies.
R-pakket
De belangrijkste toepassingen van R zijn en zullen altijd zijn: statistiek, visualisatie en machinaal leren. De onderstaande afbeelding laat zien welk R-pakket de meeste vragen kreeg in Stack Overflow. In de top 10 hebben de meeste betrekking op de workflow van een datawetenschapper: datavoorbereiding en het communiceren van de resultaten.
Alle bibliotheken van R, bijna 12k, worden opgeslagen in CRAN. CRAN is een gratis en open source. U kunt de talrijke bibliotheken downloaden en gebruiken om op te treden Machine leren of tijdreeksanalyse.
Communiceer met R
R heeft meerdere manieren om werk te presenteren en te delen, via een kortingsdocument of een glanzende app. Alles kan worden gehost in Rpub, GitHub of de website van het bedrijf.
Hieronder ziet u een voorbeeld van een presentatie die wordt gehost op Rpub
Rstudio accepteert prijsverlagingen om een document te schrijven. U kunt de documenten in verschillende formaten exporteren:
- Document :
- HTML
- PDF/Latex
- Woord
- Presentatie
- HTML
- PDF-beamer
Rstudio heeft een geweldige tool om eenvoudig een app te maken. Hieronder ziet u een voorbeeld van een app met de gegevens van de Wereldbank.
Waarom R gebruiken?
Datawetenschap geeft vorm aan de manier waarop bedrijven hun bedrijf runnen. Het lijdt geen twijfel dat het wegblijven van kunstmatige intelligentie en machines ertoe zal leiden dat het bedrijf failliet gaat. De grote vraag is welke tool/taal je moet gebruiken?
Er zijn voldoende tools op de markt beschikbaar om data-analyse uit te voeren. Het leren van een nieuwe taal vergt enige tijdsinvestering. De onderstaande afbeelding toont de leercurve vergeleken met de zakelijke mogelijkheden die een taal biedt. De negatieve relatie impliceert dat er geen sprake is van een gratis lunch. Als je het beste inzicht uit de gegevens wilt halen, moet je wat tijd besteden aan het leren van de juiste tool, namelijk R.
Linksboven in de grafiek ziet u Excel en PowerBI. Deze twee tools zijn eenvoudig te leren, maar bieden geen uitstekende zakelijke mogelijkheden, vooral niet op het gebied van modellering. In het midden kun je het zien Python en SAS. SAS is een speciale tool om statistische analyses voor bedrijven uit te voeren, maar is niet gratis. SAS is een click-and-run-software. Python, is echter een taal met een monotone leercurve. Python is een fantastisch hulpmiddel om Machine Learning en AI in te zetten, maar mist communicatiefuncties. Met een identieke leercurve is R een goede afweging tussen implementatie en data-analyse.
Als het gaat om datavisualisatie (DataViz), had je waarschijnlijk wel eens van Tableau gehoord. Tableau is zonder twijfel een geweldig hulpmiddel om patronen te ontdekken via grafieken en diagrammen. Bovendien is het leren van Tableau niet tijdrovend. Een groot probleem met datavisualisatie is dat je misschien nooit een patroon zult vinden of gewoon een heleboel nutteloze grafieken zult maken. Tableau is een goed hulpmiddel voor snelle visualisatie van de data of Business Intelligence. Als het gaat om statistieken en besluitvormingsinstrumenten, is R geschikter.
Stack Overflow is een grote community voor programmeertalen. Als je een codeerprobleem hebt of een model wilt begrijpen, is Stack Overflow er om je te helpen. In de loop van het jaar is het percentage vraagweergaven sterk toegenomen voor R vergeleken met de andere talen. Deze trend is natuurlijk nauw verbonden met de bloeiende tijd van data science, maar het weerspiegelt de vraag naar de R-taal voor data science.
In data science zijn er twee tools die met elkaar concurreren. R en Python zijn waarschijnlijk de programmeertaal die datawetenschap definieert.
Moet u R kiezen?
Datawetenschappers kunnen twee uitstekende tools gebruiken: R en Python. Het kan zijn dat je geen tijd hebt om ze allebei te leren, vooral als je begint met het leren van data science. Statistische modellering en algoritme leren is veel belangrijker dan het leren van een programmeertaal. A programmeertaal is een hulpmiddel om uw ontdekking te berekenen en te communiceren. De belangrijkste taak in data science is de manier waarop je met de data omgaat: importeren, opschonen, voorbereiden, feature engineering, feature selectie. Dit zou uw primaire focus moeten zijn. Als je R en Python zonder een solide achtergrond in de statistiek is het ronduit dom. Datawetenschappers zijn geen programmeurs. Hun taak is om de gegevens te begrijpen, te manipuleren en de beste aanpak bloot te leggen. Als u erover nadenkt welke taal u wilt leren, laten we dan kijken welke taal het meest geschikt voor u is.
De belangrijkste doelgroep voor datawetenschap is de zakelijke professional. In het bedrijfsleven is communicatie een grote implicatie. Er zijn veel manieren om te communiceren: rapport, webapp, dashboard. Je hebt een tool nodig die dit allemaal samen doet.
Is R moeilijk?
Jaren geleden was R een moeilijke taal om te beheersen. De taal was verwarrend en niet zo gestructureerd als de andere programmeertools. Om dit grote probleem op te lossen, heeft Hadley Wickham een verzameling pakketten ontwikkeld met de naam Tidverse. De spelregel veranderde ten goede. Gegevensmanipulatie wordt triviaal en intuïtief. Het maken van een grafiek was niet zo moeilijk meer.
De beste algoritmen voor machine learning kunnen worden geïmplementeerd met R. Pakketten zoals Keras en TensorFlow maken het mogelijk om high-end machine learning-technieken te creëren. R heeft ook een pakket om Xgboost uit te voeren, een van de beste algoritmen voor Kaggle-competitie.
R kan communiceren met de andere taal. Bellen is mogelijk Python, Java, C++ in R. De wereld van big data is ook toegankelijk voor R. Je kunt R verbinden met verschillende databases zoals Spark of Hadop.
Ten slotte is R geëvolueerd en is parallelliseren mogelijk geworden om de berekening te versnellen. R werd zelfs bekritiseerd omdat het maar één CPU tegelijk gebruikte. Met het parallelpakket kunt u taken uitvoeren in verschillende kernen van de machine.
Samenvatting
Kortom, R is een geweldig hulpmiddel om data te verkennen en te onderzoeken. Uitgebreide analyses zoals clustering, correlatie en datareductie worden gedaan met R. Dit is het meest cruciale onderdeel, zonder een goede feature engineering en model zal de implementatie van machine learning geen zinvolle resultaten opleveren.