Mikä on R-ohjelmointikieli? R:n esittely ja perusteet

Mikä on R-ohjelmisto?

R on Ross Ihakan ja Robert Gentlemanin vuonna 1993 kehittämä ohjelmointikieli ja ilmainen ohjelmisto. R:llä on laaja valikoima tilastollisia ja graafisia menetelmiä. Se sisältää koneoppimisalgoritmeja, lineaarista regressiota, aikasarjoja ja tilastollisia päätelmiä muutamia mainitakseni. Suurin osa R-kirjastoista on kirjoitettu R-kielellä, mutta raskaita laskentatehtäviä varten C, C++ ja Fortran-koodit ovat suositeltavia.

R ei ole pelkästään akateemisten uskomusten varassa, vaan monet suuret yritykset käyttävät myös R-ohjelmointikieltä, mukaan lukien Uber, Google, Airbnb, Facebook ja niin edelleen.

Data-analyysi R:llä tehdään sarjassa; ohjelmointi, muuntaminen, löytäminen, mallintaminen ja tulosten viestiminen

  • Ohjelma: R on selkeä ja helppokäyttöinen ohjelmointityökalu
  • Muuttaa: R koostuu kokoelmasta kirjastoja, jotka on suunniteltu erityisesti datatieteitä varten
  • Tutustu: Tutki tietoja, tarkenna hypoteesia ja analysoi ne
  • Malli: R tarjoaa laajan valikoiman työkaluja oikean mallin tallentamiseen tiedoillesi
  • tiedottaa: Integroi koodit, kaaviot ja tulosteet raporttiin R Markdownin avulla tai rakenna Shiny-sovelluksia jaettavaksi maailman kanssa

Mihin R:ää käytetään?

  • Tilastollinen päätelmä
  • Tietojen analysointi
  • Koneoppimisalgoritmi

R toimialalta

Jos erittelemme R:n käytön teollisuuden mukaan, näemme, että tutkijat ovat etusijalla. R on tilastointikieli. R on ensimmäinen valinta terveydenhuoltoalalla, ja sen jälkeen tulevat hallitus ja konsultointi.

R toimialalta

R-paketti

R:n ensisijaiset käyttötarkoitukset ovat ja tulevat aina olemaan tilastot, visualisointi ja koneoppiminen. Alla olevasta kuvasta näkyy, mikä R-paketti sai eniten kysymyksiä Stack Overflow:ssa. Top 10:ssä niistä suurin osa liittyy datatieteilijän työnkulkuun: tiedon valmisteluun ja tulosten viestimiseen.

R-paketti

Kaikki R:n kirjastot, lähes 12k, on tallennettu CRANiin. CRAN on ilmainen ja avoin lähdekoodi. Voit ladata ja käyttää lukuisia kirjastoja suorittaaksesi Koneen oppiminen tai aikasarjaanalyysi.

R-paketti

Kommunikoi R:n kanssa

R:llä on useita tapoja esittää ja jakaa töitä joko merkintädokumentin tai kiiltävän sovelluksen kautta. Kaikki voidaan isännöidä Rpubissa, GitHubissa tai yrityksen verkkosivustolla.

Alla on esimerkki esityksestä, jota isännöidään Rpub

Kommunikoi R:n kanssa

Rstudio hyväksyy merkinnän dokumentin kirjoittamiseen. Voit viedä asiakirjoja eri muodoissa:

  • Asiakirja:
    • HTML
    • PDF/lateksi
    • sana
  • esittely
    • HTML
    • PDF-lähetin

Kommunikoi R:n kanssa

Rstudiolla on loistava työkalu sovelluksen luomiseen helposti. Alla on esimerkki sovelluksesta, jossa on Maailmanpankin tiedot.

Kommunikoi R:n kanssa

Miksi käyttää R:tä?

Datatiede muokkaa tapaa, jolla yritykset hoitavat liiketoimintaansa. Epäilemättä tekoälystä ja koneista erossa pysyminen johtaa yrityksen epäonnistumiseen. Suuri kysymys on, mitä työkalua/kieltä sinun pitäisi käyttää?

Markkinoilla on runsaasti työkaluja tietojen analysointiin. Uuden kielen oppiminen vaatii aikaa. Alla oleva kuva kuvaa oppimiskäyrää verrattuna kielen tarjoamaan liiketoimintakykyyn. Negatiivinen suhde tarkoittaa, että ilmaista lounasta ei ole. Jos haluat antaa parhaan käsityksen tiedoista, sinun on käytettävä jonkin aikaa sopivan työkalun, joka on R.

Data Science for Business Capability -luokitus

Kaavion vasemmassa yläkulmassa näet Excel ja PowerBI. Nämä kaksi työkalua on helppo oppia, mutta ne eivät tarjoa erinomaista liiketoimintakykyä etenkään mallintamisen kannalta. Keskellä näkee Python ja SAS. SAS on omistettu työkalu tilastollisen analyysin suorittamiseen yrityksille, mutta se ei ole ilmainen. SAS on napsauta ja suorita ohjelmisto. Pythonkieli on kuitenkin yksitoikkoinen oppimiskäyrä. Python on loistava työkalu koneoppimisen ja tekoälyn käyttöönottoon, mutta siitä puuttuu viestintäominaisuuksia. Identtisellä oppimiskäyrällä R on hyvä kompromissi toteutuksen ja data-analyysin välillä.

Mitä tulee datan visualisointiin (DataViz), olet luultavasti kuullut Tableausta. Tableau on epäilemättä loistava työkalu kuvioiden löytämiseen kaavioiden ja kaavioiden avulla. Lisäksi Tableaun oppiminen ei vie aikaa. Yksi suuri ongelma tietojen visualisoinnissa on, että et ehkä koskaan löydä kuviota tai luo vain paljon hyödyttömiä kaavioita. Tableau on hyvä työkalu tiedon tai Business Intelligencen nopeaan visualisointiin. Tilastojen ja päätöksentekovälineiden osalta R on sopivampi.

Stack Overflow on suuri yhteisö ohjelmointikielille. Jos sinulla on koodausongelmia tai haluat ymmärtää mallin, Stack Overflow on täällä auttamassa. Vuoden aikana kysymys-näkemysten prosenttiosuus on noussut jyrkästi R:n osalta muihin kieliin verrattuna. Tämä suuntaus korreloi tietysti vahvasti datatieteen kukoistavan aikakauden kanssa, mutta se heijastaa R-kielen kysyntää datatieteessä.

Pino ylivuotoliikenne

Datatieteessä on kaksi työkalua, jotka kilpailevat keskenään. R ja Python ovat luultavasti ohjelmointikieli, joka määrittelee datatieteen.

Pitäisikö sinun valita R?

Datatieteilijä osaa käyttää kahta erinomaista työkalua: R ja Python. Sinulla ei ehkä ole aikaa oppia niitä molempia, varsinkin jos aloitat datatieteen oppimisen. Tilastollisen mallinnuksen ja algoritmin oppiminen on paljon tärkeämpää kuin ohjelmointikielen oppiminen. A ohjelmointikieli on työkalu löytösi laskemiseen ja viestimiseen. Datatieteen tärkein tehtävä on tapa käsitellä dataa: tuonti, puhdistaminen, valmistelu, ominaisuussuunnittelu, ominaisuuksien valinta. Tämän pitäisi olla ensisijainen painopisteesi. Jos yrität oppia R ja Python Samaan aikaan ilman vankkaa tilastotaustaa se on pelkkää typerää. Tietotieteilijät eivät ole ohjelmoijia. Heidän tehtävänsä on ymmärtää dataa, käsitellä sitä ja paljastaa paras lähestymistapa. Jos mietit, mitä kieltä opiskelet, katsotaan, mikä kieli on sinulle sopivin.

Datatieteen pääasiallinen yleisö on liiketalouden ammattilainen. Liiketoiminnassa yksi suuri merkitys on viestintä. On monia tapoja kommunikoida: raportti, verkkosovellus, kojelauta. Tarvitset työkalun, joka tekee kaiken tämän yhdessä.

Onko R vaikeaa?

Vuosia sitten R:n kieli oli vaikea hallita. Kieli oli sekava eikä niin jäsennelty kuin muut ohjelmointityökalut. Tämän suuren ongelman ratkaisemiseksi Hadley Wickham kehitti kokoelman paketteja nimeltä tidyverse. Pelisääntö muuttui parhaaksi. Tietojen käsittelystä tulee triviaalia ja intuitiivista. Graafin luominen ei ollut enää niin vaikeaa.

Parhaat koneoppimisalgoritmit voidaan toteuttaa R:llä. Keras- ja TensorFlow-paketit mahdollistavat huippuluokan koneoppimistekniikan luomisen. R:llä on myös paketti Xgboostin suorittamiseen, joka on yksi Kaggle-kilpailun parhaista algoritmeista.

R osaa kommunikoida toisen kielen kanssa. On mahdollista soittaa Python, Java, C++ R:ssä. Big datan maailma on myös R:n käytettävissä. Voit yhdistää R:n erilaisiin tietokantoihin, kuten Spark tai Hadoop.

Lopuksi R on kehittynyt ja sallinut rinnakkaistoiminnan nopeuttaa laskentaa. Itse asiassa R:tä kritisoitiin vain yhden suorittimen käyttämisestä kerrallaan. Rinnakkaispaketin avulla voit suorittaa tehtäviä koneen eri ytimissä.

Yhteenveto

Pähkinänkuoressa R on loistava työkalu tietojen tutkimiseen. Kehittyneet analyysit, kuten klusterointi, korrelaatio ja datan vähentäminen, tehdään R:llä. Tämä on tärkein osa, ilman hyvää ominaisuussuunnittelua ja mallia koneoppimisen käyttöönotto ei tuota mielekkäitä tuloksia.