R vs Python – Forskjellen mellom dem
Nøkkelforskjellen mellom R og Python
- R brukes hovedsakelig til statistisk analyse mens Python gir en mer generell tilnærming til datavitenskap
- Hovedmålet med R er dataanalyse og statistikk, mens hovedmålet med Python er distribusjon og produksjon
- R-brukere består hovedsakelig av forskere og FoU-fagfolk mens Python brukere er for det meste programmerere og utviklere
- R gir fleksibilitet til å bruke tilgjengelige biblioteker mens Python gir fleksibilitet til å konstruere nye modeller fra bunnen av
- R er vanskelig å lære i begynnelsen mens Python er lineær og smidig å lære
- R er integrert for å kjøre lokalt mens Python er godt integrert med apper
- Både R og Python kan håndtere enorme størrelser på databasen
- R kan brukes på R Studio IDE mens Python kan brukes på Spyder og Ipython Notebook IDE-er
- R består av forskjellige pakker og biblioteker som tidyverse, ggplot2, caret, zoo mens Python består av pakker og biblioteker som pandaer, scipy, scikit-learn, TensorFlow, caret
R og Python er begge åpen kildekode programmeringsspråk med et stort fellesskap. Nye biblioteker eller verktøy legges kontinuerlig til deres respektive kataloger. R brukes hovedsakelig til statistisk analyse mens Python gir en mer generell tilnærming til datavitenskap.
R og Python er toppmoderne når det gjelder programmeringsspråk orientert mot datavitenskap. Å lære begge deler er selvfølgelig den ideelle løsningen. R og Python krever en tidsinvestering, og slik luksus er ikke tilgjengelig for alle. Python er et generellt språk med en lesbar syntaks. R er imidlertid bygget av statistikere og omfatter deres spesifikke språk.
R
Akademikere og statistikere har utviklet R over to tiår. R har nå et av de rikeste økosystemene for å utføre dataanalyse. Det er rundt 12000 pakker tilgjengelig i CRAN (open source repository). Det er mulig å finne et bibliotek for den analysen du ønsker å utføre. Det rike utvalget av biblioteker gjør R til førstevalget for statistisk analyse, spesielt for spesialisert analytisk arbeid.
Den banebrytende forskjellen mellom R og de andre statistiske produktene er produksjonen. R har fantastiske verktøy for å kommunisere resultatene. Rstudio kommer med bibliotekstrikken. Xie Yihui skrev denne pakken. Han gjorde rapporteringen triviell og elegant. Det er enkelt å kommunisere funnene med en presentasjon eller et dokument.
Python
Python kan stort sett gjøre de samme oppgavene som R: datakrangel, engineering, funksjonsvalg web-scrapping, app og så videre. Python er et verktøy for å distribuere og implementere maskinlæring i stor skala. Python koder er enklere å vedlikeholde og mer robuste enn for R. For år siden; Python hadde ikke mange dataanalyse- og maskinlæringsbiblioteker. Nylig, Python fanger opp og tilbyr banebrytende API for maskinlæring eller kunstig intelligens. Det meste av datavitenskapsjobben kan gjøres med fem Python biblioteker: Numpy, Pandas, Scipy, Scikit-learn og Seaborn.
Python, på den annen side, gjør replikerbarhet og tilgjengelighet enklere enn R. Faktisk, hvis du trenger å bruke resultatene av analysen i en applikasjon eller et nettsted, Python er det beste valget.
Popularitetsindeks
IEEE Spectrum-rangeringen er en beregning som kvantifiserer populariteten til en programmeringsspråk. Den venstre kolonnen viser rangeringen i 2017 og den høyre kolonnen i 2016. I 2017, Python kom på førsteplass sammenlignet med en tredjeplass året før. R er i 6th sted.
Jobbmulighet
Bildet under viser antall jobber relatert til datavitenskap etter programmeringsspråk. SQL er langt foran, etterfulgt av Python og Java. R rangerer 5th.
Hvis vi fokuserer på den langsiktige trenden mellom Python (i gult) og R (blått), vi kan se det Python er oftere sitert i stillingsbeskrivelsen enn R.
Analyse utført av R og Python
Men hvis vi ser på dataanalysejobbene, er R det desidert beste verktøyet.
Andel av personer som bytter
Det er to hovedpunkter i bildet nedenfor.
- Python brukere er mer lojale enn R-brukere
- Prosentandelen av R-brukere som bytter til Python er dobbelt så stor som Python til R.
Forskjellen mellom R og Python
Parameter | R | Python |
---|---|---|
Målet | Dataanalyse og statistikk | Utplassering og produksjon |
Primære brukere | Forsker og FoU | Programmerere og utviklere |
Fleksibilitet | Enkelt å bruke tilgjengelig bibliotek | Enkelt å konstruere nye modeller fra bunnen av. Dvs matriseberegning og optimalisering |
Læringskurve | Vanskelig i begynnelsen | Lineær og jevn |
Programmeringsspråkets popularitet. Prosentvis endring | 4.23% i 2018 | 21.69% i 2018 |
Gjennomsnittlig lønn | $99.000 | $100.000 |
Integrasjon | Kjør lokalt | Godt integrert med app |
Oppgave | Enkelt å få primære resultater | Bra å distribuere algoritme |
Databasestørrelse | Håndtak enorm størrelse | Håndtak enorm størrelse |
IDE | studio | Spyder, Ipython Notebook |
Viktige pakker og bibliotek | tidyverse, ggplot2, caret, zoo | pandaer, scipy, scikit-learn, TensorFlow, caret |
Ulemper | Sakte Høy læringskurve Avhengigheter mellom bibliotek |
Ikke så mange biblioteker som R |
Fordeler |
|
|
R eller Python bruk
Python har blitt utviklet av Guido van Rossum, en datamaskinfyr, rundt 1991. Python har innflytelsesrike biblioteker for matematikk, statistikk og kunstig intelligens. Du kan tenke Python som en ren aktør innen Machine Learning. Imidlertid Python er ikke helt moden (ennå) for økonometri og kommunikasjon. Python er det beste verktøyet for maskinlæringsintegrasjon og distribusjon, men ikke for forretningsanalyse.
Den gode nyheten er at R er utviklet av akademikere og vitenskapsmenn. Den er designet for å svare på statistiske problemer, maskinlæring og datavitenskap. R er det riktige verktøyet for datavitenskap på grunn av dets kraftige kommunikasjonsbiblioteker. Dessuten er R utstyrt med mange pakker for å utføre tidsserieanalyse, paneldata og datautvinning. På toppen av det er det ikke bedre verktøy sammenlignet med R.
Etter vår mening, hvis du er en nybegynner innen datavitenskap med nødvendig statistisk grunnlag, må du stille deg selv følgende to spørsmål:
- Vil jeg lære hvordan algoritmen fungerer?
- Vil jeg distribuere modellen?
Hvis svaret på begge spørsmålene er ja, vil du sannsynligvis begynne å lære Python først. På den ene siden, Python inkluderer flotte biblioteker for å manipulere matrise eller for å kode algoritmene. Som nybegynner kan det være lettere å lære å bygge en modell fra bunnen av og deretter bytte til funksjonene fra maskinlæringsbibliotekene. På den annen side kjenner du allerede algoritmen eller ønsker å gå inn i dataanalysen med en gang, da både R og Python er greit til å begynne med. En fordel for R hvis du skal fokusere på statistiske metoder.
For det andre, hvis du vil gjøre mer enn statistikk, la oss si distribusjon og reproduserbarhet, Python er et bedre valg. R er mer egnet for arbeidet ditt hvis du trenger å skrive en rapport og lage et dashbord.
I et nøtteskall, det statistiske gapet mellom R og Python kommer nærmere. Det meste av jobben kan gjøres av begge språk. Du bør velge det som passer dine behov, men også verktøyet kollegene dine bruker. Det er bedre når dere alle snakker samme språk. Etter at du kjenner ditt første programmeringsspråk, er det enklere å lære det andre.
Konklusjon
Til slutt vil valget mellom R eller Python kommer an på:
- Målene for oppdraget ditt: Statistisk analyse eller distribusjon
- Hvor mye tid du kan investere
- Din bedrift/bransje mest brukte verktøyet