R vs Python - Forskellen mellem dem
Nøgleforskel mellem R og Python
- R bruges hovedsageligt til statistisk analyse, mens Python giver en mere generel tilgang til datavidenskab
- Det primære mål med R er dataanalyse og statistik, mens det primære mål for Python er implementering og produktion
- R-brugere består hovedsageligt af lærde og F&U-professionelle mens Python brugere er for det meste programmører og udviklere
- R giver fleksibilitet til at bruge tilgængelige biblioteker Python giver fleksibilitet til at konstruere nye modeller fra bunden
- R er svær at lære i starten mens Python er lineær og glat at lære
- R er integreret til at køre lokalt mens Python er godt integreret med apps
- Både R og Python kan håndtere enorme størrelser af database
- R kan bruges på R Studio IDE mens Python kan bruges på Spyder og Ipython Notebook IDE'er
- R består af forskellige pakker og biblioteker som tidyverse, ggplot2, caret, zoo, mens Python består af pakker og biblioteker som pandaer, scipy, scikit-learn, TensorFlow, caret
R og Python er begge open source programmeringssprog med et stort fællesskab. Nye biblioteker eller værktøjer tilføjes løbende til deres respektive katalog. R bruges hovedsageligt til statistisk analyse, mens Python giver en mere generel tilgang til datavidenskab.
R og Python er state of the art med hensyn til programmeringssprog orienteret mod datavidenskab. At lære dem begge er selvfølgelig den ideelle løsning. R og Python kræver en tidsinvestering, og en sådan luksus er ikke tilgængelig for alle. Python er et almindeligt sprog med en læsbar syntaks. R er imidlertid bygget af statistikere og omfatter deres specifikke sprog.
R
Akademikere og statistikere har udviklet R over to årtier. R har nu et af de rigeste økosystemer til at udføre dataanalyse. Der er omkring 12000 pakker tilgængelige i CRAN (open source repository). Det er muligt at finde et bibliotek til den analyse, du ønsker at udføre. Det rige udvalg af biblioteker gør R til det første valg til statistisk analyse, især til specialiseret analytisk arbejde.
Den banebrydende forskel mellem R og de andre statistiske produkter er output. R har fantastiske værktøjer til at formidle resultaterne. Rstudio leveres med biblioteksstrik. Xie Yihui skrev denne pakke. Han gjorde rapportering trivielt og elegant. Det er nemt at kommunikere resultaterne med en præsentation eller et dokument.
Python
Python kan stort set udføre de samme opgaver som R: datastrid, ingeniørarbejde, web-scrapping af funktioner, app og så videre. Python er et værktøj til at implementere og implementere maskinlæring i stor skala. Python koder er nemmere at vedligeholde og mere robuste end for R. For år siden; Python havde ikke mange dataanalyse- og maskinlæringsbiblioteker. For nylig, Python er ved at komme efter og leverer banebrydende API til maskinlæring eller kunstig intelligens. Det meste af det datavidenskabelige arbejde kan udføres med fem Python biblioteker: Numpy, Pandas, Scipy, Scikit-learn og Seaborn.
Python, på den anden side gør replikerbarhed og tilgængelighed lettere end R. Faktisk, hvis du skal bruge resultaterne af din analyse i en applikation eller et websted, Python er det bedste valg.
Popularitetsindeks
IEEE Spectrum-rangeringen er en metrik, der kvantificerer populariteten af en programmeringssprog. Den venstre kolonne viser placeringen i 2017 og den højre kolonne i 2016. I 2017 Python nåede det på førstepladsen sammenlignet med en tredjeplads et år før. R er i 6th sted.
Job mulighed
Billedet nedenfor viser antallet af job relateret til data science efter programmeringssprog. SQL er langt foran, efterfulgt af Python og Java. R rangerer 5th.
Hvis vi fokuserer på den langsigtede tendens mellem Python (i gul) og R (blå), det kan vi se Python er oftere citeret i jobbeskrivelsen end R.
Analyse udført af R og Python
Men hvis vi ser på dataanalysejobbene, er R langt det bedste værktøj.
Procentdel af mennesker, der skifter
Der er to nøglepunkter på billedet nedenfor.
- Python brugere er mere loyale end R-brugere
- Procentdelen af R-brugere, der skifter til Python er dobbelt så stor som Python til R.
Forskellen mellem R og Python
Parameter | R | Python |
---|---|---|
Objektiv | Dataanalyse og statistik | Implementering og produktion |
Primære brugere | Forsker og R&D | Programmører og udviklere |
Fleksibilitet | Let at bruge tilgængeligt bibliotek | Nemt at konstruere nye modeller fra bunden. Dvs. matrixberegning og optimering |
Indlæringskurve | Svært i starten | Lineær og glat |
Programmeringssprogets popularitet. Procentvis ændring | 4.23% i 2018 | 21.69% i 2018 |
Gennemsnitlig løn | $99.000 | $100.000 |
Integration | Kør lokalt | Velintegreret med app |
Opgaver | Let at få primære resultater | Godt at implementere algoritme |
Database størrelse | Håndtag stor størrelse | Håndtag stor størrelse |
IDE | studie | Spyder, Ipython Notebook |
Vigtige pakker og bibliotek | tidyverse, ggplot2, caret, zoo | pandaer, scipy, scikit-learn, TensorFlow, caret |
Ulemper | Langsom Høj indlæringskurve Afhængigheder mellem biblioteker |
Ikke så mange biblioteker som R |
Fordele |
|
|
R eller Python Brug
Python er udviklet af Guido van Rossum, en computermand, omkring 1991. Python har indflydelsesrige biblioteker for matematik, statistik og kunstig intelligens. Du kan tænke Python som ren aktør i Machine Learning. Imidlertid, Python er ikke helt moden (endnu) til økonometri og kommunikation. Python er det bedste værktøj til Machine Learning-integration og -implementering, men ikke til forretningsanalyse.
Den gode nyhed er, at R er udviklet af akademikere og videnskabsmænd. Det er designet til at besvare statistiske problemer, maskinlæring og datavidenskab. R er det rigtige værktøj til datavidenskab på grund af dets kraftfulde kommunikationsbiblioteker. Desuden er R udstyret med mange pakker til at udføre tidsserieanalyse, paneldata og datamining. Oven i købet er der ikke bedre værktøjer sammenlignet med R.
Efter vores mening, hvis du er nybegynder i datavidenskab med det nødvendige statistiske grundlag, skal du stille dig selv følgende to spørgsmål:
- Vil jeg lære, hvordan algoritmen fungerer?
- Vil jeg implementere modellen?
Hvis dit svar på begge spørgsmål er ja, ville du sandsynligvis begynde at lære Python først. På den ene side, Python omfatter gode biblioteker til at manipulere matrix eller til at kode algoritmerne. Som nybegynder kan det være lettere at lære at bygge en model fra bunden og derefter skifte til funktionerne fra maskinlæringsbibliotekerne. På den anden side kender du allerede algoritmen eller vil gå ind i dataanalysen med det samme, så både R og Python er okay til at begynde med. En fordel for R, hvis du vil fokusere på statistiske metoder.
For det andet, hvis du vil gøre mere end statistik, lad os sige implementering og reproducerbarhed, Python er et bedre valg. R er mere velegnet til dit arbejde, hvis du skal skrive en rapport og oprette et dashboard.
I en nøddeskal, den statistiske kløft mellem R og Python kommer tættere på. Det meste af arbejdet kan udføres på begge sprog. Du må hellere vælge det, der passer til dine behov, men også det værktøj, dine kolleger bruger. Det er bedre, når I alle taler det samme sprog. Når du kender dit første programmeringssprog, er det nemmere at lære det andet.
Konklusion
I sidste ende er valget mellem R eller Python afhænger af:
- Målene for din mission: Statistisk analyse eller implementering
- Mængden af tid, du kan investere
- Din virksomhed/branche mest brugte værktøj