R contro Python - Differenza tra loro
Differenza chiave tra R e Python
- R viene utilizzato principalmente per l'analisi statistica mentre Python fornisce un approccio più generale alla scienza dei dati
- L'obiettivo primario di R è l'analisi dei dati e le statistiche mentre l'obiettivo primario di Python è Distribuzione e produzione
- Gli utenti R sono costituiti principalmente da studiosi e professionisti della ricerca e sviluppo Python gli utenti sono per lo più programmatori e sviluppatori
- R offre flessibilità per utilizzare le librerie disponibili mentre Python fornisce la flessibilità necessaria per costruire nuovi modelli da zero
- R è difficile da imparare all'inizio mentre Python è lineare e facile da imparare
- R è integrato per eseguire localmente while Python è ben integrato con le app
- Sia R che Python può gestire enormi dimensioni di database
- R può essere utilizzato sull'IDE R Studio mentre Python può essere utilizzato su Spyder e IDE per notebook Ipython
- R è costituito da vari pacchetti e librerie come tidyverse, ggplot2, caret, zoo mentre Python consiste di pacchetti e librerie come pandas, scipy, scikit-learn, TensorFlow, caret
R e Python sono entrambi linguaggi di programmazione open source con una grande comunità. Nuove librerie o strumenti vengono aggiunti continuamente al rispettivo catalogo. R viene utilizzato principalmente per l'analisi statistica mentre Python fornisce un approccio più generale alla scienza dei dati.
R e Python sono lo stato dell'arte in termini di linguaggio di programmazione orientato alla scienza dei dati. Impararli entrambi è, ovviamente, la soluzione ideale. R e Python richiede un investimento di tempo e tale lusso non è disponibile per tutti. Python è un linguaggio di uso generale con una sintassi leggibile. R, tuttavia, è stato creato da statistici e comprende il loro linguaggio specifico.
R
Gli accademici e gli statistici hanno sviluppato R per oltre due decenni. R ha ora uno degli ecosistemi più ricchi per eseguire analisi di dati. Ci sono circa 12000 pacchetti disponibili in CRAN (repository open source). È possibile trovare una libreria per qualsiasi analisi si voglia eseguire. La ricca varietà di librerie rende R la prima scelta per l'analisi statistica, specialmente per lavori analitici specializzati.
La differenza sostanziale tra R e gli altri prodotti statistici è l’output. R dispone di strumenti fantastici per comunicare i risultati. Rstudio viene fornito con la libreria knitr. Xie Yihui ha scritto questo pacchetto. Ha reso il reporting banale ed elegante. Comunicare i risultati con una presentazione o un documento è facile.
Python
Python può praticamente svolgere le stesse attività di R: discussione dei dati, ingegneria, selezione delle funzionalità web scraping, app e così via. Python è uno strumento per distribuire e implementare l'apprendimento automatico su larga scala. Python i codici sono più facili da mantenere e più robusti rispetto a R. Anni fa; Python non aveva molte librerie di analisi dei dati e di apprendimento automatico. Recentemente, Python sta recuperando terreno e fornisce API all'avanguardia per l'apprendimento automatico o l'intelligenza artificiale. La maggior parte del lavoro di data science può essere svolto con cinque Python librerie: Numpy, Pandas, Scipy, Scikit-learn e Seaborn.
Python, d'altro canto, rende la replicabilità e l'accessibilità più facili rispetto a R. Infatti, se hai bisogno di utilizzare i risultati della tua analisi in un'applicazione o in un sito web, Python è la scelta migliore.
Indice di popolarità
La classifica IEEE Spectrum è una metrica che quantifica la popolarità di a linguaggio di programmazione. La colonna di sinistra mostra la classifica nel 2017 e la colonna di destra nel 2016. Nel 2017, Python è arrivato primo rispetto al terzo posto dell'anno prima. R è in 6th posto.
Opportunità di lavoro
L'immagine seguente mostra il numero di lavori relativi alla scienza dei dati per linguaggi di programmazione. SQL è molto più avanti, seguito da Python e dell' Java. R si classifica 5th.
Se ci concentriamo sulla tendenza a lungo termine tra Python (in giallo) e R (blu), possiamo vederlo Python è citato più spesso nella descrizione del lavoro rispetto a R.
Analisi fatta da R e Python
Tuttavia, se guardiamo ai lavori di analisi dei dati, R è di gran lunga lo strumento migliore.
Percentuale di persone che cambiano
Ci sono due punti chiave nella foto qui sotto.
- Python gli utenti sono più fedeli degli utenti R
- La percentuale di utenti R che passano a Python è due volte più grande di Python a R.
Differenza tra R e Python
Parametro | R | Python |
---|---|---|
Obiettivo | Analisi dei dati e statistiche | Distribuzione e produzione |
Utenti primari | Studioso e ricerca e sviluppo | Programmatori e sviluppatori |
Flessibilità | Libreria disponibile facile da usare | Facile costruire nuovi modelli da zero. Cioè, calcolo e ottimizzazione di matrici |
Curva di apprendimento | Difficile all'inizio | Lineare e liscio |
Popolarità del linguaggio di programmazione. Variazione percentuale | 4.23% in 2018 | 21.69% in 2018 |
Stipendio medio | $99.000 | $100.000 |
Integrazione: | Esegui localmente | Ben integrato con l'app |
Task | Facile ottenere risultati primari | Buono per implementare l'algoritmo |
Dimensione del database | Gestire dimensioni enormi | Gestire dimensioni enormi |
IDE | studio | Spyder, Taccuino Ipython |
Pacchetti importanti e libreria | tidyverse, ggplot2, cursore, zoo | panda, scipy, scikit-learn, TensorFlow, cursore |
Svantaggi | Rallentare Curva di apprendimento elevata Dipendenze tra librerie |
Non così tante biblioteche come R |
Vantaggi |
|
|
R o Python Impiego
Python è stato sviluppato da Guido van Rossum, un esperto di computer, intorno al 1991. Python ha librerie influenti per la matematica, la statistica e l'intelligenza artificiale. Puoi pensare Python come attore puro nel Machine Learning. Tuttavia, Python non è (ancora) del tutto maturo per l’econometria e la comunicazione. Python è lo strumento migliore per l'integrazione e la distribuzione del machine learning ma non per l'analisi aziendale.
La buona notizia è che R è sviluppato da accademici e scienziati. È progettato per rispondere a problemi statistici, apprendimento automatico e scienza dei dati. R è lo strumento giusto per la scienza dei dati grazie alle sue potenti librerie di comunicazione. Inoltre, R è dotato di numerosi pacchetti per eseguire analisi di serie temporali, dati panel e data mining. Inoltre, non esistono strumenti migliori rispetto a R.
Secondo noi, se sei un principiante in scienza dei dati con le necessarie basi statistiche, dovresti porti le seguenti due domande:
- Voglio sapere come funziona l'algoritmo?
- Voglio distribuire il modello?
Se la tua risposta a entrambe le domande è sì, probabilmente inizieresti a imparare Python Primo. Da un lato, Python include grandi librerie per manipolare matrici o per codificare gli algoritmi. Come principiante, potrebbe essere più facile imparare a costruire un modello da zero e poi passare alle funzioni dalle librerie di apprendimento automatico. D'altro canto, se conosci già l'algoritmo o vuoi passare subito all'analisi dei dati, allora sia R che Python vanno bene per cominciare. Un vantaggio per R se ti concentrerai sui metodi statistici.
In secondo luogo, se si vuole fare qualcosa di più delle statistiche, diciamo distribuzione e riproducibilità, Python è una scelta migliore. R è più adatto al tuo lavoro se devi scrivere un report e creare una dashboard.
In poche parole, il divario statistico tra R e Python si stanno avvicinando. La maggior parte del lavoro può essere svolta da entrambe le lingue. Faresti meglio a scegliere quello più adatto alle tue esigenze ma anche allo strumento che utilizzano i tuoi colleghi. È meglio quando parlate tutti la stessa lingua. Dopo aver conosciuto il primo linguaggio di programmazione, imparare il secondo sarà più semplice.
Conclusione
Alla fine, la scelta tra R o Python dipende da:
- Gli obiettivi della tua missione: analisi statistica o implementazione
- La quantità di tempo che puoi investire
- Lo strumento più utilizzato dalla tua azienda/settore