Τι είναι η Γλώσσα Προγραμματισμού R; Εισαγωγή & Βασικά στοιχεία του R
Τι είναι το R Software;
R είναι μια γλώσσα προγραμματισμού και ένα ελεύθερο λογισμικό που αναπτύχθηκε από τους Ross Ihaka και Robert Gentleman το 1993. Η R διαθέτει έναν εκτενή κατάλογο στατιστικών και γραφικών μεθόδων. Περιλαμβάνει αλγόριθμους μηχανικής μάθησης, γραμμική παλινδρόμηση, χρονοσειρές, στατιστικά συμπεράσματα για να αναφέρουμε μερικά. Οι περισσότερες από τις βιβλιοθήκες R είναι γραμμένες σε R, αλλά για βαριές υπολογιστικές εργασίες, C, C++ και FortraΠροτιμώνται n κωδικοί.
Το R δεν εμπιστεύεται μόνο από ακαδημαϊκούς, αλλά πολλές μεγάλες εταιρείες χρησιμοποιούν επίσης τη γλώσσα προγραμματισμού R, συμπεριλαμβανομένων των Uber, Google, Airbnb, Facebook και ούτω καθεξής.
Η ανάλυση δεδομένων με το R γίνεται σε μια σειρά βημάτων. προγραμματισμός, μετασχηματισμός, ανακάλυψη, μοντελοποίηση και επικοινωνία των αποτελεσμάτων
- Πρόγραμμα: Το R είναι ένα σαφές και προσβάσιμο εργαλείο προγραμματισμού
- Μεταμορφώστε: Το R αποτελείται από μια συλλογή βιβλιοθηκών που έχουν σχεδιαστεί ειδικά για την επιστήμη των δεδομένων
- Ανακαλύψτε: Διερευνήστε τα δεδομένα, βελτιώστε την υπόθεσή σας και αναλύστε τα
- Μοντέλο: Το R παρέχει μια ευρεία γκάμα εργαλείων για να καταγράψετε το σωστό μοντέλο για τα δεδομένα σας
- Επικοινωνώ: Ενσωματώστε κωδικούς, γραφήματα και εξόδους σε μια αναφορά με το R Markdown ή δημιουργήστε εφαρμογές Shiny για κοινή χρήση με τον κόσμο
Σε τι χρησιμοποιείται το R;
- Στατιστικό συμπέρασμα
- Ανάλυση δεδομένων
- Αλγόριθμος μηχανικής μάθησης
R από τη βιομηχανία
Αν αναλύσουμε τη χρήση του R ανά κλάδο, βλέπουμε ότι οι ακαδημαϊκοί έρχονται πρώτοι. Το R είναι μια γλώσσα για να κάνουμε στατιστικά. Η R είναι η πρώτη επιλογή στον κλάδο της υγειονομικής περίθαλψης, ακολουθούμενη από την κυβέρνηση και τη συμβουλευτική.
R πακέτο
Οι κύριες χρήσεις του R είναι και θα είναι πάντα, η στατιστική, η οπτικοποίηση και η μηχανική μάθηση. Η παρακάτω εικόνα δείχνει ποιο πακέτο R είχε τις περισσότερες ερωτήσεις στο Stack Overflow. Στο top 10, τα περισσότερα από αυτά σχετίζονται με τη ροή εργασίας ενός επιστήμονα δεδομένων: προετοιμασία δεδομένων και κοινοποίηση των αποτελεσμάτων.
Όλες οι βιβλιοθήκες του R, σχεδόν 12k, είναι αποθηκευμένες στο CRAN. Το CRAN είναι δωρεάν και ανοιχτού κώδικα. Μπορείτε να κάνετε λήψη και να χρησιμοποιήσετε τις πολυάριθμες βιβλιοθήκες για να εκτελέσετε Μηχανική μάθηση ή ανάλυση χρονοσειρών.
Επικοινωνήστε με τον R
Το R έχει πολλούς τρόπους παρουσίασης και κοινής χρήσης εργασίας, είτε μέσω ενός εγγράφου σήμανσης είτε μιας λαμπερής εφαρμογής. Τα πάντα μπορούν να φιλοξενηθούν στο Rpub, στο GitHub ή στον ιστότοπο της επιχείρησης.
Παρακάτω είναι ένα παράδειγμα παρουσίασης που φιλοξενείται στο Rpub
Το Rstudio δέχεται τη σήμανση για τη σύνταξη ενός εγγράφου. Μπορείτε να εξαγάγετε τα έγγραφα σε διάφορες μορφές:
- Έγγραφο:
- HTML
- PDF/Latex
- λέξη
- Παρουσίαση
- HTML
- PDF beamer
Το Rstudio διαθέτει ένα εξαιρετικό εργαλείο για να δημιουργήσετε μια εφαρμογή εύκολα. Παρακάτω είναι ένα παράδειγμα εφαρμογής με δεδομένα της Παγκόσμιας Τράπεζας.
Γιατί να χρησιμοποιήσετε το R;
Η επιστήμη των δεδομένων διαμορφώνει τον τρόπο με τον οποίο οι εταιρείες διευθύνουν τις επιχειρήσεις τους. Χωρίς αμφιβολία, η παραμονή μακριά από την Τεχνητή Νοημοσύνη και τη Μηχανή θα οδηγήσει την εταιρεία σε αποτυχία. Το μεγάλο ερώτημα είναι ποιο εργαλείο/γλώσσα πρέπει να χρησιμοποιήσετε;
Είναι πολλά διαθέσιμα εργαλεία στην αγορά για την εκτέλεση ανάλυσης δεδομένων. Η εκμάθηση μιας νέας γλώσσας απαιτεί κάποια επένδυση χρόνου. Η παρακάτω εικόνα απεικονίζει την καμπύλη εκμάθησης σε σύγκριση με την επιχειρηματική ικανότητα που προσφέρει μια γλώσσα. Η αρνητική σχέση υποδηλώνει ότι δεν υπάρχει δωρεάν γεύμα. Εάν θέλετε να δώσετε την καλύτερη εικόνα από τα δεδομένα, τότε πρέπει να αφιερώσετε λίγο χρόνο για να μάθετε το κατάλληλο εργαλείο, το οποίο είναι το R.
Στην επάνω αριστερή γωνία του γραφήματος, μπορείτε να δείτε το Excel και το PowerBI. Αυτά τα δύο εργαλεία είναι απλά στην εκμάθηση, αλλά δεν προσφέρουν εξαιρετικές επιχειρηματικές δυνατότητες, ειδικά όσον αφορά τη μοντελοποίηση. Στη μέση, μπορείτε να δείτε Python και SAS. Το SAS είναι ένα ειδικό εργαλείο για την εκτέλεση στατιστικής ανάλυσης για επιχειρήσεις, αλλά δεν είναι δωρεάν. Το SAS είναι ένα λογισμικό κλικ και εκτέλεσης. PythonΩστόσο, είναι μια γλώσσα με μονότονη καμπύλη εκμάθησης. Python είναι ένα φανταστικό εργαλείο για την ανάπτυξη της Μηχανικής Μάθησης και της Τεχνητής Νοημοσύνης, αλλά δεν διαθέτει χαρακτηριστικά επικοινωνίας. Με την ίδια καμπύλη μάθησης, το R είναι μια καλή αντιστάθμιση μεταξύ υλοποίησης και ανάλυσης δεδομένων.
Όταν πρόκειται για οπτικοποίηση δεδομένων (ΔεδομέναViz), μάλλον θα είχατε ακούσει για το Tableau. Το Tableau είναι, χωρίς αμφιβολία, ένα εξαιρετικό εργαλείο για την ανακάλυψη μοτίβων μέσω γραφημάτων και γραφημάτων. Εξάλλου, η εκμάθηση του Tableau δεν είναι χρονοβόρα. Ένα μεγάλο πρόβλημα με την οπτικοποίηση δεδομένων είναι ότι μπορεί να καταλήξετε να μην βρείτε ποτέ ένα μοτίβο ή απλώς να δημιουργήσετε πολλά άχρηστα γραφήματα. Το Tableau είναι ένα καλό εργαλείο για γρήγορη οπτικοποίηση των δεδομένων ή Business Intelligence. Όταν πρόκειται για στατιστικά στοιχεία και εργαλείο λήψης αποφάσεων, το R είναι πιο κατάλληλο.
Το Stack Overflow είναι μια μεγάλη κοινότητα για γλώσσες προγραμματισμού. Εάν αντιμετωπίζετε πρόβλημα κωδικοποίησης ή πρέπει να κατανοήσετε ένα μοντέλο, το Stack Overflow είναι εδώ για να σας βοηθήσει. Κατά τη διάρκεια του έτους, το ποσοστό των προβολών ερωτήσεων αυξήθηκε απότομα για το R σε σύγκριση με τις άλλες γλώσσες. Αυτή η τάση φυσικά συσχετίζεται σε μεγάλο βαθμό με την ακμάζουσα εποχή της επιστήμης δεδομένων, αλλά αντανακλά τη ζήτηση της γλώσσας R για την επιστήμη δεδομένων.
Στην επιστήμη των δεδομένων, υπάρχουν δύο εργαλεία που ανταγωνίζονται μεταξύ τους. R και Python είναι πιθανώς η γλώσσα προγραμματισμού που ορίζει την επιστήμη των δεδομένων.
Θα πρέπει να επιλέξετε το R;
Ο επιστήμονας δεδομένων μπορεί να χρησιμοποιήσει δύο εξαιρετικά εργαλεία: R και Python. Μπορεί να μην έχετε χρόνο να τα μάθετε και τα δύο, ειδικά αν ξεκινήσετε να μαθαίνετε την επιστήμη των δεδομένων. Εκμάθηση στατιστικής μοντελοποίησης και αλγόριθμου είναι πολύ πιο σημαντικό από το να μάθεις μια γλώσσα προγραμματισμού. ΕΝΑ γλώσσα προγραμματισμού είναι ένα εργαλείο για τον υπολογισμό και την επικοινωνία της ανακάλυψής σας. Το πιο σημαντικό καθήκον στην επιστήμη δεδομένων είναι ο τρόπος με τον οποίο αντιμετωπίζετε τα δεδομένα: εισαγωγή, καθαρισμός, προετοιμασία, μηχανική λειτουργιών, επιλογή χαρακτηριστικών. Αυτό πρέπει να είναι η κύρια εστίασή σας. Εάν προσπαθείτε να μάθετε R και Python Ταυτόχρονα, χωρίς σταθερό υπόβαθρο στα στατιστικά, είναι ανόητο. Οι επιστήμονες δεδομένων δεν είναι προγραμματιστές. Η δουλειά τους είναι να κατανοούν τα δεδομένα, να τα χειρίζονται και να εκθέτουν την καλύτερη προσέγγιση. Αν σκέφτεστε ποια γλώσσα να μάθετε, ας δούμε ποια γλώσσα είναι η καταλληλότερη για εσάς.
Το κύριο κοινό για την επιστήμη δεδομένων είναι επαγγελματίες επαγγελματίες. Στην επιχείρηση, μια μεγάλη συνέπεια είναι η επικοινωνία. Υπάρχουν πολλοί τρόποι επικοινωνίας: αναφορά, εφαρμογή ιστού, πίνακας ελέγχου. Χρειάζεστε ένα εργαλείο που να τα κάνει όλα αυτά μαζί.
Είναι δύσκολο το R;
Πριν από χρόνια, η R ήταν μια δύσκολη γλώσσα στην κατοχή. Η γλώσσα ήταν μπερδεμένη και όχι τόσο δομημένη όσο τα άλλα εργαλεία προγραμματισμού. Για να ξεπεράσει αυτό το σημαντικό πρόβλημα, η Hadley Wickham ανέπτυξε μια συλλογή πακέτων που ονομάζεται tidyverse. Ο κανόνας του παιχνιδιού άλλαξε προς το καλύτερο. Η χειραγώγηση δεδομένων γίνεται ασήμαντη και διαισθητική. Η δημιουργία γραφήματος δεν ήταν πλέον τόσο δύσκολη.
Οι καλύτεροι αλγόριθμοι για μηχανική μάθηση μπορούν να εφαρμοστούν με το R. Πακέτα όπως το Keras και το TensorFlow επιτρέπουν τη δημιουργία τεχνικής μηχανικής εκμάθησης προηγμένης τεχνολογίας. Το R διαθέτει επίσης ένα πακέτο για την εκτέλεση του Xgboost, έναν από τους καλύτερους αλγόριθμους για τον ανταγωνισμό Kaggle.
Το R μπορεί να επικοινωνήσει με την άλλη γλώσσα. Υπάρχει δυνατότητα κλήσης Python, Java, C++ στο R. Ο κόσμος των μεγάλων δεδομένων είναι επίσης προσβάσιμος στο R. Μπορείτε να συνδέσετε το R με διαφορετικές βάσεις δεδομένων όπως Spark ή Hadoop.
Τέλος, το R έχει εξελιχθεί και επέτρεψε την παράλληλη λειτουργία για να επιταχύνει τον υπολογισμό. Στην πραγματικότητα, ο R επικρίθηκε για τη χρήση μόνο μιας CPU τη φορά. Το παράλληλο πακέτο σάς επιτρέπει να εκτελείτε εργασίες σε διαφορετικούς πυρήνες του μηχανήματος.
Σύνοψη
Με λίγα λόγια, το R είναι ένα εξαιρετικό εργαλείο για την εξερεύνηση και τη διερεύνηση των δεδομένων. Η περίπλοκη ανάλυση όπως η ομαδοποίηση, η συσχέτιση και η μείωση δεδομένων γίνονται με το R. Αυτό είναι το πιο κρίσιμο μέρος, χωρίς μια καλή μηχανική και μοντέλο χαρακτηριστικών, η ανάπτυξη της μηχανικής εκμάθησης δεν θα δώσει ουσιαστικά αποτελέσματα.