R प्रोग्रामिंग भाषा क्या है? R का परिचय और मूल बातें

आर सॉफ्टवेयर क्या है?

R रॉस इहाका और रॉबर्ट जेंटलमैन द्वारा 1993 में विकसित एक प्रोग्रामिंग भाषा और मुफ्त सॉफ्टवेयर है। R में सांख्यिकीय और ग्राफिकल विधियों की एक विस्तृत सूची है। इसमें मशीन लर्निंग एल्गोरिदम, रैखिक प्रतिगमन, समय श्रृंखला, सांख्यिकीय अनुमान आदि शामिल हैं। अधिकांश R लाइब्रेरी R में लिखी गई हैं, लेकिन भारी कम्प्यूटेशनल कार्यों के लिए, C, C++ और Fortran कोड को प्राथमिकता दी जाती है.

आर प्रोग्रामिंग भाषा का उपयोग केवल अकादमिक जगत द्वारा ही नहीं किया जाता है, बल्कि कई बड़ी कंपनियां भी आर प्रोग्रामिंग भाषा का उपयोग करती हैं, जिनमें उबर, गूगल, एयरबीएनबी, फेसबुक आदि शामिल हैं।

आर के साथ डेटा विश्लेषण कई चरणों में किया जाता है; प्रोग्रामिंग, रूपांतरण, खोज, मॉडलिंग और परिणामों का संचार

  • कार्यक्रम: R एक स्पष्ट और सुलभ प्रोग्रामिंग टूल है
  • बदालना: R विशेष रूप से डेटा विज्ञान के लिए डिज़ाइन किए गए पुस्तकालयों के संग्रह से बना है
  • खोजे : डेटा की जांच करें, अपनी परिकल्पना को परिष्कृत करें और उनका विश्लेषण करें
  • आदर्श: R आपके डेटा के लिए सही मॉडल को कैप्चर करने के लिए उपकरणों की एक विस्तृत श्रृंखला प्रदान करता है
  • संवाद: R Markdown के साथ कोड, ग्राफ़ और आउटपुट को रिपोर्ट में एकीकृत करें या दुनिया के साथ साझा करने के लिए शाइनी ऐप बनाएं

R का प्रयोग किसलिए किया जाता है?

  • सांख्यिकीय अनुमान
  • डेटा विश्लेषण
  • मशीन लर्निंग एल्गोरिदम

उद्योग द्वारा आर

अगर हम उद्योग के हिसाब से R के इस्तेमाल को अलग-अलग करें, तो हम पाएंगे कि शिक्षाविद पहले आते हैं। R सांख्यिकी के लिए एक भाषा है। स्वास्थ्य सेवा उद्योग में R पहली पसंद है, उसके बाद सरकार और परामर्श का स्थान आता है।

उद्योग द्वारा आर

आर पैकेज

R का प्राथमिक उपयोग सांख्यिकी, विज़ुअलाइज़ेशन और मशीन लर्निंग है और हमेशा रहेगा। नीचे दी गई तस्वीर दिखाती है कि स्टैक ओवरफ़्लो में किस R पैकेज को सबसे ज़्यादा सवाल मिले। शीर्ष 10 में, उनमें से ज़्यादातर डेटा वैज्ञानिक के वर्कफ़्लो से संबंधित हैं: डेटा तैयार करना और परिणामों को संप्रेषित करना।

आर पैकेज

R की सभी लाइब्रेरी, लगभग 12k, CRAN में संग्रहीत हैं। CRAN एक मुफ़्त और खुला स्रोत है। आप कई लाइब्रेरी डाउनलोड करके उनका उपयोग कर सकते हैं। मशीन लर्निंग या समय श्रृंखला विश्लेषण.

आर पैकेज

आर के साथ संवाद करें

R में काम को प्रस्तुत करने और साझा करने के कई तरीके हैं, या तो मार्कडाउन दस्तावेज़ के माध्यम से या शाइनी ऐप के माध्यम से। सब कुछ Rpub, GitHub या व्यवसाय की वेबसाइट पर होस्ट किया जा सकता है।

नीचे एक प्रस्तुति का उदाहरण दिया गया है आरपब

आर के साथ संवाद करें

Rstudio दस्तावेज़ लिखने के लिए मार्कडाउन स्वीकार करता है। आप दस्तावेज़ों को विभिन्न प्रारूपों में निर्यात कर सकते हैं:

  • दस्तावेज़ :
    • एचटीएमएल
    • पीडीएफ/लेटेक्स
    • शब्द
  • प्रस्तुतिकरण
    • एचटीएमएल
    • पीडीएफ बीमर

आर के साथ संवाद करें

Rstudio के पास ऐप बनाने के लिए एक बेहतरीन टूल है। नीचे विश्व बैंक के डेटा के साथ ऐप का एक उदाहरण दिया गया है।

आर के साथ संवाद करें

आर का उपयोग क्यों करें?

डेटा साइंस कंपनियों के कारोबार चलाने के तरीके को आकार दे रहा है। इसमें कोई संदेह नहीं है कि आर्टिफिशियल इंटेलिजेंस और मशीन से दूर रहना कंपनी को विफल कर देगा। बड़ा सवाल यह है कि आपको किस टूल/भाषा का इस्तेमाल करना चाहिए?

डेटा विश्लेषण करने के लिए बाज़ार में बहुत सारे उपकरण उपलब्ध हैं। एक नई भाषा सीखने के लिए कुछ समय निवेश की आवश्यकता होती है। नीचे दी गई तस्वीर एक भाषा द्वारा प्रदान की जाने वाली व्यावसायिक क्षमता की तुलना में सीखने की अवस्था को दर्शाती है। नकारात्मक संबंध का अर्थ है कि कोई मुफ़्त भोजन नहीं है। यदि आप डेटा से सर्वोत्तम जानकारी देना चाहते हैं, तो आपको उपयुक्त उपकरण सीखने में कुछ समय बिताना होगा, जो कि R है।

व्यवसाय क्षमता रेटिंग के लिए डेटा विज्ञान

ग्राफ के ऊपर बाईं ओर, आप एक्सेल और पावरबीआई देख सकते हैं। ये दो उपकरण सीखने में आसान हैं, लेकिन विशेष रूप से मॉडलिंग के मामले में, ये उत्कृष्ट व्यावसायिक क्षमता प्रदान नहीं करते हैं। बीच में, आप देख सकते हैं Python और SAS. SAS व्यवसाय के लिए सांख्यिकीय विश्लेषण चलाने के लिए एक समर्पित उपकरण है, लेकिन यह मुफ़्त नहीं है. SAS एक क्लिक और रन सॉफ़्टवेयर है. Pythonहालाँकि, यह एक नीरस सीखने की अवस्था वाली भाषा है। Python मशीन लर्निंग और AI को तैनात करने के लिए एक शानदार उपकरण है, लेकिन इसमें संचार सुविधाओं का अभाव है। एक समान सीखने की अवस्था के साथ, R कार्यान्वयन और डेटा विश्लेषण के बीच एक अच्छा समझौता है।

जब डेटा विज़ुअलाइज़ेशन (डेटा) की बात आती हैViz), आपने शायद Tableau के बारे में सुना होगा। Tableau, बिना किसी संदेह के, ग्राफ़ और चार्ट के माध्यम से पैटर्न खोजने के लिए एक बढ़िया टूल है। इसके अलावा, Tableau सीखना समय लेने वाला नहीं है। डेटा विज़ुअलाइज़ेशन के साथ एक बड़ी समस्या यह है कि आप कभी भी पैटर्न नहीं खोज पाएंगे या बस बहुत सारे बेकार चार्ट बना लेंगे। डेटा या बिजनेस इंटेलिजेंस के त्वरित विज़ुअलाइज़ेशन के लिए Tableau एक अच्छा टूल है। जब सांख्यिकी और निर्णय लेने वाले टूल की बात आती है, तो R अधिक उपयुक्त है।

स्टैक ओवरफ़्लो प्रोग्रामिंग भाषाओं के लिए एक बड़ा समुदाय है। यदि आपको कोडिंग की समस्या है या किसी मॉडल को समझने की आवश्यकता है, तो स्टैक ओवरफ़्लो आपकी मदद के लिए मौजूद है। पिछले कुछ वर्षों में, अन्य भाषाओं की तुलना में R के लिए प्रश्न-दृश्यों का प्रतिशत तेज़ी से बढ़ा है। यह प्रवृत्ति निश्चित रूप से डेटा विज्ञान के तेजी से बढ़ते युग के साथ अत्यधिक सहसंबद्ध है, लेकिन यह डेटा विज्ञान के लिए R भाषा की मांग को दर्शाता है।

स्टैक ओवरफ़्लो ट्रैफ़िक

डेटा विज्ञान में, दो उपकरण एक दूसरे के साथ प्रतिस्पर्धा कर रहे हैं। आर और Python संभवतः वह प्रोग्रामिंग भाषा है जो डेटा विज्ञान को परिभाषित करती है।

क्या आपको R चुनना चाहिए?

डेटा वैज्ञानिक दो उत्कृष्ट उपकरणों का उपयोग कर सकते हैं: आर और Pythonआपके पास इन दोनों को सीखने का समय नहीं हो सकता है, खासकर यदि आप डेटा विज्ञान सीखना शुरू कर रहे हैं। सांख्यिकीय मॉडलिंग और एल्गोरिदम सीखना प्रोग्रामिंग भाषा सीखने से कहीं अधिक महत्वपूर्ण है। प्रोग्रामिंग भाषा यह आपकी खोज की गणना और संचार करने का एक उपकरण है। डेटा विज्ञान में सबसे महत्वपूर्ण कार्य यह है कि आप डेटा से कैसे निपटते हैं: आयात, सफाई, तैयारी, फीचर इंजीनियरिंग, फीचर चयन। यह आपका प्राथमिक ध्यान होना चाहिए। यदि आप R और सीखने की कोशिश कर रहे हैं Python साथ ही सांख्यिकी में ठोस पृष्ठभूमि के बिना, यह स्पष्ट रूप से बेवकूफी है। डेटा वैज्ञानिक प्रोग्रामर नहीं हैं। उनका काम डेटा को समझना, उसमें हेरफेर करना और सबसे अच्छा तरीका बताना है। यदि आप सोच रहे हैं कि कौन सी भाषा सीखनी है, तो आइए देखें कि आपके लिए कौन सी भाषा सबसे उपयुक्त है।

डेटा साइंस के लिए मुख्य दर्शक व्यावसायिक पेशेवर हैं। व्यवसाय में, एक बड़ा निहितार्थ संचार है। संचार के कई तरीके हैं: रिपोर्ट, वेब ऐप, डैशबोर्ड। आपको एक ऐसा उपकरण चाहिए जो यह सब एक साथ कर सके।

क्या आर कठिन है?

सालों पहले, R भाषा को समझना बहुत मुश्किल था। यह भाषा भ्रामक थी और अन्य प्रोग्रामिंग टूल की तरह संरचित नहीं थी। इस बड़ी समस्या को दूर करने के लिए, हैडली विकम ने टाइडीवर्स नामक पैकेजों का एक संग्रह विकसित किया। खेल का नियम बेहतर के लिए बदल गया। डेटा हेरफेर तुच्छ और सहज हो गया। ग्राफ़ बनाना अब इतना मुश्किल नहीं रहा।

मशीन लर्निंग के लिए सबसे अच्छे एल्गोरिदम को R के साथ लागू किया जा सकता है। केरास और टेंसरफ्लो जैसे पैकेज हाई-एंड मशीन लर्निंग तकनीक बनाने की अनुमति देते हैं। R में Xgboost करने के लिए एक पैकेज भी है, जो Kaggle प्रतियोगिता के लिए सबसे अच्छा एल्गोरिदम है।

R दूसरी भाषा के साथ संवाद कर सकता है। कॉल करना संभव है Python, Java, C++ आर में। बड़े डेटा की दुनिया भी आर के लिए सुलभ है। आप आर को विभिन्न डेटाबेस से जोड़ सकते हैं जैसे Spark या हाडोप.

अंत में, R विकसित हुआ है और गणना को गति देने के लिए समानांतर संचालन की अनुमति दी है। वास्तव में, R की आलोचना एक समय में केवल एक CPU का उपयोग करने के लिए की गई थी। समानांतर पैकेज आपको मशीन के विभिन्न कोर में कार्य करने देता है।

सारांश

संक्षेप में, डेटा का पता लगाने और जांच करने के लिए R एक बेहतरीन टूल है। क्लस्टरिंग, सहसंबंध और डेटा रिडक्शन जैसे विस्तृत विश्लेषण R के साथ किए जाते हैं। यह सबसे महत्वपूर्ण हिस्सा है, एक अच्छी फीचर इंजीनियरिंग और मॉडल के बिना, मशीन लर्निंग की तैनाती सार्थक परिणाम नहीं देगी।

इस पोस्ट को संक्षेप में इस प्रकार लिखें: