Какво е език за програмиране R? Въведение и основи на R

Какво е R софтуер?

R е език за програмиране и безплатен софтуер, разработен от Рос Ихака и Робърт Джентълман през 1993 г. R притежава обширен каталог от статистически и графични методи. Той включва алгоритми за машинно обучение, линейна регресия, времеви редове, статистически изводи, за да назовем само няколко. Повечето от R библиотеките са написани на R, но за тежки изчислителни задачи C, C++ намлява Fortran кодове са за предпочитане.

R не е поверено само от академичните среди, но много големи компании също използват език за програмиране R, включително Uber, Google, Airbnb, Facebook и т.н.

Анализът на данни с R се извършва в поредица от стъпки; програмиране, трансформиране, откриване, моделиране и съобщаване на резултатите

  • Програма: R е ясен и достъпен инструмент за програмиране
  • Transform: R се състои от колекция от библиотеки, предназначени специално за наука за данни
  • ПОВЕЧЕ: Проучете данните, прецизирайте хипотезата си и ги анализирайте
  • Модел: R предоставя широк набор от инструменти за заснемане на правилния модел за вашите данни
  • Общувайте: Интегрирайте кодове, графики и изходи към отчет с R Markdown или създайте блестящи приложения, които да споделяте със света

За какво се използва R?

  • Статистически извод
  • Анализ на данните
  • Алгоритъм за машинно обучение

R по отрасъл

Ако разбием използването на R по отрасли, виждаме, че академиците са на първо място. R е език за правене на статистика. R е първият избор в здравната индустрия, следван от правителството и консултациите.

R по отрасъл

R пакет

Основните приложения на R са и винаги ще бъдат статистика, визуализация и машинно обучение. Картината по-долу показва кой R пакет е получил най-много въпроси в Stack Overflow. В топ 10 повечето от тях са свързани с работния процес на специалист по данни: подготовка на данни и съобщаване на резултатите.

R пакет

Всички библиотеки на R, почти 12k, се съхраняват в CRAN. CRAN е безплатен и с отворен код. Можете да изтеглите и използвате многобройните библиотеки за изпълнение Machine Learning или анализ на времеви серии.

R пакет

Общувайте с Р

R има множество начини за представяне и споделяне на работа, или чрез документ за маркиране, или чрез лъскаво приложение. Всичко може да се хоства в Rpub, GitHub или уебсайта на бизнеса.

По-долу е даден пример за презентация, хоствана на Rpub

Общувайте с Р

Rstudio приема маркдаун за писане на документ. Можете да експортирате документите в различни формати:

  • Документ:
    • HTML
    • PDF/латекс
    • дума
  • Презентация
    • HTML
    • PDF прожектор

Общувайте с Р

Rstudio има страхотен инструмент за лесно създаване на приложение. По-долу е пример за приложение с данни на Световната банка.

Общувайте с Р

Защо да използвате R?

Науката за данните оформя начина, по който компаниите управляват своя бизнес. Без съмнение стоенето далеч от изкуствения интелект и машината ще доведе компанията до провал. Големият въпрос е кой инструмент/език трябва да използвате?

Те са много налични инструменти на пазара за извършване на анализ на данни. Изучаването на нов език изисква известно време. Картината по-долу изобразява кривата на обучение в сравнение с бизнес възможностите, които езикът предлага. Отрицателната връзка предполага, че няма безплатен обяд. Ако искате да дадете най-добра представа от данните, тогава трябва да отделите известно време за изучаване на подходящия инструмент, който е R.

Наука за данни за оценка на бизнес капацитета

В горния ляв ъгъл на графиката можете да видите Excel и PowerBI. Тези два инструмента са лесни за научаване, но не предлагат изключителни бизнес възможности, особено по отношение на моделирането. В средата можете да видите Python и SAS. SAS е специален инструмент за извършване на статистически анализ за бизнеса, но не е безплатен. SAS е софтуер за кликване и стартиране. Python, обаче, е език с монотонна крива на обучение. Python е фантастичен инструмент за внедряване на машинно обучение и AI, но му липсват комуникационни функции. С идентична крива на обучение, R е добър компромис между внедряване и анализ на данни.

Когато става въпрос за визуализация на данни (DataViz), вероятно сте чували за Tableau. Tableau без съмнение е чудесен инструмент за откриване на модели чрез графики и диаграми. Освен това изучаването на Tableau не отнема много време. Един голям проблем с визуализацията на данни е, че в крайна сметка може никога да не намерите модел или просто да създадете много безполезни диаграми. Tableau е добър инструмент за бърза визуализация на данните или Business Intelligence. Когато става въпрос за статистика и инструмент за вземане на решения, R е по-подходящ.

Stack Overflow е голяма общност за езици за програмиране. Ако имате проблем с кодирането или трябва да разберете модел, Stack Overflow е тук, за да ви помогне. През годината процентът на прегледите на въпроси се е увеличил рязко за R в сравнение с другите езици. Тази тенденция, разбира се, е силно свързана с процъфтяващата епоха на науката за данни, но тя отразява търсенето на езика R за наука за данни.

Трафик от препълване на стека

В науката за данните има два инструмента, които се конкурират един с друг. R и Python вероятно са езикът за програмиране, който определя науката за данните.

Трябва ли да изберете R?

Специалистът по данни може да използва два отлични инструмента: R и Python. Може да нямате време да научите и двете, особено ако започнете да изучавате наука за данни. Изучаване на статистическо моделиране и алгоритъм е много по-важно от това да научите език за програмиране. А програмен език е инструмент за изчисляване и съобщаване на вашето откритие. Най-важната задача в науката за данните е начинът, по който се справяте с данните: импортиране, почистване, подготовка, инженеринг на функции, избор на функции. Това трябва да е основният ви фокус. Ако се опитвате да научите R и Python в същото време без солиден опит в статистиката, просто е глупаво. Учените по данни не са програмисти. Тяхната работа е да разберат данните, да ги манипулират и да изложат най-добрия подход. Ако мислите кой език да научите, нека видим кой е най-подходящият за вас.

Основната аудитория за наука за данни са бизнес специалисти. В бизнеса едно голямо значение е комуникацията. Има много начини за комуникация: отчет, уеб приложение, табло за управление. Имате нужда от инструмент, който прави всичко това заедно.

R трудно ли е?

Преди години R беше труден език за овладяване. Езикът беше объркващ и не толкова структуриран като другите инструменти за програмиране. За да преодолее този основен проблем, Hadley Wickham разработи колекция от пакети, наречена tidyverse. Правилата на играта се промениха към най-доброто. Манипулирането на данни става тривиално и интуитивно. Създаването на графика вече не беше толкова трудно.

Най-добрите алгоритми за машинно обучение могат да бъдат внедрени с R. Пакети като Keras и TensorFlow позволяват да се създаде техника за машинно обучение от висок клас. R също така има пакет за изпълнение на Xgboost, един от най-добрите алгоритъм за конкуренцията на Kaggle.

R може да комуникира с другия език. Възможно е да се обадите Python, Java, C++ в R. Светът на големите данни също е достъпен за R. Можете да свържете R с различни бази данни като Spark или Hadoop.

И накрая, R се разви и позволи паралелна операция за ускоряване на изчислението. Всъщност R беше критикуван, че използва само един процесор наведнъж. Паралелният пакет ви позволява да изпълнявате задачи в различни ядра на машината.

Oбобщение

Накратко, R е страхотен инструмент за изследване и изследване на данните. Сложен анализ като групиране, корелация и редуциране на данни се извършва с R. Това е най-важната част, без добро инженерство и модел на характеристики, внедряването на машинното обучение няма да даде значими резултати.