R 프로그래밍 언어란 무엇입니까? R의 소개와 기초

R 소프트웨어란 무엇입니까?

R R은 Ross Ihaka와 Robert Gentleman이 1993년에 개발한 프로그래밍 언어이자 무료 소프트웨어입니다. R은 광범위한 통계 및 그래픽 방법 카탈로그를 보유하고 있습니다. 여기에는 기계 학습 알고리즘, 선형 회귀, 시계열, 통계적 추론 등이 포함됩니다. 대부분의 R 라이브러리는 R로 작성되었지만 과도한 계산 작업의 경우 C, C++ 및 Fortran 코드가 선호됩니다.

R은 학계의 위탁을 받았을 뿐만 아니라 Uber, Google, Airbnb, Facebook 등 많은 대기업에서도 R 프로그래밍 언어를 사용하고 있습니다.

R을 사용한 데이터 분석은 일련의 단계로 수행됩니다. 프로그래밍, 변형, 발견, 모델링 및 결과 전달

  • 프로그램: R은 명확하고 접근하기 쉬운 프로그래밍 도구입니다.
  • 변환: R은 데이터 과학을 위해 특별히 설계된 라이브러리 모음으로 구성됩니다.
  • Discover: 데이터를 조사하고, 가설을 구체화하고 분석합니다.
  • 모델: R은 데이터에 적합한 모델을 캡처할 수 있는 다양한 도구를 제공합니다.
  • 소통: R Markdown을 사용하여 코드, 그래프 및 출력을 보고서에 통합하거나 Shiny 앱을 구축하여 전 세계와 공유하세요.

R은 무엇에 사용되나요?

  • 통계적 추론
  • 데이터 분석
  • 기계 학습 알고리즘

산업별 R

산업별로 R의 사용을 분석해 보면 학계가 먼저라는 것을 알 수 있습니다. R은 통계를 처리하는 언어입니다. 헬스케어 업계에서는 R이 첫 번째 선택이고, 정부와 컨설팅이 그 뒤를 따릅니다.

산업별 R

R 패키지

R의 주요 용도는 통계, 시각화 및 기계 학습이며 앞으로도 그럴 것입니다. 아래 그림은 Stack Overflow에서 어떤 R 패키지가 가장 많은 질문을 받았는지 보여줍니다. 상위 10개 항목 중 대부분은 데이터 과학자의 작업 흐름, 즉 데이터 준비 및 결과 전달과 관련이 있습니다.

R 패키지

거의 12k에 달하는 R의 모든 라이브러리는 CRAN에 저장됩니다. CRAN은 무료 오픈 소스입니다. 다양한 라이브러리를 다운로드하여 사용할 수 있습니다. 기계 학습 또는 시계열 분석.

R 패키지

R과 소통하다

R에는 마크다운 문서나 반짝이는 앱을 통해 작업을 발표하고 공유하는 다양한 방법이 있습니다. 모든 것은 Rpub, GitHub 또는 기업 웹사이트에서 호스팅될 수 있습니다.

다음은 에서 주최된 프레젠테이션의 예입니다. Rpub

R과 소통하다

Rstudio는 문서 작성을 위해 마크다운을 허용합니다. 문서를 다양한 형식으로 내보낼 수 있습니다.

  • 문서 :
    • HTML
    • PDF/라텍스
    • 워드
  • 발표자:
    • HTML
    • PDF beamer

R과 소통하다

Rstudio에는 앱을 쉽게 만들 수 있는 훌륭한 도구가 있습니다. 다음은 세계은행 데이터가 포함된 앱의 예입니다.

R과 소통하다

왜 R을 사용하는가?

데이터 과학은 기업이 비즈니스를 운영하는 방식을 변화시키고 있습니다. 의심할 바 없이 인공 지능과 기계를 멀리하면 회사가 실패하게 될 것입니다. 가장 큰 질문은 어떤 도구/언어를 사용해야 하는가입니다.

데이터 분석을 수행하기 위해 시장에서 사용할 수 있는 다양한 도구가 있습니다. 새로운 언어를 배우려면 약간의 시간 투자가 필요합니다. 아래 그림은 언어가 제공하는 비즈니스 기능과 비교한 학습 곡선을 보여줍니다. 음의 관계는 공짜 점심이 없다는 것을 의미합니다. 데이터에서 최고의 통찰력을 얻으려면 적절한 도구인 R을 배우는 데 시간을 투자해야 합니다.

비즈니스 역량 평가를 위한 데이터 과학

그래프 왼쪽 상단에는 Excel과 PowerBI가 표시됩니다. 이 두 도구는 배우기 쉽지만 특히 모델링 측면에서 뛰어난 비즈니스 기능을 제공하지는 않습니다. 중간에 보면 알겠지만 Python 그리고 SAS. SAS는 비즈니스 통계 분석을 실행하는 전용 도구이지만 무료는 아닙니다. SAS는 클릭 앤 실행 소프트웨어입니다. 그러나 Python은 학습 곡선이 단조로운 언어입니다. Python은 기계 학습 및 AI를 배포하는 환상적인 도구이지만 통신 기능이 부족합니다. 동일한 학습 곡선을 통해 R은 구현과 데이터 분석 간의 좋은 절충안입니다.

데이터 시각화에 있어서(데이터Viz), Tableau에 대해 들어보셨을 것입니다. Tableau는 의심할 여지 없이 그래프와 차트를 통해 패턴을 발견하는 훌륭한 도구입니다. 게다가 Tableau를 배우는 데는 시간이 많이 걸리지 않습니다. 데이터 시각화의 가장 큰 문제 중 하나는 결국 패턴을 찾지 못하거나 쓸모없는 차트를 많이 만들 수 있다는 것입니다. Tableau는 데이터 또는 비즈니스 인텔리전스를 빠르게 시각화하는 데 유용한 도구입니다. 통계 및 의사결정 도구의 경우 R이 더 적합합니다.

Stack Overflow는 프로그래밍 언어를 위한 대규모 커뮤니티입니다. 코딩 문제가 있거나 모델을 이해해야 하는 경우 Stack Overflow가 도움을 드립니다. 한 해 동안 다른 언어에 비해 R의 질문 조회 비율이 급격히 증가했습니다. 이러한 추세는 물론 데이터 과학의 호황 시대와 밀접한 관련이 있지만 데이터 과학에 대한 R 언어의 수요를 반영합니다.

스택 오버플로 트래픽

데이터 과학에는 서로 경쟁하는 두 가지 도구가 있습니다. R과 Python은 아마도 데이터 과학을 정의하는 프로그래밍 언어일 것입니다.

R을 선택해야 할까요?

데이터 과학자는 R과 Python이라는 두 가지 훌륭한 도구를 사용할 수 있습니다. 특히 데이터 과학을 배우기 시작했다면 둘 다 배울 시간이 없을 수도 있습니다. 통계 모델링 및 알고리즘 학습 프로그래밍 언어를 배우는 것보다 훨씬 더 중요합니다. ㅏ 프로그래밍 언어 귀하의 발견을 계산하고 전달하는 도구입니다. 데이터 과학에서 가장 중요한 작업은 가져오기, 정리, 준비, 기능 엔지니어링, 기능 선택 등 데이터를 처리하는 방식입니다. 이것이 당신의 주요 초점이 되어야 합니다. 통계에 대한 탄탄한 배경지식 없이 R과 Python을 동시에 배우려고 한다면 그것은 어리석은 일입니다. 데이터 과학자는 프로그래머가 아닙니다. 이들의 임무는 데이터를 이해하고 조작하며 최선의 접근 방식을 제시하는 것입니다. 어떤 언어를 배울지 고민 중이라면, 어떤 언어가 자신에게 가장 적합한지 살펴보겠습니다.

데이터 과학의 주요 청중은 비즈니스 전문가입니다. 비즈니스에서 중요한 의미 중 하나는 의사소통입니다. 보고서, 웹앱, 대시보드 등 다양한 통신 방법이 있습니다. 이 모든 것을 함께 수행하는 도구가 필요합니다.

R은 어려운가요?

몇 년 전만 해도 R은 마스터하기 어려운 언어였습니다. 언어는 혼란스럽고 다른 프로그래밍 도구만큼 구조화되지 않았습니다. 이 주요 문제를 극복하기 위해 Hadley Wickham은 tidyverse라는 패키지 모음을 개발했습니다. 게임의 규칙이 최고로 바뀌었습니다. 데이터 조작이 사소해지고 직관적이 됩니다. 그래프를 만드는 것이 더 이상 어렵지 않았습니다.

기계 학습을 위한 최고의 알고리즘은 R로 구현될 수 있습니다. Keras 및 TensorFlow와 같은 패키지를 사용하면 고급 기계 학습 기술을 만들 수 있습니다. R에는 Kaggle 경쟁을 위한 최고의 알고리즘 중 하나인 Xgboost를 수행하는 패키지도 있습니다.

R은 다른 언어와 통신할 수 있습니다. R에서는 Python, Java, C++를 호출하는 것이 가능합니다. R에서도 빅데이터의 세계에 접근할 수 있습니다. R을 다음과 같은 다른 데이터베이스와 연결할 수 있습니다. Spark 또는 하둡.

마지막으로 R은 발전하여 병렬화 작업을 허용하여 계산 속도를 높였습니다. 실제로 R은 한 번에 하나의 CPU만 사용한다는 이유로 비판을 받았습니다. 병렬 패키지를 사용하면 시스템의 다양한 코어에서 작업을 수행할 수 있습니다.

요약

간단히 말해서, R은 데이터를 탐색하고 조사하는 훌륭한 도구입니다. 클러스터링, 상관 관계, 데이터 축소와 같은 정교한 분석은 R로 수행됩니다. 이것이 가장 중요한 부분이며, 좋은 기능 엔지니어링 및 모델이 없으면 기계 학습 배포는 의미 있는 결과를 제공하지 않습니다.