R プログラミング言語とは何ですか? R の概要と基本

Rソフトウェアとは何ですか?

R Rは、1993年にロス・イハカとロバート・ジェントルマンによって開発されたプログラミング言語およびフリーソフトウェアです。Rには、統計的およびグラフィカルな手法の広範なカタログがあります。機械学習アルゴリズム、線形回帰、時系列、統計的推論などが含まれます。RライブラリのほとんどはRで書かれていますが、重い計算タスクの場合はC、 C++ や Fortran コードが推奨されます。

R は学術機関から委託されているだけでなく、Uber、Google、Airbnb、Facebook などを含む多くの大企業でも R プログラミング言語を使用しています。

R によるデータ分析は一連の手順で行われます。 プログラミング、変換、発見、モデリング、結果の伝達

  • (AFCプログラム): R は明確でアクセスしやすいプログラミング ツールです
  • 最適化の適用: R は、データ サイエンス専用に設計されたライブラリのコレクションで構成されています
  • 分析による現状把握: データを調査し、仮説を洗練して分析します。
  • モデル: R は、データに適切なモデルをキャプチャするための幅広いツールを提供します
  • 意思疎通をします: R Markdown を使用してコード、グラフ、出力をレポートに統合するか、Shiny アプリを構築して世界と共有します

Rは何に使われますか?

  • 統計的推論
  • データ分析
  • 機械学習アルゴリズム

業界別のR

R の使用状況を業界別に分類すると、学者が最初に来ることがわかります。 R は統計を行うための言語です。 ヘルスケア業界では R が第一選択であり、次に政府とコンサルティングが続きます。

業界別のR

Rパッケージ

R の主な用途は、統計、視覚化、機械学習です。 下の図は、スタック オーバーフローで最も多くの質問を受けた R パッケージを示しています。 トップ 10 では、そのほとんどがデータ サイエンティストのワークフロー、つまりデータの準備と結果の伝達に関連しています。

Rパッケージ

R のすべてのライブラリ (約 12k) が CRAN に保存されています。 CRAN は無料のオープンソースです。 多数のライブラリをダウンロードして使用して、実行できます。 機械学習 または時系列分析。

Rパッケージ

Rと通信する

R には、マークダウン ドキュメントまたは光沢のあるアプリを通じて、作業を提示および共有するための複数の方法があります。 すべては Rpub、GitHub、または企業の Web サイトでホストできます。

以下は、ホストされているプレゼンテーションの例です。 ルパブ

Rと通信する

Rstudio はマークダウンを受け入れてドキュメントを作成します。 ドキュメントはさまざまな形式でエクスポートできます。

  • 書類 :
    • HTML
    • PDF/ラテックス
    • Word
  • プレゼンテーション
    • HTML
    • PDFビーマー

Rと通信する

Rstudio には、アプリを簡単に作成するための優れたツールがあります。 以下は世界銀行データを使用したアプリの例です。

Rと通信する

なぜ R を使用するのでしょうか?

データ サイエンスは、企業のビジネス運営方法を形成しています。 間違いなく、人工知能と機械から遠ざかると会社は失敗します。 大きな問題は、どのツール/言語を使用する必要があるかということです。

データ分析を実行するために市場で利用できるツールは数多くあります。 新しい言語を学ぶにはある程度の時間の投資が必要です。 下の図は、言語が提供するビジネス能力と比較した学習曲線を示しています。 負の関係は、フリーランチがないことを意味します。 データから最良の洞察を得るには、時間をかけて適切なツール、つまり R を学習する必要があります。

ビジネスのためのデータ サイエンスの能力評価

グラフの左上には Excel と PowerBI が表示されます。 これら XNUMX つのツールは習得が簡単ですが、特にモデリングの点で優れたビジネス機能を提供するわけではありません。 真ん中に見えるのは、 Python そして SAS。SAS はビジネス用の統計分析を実行するための専用ツールですが、無料ではありません。SAS はクリックして実行するソフトウェアです。 Pythonしかし、これは学習曲線が単調な言語です。 Python は機械学習と AI を導入するための素晴らしいツールですが、通信機能が欠けています。学習曲線は同じで、R は実装とデータ分析の間の適切なトレードオフです。

データの視覚化に関して言えば (データViz)、Tableau について聞いたことがあるでしょう。 Tableau がグラフやチャートからパターンを発見するための優れたツールであることは間違いありません。 さらに、Tableau の学習には時間はかかりません。 データ視覚化に関する大きな問題の XNUMX つは、パターンが見つからなかったり、役に立たないグラフが大量に作成されたりする可能性があることです。 Tableau は、データやビジネス インテリジェンスを迅速に視覚化するための優れたツールです。 統計と意思決定ツールに関しては、R の方が適切です。

Stack Overflow はプログラミング言語の大きなコミュニティです。コーディングの問題がある場合やモデルを理解する必要がある場合は、Stack Overflow が役立ちます。過去 1 年間で、R の質問閲覧率は他の言語と比較して大幅に増加しました。この傾向は、もちろんデータ サイエンスの急成長時代と非常に相関していますが、データ サイエンスにおける R 言語の需要を反映しています。

スタックオーバーフロートラフィック

データサイエンスには、互いに競合する2つのツールがあります。Rと Python おそらくデータサイエンスを定義するプログラミング言語です。

Rを選ぶべきでしょうか?

データサイエンティストは、Rと Python特にデータサイエンスを学び始めたばかりの場合は、両方を学ぶ時間がないかもしれません。 統計モデリングとアルゴリズムの学習 プログラミング言語を学ぶことよりもはるかに重要です。 あ プログラミング言語 は、発見を計算して伝えるツールです。データサイエンスで最も重要なタスクは、データの取り扱い方です。インポート、クリーンアップ、準備、特徴エンジニアリング、特徴選択です。これが主な焦点となるはずです。Rを学ぼうとしているなら、 Python 同時に、統計に関するしっかりした知識がなければ、それはまったく愚かなことです。データ サイエンティストはプログラマーではありません。彼らの仕事は、データを理解し、操作し、最適なアプローチを明らかにすることです。どの言語を学ぶべきか考えているなら、どの言語が自分に最も適しているかを見てみましょう。

データ サイエンスの主な対象者はビジネス プロフェッショナルです。 ビジネスにおいて、大きな意味を持つのはコミュニケーションです。 レポート、Web アプリ、ダッシュボードなど、通信にはさまざまな方法があります。 これらすべてをまとめて実行するツールが必要です。

Rは難しいですか?

数年前、R は習得するのが難しい言語でした。 この言語はわかりにくく、他のプログラミング ツールほど構造化されていませんでした。 この大きな問題を克服するために、Hadley Wickham は tinyverse と呼ばれるパッケージのコレクションを開発しました。 ゲームのルールが最良の方向に変わりました。 データ操作は簡単かつ直感的になります。 グラフの作成はそれほど難しくなくなりました。

機械学習に最適なアルゴリズムは、R で実装できます。Keras や TensorFlow などのパッケージを使用すると、高度な機械学習技術を作成できます。R には、Kaggle コンテストに最適なアルゴリズムの 1 つである Xgboost を実行するパッケージもあります。

Rは他の言語と通信することができます。 Python, Java, C++ Rではビッグデータの世界にもアクセスできます。Rをさまざまなデータベースに接続することができます。 Spark またはHadoop。

最後に、R は進化し、並列処理が可能になり、計算を高速化できるようになりました。実際、R は一度に 1 つの CPU しか使用しないことで批判されていました。並列パッケージを使用すると、マシンの異なるコアでタスクを実行できます。

製品概要

一言で言えば、R はデータを探索および調査するための優れたツールです。クラスタリング、相関、データ削減などの詳細な分析は、R で行われます。これは最も重要な部分であり、優れた機能エンジニアリングとモデルがなければ、機械学習を展開しても意味のある結果は得られません。