初心者向けSASチュートリアル: 概要とプログラミング例

SASとは何ですか?

SAS は、統計データの分析と視覚化に広く使用されているコマンド駆動の統計ソフトウェア スイートです。 SAS フルフォームは統計分析ソフトウェアです。 これにより、従業員の生産性とビジネス利益の向上に役立つ定性的な手法とプロセスを使用できるようになります。 SAS は、ビジネス インテリジェンス、犯罪捜査、予測分析などの高度な分析にも使用されます。 SASは「サーエス」と読みます。

SAS では、データが抽出および分類され、データ パターンの特定と分析に役立ちます。これは、高度な分析、ビジネス インテリジェンス、予測分析、データ管理を実行して、競争と変化するビジネス条件で効果的に運用できるようにするソフトウェア スイートです。さらに、SAS はプラットフォームに依存しないため、Linux または Linux のいずれかのオペレーティング システムで SAS を実行できます。 Windows.

他と比較して BIツール, SAS は、ドラッグ アンド ドロップ インターフェイスの使用とは別に、プログラムによるデータの変換と分析のための広範なサポートを提供します。 これにより、USP であるデータ操作と分析を非常に詳細に制御できます。

なぜ SAS が必要なのでしょうか?

簡単な例で SAS の必要性を理解してみましょう。

過去のデータに基づいて顧客の購買パターンを知りたいと考えている電子商取引会社について考えてみましょう。 同社は一般的な洞察を得るために、複数の顧客の数千件の記録を検討する必要があります。

企業は分析に必要なこれらのデータをすべて持っていない可能性があります。 たとえば、顧客がジャケットを購入しなかった場合、そのジャケットを購入しない要因は何でしょうか? この欠落データにより、分析でエラーが発生する可能性があります。 どうすればこれらの問題を解決できるでしょうか? この種のデータはどのように処理すればよいでしょうか?

このタスクを手動で行う場合、数百人のアナリストと数千の工数が必要になります。 SAS 分析ツールを使用すると、XNUMX 人のアナリストが同じ分析を数時間で実行できます。 SAS ツールを使用すると、不要なデータを削除し、関連情報を最適化できます。 データが欠落している場合でも結果を予測できるようになります。 SAS を使用すると、より適切な意思決定を行うことができます。

代替の SAS ツール

代替の SAS ツール

R: オープンソース ソフトウェアです。 R については十分に文書化されているため、学習するのは簡単です。 強力な統計機能を提供します。

Python も人気のあるオープンソース スクリプト言語です。 Numpy、Scipy、MatPlotLib などのライブラリをサポートしています。 これらのライブラリを使用して、任意の統計演算を実行したり、任意のモデルを構築したりできます。

SAS: これは、商業分析市場で広く使用されている分析ツールです。 豊富な統計機能と優れた GUI を備えています。

このSASプログラミングチュートリアルでは、統計分析システムと、それを問題解決に使用する方法について説明します。

SASの歴史

  • SAS は、1970 年にノースカロライナ大学のジム・グッドナイトとジョン・シャルによって開発されました。
  • 当初は農業研究用に開発されました。
  • Later、とりわけ予測分析、データ管理、BI を含むあらゆるツールに拡張されました。
  • 現在、フォーチュン 98 に入る世界のトップ企業 400 社が SAS データ分析ツールを使用して、 データ分析。

次に、この SAS 言語チュートリアルでは、SAS の機能について学びます。

SASの機能

SAS の主な機能は次のとおりです。

  • 生データ ファイルや外部データベースからのデータに簡単にアクセスできます。 ほぼすべてのデータ形式の読み取りと書き込みが可能です。
  • データ入力、編集検索、書式設定、変換用のツールを使用してデータを管理する
  • 記述、統計、多変量手法、予測、モデリング、線形計画法を使用してデータを分析する
  • 高度な分析は、ビジネス慣行の変更と改善に役立ちます。
  • 完璧なグラフによるレポート作成
  • オペレーションリサーチとプロジェクト管理
  • データの更新と変更
  • 強力なデータ処理言語
  • 優れたデータクレンジング機能
  • 複数のホスト システムと対話する

次に、この初心者向け SAS チュートリアルでは、SAS 製品スイートについて学びます。

SAS 製品スイート

市場では多くの SAS 製品が入手可能です。 フォロwing 最も人気のあるもののリストです。

お名前 Description
ベースSAS Base SAS ソフトウェアはハードウェアの俊敏性を提供し、あらゆる種類のコンピューティング環境に統合します。
SAS/グラフ このツールは、構造化データをグラフに表現するのに役立ちます。
SAS/統計 このツールは、さまざまな種類の回帰、統計分析分散、回帰、心理測定分析を実行するのに役立ちます。
SAS/ETS 予測に使用されます。 時系列分析の実行に役立ちます。
SAS/IML インタラクティブ マトリックス言語は IML として知られています。このツールは、数式を式に変換するのに役立ちます。novaアクティブなプログラム。
SASエビ ビジネス インテリジェンス アプリケーション用のツール
SAS グリッドマネージャー データ管理機能とデータ分析用のプログラミング言語を提供するコアコンポーネントです。
SAS/OR 運用研究用ツール
SAS/QC 品質管理に使用する
SAS/エンタープライズマイナー データマイニング
SAS/PH 臨床試験分析
SAS/AF アプリケーション機能を提供します
エンタープライズガイド GUIベースのコードエディター兼プロジェクトマネージャーです

この SAS チュートリアル ガイドの次は、SAS について学習します。 archi構造。

SAS Archi構造

SAS Archi構造
ArchiSASの構造

SAS archi構造は主に 3 つの部分に分かれています。

  • クライアント層
  • 中間層
  • 後部層

クライアント層

クライアント層は、アプリケーションがマシンにインストールされ、ユーザーが座っている場所です。 これは、ポータルとそのコンテンツを表示するために使用されるコンポーネントで構成されます。 また、標準の HTTP または HTTPS プロトコルを介してポータルと対話するために使用される標準の Web ブラウザも含まれています。 また、SAS Web アプリケーションのファイアウォールをフレンドリーにするのにも役立ちます。

中間層

中間層は、企業情報への集中アクセス ポイントを提供します。 コンテンツへのすべてのアクセスは、この層を操作するコンポーネントによって処理されます。 ビジネス ロジックと表示ロジックを分離すると、中間層のロジックを活用するのに役立ちます。 さらに、アクセス ポイントが集中化されているため、セキュリティ ルールの適用、ポータルの管理、コード変更の管理が容易になります。

中間層は以下をホストしますwing 機能:

SAS Information Delivery Portal Web アプリケーション: これは、JSP、Java サーブレット、JavaBeans、およびその他のクラスとリソースのコレクションです。 これらのコンポーネントは、エンタープライズ ディレクトリに保存されている情報にアクセスして、ユーザー向けにカスタマイズ可能なインターフェイスを作成するのに役立ちます。

サーブレット エンジン: サーブレット エンジンはサーブレット コンテナとも呼ばれます。 SAS Information Delivery Portal Web アプリケーションの管理を担当します。 サーブレット エンジンは実行時環境を提供します。 同時実行性、デプロイメント、ライフサイクル管理などを提供します。

Webサーバー: Web サーバーは、Web サイトをホストするために使用できるサーブレット エンジンのサービスを提供します。 これにはポータルを使用してアクセスする必要があります。

バックティア

バック層は、ビジネス オブジェクトを含む可能性のあるデータ サーバーと計算サーバーが実行される領域です。 エンタープライズ ディレクトリ サーバーです。 エンタープライズ ディレクトリ サーバーは、企業全体に存在するコンテンツに関するメタデータを維持します。

SAS をダウンロードしてインストールする方法

マシンにローカル ダウンロード

ステップ 1) 指定されたリンクから SAS をダウンロードします

このリンクに移動 https://www.sas.com/en_in/software/university-edition.html そして「無料ソフトウェアを入手」をクリックします。

SAS をダウンロードしてインストールする

ステップ 2) オペレーティング システムを選択します

お使いのシステムに応じてオペレーティング システムを選択します。

SAS をダウンロードしてインストールする

ステップ 3) 仮想化ソフトウェアをダウンロードしてインストールする

SAS には次のような仮想化ソフトウェアが必要です VirtualBox インストールする前にインストールする必要があります。 詳細な手順は次のとおりです

SAS をダウンロードしてインストールする

画面に表示される手順に従って SAS をインストールします。持っている VirtualBox ローカルインストールは場合によっては難しい場合があります。 AWS のインストールをお勧めします。

AWSのインストール

SAS を AWS にデプロイできます。 無料枠の対象です。

ステップ1)   https://aws.amazon.com/marketplace/pp/B00WH10IKW。 「購読を続ける」をクリックします

SAS をダウンロードしてインストールする

ステップ2) 次の画面で、利用規約に同意します。

SAS をダウンロードしてインストールする

ステップ3) サブスクリプションが保留中であるため、承認までに最大 10 分かかります。 以下が表示されますwing を選択して、後処理画面に進みます。

SAS をダウンロードしてインストールする

ステップ4) ページを更新すると、購読が確認されます。 「設定に進む」をクリックします

SAS をダウンロードしてインストールする

ステップ5) 設定をデフォルトのままにして、「起動を続行」をクリックします。

SAS をダウンロードしてインストールする

ステップ6) 設定ページを確認します。 キーと値のペアを入力します。 残りの設定はデフォルトである必要があります。 「起動」をクリックします

SAS をダウンロードしてインストールする

ステップ7)   https://aws.amazon.com/marketplace/library/ をクリックし、「インスタンスの表示」をクリックします。

SAS をダウンロードしてインストールする

ステップ8) ポップアップで

  1. インスタンス ID をメモします。 これがあなたのパスワードです
  2. 「ソフトウェアにアクセス」をクリックします

SAS をダウンロードしてインストールする

ステップ9) 手順 8 でクリックした後に表示されるポップアップ

  1. ユーザーの資格情報を入力します。 ID: sasdemo パスワード: ステップ 8 でメモしたインスタンス ID
  2. [サインイン]をクリックします

SAS をダウンロードしてインストールする

ステップ10) ようこそ画面が表示されます。

SAS をダウンロードしてインストールする

トラブルシューティング

接続できない場合は、こちらへ https://console.aws.amazon.com/ec2/v2/home?region=us-east-1#SecurityGroups:sort=groupId すべてのインバウンド/アウトバウンドルール

SASの使い方は?

SAS ソフトウェアを効果的に使用するには、データへのアクセス、データ管理、分析、提示という XNUMX つの手順に従う必要があります。

SASの使い方
SASの使い方

データへのアクセス:

SAS を使用すると、任意の形式でデータにアクセスできます。

システム上のファイルであっても、別のデータベース システムに保存されているデータであっても、どこに保存されているデータにもアクセスできます。かもね oracle ファイル、SAS データベース ファイル、Raw データベース ファイル、または単純な XLS /CSV ファイル。このデータに簡単にアクセスするのに役立ちます。

データの管理:

SAS は優れたデータ管理機能を提供します。 特定の条件に基づいてデータをサブセット/スライスしたり、変数を作成したり、データをクリーンアップして検証したりできます。 同じタスクを実行できるツールは他にもあります。 ただし、SAS を使用すると、このジョブを簡単に実行できます。

SAS には明確に定義されたライブラリとプロセスがあり、プログラミング プロセスを容易にします。 さらに、変数またはサブセット データの作成は XNUMX ステップのプロセスにすぎません。 これにより、com を書く手間が省けますplex たった XNUMX 行のコードでアルゴリズムを構築できます。

分析:

SAS を使用してさまざまな種類の分析を実行できます。

  • 平均計算の頻度をチェックします
  • 回帰と予測
  • 決定木

これらの分析はすべて SAS で簡単に処理できます。 正確な予測に最適なツールです。

プレゼント:

データを正しく視覚化すれば、視聴者は簡単にデータに関連付けることができます。 ツールが適切な方法でデータを表示することが重要です。 それが SAS の役割です。 優れたプレゼンテーション能力を備えています。

次の操作を実行できます。

1. リストレポート

2. 概要レポート

3. グラフレポート

4. レポートの印刷

SAS プログラムの例

SAS プログラムは XNUMX つの必要なステップで構成されています。

  • データステップ
  • 処理ステップ
  • 出力ステップ

データステップ

データステップでは、必要なデータセットを SAS メモリにロードし、データセットの正しい変数を見つけます。 記録も取り込みます。 データ ステップを使用して次のことができます。

  • SAS データセットにデータを入力する
  • 値を計算する
  • データの確認または修正
  • 新しいデータセットを作成する

DATA ステートメントの構文は次のとおりです。

構文

DATA data_set_name;		#Give a name to the dataset
INPUT var1,var2,var3; 		#Declare variables in the dataset.
NEW_VAR;			         #Define new variables.
LABEL;			      	#Give variables a label
DATALINES;		      	#Provide data
RUN;

例:

Following 例では、変数を定義する方法、データ セットに名前を付ける方法、新しい変数を作成する方法、データを入力する方法を示します。 この例では、文字列変数の末尾に $ があり、数値の末尾に $ がないことがわかります。

INPUT ID $ NAME $ SALARY DEPARTMENT $;
comm = SALARY*1.50;
LABEL ID = 'Emp_ID' comm = 'COMMISION';
DATALINES;
1 Tom 5000 IT
2 Harry 6000 Operations
3 Michelle 7000 IT
4 Dick 8000 HR
5 John 9000 Finance 
;
RUN;

注: SAS ステートメントを実行するには、RUN コマンドを指定する必要があります。

PROCステップ

特定の分析または機能を実行して、結果とレポートを作成します。

構文

PROC procedure_name options; #The name of the proc.
RUN;

与えられた例では、 手段 データセット内の数値変数の平均値を出力するプロシージャ。

PROC MEANS;
RUN;

出力ステップ

条件付き出力ステートメントを使用してデータからデータを表示できます。

構文

PROC PRINT DATA = data_set;
OPTIONS;
RUN;

すべての SAS プログラムは、入力データを読み取り、データを分析し、分析の出力を提供するために、上記のすべての手順に従う必要があります。 の RUN 各ステップの最後にあるステートメントにより、そのステップの実行が終了します。

完全な SAS プログラム

以下に、上記の各ステップの完全なコードを示します。

完全な SAS プログラム

出力:

完全な SAS プログラム

完全な SAS プログラム

完全な SAS プログラム

SAS はどこで使用されますか?

以下に、いくつかの重要な SAS アプリケーションを示します。

業種 使用法
薬剤 統計分析、レポート作成
電気通信 ETL、レポート、データマイニング、予測
財務 ETL、レポート、データマイニング、財務調査
予測モデリング DBマーケティング、アクティビティベースの管理
ヘルスケア ETL、レポート、データマイニング

SAS 対R

SAS R
SAS は商用ソフトウェアであるため、金銭的投資が必要です。 R オープンソースソフトウェアです。 したがって、誰でも使用できます。
SAS は習得が最も簡単な分析ツールです。 SQL の知識が限られている人でも、すぐに習得できます。 R では、複雑で長いコードを記述する必要があります。
SAS は大企業に非常に好まれており、技術的に高度でユーザーフレンドリーです。 R は高速開発ソフトウェアです。 ただし、アップグレードし続ける必要があります。
SAS には優れたグラフィカル サポートがありますが、カスタマイズは提供されていません。 R ツールのグラフィカル サポートは非​​常に貧弱です。

SASの利点

  • SAS には、プログラミングの知識がなくても学習できる簡単な構文があります。
  • 大規模なデータベースを簡単に処理できる機能
  • SAS は、簡単にデバッグできる非常に理解しやすい言語です
  • 「ログ」ウィンドウにはエラーが明確に記載されているため、コードを簡単にデバッグできます。
  • SAS は、アルゴリズムの徹底的なテストと分析を支援します
  • SAS は完全にセキュリティで保護されているため、ライセンスがなければオフィスで抽出することはできません
  • プログラミングをしないユーザーにとっても統計計算が簡単になります
  • 大規模なデータベースを効率的に処理します。

SASのデメリット

  • 個人または組織は適切なライセンスがなければすべてのアプリケーションを使用できないため、コストが高くなります
  • SAS はオープンソースではないため、SAS で使用されるアルゴリズムは一般的に使用できません
  • SAS におけるテキストマイニングは非常に面倒で困難なプロセスです。

まとめ

  • SAS ソフトウェアとは、データ分析に使用される統計分析ソフトウェアを意味します。
  • Rと Python は、SAS の代替ツールとして広く使用されている XNUMX つです。
  • SASは1970年にノースカロライナ大学でジム・グッドナイトとジョン・シャルによって開発されました。
  • SAS を使用すると、生データ ファイルやあらゆる種類の外部データベース内のデータにアクセスできます
  • SAS archi構造は主に 1) クライアント層 2) 中間層 3) バック層の XNUMX つの部分に分かれています。
  • SAS ソフトウェアを使用するには、1) データへのアクセス、2) 管理、3) データの分析、4) プレゼンテーションの XNUMX つのステップに従う必要があります。
  • SAS プログラムは、Data Step、Proc Step、Output Step の XNUMX つの基本ステップで構成されます。
  • SAS データ分析ツール 製薬、通信、金融、予測モデリング、ヘルスケアなどの分野で広く使用されています
  • SAS は商用ソフトウェアですが、R はオープンソース ソフトウェアです
  • SAS プログラマー ツールの最大の利点は、プログラミングの知識がなくても学習できる簡単な構文を備えていることです。
  • SAS モデルの欠点の XNUMX つは、SAS モデルがオープンソース ツールではないことです。 したがって、SAS プロシージャで使用されるアルゴリズムは一般的に使用できません。