初心者向けSASチュートリアル: 概要とプログラミング例
SASとは何ですか?
SAS は、統計データの分析と視覚化に広く使用されているコマンド駆動の統計ソフトウェア スイートです。 SAS フルフォームは統計分析ソフトウェアです。 これにより、従業員の生産性とビジネス利益の向上に役立つ定性的な手法とプロセスを使用できるようになります。 SAS は、ビジネス インテリジェンス、犯罪捜査、予測分析などの高度な分析にも使用されます。 SASは「サーエス」と読みます。
SASでは、データが抽出され分類され、データパターンの識別と分析に役立ちます。これは、競争が激しく変化するビジネス環境で効果的に運用するために、高度な分析、ビジネスインテリジェンス、予測分析、データ管理を実行できるソフトウェアスイートです。さらに、SASはプラットフォームに依存しないため、LinuxまたはWindowsのどのオペレーティングシステムでもSASを実行できます。 Windows.
他と比較して BIツール, SAS は、ドラッグ アンド ドロップ インターフェイスの使用とは別に、プログラムによるデータの変換と分析のための広範なサポートを提供します。 これにより、USP であるデータ操作と分析を非常に詳細に制御できます。
なぜ SAS が必要なのでしょうか?
簡単な例で SAS の必要性を理解してみましょう。
過去のデータに基づいて顧客の購買パターンを知りたいと考えている電子商取引会社について考えてみましょう。 同社は一般的な洞察を得るために、複数の顧客の数千件の記録を検討する必要があります。
企業は分析に必要なこれらのデータをすべて持っていない可能性があります。 たとえば、顧客がジャケットを購入しなかった場合、そのジャケットを購入しない要因は何でしょうか? この欠落データにより、分析でエラーが発生する可能性があります。 どうすればこれらの問題を解決できるでしょうか? この種のデータはどのように処理すればよいでしょうか?
この作業を手動で行う場合、何百人ものアナリストと何千時間もの工数が必要になります。SAS 分析ツールを使用すると、1 人のアナリストで数時間で同じ分析を行うことができます。SAS ツールを使用すると、不要なデータを排除し、関連情報を最適化できます。データが欠落していても結果を予測できます。SAS を使用すると、より適切な意思決定を行うことができます。
代替の SAS ツール
R: これはオープンソース ソフトウェアです。R はドキュメントが充実しているため、簡単に習得できます。強力な統計機能を備えています。
Python は、もう 1 つの人気のオープン ソース スクリプト言語です。Numpy、Scipy、MatPlotLib などのライブラリをサポートしています。これらのライブラリを使用して、任意の統計操作を実行したり、任意のモデルを構築したりできます。
SAS: これは、商業分析市場で広く使用されている分析ツールです。 豊富な統計機能と優れた GUI を備えています。
このSASプログラミングチュートリアルでは、統計分析システムと、それを問題解決に使用する方法について説明します。
SASの歴史
- SAS は、1970 年にノースカロライナ大学のジム・グッドナイトとジョン・シャルによって開発されました。
- 当初は農業研究用に開発されました。
- Later、とりわけ予測分析、データ管理、BI を含むあらゆるツールに拡張されました。
- 現在、フォーチュン 98 に入る世界のトップ企業 400 社が SAS データ分析ツールを使用して、 データ分析。
次に、この SAS 言語チュートリアルでは、SAS の機能について学びます。
SASの機能
SAS の主な機能は次のとおりです。
- 生データ ファイルや外部データベースからのデータに簡単にアクセスできます。 ほぼすべてのデータ形式の読み取りと書き込みが可能です。
- データ入力、編集検索、書式設定、変換用のツールを使用してデータを管理する
- 記述、統計、多変量手法、予測、モデリング、線形計画法を使用してデータを分析する
- 高度な分析は、ビジネス慣行の変更と改善に役立ちます。
- 完璧なグラフによるレポート作成
- Opera研究とプロジェクトの管理
- データの更新と変更
- 強力なデータ処理言語
- 優れたデータクレンジング機能
- 複数のホスト システムと対話する
次に、この初心者向け SAS チュートリアルでは、SAS 製品スイートについて学びます。
SAS 製品スイート
市場には多くの SAS 製品が存在します。以下は、より人気のある製品の一覧です。
お名前 | 説明 |
---|---|
ベースSAS | Base SAS ソフトウェアはハードウェアの俊敏性を提供し、あらゆる種類のコンピューティング環境に統合します。 |
SAS/グラフ | このツールは、構造化データをグラフに表現するのに役立ちます。 |
SAS/統計 | このツールは、さまざまな種類の回帰、統計分析分散、回帰、心理測定分析を実行するのに役立ちます。 |
SAS/ETS | 予測に使用されます。 時系列分析の実行に役立ちます。 |
SAS/IML | インタラクティブ マトリックス言語は IML として知られています。このツールは、数式を革新的なプログラムに変換するのに役立ちます。 |
SASエビ | ビジネス インテリジェンス アプリケーション用のツール |
SAS グリッドマネージャー | データ管理機能とデータ分析用のプログラミング言語を提供するコアコンポーネントです。 |
SAS/OR | 用のツール Opera研究 |
SAS/QC | 品質管理に使用する |
SAS/エンタープライズマイナー | データマイニング |
SAS/PH | 臨床試験分析 |
SAS/AF | アプリケーション機能を提供します |
エンタープライズガイド | GUIベースのコードエディター兼プロジェクトマネージャーです |
次に、この SAS チュートリアル ガイドでは、SAS アーキテクチャについて学習します。
SAS Archi構造
SAS アーキテクチャは主に 3 つの部分に分かれています。
- クライアント層
- 中間層
- 後部層
クライアント層
クライアント層は、アプリケーションがマシンにインストールされ、ユーザーが座っている場所です。 これは、ポータルとそのコンテンツを表示するために使用されるコンポーネントで構成されます。 また、標準の HTTP または HTTPS プロトコルを介してポータルと対話するために使用される標準の Web ブラウザも含まれています。 また、SAS Web アプリケーションのファイアウォールをフレンドリーにするのにも役立ちます。
中間層
中間層は、企業情報への集中アクセス ポイントを提供します。コンテンツへのすべてのアクセスは、この層で動作するコンポーネントによって処理されます。ビジネス ロジックと表示ロジックを分離することで、中間層のロジックを活用できます。さらに、集中アクセス ポイントにより、セキュリティ ルールの適用、ポータルの管理、コード変更の管理が容易になります。
中間層は次の機能をホストします。
SAS Information Delivery Portal Web アプリケーション: これはJSPのコレクションです。 Java サーブレット、 JavaBeans、およびその他のクラスとリソース。これらのコンポーネントは、エンタープライズ ディレクトリに保存されている情報にアクセスして、ユーザー向けにカスタマイズ可能なインターフェイスを作成するのに役立ちます。
サーブレット エンジン: サーブレット エンジンはサーブレット コンテナとも呼ばれます。 SAS Information Delivery Portal Web アプリケーションの管理を担当します。 サーブレット エンジンは実行時環境を提供します。 同時実行性、デプロイメント、ライフサイクル管理などを提供します。
Webサーバー: Web サーバーは、Web サイトをホストするために使用できるサーブレット エンジンのサービスを提供します。 これにはポータルを使用してアクセスする必要があります。
バックティア
バック層は、ビジネス オブジェクトを含む可能性のあるデータ サーバーと計算サーバーが実行される領域です。 エンタープライズ ディレクトリ サーバーです。 エンタープライズ ディレクトリ サーバーは、企業全体に存在するコンテンツに関するメタデータを維持します。
SAS をダウンロードしてインストールする方法
マシンにローカル ダウンロード
ステップ 1) 指定されたリンクから SAS をダウンロードします
このリンクに移動 https://www.sas.com/en_in/software/university-edition.html そして「無料ソフトウェアを入手」をクリックします。
ステップ 2) を選択します Operaティングシステム
ご使用のシステムに応じてオペレーティング システムを選択してください。
ステップ 3) 仮想化ソフトウェアをダウンロードしてインストールする
SAS には次のような仮想化ソフトウェアが必要です VirtualBox インストールする前にインストールする必要があります。 詳細な手順は次のとおりです
画面に表示される手順に従って SAS をインストールします。持っている VirtualBox ローカルインストールは場合によっては難しい場合があります。 AWS のインストールをお勧めします。
AWSのインストール
SAS を AWS にデプロイできます。 無料枠の対象です。
ステップ1) に行く https://aws.amazon.com/marketplace/pp/B00WH10IKW。 「購読を続ける」をクリックします
ステップ2) 次の画面で、利用規約に同意します。
ステップ3) サブスクリプションは保留中です。承認には最大 10 分かかります。次の画面が表示されます。
ステップ4) ページを更新すると、購読が確認されます。 「設定に進む」をクリックします
ステップ5) 設定をデフォルトのままにして、「起動を続行」をクリックします。
ステップ6) Rev設定ページを表示します。キーと値のペアを入力します。残りの設定はデフォルトのままです。[起動]をクリックします。
ステップ7) に行く https://aws.amazon.com/marketplace/library/ をクリックし、「インスタンスの表示」をクリックします。
ステップ8) ポップアップで
- インスタンス ID をメモします。 これがあなたのパスワードです
- 「ソフトウェアにアクセス」をクリックします
ステップ9) 手順 8 でクリックした後に表示されるポップアップ
- ユーザーの資格情報を入力します。 ID: sasdemo パスワード: ステップ 8 でメモしたインスタンス ID
- [サインイン]をクリックします
ステップ10) ようこそ画面が表示されます。
トラブルシューティング
接続できない場合は、こちらへ https://console.aws.amazon.com/ec2/v2/home?region=us-east-1#SecurityGroups:sort=groupId すべてのインバウンド/アウトバウンドルール
SASの使い方は?
SAS ソフトウェアを効果的に使用するには、データへのアクセス、データ管理、分析、提示という XNUMX つの手順に従う必要があります。
データへのアクセス:
SAS を使用すると、任意の形式でデータにアクセスできます。
システム上のファイルに保存されているデータでも、別のデータベース システムに保存されているデータでも、どこに保存されているデータにもアクセスできます。Oracle ファイル、SAS データベース ファイル、Raw データベース ファイル、または単純な XLS/CSV ファイルでもかまいません。このデータに簡単にアクセスできるようになります。
データの管理:
SAS は優れたデータ管理機能を提供します。 特定の条件に基づいてデータをサブセット/スライスしたり、変数を作成したり、データをクリーンアップして検証したりできます。 同じタスクを実行できるツールは他にもあります。 ただし、SAS を使用すると、このジョブを簡単に実行できます。
SAS には明確に定義されたライブラリとプロセスがあり、プログラミング プロセスが簡単になります。さらに、変数またはサブセット データの作成は 1 ステップのプロセスです。これにより、1 行のコードで複雑なアルゴリズムを記述する必要がなくなります。
分析:
SAS を使用してさまざまな種類の分析を実行できます。
- 平均計算の頻度をチェックします
- 回帰と予測
- 決定木
これらの分析はすべて SAS で簡単に処理できます。 正確な予測に最適なツールです。
プレゼント:
データを正しく視覚化すれば、視聴者は簡単にデータに関連付けることができます。 ツールが適切な方法でデータを表示することが重要です。 それが SAS の役割です。 優れたプレゼンテーション能力を備えています。
次の操作を実行できます。
1. リストレポート
2. 概要レポート
3. グラフレポート
4. レポートの印刷
SAS プログラムの例
SAS プログラムは XNUMX つの必要なステップで構成されています。
- データステップ
- 処理ステップ
- 出力ステップ
データステップ
データステップでは、必要なデータセットを SAS メモリにロードし、データセットの正しい変数を見つけます。 記録も取り込みます。 データ ステップを使用して次のことができます。
- SAS データセットにデータを入力する
- 値を計算する
- データの確認または修正
- 新しいデータセットを作成する
DATA ステートメントの構文は次のとおりです。
構文
DATA data_set_name; #Give a name to the dataset INPUT var1,var2,var3; #Declare variables in the dataset. NEW_VAR; #Define new variables. LABEL; #Give variables a label DATALINES; #Provide data RUN;
例:
次の例は、変数の定義、データセットの命名、新しい変数の作成、およびデータの入力方法を示しています。この例では、文字列変数の末尾に $ が付いており、数値には $ が付いていないことがわかります。
INPUT ID $ NAME $ SALARY DEPARTMENT $; comm = SALARY*1.50; LABEL ID = 'Emp_ID' comm = 'COMMISION'; DATALINES; 1 Tom 5000 IT 2 Harry 6000 Operations 3 Michelle 7000 IT 4 Dick 8000 HR 5 John 9000 Finance ; RUN;
注: SAS ステートメントを実行するには、RUN コマンドを指定する必要があります。
PROCステップ
特定の分析または機能を実行して、結果とレポートを作成します。
構文
PROC procedure_name options; #The name of the proc. RUN;
例
与えられた例では、 手段 データセット内の数値変数の平均値を出力するプロシージャ。
PROC MEANS; RUN;
出力ステップ
条件付き出力ステートメントを使用してデータからデータを表示できます。
構文
PROC PRINT DATA = data_set; OPTIONS; RUN;
すべての SAS プログラムは、入力データを読み取り、データを分析し、分析の出力を提供するために、上記のすべての手順に従う必要があります。 の RUN 各ステップの最後にあるステートメントにより、そのステップの実行が終了します。
完全な SAS プログラム
以下に、上記の各ステップの完全なコードを示します。
出力:
SAS はどこで使用されますか?
以下に、いくつかの重要な SAS アプリケーションを示します。
業種 | 使用法 |
---|---|
薬剤 | 統計分析、レポート作成 |
電気通信 | ETL、レポート、データマイニング、予測 |
財務情報 | ETL、レポート、データマイニング、財務調査 |
予測モデリング | DBマーケティング、アクティビティベースの管理 |
看護師 | ETL、レポート、データマイニング |
SAS 対R
SAS | R |
---|---|
SAS は商用ソフトウェアであるため、金銭的投資が必要です。 | R オープンソースソフトウェアです。 したがって、誰でも使用できます。 |
SAS は習得が最も簡単な分析ツールです。 SQL の知識が限られている人でも、すぐに習得できます。 | R では、複雑で長いコードを記述する必要があります。 |
SAS は大企業に非常に好まれており、技術的に高度でユーザーフレンドリーです。 | R は高速開発ソフトウェアです。 ただし、アップグレードし続ける必要があります。 |
SAS には優れたグラフィカル サポートがありますが、カスタマイズは提供されていません。 | R ツールのグラフィカル サポートは非常に貧弱です。 |
SASの利点
- SAS には、プログラミングの知識がなくても学習できる簡単な構文があります。
- 大規模なデータベースを簡単に処理できる機能
- SAS は、簡単にデバッグできる非常に理解しやすい言語です
- 「ログ」ウィンドウにはエラーが明確に記載されているため、コードを簡単にデバッグできます。
- SAS は、アルゴリズムの徹底的なテストと分析を支援します
- SAS は完全にセキュリティで保護されているため、ライセンスがなければオフィスで抽出することはできません
- プログラミングをしないユーザーにとっても統計計算が簡単になります
- 大規模なデータベースを効率的に処理します。
SASのデメリット
- 個人または組織は適切なライセンスがなければすべてのアプリケーションを使用できないため、コストが高くなります
- SASはオープンソースではないため、SASで使用されるアルゴリズムは一般に利用できません。
- SAS におけるテキストマイニングは非常に面倒で困難なプロセスです。
概要
- SAS ソフトウェアとは、データ分析に使用される統計分析ソフトウェアを意味します。
- Rと Python は、SAS の代替ツールとして広く使用されている XNUMX つです。
- SASは1970年にノースカロライナ大学でジム・グッドナイトとジョン・シャルによって開発されました。
- SAS を使用すると、生データ ファイルやあらゆる種類の外部データベース内のデータにアクセスできます
- SASアーキテクチャは主に1つの部分に分かれています2)クライアント層3)中間層XNUMX)バック層
- SAS ソフトウェアを使用するには、1) データへのアクセス、2) 管理、3) データの分析、4) プレゼンテーションの XNUMX つのステップに従う必要があります。
- SAS プログラムは、Data Step、Proc Step、Output Step の XNUMX つの基本ステップで構成されます。
- SAS データ分析ツール 製薬、通信、金融、予測モデリング、ヘルスケアなどの分野で広く使用されています
- SAS は商用ソフトウェアですが、R はオープンソース ソフトウェアです
- SAS プログラマー ツールの最大の利点は、プログラミングの知識がなくても学習できる簡単な構文を備えていることです。
- SAS モデルの欠点の 1 つは、オープン ソース ツールではないことです。そのため、SAS プロシージャで使用されるアルゴリズムは、一般には利用できません。