SAS 初学者教程:什么是&编程示例
什么是 SAS?
SAS 是一款命令驱动的统计软件套件,广泛用于统计数据分析和可视化。SAS 的全称是“统计分析软件”。它允许您使用定性技术和流程来帮助您提高员工生产力和企业利润。SAS 还用于高级分析,如商业智能、犯罪调查和预测分析。SAS 的发音为“SaaS”。
在 SAS 中,数据被提取和分类,这有助于您识别和分析数据模式。它是一套软件套件,允许您执行高级分析、商业智能、预测分析、数据管理,以便在竞争激烈且不断变化的业务条件下有效运营。此外,SAS 独立于平台,这意味着您可以在任何操作系统上运行 SAS,无论是 Linux 还是 Windows.
相比其他 BI工具SAS 除了使用拖放界面外,还广泛支持以编程方式转换和分析数据。这为数据操作和分析提供了非常精细的控制,这是其 USP。
为什么我们需要 SAS?
让我们通过一个简单的例子来了解 SAS 的必要性:
假设一家电子商务公司想要根据历史数据了解其客户的购买模式。该公司必须考虑多个客户的数千条记录,才能获得概括性的见解。
公司可能没有分析所需的所有数据。例如,如果客户没有购买夹克,那么是什么因素阻止了他们购买夹克?这些缺失的数据可能会导致您的分析出现错误。我们如何摆脱这些问题?我们如何处理这种类型的数据?
如果手动完成,这项任务将需要数百名分析师和数千个工时。通过使用 SAS 分析工具,您只需一名分析师在几个小时内即可完成相同的分析。SAS 工具允许您消除不必要的数据并优化相关信息。它使您能够预测结果,即使缺少数据。SAS 使您能够做出更好的决策。
替代 SAS 工具
R: 它是开源软件。R 易于学习,因为它有详尽的文档。它提供强大的统计功能。
Python 是另一种流行的开源脚本语言。它支持 Numpy、Scipy 和 MatPlotLib 等库。您可以执行任何统计操作,也可以使用这些库构建任何模型。
SAS: 它是商业分析市场中广泛使用的分析工具。具有大量的统计功能和良好的 GUI。
在本 SAS 编程教程中,我们将讨论统计分析系统以及如何使用它来解决我们的问题。
SAS 历史
- SAS 由 Jim Goodnight 和 John Shall 于 1970 年在北卡罗莱纳大学开发
- 最初,它是为农业研究而开发的。
- Later,它扩展到一系列工具,包括预测分析、数据管理、BI 等。
- 如今,财富 98 强中的 400 家世界顶级公司都使用 SAS 数据分析工具来 数据分析。
接下来在本 SAS 语言教程中,我们将了解 SAS 的功能。
SAS 功能
SAS 的主要特点是:
- 轻松访问外部数据库的原始数据文件和数据。读取和写入几乎任何数据格式!
- 使用数据输入、编辑检索、格式化和转换工具管理数据
- 使用描述性、统计学、多元技术、预测、建模、线性规划分析数据
- 高级分析可帮助您改变和改进业务实践。
- 以完美的图表形成报告
- Opera研究与项目管理
- 数据更新与修改
- 强大的数据处理语言
- 出色的数据清理功能
- 与多个主机系统交互
接下来,在本 SAS 初学者教程中,我们将了解 SAS 产品套件。
SAS 产品套件
市场上有很多 SAS 产品。以下是一些比较受欢迎的产品列表。
姓名 | 描述 |
---|---|
基地特种部队 | 基础 SAS 软件提供硬件灵活性并可集成到各种计算环境中。 |
SAS/图形 | 此工具可帮助您将结构化数据表示成图形。 |
SAS/STAT | 此工具可帮助您执行不同类型的回归、统计分析方差、回归和心理测量分析。 |
SAS/ETS | 它用于预测。帮助您执行时间序列分析。 |
模内贴标 | 交互式 Matric 语言称为 IML。此工具可帮助您将数学公式转化为创新程序。 |
SAS 息税折旧摊销前利润 | 商业智能应用工具 |
SAS 网格管理器 | 它是一个核心组件,提供数据管理功能和数据分析编程语言。 |
SAS/OR | 的工具 Opera化研究 |
SAS/质量控制 | 用于质量控制 |
SAS/企业矿工 | 数据挖掘 |
SAS/PH | 临床试验分析 |
特别空勤团/空军 | 它提供应用程序设施 |
企业指南 | 它是一个基于 GUI 的代码编辑器和项目管理器 |
接下来在本 SAS 教程指南中,我们将了解 SAS 架构。
SAS Archi质地
SAS架构主要分为三部分:
- 客户端层
- 中间层
- 后层
客户端层
客户端层是应用程序安装在用户所在的机器上的地方。它由用于查看门户及其内容的组件组成。它还包括一个标准 Web 浏览器,用于通过标准 HTTP 或 HTTPS 协议与门户进行交互。它还可以帮助您使 SAS Web 应用程序防火墙友好。
中层
中间层为企业信息提供了集中访问点。所有内容访问均由该层上的组件处理。业务逻辑与显示逻辑的分离有助于您充分利用中间层的逻辑。此外,集中访问点使实施安全规则、管理门户和管理代码更改变得更加容易。
中间层承担以下功能:
SAS 信息传递门户 Web 应用程序: 它是 JSP 的集合, Java servlet, JavaBean 以及其他类和资源。这些组件可帮助您访问存储在企业目录中的信息,从而为用户创建可自定义的界面。
Servlet 引擎: servlet 引擎也称为 servlet 容器。它负责管理 SAS 信息交付门户 Web 应用程序。servlet 引擎提供运行时环境。它提供并发性、部署、生命周期管理等。
网络服务器: Web 服务器为 servlet 引擎提供服务,可用于托管网站。应使用门户访问该服务。
后层
后层是数据和计算服务器运行的区域,可能包含业务对象。它是一个企业目录服务器。企业目录服务器维护整个企业中内容的元数据。
如何下载和安装 SAS
在您的机器上进行本地下载
步骤 1)从给定链接下载 SAS
转到此链接 https://www.sas.com/en_in/software/university-edition.html 然后点击获取免费软件。
步骤 2)选择您的 Opera系统
根据您的系统选择操作系统。
步骤 3)下载并安装虚拟化软件
SAS 需要虚拟化软件,例如 VirtualBox 需要先安装才能安装。以下是详细步骤
按照屏幕上提到的步骤安装 SAS。 VirtualBox 本地安装有时可能会比较棘手。我们建议使用 AWS 安装-
AWS 安装
您可以在 AWS 中部署 SAS。它符合免费套餐的条件。
步骤1) 在MyCAD中点击 软件更新 https://aws.amazon.com/marketplace/pp/B00WH10IKW. 点击“继续订阅”
步骤2) 在下一个屏幕中,接受条款。
步骤3) 订阅正在等待批准,最多需要 10 分钟。您将看到以下屏幕。
步骤4) 刷新页面,您将确认订阅。单击继续配置
步骤5) 保留默认设置并单击继续启动。
步骤6) Rev查看配置页面。输入键值对。其余设置应为默认设置。单击启动
步骤7) 在MyCAD中点击 软件更新 https://aws.amazon.com/marketplace/library/ 并点击查看实例。
步骤8) 在弹出窗口中
- 记下实例 ID。这是您的密码
- 点击访问软件
步骤9) 在第 8 步点击后出现的弹出窗口中
- 输入用户凭证。ID:sasdemo 密码:步骤 8 中记下的实例 ID
- 点击登录
步骤10) 您将看到欢迎屏幕。
故障排除
如果无法连接,请前往 https://console.aws.amazon.com/ec2/v2/home?region=us-east-1#SecurityGroups:sort=groupId 以及所有入站/出站规则
如何使用 SAS?
要有效使用 SAS 软件,您需要遵循四个步骤:访问数据、管理数据、分析、呈现
访问数据:
SAS 允许您以任何您想要的格式访问数据。
您可以访问存储在任何地方的数据,无论是系统上的文件还是存储在其他数据库系统中的数据。它可以是 Oracle 文件、SAS 数据库文件、原始数据库文件或简单的 XLS/CSV 文件。它将帮助您轻松访问这些数据。
管理数据:
SAS 提供出色的数据管理功能。您可以根据特定条件对数据进行子集/切片、创建变量、清理和验证数据。还有其他工具可让您执行相同的任务。但是,SAS 可帮助您轻松完成这项工作。
SAS 具有定义明确的库和流程,使编程过程变得简单。此外,创建变量或子集数据只需一步即可。这样,您就无需通过一行代码编写复杂的算法。
分析:
您可以使用 SAS 进行各种分析:
- 检查平均频率计算
- 回归与预测
- 决策树
所有这些分析都可以通过SAS轻松处理。它是进行准确预测的最佳工具。
现在:
如果您正确地可视化数据,观众很容易就能理解。您的工具必须以合适的方式呈现数据。这就是 SAS 为您所做的。它具有出色的演示功能。
您可以:
1. 列出报告
2. 总结报告
3. 图表报告
4.打印报告
SAS 程序示例
SAS 程序包含三个必要步骤:
- 数据步骤
- 进程步骤
- 输出步骤
数据步
数据步骤将所需的数据集加载到 SAS 内存中并找到数据集的正确变量。它还捕获记录。我们可以使用数据步骤来:
- 将数据输入 SAS 数据集
- 计算值
- 检查或更正数据
- 生成新的数据集
DATA 语句的语法是:
句法
DATA data_set_name; #Give a name to the dataset INPUT var1,var2,var3; #Declare variables in the dataset. NEW_VAR; #Define new variables. LABEL; #Give variables a label DATALINES; #Provide data RUN;
计费示例:
以下示例展示了如何定义变量、命名数据集、创建新变量以及输入数据。在此示例中,您可以看到字符串变量末尾有一个 $,而数值则没有 $。
INPUT ID $ NAME $ SALARY DEPARTMENT $; comm = SALARY*1.50; LABEL ID = 'Emp_ID' comm = 'COMMISION'; DATALINES; 1 Tom 5000 IT 2 Harry 6000 Operations 3 Michelle 7000 IT 4 Dick 8000 HR 5 John 9000 Finance ; RUN;
注意:要执行 SAS 语句需要指定 RUN 命令。
PROC步骤
它执行特定的分析或功能来产生结果和报告。
句法
PROC procedure_name options; #The name of the proc. RUN;
例如:
给定的示例使用 方法 打印数据集中数值变量的平均值的程序。
PROC MEANS; RUN;
OUTPUT 步骤
您可以使用条件输出语句显示来自数据的数据。
句法
PROC PRINT DATA = data_set; OPTIONS; RUN;
每个 SAS 程序都必须遵循上述所有步骤来读取输入数据、分析数据并给出分析输出。 跑 每个步骤末尾的语句完成该步骤的执行。
完整的 SAS 程序
下面给出了上述每个步骤的完整代码。
输出:
SAS 在哪里使用?
下面给出了一些重要的 SAS 应用程序:
产业应用 | 用法 |
---|---|
制药 | 统计分析、报告 |
电信 | ETL、报告、数据挖掘、预测 |
财务 | ETL、报告、数据挖掘、金融研究 |
预测建模 | DBMarketing,基于活动的管理 |
医疗保健 | ETL、报告、数据挖掘 |
SAS 与 R
SAS | R |
---|---|
SAS 是商业软件,因此需要财务投资。 | R 是开源软件。因此任何人都可以使用它。 |
SAS 是最容易学习的分析工具。即使是对 SQL 了解有限的人也可以快速学会它。 | R 要求你编写复杂而冗长的代码。 |
SAS 是大型公司首选的软件,技术相当先进且用户友好。 | R 是一种发展迅速的软件;但是,您需要不断升级它。 |
SAS 具有良好的图形支持,但不提供任何定制。 | R 工具的图形支持非常差。 |
SAS 的优势
- SAS 语法简单,无需任何编程知识即可学习
- 能够轻松处理大型数据库
- SAS 是一种非常易于理解的语言,可以轻松调试
- 它的“日志”窗口清楚地显示了错误,可帮助您轻松调试代码
- SAS 帮助您彻底测试和分析算法
- SAS 是完全安全的,因此您无法在办公室内未经许可提取数据
- 使非编程用户更容易进行统计计算
- 有效地处理大型数据库。
SAS 的缺点
- 成本很高,因为个人或组织如果没有适当的许可证就无法使用所有的应用程序
- SAS 不是开源的,因此 SAS 中使用的算法不可用于一般用途
- 文本挖掘在SAS中是一个非常麻烦且困难的过程。
总结
- SAS 软件是统计分析软件,用于数据分析
- 和 Python 是两种广泛使用的SAS替代工具。
- SAS 由 Jim Goodnight 和 John Shall 于 1970 年在北卡罗莱纳大学开发
- SAS 允许您访问任何类型的外部数据库中的原始数据文件和数据
- SAS 架构主要分为三部分:1)客户端层 2)中间层 3)后端层
- 要使用 SAS 软件,您需要遵循四个步骤:1)访问数据,2)管理 3)分析数据,4)演示
- SAS 程序由三个基本步骤组成:数据步骤、处理步骤和输出步骤
- SAS 数据分析工具 广泛应用于制药、电信、金融、预测模型和医疗保健等领域
- SAS 是商业软件,而 R 是开源软件
- SAS 程序员工具最大的好处是它具有简单的语法,无需任何类型的编程知识即可学习。
- SAS 模型的缺点之一是它不是开源工具。因此,SAS 程序中使用的算法不可供通用使用。