Hướng dẫn SAS cho người mới bắt đầu: Ví dụ về lập trình và là gì

SAS là gì?

SAS là bộ phần mềm thống kê điều khiển bằng lệnh được sử dụng rộng rãi để phân tích và trực quan hóa dữ liệu thống kê. Dạng đầy đủ của SAS là Phần mềm phân tích thống kê. Nó cho phép bạn sử dụng các kỹ thuật và quy trình định tính giúp bạn nâng cao năng suất của nhân viên và lợi nhuận kinh doanh. SAS cũng được sử dụng cho các phân tích nâng cao như thông tin kinh doanh, điều tra tội phạm và phân tích dự đoán. SAS được phát âm là “SaaS.”

Trong SAS, dữ liệu được trích xuất và phân loại giúp bạn xác định và phân tích các mẫu dữ liệu. Đây là bộ phần mềm cho phép bạn thực hiện phân tích nâng cao, Business Intelligence, Phân tích dự đoán, quản lý dữ liệu để hoạt động hiệu quả trong điều kiện kinh doanh cạnh tranh và thay đổi. Hơn nữa, SAS độc lập với nền tảng, có nghĩa là bạn có thể chạy SAS trên bất kỳ hệ điều hành nào, kể cả Linux hoặc Windows.

So sánh với cái khác Công cụ BI, SAS cung cấp hỗ trợ rộng rãi để chuyển đổi và phân tích dữ liệu theo chương trình, ngoài việc sử dụng giao diện kéo và thả. Điều này cung cấp khả năng kiểm soát rất chi tiết đối với việc thao tác và phân tích dữ liệu, đó là USP của nó.

Tại sao chúng ta cần SAS?

Hãy hiểu sự cần thiết của SAS bằng một ví dụ đơn giản:

Hãy xem xét một công ty thương mại điện tử muốn biết mô hình mua hàng của khách hàng dựa trên dữ liệu lịch sử. Công ty sẽ phải xem xét hàng nghìn hồ sơ của nhiều khách hàng để có được cái nhìn tổng quát.

Công ty có thể không có tất cả những dữ liệu cần thiết để phân tích. Ví dụ: nếu khách hàng không mua Áo khoác thì yếu tố nào khiến họ không mua Áo khoác? Dữ liệu bị thiếu này có thể tạo ra lỗi trong phân tích của bạn. Làm thế nào bạn có thể thoát khỏi những vấn đề này? Làm thế nào chúng ta có thể xử lý loại dữ liệu này?

Nếu thực hiện thủ công, nhiệm vụ này sẽ cần hàng trăm nhà phân tích và hàng nghìn giờ công. Bằng cách sử dụng công cụ phân tích SAS, bạn có thể thực hiện phân tích tương tự chỉ trong vài giờ với một nhà phân tích duy nhất. Công cụ SAS cho phép bạn loại bỏ những dữ liệu không cần thiết và tối ưu hóa những thông tin liên quan. Nó sẽ cho phép bạn dự đoán kết quả ngay cả khi thiếu dữ liệu. SAS cho phép bạn đưa ra quyết định tốt hơn.

Công cụ SAS thay thế

Công cụ SAS thay thế

R: Nó là phần mềm nguồn mở. Thật dễ dàng để học R vì nó được ghi chép đầy đủ. Nó cung cấp khả năng thống kê mạnh mẽ.

Python là một ngôn ngữ kịch bản mã nguồn mở phổ biến khác. Nó hỗ trợ các thư viện như Numpy, Scipy và MatPlotLib. Bạn có thể thực hiện bất kỳ thao tác thống kê nào hoặc bạn có thể xây dựng bất kỳ mô hình nào bằng cách sử dụng các thư viện này.

SÀI GÒN Nó là công cụ phân tích được sử dụng rộng rãi trong thị trường phân tích thương mại. Với rất nhiều chức năng thống kê và GUI tốt.

Trong hướng dẫn lập trình SAS này, chúng ta sẽ thảo luận về Hệ thống phân tích thống kê và cách sử dụng nó để giải quyết các vấn đề của chúng ta.

lịch sử SAS

  • SAS được phát triển bởi Jim Goodnight và John Shall vào năm 1970 tại Đại học NC
  • Ban đầu, nó được phát triển cho nghiên cứu nông nghiệp.
  • Later, nó đã mở rộng sang một loạt công cụ bao gồm Phân tích dự đoán, Quản lý dữ liệu, BI cùng nhiều công cụ khác.
  • Ngày nay, 98 công ty hàng đầu thế giới trong Fortune 400 sử dụng công cụ phân tích dữ liệu SAS để Phân tích dữ liệu.

Tiếp theo trong bài hướng dẫn ngôn ngữ SAS này, chúng ta sẽ tìm hiểu về các tính năng của SAS.

Tính năng của SAS

Các tính năng chính của SAS là:

  • Dễ dàng truy cập các tệp dữ liệu thô và dữ liệu từ cơ sở dữ liệu bên ngoài. Đọc và ghi hầu hết mọi định dạng dữ liệu!
  • Quản lý dữ liệu bằng các công cụ nhập dữ liệu, chỉnh sửa truy xuất, định dạng và chuyển đổi
  • Phân tích dữ liệu bằng cách sử dụng kỹ thuật mô tả, thống kê, đa biến, dự báo, mô hình hóa, lập trình tuyến tính
  • Phân tích nâng cao giúp bạn thực hiện các thay đổi và cải tiến trong thực tiễn kinh doanh.
  • Báo cáo hình thành với đồ thị hoàn hảo
  • Operanghiên cứu và quản lý dự án
  • Cập nhật và sửa đổi dữ liệu
  • Ngôn ngữ xử lý dữ liệu mạnh mẽ
  • Chức năng làm sạch dữ liệu tuyệt vời
  • Tương tác với nhiều hệ thống máy chủ

Tiếp theo trong hướng dẫn SAS dành cho người mới bắt đầu này, chúng ta sẽ tìm hiểu về bộ Sản phẩm SAS.

Bộ sản phẩm SAS

Có nhiều sản phẩm SAS có sẵn trên thị trường. Sau đây là danh sách những sản phẩm phổ biến nhất.

Họ tên Mô tả
SAS cơ sở Phần mềm Base SAS mang đến sự linh hoạt về phần cứng và tích hợp vào mọi loại môi trường điện toán.
SAS/ĐỒ HỌA Công cụ này giúp bạn biểu diễn dữ liệu có cấu trúc thành biểu đồ.
SAS/THỐNG KÊ Công cụ này giúp bạn thực hiện các loại hồi quy khác nhau, phương sai phân tích thống kê, hồi quy và phân tích tâm lý.
SAS/ETS Nó được sử dụng để dự báo. Giúp bạn thực hiện phân tích chuỗi thời gian.
SAS/IML Ngôn ngữ Matric tương tác được gọi là IML. Công cụ này giúp bạn dịch các công thức toán học thành một chương trình sáng tạo.
SAS EBI Một công cụ dành cho ứng dụng Business Intelligence
Trình quản lý lưới SAS Nó là thành phần cốt lõi cung cấp cơ sở quản lý dữ liệu và ngôn ngữ lập trình để phân tích dữ liệu
SAS/HOẶC Công cụ cho Operanghiên cứu về vấn đề
SAS/QC Sử dụng để kiểm soát chất lượng
SAS/Công cụ khai thác doanh nghiệp Khai thác dữ liệu
SAS/PH Phân tích thử nghiệm lâm sàng
SAS/AF Nó cung cấp cơ sở ứng dụng
Hướng dẫn doanh nghiệp Nó là trình soạn thảo mã và quản lý dự án dựa trên GUI

Tiếp theo trong hướng dẫn về SAS này, chúng ta sẽ tìm hiểu về kiến ​​trúc SAS.

SAS Archikiến trúc

SAS Archikiến trúc
Archicấu trúc của SAS

Kiến trúc SAS chủ yếu được chia thành ba phần:

  • Cấp khách hàng
  • Tầng giữa
  • Tầng sau

Cấp khách hàng

Tầng máy khách là nơi ứng dụng được cài đặt trên máy, nơi người dùng đang ngồi. Nó bao gồm các thành phần được sử dụng để xem cổng thông tin và nội dung của nó. Nó cũng bao gồm một trình duyệt web tiêu chuẩn được sử dụng để tương tác với cổng qua giao thức HTTP hoặc HTTPS tiêu chuẩn. Nó cũng giúp bạn làm cho tường lửa ứng dụng web SAS trở nên thân thiện.

Tầng giữa

Tầng giữa cung cấp một điểm truy cập tập trung cho thông tin doanh nghiệp. Tất cả quyền truy cập vào nội dung đều được xử lý bởi các thành phần hoạt động ở cấp này. Việc tách logic nghiệp vụ khỏi logic hiển thị giúp bạn tận dụng logic của tầng giữa. Hơn nữa, các điểm truy cập tập trung giúp việc thực thi các quy tắc bảo mật, quản lý cổng thông tin và quản lý các thay đổi mã trở nên dễ dàng hơn.

Tầng giữa có các chức năng sau:

Ứng dụng web Cổng thông tin cung cấp thông tin SAS: Nó là tập hợp của JSP, Java servlet, JavaĐậu, các lớp và tài nguyên khác. Các thành phần này giúp bạn truy cập thông tin được lưu trữ trong thư mục doanh nghiệp để tạo giao diện có thể tùy chỉnh cho người dùng.

Động cơ Servlet: Động cơ servlet còn được gọi là thùng chứa servlet. Nó chịu trách nhiệm quản lý Ứng dụng web Cổng thông tin cung cấp thông tin SAS. Động cơ servlet cung cấp một môi trường thời gian chạy. Nó cung cấp tính năng đồng thời, triển khai, quản lý vòng đời, v.v.

Máy chủ web: Máy chủ web cung cấp dịch vụ cho công cụ servlet có thể được sử dụng để lưu trữ trang web. Điều này nên được truy cập bằng cách sử dụng cổng thông tin.

Tầng sau

Tầng sau là khu vực nơi các máy chủ dữ liệu và tính toán chạy có thể chứa các đối tượng kinh doanh. Nó là một máy chủ thư mục doanh nghiệp. Máy chủ thư mục doanh nghiệp duy trì siêu dữ liệu về nội dung được đặt trong toàn doanh nghiệp.

Cách tải xuống và cài đặt SAS

Tải xuống cục bộ trong máy của bạn

Bước 1) Tải xuống SAS từ liên kết đã cho

Đi đến liên kết này https://www.sas.com/en_in/software/university-edition.html và nhấp vào Nhận phần mềm miễn phí.

Tải xuống và cài đặt SAS

Bước 2) Chọn Operahệ thống ting

Chọn hệ điều hành theo hệ thống của bạn.

Tải xuống và cài đặt SAS

Bước 3) Tải xuống và cài đặt Phần mềm ảo hóa

SAS yêu cầu Phần mềm ảo hóa như VirtualBox phải được cài đặt trước khi có thể cài đặt nó. Dưới đây là các bước chi tiết

Tải xuống và cài đặt SAS

Thực hiện theo các bước được đề cập trên màn hình để cài đặt SAS. Đang có VirtualBox và cài đặt cục bộ đôi khi có thể khó khăn. Chúng tôi khuyên bạn nên cài đặt AWS-

Cài đặt AWS

Bạn có thể triển khai SAS trong AWS. Nó đủ điều kiện cho bậc miễn phí.

Bước 1) Đến phần https://aws.amazon.com/marketplace/pp/B00WH10IKW. Nhấp vào “Tiếp tục đăng ký”

Tải xuống và cài đặt SAS

Bước 2) Trong màn hình tiếp theo này, Chấp nhận Điều khoản.

Tải xuống và cài đặt SAS

Bước 3) Đăng ký đang chờ xử lý mất tới 10 phút để phê duyệt. Bạn sẽ thấy màn hình sau.

Tải xuống và cài đặt SAS

Bước 4) Làm mới trang và bạn sẽ xác nhận đăng ký. Nhấp vào Tiếp tục cấu hình

Tải xuống và cài đặt SAS

Bước 5) Giữ cài đặt mặc định và nhấp vào Tiếp tục khởi chạy.

Tải xuống và cài đặt SAS

Bước 6) Review trang cấu hình. Nhập một cặp khóa-giá trị. Cài đặt phần còn lại phải là mặc định. Nhấp vào Khởi chạy

Tải xuống và cài đặt SAS

Bước 7) Đến phần https://aws.amazon.com/marketplace/library/ và nhấp vào Xem phiên bản.

Tải xuống và cài đặt SAS

Bước 8) Trong cửa sổ bật lên

  1. Lưu ý id phiên bản. Đây là mật khẩu của bạn
  2. Bấm truy cập phần mềm

Tải xuống và cài đặt SAS

Bước 9) Trong cửa sổ bật lên, xuất hiện sau khi bạn nhấp vào ở bước 8

  1. Nhập thông tin xác thực của người dùng. Id: mật khẩu sasdemo: id phiên bản được ghi ở bước 8
  2. Nhấp vào Đăng nhập

Tải xuống và cài đặt SAS

Bước 10) Bạn sẽ thấy màn hình chào mừng.

Tải xuống và cài đặt SAS

Xử lý sự cố

Nếu bạn không thể kết nối, hãy truy cập https://console.aws.amazon.com/ec2/v2/home?region=us-east-1#SecurityGroups:sort=groupId và các quy tắc vào/ra cho tất cả

Làm thế nào để sử dụng SAS?

Để sử dụng hiệu quả phần mềm SAS bạn cần thực hiện theo 4 bước đó là: Truy cập dữ liệu, Dữ liệu quản lý, Phân tích, Trình bày

Cách sử dụng SAS
Cách sử dụng SAS

Tiếp cận thông tin:

SAS cho phép bạn truy cập dữ liệu ở bất kỳ định dạng nào bạn muốn.

Bạn có thể truy cập dữ liệu được lưu trữ ở bất kỳ đâu, cho dù là trong tệp trên hệ thống của bạn hay dữ liệu được lưu trữ trong hệ thống cơ sở dữ liệu khác. Có thể là tệp oracle, tệp cơ sở dữ liệu SAS, tệp Raw Database hoặc tệp XLS/CSV đơn giản. Nó sẽ giúp bạn truy cập dữ liệu này một cách dễ dàng.

Quản lý dữ liệu:

SAS cung cấp khả năng quản lý dữ liệu tuyệt vời. Bạn có thể tập hợp con/cắt dữ liệu dựa trên các điều kiện nhất định, tạo dữ liệu có thể thay đổi, làm sạch và xác thực. Có những công cụ khác cho phép bạn thực hiện nhiệm vụ tương tự. Tuy nhiên, SAS giúp bạn thực hiện công việc này một cách dễ dàng.

SAS có các thư viện và quy trình được định nghĩa rõ ràng giúp quá trình lập trình trở nên dễ dàng. Hơn nữa, việc tạo dữ liệu biến hoặc dữ liệu tập hợp con chỉ là một quy trình một bước. Điều này giúp bạn không phải viết các thuật toán phức tạp chỉ bằng một dòng mã.

Phân tích:

Bạn có thể thực hiện nhiều loại phân tích khác nhau bằng SAS:

  • Nó kiểm tra Tần suất tính toán trung bình
  • Hồi quy và dự báo
  • Cây quyết định

Tất cả những phân tích này có thể được SAS xử lý dễ dàng. Nó là công cụ tốt nhất để dự báo chính xác.

Hiện tại:

Nếu bạn hình dung dữ liệu một cách chính xác, khán giả sẽ dễ dàng liên tưởng đến nó. Điều cần thiết là công cụ của bạn trình bày dữ liệu theo cách phù hợp. Đó là những gì SAS làm cho bạn. Nó có khả năng trình bày tuyệt vời.

Bạn có thể:

1. Liệt kê các báo cáo

2. Báo cáo tổng hợp

3. Báo cáo đồ thị

4. In báo cáo

Ví dụ về chương trình SAS

Chương trình SAS bao gồm ba bước cần thiết:

  • Bước dữ liệu
  • Bước xử lý
  • Bước đầu ra

Bước DỮ LIỆU

Bước dữ liệu tải tập dữ liệu cần thiết vào bộ nhớ SAS và tìm các biến chính xác của tập dữ liệu. Nó cũng nắm bắt các hồ sơ. Chúng ta có thể sử dụng các bước dữ liệu để:

  • Nhập dữ liệu vào bộ dữ liệu SAS
  • Tính giá trị
  • Kiểm tra hoặc sửa dữ liệu
  • Sản xuất bộ dữ liệu mới

Cú pháp của câu lệnh DATA là:

cú pháp

DATA data_set_name;		#Give a name to the dataset
INPUT var1,var2,var3; 		#Declare variables in the dataset.
NEW_VAR;			         #Define new variables.
LABEL;			      	#Give variables a label
DATALINES;		      	#Provide data
RUN;

Ví dụ:

Ví dụ sau đây cho thấy cách định nghĩa một biến, đặt tên cho tập dữ liệu, tạo biến mới và nhập dữ liệu. Trong ví dụ này, bạn có thể thấy biến chuỗi có $ ở cuối và các giá trị số không có $.

INPUT ID $ NAME $ SALARY DEPARTMENT $;
comm = SALARY*1.50;
LABEL ID = 'Emp_ID' comm = 'COMMISION';
DATALINES;
1 Tom 5000 IT
2 Harry 6000 Operations
3 Michelle 7000 IT
4 Dick 8000 HR
5 John 9000 Finance 
;
RUN;

Lưu ý: Để thực thi Câu lệnh SAS cần chỉ định lệnh RUN.

Bước PROC

Nó thực hiện phân tích hoặc chức năng cụ thể để tạo ra kết quả và báo cáo.

cú pháp

PROC procedure_name options; #The name of the proc.
RUN;

Ví dụ

Ví dụ đã cho sử dụng CÓ NGHĨA thủ tục in giá trị trung bình của các biến số trong tập dữ liệu.

PROC MEANS;
RUN;

Bước ĐẦU RA

Bạn có thể hiển thị dữ liệu từ dữ liệu bằng các câu lệnh đầu ra có điều kiện.

cú pháp

PROC PRINT DATA = data_set;
OPTIONS;
RUN;

Mọi chương trình SAS phải tuân theo tất cả các bước nêu trên để đọc dữ liệu đầu vào, phân tích dữ liệu và đưa ra kết quả phân tích. Các CHẠY câu lệnh ở cuối mỗi bước sẽ kết thúc việc thực hiện bước đó.

Chương trình SAS hoàn chỉnh

Dưới đây là mã hoàn chỉnh cho từng bước trên.

Chương trình SAS hoàn chỉnh

Đầu ra:

Chương trình SAS hoàn chỉnh

Chương trình SAS hoàn chỉnh

Chương trình SAS hoàn chỉnh

SAS được sử dụng ở đâu?

Dưới đây là một số ứng dụng SAS quan trọng:

Công nghiệp Sử dụng
Dược phẩm Phân tích thống kê, báo cáo
Viễn thông ETL, Báo cáo, Khai thác dữ liệu, Dự báo
Tài chính ETL, Báo cáo, Khai thác dữ liệu, Nghiên cứu tài chính
Mô hình dự đoán DBMarketing, Quản lý dựa trên hoạt động
Chăm sóc sức khỏe ETL, báo cáo, Khai thác dữ liệu

SAS Vs. R

SAS R
SAS là phần mềm thương mại nên cần có sự đầu tư tài chính. R là phần mềm mã nguồn mở. Do đó bất cứ ai cũng có thể sử dụng nó.
SAS là một công cụ phân tích dễ học nhất. Ngay cả những người có kiến ​​thức hạn chế về SQL cũng có thể học nó một cách nhanh chóng. R yêu cầu bạn viết mã phức tạp và dài dòng.
SAS là sự lựa chọn rất được các công ty lớn ưa chuộng và khá tiên tiến về mặt kỹ thuật cũng như thân thiện với người dùng. R là phần mềm phát triển nhanh; tuy nhiên, bạn cần tiếp tục nâng cấp nó.
SAS có hỗ trợ đồ họa tốt nhưng không cung cấp bất kỳ tùy chỉnh nào. Hỗ trợ đồ họa của công cụ R rất kém.

Ưu điểm của SAS

  • SAS có một cú pháp dễ dàng có thể học được mà không cần bất kỳ loại kiến ​​thức lập trình nào
  • Khả năng xử lý cơ sở dữ liệu lớn một cách dễ dàng
  • SAS là một ngôn ngữ rất dễ hiểu và có thể dễ dàng gỡ lỗi
  • Cửa sổ “log” của nó ghi rõ lỗi giúp bạn debug code dễ dàng
  • SAS giúp bạn kiểm tra và phân tích kỹ thuật toán
  • SAS được bảo mật hoàn toàn nên bạn không thể giải nén mà không có giấy phép trong văn phòng
  • Làm cho việc tính toán thống kê trở nên dễ dàng hơn đối với người dùng không lập trình
  • Xử lý cơ sở dữ liệu kích thước lớn một cách hiệu quả.

Nhược điểm của SAS

  • Chi phí cao vì cá nhân hoặc tổ chức không thể sử dụng tất cả các ứng dụng nếu không có giấy phép phù hợp
  • SAS không phải là nguồn mở nên các thuật toán được sử dụng trong SAS không có sẵn để sử dụng phổ biến
  • Khai thác văn bản là một quá trình rất rắc rối và khó khăn trong SAS.

Tổng kết

  • Phần mềm SAS nghĩa là Phần mềm phân tích thống kê được sử dụng để phân tích dữ liệu
  • R và Python là hai công cụ thay thế được sử dụng rộng rãi của SAS.
  • SAS được phát triển bởi Jim Goodnight và John Shall vào năm 1970 tại Đại học NC
  • SAS cho phép bạn truy cập các tệp và dữ liệu thô trong cơ sở dữ liệu bên ngoài dưới bất kỳ hình thức nào
  • Kiến trúc SAS chủ yếu được chia thành ba phần 1) Tầng máy khách 2) Tầng trung gian 3) Tầng sau
  • Để sử dụng phần mềm SAS, bạn cần làm theo bốn bước đó là: 1)Truy cập dữ liệu, 2)Quản lý 3) Phân tích dữ liệu, 4) Trình bày
  • Chương trình SAS bao gồm ba bước cơ bản: Bước dữ liệu, Bước Proc và Bước đầu ra
  • SAS công cụ phân tích dữ liệu được sử dụng rộng rãi trong các lĩnh vực như Dược phẩm, Viễn thông, Tài chính, Mô hình dự đoán và Chăm sóc sức khỏe
  • SAS là phần mềm thương mại trong khi R là phần mềm nguồn mở
  • Lợi ích lớn nhất của công cụ lập trình SAS là nó có cú pháp dễ học, có thể học được mà không cần bất kỳ loại kiến ​​thức lập trình nào.
  • Một trong những hạn chế của mô hình SAS là nó không phải là một công cụ nguồn mở. Vì vậy, các thuật toán được sử dụng trong quy trình SAS không có sẵn để sử dụng phổ biến.