Samouczek SAS dla początkujących: Co to jest i przykład programowania

Co to jest SAS?

SAS to sterowany poleceniami pakiet oprogramowania statystycznego, szeroko stosowany do analizy i wizualizacji danych statystycznych. Pełna forma SAS to oprogramowanie do analizy statystycznej. Pozwala na wykorzystanie technik i procesów jakościowych, które pomagają zwiększyć produktywność pracowników i zyski firmy. SAS jest również używany do zaawansowanych analiz, takich jak analityka biznesowa, dochodzenia w sprawie przestępstw i analiza predykcyjna. SAS wymawia się jako „SaaS”.

W SAS dane są wyodrębniane i kategoryzowane, co pomaga identyfikować i analizować wzorce danych. Jest to pakiet oprogramowania, który umożliwia wykonywanie zaawansowanych analiz, Business Intelligence, Predictive Analysis, zarządzanie danymi, aby działać skutecznie w konkurencyjnych i zmieniających się warunkach biznesowych. Ponadto SAS jest niezależny od platformy, co oznacza, że ​​możesz uruchomić SAS na dowolnym systemie operacyjnym, Linux lub Windows.

W porównaniu do innych Narzędzia BI, SAS zapewnia szerokie wsparcie w zakresie programowego przekształcania i analizowania danych, oprócz korzystania z interfejsu „przeciągnij i upuść”. Zapewnia to bardzo szczegółową kontrolę nad manipulacją i analizami danych, co jest jego USP.

Dlaczego potrzebujemy SAS-a?

Rozumiemy potrzebę SAS-a na prostym przykładzie:

Weźmy pod uwagę firmę z branży e-commerce, która chce poznać wzorce zakupowe swoich klientów na podstawie danych historycznych. Aby uzyskać uogólniony wgląd, firma będzie musiała wziąć pod uwagę tysiące rekordów wielu klientów.

Firma może nie posiadać wszystkich tych danych wymaganych do analizy. Na przykład, jeśli klient nie kupił kurtki, jakie czynniki powstrzymały go przed zakupem kurtki? Te brakujące dane mogą powodować błędy w analizie. Jak możemy pozbyć się tych problemów? Jak możemy postępować z tego typu danymi?

Jeśli zostanie wykonane ręcznie, zadanie to będzie wymagało setek analityków i tysięcy roboczogodzin. Korzystając z narzędzia analitycznego SAS, możesz wykonać tę samą analizę w ciągu kilku godzin z jednym analitykiem. Narzędzie SAS pozwala wyeliminować niepotrzebne dane i zoptymalizować istotne informacje. Umożliwi Ci to przewidzenie wyniku nawet przy brakujących danych. SAS umożliwia podejmowanie lepszych decyzji.

Alternatywne narzędzia SAS-owe

Alternatywne narzędzia SAS-owe

R: Jest to oprogramowanie typu open-source. Łatwo nauczyć się R, ponieważ jest dobrze udokumentowane. Oferuje silne możliwości statystyczne.

Python jest kolejnym popularnym językiem skryptowym typu open-source. Obsługuje biblioteki takie jak Numpy, Scipy i MatPlotLib. Możesz wykonać dowolną operację statystyczną lub zbudować dowolny model za pomocą tych bibliotek.

SAS: Jest to powszechnie stosowane narzędzie analityczne na rynku analiz komercyjnych. Z mnóstwem funkcji statystycznych i dobrym graficznym interfejsem użytkownika.

W tym samouczku programowania SAS omówimy statystyczne systemy analityczne i sposoby ich wykorzystania do rozwiązywania naszych problemów.

Historia SAS-u

  • SAS został opracowany przez Jima Goodnighta i Johna Shalla w 1970 roku na Uniwersytecie NC
  • Początkowo został opracowany na potrzeby badań rolniczych.
  • Laterrozszerzyła się o gamę narzędzi obejmującą między innymi analizę predykcyjną, zarządzanie danymi i BI.
  • Dziś 98 największych firm na świecie znajdujących się na liście Fortune 400 korzysta z narzędzia do analizy danych SAS Analiza danych.

W dalszej części tego samouczka języka SAS dowiemy się o funkcjach SAS-a.

Funkcje SAS-a

Kluczowe cechy SAS-a to:

  • Łatwy dostęp do plików surowych danych i danych z zewnętrznej bazy danych. Odczytuj i zapisuj prawie każdy format danych!
  • Zarządzaj danymi za pomocą narzędzi do wprowadzania danych, edycji, wyszukiwania, formatowania i konwersji
  • Analizuj dane za pomocą technik opisowych, statystycznych, wielowymiarowych, prognozowania, modelowania, programowania liniowego
  • Zaawansowana analityka pomaga wprowadzać zmiany i udoskonalenia w praktykach biznesowych.
  • Tworzenie raportów z doskonałymi wykresami
  • Operabadania i zarządzanie projektami
  • Aktualizacja i modyfikacja danych
  • Potężny język obsługi danych
  • Doskonałe funkcje czyszczenia danych
  • Interakcja z wieloma systemami hostów

W dalszej części tego samouczka SAS dla początkujących dowiemy się o pakiecie produktów SAS.

Pakiet produktów SAS

Na rynku dostępnych jest wiele produktów SAS. Poniżej znajduje się lista najpopularniejszych.

Imię Opisy Konstrukcyjne
Podstawowy SAS Oprogramowanie Base SAS oferuje elastyczność sprzętową i integruje się ze wszystkimi rodzajami środowisk komputerowych.
SAS/GRAF To narzędzie pomaga przedstawić uporządkowane dane na wykresach.
SAS/STAT To narzędzie pomaga w wykonywaniu różnych typów regresji, analizy statystycznej wariancji, regresji i analizy psychometrycznej.
SAS/ETS Służy do prognozowania. Pomaga w przeprowadzeniu analizy szeregów czasowych.
SAS/IML Interaktywny język Matric jest znany jako IML. To narzędzie pomaga Ci tłumaczyć wzory matematyczne na innowacyjny program.
SAS EBI Narzędzie do zastosowań Business Intelligence
Menedżer sieci SAS Jest to podstawowy komponent oferujący funkcję zarządzania danymi i język programowania do analizy danych
SAS/OR Narzędzie do Operabadania
SAS/kontrola jakości Użyj do kontroli jakości
SAS/Enterprise Miner Data mining
SAS/PH Analiza badań klinicznych
SAS/AF Oferuje możliwości aplikacji
Przewodnik dla przedsiębiorstw Jest to edytor kodu i menedżer projektów oparty na graficznym interfejsie użytkownika

W dalszej części tego przewodnika po systemie SAS zapoznamy się z architekturą systemu SAS.

SAS Architektura

SAS Architektura
Archistrukturę SAS

Architektura SAS składa się głównie z trzech części:

  • Poziom klienta
  • Środkowy poziom
  • Poziom tylny

Poziom klienta

Warstwa klienta to miejsce, w którym aplikacja jest instalowana na komputerze, na którym siedzi użytkownik. Składa się z komponentów służących do przeglądania portalu i jego zawartości. Zawiera także standardową przeglądarkę internetową, która służy do interakcji z portalem za pośrednictwem standardowego protokołu HTTP lub HTTPS. Pomaga także w dostosowaniu zapory sieciowej aplikacji SAS do przyjaznych warunków.

Środkowy poziom

Poziom środkowy oferuje scentralizowany punkt dostępu do informacji przedsiębiorstwa. Cały dostęp do treści jest przetwarzany przez komponenty działające na tym poziomie. Oddzielenie logiki biznesowej od logiki wyświetlania pomaga wykorzystać logikę poziomu środkowego. Ponadto scentralizowane punkty dostępu ułatwiają egzekwowanie reguł bezpieczeństwa, administrowanie portalem i zarządzanie zmianami kodu.

Środkowa warstwa zawiera następujące funkcje:

Aplikacja internetowa portalu dostarczania informacji SAS: Jest to zbiór JSP, Java serwlety, JavaFasola oraz inne klasy i zasoby. Komponenty te pomagają uzyskać dostęp do informacji przechowywanych w katalogu korporacyjnym w celu stworzenia konfigurowalnego interfejsu dla użytkownika.

Silnik serwletów: Silnik serwletów nazywany jest także kontenerem serwletów. Odpowiada za zarządzanie aplikacją internetową SAS Information Delivery Portal. Silnik serwletów oferuje środowisko wykonawcze. Zapewnia współbieżność, wdrażanie, zarządzanie cyklem życia itp.

Serwer internetowy: Serwer WWW oferuje usługę silnika serwletów, który może być używany do hostowania strony internetowej. Dostęp do niego należy uzyskać za pośrednictwem portalu.

Poziom tylny

Warstwa zaplecza to obszar, w którym działają serwery danych i obliczeń, który może zawierać obiekty biznesowe. Jest to korporacyjny serwer katalogowy. Korporacyjny serwer katalogowy przechowuje metadane dotyczące treści znajdujących się w całym przedsiębiorstwie.

Jak pobrać i zainstalować SAS-a

Lokalne pobieranie na Twoją maszynę

Krok 1) Pobierz SAS z podanego linku

Przejdź do tego linku https://www.sas.com/en_in/software/university-edition.html i kliknij Pobierz bezpłatne oprogramowanie.

Pobierz i zainstaluj SAS-a

Krok 2) Wybierz swój Operasystemu

Wybierz system operacyjny odpowiedni dla Twojego komputera.

Pobierz i zainstaluj SAS-a

Krok 3) Pobierz i zainstaluj oprogramowanie do wirtualizacji

SAS wymaga oprogramowania do wirtualizacji, takiego jak VirtualBox zostać zainstalowany, zanim będzie można go zainstalować. Oto szczegółowe kroki

Pobierz i zainstaluj SAS-a

Wykonaj kroki wymienione na ekranie, aby zainstalować SAS. Mający VirtualBox a instalacja lokalna może czasami być trudna. Zalecamy instalację AWS-

Instalacja AWS-a

Możesz wdrożyć SAS w AWS. Kwalifikuje się do poziomu bezpłatnego.

Krok 1) Iść do https://aws.amazon.com/marketplace/pp/B00WH10IKW. Kliknij „Kontynuuj subskrypcję”

Pobierz i zainstaluj SAS-a

Krok 2) Na następnym ekranie Zaakceptuj Warunki.

Pobierz i zainstaluj SAS-a

Krok 3) Subskrypcja jest w toku, zatwierdzenie zajmuje do 10 minut. Zobaczysz następujący ekran.

Pobierz i zainstaluj SAS-a

Krok 4) Odśwież stronę, a subskrypcja zostanie potwierdzona. Kliknij Kontynuuj konfigurację

Pobierz i zainstaluj SAS-a

Krok 5) Zachowaj ustawienia domyślne i kliknij Kontynuuj uruchamianie.

Pobierz i zainstaluj SAS-a

Krok 6) Revzobacz stronę konfiguracyjną. Wpisz parę klucz-wartość. Ustawienia odpoczynku powinny być domyślne. Kliknij Uruchom

Pobierz i zainstaluj SAS-a

Krok 7) Iść do https://aws.amazon.com/marketplace/library/ i kliknij opcję Wyświetl wystąpienia.

Pobierz i zainstaluj SAS-a

Krok 8) W wyskakującym okienku

  1. Zanotuj identyfikator instancji. To jest Twoje hasło
  2. Kliknij opcję Dostęp do oprogramowania

Pobierz i zainstaluj SAS-a

Krok 9) W wyskakującym okienku, które pojawi się po kliknięciu w kroku 8

  1. Wprowadź poświadczenia użytkownika. Identyfikator: hasło sasdemo: identyfikator instancji zanotowany w kroku 8
  2. Kliknij Zaloguj się

Pobierz i zainstaluj SAS-a

Krok 10) Zobaczysz ekran powitalny.

Pobierz i zainstaluj SAS-a

Rozwiązywanie problemów

Jeśli nie możesz się połączyć, przejdź do https://console.aws.amazon.com/ec2/v2/home?region=us-east-1#SecurityGroups:sort=groupId oraz zasady dotyczące ruchu przychodzącego/wychodzącego dla wszystkich

Jak korzystać z SAS-a?

Aby efektywnie korzystać z oprogramowania SAS, należy wykonać cztery kroki: Dostęp do danych, Dane zarządcze, Analiza, Prezentacja

Jak korzystać z SAS-a
Jak korzystać z SAS-a

Dane dostępowe:

SAS umożliwia dostęp do danych w dowolnym formacie.

Możesz uzyskać dostęp do danych przechowywanych w dowolnym miejscu, czy to w pliku w Twoim systemie, czy w danych przechowywanych w innym systemie baz danych. Może to być plik Oracle, plik bazy danych SAS, plik Raw Database lub prosty plik XLS/CSV. Pomoże Ci to uzyskać dostęp do tych danych z łatwością.

Zarządzaj danymi:

SAS oferuje doskonałe możliwości zarządzania danymi. Możesz dzielić/dzielić dane na podstawie określonych warunków, tworzyć zmienne, czyścić i weryfikować dane. Istnieją inne narzędzia, które pozwalają wykonać to samo zadanie. Jednak SAS pomaga z łatwością wykonać to zadanie.

SAS ma dobrze zdefiniowane biblioteki i procesy, co ułatwia proces programowania. Ponadto tworzenie zmiennych lub podzbiorów danych to tylko proces jednoetapowy. Dzięki temu nie musisz pisać złożonych algorytmów za pomocą tylko jednej linijki kodu.

Analizować:

Za pomocą SAS-a możesz wykonywać różne rodzaje analiz:

  • Sprawdza częstotliwość obliczania średniej
  • Regresja i prognozowanie
  • Drzewo decyzyjne

Wszystkie te analizy mogą z łatwością obsłużyć SAS. Jest to najlepsze narzędzie do dokładnego prognozowania.

Obecny:

Jeśli poprawnie zwizualizujesz dane, odbiorcy z łatwością się z nimi utożsamią. Istotne jest, aby narzędzie prezentowało dane w odpowiedni sposób. To właśnie robi dla Ciebie SAS. Ma doskonałe możliwości prezentacji.

Można:

1. Lista raportów

2. Raporty zbiorcze

3. Raporty graficzne

4. Drukuj raporty

Przykład programu SAS

Program SAS składa się z trzech niezbędnych kroków:

  • Krok danych
  • Krok proc
  • Krok wyjściowy

DANE Krok

Krok danych ładuje potrzebny zestaw danych do pamięci SAS-a i znajduje prawidłowe zmienne w zestawie danych. Zajmuje się także rejestracją. Możemy użyć kroków danych, aby:

  • Wprowadź dane do zbiorów danych SAS
  • Oblicz wartości
  • Sprawdź lub popraw dane
  • Twórz nowe zestawy danych

Składnia instrukcji DATA jest następująca:

Składnia

DATA data_set_name;		#Give a name to the dataset
INPUT var1,var2,var3; 		#Declare variables in the dataset.
NEW_VAR;			         #Define new variables.
LABEL;			      	#Give variables a label
DATALINES;		      	#Provide data
RUN;

Przykład:

Poniższy przykład pokazuje, jak zdefiniować zmienną, nazwać zestaw danych, utworzyć nowe zmienne i wprowadzić dane. W tym przykładzie widać, że zmienna typu string ma na końcu znak $, a wartości numeryczne są bez niego.

INPUT ID $ NAME $ SALARY DEPARTMENT $;
comm = SALARY*1.50;
LABEL ID = 'Emp_ID' comm = 'COMMISION';
DATALINES;
1 Tom 5000 IT
2 Harry 6000 Operations
3 Michelle 7000 IT
4 Dick 8000 HR
5 John 9000 Finance 
;
RUN;

Uwaga: Aby wykonać instrukcję SAS-ową, należy podać polecenie RUN.

Krok PROC

Wykonuje określone analizy lub funkcje w celu tworzenia wyników i raportów.

Składnia

PROC procedure_name options; #The name of the proc.
RUN;

Przykład

W podanym przykładzie zastosowano ZNACZY procedura drukowania średnich wartości zmiennych numerycznych w zestawie danych.

PROC MEANS;
RUN;

Krok WYJŚCIOWY

Można wyświetlić dane z danych za pomocą warunkowych instrukcji wyjściowych.

Składnia

PROC PRINT DATA = data_set;
OPTIONS;
RUN;

Każdy program SAS-owy musi wykonać wszystkie powyższe kroki, aby odczytać dane wejściowe, przeanalizować je i podać wynik analizy. The BIEGAĆ instrukcja na końcu każdego kroku kończy wykonanie tego kroku.

Kompletny program SAS

Poniżej podano pełny kod każdego z powyższych kroków.

Kompletny program SAS

Wyjście:

Kompletny program SAS

Kompletny program SAS

Kompletny program SAS

Gdzie używany jest SAS?

Poniżej podano kilka ważnych aplikacji SAS:

Przemysłowe Stosowanie
Przemysł farmaceutyczny Analiza statystyczna, raportowanie
Telekomunikacja ETL, raportowanie, eksploracja danych, prognozowanie
Financials ETL, raportowanie, eksploracja danych, badania finansowe
Modelowanie predykcyjne DBMarketing, zarządzanie oparte na działaniach
Zdrowie ETL, raportowanie, eksploracja danych

SAS kontra. R

SAS R
SAS jest oprogramowaniem komercyjnym, dlatego wymaga inwestycji finansowych. R jest oprogramowaniem typu open source. Dlatego każdy może z niego skorzystać.
SAS to narzędzie analityczne, którego najłatwiej się nauczyć. Nawet osoby z ograniczoną znajomością języka SQL mogą się go szybko nauczyć. R wymaga pisania skomplikowanych i długich kodów.
SAS jest bardzo preferowanym wyborem przez duże firmy, jest dość zaawansowany technicznie i przyjazny dla użytkownika. R to szybko rozwijające się oprogramowanie; jednak musisz go stale aktualizować.
SAS ma dobre wsparcie graficzne, ale nie oferuje możliwości dostosowywania. Graficzne wsparcie narzędzia R jest bardzo słabe.

Zalety SAS-a

  • SAS ma łatwą składnię, której można się nauczyć bez jakiejkolwiek wiedzy programistycznej
  • Możliwość łatwej obsługi dużej bazy danych
  • SAS jest bardzo zrozumiałym językiem, który można łatwo debugować
  • Okno „dziennika” wyraźnie wskazuje błąd, co ułatwia debugowanie kodu
  • SAS pomaga dokładnie przetestować i przeanalizować algorytm
  • SAS jest całkowicie zabezpieczony, więc nie można go wyodrębnić bez licencji w biurze
  • Ułatwia obliczenia statystyczne użytkownikom nieprogramującym
  • Skutecznie obsługuje duże bazy danych.

Wady SAS-a

  • Koszt jest wysoki, ponieważ osoba fizyczna lub organizacja nie może używać wszystkich aplikacji bez odpowiedniej licencji
  • SAS nie jest oprogramowaniem typu open source, więc algorytmy używane w SAS nie są dostępne do powszechnego użytku
  • Eksploracja tekstu to bardzo kłopotliwy i trudny proces w SAS-ie.

Podsumowanie

  • Oprogramowanie SAS oznacza oprogramowanie do analizy statystycznej używane do analizy danych
  • R i Python to dwa szeroko stosowane alternatywne narzędzia SAS-owe.
  • SAS został opracowany przez Jima Goodnighta i Johna Shalla w 1970 roku na Uniwersytecie NC
  • SAS umożliwia dostęp do plików surowych danych i danych w dowolnej zewnętrznej bazie danych
  • Architektura SAS składa się głównie z trzech części: 1) warstwa klienta, 2) warstwa pośrednia, 3) warstwa tylna.
  • Aby korzystać z oprogramowania SAS, należy wykonać cztery kroki, którymi są: 1) Dostęp do danych, 2) Zarządzanie 3) Analiza danych, 4) Prezentacja
  • Program SAS składa się z trzech podstawowych kroków: kroku danych, kroku procedury i kroku wyjścia
  • SAS narzędzie do analizy danych jest szeroko stosowany w sektorach takich jak farmaceutyka, telekomunikacja, finanse, modelowanie predykcyjne i opieka zdrowotna
  • SAS jest oprogramowaniem komercyjnym, natomiast R jest oprogramowaniem typu open source
  • Największą zaletą narzędzia programistycznego SAS jest to, że ma łatwą składnię, której można się nauczyć bez jakiejkolwiek wiedzy programistycznej.
  • Jedną z wad modelu SAS jest to, że nie jest to narzędzie typu open source. Zatem algorytmy używane w procedurach SAS nie są dostępne do powszechnego użytku.