SAS-Tutorial für Anfänger: Was ist und Programmierbeispiel

Was ist SAS?

SAS ist eine befehlsgesteuerte Statistiksoftware-Suite, die häufig für die Analyse und Visualisierung statistischer Daten verwendet wird. Die vollständige SAS-Form ist eine statistische Analysesoftware. Es ermöglicht Ihnen den Einsatz qualitativer Techniken und Prozesse, die Ihnen helfen, die Produktivität Ihrer Mitarbeiter und den Unternehmensgewinn zu steigern. SAS wird auch für erweiterte Analysen wie Business Intelligence, Kriminalitätsermittlung und prädiktive Analysen verwendet. SAS wird als „SaaS“ ausgesprochen.

In SAS werden Daten extrahiert und kategorisiert, was Ihnen hilft, Datenmuster zu identifizieren und zu analysieren. Es handelt sich um eine Software-Suite, mit der Sie erweiterte Analysen, Business Intelligence, Predictive Analysis und Datenmanagement durchführen können, um unter wettbewerbsorientierten und sich ändernden Geschäftsbedingungen effektiv zu arbeiten. Darüber hinaus ist SAS plattformunabhängig, was bedeutet, dass Sie SAS auf jedem Betriebssystem ausführen können, entweder Linux oder Windows.

Im Vergleich zu anderen BI-ToolsSAS bietet neben der Verwendung der Drag-and-Drop-Schnittstelle umfassende Unterstützung für die programmgesteuerte Transformation und Analyse von Daten. Dies ermöglicht eine sehr detaillierte Kontrolle über die Datenmanipulation und -analyse, was ihr Alleinstellungsmerkmal ist.

Warum brauchen wir SAS?

Lassen Sie uns die Notwendigkeit von SAS anhand eines einfachen Beispiels verstehen:

Stellen Sie sich ein E-Commerce-Unternehmen vor, das das Kaufverhalten seiner Kunden anhand historischer Daten kennen möchte. Das Unternehmen muss Tausende von Datensätzen mehrerer Kunden berücksichtigen, um allgemeine Erkenntnisse zu gewinnen.

Möglicherweise verfügt das Unternehmen nicht über alle für die Analyse erforderlichen Daten. Wenn ein Kunde beispielsweise keine Jacke gekauft hat, welche Faktoren haben ihn dann davon abgehalten, die Jacke zu kaufen? Diese fehlenden Daten könnten zu Fehlern in Ihrer Analyse führen. Wie können wir diese Probleme beseitigen? Wie können wir mit dieser Art von Daten umgehen?

Bei manueller Ausführung erfordert diese Aufgabe Hunderte von Analysten und Tausende von Arbeitsstunden. Mit dem Analysetool SAS können Sie dieselbe Analyse in wenigen Stunden mit einem einzigen Analysten durchführen. Mit dem SAS-Tool können Sie unnötige Daten eliminieren und die relevanten Informationen optimieren. Es ermöglicht Ihnen, ein Ergebnis auch bei fehlenden Daten vorherzusagen. SAS ermöglicht es Ihnen, bessere Entscheidungen zu treffen.

Alternative SAS-Tools

Alternative SAS-Tools

R: Es handelt sich um Open-Source-Software. R ist leicht zu erlernen, da es gut dokumentiert ist. Es bietet starke statistische Fähigkeiten.

Python ist eine weitere beliebte Open-Source-Skriptsprache. Sie unterstützt Bibliotheken wie Numpy, Scipy und MatPlotLib. Sie können mit diesen Bibliotheken beliebige statistische Operationen durchführen oder beliebige Modelle erstellen.

SAS: Es ist das am weitesten verbreitete Analysetool auf dem kommerziellen Analysemarkt. Mit zahlreichen Statistikfunktionen und guter GUI.

In diesem SAS-Programmier-Tutorial besprechen wir statistische Analysesysteme und wie sie zur Lösung unserer Probleme eingesetzt werden können.

SAS-Geschichte

  • SAS wurde 1970 von Jim Goodnight und John Shall an der NC University entwickelt
  • Ursprünglich wurde es für die Agrarforschung entwickelt.
  • Later, wurde es um eine Reihe von Tools erweitert, die unter anderem Predictive Analytics, Datenmanagement und BI umfassen.
  • Heute nutzen 98 der weltweit führenden Fortune-400-Unternehmen das Datenanalysetool von SAS Datenanalyse.

Als nächstes lernen wir in diesem SAS-Sprach-Tutorial die Funktionen von SAS kennen.

SAS-Funktionen

Hauptmerkmale von SAS sind:

  • Greifen Sie einfach auf Rohdatendateien und Daten aus einer externen Datenbank zu. Lesen und schreiben Sie nahezu jedes Datenformat!
  • Verwalten Sie Daten mit Tools zur Dateneingabe, Bearbeitung, zum Abrufen, Formatierung und Konvertierung
  • Analysieren Sie Daten mithilfe deskriptiver, statistischer, multivariater Techniken, Prognosen, Modellierung und linearer Programmierung
  • Erweiterte Analysen helfen Ihnen, Änderungen und Verbesserungen in den Geschäftspraktiken vorzunehmen.
  • Berichtserstellung mit perfekten Grafiken
  • Operationsforschung und Projektmanagement
  • Datenaktualisierung und -änderung
  • Leistungsstarke Datenverarbeitungssprache
  • Hervorragende Datenbereinigungsfunktionen
  • Interagieren Sie mit mehreren Hostsystemen

Als nächstes lernen wir in diesem SAS-Tutorial für Anfänger die SAS-Produktsuite kennen.

SAS-Produktsuite

Auf dem Markt sind zahlreiche SAS-Produkte erhältlich. Nachfolgend finden Sie eine Liste der beliebtesten.

Name Beschreibung
Basis-SAS Die Basis-SAS-Software bietet Hardware-Agilität und lässt sich in alle Arten von Computerumgebungen integrieren.
SAS/GRAPH Dieses Tool hilft Ihnen, strukturierte Daten in Diagrammen darzustellen.
SAS/STAT Dieses Tool hilft Ihnen bei der Durchführung verschiedener Arten von Regression, statistischer Varianzanalyse, Regression und psychometrischer Analyse.
SAS/ETS Es dient der Prognose. Hilft Ihnen bei der Durchführung der Zeitreihenanalyse.
SAS/IML Die interaktive Matric-Sprache wird als IML bezeichnet. Dieses Tool hilft Ihnen, mathematische Formeln in ein innovatives Programm zu übersetzen.
SAS EBI Ein Tool für Business-Intelligence-Anwendungen
SAS Grid Manager Es handelt sich um eine Kernkomponente, die Datenverwaltungsfunktionen und eine Programmiersprache für die Datenanalyse bietet
SAS/OR Werkzeug für Operationsforschung
SAS/QC Zur Qualitätskontrolle verwenden
SAS/Enterprise Miner Data Mining
SAS/PH Analyse klinischer Studien
SAS/AF Es bietet Anwendungsmöglichkeiten
Unternehmensführer Es ist ein GUI-basierter Code-Editor und Projektmanager

Als Nächstes lernen wir in diesem SAS-Tutorial-Handbuch die SAS-Architektur kennen.

SAS Architektur

SAS Architektur
ArchiStruktur von SAS

Die SAS-Architektur besteht im Wesentlichen aus drei Teilen:

  • Client-Stufe
  • Middle Tier
  • Hintere Ebene

Client-Ebene

Auf der Client-Ebene wird die Anwendung auf einem Computer installiert, auf dem sich der Benutzer befindet. Es besteht aus den Komponenten, die zur Anzeige des Portals und seiner Inhalte verwendet werden. Es enthält außerdem einen Standard-Webbrowser, der für die Interaktion mit dem Portal über das Standard-HTTP- oder HTTPS-Protokoll verwendet wird. Es hilft Ihnen auch dabei, die SAS-Webanwendungs-Firewall freundlich zu gestalten.

Mittlere Stufe

Die mittlere Ebene bietet einen zentralen Zugriffspunkt für Unternehmensinformationen. Alle Zugriffe auf Inhalte werden von Komponenten dieser Ebene verarbeitet. Die Trennung der Geschäftslogik von der Anzeigelogik hilft Ihnen, die Logik der mittleren Ebene zu nutzen. Darüber hinaus erleichtern zentrale Zugriffspunkte die Durchsetzung von Sicherheitsregeln, die Verwaltung des Portals und die Verwaltung von Codeänderungen.

Die mittlere Ebene beherbergt die folgenden Funktionen:

SAS Information Delivery Portal-Webanwendung: Es ist die Sammlung von JSP, Java Servlets, JavaBeans und andere Klassen und Ressourcen. Diese Komponenten helfen Ihnen beim Zugriff auf im Unternehmensverzeichnis gespeicherte Informationen, um eine anpassbare Benutzeroberfläche zu erstellen.

Servlet-Engine: Die Servlet-Engine wird auch Servlet-Container genannt. Es ist für die Verwaltung der SAS Information Delivery Portal-Webanwendung verantwortlich. Die Servlet-Engine bietet eine Laufzeitumgebung. Es bietet Parallelität, Bereitstellung, Lebenszyklusverwaltung usw.

Webserver: Der Webserver bietet Dienste für die Servlet-Engine, die zum Hosten einer Website verwendet werden kann. Der Zugriff erfolgt über das Portal.

Hintere Ebene

Die Back-Tier ist ein Bereich, in dem die Daten- und Rechenserver laufen, die möglicherweise Geschäftsobjekte enthalten. Es handelt sich um einen Unternehmensverzeichnisserver. Der Unternehmensverzeichnisserver verwaltet Metadaten über Inhalte, die sich im gesamten Unternehmen befinden.

So laden Sie SAS herunter und installieren es

Lokaler Download auf Ihrem Computer

Schritt 1) ​​Laden Sie SAS über den angegebenen Link herunter

Gehe zu diesem Link https://www.sas.com/en_in/software/university-edition.html und klicken Sie auf „Kostenlose Software erhalten“.

Laden Sie SAS herunter und installieren Sie es

Schritt 2) Wählen Sie Ihr aus Operating-System

Wählen Sie das Betriebssystem entsprechend Ihrem System aus.

Laden Sie SAS herunter und installieren Sie es

Schritt 3) Laden Sie die Virtualisierungssoftware herunter und installieren Sie sie

SAS erfordert Virtualisierungssoftware wie VirtualBox muss installiert werden, bevor es installiert werden kann. Hier sind die detaillierten Schritte

Laden Sie SAS herunter und installieren Sie es

Befolgen Sie die auf dem Bildschirm genannten Schritte, um SAS zu installieren. Haben VirtualBox und die lokale Installation könnte manchmal schwierig sein. Wir empfehlen die AWS-Installation.

AWS-Installation

Sie können SAS in AWS bereitstellen. Es ist für das kostenlose Kontingent berechtigt.

Schritt 1) Gehen Sie zu https://aws.amazon.com/marketplace/pp/B00WH10IKW. Klicken Sie auf „Weiter zum Abonnieren“.

Laden Sie SAS herunter und installieren Sie es

Schritt 2) Akzeptieren Sie in diesem nächsten Bildschirm die Bedingungen.

Laden Sie SAS herunter und installieren Sie es

Schritt 3) Die Genehmigung des ausstehenden Abonnements kann bis zu 10 Minuten dauern. Sie sehen den folgenden Bildschirm.

Laden Sie SAS herunter und installieren Sie es

Schritt 4) Aktualisieren Sie die Seite und Ihr Abonnement wird bestätigt. Klicken Sie auf Weiter zur Konfiguration

Laden Sie SAS herunter und installieren Sie es

Schritt 5) Behalten Sie die Standardeinstellungen bei und klicken Sie auf „Weiter zum Starten“.

Laden Sie SAS herunter und installieren Sie es

Schritt 6) RevSehen Sie sich die Konfigurationsseite an. Geben Sie ein Schlüssel-Wert-Paar ein. Die restlichen Einstellungen sollten die Standardeinstellungen sein. Klicken Sie auf Starten

Laden Sie SAS herunter und installieren Sie es

Schritt 7) Gehen Sie zu https://aws.amazon.com/marketplace/library/ und klicken Sie auf Instanzen anzeigen.

Laden Sie SAS herunter und installieren Sie es

Schritt 8) Im Popup

  1. Notieren Sie sich die Instanz-ID. Dies ist Ihr Passwort
  2. Klicken Sie auf „Zugriff auf Software“.

Laden Sie SAS herunter und installieren Sie es

Schritt 9) Im Popup erscheint das, nachdem Sie in Schritt 8 geklickt haben

  1. Geben Sie die Benutzeranmeldeinformationen ein. Id: sasdemo-Passwort: Instanz-ID aus Schritt 8
  2. Klicken Sie auf Anmelden

Laden Sie SAS herunter und installieren Sie es

Schritt 10) Sie sehen den Willkommensbildschirm.

Laden Sie SAS herunter und installieren Sie es

Problemlösung

Wenn Sie keine Verbindung herstellen können, gehen Sie zu https://console.aws.amazon.com/ec2/v2/home?region=us-east-1#SecurityGroups:sort=groupId und eingehende/ausgehende Regeln für alle

Wie verwende ich SAS?

Um die SAS-Software effektiv nutzen zu können, müssen Sie vier Schritte befolgen: Auf Daten zugreifen, Daten verwalten, analysieren und präsentieren

So verwenden Sie SAS
So verwenden Sie SAS

Zugangsdaten:

SAS ermöglicht Ihnen den Zugriff auf Daten in jedem gewünschten Format.

Sie können auf Daten zugreifen, die überall gespeichert sind, egal ob sie sich in einer Datei auf Ihrem System befinden oder in einem anderen Datenbanksystem gespeichert sind. Es kann sich um eine Oracle-Datei, eine SAS-Datenbankdatei, eine Raw-Datenbankdatei oder eine einfache XLS-/CSV-Datei handeln. Damit können Sie problemlos auf diese Daten zugreifen.

Daten verwalten:

SAS bietet hervorragende Datenverwaltungsfunktionen. Sie können Daten basierend auf bestimmten Bedingungen in Teilmengen/Slices aufteilen, Variablen erstellen, Daten bereinigen und validieren. Es gibt andere Tools, mit denen Sie die gleiche Aufgabe ausführen können. SAS hilft Ihnen jedoch dabei, diese Aufgabe problemlos zu erledigen.

SAS verfügt über gut definierte Bibliotheken und Prozesse, die den Programmierprozess vereinfachen. Darüber hinaus ist das Erstellen von Variablen oder Teilmengendaten nur ein Schritt. Dies erspart Ihnen das Schreiben komplexer Algorithmen mit nur einer einzigen Codezeile.

Analysieren:

Mit SAS können Sie verschiedene Arten von Analysen durchführen:

  • Es überprüft die Häufigkeit der Mittelwertberechnung
  • Regression und Prognose
  • Entscheidungsbaum

Alle diese Analysen können von SAS problemlos durchgeführt werden. Es ist das beste Werkzeug für genaue Prognosen.

Present:

Wenn Sie Daten richtig visualisieren, ist es für das Publikum mühelos, sich darauf einzulassen. Es ist wichtig, dass Ihr Tool die Daten in geeigneter Weise darstellt. Das ist es, was SAS für Sie tut. Es verfügt über hervorragende Präsentationsmöglichkeiten.

Sie können:

1. Berichte auflisten

2. Zusammenfassende Berichte

3. Diagrammberichte

4. Berichte drucken

Beispiel für ein SAS-Programm

Das SAS-Programm besteht aus drei notwendigen Schritten:

  • Datenschritt
  • Proc-Schritt
  • Ausgabeschritt

DATA-Schritt

Der Datenschritt lädt den benötigten Datensatz in den SAS-Speicher und findet die richtigen Variablen des Datensatzes. Es erfasst auch die Aufzeichnungen. Wir können Datenschritte verwenden, um:

  • Geben Sie Daten in SAS-Datensätze ein
  • Werte berechnen
  • Daten prüfen bzw. korrigieren
  • Erstellen Sie neue Datensätze

Die Syntax für die DATA-Anweisung lautet:

Syntax

DATA data_set_name;		#Give a name to the dataset
INPUT var1,var2,var3; 		#Declare variables in the dataset.
NEW_VAR;			         #Define new variables.
LABEL;			      	#Give variables a label
DATALINES;		      	#Provide data
RUN;

Ejemplo:

Das folgende Beispiel zeigt, wie man eine Variable definiert, den Datensatz benennt, neue Variablen erstellt und die Daten eingibt. In diesem Beispiel können Sie sehen, dass Zeichenfolgenvariablen am Ende ein $ haben und numerische Werte ohne $ sind.

INPUT ID $ NAME $ SALARY DEPARTMENT $;
comm = SALARY*1.50;
LABEL ID = 'Emp_ID' comm = 'COMMISION';
DATALINES;
1 Tom 5000 IT
2 Harry 6000 Operations
3 Michelle 7000 IT
4 Dick 8000 HR
5 John 9000 Finance 
;
RUN;

Hinweis: Um die SAS-Anweisung auszuführen, muss der RUN-Befehl angegeben werden.

PROC-Schritt

Es führt spezifische Analysen oder Funktionen durch, um Ergebnisse und Berichte zu erstellen.

Syntax

PROC procedure_name options; #The name of the proc.
RUN;

Beispiel

Das angegebene Beispiel verwendet die MEINT Verfahren zum Drucken der Mittelwerte der numerischen Variablen im Datensatz.

PROC MEANS;
RUN;

Der OUTPUT-Schritt

Sie können die Daten aus den Daten mit bedingten Ausgabeanweisungen anzeigen.

Syntax

PROC PRINT DATA = data_set;
OPTIONS;
RUN;

Jedes SAS-Programm muss alle oben genannten Schritte befolgen, um die Eingabedaten zu lesen, die Daten zu analysieren und die Ausgabe der Analyse bereitzustellen. Der RENNE Die Anweisung am Ende jedes Schritts beendet die Ausführung dieses Schritts.

Das komplette SAS-Programm

Nachfolgend finden Sie den vollständigen Code für jeden der oben genannten Schritte.

Das komplette SAS-Programm

Ausgang:

Das komplette SAS-Programm

Das komplette SAS-Programm

Das komplette SAS-Programm

Wo wird SAS eingesetzt?

Nachfolgend sind einige wichtige SAS-Anwendungen aufgeführt:

Branche Anwendungsbereich
Biowissenschaften Statistische Analyse, Berichterstattung
Telekommunikation ETL, Reporting, Data Mining, Prognosen
Finanzen ETL, Reporting, Data Mining, Finanzforschung
Vorausschauende Modellierung DBMarketing, aktivitätsbasiertes Management
Gesundheitswesen ETL, Reporting, Data Mining

SAS vs. R

SAS R
SAS ist eine kommerzielle Software und erfordert daher eine finanzielle Investition. R ist Open-Source-Software. Daher kann es jeder nutzen.
SAS ist ein am einfachsten zu erlernendes Analysetool. Selbst Leute mit geringen SQL-Kenntnissen können es schnell erlernen. R erfordert, dass Sie komplizierte und langwierige Codes schreiben.
SAS wird von großen Unternehmen sehr bevorzugt und ist technisch sehr fortschrittlich und benutzerfreundlich. R ist eine sich schnell entwickelnde Software; Sie müssen es jedoch ständig aktualisieren.
SAS bietet eine gute grafische Unterstützung, bietet jedoch keine Anpassungsmöglichkeiten. Die grafische Unterstützung des R-Tools ist sehr schlecht.

Vorteile von SAS

  • SAS verfügt über eine einfache Syntax, die ohne Programmierkenntnisse erlernt werden kann
  • Fähigkeit, eine große Datenbank problemlos zu verwalten
  • SAS ist eine sehr verständliche Sprache, die leicht debuggt werden kann
  • Im „Protokoll“-Fenster wird der Fehler deutlich angezeigt, sodass Sie Ihren Code einfacher debuggen können
  • SAS hilft Ihnen, den Algorithmus gründlich zu testen und zu analysieren
  • SAS ist vollständig gesichert, sodass Sie im Büro keine Extraktion ohne Lizenz durchführen können
  • Erleichtert statistische Berechnungen für Benutzer ohne Programmierkenntnisse
  • Behandelt große Datenbanken effektiv.

Nachteile von SAS

  • Die Kosten sind hoch, da Einzelpersonen oder Organisationen ohne eine entsprechende Lizenz nicht alle Anwendungen nutzen können
  • SAS ist nicht Open Source, daher sind die in SAS verwendeten Algorithmen nicht für den allgemeinen Gebrauch verfügbar
  • Text Mining ist in SAS ein sehr mühsamer und schwieriger Prozess.

Zusammenfassung

  • SAS-Software bedeutet statistische Analysesoftware, die für die Datenanalyse verwendet wird
  • R und Python sind zwei weit verbreitete alternative Tools von SAS.
  • SAS wurde 1970 von Jim Goodnight und John Shall an der NC University entwickelt
  • SAS ermöglicht Ihnen den Zugriff auf Rohdatendateien und Daten in einer externen Datenbank jeglicher Art
  • Die SAS-Architektur besteht im Wesentlichen aus drei Teilen: 1) Client-Ebene 2) Middle-Ebene 3) Back-Ebene
  • Um die SAS-Software verwenden zu können, müssen Sie vier Schritte ausführen: 1) Zugriff auf Daten, 2) Verwaltung, 3) Analyse von Daten, 4) Präsentation
  • Das SAS-Programm besteht aus drei grundlegenden Schritten: Datenschritt, Prozessschritt und Ausgabeschritt
  • SAS Datenanalysetool wird häufig in Branchen wie Pharma, Telekommunikation, Finanzwesen, Vorhersagemodellierung und Gesundheitswesen eingesetzt
  • SAS ist kommerzielle Software, während R Open-Source-Software ist
  • Der größte Vorteil des SAS-Programmiertools besteht darin, dass es über eine einfache Syntax verfügt, die ohne Programmierkenntnisse erlernt werden kann.
  • Einer der Nachteile des SAS-Modells besteht darin, dass es kein Open-Source-Tool ist. Daher sind die in SAS-Prozeduren verwendeten Algorithmen nicht für die allgemeine Verwendung verfügbar.