SAS Tutorial for begyndere: Hvad er og programmeringseksempel

Hvad er SAS?

SAS er en kommandodrevet statistisk softwarepakke, der er meget udbredt til statistisk dataanalyse og visualisering. SAS fuld form er Statistical Analysis Software. Det giver dig mulighed for at bruge kvalitative teknikker og processer, som hjælper dig med at forbedre medarbejdernes produktivitet og fortjeneste. SAS bruges også til avanceret analyse som business intelligence, kriminalitetsefterforskning og prædiktiv analyse. SAS udtales som "SaaS".

I SAS udtrækkes og kategoriseres data, hvilket hjælper dig med at identificere og analysere datamønstre. Det er en softwarepakke, som giver dig mulighed for at udføre avanceret analyse, Business Intelligence, Predictive Analysis, datastyring for at fungere effektivt under de konkurrencedygtige og skiftende forretningsforhold. Desuden er SAS platformuafhængig, hvilket betyder, at du kan køre SAS på ethvert operativsystem, enten Linux eller Windows.

Sammenlignet med andre BI værktøjer, SAS giver omfattende support til programmatisk transformation og analyse af data, bortset fra at bruge træk og slip-grænsefladen. Dette giver meget granulær kontrol over datamanipulation og analyser, som er dens USP.

Hvorfor har vi brug for SAS?

Lad os forstå behovet for SAS med et simpelt eksempel:

Overvej en e-handelsvirksomhed, der ønsker at kende sine kunders købsmønstre baseret på historiske data. Virksomheden bliver nødt til at overveje tusindvis af registreringer af flere kunder for at få generaliseringsindsigten.

Virksomheden har muligvis ikke alle disse data, der kræves til analysen. For eksempel, hvis en kunde ikke købte en jakke, hvad er så de faktorer, der forhindrede dem i at købe jakken? Disse manglende data kan skabe fejl i din analyse. Hvordan kan du slippe af med disse problemer? Hvordan kan vi håndtere denne type data?

Hvis den udføres manuelt, vil denne opgave kræve hundredvis af analytikere og tusindvis af mandetimer. Ved at bruge SAS analyseværktøj kan du lave den samme analyse på få timer med en enkelt analytiker. SAS-værktøjet giver dig mulighed for at eliminere unødvendige data og optimere den relevante information. Det vil gøre dig i stand til at forudsige et resultat, selv med manglende data. SAS giver dig mulighed for at træffe bedre beslutninger.

Alternative SAS-værktøjer

Alternative SAS-værktøjer

R: Det er open source software. Det er nemt at lære R, da det er veldokumenteret. Det giver stærke statistiske muligheder.

Python er et andet populært open source-scriptsprog. Det understøtter biblioteker som Numpy, Scipy og MatPlotLib. Du kan udføre enhver statistisk operation, eller du kan bygge enhver model ved hjælp af disse biblioteker.

SAS: Det er det meget brugte analytiske værktøj på det kommercielle analysemarked. Med et væld af statistiske funktioner og god GUI.

I denne SAS-programmeringsvejledning vil vi diskutere om statistiske analysesystemer, og hvordan det kan bruges til at løse vores problemer.

SAS historie

  • SAS blev udviklet af Jim Goodnight og John Shall i 1970 ved NC University
  • Oprindeligt blev det udviklet til landbrugsforskning.
  • Later, udvidede det til en række værktøjer til blandt andet at omfatte forudsigelig analyse, datastyring, BI.
  • I dag bruger 98 af verdens førende virksomheder i Fortune 400 SAS dataanalyseværktøj til Dataanalyse.

Næste i denne SAS-sprogtutorial lærer vi om funktionerne i SAS.

SAS funktioner

Nøgletræk ved SAS er:

  • Få nemt adgang til rådatafiler og data fra en ekstern database. Læs og skriv næsten alle dataformater!
  • Administrer data ved hjælp af værktøjer til dataindtastning, redigeringssøgning, formatering og konvertering
  • Analyser data ved hjælp af beskrivende, statistik, multivariate teknikker, prognose, modellering, lineær programmering
  • Avanceret analyse hjælper dig med at foretage ændringer og forbedringer i forretningspraksis.
  • Rapportdannelse med perfekte grafer
  • Operaforsknings- og projektledelse
  • Opdatering og ændring af data
  • Kraftfuldt datahåndteringssprog
  • Fremragende datarensningsfunktioner
  • Interagere med flere værtssystemer

Næste i denne SAS for begyndere tutorial, vil vi lære om SAS Product Suite.

SAS Product Suite

Der er mange SAS-produkter tilgængelige på markedet. Følgende er en liste over de mere populære.

Navn Description
Base SAS Base SAS-software tilbyder hardware agilitet og integreres i alle slags computermiljøer.
SAS/GRAF Dette værktøj hjælper dig med at repræsentere strukturerede data i grafer.
SAS/STAT Dette værktøj hjælper dig med at udføre forskellige typer regression, statistisk analysevarians, regression og psykometrisk analyse.
SAS/ETS Det bruges til prognoser. Hjælper dig med at udføre tidsserieanalysen.
SAS/IML Interaktivt matric-sprog er kendt som IML. Dette værktøj hjælper dig med at oversætte matematiske formler til et innovativt program.
SAS EBI Et værktøj til Business Intelligence-applikationer
SAS Grid Manager Det er en kernekomponent, som tilbyder datastyringsfacilitet og et programmeringssprog til dataanalyse
SAS/OR Værktøj til Operation forskning
SAS/QC Bruges til kvalitetskontrol
SAS/Enterprise Miner Data mining
SAS/PH Analyse af kliniske forsøg
SAS/AF Det tilbyder applikationsfaciliteter
Enterprise Guide Det er en GUI-baseret kodeeditor og projektleder

Næste i denne SAS tutorials guide vil vi lære om SAS arkitektur.

SAS Architecture

SAS Architecture
Architecture af SAS

SAS arkitektur er hovedsageligt opdelt i tre dele:

  • Klientniveau
  • Middle Tier
  • Bagerste niveau

Kundeniveau

Client tier er det sted, hvor applikationen er installeret på en maskine, hvor brugeren sidder. Den består af de komponenter, der bruges til at se portalen og dens indhold. Den inkluderer også en standard webbrowser, der bruges til at interagere med portalen over standard HTTP- eller HTTPS-protokol. Det hjælper dig også med at gøre SAS-webapplikationens firewall venlig.

mellemtrin

Mellemlaget tilbyder et centraliseret adgangspunkt til virksomhedsinformation. Al adgang til indhold behandles af komponenter, der fungerer på dette niveau. Adskillelsen af ​​forretningslogikken med displaylogikken hjælper dig med at udnytte logikken i mellemlaget. Desuden gør centraliserede adgangspunkter det nemmere at håndhæve sikkerhedsregler, administrere portalen og administrere kodeændringer.

Mellemlaget er vært for følgende funktioner:

SAS Information Delivery Portal Webapplikation: Det er samlingen af ​​JSP, Java servlets, JavaBønner og andre klasser og ressourcer. Disse komponenter hjælper dig med at få adgang til oplysninger, der er gemt i virksomhedens bibliotek, for at skabe en brugerdefinerbar grænseflade til brugeren.

Servlet motor: Servlet-motoren kaldes også en servlet-beholder. Det er ansvarligt for at administrere SAS Information Delivery Portal Web Application. Servlet-motoren tilbyder et driftstidsmiljø. Det giver samtidighed, implementering, livscyklusstyring osv.

Webserver: Webserver tilbyder service til servlet-motoren, som kan bruges til at være vært for webstedet. Dette skal tilgås via portalen.

Bagerste niveau

Back tier er et område, hvor data- og beregningsserverne kører, som kan indeholde forretningsobjekter. Det er en virksomhedskatalogserver. Virksomhedskatalogserveren vedligeholder metadata om indhold, som er placeret i hele virksomheden.

Sådan downloader og installerer du SAS

Lokal download på din maskine

Trin 1) Download SAS fra givet link

Gå til dette link https://www.sas.com/en_in/software/university-edition.html og klik på Hent gratis software.

Download og installer SAS

Trin 2) Vælg din Operating System

Vælg operativsystemet i henhold til dit system.

Download og installer SAS

Trin 3) Download og installer virtualiseringssoftware

SAS kræver virtualiseringssoftware som f.eks VirtualBox skal installeres, før det kan installeres. Her er de detaljerede trin

Download og installer SAS

Følg trinene nævnt på skærmen for at installere SAS. At have VirtualBox og lokal installation kan nogle gange være vanskelig. Vi anbefaler AWS installation-

AWS installation

Du kan implementere SAS i AWS. Det er kvalificeret til gratis niveau.

Trin 1) Gå til https://aws.amazon.com/marketplace/pp/B00WH10IKW. Klik på "Fortsæt med at abonnere"

Download og installer SAS

Trin 2) I denne næste skærm, Accepter vilkår.

Download og installer SAS

Trin 3) Abonnementet afventer tager op til 10 minutter at godkende. Du vil se følgende skærm.

Download og installer SAS

Trin 4) Opdater siden, og du vil bekræfte abonnementet. Klik på Fortsæt til konfiguration

Download og installer SAS

Trin 5) Behold standardindstillingerne, og klik på Fortsæt til start.

Download og installer SAS

Trin 6) Revse konfigurationssiden. Indtast et nøgleværdi-par. Hvileindstillinger skal være standard. Klik på Start

Download og installer SAS

Trin 7) Gå til https://aws.amazon.com/marketplace/library/ og klik på Vis forekomster.

Download og installer SAS

Trin 8) I popup

  1. Bemærk instans-id'et. Dette er din adgangskode
  2. Klik på Adgang til software

Download og installer SAS

Trin 9) I pop op-vinduet, der vises, efter du har klikket i trin 8

  1. Indtast brugerlegitimationsoplysninger. Id: sasdemo-adgangskode: instans-id noteret i trin 8
  2. Klik på Log ind

Download og installer SAS

Trin 10) Du vil se velkomstskærmen.

Download og installer SAS

Fejlfinding

Hvis du ikke kan oprette forbindelse, skal du gå til https://console.aws.amazon.com/ec2/v2/home?region=us-east-1#SecurityGroups:sort=groupId og indgående/udgående regler for alle

Hvordan bruger man SAS?

For effektivt at bruge SAS-software skal du følge fire trin, som er: Adgang til data, ledelsesdata, analyse, præsentere

Sådan bruger du SAS
Sådan bruger du SAS

Adgangsdata:

SAS giver dig adgang til data i ethvert ønsket format, du ønsker.

Du kan tilgå data, der er gemt hvor som helst, uanset om det er i en fil på dit system eller data, der er gemt i et andet databasesystem. Det kan være oracle-fil, SAS-databasefil, Raw-databasefil eller en simpel XLS /CSV-fil. Det vil hjælpe dig med at få adgang til disse data med lethed.

Administrer data:

SAS tilbyder fantastiske datahåndteringsmuligheder. Du kan undersætte/opdele data baseret på visse betingelser, oprette variable, rense og validere data. Der er andre værktøjer, som giver dig mulighed for at udføre den samme opgave. SAS hjælper dig dog med at udføre dette job med lethed.

SAS har veldefinerede biblioteker og processer, som gør programmeringsprocessen let. Desuden er oprettelse af variable eller delmængdedata kun et trins proces. Dette sparer dig for at skrive komplekse algoritmer med kun en enkelt linje kode.

Analysere:

Du kan lave forskellige former for analyser ved hjælp af SAS:

  • Den kontrollerer beregning af gennemsnitsfrekvens
  • Regression og prognose
  • Beslutningstræ

Alle disse analyser kan SAS nemt håndtere. Det er det bedste værktøj til nøjagtige prognoser.

Present:

Hvis du visualiserer data korrekt, er det ubesværet for publikum at forholde sig til det. Det er vigtigt, at dit værktøj præsenterer dataene på en passende måde. Det er, hvad SAS gør for dig. Det har fremragende præsentationsmuligheder.

Du kan:

1. Liste rapporter

2. Sammenfattende rapporter

3. Grafrapporter

4. Udskriv rapporter

Eksempel på SAS-program

SAS-programmet består af tre nødvendige trin:

  • Datatrin
  • Proc Trin
  • Output trin

DATA Trin

Datatrin indlæser det nødvendige datasæt i SAS-hukommelsen og finder de korrekte variabler for datasættet. Det fanger også optegnelserne. Vi kan bruge datatrin til at:

  • Indtast data i SAS-datasæt
  • Beregn værdier
  • Kontroller eller ret data
  • Fremstil nye datasæt

Syntaksen for DATA-sætning er:

Syntaks

DATA data_set_name;		#Give a name to the dataset
INPUT var1,var2,var3; 		#Declare variables in the dataset.
NEW_VAR;			         #Define new variables.
LABEL;			      	#Give variables a label
DATALINES;		      	#Provide data
RUN;

Eksempel:

Følgende eksempel viser, hvordan man definerer en variabel, navngiver datasættet, opretter nye variabler og indtaster dataene. I dette eksempel kan du se, at strengvariabelen har en $ i slutningen, og numeriske værdier er uden den.

INPUT ID $ NAME $ SALARY DEPARTMENT $;
comm = SALARY*1.50;
LABEL ID = 'Emp_ID' comm = 'COMMISION';
DATALINES;
1 Tom 5000 IT
2 Harry 6000 Operations
3 Michelle 7000 IT
4 Dick 8000 HR
5 John 9000 Finance 
;
RUN;

Bemærk: For at udføre SAS Statement skal du angive RUN-kommandoen.

PROC Trin

Det udfører specifikke analyser eller funktioner for at producere resultater og rapporter.

Syntaks

PROC procedure_name options; #The name of the proc.
RUN;

Eksempel

Det givne eksempel bruger MIDLER procedure for at udskrive middelværdierne af de numeriske variable i datasættet.

PROC MEANS;
RUN;

OUTPUT-trinnet

Du kan vise dataene fra dataene med betingede output-sætninger.

Syntaks

PROC PRINT DATA = data_set;
OPTIONS;
RUN;

Hvert SAS-program skal følge alle ovennævnte trin for at læse inputdataene, analysere dataene og give output fra analysen. Det LØB sætning i slutningen af ​​hvert trin afslutter udførelsen af ​​dette trin.

Det komplette SAS-program

Nedenfor er den komplette kode for hvert af ovenstående trin.

Det komplette SAS-program

Output:

Det komplette SAS-program

Det komplette SAS-program

Det komplette SAS-program

Hvor bruges SAS?

Nedenfor er givet nogle vigtige SAS-applikationer:

Industri Brug
Pharmaceutical Statistisk Analyse, Rapportering
Telecom ETL, Rapportering, Data Mining, Forecasting
Finans ETL, Rapportering, Data Mining, Finansiel research
Forudsigelig modellering DBMarketing, aktivitetsbaseret ledelse
Medicinal ETL, rapportering, Data Mining

SAS vs. R

SAS R
SAS er kommerciel software, så det kræver en økonomisk investering. R er open source software. Derfor kan alle bruge det.
SAS er det nemmeste analytiske værktøj at lære. Selv folk med begrænset viden om SQL kan lære det hurtigt. R kræver, at du skriver komplicerede og lange koder.
SAS er et meget foretrukket valg af store virksomheder og er ret teknisk avanceret og brugervenligt. R er hurtigt udviklende software; du skal dog blive ved med at opgradere den.
SAS har god grafisk support, men tilbyder ikke nogen tilpasning. Den grafiske understøttelse af R-værktøjet er meget dårlig.

Fordele ved SAS

  • SAS har en nem syntaks, som kan læres uden nogen form for programmeringsviden
  • Evne til at håndtere en stor database med lethed
  • SAS er et meget forståeligt sprog, som nemt kan fejlsøges
  • Dens "log"-vindue angiver tydeligt fejlen, som hjælper dig med at fejlsøge din kode nemt
  • SAS hjælper dig med at teste og analysere algoritmen grundigt
  • SAS er fuldstændig sikret, så du ikke kan udtrække uden licens på kontoret
  • Gør statistisk databehandling lettere for ikke-programmerende brugere
  • Håndterer store databaser effektivt.

Ulemper ved SAS

  • Omkostningerne er høje, fordi individ eller organisation ikke kan bruge alle applikationer uden en ordentlig licens
  • SAS er ikke open source, så algoritmer, der bruges i SAS, er ikke tilgængelige til almindelig brug
  • Tekstmining er en meget besværlig og vanskelig proces i SAS.

Resumé

  • SAS-software, der betyder statistisk analysesoftware, som bruges til dataanalyse
  • R og Python er to udbredte alternative værktøjer fra SAS.
  • SAS blev udviklet af Jim Goodnight og John Shall i 1970 ved NC University
  • SAS giver dig adgang til rådatafiler og data i en ekstern database af enhver art
  • SAS-arkitekturen er hovedsageligt opdelt i tre dele 1) Klientniveau 2) Mellemniveau 3) Bagerste niveau
  • For at bruge SAS-software skal du følge fire trin, som er: 1) Adgang til data, 2) Ledelse 3) Analyser data, 4) Præsentation
  • SAS-programmet består af tre grundlæggende trin: Data Step, Proc Step og Output Step
  • SAS dataanalyseværktøj er meget udbredt i sektorer som farmaceutisk, telekommunikation, finans, prædiktiv modellering og sundhedspleje
  • SAS er kommerciel software, mens R er open source-software
  • Den største fordel ved SAS programmørværktøj er, at det har en nem syntaks, der kan læres uden nogen form for programmeringsviden.
  • En af ulemperne ved SAS-modellen er, at det ikke er et open source-værktøj. Så algoritmer, der bruges i SAS-procedurer, er ikke tilgængelige til almindelig brug.