SAS Tutorial for begyndere: Hvad er og programmeringseksempel
Hvad er SAS?
SAS er en kommandodrevet statistisk softwarepakke, der er meget udbredt til statistisk dataanalyse og visualisering. SAS fuld form er Statistical Analysis Software. Det giver dig mulighed for at bruge kvalitative teknikker og processer, som hjælper dig med at forbedre medarbejdernes produktivitet og fortjeneste. SAS bruges også til avanceret analyse som business intelligence, kriminalitetsefterforskning og prædiktiv analyse. SAS udtales som "SaaS".
I SAS udtrækkes og kategoriseres data, hvilket hjælper dig med at identificere og analysere datamønstre. Det er en softwarepakke, som giver dig mulighed for at udføre avanceret analyse, Business Intelligence, Predictive Analysis, datastyring for at fungere effektivt under de konkurrencedygtige og skiftende forretningsforhold. Desuden er SAS platformuafhængig, hvilket betyder, at du kan køre SAS på ethvert operativsystem, enten Linux eller Windows.
Sammenlignet med andre BI værktøjer, SAS giver omfattende support til programmatisk transformation og analyse af data, bortset fra at bruge træk og slip-grænsefladen. Dette giver meget granulær kontrol over datamanipulation og analyser, som er dens USP.
Hvorfor har vi brug for SAS?
Lad os forstå behovet for SAS med et simpelt eksempel:
Overvej en e-handelsvirksomhed, der ønsker at kende sine kunders købsmønstre baseret på historiske data. Virksomheden bliver nødt til at overveje tusindvis af registreringer af flere kunder for at få generaliseringsindsigten.
Virksomheden har muligvis ikke alle disse data, der kræves til analysen. For eksempel, hvis en kunde ikke købte en jakke, hvad er så de faktorer, der forhindrede dem i at købe jakken? Disse manglende data kan skabe fejl i din analyse. Hvordan kan du slippe af med disse problemer? Hvordan kan vi håndtere denne type data?
Hvis den udføres manuelt, vil denne opgave kræve hundredvis af analytikere og tusindvis af mandetimer. Ved at bruge SAS analyseværktøj kan du lave den samme analyse på få timer med en enkelt analytiker. SAS-værktøjet giver dig mulighed for at eliminere unødvendige data og optimere den relevante information. Det vil gøre dig i stand til at forudsige et resultat, selv med manglende data. SAS giver dig mulighed for at træffe bedre beslutninger.
Alternative SAS-værktøjer
R: Det er open source software. Det er nemt at lære R, da det er veldokumenteret. Det giver stærke statistiske muligheder.
Python er et andet populært open source-scriptsprog. Det understøtter biblioteker som Numpy, Scipy og MatPlotLib. Du kan udføre enhver statistisk operation, eller du kan bygge enhver model ved hjælp af disse biblioteker.
SAS: Det er det meget brugte analytiske værktøj på det kommercielle analysemarked. Med et væld af statistiske funktioner og god GUI.
I denne SAS-programmeringsvejledning vil vi diskutere om statistiske analysesystemer, og hvordan det kan bruges til at løse vores problemer.
SAS historie
- SAS blev udviklet af Jim Goodnight og John Shall i 1970 ved NC University
- Oprindeligt blev det udviklet til landbrugsforskning.
- Later, udvidede det til en række værktøjer til blandt andet at omfatte forudsigelig analyse, datastyring, BI.
- I dag bruger 98 af verdens førende virksomheder i Fortune 400 SAS dataanalyseværktøj til Dataanalyse.
Næste i denne SAS-sprogtutorial lærer vi om funktionerne i SAS.
SAS funktioner
Nøgletræk ved SAS er:
- Få nemt adgang til rådatafiler og data fra en ekstern database. Læs og skriv næsten alle dataformater!
- Administrer data ved hjælp af værktøjer til dataindtastning, redigeringssøgning, formatering og konvertering
- Analyser data ved hjælp af beskrivende, statistik, multivariate teknikker, prognose, modellering, lineær programmering
- Avanceret analyse hjælper dig med at foretage ændringer og forbedringer i forretningspraksis.
- Rapportdannelse med perfekte grafer
- Operaforsknings- og projektledelse
- Opdatering og ændring af data
- Kraftfuldt datahåndteringssprog
- Fremragende datarensningsfunktioner
- Interagere med flere værtssystemer
Næste i denne SAS for begyndere tutorial, vil vi lære om SAS Product Suite.
SAS Product Suite
Der er mange SAS-produkter tilgængelige på markedet. Følgende er en liste over de mere populære.
Navn | Description |
---|---|
Base SAS | Base SAS-software tilbyder hardware agilitet og integreres i alle slags computermiljøer. |
SAS/GRAF | Dette værktøj hjælper dig med at repræsentere strukturerede data i grafer. |
SAS/STAT | Dette værktøj hjælper dig med at udføre forskellige typer regression, statistisk analysevarians, regression og psykometrisk analyse. |
SAS/ETS | Det bruges til prognoser. Hjælper dig med at udføre tidsserieanalysen. |
SAS/IML | Interaktivt matric-sprog er kendt som IML. Dette værktøj hjælper dig med at oversætte matematiske formler til et innovativt program. |
SAS EBI | Et værktøj til Business Intelligence-applikationer |
SAS Grid Manager | Det er en kernekomponent, som tilbyder datastyringsfacilitet og et programmeringssprog til dataanalyse |
SAS/OR | Værktøj til Operation forskning |
SAS/QC | Bruges til kvalitetskontrol |
SAS/Enterprise Miner | Data mining |
SAS/PH | Analyse af kliniske forsøg |
SAS/AF | Det tilbyder applikationsfaciliteter |
Enterprise Guide | Det er en GUI-baseret kodeeditor og projektleder |
Næste i denne SAS tutorials guide vil vi lære om SAS arkitektur.
SAS Architecture
SAS arkitektur er hovedsageligt opdelt i tre dele:
- Klientniveau
- Middle Tier
- Bagerste niveau
Kundeniveau
Client tier er det sted, hvor applikationen er installeret på en maskine, hvor brugeren sidder. Den består af de komponenter, der bruges til at se portalen og dens indhold. Den inkluderer også en standard webbrowser, der bruges til at interagere med portalen over standard HTTP- eller HTTPS-protokol. Det hjælper dig også med at gøre SAS-webapplikationens firewall venlig.
mellemtrin
Mellemlaget tilbyder et centraliseret adgangspunkt til virksomhedsinformation. Al adgang til indhold behandles af komponenter, der fungerer på dette niveau. Adskillelsen af forretningslogikken med displaylogikken hjælper dig med at udnytte logikken i mellemlaget. Desuden gør centraliserede adgangspunkter det nemmere at håndhæve sikkerhedsregler, administrere portalen og administrere kodeændringer.
Mellemlaget er vært for følgende funktioner:
SAS Information Delivery Portal Webapplikation: Det er samlingen af JSP, Java servlets, JavaBønner og andre klasser og ressourcer. Disse komponenter hjælper dig med at få adgang til oplysninger, der er gemt i virksomhedens bibliotek, for at skabe en brugerdefinerbar grænseflade til brugeren.
Servlet motor: Servlet-motoren kaldes også en servlet-beholder. Det er ansvarligt for at administrere SAS Information Delivery Portal Web Application. Servlet-motoren tilbyder et driftstidsmiljø. Det giver samtidighed, implementering, livscyklusstyring osv.
Webserver: Webserver tilbyder service til servlet-motoren, som kan bruges til at være vært for webstedet. Dette skal tilgås via portalen.
Bagerste niveau
Back tier er et område, hvor data- og beregningsserverne kører, som kan indeholde forretningsobjekter. Det er en virksomhedskatalogserver. Virksomhedskatalogserveren vedligeholder metadata om indhold, som er placeret i hele virksomheden.
Sådan downloader og installerer du SAS
Lokal download på din maskine
Trin 1) Download SAS fra givet link
Gå til dette link https://www.sas.com/en_in/software/university-edition.html og klik på Hent gratis software.
Trin 2) Vælg din Operating System
Vælg operativsystemet i henhold til dit system.
Trin 3) Download og installer virtualiseringssoftware
SAS kræver virtualiseringssoftware som f.eks VirtualBox skal installeres, før det kan installeres. Her er de detaljerede trin
Følg trinene nævnt på skærmen for at installere SAS. At have VirtualBox og lokal installation kan nogle gange være vanskelig. Vi anbefaler AWS installation-
AWS installation
Du kan implementere SAS i AWS. Det er kvalificeret til gratis niveau.
Trin 1) Gå til https://aws.amazon.com/marketplace/pp/B00WH10IKW. Klik på "Fortsæt med at abonnere"
Trin 2) I denne næste skærm, Accepter vilkår.
Trin 3) Abonnementet afventer tager op til 10 minutter at godkende. Du vil se følgende skærm.
Trin 4) Opdater siden, og du vil bekræfte abonnementet. Klik på Fortsæt til konfiguration
Trin 5) Behold standardindstillingerne, og klik på Fortsæt til start.
Trin 6) Revse konfigurationssiden. Indtast et nøgleværdi-par. Hvileindstillinger skal være standard. Klik på Start
Trin 7) Gå til https://aws.amazon.com/marketplace/library/ og klik på Vis forekomster.
Trin 8) I popup
- Bemærk instans-id'et. Dette er din adgangskode
- Klik på Adgang til software
Trin 9) I pop op-vinduet, der vises, efter du har klikket i trin 8
- Indtast brugerlegitimationsoplysninger. Id: sasdemo-adgangskode: instans-id noteret i trin 8
- Klik på Log ind
Trin 10) Du vil se velkomstskærmen.
Fejlfinding
Hvis du ikke kan oprette forbindelse, skal du gå til https://console.aws.amazon.com/ec2/v2/home?region=us-east-1#SecurityGroups:sort=groupId og indgående/udgående regler for alle
Hvordan bruger man SAS?
For effektivt at bruge SAS-software skal du følge fire trin, som er: Adgang til data, ledelsesdata, analyse, præsentere
Adgangsdata:
SAS giver dig adgang til data i ethvert ønsket format, du ønsker.
Du kan tilgå data, der er gemt hvor som helst, uanset om det er i en fil på dit system eller data, der er gemt i et andet databasesystem. Det kan være oracle-fil, SAS-databasefil, Raw-databasefil eller en simpel XLS /CSV-fil. Det vil hjælpe dig med at få adgang til disse data med lethed.
Administrer data:
SAS tilbyder fantastiske datahåndteringsmuligheder. Du kan undersætte/opdele data baseret på visse betingelser, oprette variable, rense og validere data. Der er andre værktøjer, som giver dig mulighed for at udføre den samme opgave. SAS hjælper dig dog med at udføre dette job med lethed.
SAS har veldefinerede biblioteker og processer, som gør programmeringsprocessen let. Desuden er oprettelse af variable eller delmængdedata kun et trins proces. Dette sparer dig for at skrive komplekse algoritmer med kun en enkelt linje kode.
Analysere:
Du kan lave forskellige former for analyser ved hjælp af SAS:
- Den kontrollerer beregning af gennemsnitsfrekvens
- Regression og prognose
- Beslutningstræ
Alle disse analyser kan SAS nemt håndtere. Det er det bedste værktøj til nøjagtige prognoser.
Present:
Hvis du visualiserer data korrekt, er det ubesværet for publikum at forholde sig til det. Det er vigtigt, at dit værktøj præsenterer dataene på en passende måde. Det er, hvad SAS gør for dig. Det har fremragende præsentationsmuligheder.
Du kan:
1. Liste rapporter
2. Sammenfattende rapporter
3. Grafrapporter
4. Udskriv rapporter
Eksempel på SAS-program
SAS-programmet består af tre nødvendige trin:
- Datatrin
- Proc Trin
- Output trin
DATA Trin
Datatrin indlæser det nødvendige datasæt i SAS-hukommelsen og finder de korrekte variabler for datasættet. Det fanger også optegnelserne. Vi kan bruge datatrin til at:
- Indtast data i SAS-datasæt
- Beregn værdier
- Kontroller eller ret data
- Fremstil nye datasæt
Syntaksen for DATA-sætning er:
Syntaks
DATA data_set_name; #Give a name to the dataset INPUT var1,var2,var3; #Declare variables in the dataset. NEW_VAR; #Define new variables. LABEL; #Give variables a label DATALINES; #Provide data RUN;
Eksempel:
Følgende eksempel viser, hvordan man definerer en variabel, navngiver datasættet, opretter nye variabler og indtaster dataene. I dette eksempel kan du se, at strengvariabelen har en $ i slutningen, og numeriske værdier er uden den.
INPUT ID $ NAME $ SALARY DEPARTMENT $; comm = SALARY*1.50; LABEL ID = 'Emp_ID' comm = 'COMMISION'; DATALINES; 1 Tom 5000 IT 2 Harry 6000 Operations 3 Michelle 7000 IT 4 Dick 8000 HR 5 John 9000 Finance ; RUN;
Bemærk: For at udføre SAS Statement skal du angive RUN-kommandoen.
PROC Trin
Det udfører specifikke analyser eller funktioner for at producere resultater og rapporter.
Syntaks
PROC procedure_name options; #The name of the proc. RUN;
Eksempel
Det givne eksempel bruger MIDLER procedure for at udskrive middelværdierne af de numeriske variable i datasættet.
PROC MEANS; RUN;
OUTPUT-trinnet
Du kan vise dataene fra dataene med betingede output-sætninger.
Syntaks
PROC PRINT DATA = data_set; OPTIONS; RUN;
Hvert SAS-program skal følge alle ovennævnte trin for at læse inputdataene, analysere dataene og give output fra analysen. Det LØB sætning i slutningen af hvert trin afslutter udførelsen af dette trin.
Det komplette SAS-program
Nedenfor er den komplette kode for hvert af ovenstående trin.
Output:
Hvor bruges SAS?
Nedenfor er givet nogle vigtige SAS-applikationer:
Industri | Brug |
---|---|
Pharmaceutical | Statistisk Analyse, Rapportering |
Telecom | ETL, Rapportering, Data Mining, Forecasting |
Finans | ETL, Rapportering, Data Mining, Finansiel research |
Forudsigelig modellering | DBMarketing, aktivitetsbaseret ledelse |
Medicinal | ETL, rapportering, Data Mining |
SAS vs. R
SAS | R |
---|---|
SAS er kommerciel software, så det kræver en økonomisk investering. | R er open source software. Derfor kan alle bruge det. |
SAS er det nemmeste analytiske værktøj at lære. Selv folk med begrænset viden om SQL kan lære det hurtigt. | R kræver, at du skriver komplicerede og lange koder. |
SAS er et meget foretrukket valg af store virksomheder og er ret teknisk avanceret og brugervenligt. | R er hurtigt udviklende software; du skal dog blive ved med at opgradere den. |
SAS har god grafisk support, men tilbyder ikke nogen tilpasning. | Den grafiske understøttelse af R-værktøjet er meget dårlig. |
Fordele ved SAS
- SAS har en nem syntaks, som kan læres uden nogen form for programmeringsviden
- Evne til at håndtere en stor database med lethed
- SAS er et meget forståeligt sprog, som nemt kan fejlsøges
- Dens "log"-vindue angiver tydeligt fejlen, som hjælper dig med at fejlsøge din kode nemt
- SAS hjælper dig med at teste og analysere algoritmen grundigt
- SAS er fuldstændig sikret, så du ikke kan udtrække uden licens på kontoret
- Gør statistisk databehandling lettere for ikke-programmerende brugere
- Håndterer store databaser effektivt.
Ulemper ved SAS
- Omkostningerne er høje, fordi individ eller organisation ikke kan bruge alle applikationer uden en ordentlig licens
- SAS er ikke open source, så algoritmer, der bruges i SAS, er ikke tilgængelige til almindelig brug
- Tekstmining er en meget besværlig og vanskelig proces i SAS.
Resumé
- SAS-software, der betyder statistisk analysesoftware, som bruges til dataanalyse
- R og Python er to udbredte alternative værktøjer fra SAS.
- SAS blev udviklet af Jim Goodnight og John Shall i 1970 ved NC University
- SAS giver dig adgang til rådatafiler og data i en ekstern database af enhver art
- SAS-arkitekturen er hovedsageligt opdelt i tre dele 1) Klientniveau 2) Mellemniveau 3) Bagerste niveau
- For at bruge SAS-software skal du følge fire trin, som er: 1) Adgang til data, 2) Ledelse 3) Analyser data, 4) Præsentation
- SAS-programmet består af tre grundlæggende trin: Data Step, Proc Step og Output Step
- SAS dataanalyseværktøj er meget udbredt i sektorer som farmaceutisk, telekommunikation, finans, prædiktiv modellering og sundhedspleje
- SAS er kommerciel software, mens R er open source-software
- Den største fordel ved SAS programmørværktøj er, at det har en nem syntaks, der kan læres uden nogen form for programmeringsviden.
- En af ulemperne ved SAS-modellen er, at det ikke er et open source-værktøj. Så algoritmer, der bruges i SAS-procedurer, er ikke tilgængelige til almindelig brug.