SAS-veiledning for nybegynnere: Hva er og programmeringseksempel
Hva er SAS?
SAS er en kommandodrevet statistisk programvarepakke som er mye brukt for statistisk dataanalyse og visualisering. SAS full form er Statistical Analysis Software. Den lar deg bruke kvalitative teknikker og prosesser som hjelper deg med å forbedre ansattes produktivitet og forretningsfortjeneste. SAS brukes også til avanserte analyser som business intelligence, kriminalitetsetterforskning og prediktiv analyse. SAS uttales som "SaaS."
I SAS trekkes og kategoriseres data som hjelper deg med å identifisere og analysere datamønstre. Det er en programvarepakke som lar deg utføre avansert analyse, Business Intelligence, Predictive Analysis, dataadministrasjon for å fungere effektivt i konkurransedyktige og skiftende forretningsforhold. Dessuten er SAS plattformuavhengig, noe som betyr at du kan kjøre SAS på alle operativsystemer, enten Linux eller Windows.
Sammenlignet med andre BI -verktøy, gir SAS omfattende støtte for å programmatisk transformere og analysere data, bortsett fra å bruke dra-og-slipp-grensesnittet. Dette gir svært detaljert kontroll over datamanipulering og analyser som er dens USP.
Hvorfor trenger vi SAS?
La oss forstå behovet for SAS med et enkelt eksempel:
Vurder et e-handelsselskap som ønsker å vite kjøpsmønstrene til kundene sine basert på historiske data. Selskapet må vurdere tusenvis av registreringer av flere kunder for å få generalisert innsikt.
Selskapet har kanskje ikke alle disse dataene som kreves for analysen. For eksempel, hvis en kunde ikke kjøpte en jakke, hva er faktorene som stoppet dem fra å kjøpe jakken? Disse manglende dataene kan skape feil i analysen din. Hvordan kan du bli kvitt disse problemene? Hvordan kan vi håndtere denne typen data?
Hvis den gjøres manuelt, vil denne oppgaven kreve hundrevis av analytikere og tusenvis av arbeidstimer. Ved å bruke SAS analyseverktøy kan du gjøre den samme analysen i løpet av få timer med en enkelt analytiker. SAS-verktøyet lar deg eliminere unødvendige data og optimalisere relevant informasjon. Det vil gjøre deg i stand til å forutsi et utfall selv med manglende data. SAS gjør det mulig for deg å ta bedre beslutninger.
Alternative SAS-verktøy
R: Det er åpen kildekode-programvare. Det er lett å lære R da det er godt dokumentert. Det tilbyr sterke statistiske muligheter.
Python er et annet populært skriptspråk med åpen kildekode. Den støtter biblioteker som Numpy, Scipy og MatPlotLib. Du kan utføre hvilken som helst statistisk operasjon, eller du kan bygge hvilken som helst modell ved å bruke disse bibliotekene.
SAS: Det er det mye brukte analytiske verktøyet i det kommersielle analysemarkedet. Med en mengde statistiske funksjoner og god GUI.
I denne SAS-programmeringsveiledningen vil vi diskutere om Statistical Analytical Systems, og hvordan det kan brukes til å løse problemene våre.
SAS historie
- SAS ble utviklet av Jim Goodnight og John Shall i 1970 ved NC University
- Opprinnelig ble den utviklet for landbruksforskning.
- Later, utvidet det til en rekke verktøy for å inkludere Predictive Analytics, Data Management, BI blant andre.
- I dag bruker 98 av verdens beste selskaper i Fortune 400 SAS dataanalyseverktøy for Dataanalyse.
Neste i denne SAS-språkopplæringen vil vi lære om funksjonene til SAS.
SAS-funksjoner
Hovedtrekkene til SAS er:
- Få enkel tilgang til rådatafiler og data fra en ekstern database. Les og skriv nesten alle dataformater!
- Administrer data ved å bruke verktøy for dataregistrering, redigeringshenting, formatering og konvertering
- Analyser data ved å bruke beskrivende, statistikk, multivariate teknikker, prognoser, modellering, lineær programmering
- Avansert analyse hjelper deg med å gjøre endringer og forbedringer i forretningspraksis.
- Rapportformasjon med perfekte grafer
- Operaforskning og prosjektledelse
- Dataoppdatering og modifikasjon
- Kraftig datahåndteringsspråk
- Utmerkede datarensefunksjoner
- Samhandle med flere vertssystemer
Neste i denne veiledningen for SAS for nybegynnere vil vi lære om SAS Product Suite.
SAS Product Suite
Det er mange SAS-produkter tilgjengelig på markedet. Følgende er en liste over de mest populære.
Navn | Tekniske beskrivelser |
---|---|
Base SAS | Base SAS-programvare tilbyr maskinvare smidighet og integreres i alle slags datamiljøer. |
SAS/GRAPH | Dette verktøyet hjelper deg med å representere strukturerte data i grafer. |
SAS/STAT | Dette verktøyet hjelper deg med å utføre ulike typer regresjon, statistisk analysevarians, regresjon og psykometrisk analyse. |
SAS/ETS | Den brukes til prognoser. Hjelper deg med å utføre tidsserieanalysen. |
SAS/IML | Interaktivt matrikkspråk er kjent som IML. Dette verktøyet hjelper deg med å oversette matematiske formler til et innovativt program. |
SAS EBI | Et verktøy for Business Intelligence-applikasjoner |
SAS nettsjef | Det er en kjernekomponent som tilbyr databehandlingsanlegg og et programmeringsspråk for dataanalyse |
SAS/OR | Verktøy for Operasjonsforskning |
SAS/QC | Brukes til kvalitetskontroll |
SAS/Enterprise Miner | Datautvinning |
SAS/PH | Klinisk prøveanalyse |
SAS/AF | Det tilbyr applikasjonsmuligheter |
Enterprise Guide | Det er en GUI-basert koderedigerer og prosjektleder |
Neste i denne SAS-veiledningen vil vi lære om SAS-arkitektur.
SAS Architecture
SAS-arkitektur er hovedsakelig delt inn i tre deler:
- Klientnivå
- Midttrinn
- Bakre lag
Klientnivå
Klientnivå er der applikasjonen er installert på en maskin, hvor brukeren sitter. Den består av komponentene som brukes til å se portalen og dens innhold. Den inkluderer også en standard nettleser som brukes til å samhandle med portalen over standard HTTP- eller HTTPS-protokoller. Det hjelper deg også å gjøre SAS-nettapplikasjonens brannmurvennlig.
Mellomlag
Mellomlaget tilbyr et sentralisert tilgangspunkt for bedriftsinformasjon. All tilgang til innhold behandles av komponenter som opererer på dette nivået. Separasjonen av forretningslogikken med visningslogikken hjelper deg å utnytte logikken til mellomlaget. I tillegg gjør sentraliserte tilgangspunkter det enklere å håndheve sikkerhetsregler, administrere portalen og administrere kodeendringer.
Mellomnivået har følgende funksjoner:
Webapplikasjon for SAS informasjonsleveringsportal: Det er samlingen av JSP, Java servlets, JavaBønner og andre klasser og ressurser. Disse komponentene hjelper deg med å få tilgang til informasjon som er lagret i bedriftskatalogen for å lage et tilpassbart grensesnitt for brukeren.
Servlet-motor: Servletmotoren kalles også en servletbeholder. Det er ansvarlig for å administrere SAS Information Delivery Portal Web Application. Servlet-motoren tilbyr et driftstidsmiljø. Det gir samtidighet, distribusjon, livssyklusadministrasjon, etc.
Nettserver: Webserver tilbyr tjenester for servletmotoren som kan brukes til å være vert for nettstedet. Dette bør nås via portalen.
Bakre lag
Back tier er et område hvor data- og beregningsservere kjører som kan inneholde forretningsobjekter. Det er en bedriftskatalogserver. Bedriftskatalogserveren opprettholder metadata om innhold som er plassert i hele bedriften.
Hvordan laste ned og installere SAS
Lokal nedlasting på maskinen din
Trinn 1) Last ned SAS fra gitt link
Gå til denne lenken https://www.sas.com/en_in/software/university-edition.html og klikk på Get Free Software.
Trinn 2) Velg din Operating System
Velg operativsystem i henhold til ditt system.
Trinn 3) Last ned og installer virtualiseringsprogramvare
SAS krever virtualiseringsprogramvare som VirtualBox skal installeres før den kan installeres. Her er de detaljerte trinnene
Følg trinnene nevnt på skjermen for å installere SAS. Å ha VirtualBox og lokal installasjon kan noen ganger være vanskelig. Vi anbefaler AWS installasjon-
AWS installasjon
Du kan distribuere SAS i AWS. Det er kvalifisert for gratis nivå.
Trinn 1) Gå til https://aws.amazon.com/marketplace/pp/B00WH10IKW. Klikk "Fortsett å abonnere"
Trinn 2) I denne neste skjermen, Godta vilkårene.
Trinn 3) Det tar opptil 10 minutter å godkjenne abonnementet. Du vil se følgende skjermbilde.
Trinn 4) Oppdater siden, og du vil bekrefte abonnementet. Klikk på Fortsett til konfigurasjon
Trinn 5) Behold standardinnstillingene og klikk på Fortsett til start.
Trinn 6) Revse konfigurasjonssiden. Skriv inn et nøkkelverdi-par. Hvileinnstillinger skal være standard. Klikk på Start
Trinn 7) Gå til https://aws.amazon.com/marketplace/library/ og klikk på Vis forekomster.
Trinn 8) I popup
- Legg merke til forekomst-ID. Dette er passordet ditt
- Klikk på Tilgang til programvare
Trinn 9) I popup-vinduet vises det etter at du har klikket i trinn 8
- Skriv inn brukerlegitimasjon. ID: sasdemo-passord: forekomst-ID notert i trinn 8
- Klikk på Logg på
Trinn 10) Du vil se velkomstskjermen.
Feilsøking
Hvis du ikke kan koble til, gå til https://console.aws.amazon.com/ec2/v2/home?region=us-east-1#SecurityGroups:sort=groupId og inngående/utgående regler for alle
Hvordan bruke SAS?
For å bruke SAS-programvare effektivt må du følge fire trinn som er: Få tilgang til data, administrasjonsdata, Analyse, Presenter
Tilgangsdata:
SAS lar deg få tilgang til data i hvilket som helst ønsket format du ønsker.
Du kan få tilgang til data som er lagret hvor som helst, enten det er i en fil på systemet ditt eller data som er lagret i et annet databasesystem. Det kan være oracle-fil, SAS-databasefil, Raw Database-fil eller en enkel XLS /CSV-fil. Det vil hjelpe deg å få tilgang til disse dataene med letthet.
Administrer data:
SAS tilbyr gode databehandlingsmuligheter. Du kan undersette/skjære data basert på visse forhold, lage variable, rense og validere data. Det finnes andre verktøy som lar deg utføre den samme oppgaven. SAS hjelper deg imidlertid med å utføre denne jobben med letthet.
SAS har veldefinerte biblioteker og prosesser som gjør programmeringsprosessen enkel. Dessuten er å lage variable eller delsettdata bare ett trinn. Dette sparer deg for å skrive komplekse algoritmer med bare en enkelt kodelinje.
Analysere:
Du kan gjøre ulike typer analyser ved hjelp av SAS:
- Den kontrollerer beregningen av gjennomsnittlig frekvens
- Regresjon og prognoser
- Beslutningstre
Alle disse analysene kan enkelt håndteres av SAS. Det er det beste verktøyet for nøyaktige prognoser.
Present:
Hvis du visualiserer data riktig, er det enkelt for publikum å forholde seg til det. Det er viktig at verktøyet ditt presenterer dataene på en passende måte. Det er det SAS gjør for deg. Den har utmerkede presentasjonsevner.
Du kan:
1. Liste rapporter
2. Sammendragsrapporter
3. Grafrapporter
4. Skriv ut rapporter
Eksempel på SAS-program
SAS-programmet består av tre nødvendige trinn:
- Datatrinn
- Proc Step
- Utgangstrinn
DATA trinn
Datatrinn laster det nødvendige datasettet inn i SAS-minnet og finner de riktige variablene for datasettet. Den fanger også opp postene. Vi kan bruke datatrinn til å:
- Legg inn data i SAS-datasett
- Beregn verdier
- Kontroller eller korriger data
- Lag nye datasett
Syntaksen for DATA-setningen er:
syntax
DATA data_set_name; #Give a name to the dataset INPUT var1,var2,var3; #Declare variables in the dataset. NEW_VAR; #Define new variables. LABEL; #Give variables a label DATALINES; #Provide data RUN;
Eksempel:
Følgende eksempel viser hvordan du definerer en variabel, navngir datasettet, oppretter nye variabler og legger inn dataene. I dette eksemplet kan du se at strengvariabelen har en $ på slutten, og numeriske verdier er uten.
INPUT ID $ NAME $ SALARY DEPARTMENT $; comm = SALARY*1.50; LABEL ID = 'Emp_ID' comm = 'COMMISION'; DATALINES; 1 Tom 5000 IT 2 Harry 6000 Operations 3 Michelle 7000 IT 4 Dick 8000 HR 5 John 9000 Finance ; RUN;
Merk: For å utføre SAS Statement må du spesifisere RUN-kommandoen.
PROC trinn
Den utfører spesifikke analyser eller funksjoner for å produsere resultater og rapporter.
syntax
PROC procedure_name options; #The name of the proc. RUN;
Eksempel
Det gitte eksemplet bruker MIDLER prosedyre for å skrive ut gjennomsnittsverdiene til de numeriske variablene i datasettet.
PROC MEANS; RUN;
OUTPUT-trinnet
Du kan vise dataene fra dataene med betingede utdatasetninger.
syntax
PROC PRINT DATA = data_set; OPTIONS; RUN;
Hvert SAS-program må følge alle trinnene ovenfor for å lese inndataene, analysere dataene og gi resultatet av analysen. De LØPE uttalelse på slutten av hvert trinn fullfører utførelsen av det trinnet.
Det komplette SAS-programmet
Nedenfor er den komplette koden for hvert av trinnene ovenfor.
Utgang:
Hvor brukes SAS?
Nedenfor er noen viktige SAS-applikasjoner:
Industri | bruk |
---|---|
Pharmaceutical | Statistisk analyse, rapportering |
Telecom | ETL, rapportering, datautvinning, prognoser |
Finans | ETL, Rapportering, Data Mining, Finansiell forskning |
Forutsigende modellering | DBMarketing, aktivitetsbasert ledelse |
Helsevesen | ETL, rapportering, Data Mining |
SAS vs. R
SAS | R |
---|---|
SAS er kommersiell programvare, så det krever en økonomisk investering. | R er åpen kildekode programvare. Derfor kan hvem som helst bruke den. |
SAS er det enkleste analytiske verktøyet å lære. Selv personer med begrenset kunnskap om SQL kan lære det raskt. | R krever at du skriver kompliserte og lange koder. |
SAS er et svært foretrukket valg av store selskaper og er ganske teknisk avansert og brukervennlig. | R er raskt utviklende programvare; men du må fortsette å oppgradere den. |
SAS har god grafisk støtte, men tilbyr ingen tilpasning. | Grafisk støtte for R-verktøyet er svært dårlig. |
Fordeler med SAS
- SAS har en enkel syntaks som kan læres uten noen form for programmeringskunnskap
- Evne til å håndtere en stor database med letthet
- SAS er et veldig forståelig språk som enkelt kan feilsøkes
- "Logg"-vinduet viser tydelig feilen som hjelper deg å feilsøke koden din enkelt
- SAS hjelper deg med å teste og analysere algoritmen grundig
- SAS er fullstendig sikret slik at du ikke kan trekke ut uten lisens på kontoret
- Gjør statistisk databehandling enklere for ikke-programmerende brukere
- Håndterer store databaser effektivt.
Ulemper med SAS
- Kostnadene er høye fordi enkeltpersoner eller organisasjoner ikke kan bruke alle applikasjoner uten en riktig lisens
- SAS er ikke åpen kildekode, så algoritmer som brukes i SAS er ikke tilgjengelige for vanlig bruk
- Tekstutvinning er en svært plagsom og vanskelig prosess i SAS.
Sammendrag
- SAS-programvare betyr Statistical Analysis Software som brukes til dataanalyse
- R og Python er to mye brukte alternative verktøy av SAS.
- SAS ble utviklet av Jim Goodnight og John Shall i 1970 ved NC University
- SAS lar deg få tilgang til rådatafiler og data i en ekstern database av noe slag
- SAS-arkitektur er hovedsakelig delt i tre deler 1) Klientnivå 2) Mellomnivå 3) Bakre nivå
- For å bruke SAS-programvare må du følge fire trinn som er: 1) Få tilgang til data, 2) Administrasjon 3) Analyser data, 4) Presentasjon
- SAS-programmet består av tre grunnleggende trinn: Data Step, Proc Step og Output Step
- SAS dataanalyseverktøy er mye brukt i sektorer som farmasøytisk, telekom, finans, prediktiv modellering og helsevesen
- SAS er kommersiell programvare mens R er åpen kildekode
- Den største fordelen med SAS programmererverktøy er at det har en enkel syntaks som kan læres uten noen form for programmeringskunnskap.
- En av ulempene med SAS-modellen er at den ikke er et åpen kildekodeverktøy. Så algoritmer som brukes i SAS-prosedyrer er ikke tilgjengelige for vanlig bruk.