SAS-veiledning for nybegynnere: Hva er og programmeringseksempel

Hva er SAS?

SAS er en kommandodrevet statistisk programvarepakke som er mye brukt for statistisk dataanalyse og visualisering. SAS full form er Statistical Analysis Software. Den lar deg bruke kvalitative teknikker og prosesser som hjelper deg med å forbedre ansattes produktivitet og forretningsfortjeneste. SAS brukes også til avanserte analyser som business intelligence, kriminalitetsetterforskning og prediktiv analyse. SAS uttales som "SaaS."

I SAS trekkes og kategoriseres data som hjelper deg med å identifisere og analysere datamønstre. Det er en programvarepakke som lar deg utføre avansert analyse, Business Intelligence, Predictive Analysis, dataadministrasjon for å fungere effektivt i konkurransedyktige og skiftende forretningsforhold. Dessuten er SAS plattformuavhengig, noe som betyr at du kan kjøre SAS på alle operativsystemer, enten Linux eller Windows.

Sammenlignet med andre BI -verktøy, gir SAS omfattende støtte for å programmatisk transformere og analysere data, bortsett fra å bruke dra-og-slipp-grensesnittet. Dette gir svært detaljert kontroll over datamanipulering og analyser som er dens USP.

Hvorfor trenger vi SAS?

La oss forstå behovet for SAS med et enkelt eksempel:

Vurder et e-handelsselskap som ønsker å vite kjøpsmønstrene til kundene sine basert på historiske data. Selskapet må vurdere tusenvis av registreringer av flere kunder for å få generalisert innsikt.

Selskapet har kanskje ikke alle disse dataene som kreves for analysen. For eksempel, hvis en kunde ikke kjøpte en jakke, hva er faktorene som stoppet dem fra å kjøpe jakken? Disse manglende dataene kan skape feil i analysen din. Hvordan kan du bli kvitt disse problemene? Hvordan kan vi håndtere denne typen data?

Hvis den gjøres manuelt, vil denne oppgaven kreve hundrevis av analytikere og tusenvis av arbeidstimer. Ved å bruke SAS analyseverktøy kan du gjøre den samme analysen i løpet av få timer med en enkelt analytiker. SAS-verktøyet lar deg eliminere unødvendige data og optimalisere relevant informasjon. Det vil gjøre deg i stand til å forutsi et utfall selv med manglende data. SAS gjør det mulig for deg å ta bedre beslutninger.

Alternative SAS-verktøy

Alternative SAS-verktøy

R: Det er åpen kildekode-programvare. Det er lett å lære R da det er godt dokumentert. Det tilbyr sterke statistiske muligheter.

Python er et annet populært skriptspråk med åpen kildekode. Den støtter biblioteker som Numpy, Scipy og MatPlotLib. Du kan utføre hvilken som helst statistisk operasjon, eller du kan bygge hvilken som helst modell ved å bruke disse bibliotekene.

SAS: Det er det mye brukte analytiske verktøyet i det kommersielle analysemarkedet. Med en mengde statistiske funksjoner og god GUI.

I denne SAS-programmeringsveiledningen vil vi diskutere om Statistical Analytical Systems, og hvordan det kan brukes til å løse problemene våre.

SAS historie

  • SAS ble utviklet av Jim Goodnight og John Shall i 1970 ved NC University
  • Opprinnelig ble den utviklet for landbruksforskning.
  • Later, utvidet det til en rekke verktøy for å inkludere Predictive Analytics, Data Management, BI blant andre.
  • I dag bruker 98 av verdens beste selskaper i Fortune 400 SAS dataanalyseverktøy for Dataanalyse.

Neste i denne SAS-språkopplæringen vil vi lære om funksjonene til SAS.

SAS-funksjoner

Hovedtrekkene til SAS er:

  • Få enkel tilgang til rådatafiler og data fra en ekstern database. Les og skriv nesten alle dataformater!
  • Administrer data ved å bruke verktøy for dataregistrering, redigeringshenting, formatering og konvertering
  • Analyser data ved å bruke beskrivende, statistikk, multivariate teknikker, prognoser, modellering, lineær programmering
  • Avansert analyse hjelper deg med å gjøre endringer og forbedringer i forretningspraksis.
  • Rapportformasjon med perfekte grafer
  • Operaforskning og prosjektledelse
  • Dataoppdatering og modifikasjon
  • Kraftig datahåndteringsspråk
  • Utmerkede datarensefunksjoner
  • Samhandle med flere vertssystemer

Neste i denne veiledningen for SAS for nybegynnere vil vi lære om SAS Product Suite.

SAS Product Suite

Det er mange SAS-produkter tilgjengelig på markedet. Følgende er en liste over de mest populære.

Navn Tekniske beskrivelser
Base SAS Base SAS-programvare tilbyr maskinvare smidighet og integreres i alle slags datamiljøer.
SAS/GRAPH Dette verktøyet hjelper deg med å representere strukturerte data i grafer.
SAS/STAT Dette verktøyet hjelper deg med å utføre ulike typer regresjon, statistisk analysevarians, regresjon og psykometrisk analyse.
SAS/ETS Den brukes til prognoser. Hjelper deg med å utføre tidsserieanalysen.
SAS/IML Interaktivt matrikkspråk er kjent som IML. Dette verktøyet hjelper deg med å oversette matematiske formler til et innovativt program.
SAS EBI Et verktøy for Business Intelligence-applikasjoner
SAS nettsjef Det er en kjernekomponent som tilbyr databehandlingsanlegg og et programmeringsspråk for dataanalyse
SAS/OR Verktøy for Operasjonsforskning
SAS/QC Brukes til kvalitetskontroll
SAS/Enterprise Miner Datautvinning
SAS/PH Klinisk prøveanalyse
SAS/AF Det tilbyr applikasjonsmuligheter
Enterprise Guide Det er en GUI-basert koderedigerer og prosjektleder

Neste i denne SAS-veiledningen vil vi lære om SAS-arkitektur.

SAS Architecture

SAS Architecture
Architecture av SAS

SAS-arkitektur er hovedsakelig delt inn i tre deler:

  • Klientnivå
  • Midttrinn
  • Bakre lag

Klientnivå

Klientnivå er der applikasjonen er installert på en maskin, hvor brukeren sitter. Den består av komponentene som brukes til å se portalen og dens innhold. Den inkluderer også en standard nettleser som brukes til å samhandle med portalen over standard HTTP- eller HTTPS-protokoller. Det hjelper deg også å gjøre SAS-nettapplikasjonens brannmurvennlig.

Mellomlag

Mellomlaget tilbyr et sentralisert tilgangspunkt for bedriftsinformasjon. All tilgang til innhold behandles av komponenter som opererer på dette nivået. Separasjonen av forretningslogikken med visningslogikken hjelper deg å utnytte logikken til mellomlaget. I tillegg gjør sentraliserte tilgangspunkter det enklere å håndheve sikkerhetsregler, administrere portalen og administrere kodeendringer.

Mellomnivået har følgende funksjoner:

Webapplikasjon for SAS informasjonsleveringsportal: Det er samlingen av JSP, Java servlets, JavaBønner og andre klasser og ressurser. Disse komponentene hjelper deg med å få tilgang til informasjon som er lagret i bedriftskatalogen for å lage et tilpassbart grensesnitt for brukeren.

Servlet-motor: Servletmotoren kalles også en servletbeholder. Det er ansvarlig for å administrere SAS Information Delivery Portal Web Application. Servlet-motoren tilbyr et driftstidsmiljø. Det gir samtidighet, distribusjon, livssyklusadministrasjon, etc.

Nettserver: Webserver tilbyr tjenester for servletmotoren som kan brukes til å være vert for nettstedet. Dette bør nås via portalen.

Bakre lag

Back tier er et område hvor data- og beregningsservere kjører som kan inneholde forretningsobjekter. Det er en bedriftskatalogserver. Bedriftskatalogserveren opprettholder metadata om innhold som er plassert i hele bedriften.

Hvordan laste ned og installere SAS

Lokal nedlasting på maskinen din

Trinn 1) Last ned SAS fra gitt link

Gå til denne lenken https://www.sas.com/en_in/software/university-edition.html og klikk på Get Free Software.

Last ned og installer SAS

Trinn 2) Velg din Operating System

Velg operativsystem i henhold til ditt system.

Last ned og installer SAS

Trinn 3) Last ned og installer virtualiseringsprogramvare

SAS krever virtualiseringsprogramvare som VirtualBox skal installeres før den kan installeres. Her er de detaljerte trinnene

Last ned og installer SAS

Følg trinnene nevnt på skjermen for å installere SAS. Å ha VirtualBox og lokal installasjon kan noen ganger være vanskelig. Vi anbefaler AWS installasjon-

AWS installasjon

Du kan distribuere SAS i AWS. Det er kvalifisert for gratis nivå.

Trinn 1) Gå til https://aws.amazon.com/marketplace/pp/B00WH10IKW. Klikk "Fortsett å abonnere"

Last ned og installer SAS

Trinn 2) I denne neste skjermen, Godta vilkårene.

Last ned og installer SAS

Trinn 3) Det tar opptil 10 minutter å godkjenne abonnementet. Du vil se følgende skjermbilde.

Last ned og installer SAS

Trinn 4) Oppdater siden, og du vil bekrefte abonnementet. Klikk på Fortsett til konfigurasjon

Last ned og installer SAS

Trinn 5) Behold standardinnstillingene og klikk på Fortsett til start.

Last ned og installer SAS

Trinn 6) Revse konfigurasjonssiden. Skriv inn et nøkkelverdi-par. Hvileinnstillinger skal være standard. Klikk på Start

Last ned og installer SAS

Trinn 7) Gå til https://aws.amazon.com/marketplace/library/ og klikk på Vis forekomster.

Last ned og installer SAS

Trinn 8) I popup

  1. Legg merke til forekomst-ID. Dette er passordet ditt
  2. Klikk på Tilgang til programvare

Last ned og installer SAS

Trinn 9) I popup-vinduet vises det etter at du har klikket i trinn 8

  1. Skriv inn brukerlegitimasjon. ID: sasdemo-passord: forekomst-ID notert i trinn 8
  2. Klikk på Logg på

Last ned og installer SAS

Trinn 10) Du vil se velkomstskjermen.

Last ned og installer SAS

Feilsøking

Hvis du ikke kan koble til, gå til https://console.aws.amazon.com/ec2/v2/home?region=us-east-1#SecurityGroups:sort=groupId og inngående/utgående regler for alle

Hvordan bruke SAS?

For å bruke SAS-programvare effektivt må du følge fire trinn som er: Få tilgang til data, administrasjonsdata, Analyse, Presenter

Slik bruker du SAS
Slik bruker du SAS

Tilgangsdata:

SAS lar deg få tilgang til data i hvilket som helst ønsket format du ønsker.

Du kan få tilgang til data som er lagret hvor som helst, enten det er i en fil på systemet ditt eller data som er lagret i et annet databasesystem. Det kan være oracle-fil, SAS-databasefil, Raw Database-fil eller en enkel XLS /CSV-fil. Det vil hjelpe deg å få tilgang til disse dataene med letthet.

Administrer data:

SAS tilbyr gode databehandlingsmuligheter. Du kan undersette/skjære data basert på visse forhold, lage variable, rense og validere data. Det finnes andre verktøy som lar deg utføre den samme oppgaven. SAS hjelper deg imidlertid med å utføre denne jobben med letthet.

SAS har veldefinerte biblioteker og prosesser som gjør programmeringsprosessen enkel. Dessuten er å lage variable eller delsettdata bare ett trinn. Dette sparer deg for å skrive komplekse algoritmer med bare en enkelt kodelinje.

Analysere:

Du kan gjøre ulike typer analyser ved hjelp av SAS:

  • Den kontrollerer beregningen av gjennomsnittlig frekvens
  • Regresjon og prognoser
  • Beslutningstre

Alle disse analysene kan enkelt håndteres av SAS. Det er det beste verktøyet for nøyaktige prognoser.

Present:

Hvis du visualiserer data riktig, er det enkelt for publikum å forholde seg til det. Det er viktig at verktøyet ditt presenterer dataene på en passende måte. Det er det SAS gjør for deg. Den har utmerkede presentasjonsevner.

Du kan:

1. Liste rapporter

2. Sammendragsrapporter

3. Grafrapporter

4. Skriv ut rapporter

Eksempel på SAS-program

SAS-programmet består av tre nødvendige trinn:

  • Datatrinn
  • Proc Step
  • Utgangstrinn

DATA trinn

Datatrinn laster det nødvendige datasettet inn i SAS-minnet og finner de riktige variablene for datasettet. Den fanger også opp postene. Vi kan bruke datatrinn til å:

  • Legg inn data i SAS-datasett
  • Beregn verdier
  • Kontroller eller korriger data
  • Lag nye datasett

Syntaksen for DATA-setningen er:

syntax

DATA data_set_name;		#Give a name to the dataset
INPUT var1,var2,var3; 		#Declare variables in the dataset.
NEW_VAR;			         #Define new variables.
LABEL;			      	#Give variables a label
DATALINES;		      	#Provide data
RUN;

Eksempel:

Følgende eksempel viser hvordan du definerer en variabel, navngir datasettet, oppretter nye variabler og legger inn dataene. I dette eksemplet kan du se at strengvariabelen har en $ på slutten, og numeriske verdier er uten.

INPUT ID $ NAME $ SALARY DEPARTMENT $;
comm = SALARY*1.50;
LABEL ID = 'Emp_ID' comm = 'COMMISION';
DATALINES;
1 Tom 5000 IT
2 Harry 6000 Operations
3 Michelle 7000 IT
4 Dick 8000 HR
5 John 9000 Finance 
;
RUN;

Merk: For å utføre SAS Statement må du spesifisere RUN-kommandoen.

PROC trinn

Den utfører spesifikke analyser eller funksjoner for å produsere resultater og rapporter.

syntax

PROC procedure_name options; #The name of the proc.
RUN;

Eksempel

Det gitte eksemplet bruker MIDLER prosedyre for å skrive ut gjennomsnittsverdiene til de numeriske variablene i datasettet.

PROC MEANS;
RUN;

OUTPUT-trinnet

Du kan vise dataene fra dataene med betingede utdatasetninger.

syntax

PROC PRINT DATA = data_set;
OPTIONS;
RUN;

Hvert SAS-program må følge alle trinnene ovenfor for å lese inndataene, analysere dataene og gi resultatet av analysen. De LØPE uttalelse på slutten av hvert trinn fullfører utførelsen av det trinnet.

Det komplette SAS-programmet

Nedenfor er den komplette koden for hvert av trinnene ovenfor.

Det komplette SAS-programmet

Utgang:

Det komplette SAS-programmet

Det komplette SAS-programmet

Det komplette SAS-programmet

Hvor brukes SAS?

Nedenfor er noen viktige SAS-applikasjoner:

Industri bruk
Pharmaceutical Statistisk analyse, rapportering
Telecom ETL, rapportering, datautvinning, prognoser
Finans ETL, Rapportering, Data Mining, Finansiell forskning
Forutsigende modellering DBMarketing, aktivitetsbasert ledelse
Helsevesen ETL, rapportering, Data Mining

SAS vs. R

SAS R
SAS er kommersiell programvare, så det krever en økonomisk investering. R er åpen kildekode programvare. Derfor kan hvem som helst bruke den.
SAS er det enkleste analytiske verktøyet å lære. Selv personer med begrenset kunnskap om SQL kan lære det raskt. R krever at du skriver kompliserte og lange koder.
SAS er et svært foretrukket valg av store selskaper og er ganske teknisk avansert og brukervennlig. R er raskt utviklende programvare; men du må fortsette å oppgradere den.
SAS har god grafisk støtte, men tilbyr ingen tilpasning. Grafisk støtte for R-verktøyet er svært dårlig.

Fordeler med SAS

  • SAS har en enkel syntaks som kan læres uten noen form for programmeringskunnskap
  • Evne til å håndtere en stor database med letthet
  • SAS er et veldig forståelig språk som enkelt kan feilsøkes
  • "Logg"-vinduet viser tydelig feilen som hjelper deg å feilsøke koden din enkelt
  • SAS hjelper deg med å teste og analysere algoritmen grundig
  • SAS er fullstendig sikret slik at du ikke kan trekke ut uten lisens på kontoret
  • Gjør statistisk databehandling enklere for ikke-programmerende brukere
  • Håndterer store databaser effektivt.

Ulemper med SAS

  • Kostnadene er høye fordi enkeltpersoner eller organisasjoner ikke kan bruke alle applikasjoner uten en riktig lisens
  • SAS er ikke åpen kildekode, så algoritmer som brukes i SAS er ikke tilgjengelige for vanlig bruk
  • Tekstutvinning er en svært plagsom og vanskelig prosess i SAS.

Sammendrag

  • SAS-programvare betyr Statistical Analysis Software som brukes til dataanalyse
  • R og Python er to mye brukte alternative verktøy av SAS.
  • SAS ble utviklet av Jim Goodnight og John Shall i 1970 ved NC University
  • SAS lar deg få tilgang til rådatafiler og data i en ekstern database av noe slag
  • SAS-arkitektur er hovedsakelig delt i tre deler 1) Klientnivå 2) Mellomnivå 3) Bakre nivå
  • For å bruke SAS-programvare må du følge fire trinn som er: 1) Få tilgang til data, 2) Administrasjon 3) Analyser data, 4) Presentasjon
  • SAS-programmet består av tre grunnleggende trinn: Data Step, Proc Step og Output Step
  • SAS dataanalyseverktøy er mye brukt i sektorer som farmasøytisk, telekom, finans, prediktiv modellering og helsevesen
  • SAS er kommersiell programvare mens R er åpen kildekode
  • Den største fordelen med SAS programmererverktøy er at det har en enkel syntaks som kan læres uten noen form for programmeringskunnskap.
  • En av ulempene med SAS-modellen er at den ikke er et åpen kildekodeverktøy. Så algoritmer som brukes i SAS-prosedyrer er ikke tilgjengelige for vanlig bruk.