SAS-tutorial voor beginners: wat is en programmeervoorbeeld

Wat is SAS?

SAS is een opdrachtgestuurde statistische softwaresuite die veel wordt gebruikt voor de analyse en visualisatie van statistische gegevens. De volledige vorm van SAS is statistische analysesoftware. Hiermee kunt u kwalitatieve technieken en processen gebruiken die u helpen de productiviteit van uw werknemers en de bedrijfswinsten te verbeteren. SAS wordt ook gebruikt voor geavanceerde analyses, zoals bedrijfsinformatie, misdaadonderzoek en voorspellende analyses. SAS wordt uitgesproken als ‘SaaS’.

In SAS worden gegevens geëxtraheerd en gecategoriseerd, wat u helpt bij het identificeren en analyseren van gegevenspatronen. Het is een softwarepakket waarmee u geavanceerde analyses, Business Intelligence, Predictive Analysis en gegevensbeheer kunt uitvoeren om effectief te kunnen opereren in de concurrerende en veranderende zakelijke omstandigheden. Bovendien is SAS platformonafhankelijk, wat betekent dat u SAS op elk besturingssysteem kunt uitvoeren, Linux of Windows.

In vergelijking met andere BI-tools, biedt SAS uitgebreide ondersteuning voor het programmatisch transformeren en analyseren van gegevens, naast het gebruik van de drag-and-drop-interface. Dit biedt zeer gedetailleerde controle over gegevensmanipulatie en -analyses, wat de USP is.

Waarom hebben we SAS nodig?

Laten we de noodzaak van SAS begrijpen met een eenvoudig voorbeeld:

Denk aan een e-commercebedrijf dat de kooppatronen van zijn klanten wil kennen op basis van historische gegevens. Het bedrijf zal duizenden records van meerdere klanten moeten overwegen om een ​​algemeen inzicht te krijgen.

Het bedrijf beschikt mogelijk niet over al deze gegevens die nodig zijn voor de analyse. Als een klant bijvoorbeeld geen jas heeft gekocht, wat zijn dan de factoren die hem ervan weerhouden de jas te kopen? Deze ontbrekende gegevens kunnen fouten in uw analyse veroorzaken. Hoe kunnen we van deze problemen afkomen? Hoe kunnen we omgaan met dit soort gegevens?

Als u dit handmatig doet, zijn er honderden analisten en duizenden manuren nodig voor deze taak. Met de SAS-analysetool kunt u dezelfde analyse in een kwestie van uren uitvoeren met één analist. Met de SAS-tool kunt u onnodige gegevens verwijderen en de relevante informatie optimaliseren. Hiermee kunt u een uitkomst voorspellen, zelfs met ontbrekende gegevens. Met SAS kunt u betere beslissingen nemen.

Alternatieve SAS-tools

Alternatieve SAS-tools

R: Het is open-source software. Het is makkelijk om R te leren omdat het goed gedocumenteerd is. Het biedt sterke statistische mogelijkheden.

Python is een andere populaire open-source scripttaal. Het ondersteunt bibliotheken zoals Numpy, Scipy en MatPlotLib. U kunt elke statistische bewerking uitvoeren of u kunt elk model bouwen met behulp van deze bibliotheken.

SAS: Het is de veelgebruikte analytische tool in de commerciële analysemarkt. Met een overvloed aan statistische functies en een goede GUI.

In deze SAS-programmeertutorial bespreken we statistische analytische systemen en hoe deze kunnen worden gebruikt om onze problemen op te lossen.

SAS-geschiedenis

  • SAS werd in 1970 ontwikkeld door Jim Goodnight en John Shall aan de NC University
  • Aanvankelijk werd het ontwikkeld voor landbouwonderzoek.
  • Laterbreidde het zich uit tot een scala aan tools, waaronder Predictive Analytics, Data Management en BI.
  • Tegenwoordig gebruiken 98 van 's werelds beste bedrijven in Fortune 400 de SAS-data-analysetool voor Gegevensanalyse.

Vervolgens leren we in deze SAS-taaltutorial over de functies van SAS.

SAS-functies

De belangrijkste kenmerken van SAS zijn:

  • Krijg eenvoudig toegang tot onbewerkte gegevensbestanden en gegevens vanuit een externe database. Lees en schrijf vrijwel elk gegevensformaat!
  • Beheer gegevens met behulp van tools voor gegevensinvoer, bewerken, ophalen, opmaak en conversie
  • Analyseer gegevens met behulp van beschrijvende, statistische, multivariate technieken, prognoses, modellering en lineaire programmering
  • Geavanceerde analyses helpen u veranderingen en verbeteringen in de bedrijfspraktijk aan te brengen.
  • Rapportvorming met perfecte grafieken
  • Operaonderzoek en projectmanagement
  • Updaten en wijzigen van gegevens
  • Krachtige taal voor gegevensverwerking
  • Uitstekende functies voor het opschonen van gegevens
  • Communiceer met meerdere hostsystemen

Vervolgens leren we in deze SAS voor beginners-tutorial over de SAS-productsuite.

SAS-productsuite

Er zijn veel SAS-producten op de markt. Hieronder volgt een lijst met de populairste.

Naam Beschrijving
Basis SAS Base SAS-software biedt hardwareflexibiliteit en kan worden geïntegreerd in alle soorten computeromgevingen.
SAS/GRAFIEK Deze tool helpt u om gestructureerde gegevens in grafieken weer te geven.
SAS/STAT Deze tool helpt u bij het uitvoeren van verschillende soorten regressie, statistische variantieanalyse, regressie en psychometrische analyse.
SAS/ETS Het wordt gebruikt voor prognoses. Helpt u bij het uitvoeren van de tijdreeksanalyse.
SAS/IML Interactive Matric language staat bekend als IML. Deze tool helpt u wiskundige formules te vertalen naar een innovatief programma.
SAS EBI Een hulpmiddel voor Business Intelligence-toepassingen
SAS-netbeheerder Het is een kerncomponent die gegevensbeheerfaciliteiten en een programmeertaal voor gegevensanalyse biedt
SAS/OF Tool voor Operaonderzoek
SAS/QC Gebruik voor kwaliteitscontrole
SAS/Enterprise Mijnwerker data mining
SAS/PH Klinische proefanalyse
SAS/AF Het biedt toepassingsmogelijkheden
Ondernemingsgids Het is een op GUI gebaseerde code-editor en projectmanager

In de volgende SAS-zelfstudiegids gaan we dieper in op de SAS-architectuur.

SAS Architectuur

SAS Architectuur
Archistructuur van SAS

De SAS-architectuur bestaat hoofdzakelijk uit drie delen:

  • Klantlaag
  • Middle-tier
  • Achterste laag

Klantniveau

Clientlaag is waar de applicatie wordt geïnstalleerd op een machine, waar de gebruiker zit. Het bestaat uit de componenten die worden gebruikt om het portaal en de inhoud ervan te bekijken. Het bevat ook een standaard webbrowser die wordt gebruikt voor interactie met de portal via het standaard HTTP- of HTTPS-protocol. Het helpt u ook om de SAS-webapplicatie firewallvriendelijk te maken.

Middle-tier

De middle tier biedt een gecentraliseerd toegangspunt voor bedrijfsinformatie. Alle toegang tot content wordt verwerkt door componenten die op deze tier werken. De scheiding van de bedrijfslogica met weergavelogica helpt u de logica van de middle tier te benutten. Bovendien maken gecentraliseerde toegangspunten het eenvoudiger om beveiligingsregels af te dwingen, de portal te beheren en codewijzigingen te beheren.

De middelste laag herbergt de volgende functies:

SAS Information Delivery Portal-webapplicatie: Het is de verzameling van JSP, Java servetten, JavaBonen en andere klassen en bronnen. Deze componenten helpen u toegang te krijgen tot informatie die is opgeslagen in de bedrijfsdirectory en zo een aanpasbare interface voor de gebruiker te creëren.

Servlet-engine: De servlet-engine wordt ook wel een servlet-container genoemd. Het is verantwoordelijk voor het beheer van de SAS Information Delivery Portal-webapplicatie. De servlet-engine biedt een runtime-omgeving. Het biedt gelijktijdigheid, implementatie, levenscyclusbeheer, enz.

Web Server: Webserver biedt service voor de servlet-engine die kan worden gebruikt om de website te hosten. Dit moet toegankelijk zijn via het portaal.

Terug niveau

De back-tier is een gebied waar de gegevens- en rekenservers draaien en die bedrijfsobjecten kunnen bevatten. Het is een enterprise directory-server. De bedrijfsdirectoryserver houdt metagegevens bij over inhoud die zich overal in de onderneming bevindt.

SAS downloaden en installeren

Lokale download op uw machine

Stap 1) Download SAS via de gegeven link

Ga naar deze link https://www.sas.com/en_in/software/university-edition.html en klik op Gratis software verkrijgen.

Download en installeer SAS

Stap 2) Selecteer uw Operating-systeem

Selecteer het besturingssysteem dat bij uw systeem past.

Download en installeer SAS

Stap 3) Download en installeer virtualisatiesoftware

SAS vereist virtualisatiesoftware zoals VirtualBox moet worden geïnstalleerd voordat deze kan worden geïnstalleerd. Hier zijn de gedetailleerde stappen

Download en installeer SAS

Volg de stappen op het scherm om SAS te installeren. Hebben VirtualBox en lokale installatie kan soms lastig zijn. Wij raden AWS-installatie aan-

AWS-installatie

U kunt SAS implementeren in AWS. Het komt in aanmerking voor de gratis laag.

Stap 1) Ga naar https://aws.amazon.com/marketplace/pp/B00WH10IKW. Klik op “Doorgaan met abonneren”

Download en installeer SAS

Stap 2) In dit volgende scherm, Accepteer voorwaarden.

Download en installeer SAS

Stap 3) Het abonnement is in behandeling en het duurt maximaal 10 minuten om het goed te keuren. U ziet het volgende scherm.

Download en installeer SAS

Stap 4) Vernieuw de pagina en uw abonnement wordt bevestigd. Klik op Doorgaan naar configuratie

Download en installeer SAS

Stap 5) Houd de instellingen standaard en klik op Doorgaan om te starten.

Download en installeer SAS

Stap 6) RevBekijk de configuratiepagina. Voer een sleutel-waardepaar in. Rustinstellingen moeten de standaard zijn. Klik op Starten

Download en installeer SAS

Stap 7) Ga naar https://aws.amazon.com/marketplace/library/ en klik op Instanties bekijken.

Download en installeer SAS

Stap 8) In de pop-up

  1. Noteer de instantie-ID. Dit is uw wachtwoord
  2. Klik op Toegang tot software

Download en installeer SAS

Stap 9) In de pop-up verschijnt die nadat u in stap 8 hebt geklikt

  1. Voer gebruikersreferenties in. Id: sasdemo-wachtwoord: exemplaar-ID genoteerd in stap 8
  2. Klik op Aanmelden

Download en installeer SAS

Stap 10) U krijgt het welkomstscherm te zien.

Download en installeer SAS

Troubleshooting

Als u geen verbinding kunt maken, ga dan naar https://console.aws.amazon.com/ec2/v2/home?region=us-east-1#SecurityGroups:sort=groupId en inkomende/uitgaande regels voor iedereen

Hoe SAS te gebruiken?

Om SAS-software effectief te gebruiken, moet u vier stappen volgen: Toegang tot gegevens, Beheergegevens, Analyseren en Presenteren

SAS gebruiken
SAS gebruiken

Toegangsgegevens:

Met SAS heeft u toegang tot gegevens in elk gewenst formaat.

U kunt overal toegang krijgen tot gegevens die zijn opgeslagen, of het nu in een bestand op uw systeem is of gegevens die zijn opgeslagen in een ander databasesysteem. Het kan een Oracle-bestand, SAS-databasebestand, Raw Database-bestand of een eenvoudig XLS/CSV-bestand zijn. Het zal u helpen om deze gegevens eenvoudig te openen.

Gegevens beheren:

SAS biedt geweldige mogelijkheden voor gegevensbeheer. U kunt gegevens onderverdelen/segmenteren op basis van bepaalde voorwaarden, variabele gegevens creëren, gegevens opschonen en valideren. Er zijn andere tools waarmee u dezelfde taak kunt uitvoeren. SAS helpt u echter om deze taak met gemak uit te voeren.

SAS heeft goed gedefinieerde bibliotheken en processen die het programmeerproces eenvoudig maken. Bovendien is het maken van variabele of subsetgegevens slechts een proces in één stap. Dit bespaart u het schrijven van complexe algoritmen met slechts één regel code.

Analyseren:

Met SAS kunt u verschillende soorten analyses uitvoeren:

  • Het controleert de frequentie van de gemiddelde berekening
  • Regressie en prognoses
  • Beslissingsboom

Al deze analyses kan SAS eenvoudig afhandelen. Het is het beste hulpmiddel voor nauwkeurige voorspellingen.

Aanwezig:

Als u gegevens correct visualiseert, kan het publiek zich er moeiteloos mee identificeren. Het is essentieel dat uw tool de gegevens op een passende manier presenteert. Dat is wat SAS voor u doet. Het heeft uitstekende presentatiemogelijkheden.

U kunt:

1. Lijstrapporten

2. Samenvattende rapporten

3. Grafiekrapporten

4. Rapporten afdrukken

SAS-programmavoorbeeld

Het SAS-programma bestaat uit drie noodzakelijke stappen:

  • Gegevensstap
  • Proc-stap
  • Uitvoerstap

GEGEVENS Stap

Data Step laadt de benodigde dataset in het SAS-geheugen en vindt de juiste variabelen van de dataset. Het legt ook de records vast. We kunnen datastappen gebruiken om:

  • Voer gegevens in SAS-gegevenssets in
  • Bereken waarden
  • Controleer of corrigeer gegevens
  • Produceer nieuwe datasets

De syntaxis voor de DATA-instructie is:

Syntaxis

DATA data_set_name;		#Give a name to the dataset
INPUT var1,var2,var3; 		#Declare variables in the dataset.
NEW_VAR;			         #Define new variables.
LABEL;			      	#Give variables a label
DATALINES;		      	#Provide data
RUN;

Voorbeeld:

Het volgende voorbeeld laat zien hoe u een variabele definieert, de dataset benoemt, nieuwe variabelen maakt en de data invoert. In dit voorbeeld ziet u dat stringvariabelen een $ aan het einde hebben en numerieke waarden zonder.

INPUT ID $ NAME $ SALARY DEPARTMENT $;
comm = SALARY*1.50;
LABEL ID = 'Emp_ID' comm = 'COMMISION';
DATALINES;
1 Tom 5000 IT
2 Harry 6000 Operations
3 Michelle 7000 IT
4 Dick 8000 HR
5 John 9000 Finance 
;
RUN;

Opmerking: Om de SAS-instructie uit te voeren, moet u de opdracht RUN opgeven.

PROC-stap

Het voert specifieke analyses of functies uit om resultaten en rapporten te produceren.

Syntaxis

PROC procedure_name options; #The name of the proc.
RUN;

Voorbeeld

In het gegeven voorbeeld wordt gebruik gemaakt van de MIDDELEN procedure om de gemiddelde waarden van de numerieke variabelen in de gegevensset af te drukken.

PROC MEANS;
RUN;

De OUTPUT-stap

U kunt de gegevens uit de gegevens weergeven met voorwaardelijke uitvoerinstructies.

Syntaxis

PROC PRINT DATA = data_set;
OPTIONS;
RUN;

Elk SAS-programma moet alle bovengenoemde stappen volgen om de invoergegevens te lezen, de gegevens te analyseren en de uitvoer van de analyse te geven. De VLUCHTEN statement aan het einde van elke stap beëindigt de uitvoering van die stap.

Het volledige SAS-programma

Hieronder vindt u de volledige code voor elk van de bovenstaande stappen.

Het complete SAS-programma

Output:

Het complete SAS-programma

Het complete SAS-programma

Het complete SAS-programma

Waar wordt SAS gebruikt?

Hieronder vindt u enkele belangrijke SAS-toepassingen:

Industrie Gebruik
Farmaceutisch Statistische analyse, rapportage
Telecom ETL, rapportage, datamining, prognoses
Financials ETL, Rapportage, Datamining, Financieel onderzoek
Voorspellende modellen DBMarketing, op activiteiten gebaseerd beheer
Gezondheidszorg ETL, rapportage, datamining

SAS versus. R

SAS R
SAS is commerciële software en vereist dus een financiële investering. R is open source-software. Daarom kan iedereen het gebruiken.
SAS is een eenvoudigste analytische tool om te leren. Zelfs mensen met beperkte kennis van SQL kunnen het snel leren. R vereist dat je ingewikkelde en lange codes schrijft.
SAS is een zeer geprefereerde keuze van grote bedrijven en is behoorlijk technisch geavanceerd en gebruiksvriendelijk. R is snel ontwikkelende software; u moet het echter blijven upgraden.
SAS heeft goede grafische ondersteuning, maar biedt geen maatwerk. Grafische ondersteuning van de R-tool is erg slecht.

Voordelen van SAS

  • SAS heeft een eenvoudige syntaxis die kan worden geleerd zonder enige vorm van programmeerkennis
  • Mogelijkheid om met gemak een grote database te beheren
  • SAS is een zeer begrijpelijke taal die gemakkelijk kan worden opgespoord
  • Het “log”-venster vermeldt duidelijk de fout, waardoor u uw code gemakkelijk kunt debuggen
  • SAS helpt u het algoritme grondig te testen en analyseren
  • SAS is volledig beveiligd waardoor u niet zonder licentie op kantoor kunt uitpakken
  • Maakt statistisch computergebruik eenvoudiger voor niet-programmerende gebruikers
  • Kan effectief omgaan met grote databases.

Nadelen van SAS

  • De kosten zijn hoog omdat individuen of organisaties niet alle applicaties kunnen gebruiken zonder de juiste licentie
  • SAS is niet open source, dus de algoritmen die in SAS worden gebruikt, zijn niet beschikbaar voor algemeen gebruik.
  • Text mining is een zeer lastig en moeilijk proces in SAS.

Samenvatting

  • SAS-software betekent statistische analysesoftware die wordt gebruikt voor gegevensanalyse
  • R en Python zijn twee veelgebruikte alternatieve tools van SAS.
  • SAS werd in 1970 ontwikkeld door Jim Goodnight en John Shall aan de NC University
  • Met SAS hebt u toegang tot onbewerkte gegevensbestanden en gegevens in een externe database van welke aard dan ook
  • De SAS-architectuur bestaat hoofdzakelijk uit drie delen: 1) Clientlaag 2) Middenlaag 3) Achterlaag
  • Om SAS-software te gebruiken, moet u vier stappen volgen: 1) Toegang tot gegevens, 2) Beheer 3) Gegevens analyseren, 4) Presentatie
  • Het SAS-programma bestaat uit drie basisstappen: Data Step, Proc Step en Output Step
  • SAS data-analytisch hulpmiddel wordt veel gebruikt in sectoren als de farmaceutische industrie, telecom, financiële dienstverlening, voorspellende modellen en gezondheidszorg
  • SAS is commerciële software, terwijl R open source-software is
  • Het grootste voordeel van de SAS-programmeertool is dat het een eenvoudige syntaxis heeft die kan worden geleerd zonder enige vorm van programmeerkennis.
  • Een van de nadelen van het SAS-model is dat het geen open source-tool is. Algoritmen die in SAS-procedures worden gebruikt, zijn dus niet beschikbaar voor algemeen gebruik.