SAS-tutorial voor beginners: wat is en programmeervoorbeeld
Wat is SAS?
SAS is een opdrachtgestuurde statistische softwaresuite die veel wordt gebruikt voor de analyse en visualisatie van statistische gegevens. De volledige vorm van SAS is statistische analysesoftware. Hiermee kunt u kwalitatieve technieken en processen gebruiken die u helpen de productiviteit van uw werknemers en de bedrijfswinsten te verbeteren. SAS wordt ook gebruikt voor geavanceerde analyses, zoals bedrijfsinformatie, misdaadonderzoek en voorspellende analyses. SAS wordt uitgesproken als ‘SaaS’.
In SAS worden gegevens geëxtraheerd en gecategoriseerd, wat u helpt bij het identificeren en analyseren van gegevenspatronen. Het is een softwarepakket waarmee u geavanceerde analyses, Business Intelligence, Predictive Analysis en gegevensbeheer kunt uitvoeren om effectief te kunnen opereren in de concurrerende en veranderende zakelijke omstandigheden. Bovendien is SAS platformonafhankelijk, wat betekent dat u SAS op elk besturingssysteem kunt uitvoeren, Linux of Windows.
In vergelijking met andere BI-tools, biedt SAS uitgebreide ondersteuning voor het programmatisch transformeren en analyseren van gegevens, naast het gebruik van de drag-and-drop-interface. Dit biedt zeer gedetailleerde controle over gegevensmanipulatie en -analyses, wat de USP is.
Waarom hebben we SAS nodig?
Laten we de noodzaak van SAS begrijpen met een eenvoudig voorbeeld:
Denk aan een e-commercebedrijf dat de kooppatronen van zijn klanten wil kennen op basis van historische gegevens. Het bedrijf zal duizenden records van meerdere klanten moeten overwegen om een algemeen inzicht te krijgen.
Het bedrijf beschikt mogelijk niet over al deze gegevens die nodig zijn voor de analyse. Als een klant bijvoorbeeld geen jas heeft gekocht, wat zijn dan de factoren die hem ervan weerhouden de jas te kopen? Deze ontbrekende gegevens kunnen fouten in uw analyse veroorzaken. Hoe kunnen we van deze problemen afkomen? Hoe kunnen we omgaan met dit soort gegevens?
Als u dit handmatig doet, zijn er honderden analisten en duizenden manuren nodig voor deze taak. Met de SAS-analysetool kunt u dezelfde analyse in een kwestie van uren uitvoeren met één analist. Met de SAS-tool kunt u onnodige gegevens verwijderen en de relevante informatie optimaliseren. Hiermee kunt u een uitkomst voorspellen, zelfs met ontbrekende gegevens. Met SAS kunt u betere beslissingen nemen.
Alternatieve SAS-tools
R: Het is open-source software. Het is makkelijk om R te leren omdat het goed gedocumenteerd is. Het biedt sterke statistische mogelijkheden.
Python is een andere populaire open-source scripttaal. Het ondersteunt bibliotheken zoals Numpy, Scipy en MatPlotLib. U kunt elke statistische bewerking uitvoeren of u kunt elk model bouwen met behulp van deze bibliotheken.
SAS: Het is de veelgebruikte analytische tool in de commerciële analysemarkt. Met een overvloed aan statistische functies en een goede GUI.
In deze SAS-programmeertutorial bespreken we statistische analytische systemen en hoe deze kunnen worden gebruikt om onze problemen op te lossen.
SAS-geschiedenis
- SAS werd in 1970 ontwikkeld door Jim Goodnight en John Shall aan de NC University
- Aanvankelijk werd het ontwikkeld voor landbouwonderzoek.
- Laterbreidde het zich uit tot een scala aan tools, waaronder Predictive Analytics, Data Management en BI.
- Tegenwoordig gebruiken 98 van 's werelds beste bedrijven in Fortune 400 de SAS-data-analysetool voor Gegevensanalyse.
Vervolgens leren we in deze SAS-taaltutorial over de functies van SAS.
SAS-functies
De belangrijkste kenmerken van SAS zijn:
- Krijg eenvoudig toegang tot onbewerkte gegevensbestanden en gegevens vanuit een externe database. Lees en schrijf vrijwel elk gegevensformaat!
- Beheer gegevens met behulp van tools voor gegevensinvoer, bewerken, ophalen, opmaak en conversie
- Analyseer gegevens met behulp van beschrijvende, statistische, multivariate technieken, prognoses, modellering en lineaire programmering
- Geavanceerde analyses helpen u veranderingen en verbeteringen in de bedrijfspraktijk aan te brengen.
- Rapportvorming met perfecte grafieken
- Operaonderzoek en projectmanagement
- Updaten en wijzigen van gegevens
- Krachtige taal voor gegevensverwerking
- Uitstekende functies voor het opschonen van gegevens
- Communiceer met meerdere hostsystemen
Vervolgens leren we in deze SAS voor beginners-tutorial over de SAS-productsuite.
SAS-productsuite
Er zijn veel SAS-producten op de markt. Hieronder volgt een lijst met de populairste.
Naam | Beschrijving |
---|---|
Basis SAS | Base SAS-software biedt hardwareflexibiliteit en kan worden geïntegreerd in alle soorten computeromgevingen. |
SAS/GRAFIEK | Deze tool helpt u om gestructureerde gegevens in grafieken weer te geven. |
SAS/STAT | Deze tool helpt u bij het uitvoeren van verschillende soorten regressie, statistische variantieanalyse, regressie en psychometrische analyse. |
SAS/ETS | Het wordt gebruikt voor prognoses. Helpt u bij het uitvoeren van de tijdreeksanalyse. |
SAS/IML | Interactive Matric language staat bekend als IML. Deze tool helpt u wiskundige formules te vertalen naar een innovatief programma. |
SAS EBI | Een hulpmiddel voor Business Intelligence-toepassingen |
SAS-netbeheerder | Het is een kerncomponent die gegevensbeheerfaciliteiten en een programmeertaal voor gegevensanalyse biedt |
SAS/OF | Tool voor Operaonderzoek |
SAS/QC | Gebruik voor kwaliteitscontrole |
SAS/Enterprise Mijnwerker | data mining |
SAS/PH | Klinische proefanalyse |
SAS/AF | Het biedt toepassingsmogelijkheden |
Ondernemingsgids | Het is een op GUI gebaseerde code-editor en projectmanager |
In de volgende SAS-zelfstudiegids gaan we dieper in op de SAS-architectuur.
SAS Architectuur
De SAS-architectuur bestaat hoofdzakelijk uit drie delen:
- Klantlaag
- Middle-tier
- Achterste laag
Klantniveau
Clientlaag is waar de applicatie wordt geïnstalleerd op een machine, waar de gebruiker zit. Het bestaat uit de componenten die worden gebruikt om het portaal en de inhoud ervan te bekijken. Het bevat ook een standaard webbrowser die wordt gebruikt voor interactie met de portal via het standaard HTTP- of HTTPS-protocol. Het helpt u ook om de SAS-webapplicatie firewallvriendelijk te maken.
Middle-tier
De middle tier biedt een gecentraliseerd toegangspunt voor bedrijfsinformatie. Alle toegang tot content wordt verwerkt door componenten die op deze tier werken. De scheiding van de bedrijfslogica met weergavelogica helpt u de logica van de middle tier te benutten. Bovendien maken gecentraliseerde toegangspunten het eenvoudiger om beveiligingsregels af te dwingen, de portal te beheren en codewijzigingen te beheren.
De middelste laag herbergt de volgende functies:
SAS Information Delivery Portal-webapplicatie: Het is de verzameling van JSP, Java servetten, JavaBonen en andere klassen en bronnen. Deze componenten helpen u toegang te krijgen tot informatie die is opgeslagen in de bedrijfsdirectory en zo een aanpasbare interface voor de gebruiker te creëren.
Servlet-engine: De servlet-engine wordt ook wel een servlet-container genoemd. Het is verantwoordelijk voor het beheer van de SAS Information Delivery Portal-webapplicatie. De servlet-engine biedt een runtime-omgeving. Het biedt gelijktijdigheid, implementatie, levenscyclusbeheer, enz.
Web Server: Webserver biedt service voor de servlet-engine die kan worden gebruikt om de website te hosten. Dit moet toegankelijk zijn via het portaal.
Terug niveau
De back-tier is een gebied waar de gegevens- en rekenservers draaien en die bedrijfsobjecten kunnen bevatten. Het is een enterprise directory-server. De bedrijfsdirectoryserver houdt metagegevens bij over inhoud die zich overal in de onderneming bevindt.
SAS downloaden en installeren
Lokale download op uw machine
Stap 1) Download SAS via de gegeven link
Ga naar deze link https://www.sas.com/en_in/software/university-edition.html en klik op Gratis software verkrijgen.
Stap 2) Selecteer uw Operating-systeem
Selecteer het besturingssysteem dat bij uw systeem past.
Stap 3) Download en installeer virtualisatiesoftware
SAS vereist virtualisatiesoftware zoals VirtualBox moet worden geïnstalleerd voordat deze kan worden geïnstalleerd. Hier zijn de gedetailleerde stappen
Volg de stappen op het scherm om SAS te installeren. Hebben VirtualBox en lokale installatie kan soms lastig zijn. Wij raden AWS-installatie aan-
AWS-installatie
U kunt SAS implementeren in AWS. Het komt in aanmerking voor de gratis laag.
Stap 1) Ga naar https://aws.amazon.com/marketplace/pp/B00WH10IKW. Klik op “Doorgaan met abonneren”
Stap 2) In dit volgende scherm, Accepteer voorwaarden.
Stap 3) Het abonnement is in behandeling en het duurt maximaal 10 minuten om het goed te keuren. U ziet het volgende scherm.
Stap 4) Vernieuw de pagina en uw abonnement wordt bevestigd. Klik op Doorgaan naar configuratie
Stap 5) Houd de instellingen standaard en klik op Doorgaan om te starten.
Stap 6) RevBekijk de configuratiepagina. Voer een sleutel-waardepaar in. Rustinstellingen moeten de standaard zijn. Klik op Starten
Stap 7) Ga naar https://aws.amazon.com/marketplace/library/ en klik op Instanties bekijken.
Stap 8) In de pop-up
- Noteer de instantie-ID. Dit is uw wachtwoord
- Klik op Toegang tot software
Stap 9) In de pop-up verschijnt die nadat u in stap 8 hebt geklikt
- Voer gebruikersreferenties in. Id: sasdemo-wachtwoord: exemplaar-ID genoteerd in stap 8
- Klik op Aanmelden
Stap 10) U krijgt het welkomstscherm te zien.
Troubleshooting
Als u geen verbinding kunt maken, ga dan naar https://console.aws.amazon.com/ec2/v2/home?region=us-east-1#SecurityGroups:sort=groupId en inkomende/uitgaande regels voor iedereen
Hoe SAS te gebruiken?
Om SAS-software effectief te gebruiken, moet u vier stappen volgen: Toegang tot gegevens, Beheergegevens, Analyseren en Presenteren
Toegangsgegevens:
Met SAS heeft u toegang tot gegevens in elk gewenst formaat.
U kunt overal toegang krijgen tot gegevens die zijn opgeslagen, of het nu in een bestand op uw systeem is of gegevens die zijn opgeslagen in een ander databasesysteem. Het kan een Oracle-bestand, SAS-databasebestand, Raw Database-bestand of een eenvoudig XLS/CSV-bestand zijn. Het zal u helpen om deze gegevens eenvoudig te openen.
Gegevens beheren:
SAS biedt geweldige mogelijkheden voor gegevensbeheer. U kunt gegevens onderverdelen/segmenteren op basis van bepaalde voorwaarden, variabele gegevens creëren, gegevens opschonen en valideren. Er zijn andere tools waarmee u dezelfde taak kunt uitvoeren. SAS helpt u echter om deze taak met gemak uit te voeren.
SAS heeft goed gedefinieerde bibliotheken en processen die het programmeerproces eenvoudig maken. Bovendien is het maken van variabele of subsetgegevens slechts een proces in één stap. Dit bespaart u het schrijven van complexe algoritmen met slechts één regel code.
Analyseren:
Met SAS kunt u verschillende soorten analyses uitvoeren:
- Het controleert de frequentie van de gemiddelde berekening
- Regressie en prognoses
- Beslissingsboom
Al deze analyses kan SAS eenvoudig afhandelen. Het is het beste hulpmiddel voor nauwkeurige voorspellingen.
Aanwezig:
Als u gegevens correct visualiseert, kan het publiek zich er moeiteloos mee identificeren. Het is essentieel dat uw tool de gegevens op een passende manier presenteert. Dat is wat SAS voor u doet. Het heeft uitstekende presentatiemogelijkheden.
U kunt:
1. Lijstrapporten
2. Samenvattende rapporten
3. Grafiekrapporten
4. Rapporten afdrukken
SAS-programmavoorbeeld
Het SAS-programma bestaat uit drie noodzakelijke stappen:
- Gegevensstap
- Proc-stap
- Uitvoerstap
GEGEVENS Stap
Data Step laadt de benodigde dataset in het SAS-geheugen en vindt de juiste variabelen van de dataset. Het legt ook de records vast. We kunnen datastappen gebruiken om:
- Voer gegevens in SAS-gegevenssets in
- Bereken waarden
- Controleer of corrigeer gegevens
- Produceer nieuwe datasets
De syntaxis voor de DATA-instructie is:
Syntaxis
DATA data_set_name; #Give a name to the dataset INPUT var1,var2,var3; #Declare variables in the dataset. NEW_VAR; #Define new variables. LABEL; #Give variables a label DATALINES; #Provide data RUN;
Voorbeeld:
Het volgende voorbeeld laat zien hoe u een variabele definieert, de dataset benoemt, nieuwe variabelen maakt en de data invoert. In dit voorbeeld ziet u dat stringvariabelen een $ aan het einde hebben en numerieke waarden zonder.
INPUT ID $ NAME $ SALARY DEPARTMENT $; comm = SALARY*1.50; LABEL ID = 'Emp_ID' comm = 'COMMISION'; DATALINES; 1 Tom 5000 IT 2 Harry 6000 Operations 3 Michelle 7000 IT 4 Dick 8000 HR 5 John 9000 Finance ; RUN;
Opmerking: Om de SAS-instructie uit te voeren, moet u de opdracht RUN opgeven.
PROC-stap
Het voert specifieke analyses of functies uit om resultaten en rapporten te produceren.
Syntaxis
PROC procedure_name options; #The name of the proc. RUN;
Voorbeeld
In het gegeven voorbeeld wordt gebruik gemaakt van de MIDDELEN procedure om de gemiddelde waarden van de numerieke variabelen in de gegevensset af te drukken.
PROC MEANS; RUN;
De OUTPUT-stap
U kunt de gegevens uit de gegevens weergeven met voorwaardelijke uitvoerinstructies.
Syntaxis
PROC PRINT DATA = data_set; OPTIONS; RUN;
Elk SAS-programma moet alle bovengenoemde stappen volgen om de invoergegevens te lezen, de gegevens te analyseren en de uitvoer van de analyse te geven. De VLUCHTEN statement aan het einde van elke stap beëindigt de uitvoering van die stap.
Het volledige SAS-programma
Hieronder vindt u de volledige code voor elk van de bovenstaande stappen.
Output:
Waar wordt SAS gebruikt?
Hieronder vindt u enkele belangrijke SAS-toepassingen:
Industrie | Gebruik |
---|---|
Farmaceutisch | Statistische analyse, rapportage |
Telecom | ETL, rapportage, datamining, prognoses |
Financials | ETL, Rapportage, Datamining, Financieel onderzoek |
Voorspellende modellen | DBMarketing, op activiteiten gebaseerd beheer |
Gezondheidszorg | ETL, rapportage, datamining |
SAS versus. R
SAS | R |
---|---|
SAS is commerciële software en vereist dus een financiële investering. | R is open source-software. Daarom kan iedereen het gebruiken. |
SAS is een eenvoudigste analytische tool om te leren. Zelfs mensen met beperkte kennis van SQL kunnen het snel leren. | R vereist dat je ingewikkelde en lange codes schrijft. |
SAS is een zeer geprefereerde keuze van grote bedrijven en is behoorlijk technisch geavanceerd en gebruiksvriendelijk. | R is snel ontwikkelende software; u moet het echter blijven upgraden. |
SAS heeft goede grafische ondersteuning, maar biedt geen maatwerk. | Grafische ondersteuning van de R-tool is erg slecht. |
Voordelen van SAS
- SAS heeft een eenvoudige syntaxis die kan worden geleerd zonder enige vorm van programmeerkennis
- Mogelijkheid om met gemak een grote database te beheren
- SAS is een zeer begrijpelijke taal die gemakkelijk kan worden opgespoord
- Het “log”-venster vermeldt duidelijk de fout, waardoor u uw code gemakkelijk kunt debuggen
- SAS helpt u het algoritme grondig te testen en analyseren
- SAS is volledig beveiligd waardoor u niet zonder licentie op kantoor kunt uitpakken
- Maakt statistisch computergebruik eenvoudiger voor niet-programmerende gebruikers
- Kan effectief omgaan met grote databases.
Nadelen van SAS
- De kosten zijn hoog omdat individuen of organisaties niet alle applicaties kunnen gebruiken zonder de juiste licentie
- SAS is niet open source, dus de algoritmen die in SAS worden gebruikt, zijn niet beschikbaar voor algemeen gebruik.
- Text mining is een zeer lastig en moeilijk proces in SAS.
Samenvatting
- SAS-software betekent statistische analysesoftware die wordt gebruikt voor gegevensanalyse
- R en Python zijn twee veelgebruikte alternatieve tools van SAS.
- SAS werd in 1970 ontwikkeld door Jim Goodnight en John Shall aan de NC University
- Met SAS hebt u toegang tot onbewerkte gegevensbestanden en gegevens in een externe database van welke aard dan ook
- De SAS-architectuur bestaat hoofdzakelijk uit drie delen: 1) Clientlaag 2) Middenlaag 3) Achterlaag
- Om SAS-software te gebruiken, moet u vier stappen volgen: 1) Toegang tot gegevens, 2) Beheer 3) Gegevens analyseren, 4) Presentatie
- Het SAS-programma bestaat uit drie basisstappen: Data Step, Proc Step en Output Step
- SAS data-analytisch hulpmiddel wordt veel gebruikt in sectoren als de farmaceutische industrie, telecom, financiële dienstverlening, voorspellende modellen en gezondheidszorg
- SAS is commerciële software, terwijl R open source-software is
- Het grootste voordeel van de SAS-programmeertool is dat het een eenvoudige syntaxis heeft die kan worden geleerd zonder enige vorm van programmeerkennis.
- Een van de nadelen van het SAS-model is dat het geen open source-tool is. Algoritmen die in SAS-procedures worden gebruikt, zijn dus niet beschikbaar voor algemeen gebruik.