Tutorial SAS per principianti: cos'è ed esempio di programmazione
Cos'è SAS?
SAS è una suite software statistica basata su comandi ampiamente utilizzata per l'analisi e la visualizzazione di dati statistici. Il modulo completo SAS è un software di analisi statistica. Ti consente di utilizzare tecniche e processi qualitativi che ti aiutano a migliorare la produttività dei dipendenti e i profitti aziendali. SAS viene utilizzato anche per analisi avanzate come business intelligence, indagini sulla criminalità e analisi predittive. SAS si pronuncia “SaaS”.
In SAS, i dati vengono estratti e classificati, il che aiuta a identificare e analizzare i modelli di dati. È una suite software che consente di eseguire analisi avanzate, Business Intelligence, Analisi Predittiva e gestione dei dati per operare efficacemente in condizioni di business competitive e mutevoli. Inoltre, SAS è indipendente dalla piattaforma, il che significa che puoi eseguire SAS su qualsiasi sistema operativo sia Linux che Linux Windows.
Rispetto ad altri Strumenti di BI, SAS fornisce un ampio supporto per trasformare e analizzare i dati a livello di codice, oltre all'utilizzo dell'interfaccia drag and drop. Ciò fornisce un controllo molto granulare sulla manipolazione e analisi dei dati che è il suo USP.
Perché abbiamo bisogno del SAS?
Capiamo la necessità di SAS con un semplice esempio:
Considera un'azienda di e-commerce che desidera conoscere i modelli di acquisto dei propri clienti sulla base di dati storici. L'azienda dovrà considerare migliaia di record di più clienti per ottenere una visione generale.
L'azienda potrebbe non disporre di tutti i dati necessari per l'analisi. Ad esempio, se un cliente non ha acquistato una giacca, quali sono i fattori che gli hanno impedito di acquistarla? Questi dati mancanti potrebbero creare errori nella tua analisi. Come possiamo sbarazzarci di questi problemi? Come possiamo gestire questo tipo di dati?
Se eseguita manualmente, questa attività richiederà centinaia di analisti e migliaia di ore di lavoro. Utilizzando lo strumento analitico SAS, puoi eseguire la stessa analisi in poche ore con un singolo analista. Lo strumento SAS consente di eliminare i dati non necessari e ottimizzare le informazioni rilevanti. Ti consentirà di prevedere un risultato anche con dati mancanti. SAS ti consente di prendere decisioni migliori.
Strumenti SAS alternativi
R: È un software open source. È facile imparare R poiché è ben documentato. Offre forti capacità statistiche.
Python è un altro popolare linguaggio di scripting open source. Supporta librerie come Numpy, Scipy e MatPlotLib. È possibile eseguire qualsiasi operazione statistica oppure creare qualsiasi modello utilizzando queste librerie.
SAS: È lo strumento analitico ampiamente utilizzato nel mercato dell’analisi commerciale. Con una miriade di funzioni statistiche e una buona GUI.
In questo tutorial sulla programmazione SAS, discuteremo dei sistemi analitici statistici e di come possono essere utilizzati per risolvere i nostri problemi.
Storia della SAS
- SAS è stato sviluppato da Jim Goodnight e John Shall nel 1970 presso la NC University
- Inizialmente, è stato sviluppato per la ricerca agricola.
- Later, si è espanso a una gamma di strumenti per includere, tra gli altri, analisi predittiva, gestione dei dati e BI.
- Oggi 98 delle principali aziende mondiali incluse nella Fortune 400 utilizzano lo strumento di analisi dei dati SAS per Analisi dei dati.
Successivamente in questo tutorial sul linguaggio SAS, impareremo le funzionalità di SAS.
Caratteristiche SAS
Le caratteristiche principali di SAS sono:
- Accedi facilmente a file di dati grezzi e dati da un database esterno. Leggi e scrivi quasi tutti i formati di dati!
- Gestisci i dati utilizzando strumenti per l'immissione dei dati, il recupero della modifica, la formattazione e la conversione
- Analizzare i dati utilizzando tecniche descrittive, statistiche, multivariate, previsioni, modellizzazione, programmazione lineare
- L'analisi avanzata ti aiuta ad apportare modifiche e miglioramenti alle pratiche aziendali.
- Formazione di report con grafici perfetti
- Operazioni di ricerca e gestione dei progetti
- Aggiornamento e modifica dei dati
- Potente linguaggio di gestione dei dati
- Eccellenti funzioni di pulizia dei dati
- Interagisci con più sistemi host
Successivamente in questo tutorial SAS per principianti, impareremo la suite di prodotti SAS.
Suite di prodotti SAS
Ci sono molti prodotti SAS disponibili sul mercato. Di seguito è riportato un elenco dei più popolari.
Nome | Descrizione |
---|---|
BaseSAS | Il software Base SAS offre agilità hardware e si integra in tutti i tipi di ambiente informatico. |
SAS/GRAFICO | Questo strumento ti aiuta a rappresentare i dati strutturati in grafici. |
SAS/STAT | Questo strumento consente di eseguire diversi tipi di regressione, analisi statistica della varianza, regressione e analisi psicometrica. |
SAS/ETS | Viene utilizzato per le previsioni. Ti aiuta a eseguire l'analisi delle serie temporali. |
SAS/IML | Il linguaggio Interactive Matric è noto come IML. Questo strumento ti aiuta a tradurre le formule matematiche in un programma innovativo. |
SAS EBI | Uno strumento per applicazioni di Business Intelligence |
Gestore della rete SAS | È un componente fondamentale che offre funzionalità di gestione dei dati e un linguaggio di programmazione per l'analisi dei dati |
SAS/OR | Strumento per Operaricerca sulla zione |
SAS/QC | Utilizzare per il controllo qualità |
Minatore SAS/Enterprise | Estrazione dei dati |
SAS/PH | Analisi degli studi clinici |
SAS/AF | Offre funzionalità di applicazione |
Guida all'impresa | È un editor di codice e project manager basato sulla GUI |
Nel prossimo tutorial SAS parleremo dell'architettura SAS.
SAS Architectura
L'architettura SAS è divisa principalmente in tre parti:
- Livello cliente
- Livello intermedio
- Livello posteriore
Livello cliente
Il livello client è il punto in cui l'applicazione è installata su una macchina, dove è seduto l'utente. È costituito dai componenti che vengono utilizzati per visualizzare il portale e il suo contenuto. Include anche un browser Web standard utilizzato per interagire con il portale tramite il protocollo HTTP o HTTPS standard. Ti aiuta anche a rendere amichevole il firewall dell'applicazione Web SAS.
Livello intermedio
Il livello intermedio offre un punto di accesso centralizzato per le informazioni aziendali. Tutto l'accesso al contenuto viene elaborato dai componenti che operano di questo livello. La separazione della logica aziendale dalla logica di visualizzazione aiuta a sfruttare la logica del livello intermedio. Inoltre, i punti di accesso centralizzati semplificano l'applicazione delle regole di sicurezza, l'amministrazione del portale e la gestione delle modifiche al codice.
Il livello intermedio ospita le seguenti funzioni:
Applicazione Web del portale di distribuzione delle informazioni SAS: È la raccolta di JSP, Java servlet, JavaBean e altre classi e risorse. Questi componenti consentono di accedere alle informazioni archiviate nella directory aziendale per creare un'interfaccia personalizzabile per l'utente.
Motore servlet: Il motore servlet è anche chiamato contenitore servlet. È responsabile della gestione dell'applicazione Web SAS Information Delivery Portal. Il motore servlet offre un ambiente di runtime. Fornisce concorrenza, distribuzione, gestione del ciclo di vita, ecc.
Server web: Il server Web offre un servizio per il motore servlet che può essere utilizzato per ospitare il sito Web. A questo si dovrebbe accedere utilizzando il portale.
Livello posteriore
Il livello posteriore è un'area in cui vengono eseguiti i server di dati e di calcolo che possono contenere oggetti aziendali. È un server di directory aziendale. Il server della directory aziendale conserva i metadati sui contenuti che si trovano in tutta l'azienda.
Come scaricare e installare SAS
Download locale nel tuo computer
Passaggio 1) Scarica SAS dal collegamento indicato
Vai a questo link https://www.sas.com/en_in/software/university-edition.html e fare clic su Ottieni software gratuito.
Passaggio 2) Seleziona il tuo Operasistema di ting
Seleziona il sistema operativo secondo il tuo sistema.
Passaggio 3) Scarica e installa il software di virtualizzazione
SAS richiede un software di virtualizzazione simile VirtualBox da installare prima di poter essere installato. Ecco i passaggi dettagliati
Seguire i passaggi indicati sullo schermo per installare SAS. Avendo VirtualBox e l'installazione locale a volte potrebbe essere complicata. Consigliamo l'installazione di AWS-
Installazione di AWS
Puoi distribuire SAS in AWS. È idoneo al livello gratuito.
Passo 1) Vai su https://aws.amazon.com/marketplace/pp/B00WH10IKW. Fai clic su "Continua ad iscriverti"
Passo 2) Nella schermata successiva, Accetta i Termini.
Passo 3) L'abbonamento in sospeso richiede fino a 10 minuti per essere approvato. Vedrai la seguente schermata.
Passo 4) Aggiorna la pagina e l'abbonamento sarà confermato. Fare clic su Continua alla configurazione
Passo 5) Mantieni le impostazioni predefinite e fai clic su Continua per avviare.
Passo 6) RevVisualizza la pagina di configurazione. Inserisci una coppia chiave-valore. Le impostazioni di riposo dovrebbero essere quelle predefinite. Fare clic su Avvia
Passo 7) Vai su https://aws.amazon.com/marketplace/library/ e fare clic su Visualizza istanze.
Passo 8) Nel popup
- Prendi nota dell'ID dell'istanza. Questa è la tua password
- Fare clic su Accedi al software
Passo 9) Nel popup visualizzato dopo aver fatto clic al passaggio 8
- Inserisci le credenziali dell'utente. ID: password sasdemo: ID istanza annotato nel passaggio 8
- Fai clic su Accedi
Passo 10) Vedrai la schermata di benvenuto.
Troubleshooting
Se non riesci a connetterti, vai a https://console.aws.amazon.com/ec2/v2/home?region=us-east-1#SecurityGroups:sort=groupId e regole in entrata/uscita per tutti
Come utilizzare SAS?
Per utilizzare in modo efficace il software SAS è necessario seguire quattro passaggi che sono: Accesso ai dati, Gestione dati, Analisi, Presentazione
Dati di accesso:
SAS ti consente di accedere ai dati in qualsiasi formato desiderato.
È possibile accedere ai dati archiviati ovunque, sia in un file sul proprio sistema che in dati archiviati in un altro sistema di database. Può essere un file Oracle, un file di database SAS, un file di database Raw o un semplice file XLS/CSV. Ti aiuterà ad accedere facilmente a questi dati.
Gestisci dati:
SAS offre ottime funzionalità di gestione dei dati. È possibile suddividere/suddividere i dati in base a determinate condizioni, creare dati variabili, pulire e convalidare. Esistono altri strumenti che ti consentono di eseguire la stessa attività. Tuttavia, SAS ti aiuta a svolgere questo lavoro con facilità.
SAS ha librerie e processi ben definiti che semplificano il processo di programmazione. Inoltre, la creazione di dati variabili o sottoinsiemi è solo un processo in un unico passaggio. Questo ti evita di scrivere algoritmi complessi con una sola riga di codice.
Analizzare:
Puoi eseguire vari tipi di analisi utilizzando SAS:
- Controlla il calcolo della frequenza della media
- Regressione e previsione
- Albero decisionale
Tutte queste analisi possono essere facilmente gestite da SAS. È lo strumento migliore per previsioni accurate.
Present:
Se visualizzi i dati correttamente, è facile per il pubblico relazionarsi con essi. È essenziale che il tuo strumento presenti i dati in modo adeguato. Questo è ciò che SAS fa per te. Ha eccellenti capacità di presentazione.
You Can:
1. Elenco dei rapporti
2. Rapporti di sintesi
3. Rapporti grafici
4. Stampa rapporti
Esempio di programma SAS
Il programma SAS si compone di tre passaggi necessari:
- Passaggio dati
- Fase di elaborazione
- Passo di uscita
Passo DATI
Il passaggio dati carica il set di dati necessario nella memoria SAS e trova le variabili corrette del set di dati. Cattura anche i record. Possiamo utilizzare i passaggi di dati per:
- Immettere i dati nei set di dati SAS
- Calcola valori
- Controllare o correggere i dati
- Produrre nuovi set di dati
La sintassi per l'istruzione DATA è:
Sintassi
DATA data_set_name; #Give a name to the dataset INPUT var1,var2,var3; #Declare variables in the dataset. NEW_VAR; #Define new variables. LABEL; #Give variables a label DATALINES; #Provide data RUN;
Esempio:
L'esempio seguente mostra come definire una variabile, nominare il set di dati, creare nuove variabili e immettere i dati. In questo esempio, puoi vedere che la variabile stringa ha un $ alla fine e i valori numerici sono senza.
INPUT ID $ NAME $ SALARY DEPARTMENT $; comm = SALARY*1.50; LABEL ID = 'Emp_ID' comm = 'COMMISION'; DATALINES; 1 Tom 5000 IT 2 Harry 6000 Operations 3 Michelle 7000 IT 4 Dick 8000 HR 5 John 9000 Finance ; RUN;
Nota: per eseguire l'istruzione SAS è necessario specificare il comando RUN.
Fase PROC
Esegue analisi o funzioni specifiche per produrre risultati e report.
Sintassi
PROC procedure_name options; #The name of the proc. RUN;
Esempio
L'esempio fornito utilizza il file SI INTENDE procedura per stampare i valori medi delle variabili numeriche nel set di dati.
PROC MEANS; RUN;
La fase di USCITA
È possibile visualizzare i dati dai dati con istruzioni di output condizionali.
Sintassi
PROC PRINT DATA = data_set; OPTIONS; RUN;
Ogni programma SAS deve seguire tutti i passaggi sopra menzionati per leggere i dati di input, analizzare i dati e fornire l'output dell'analisi. IL CORRERE L'istruzione alla fine di ogni passaggio termina l'esecuzione di quel passaggio.
Il programma SAS completo
Di seguito è riportato il codice completo per ciascuno dei passaggi precedenti.
Produzione:
Dove viene utilizzato SAS?
Di seguito sono riportate alcune importanti applicazioni SAS:
Industria | Impiego |
---|---|
Pharmaceutical | Analisi statistica, reporting |
Telecomunicazione | ETL, reporting, data mining, previsione |
Financials | ETL, Reporting, Data Mining, Ricerca finanziaria |
Modellazione predittiva | DBMarketing, gestione basata sulle attività |
Sistema Sanitario | ETL, reporting, Data Mining |
SAS vs. R
SAS | R |
---|---|
SAS è un software commerciale, quindi richiede un investimento finanziario. | R è un software open source. Quindi chiunque può usarlo. |
SAS è lo strumento analitico più semplice da apprendere. Anche le persone con una conoscenza limitata di SQL possono impararlo rapidamente. | R richiede la scrittura di codici complicati e lunghi. |
SAS è la scelta preferita dalle grandi aziende ed è abbastanza tecnicamente avanzato e facile da usare. | R è un software in rapido sviluppo; tuttavia, è necessario continuare ad aggiornarlo. |
SAS ha un buon supporto grafico ma non offre alcuna personalizzazione. | Il supporto grafico dello strumento R è molto scarso. |
I vantaggi del SAS
- SAS ha una sintassi semplice che può essere appresa senza alcun tipo di conoscenza di programmazione
- Capacità di gestire facilmente un database di grandi dimensioni
- SAS è un linguaggio molto comprensibile di cui è possibile eseguire facilmente il debug
- La sua finestra "log" indica chiaramente l'errore che ti aiuta a eseguire facilmente il debug del tuo codice
- SAS ti aiuta a testare e analizzare a fondo l'algoritmo
- SAS è completamente protetto, quindi non puoi estrarre senza una licenza in ufficio
- Rende il calcolo statistico più semplice per gli utenti non programmatori
- Gestisce in modo efficace database di grandi dimensioni.
Svantaggi del SAS
- Il costo è elevato perché un individuo o un'organizzazione non può utilizzare tutte le applicazioni senza una licenza adeguata
- SAS non è open source, quindi gli algoritmi utilizzati in SAS non sono disponibili per l'uso comune
- Il text mining è un processo molto problematico e difficile in SAS.
Sommario
- Software SAS che significa software di analisi statistica utilizzato per l'analisi dei dati
- R e Python sono due strumenti alternativi ampiamente utilizzati di SAS.
- SAS è stato sviluppato da Jim Goodnight e John Shall nel 1970 alla NC University
- SAS ti consente di accedere a file di dati grezzi e dati in un database esterno di qualsiasi tipo
- L'architettura SAS è divisa principalmente in tre parti: 1) Livello client 2) Livello intermedio 3) Livello posteriore
- Per utilizzare il software SAS è necessario seguire quattro passaggi che sono: 1) Accesso ai dati, 2) Gestione 3) Analisi dei dati, 4) Presentazione
- Il programma SAS è costituito da tre passaggi fondamentali: passaggio dati, passaggio elaborazione e passaggio output
- SAS strumento di analisi dei dati è ampiamente utilizzato in settori come quello farmaceutico, delle telecomunicazioni, finanziario, della modellazione predittiva e della sanità
- SAS è un software commerciale mentre R è un software open source
- Il più grande vantaggio dello strumento di programmazione SAS è che ha una sintassi semplice che può essere appresa senza alcun tipo di conoscenza di programmazione.
- Uno degli svantaggi del modello SAS è che non è uno strumento open source. Pertanto, gli algoritmi utilizzati nelle procedure SAS non sono disponibili per l'uso comune.