Tutorial SSIS per principianti: cos'è Architecnologia, Pacchetti

Che cos'è SSIS?

Servizio di integrazione SQL Server (SSIS) è un componente di Microsoft SQL Server software di database che può essere utilizzato per eseguire un'ampia gamma di attività di migrazione dei dati. SSIS è uno strumento di data warehousing veloce e flessibile utilizzato per l'estrazione, il caricamento e la trasformazione dei dati come la pulizia, l'aggregazione, l'unione dei dati, ecc.

Semplifica lo spostamento dei dati da un database a un altro database. SSIS può estrarre dati da un'ampia varietà di origini come database SQL Server, file Excel, Oracle e database DB2, ecc.

SSIS include anche strumenti grafici e procedure guidate per l'esecuzione di funzioni di flusso di lavoro come l'invio di messaggi di posta elettronica, operazioni FTP, origini dati e destinazioni.

Perché utilizziamo SSIS?

Ecco i motivi principali per utilizzare lo strumento SSIS:

  • Lo strumento SSIS ti aiuta a unire i dati da vari archivi dati
  • Automatizza le funzioni amministrative e il caricamento dei dati
  • Popola data mart e data warehouse
  • Ti aiuta a pulire e standardizzare i dati
  • Integrare la BI in un processo di trasformazione dei dati
  • Automatizzazione delle funzioni amministrative e caricamento dei dati
  • SIS contiene una GUI che aiuta gli utenti a trasformare facilmente i dati anziché scrivere programmi di grandi dimensioni
  • Può caricare milioni di righe da un'origine dati a un'altra in pochissimi minuti
  • Identificare, acquisire ed elaborare le modifiche dei dati
  • Coordinare la manutenzione, l'elaborazione o l'analisi dei dati
  • SSIS elimina la necessità di programmatori hardcore
  • SSIS offre una solida gestione degli errori e degli eventi

Storia della SSIS

Prima di SSIS veniva utilizzato SQL Server, Data Transformation Services (DTS), che faceva parte di SQL Server 7 e 2000

Versione Dettagli
SQL Server 2005 . Microsoft il team ha deciso di rinnovare DTS. Tuttavia, invece dell'aggiornamento DTS, hanno deciso di denominare il prodotto Integration Services (SSIS).
Versione del server SQL 2008 Sono stati apportati numerosi miglioramenti alle prestazioni di SSIS. Sono state introdotte anche nuove fonti.
SQL Server 2012 È stata la più grande versione per SSIS. Con questa versione è stato introdotto il concetto del modello di distribuzione del progetto. Consente interi progetti e i relativi pacchetti vengono distribuiti su un server, al posto di pacchetti specifici.
SQL Server 2014 In questa versione non vengono apportate molte modifiche a SSIS. Ma sono state aggiunte nuove fonti o trasformazioni che sono state eseguite tramite download separati tramite CodePlex o il Feature Pack di SQL Server.
Nell'SQL Server 2016 La versione consente di distribuire interi progetti, anziché singoli pacchetti. Sono presenti fonti aggiuntive, in particolare cloud, e fonti di big data e sono state apportate poche modifiche al catalogo.

Caratteristiche salienti di SSIS

Ecco alcune importanti funzionalità di base di SSIS:

  • Ambienti di studio
  • Funzioni rilevanti di integrazione dei dati
  • Velocità di implementazione effettiva
  • Stretta integrazione con gli altri Microsoft Famiglia SQL
  • Trasformazione delle query di data mining
  • Ricerca fuzzy e trasformazioni di raggruppamento
  • Trasformazioni di estrazione e ricerca dei termini
  • Componenti di connettività dati a velocità più elevata come la connettività a SAP or Oracle

SSIS Architectura

SSIS Architectura
SSIS Architectura

Di seguito sono riportati i componenti dell'architettura SSIS:

  • Flusso di controllo (contenitori e attività di negozi)
  • Flusso di dati (origine, destinazione, trasformazioni)
  • Gestore eventi (invio di messaggi, e-mail)
  • Package Explorer (offre un'unica visualizzazione per tutto il pacchetto)
  • Parametri (Interazione utente)

Comprendiamo ogni componente nel dettaglio:

1. Flusso di controllo

Il flusso di controllo è il cervello del pacchetto SSIS. Ti aiuta a organizzare l'ordine di esecuzione per tutti i suoi componenti. I componenti contengono contenitori e attività gestiti in base a vincoli di precedenza.

2. Vincoli di precedenza

I vincoli di precedenza sono componenti del pacchetto che indirizzano le attività da eseguire in un ordine predefinito. Definisce inoltre il flusso di lavoro dell'intero pacchetto SSIS. Controlla l'esecuzione delle due attività collegate eseguendo le attività di destinazione in base al risultato dell'attività precedente: regole aziendali definite utilizzando espressioni speciali.

3. Compito

Un "Attività" è un'unità di lavoro individuale. È lo stesso di un metodo/funzione utilizzato in un linguaggio di programmazione. Tuttavia, in SSIS non si utilizzano metodi di codifica. Utilizzerai invece la tecnica del drag & drop per progettare le superfici e configurarle.

4. contenitori

Il contenitore è costituito da unità per raggruppare le attività in unità di lavoro. Oltre ad offrire coerenza visiva, consente anche di dichiarare variabili e gestori di eventi che dovrebbero rientrare nell'ambito di quello specifico contenitore.

Quattro tipi di contenitori in SSIS sono:

  • Un contenitore di sequenze
  • Un contenitore per loop
  • Contenitore del ciclo Foreach

Contenitore di sequenze: consente di organizzare attività sussidiarie raggruppandole e di applicare transazioni o assegnare la registrazione al contenitore.

Per il contenitore del ciclo:Fornisce le stesse funzionalità della sequenza Container, tranne per il fatto che consente anche di eseguire le attività più volte. Tuttavia, si basa su una condizione di valutazione, come un loop da 1 a 100.

Per ciascun contenitore di loop: Permette anche il looping. Ma la differenza è che invece di usare un'espressione condizionale, il loop viene eseguito su un insieme di oggetti, come i file in una cartella.

5. Flusso di dati

L'utilizzo principale dello strumento SSIS è estrarre i dati nella memoria del server, trasformarli e scriverli in un'altra destinazione. Se il Control Flow è il cervello, il Data Flow è il cuore di SSIS

6. Pacchetti SSIS

Un altro componente fondamentale di SSIS è la nozione di pacchetto. È una raccolta di attività che vengono eseguite in modo ordinato. In questo caso, i vincoli del presidente aiutano a gestire l'ordine in cui verrà eseguita l'attività.

Un pacchetto può aiutarti a salvare i file su un file SQL Server, nel database msdb o del catalogo dei pacchetti. Può essere salvato come file .dtsx, ovvero un file strutturato molto simile ai file .rdl di Reporting Services.

Pacchetti SSIS

7. Parametri

I parametri si comportano in modo molto simile a una variabile ma con alcune eccezioni principali. Può essere impostato facilmente all'esterno della confezione. Può essere designato come valori che devono essere passati affinché il pacchetto venga avviato.

Tipi di attività SSIS

Nello strumento SSIS è possibile aggiungere un'attività per controllare il flusso. Esistono diversi tipi di attività che eseguono vari tipi di lavori.

Di seguito sono menzionate alcune importanti attività SSIS:

Nome attività Descriptioni
Esegui attività SQL Come suggerisce il nome, eseguirà un'istruzione SQL su un database relazionale.
Attività flusso di dati Questa attività può leggere dati da una o più origini. Trasforma i dati quando sono in memoria e scrivili su una o più destinazioni.
Attività di elaborazione di Analysis Services Utilizzare questa attività per elaborare oggetti di un modello tabulare o come cubo SSAS.
Esegui l'attività del pacchetto L'utente può utilizzare questa attività SSIS per eseguire altri pacchetti dall'interno dello stesso progetto.
Esegui attività di processo Con l'aiuto di questa attività è possibile specificare i parametri della riga di comando.
Attività del file system Esegue manipolazioni nel file system. Come spostare, rinominare, eliminare file e creare directory.
Attività FTP Ti consente di eseguire funzionalità FTP di base.
Attività di script Questa è un'attività vuota. Puoi scrivere codice NET che esegue qualsiasi attività; vuoi esibirti.
Invia Mail Task Puoi inviare un'e-mail agli utenti per avvisarli che il tuo pacchetto è terminato o che si è verificato un errore.
Attività di inserimento in blocco Use può caricare i dati in una tabella utilizzando il comando di inserimento in blocco.
Attività di script Esegue una serie di VB.NET o codifica C# all'interno di un ambiente Visual Studio.
Attività del servizio Web Esegue un metodo su un servizio web.
Attività di controllo eventi WMI Questa attività consente al pacchetto SSIS di attendere e rispondere a determinati eventi WMI.
Attività XML Questa attività ti aiuta a unire, dividere o riformattare qualsiasi file XML.

Altri importanti strumenti ETL

  • SAP Servizi dati
  • Gestione dati SAS
  • Oracle Costruttore di magazzini (OWB)
  • Power Center Informatica
  • IBM Server delle informazioni dell'Infosfera
  • Repertorio di elisir per Data ETL
  • Flusso di dati Sargent

Vantaggi e svantaggi dell'utilizzo di SSIS

Lo strumento SSIS offre i seguenti vantaggi:

  • Ampia documentazione e supporto
  • Facilità e velocità di implementazione
  • Stretta integrazione con SQL Server e studio visivo
  • Integrazione dati standardizzata
  • Offre funzionalità in tempo reale basate su messaggi
  • Supporto per il modello di distribuzione
  • Aiuta a rimuovere la rete come collo di bottiglia per l'inserimento dei dati tramite SSIS in SQL
  • SISS consente di utilizzare la destinazione SQL Server anziché OLE DB per caricare i dati più velocemente

Svantaggi dell'SSIS

Alcuni svantaggi dell'utilizzo degli strumenti SSIS sono i seguenti:

  • A volte crea problemi in ambienti non Windows
  • Visione e strategia poco chiare
  • SSIS non supporta stili di integrazione dei dati alternativi
  • Integrazione problematica con altri prodotti

Esempio di pratiche SSIS migliori

  • SSIS è una pipeline in memoria. Ecco perché è importante assicurarsi che tutte le trasformazioni avvengano nella memoria
  • Prova a ridurre al minimo le operazioni registrate
  • Pianificare la capacità comprendendo l'utilizzo delle risorse
  • Ottimizza la trasformazione della ricerca SQL, l'origine dati e la destinazione
  • Pianificalo e distribuiscilo correttamente

Sintesi

  • La forma completa di SSIS è SQL Server Integration Services
  • Lo strumento SSIS ti aiuta a unire i dati da vari archivi dati
  • Versioni importanti di SQL Server Integration Service sono 2005, 2008, 2012, 2014 e 216
  • Ambienti di Studio, funzioni di integrazione dei dati rilevanti e velocità di implementazione effettiva sono alcune caratteristiche importanti di SSIS
  • Il flusso di controllo, il flusso di dati, il gestore degli eventi, l'Esploratore dei pacchetti e i parametri sono componenti essenziali dell'architettura SSIS
  • Esegui attività SQL, Attività flusso di dati, Attività di elaborazione di Analysis Services, Attività Esegui pacchetto, Attività Esegui processo, Attività File System, Attività FTP, Invia Mail Attività, attività del servizio Web sono alcune importanti
  • Ampia documentazione e supporto
  • Il più grande svantaggio di SSIS è che non supporta stili alternativi di integrazione dei dati
  • SAP Servizi dati, gestione dati SAS, Oracle Costruttore di magazzini (OWB), PowerCenter Informatica, IBM Server delle informazioni dell'Infosfera
  • SSIS è una pipeline in memoria. Pertanto, è essenziale assicurarsi che tutte le trasformazioni avvengano nella memoria