Tutorial SSIS pentru începători: Ce este, Architectură, Pachete

Ce este SSIS?

Serviciul de integrare SQL Server (SSIS) este o componentă a Microsoft SQL Server software de bază de date care poate fi utilizat pentru a executa o gamă largă de sarcini de migrare a datelor. SSIS este un instrument de depozitare de date rapid și flexibil utilizat pentru extragerea, încărcarea și transformarea datelor, cum ar fi curățarea, agregarea, îmbinarea datelor etc.

Facilitează mutarea datelor dintr-o bază de date în altă bază de date. SSIS poate extrage date dintr-o mare varietate de surse, cum ar fi baze de date SQL Server, fișiere Excel, Oracle și baze de date DB2 etc.

SSIS include, de asemenea, instrumente grafice și vrăjitori pentru efectuarea funcțiilor fluxului de lucru, cum ar fi trimiterea de mesaje de e-mail, operațiuni FTP, surse de date și destinații.

De ce folosim SSIS?

Iată motivele cheie pentru utilizarea instrumentului SSIS:

  • Instrumentul SSIS vă ajută să îmbinați datele din diferite depozite de date
  • Automatizează funcțiile administrative și încărcarea datelor
  • Populează Data Marts și Data Warehouses
  • Vă ajută să curățați și să standardizați datele
  • Construirea BI într-un proces de transformare a datelor
  • Automatizarea funcțiilor administrative și a încărcării datelor
  • SIS conține o interfață grafică care ajută utilizatorii să transforme datele cu ușurință, mai degrabă decât să scrie programe mari
  • Poate încărca milioane de rânduri de la o sursă de date la alta în câteva minute
  • Identificarea, capturarea și procesarea modificărilor datelor
  • Coordonarea întreținerii, procesării sau analizei datelor
  • SSIS elimină necesitatea programatorilor hardcore
  • SSIS oferă o gestionare robustă a erorilor și a evenimentelor

Istoria SSIS

Înainte de SSIS, SQL Server, a fost utilizat Serviciile de transformare a datelor (DTS), care făcea parte din SQL Server 7 și 2000

Versiune Detaliu
SQL Server 2005 Microsoft echipa a decis să reînnoiască DTS. Cu toate acestea, în loc să actualizeze DTS, au decis să denumească produsul Servicii de integrare (SSIS).
Versiunea 2008 SQL server SSIS au fost aduse o mulțime de îmbunătățiri ale performanței. Au fost introduse și noi surse.
SQL Server 2012 A fost cea mai mare versiune pentru SSIS. Cu această versiune a fost introdus conceptul de model de implementare a proiectului. Permite proiecte întregi, iar pachetele acestora sunt implementate pe un server, în locul pachetelor specifice.
SQL Server 2014 În această versiune, nu sunt făcute multe modificări pentru SSIS. Dar au fost adăugate noi surse sau transformări, care s-au făcut prin descărcări separate prin CodePlex sau pachetul de caracteristici SQL Server.
În SQL Server 2016 Versiunea vă permite să implementați proiecte întregi, în loc de pachete individuale. Există surse suplimentare, în special cloud, și surse de date mari și puține modificări au fost aduse catalogului.

Caracteristici esențiale SSIS

Iată câteva caracteristici importante de bază SSIS:

  • Medii de studio
  • Funcții relevante de integrare a datelor
  • Viteza de implementare eficientă
  • Integrare strânsă cu ceilalți Microsoft Familia SQL
  • Transformarea interogărilor de data mining
  • Căutare neclară și transformări de grupare
  • Extragerea termenilor și Transformările de căutare a termenilor
  • Componente de conectivitate de date cu viteză mai mare, cum ar fi conectivitatea la SAP or Oracle

SSIS Architectură

SSIS Architectură
SSIS Architectură

Următoarele sunt componente ale arhitecturii SSIS:

  • Controlul fluxului (depozitează containere și sarcini)
  • Flux de date (sursă, destinație, transformări)
  • Gestionarea evenimentelor (trimiterea de mesaje, e-mailuri)
  • Explorer de pachete (Oferă o singură vizualizare pentru toate cele din pachet)
  • Parametri (interacțiunea utilizatorului)

Să înțelegem fiecare componentă în detaliu:

1. Controlul fluxului

Fluxul de control este un creier al pachetului SSIS. Vă ajută să aranjați ordinea de execuție pentru toate componentele sale. Componentele conțin containere și sarcini care sunt gestionate de constrângeri de precedență.

2. Constrângeri de precedență

Constrângerile de precedență sunt componente ale pachetului care direcționează sarcinile să fie executate într-o ordine predefinită. De asemenea, definește fluxul de lucru al întregului pachet SSIS. Acesta controlează execuția celor două sarcini legate prin executarea sarcinilor de destinație pe baza rezultatului sarcinii anterioare - reguli de afaceri care sunt definite folosind expresii speciale.

3. Sarcină

O „sarcină” este o unitate individuală de lucru. Este la fel ca o metodă/funcție utilizată într-un limbaj de programare. Cu toate acestea, în SSIS, nu utilizați metode de codare. În schimb, veți folosi tehnica drag & drop pentru a proiecta suprafața și pentru a le configura.

4. Containere

Containerul este unități pentru gruparea sarcinilor împreună în unități de lucru. Pe lângă faptul că oferă consistență vizuală, vă permite, de asemenea, să declarați variabile și handlere de evenimente care ar trebui să fie în domeniul de aplicare al containerului respectiv.

Patru tipuri de containere în SSIS sunt:

  • Un container de secvențe
  • Un container pentru buclă
  • Container Foreach Loop

Container de secvență: vă permite să organizați sarcini subsidiare prin gruparea lor și vă permite să aplicați tranzacții sau să atribuiți înregistrarea în jurnal la container.

Pentru containerul cu buclă:Oferă aceeași funcționalitate ca și secvența Container, cu excepția faptului că vă permite, de asemenea, să executați sarcinile de mai multe ori. Cu toate acestea, se bazează pe o condiție de evaluare, cum ar fi o buclă de la 1 la 100.

Pentru fiecare container de buclă: De asemenea, permite efectuarea în buclă. Dar diferența că, în loc să folosească o expresie de condiție, bucla se face peste un set de obiecte, îi plac fișierele dintr-un folder.

5. Flux de date

Utilizarea principală a instrumentului SSIS este extragerea datelor în memoria serverului, transformarea acestora și scrierea lor către o altă destinație. Dacă Control Flow este creierul, Data Flow este inima SSIS

6. Pachete SSIS

O altă componentă de bază a SSIS este noțiunea de pachet. Este o colecție de sarcini care se execută în mod ordonat. Aici, constrângerile președintelui ajută la gestionarea ordinii în care se va executa sarcina.

Un pachet vă poate ajuta să salvați fișierele pe un SQL Server, în baza de date msdb sau catalog de pachete. Se poate salva ca fișier .dtsx, care este un fișier structurat foarte asemănător cu fișierele .rdl ale serviciilor de raportare.

Pachete SSIS

7. Parametrii

Parametrii se comportă ca o variabilă, dar cu câteva excepții principale. Poate fi instalat cu ușurință în afara pachetului. Poate fi desemnat ca valori care trebuie transmise pentru ca pachetul să înceapă.

Tipuri de sarcini SSIS

În instrumentul SSIS, puteți adăuga o sarcină pentru a controla fluxul. Există diferite tipuri de sarcini care efectuează diferite tipuri de lucrări.

Câteva sarcini SSIS importante sunt menționate mai jos:

Nume sarcină Descriptionii
Executați Task SQL După cum sugerează și numele, va executa o instrucțiune SQL împotriva unei baze de date relaționale.
Sarcină de flux de date Această sarcină poate citi date din una sau mai multe surse. Transformați datele atunci când sunt în memorie și scrieți-le în raport cu una sau mai multe destinații.
Sarcina de procesare a serviciilor de analiză Utilizați această sarcină pentru a procesa obiecte ale unui model tabular sau ca cub SSAS.
Executați sarcina pachetului Utilizarea poate folosi această sarcină SSIS pentru a executa alte pachete din același proiect.
Executați sarcina de proces Cu ajutorul acestei sarcini, puteți specifica parametrii liniei de comandă.
Sarcina sistemului de fișiere Efectuează manipulări în sistemul de fișiere. De exemplu, mutarea, redenumirea, ștergerea fișierelor și crearea de directoare.
Sarcini FTP Vă permite să efectuați funcționalități de bază FTP.
Script Sarcină Aceasta este o sarcină goală. Puteți scrie cod NET care îndeplinește orice sarcină; vrei să faci.
Trimiteți Mail Sarcină Puteți trimite un e-mail pentru a anunța utilizatorii că pachetul dvs. este terminat sau apare o eroare.
Sarcină de inserare în bloc Utilizare poate încărca date într-un tabel utilizând comanda de inserare în bloc.
Script Sarcină Rulează un set de VB.NET sau codare C# într-un mediu Visual Studio.
Sarcină de serviciu web Execută o metodă pe un serviciu web.
Sarcină WMI Event Watcher Această sarcină permite pachetului SSIS să aștepte și să răspundă la anumite evenimente WMI.
Sarcină XML Această sarcină vă ajută să îmbinați, împărțiți sau reformatați orice fișier XML.

Alte instrumente ETL importante

  • SAP Servicii de date
  • Managementul datelor SAS
  • Oracle Constructor de depozite (OWB)
  • PowerCenter Informatica
  • IBM Infosphere Information Server
  • Elixir Repertoriu pentru date ETL
  • Flux de date Sargent

Avantajele și dezavantajele utilizării SSIS

Instrumentul SSIS oferă următoarele avantaje:

  • Documentare largă și suport
  • Ușurință și rapiditate de implementare
  • Integrare strânsă cu SQL Server și Studio vizual
  • Integrare standardizată a datelor
  • Oferă capabilități în timp real, bazate pe mesaje
  • Suport pentru modelul de distribuție
  • Vă ajută să eliminați rețeaua ca un blocaj pentru inserarea datelor de către SSIS în SQL
  • SISS vă permite să utilizați Destinația SQL Server în loc de OLE DB pentru a încărca datele mai rapid

Dezavantajele SSIS

Câteva dezavantaje ale utilizării instrumentelor SSIS sunt următoarele:

  • Uneori creați probleme în medii non-windows
  • Viziune și strategie neclare
  • SSIS nu are suport pentru stiluri alternative de integrare a datelor
  • Integrare problematică cu alte produse

Exemplu de bune practici SSIS

  • SSIS este o conductă în memorie. De aceea este important să ne asigurăm că toate transformările au loc în memorie
  • Încercați să minimizați operațiunile înregistrate
  • Planificați capacitatea prin înțelegerea utilizării resurselor
  • Optimizați transformarea căutării SQL, sursa de date și destinația
  • Programați-l și distribuiți-l corect

Rezumat

  • Forma completă a SSIS este SQL Server Integration Services
  • Instrumentul SSIS vă ajută să îmbinați datele din diferite depozite de date
  • Versiunile importante ale serviciului de integrare SQL Server sunt 2005, 2008, 2012, 2014 și 216
  • Mediile Studio, funcțiile relevante de integrare a datelor și viteza efectivă de implementare sunt câteva caracteristici importante ale SSIS
  • Control Flow, Data Flow, Event Handler, Package Explorer și Parameters sunt componente esențiale ale arhitecturii SSIS
  • Executare sarcină SQL, sarcină flux de date, sarcină de procesare a serviciilor de analiză, executare sarcină pachet, executare sarcină proces, sarcină sistem de fișiere, sarcini FTP, trimitere Mail Sarcina, Sarcina serviciului web sunt unele importante
  • Documentare largă și suport
  • Cel mai mare dezavantaj al SSIS este că nu are suport pentru stiluri alternative de integrare a datelor
  • SAP Servicii de date, SAS Data Management, Oracle Warehouse Builder (OWB), PowerCenter Informatica, IBM Infosphere Information Server
  • SSIS este o conductă în memorie. Prin urmare, este esențial să vă asigurați că toate transformările au loc în memorie