Tutoriel SSIS pour les débutants : qu'est-ce que c'est, Architecture, Forfaits
Qu'est-ce que SSIS ?
Service d'intégration SQL Server (SSIS) est une composante de Microsoft SQL Server logiciel de base de données qui peut être utilisé pour exécuter un large éventail de tâches de migration de données. SSIS est un outil d'entreposage de données rapide et flexible utilisé pour l'extraction, le chargement et la transformation de données comme le nettoyage, l'agrégation, la fusion de données, etc.
Il facilite le déplacement de données d’une base de données vers une autre base de données. SSIS peut extraire des données d'une grande variété de sources telles que des bases de données SQL Server, des fichiers Excel, Oracle et bases de données DB2, etc.
SSIS comprend également des outils graphiques et des assistants pour exécuter des fonctions de flux de travail telles que l'envoi de messages électroniques, les opérations FTP, les sources de données et les destinations.
Pourquoi utilisons-nous SSIS ?
Voici les principales raisons d’utiliser l’outil SSIS :
- L'outil SSIS vous aide à fusionner les données de différents magasins de données
- Automatise les fonctions administratives et le chargement des données
- Remplit les datamarts et les entrepôts de données
- Vous aide à nettoyer et standardiser les données
- Intégrer la BI dans un processus de transformation des données
- Automatisation des fonctions administratives et du chargement des données
- SIS contient une interface graphique qui aide les utilisateurs à transformer facilement les données plutôt que d'écrire de gros programmes
- Il peut charger des millions de lignes d'une source de données à une autre en quelques minutes seulement.
- Identifier, capturer et traiter les modifications des données
- Coordonner la maintenance, le traitement ou l’analyse des données
- SSIS élimine le besoin de programmeurs chevronnés
- SSIS offre une gestion robuste des erreurs et des événements
Histoire de SSIS
Avant SSIS, SQL Server utilisait Data Transformation Services (DTS), qui faisait partie de SQL Server 7 et 2000.
Version | Détails |
---|---|
SQL Server 2005 | Les Microsoft L'équipe a décidé de réorganiser DTS. Cependant, au lieu de mettre à jour DTS, ils ont décidé de nommer le produit Integration Services (SSIS). |
Version du serveur SQL 2008 | De nombreuses améliorations de performances ont été apportées à SSIS. De nouvelles sources ont également été introduites. |
SQL Server 2012 | C'était la plus grosse version de SSIS. Avec cette version, le concept de modèle de déploiement de projet a été introduit. Il autorise des projets entiers et leurs packages sont déployés sur un serveur, à la place de packages spécifiques. |
SQL Server 2014 | Dans cette version, peu de modifications sont apportées à SSIS. Mais de nouvelles sources ou transformations ont été ajoutées, ce qui a été effectué par des téléchargements séparés via Code.Plex ou le Feature Pack SQL Server. |
Dans SQL Server 2016 | La version vous permet de déployer des projets entiers au lieu de packages individuels. Il existe des sources supplémentaires, notamment le cloud et les sources de big data, et peu de modifications ont été apportées au catalogue. |
Principales caractéristiques de SSIS
Voici quelques fonctionnalités de base importantes de SSIS :
- Environnements de studio
- Fonctions d'intégration de données pertinentes
- Vitesse de mise en œuvre effective
- Intégration étroite avec d'autres Microsoft Famille SQL
- Transformation des requêtes d'exploration de données
- Recherche floue et transformations de regroupement
- Transformations d’extraction de termes et de recherche de termes
- Composants de connectivité de données à plus grande vitesse tels que la connectivité à SAP or Oracle
SSIS Architecture
Voici les composants de l'architecture SSIS :
- Flux de contrôle (stocke les conteneurs et les tâches)
- Flux de données (source, destination, transformations)
- Gestionnaire d'événements (envoi de messages, emails)
- Explorateur de packages (offre une vue unique pour tout le package)
- Paramètres (interaction utilisateur)
Comprenons chaque composant en détail :
1. Flux de contrôle
Le flux de contrôle est un cerveau du package SSIS. Il vous aide à organiser l'ordre d'exécution de tous ses composants. Les composants contiennent des conteneurs et des tâches qui sont gérés par des contraintes de priorité.
2. Contraintes de préséance
Les contraintes de priorité sont des composants de package qui ordonnent aux tâches d'être exécutées dans un ordre prédéfini. Il définit également le flux de travail de l'ensemble du package SSIS. Il contrôle l'exécution des deux tâches liées en exécutant les tâches de destination en fonction du résultat de la tâche précédente – des règles métier définies à l'aide d'expressions spéciales.
3. Tâche
Une « tâche » est une unité de travail individuelle. C'est la même chose qu'une méthode/fonction utilisée dans un langage de programmation. Cependant, dans SSIS, vous n'utilisez pas de méthodes de codage. Au lieu de cela, vous utiliserez la technique du glisser-déposer pour concevoir les surfaces et les configurer.
4. Les conteneurs
Le conteneur est constitué d'unités permettant de regrouper les tâches en unités de travail. En plus d'offrir une cohérence visuelle, il vous permet également de déclarer des variables et des gestionnaires d'événements qui doivent être dans la portée de ce conteneur spécifique.
Quatre types de conteneurs dans SSIS sont :
- Un conteneur de séquence
- Un conteneur de boucle For
- Conteneur de boucle Foreach
Conteneur de séquence: vous permet d'organiser des tâches subsidiaires en les regroupant, et vous permet d'appliquer des transactions ou d'attribuer une journalisation au conteneur.
Pour le conteneur de boucles :Fournit les mêmes fonctionnalités que la séquence Container, sauf qu'elle vous permet également d'exécuter les tâches plusieurs fois. Cependant, elle repose sur une condition d’évaluation, comme un bouclage de 1 à 100.
Pour chaque conteneur de boucles : Il permet également le bouclage. Mais la différence est qu'au lieu d'utiliser une expression de condition, la boucle est effectuée sur un ensemble d'objets, comme les fichiers d'un dossier.
5. Flux de données
L'utilisation principale de l'outil SSIS est d'extraire des données dans la mémoire du serveur, de les transformer et de les écrire vers une autre destination. Si Control Flow est le cerveau, Data Flow est le cœur de SSIS
6. Forfaits SSIS
Un autre élément essentiel de SSIS est la notion de package. Il s'agit d'un ensemble de tâches exécutées de manière ordonnée. Ici, les contraintes du président aident à gérer l'ordre dans lequel la tâche sera exécutée.
Un package peut vous aider à enregistrer des fichiers sur un SQL Server, dans la base de données msdb ou du catalogue de packages. Il peut être enregistré sous forme de fichier .dtsx, qui est un fichier structuré très similaire aux fichiers .rdl de Reporting Services.
7. Paramètres
Les paramètres se comportent un peu comme une variable, à quelques exceptions près. Il peut être facilement placé à l’extérieur de l’emballage. Il peut être désigné comme des valeurs qui doivent être transmises pour que le package démarre.
Types de tâches SSIS
Dans l'outil SSIS, vous pouvez ajouter une tâche pour contrôler le flux. Il existe différents types de tâches qui effectuent différents types de travaux.
Certaines tâches SSIS importantes sont mentionnées ci-dessous :
Nom de la tâche | Descriptions |
---|---|
Exécuter la tâche SQL | Comme son nom l'indique, il exécutera une instruction SQL sur une base de données relationnelle. |
Tâche de flux de données | Cette tâche peut lire des données provenant d'une ou plusieurs sources. Transformez les données lorsqu'elles sont dans la mémoire et écrivez-les sur une ou plusieurs destinations. |
Tâche de traitement Analysis Services | Utilisez cette tâche pour traiter les objets d'un modèle tabulaire ou en tant que cube SSAS. |
Exécuter la tâche du package | Use peut utiliser cette tâche SSIS pour exécuter d'autres packages à partir du même projet. |
Exécuter la tâche de processus | À l'aide de cette tâche, vous pouvez spécifier les paramètres de ligne de commande. |
Tâche du système de fichiers | Il effectue des manipulations dans le système de fichiers. Comme déplacer, renommer, supprimer des fichiers et créer des répertoires. |
Tâches FTP | Il vous permet d'exécuter les fonctionnalités FTP de base. |
Tâche de script | Il s'agit d'une tâche vide. Vous pouvez écrire du code NET qui effectue n'importe quelle tâche ; vous voulez performer. |
Envoyer Mail Tâche | Vous pouvez envoyer un e-mail pour informer les utilisateurs que votre package est terminé ou qu'une erreur se produit. |
Tâche d'insertion en masse | L'utilisation peut charger des données dans une table à l'aide de la commande d'insertion en bloc. |
Tâche de script | Exécute un ensemble de VB.NET ou codage C# dans un environnement Visual Studio. |
Tâche de service Web | Il exécute une méthode sur un service Web. |
Tâche d'observateur d'événements WMI | Cette tâche permet au package SSIS d'attendre et de répondre à certains événements WMI. |
Tâche XML | Cette tâche vous aide à fusionner, diviser ou reformater n'importe quel fichier XML. |
Autres outils ETL importants
- SAP Services de données
- Gestion des données SAS
- Oracle Constructeur d'entrepôt (OWB)
- PowerCenter Informatique
- IBM Serveur d'informations de l'infosphère
- Répertoire Elixir pour les données ETL
- Flux de données Sargent
Avantages et inconvénients de l'utilisation de SSIS
L'outil SSIS offre les avantages suivants :
- Documentation et assistance étendues
- Facilité et rapidité de mise en œuvre
- Intégration étroite avec SQL Server et studio visuel
- Intégration de données standardisée
- Offre des fonctionnalités en temps réel basées sur des messages
- Prise en charge du modèle de distribution
- Vous aide à supprimer le réseau en tant que goulot d'étranglement pour l'insertion de données par SSIS dans SQL
- SISS vous permet d'utiliser la destination SQL Server au lieu d'OLE DB pour charger les données plus rapidement
Inconvénients du SSIS
Les inconvénients de l'utilisation des outils SSIS sont les suivants :
- Crée parfois des problèmes dans des environnements non Windows
- Vision et stratégie peu claires
- SSIS ne prend pas en charge les styles d'intégration de données alternatifs
- Intégration problématique avec d'autres produits
Exemple de meilleures pratiques SSIS
- SSIS est un pipeline en mémoire. C'est pourquoi il est important de s'assurer que toutes les transformations se produisent en mémoire
- Essayez de minimiser les opérations enregistrées
- Planifier la capacité en comprenant l’utilisation des ressources
- Optimiser la transformation de recherche SQL, la source de données et la destination
- Planifiez-le et distribuez-le correctement
Résumé
- La forme complète de SSIS est SQL Server Integration Services
- L'outil SSIS vous aide à fusionner les données de différents magasins de données
- Les versions importantes de SQL Server Integration Service sont 2005, 2008, 2012, 2014 et 216.
- Les environnements Studio, les fonctions d'intégration de données pertinentes et la vitesse de mise en œuvre efficace sont quelques caractéristiques importantes de SSIS.
- Le flux de contrôle, le flux de données, le gestionnaire d'événements, l'explorateur de packages et les paramètres sont des composants essentiels de l'architecture SSIS.
- Exécuter une tâche SQL, une tâche de flux de données, une tâche de traitement Analysis Services, une tâche d'exécution de package, une tâche d'exécution de processus, une tâche de système de fichiers, des tâches FTP, envoyer Mail Les tâches et les tâches de service Web sont importantes
- Documentation et assistance étendues
- Le plus gros inconvénient de SSIS est qu'il ne prend pas en charge d'autres styles d'intégration de données.
- SAP Services de données, gestion de données SAS, Oracle Constructeur d'entrepôt (OWB), PowerCenter Informatica, IBM Serveur d'informations de l'infosphère
- SSIS est un pipeline en mémoire. Il est donc essentiel de s'assurer que toutes les transformations se produisent en mémoire