Vous savez probablement que vous pouvez utiliserun entrepôt de données (data warehouse).Mais comment allez-vous procéder ? À quoi ressemble une application ETL ?SSIS se targue de proposer tellement de nouveautés que les nouveaux venus ont l’impression d’avoir déballé un puzzle sur leur bureau. Il est difficile d’assembler les pièces sans avoir sous les yeux une vue d’ensemble du résultat final, notamment lorsque les pièces d’autres puzzles viennent jouer les trouble-fêtes ou lorsque certains éléments manquent !
L’objectif de cet article est justement de fournir la vue d’ensemble nécessaire : nous allons aborder les opérations élémentaires de conception et de construction de packages SSIS, et ainsi fournir les bases pour l’étude ultérieure des techniques de chargement incrémentiel concernant les dimensions et faits, ainsi que les variables, les scripts et l’audit de base des processus.
Construisez un système ETL simple avec SSIS

Avant de s’attaquer à la construction d’un système ETL pour remplir votre entrepôt de données, vous devez avoir développé le modèle dimensionnel relationnel destiné à répondre aux exigences métier de votre communauté d’utilisateurs. (Pour obtenir des informations élémentaires, consultez l’article « Les bases de la modélisation dimensionnelle », publié en juin 2006, www.itpro.fr Club Abonnés.)
Vous devez avoir le mappage source vers cible qui spécifie l’origine de chaque colonne dans l’entrepôt de données cible, avec un exposé succinct des règles de transformation. De même, vous devez avoir pris en compte certains aspects conceptuels et architecturaux afin de garantir la logique et la cohérence de votre système ETL. Dans cet article, nous utilisons la base de données bien connue AdventureWorks comme système source. Nous avons déjà conçu un modèle dimensionnel cible abrégé destiné à contenir les données de commandes.
Ce modèle, illustré à la figure 1, comporte seulement quatre dimensions, notamment la dimension Date, qui joue plusieurs rôles. Le modèle est simple (par ex., il ne possède pas de dimension Customer [clients]), mais il constitue un canevas conceptuel raisonnable pour la construction d’un système ETL. Il illustre les meilleures pratiques de la conception dimensionnelle, notamment les clés de substitution et plusieurs méthodes pour gérer les modifications de valeurs d’attributs. Nous construisons généralement deux systèmes ETL : le premier charge les données d’historique dans l’entrepôt de données et le deuxième gère les chargements incrémentiels.
Le chargement d’historique doit traiter plus de données et gérer les incompatibilités d’historique, alors que le chargement incrémentiel identifie les lignes nouvelles ou modifiées, puis traite ces changements. Bien qu’une partie de la logique des deux systèmes soit identique, il faut prévoir leur création. Avant de commencer à développer des packages SSIS, un peu de planification s’impose. Pour chaque table dans l’entrepôt de données, prenez en compte et documentez toutes les sources et transformations de données. Les spécifications détaillées du système que vous allez écrire peuvent facilement couvrir des dizaines de pages.
Il faut, au minimum, créer un mappage de haut niveau, comme l’illustre la figure 2. Dans celui-ci, les tables de l’entrepôt de données cible figurent dans la partie inférieure et les sources de ces dernières figurent dans la partie supérieure. Entre les sources et les cibles, vous devez documenter les types de transformations nécessaires. (Dans notre exemple, elles sont simples.) Notez systématiquement si une dimension inclut uniquement des attributs de type 1 (mis à jour sur place), des attributs de type 2 (pour lesquels vous effectuez un suivi d’historique) ou les deux. Spécifiez à quel emplacement vous allez capturer les métadonnées du processus et effectuer les contrôles de qualité des données.
Téléchargez cette ressource

État des lieux de la réponse à incident de cybersécurité
Les experts de Palo Alto Networks, Unit 42 et Forrester Research livrent dans ce webinaire exclusif leurs éclairages et stratégies en matière de réponses aux incidents. Bénéficiez d'un panorama complet du paysage actuel de la réponse aux incidents et de sa relation avec la continuité de l'activité, des défis auxquels font face les entreprises et des tendances majeures qui modèlent ce domaine. Un état des lieux précieux pour les décideurs et professionnels IT.
Les articles les plus consultés
- 9 défis de transformation digitale !
- Databricks lève 1 milliard de dollars !
- Stockage autonome, Evolutivité & Gestion intelligente, Pure Storage offre de nouvelles perspectives aux entreprises
- L’utilisation des données pour survivre !
- Les projets d’intégration augmentent la charge de travail des services IT
Les plus consultés sur iTPro.fr
- DORA : quels impacts après les six premiers mois de mise en conformité sur le terrain ?
- Cybersécurité : le secteur de la santé toujours au défi de la sécurité des e-mails
- Attaque Microsoft SharePoint, analyse et recommandations
- Devenir RSSI : quels parcours et de quelles qualités faire preuve ?
- Évolution du marché de la virtualisation : quelle voie choisir ?
Sur le même sujet

La blockchain en pratique

ActiveViam fait travailler les data scientists et les décideurs métiers ensemble

Les projets d’intégration augmentent la charge de travail des services IT

10 grandes tendances Business Intelligence

Intelligence Artificielle : DeepKube sécurise en profondeur les données des entreprises
