Vous savez probablement que vous pouvez utiliserun entrepôt de données (data warehouse).Mais comment allez-vous procéder ? À quoi ressemble une application ETL ?SSIS se targue de proposer tellement de nouveautés que les nouveaux venus ont l’impression d’avoir déballé un puzzle sur leur bureau. Il est difficile d’assembler les pièces sans avoir sous les yeux une vue d’ensemble du résultat final, notamment lorsque les pièces d’autres puzzles viennent jouer les trouble-fêtes ou lorsque certains éléments manquent !
L’objectif de cet article est justement de fournir la vue d’ensemble nécessaire : nous allons aborder les opérations élémentaires de conception et de construction de packages SSIS, et ainsi fournir les bases pour l’étude ultérieure des techniques de chargement incrémentiel concernant les dimensions et faits, ainsi que les variables, les scripts et l’audit de base des processus.
Construisez un système ETL simple avec SSIS
Avant de s’attaquer à la construction d’un système ETL pour remplir votre entrepôt de données, vous devez avoir développé le modèle dimensionnel relationnel destiné à répondre aux exigences métier de votre communauté d’utilisateurs. (Pour obtenir des informations élémentaires, consultez l’article « Les bases de la modélisation dimensionnelle », publié en juin 2006, www.itpro.fr Club Abonnés.)
Vous devez avoir le mappage source vers cible qui spécifie l’origine de chaque colonne dans l’entrepôt de données cible, avec un exposé succinct des règles de transformation. De même, vous devez avoir pris en compte certains aspects conceptuels et architecturaux afin de garantir la logique et la cohérence de votre système ETL. Dans cet article, nous utilisons la base de données bien connue AdventureWorks comme système source. Nous avons déjà conçu un modèle dimensionnel cible abrégé destiné à contenir les données de commandes.
Ce modèle, illustré à la figure 1, comporte seulement quatre dimensions, notamment la dimension Date, qui joue plusieurs rôles. Le modèle est simple (par ex., il ne possède pas de dimension Customer [clients]), mais il constitue un canevas conceptuel raisonnable pour la construction d’un système ETL. Il illustre les meilleures pratiques de la conception dimensionnelle, notamment les clés de substitution et plusieurs méthodes pour gérer les modifications de valeurs d’attributs. Nous construisons généralement deux systèmes ETL : le premier charge les données d’historique dans l’entrepôt de données et le deuxième gère les chargements incrémentiels.
Le chargement d’historique doit traiter plus de données et gérer les incompatibilités d’historique, alors que le chargement incrémentiel identifie les lignes nouvelles ou modifiées, puis traite ces changements. Bien qu’une partie de la logique des deux systèmes soit identique, il faut prévoir leur création. Avant de commencer à développer des packages SSIS, un peu de planification s’impose. Pour chaque table dans l’entrepôt de données, prenez en compte et documentez toutes les sources et transformations de données. Les spécifications détaillées du système que vous allez écrire peuvent facilement couvrir des dizaines de pages.
Il faut, au minimum, créer un mappage de haut niveau, comme l’illustre la figure 2. Dans celui-ci, les tables de l’entrepôt de données cible figurent dans la partie inférieure et les sources de ces dernières figurent dans la partie supérieure. Entre les sources et les cibles, vous devez documenter les types de transformations nécessaires. (Dans notre exemple, elles sont simples.) Notez systématiquement si une dimension inclut uniquement des attributs de type 1 (mis à jour sur place), des attributs de type 2 (pour lesquels vous effectuez un suivi d’historique) ou les deux. Spécifiez à quel emplacement vous allez capturer les métadonnées du processus et effectuer les contrôles de qualité des données.
Téléchargez cette ressource
Sécuriser Microsoft 365 avec une approche Zero-Trust
Découvrez comment renforcer la cyber-résilience de Microsoft 365 grâce à une approche Zero-Trust, une administration granulaire et une automatisation avancée. La technologie Virtual Tenant de CoreView permet de sécuriser et simplifier la gestion des environnements complexes, tout en complétant vos stratégies IAM, y compris dans les secteurs réglementés.
Les articles les plus consultés
- Stockage autonome, Evolutivité & Gestion intelligente, Pure Storage offre de nouvelles perspectives aux entreprises
- Les projets d’intégration augmentent la charge de travail des services IT
- Intelligence Artificielle : DeepKube sécurise en profondeur les données des entreprises
- Dark Web : où sont vos données dérobées ?
- 10 grandes tendances Business Intelligence
Les plus consultés sur iTPro.fr
- Fraude par identité synthétique : comment l’IA peut redonner confiance aux entreprises et à leurs clients
- VirtualBrowser protège la navigation web à la source
- Innovation et performance : le rôle clé du consulting dans la transformation numérique
- Sekoia.io : l’alternative européenne qui s’impose dans la cybersécurité
Articles les + lus
Redéfinir la confiance à l’ère de l’IA agentique : les entreprises sont-elles prêtes pour le SOC autonome ?
Les défaillances des pipelines de données pèsent lourdement sur la performance des grandes entreprises
Les nouvelles menaces liées à l’IA obligent les entreprises à dépasser la seule stratégie de sauvegarde
Sauvegarder les données ne suffit plus : il faut refonder le poste de travail
Construire la souveraineté numérique en Europe grâce à un écosystème ouvert et collaboratif
À la une de la chaîne Data
- Redéfinir la confiance à l’ère de l’IA agentique : les entreprises sont-elles prêtes pour le SOC autonome ?
- Les défaillances des pipelines de données pèsent lourdement sur la performance des grandes entreprises
- Les nouvelles menaces liées à l’IA obligent les entreprises à dépasser la seule stratégie de sauvegarde
- Sauvegarder les données ne suffit plus : il faut refonder le poste de travail
- Construire la souveraineté numérique en Europe grâce à un écosystème ouvert et collaboratif
