> Data > Construisez un système ETL simple avec SSIS

Construisez un système ETL simple avec SSIS

Data - Par Warren Thornthwaite et Joy Mundy - Publié le 24 juin 2010
email

Vous savez probablement que vous pouvez utiliserun entrepôt de données (data warehouse).Mais comment allez-vous procéder ? À quoi ressemble une application ETL ?SSIS se targue de proposer tellement de nouveautés que les nouveaux venus ont l’impression d’avoir déballé un puzzle sur leur bureau. Il est difficile d’assembler les pièces sans avoir sous les yeux une vue d’ensemble du résultat final, notamment lorsque les pièces d’autres puzzles viennent jouer les trouble-fêtes ou lorsque certains éléments manquent !

L’objectif de cet article est justement de fournir la vue d’ensemble nécessaire : nous allons aborder les opérations élémentaires de conception et de construction de packages SSIS, et ainsi fournir les bases pour l’étude ultérieure des techniques de chargement incrémentiel concernant les dimensions et faits, ainsi que les variables, les scripts et l’audit de base des processus.

Construisez un système ETL simple avec SSIS

Avant de s’attaquer à la construction d’un système ETL pour remplir votre entrepôt de données, vous devez avoir développé le modèle dimensionnel relationnel destiné à répondre aux exigences métier de votre communauté d’utilisateurs. (Pour obtenir des informations élémentaires, consultez l’article « Les bases de la modélisation dimensionnelle », publié en juin 2006, www.itpro.fr Club Abonnés.)

Vous devez avoir le mappage source vers cible qui spécifie l’origine de chaque colonne dans l’entrepôt de données cible, avec un exposé succinct des règles de transformation. De même, vous devez avoir pris en compte certains aspects conceptuels et architecturaux afin de garantir la logique et la cohérence de votre système ETL. Dans cet article, nous utilisons la base de données bien connue AdventureWorks comme système source. Nous avons déjà conçu un modèle dimensionnel cible abrégé destiné à contenir les données de commandes.

Ce modèle, illustré à la figure 1, comporte seulement quatre dimensions, notamment la dimension Date, qui joue plusieurs rôles. Le modèle est simple (par ex., il ne possède pas de dimension Customer [clients]), mais il constitue un canevas conceptuel raisonnable pour la construction d’un système ETL. Il illustre les meilleures pratiques de la conception dimensionnelle, notamment les clés de substitution et plusieurs méthodes pour gérer les modifications de valeurs d’attributs. Nous construisons généralement deux systèmes ETL : le premier charge les données d’historique dans l’entrepôt de données et le deuxième gère les chargements incrémentiels.

Le chargement d’historique doit traiter plus de données et gérer les incompatibilités d’historique, alors que le chargement incrémentiel identifie les lignes nouvelles ou modifiées, puis traite ces changements. Bien qu’une partie de la logique des deux systèmes soit identique, il faut prévoir leur création. Avant de commencer à développer des packages SSIS, un peu de planification s’impose. Pour chaque table dans l’entrepôt de données, prenez en compte et documentez toutes les sources et transformations de données. Les spécifications détaillées du système que vous allez écrire peuvent facilement couvrir des dizaines de pages.

Il faut, au minimum, créer un mappage de haut niveau, comme l’illustre la figure 2. Dans celui-ci, les tables de l’entrepôt de données cible figurent dans la partie inférieure et les sources de ces dernières figurent dans la partie supérieure. Entre les sources et les cibles, vous devez documenter les types de transformations nécessaires. (Dans notre exemple, elles sont simples.) Notez systématiquement si une dimension inclut uniquement des attributs de type 1 (mis à jour sur place), des attributs de type 2 (pour lesquels vous effectuez un suivi d’historique) ou les deux. Spécifiez à quel emplacement vous allez capturer les métadonnées du processus et effectuer les contrôles de qualité des données.

Téléchargez gratuitement cette ressource

Les atouts du XDR face aux attaques modernes

Les atouts du XDR face aux attaques modernes

Agréger et corréler des données issues de plusieurs couches de sécurité permet de détecter et répondre plus rapidement aux menaces, gérer davantage d’alertes et renforcer la sécurité IT. La vague XDR s’accélère, comment en tirer profit ?

Data - Par Warren Thornthwaite et Joy Mundy - Publié le 24 juin 2010