> Tech > Extraction et archivage des données

Extraction et archivage des données

Tech - Par Renaud ROSSET - Publié le 24 juin 2010
email

Les tâches de flux de données peuvent être complexes et nous allons donc commencer par une tâche simple. Sur la figure 2, vous pouvez constater que la source de la dimension Promotion est une table unique et que les transformations nécessaires sont minimes. Au niveau de l’onglet Flux de données,

Extraction et archivage des données

faites glisser Source OLE DB (OLE DB Source) de la boîte à outils vers l’espace de conception.

La configuration de la source OLE DB est un jeu d’enfant : faites-la pointer vers la connexion de package pour AdventureWorks et entrez une requête source. L’approche par défaut consiste à établir une table ou une vue comme source, mais nous vous conseillons d’écrire systématiquement une requête source explicite, comme l’illustre le listing 1. La raison d’être d’une requête explicite est qu’elle vous permet de renommer les colonnes et d’effectuer des transformations triviales comme les conversions de type.

Vous avez, dans le pipeline de flux de données, de nombreuses opportunités d’effectuer des changements de noms et des conversions de type, mais nous vous conseillons de l’effectuer le plus tôt possible. Ces opérations ajoutent une charge négligeable sur la base de données source. Il est vital que vos requêtes source minimisent la charge sur le système source. Soyez particulièrement vigilant avec les jointures de tables et travaillez en étroite collaboration avec les DBA du système source afin qu’ils approuvent vos requêtes d’extraction. Veillez à renommer les objets dans votre package.

Dans notre exemple, renommez Source OLD DB en Source from Sales SpecialOffer. Ainsi, vous aurez l’assurance de comprendre le rôle de votre package lorsque vous l’examinerez dans quelques mois. L’étape suivante consiste à enregistrer une copie des données extraites avant d’effectuer toute transformation supplémentaire. L’archivage des données extraites constitue une bonne pratique, mais pas une exigence technique. Votre département d’audit interne sera heureux de voir que votre système ETL archive automatiquement les données extraites pour une durée établie (généralement un mois ou deux).

Ces archives peuvent, en effet, s’avérer précieuses lorsque vous devez, par exemple, modifier le système ETL et réexécuter des chargements couvrant une période d’un mois. Pour archiver les données extraites, ajoutez la transformation de multidiffusion (Multicast) sur la surface de conception et liez-la à la source. La transformation de multidiffusion effectue plusieurs copies identiques du flux de données. Ajoutez une destination de fichier brut (Raw File Destination) à la surface de conception et liez-la à la transformation de multidiffusion.

Il s’agit d’un format de fichier unique à SSIS. Il est facile à configurer et écrit des données très rapidement. Toutefois, la seule manière de lire un fichier brut est de le faire à partir d’un package SSIS. Par conséquent, si vous souhaitez qu’une autre personne puisse voir le fichier de sortie, utilisez plutôt Destination de fichier plat (Flat File Destination). Pour configurer une destination de fichier brut, spécifiez simplement le chemin et le nom du fichier de destination, puis ouvrez l’onglet Input Columns et spécifiez les colonnes à stocker.

Téléchargez cette ressource

Préparer l’entreprise à l’IA et aux technologies interconnectées

Préparer l’entreprise à l’IA et aux technologies interconnectées

Avec la « quatrième révolution industrielle », les environnements hyperconnectés entraînent de nouveaux risques en matière de sécurité. Découvrez, dans ce guide Kaspersky, comment faire face à cette nouvelle ère de vulnérabilité.

Tech - Par Renaud ROSSET - Publié le 24 juin 2010