Configuration de la source de données

La figure 1 illustre la fenêtre suivante, à savoir la boîte de dialogue Data Source, dans laquelle je spécifie les données source. La zone de liste déroulante en haut sert à sélectionner le type de fournisseur de source de données. Elle dissimule aussi une différence subtile dans la manière dont

DTS gère désormais les fichiers plats. Dans SQL Server 2000, DTS utilise un pilote OLE DB texte pour accéder à ce type de fichier. DTS 2005 introduit un nouveau composant de pipeline, appelé adaptateur (Pour plus d’informations sur l’adaptateur,, également connu sur le nom Data Flow Task ou tâche de flux de données, consultez l’article « Quoi de neuf dans DTS ? » sur www.itpro.fr .) Les adaptateurs de source sont les composants de pipeline qui interagissent avec les systèmes et fichiers source. Ainsi, cette zone de liste déroulante affiche en fait de manière conjointe les fournisseurs et adaptateurs disponibles. Dans le cadre de cet exemple, je souhaite importer un fichier plat vers SQL Server et j’ai donc sélectionné Flat File Data Source. Dans la zone File name, j’ai spécifié le fichier AWCustomers.txt.

Après avoir sélectionné le fournisseur ou l’adaptateur, les contrôles de boîte de dialogue visibles seront basés sur votre sélection. Notez également que le format de fichier plat spécifié est Ragged Right (justifié à droite) et indique à l’adaptateur de fichier plat comment analyser le fichier source. La prise en charge de Ragged Right est nouvelle dans DTS 2005 et est identique au format à largeur fixe, à une exception près : chaque ligne est délimitée par une combinaison CR/LF. Les autres formats disponibles sont le format à largeur fixe et le format délimité. Le premier signifie que les données sont alignées en colonnes de même largeur pour toutes les lignes.

Les données délimitées signifient que les colonnes utilisent un séparateur tel que le pointvirgule, la tabulation ou la virgule. Les fichiers CSV (Comma Separated Value) constituent un type de données délimitées. Dans la mesure où l’exemple de fichier inclut deux lignes d’en-tête, une contenant les noms de colonnes et l’autre, les tirets, j’ai pu définir la valeur 2 pour l’option Header rows to skip et ignorer les deux premières lignes d’en-tête de colonne. Néanmoins, j’ai activé la case à cocher Column names in the first data row. Cette sélection n’est pas nécessaire, mais elle permet à l’adaptateur de récupérer les noms des colonnes, ce qui peut s’avérer utile ultérieurement si je souhaite modifier le lot dans DTS Designer. Par ailleurs, il est toujours plus convivial d’utiliser les véritables noms de colonnes que des noms par défaut du type Colonne1 et Colonne2. Dans quelques instants, je vais expliquer comment gérer la deuxième ligne de tirets dans les données exemple.

La liste de zone déroulante Locale permet de sélectionner les paramètres régionaux utilisés par la connexion source et par l’adaptateur. Ces paramètres ont une incidence sur la manière dont DTS convertit les données à partir de chaînes. Par exemple, DTS convertit les chaînes de date en représentations de date spécifiques aux paramètres régionaux. Ainsi, la date Monday, May 17, 2004 sera convertie dans le format abrégé 17/5/04 pour l’anglais de Nouvelle-Zélande, mais en 04/5/17 pour l’anglais d’Afrique du Sud. Par défaut, l’assistant sélectionne les paramètres régionaux de la machine sur laquelle l’assistant s’exécute. Si vous modifiez ces paramètres, l’assistant essaie de vous faciliter la tâche et sélectionne la page de code par défaut correspondante. Toutefois, la page de codes n’est pas subordonnée aux paramètres régionaux et vous pouvez en choisir une autre. Comme le montre la figure 1, j’ai sélectionné le paramètre Unicode, de sorte que la zone de liste déroulante Code page est désactivée.

Vous pouvez employer le paramètre Header row delimiter avec les formats de fichier plat qui établissent une distinction entre les lignes d’en-tête et les lignes de données. Ces types de fichiers utilisent un caractère pour délimiter la ligne d’en-tête et un autre pour délimiter les lignes de données. Les raisons pour lesquelles cette différenciation est effectuée sont multiples : par exemple, certains systèmes d’insertion en bloc propriétaires ignorent une ligne si l’en-tête n’est pas délimité d’une manière distincte des lignes de données. Si votre fichier plat est formaté de la sorte, le nouvel assistant le prend en charge.

La zone Text qualifier est utile lorsque le fichier source utilise des séparateurs. Par exemple, si votre source de données est un fichier utilisant la virgule comme séparateur et si vous spécifiez les guillemets doubles (") comme qualificateur de texte, l’assistant ignorera les virgules dans le texte entre guillemets doubles. Ainsi, dans la chaîne "15, rue Descartes", l’assistant n’interprétera pas la virgule comme un séparateur. Les qualificateurs de texte sont en général des guillemets simples ou doubles, mais vous pouvez en définir d’autres.

Une fois que vous avez précisé le fichier source et le format, vous pouvez configurer les largeurs de colonnes. Cliquez sur le noeud Columns dans l’arborescence du volet gauche de la boîte de dialogue de la figure 1 pour ouvrir la boîte de dialogue Columns illustrée à la figure 2. Comme j’ai sélectionné le format Ragged Right, j’ai besoin de définir la largeur de chaque colonne. Si le fichier source était délimité, l’assistant détecterait automatiquement les largeurs de colonnes à votre place. Le fait de cliquer sur le contrôle de règle crée un marqueur qui vous permet de choisir le début des colonnes. Vous pouvez supprimer ce marqueur en double-cliquant dessus ou en cliquant avec le bouton droit de la souris dessus et en sélectionnant Remove dans le menu contextuel.

L’étape suivante consiste à spécifier les propriétés des colonnes. Une fois les largeurs de colonnes précisées, cliquez sur le noeud Column Properties dans l’arborescence du volet gauche pour ouvrir la boîte de dialogue de la figure 3. Vous pouvez alors définir des propriétés de type afin de garantir la bonne conversion de chaque colonne. Par exemple, si une colonne contient des dates, vous allez spécifier le type de données DT_DATE pour celle-ci. L’assistant ajoute automatiquement des définitions de colonnes basées sur les paramètres de largeur présentés à la figure 2.

Toutefois, si, pour une raison ou une autre, vous devez modifier manuellement les propriétés d’une colonne, vous pouvez le faire au moyen des boutons New et Delete.

Au bas de la boîte de dialogue Column Properties se trouve le bouton Suggest Types. Cliquez dessus pour afficher la boîte de dialogue Suggest Column Type. Cette fonctionnalité effectue un traitement intelligent afin de déterminer le type de chaque colonne dans le fichier plat source. Vous devez l’utiliser pour attribuer des types de colonnes automatiquement car cette fonction est simple, rapide et généralement pertinente. Le fait d’affecter les types de colonnes appropriés rend plus facile la modification du lot résultant et optimise le flux de données généré en assignant les types appropriés les plus petits aux lignes.

Une fois les propriétés de colonnes définies, vous êtes prêts pour l’aperçu des données illustré à la figure 4. Dans notre exemple, tout semble correct, hormis le fait que la ligne avec les tirets sous les noms de colonnes a disparu. J’ai demandé à l’assistant d’ignorer cette ligne en attribuant la valeur 1 à Data rows to skip. Cet élément mis à part, la boîte de dialogue Choose a Data Source permet principalement de vérifier que tous les paramètres sont corrects. Toute nouvelle dans DTS 2005, cette fenêtre vous donne la possibilité de parcourir les colonnes à la recherche de problèmes tels que des colonnes trop étroites ou des lignes non valides.