> Tech > Les métadonnées

Les métadonnées

Tech - Par iTPro.fr - Publié le 24 juin 2010
email

par Scott Steinacher
Ces " données concernant les données " sont indispensables à  la structuration de tout data-warehouse.Pouvez-vous imaginer à  quel point il serait difficile, sans catalogue, de trouver un livre dans une bibliothèque? Bien que les bibliothèques rangent les livres de manière logique (par sujet, par exemple), il serait presque impossible de trouver un ouvrage spécifique sans consulter d'abord un catalogue. Et bien, de la même manière que les catalogues permettent aux lecteurs de trouver rapidement des livres dans les bibliothèques, les métadonnées permettent aux utilisateurs de retrouver facilement des données dans des entrepôts de données. Les entrepôts de données d'applications complexes sont constitués de nombreux composants. Sans métadonnées, les utilisateurs finaux ne peuvent pas trouver efficacement les informations dans ces systèmes, pas plus que le personnel informatique ne peut les maintenir correctement. 

Les métadonnées permettent aux utilisateurs de retrouver facilement des données dans des entrepôts de données 

            Le terme de métadonnées est couramment défini comme “ des données concernant les données ”. Bien que les métadonnées décrivent essentiellement le schéma de la base de données et les données individuelles, elles ont aussi une autre utilisation importante. Outre les données, les métadonnées décrivent également les règles de gestion, les processus opérationnels, les procédures de transformation de données et, plus généralement, toute fonction servant à  créer et à  maintenir des données. Ces deux genres de métadonnées --que j'appelle métadonnées techniques et métadonnées de gestion—sont des composants critiques des entrepôts de données.

            Bien que les métadonnées soient généralement associées aux systèmes informatiques, leur utilisation ne se limite pas au domaine des technologies de l'information. Comme je viens de le dire, les métadonnées sont au coeur de toute bibliothèque. En fait, la plupart d'entre nous accèdent à  des métadonnées et en manipulent chaque jour, sans en être conscients. Outre les catalogues, il faut savoir que les annuaires téléphoniques, les index des magazines, les tables des matières et les listes de rues accompagnant les plans de villes, constituent aussi des référentiels de métadonnées. Au sens élémentaire, ces structures contiennent des informations sur des données. Considérons à  nouveau le catalogue d'ouvrages, sous forme physique ou électronique. Ce système de classement spécialisé contient des informations sur les livres, périodiques, magazines et journaux. Dans les catalogues, on trouve les données suivantes : titres, descriptions, dates de publication, auteurs, numéros d'ISBN et emplacement sur les rayonnages. Sans un tel catalogue, les lecteurs ne sauraient pas quelles données (quels livres par exemple) existent dans une bibliothèque, pas plus qu'ils ne sauraient où se trouvent les données. Les catalogues sont des référentiels de métadonnées particulièrement efficaces, parce qu'ils respectent une norme d'indexation largement reconnue, comme le système de classification “ Dewey Decimal ” ou “ Library of Congress ”, grâce auxquels les lecteurs peuvent trouver des données dans l'ensemble des bibliothèques des Etats-Unis.

            Vous vous doutez bien que les structures de métadonnées abondent dans le domaine des technologies de l'information. Dictionnaires de données, diagrammes de flux de données, spécifications de descriptions de données (DDS, Data-Description Specifications), listes de bibliothèques, descriptions d'objets, aide en ligne, job logs, commentaires de programmes, manuels de référence, définitions de requêtes, noms de zones, noms de fichiers et fichiers de référen

Les métadonnées

Destinées aux professionnels des technologies de l’information, les métadonnées techniques utilisent une terminologie particulière pour décrire les applications, bases de données et données participant à  l’entreposage de données (data-warehousing). L’utilisateur lambda accède rarement aux métadonnées techniques, souvent stockées sous une forme relativement brute. Un membre source DDS d’un fichier physique AS/400 est un bon exemple de métadonnées techniques. Peu utiles pour l’utilisateur final, les membres source procurent aux programmeurs beaucoup d’informations sur les fichiers AS/400. La figure 1 présente un exemple de spécification DDS pour un fichier physique.

En examinant le membre source de la figure 1, les programmeurs AS/400 expérimentés peuvent en apprendre beaucoup sur son fichier associé. Ils peuvent, par exemple, en déduire qu’il s’agit d’un fichier physique constitué de huit zones et d’une clé. Chacune des trois zones d’adresse peut contenir jusqu’à  25 caractères alphanumériques. Les zones ID client et code ZIP, elles aussi numériques, peuvent contenir jusqu’à  9 caractères chacune. De plus, la zone clé (numéro de client) dans ce fichier est unique. Sur un plan élémentaire, toute cette information représente “ des données concernant les données ”.

La figure 2 présente un autre exemple de métadonnées techniques. Ici, il s’agit de commentaires de programme et d’informations détaillées en code RPG à  propos d’une donnée et d’un processus de transformation associé. Via ce codage, les programmeurs AS/400 peuvent déterminer qu’une zone nom de client a été incorrectement validée dans un système opérationnel. De plus, ils savent ainsi comment le nom d’un client particulier est standardisé pour servir dans une entrepôt de données.

L’AS/400 maintient automatiquement un vaste tableau de métadonnées techniques, ainsi que les moyens d’y accéder. C’est ainsi qu’un objet spécial, appelé dictionnaire de données, contient les descriptions de chaque composant dans chaque fichier physique et logique d’un AS/400. Ce référentiel de métadonnées offre au personnel informatique un panorama complet des bases de données applicatives. A chaque création ou suppression de fichier, le dictionnaire des données est mis à  jour. Par suite d’améliorations apportées à  la version 3 de l’OS/400, le dictionnaire des données contient dorénavant des informations sur les fichiers DB2/400 : zones, intégrité référentielle, contraintes et détails de référence croisée d’objets. Bien que la plupart des gens ne considèrent pas DB2/400 sous l’angle des interfaces, il en possède deux : DDS et SQL. En SQL, le dictionnaire de données est appelé catalogue global (systemwide catalog) ; de la même manière, table, colonne et ligne en SQL, signifient respectivement fichier, zone et enregistrement en DDS.

L’AS/400 permet d’accéder aux métadonnées techniques de différentes manières. C’est ainsi que, pour déterminer la taille, le type et la structure d’un fichier quelconque, les programmeurs ont juste à  exécuter la commande DSPFD (Display File Description). Malgré leur grande utilité, les fonctionnalités métadonnées de l’AS/400 ne peuvent, à  elles seules, maintenir suffisamment d’informations pour documenter efficacement les entrepôts de données. L’AS/400 ne peut pas, par exemple, enregistrer automatiquement les significations des codes dans un fichier de tables ou décrire les processus utilisés pour créer ces codes. Pour répondre à  de tels besoins, de nombreux entrepôts de données possèdent leurs propres dictionnaires de données centralisés. Outre les attributs des zones et des fichiers, ces structures stockent des descriptions des processus utilisés pour créer les données. Outre les référentiels de métadonnées comme le catalogue système DB2/400 et les dictionnaires de données tiers, les informaticiens maintiennent souvent les métadonnées sous la forme de diagrammes de flux de données et de relations entre entités. De telles structures contribuent grandement à  la maintenance des applications.

Téléchargez cette ressource

Guide de Sécurité IA et IoT

Guide de Sécurité IA et IoT

Compte tenu de l'ampleur des changements que l'IA est susceptible d'entraîner, les organisations doivent élaborer une stratégie pour se préparer à adopter et à sécuriser l'IA. Découvrez dans ce Livre blanc Kaspersky quatre stratégies efficaces pour sécuriser l'IA et l'IoT.

Tech - Par iTPro.fr - Publié le 24 juin 2010