> Data > Attention : Problèmes syntaxiques en vue…

Attention : Problèmes syntaxiques en vue…

Data - Par iTPro.fr - Publié le 24 juin 2010
email

par Andras Belokosztolszki. Mise en ligne: 10 Janvier 2006, Publication SQL Server Magazine: Juin 2005

Le terme hétérogénéité sémantique peut, au premier abord, ressembler à du jargon technique sans grande signification, mais il décrit en fait un ensemble subtil de problèmes auxquels sont confrontés de nombreux développeurs et administrateurs de base de données (DBA). Toute personne qui a déjà eu à combiner des ensembles de données de deux bases de données différentes (et quel DBA ou développeur ne l’a pas fait ?) a probablement déjà rencontré une hétérogénéité sémantique: les données n’ont pas des formats concordants et il est par conséquent difficile de les fusionner.Combiner des bases de données dont l’une consigne la température en degrés Celsius et l’autre, la température en degrés Fahrenheit, par exemple, peut aboutir à une corruption significative des données, à moins que vous ne traitiez cette problématique à l’avance. Il est, au mieux, extrêmement long de résoudre une telle corruption des données et, au pire, cette opération peut être impossible d’un point de vue logique. Le présent article aborde les quatre types d’hétérogénéité sémantique, examine à quels endroits ils se produisent lors de la comparaison des bases de données et présente différentes méthodes pour les résoudre.

L’hétérogénéité sémantique est un terme compliqué désignant un phénomène de désaccord sur la signification ou l’interprétation de données identiques ou apparentées. Les sources d’hétérogénéité sémantique peuvent inclure des différences dans les constructions des définitions de données, des différences dans les représentations des objets et des différences au niveau système dans la manière dont les données atomiques (par ex., ordre de tri pour des données multi-octets, tels qu’un entier) sont stockées sur deux systèmes.

Dr. Stefano Ceri et Dr. Jennifer Widom, deux chercheurs de premier plan dans le domaine des bases de données, identifient quatre types d’hétérogénéité sémantique, comme l’illustre le tableau 1 : conflits de noms, conflits de domaines, conflits de métadonnées et conflits structurels. Examinons brièvement chacun d’eux en s’appuyant sur l’exemple des bases de données A et B de la figure 1.

Les conflits de noms se produisent lorsque deux bases de données emploient des noms différents pour identifier les mêmes entités du monde réel. Par exemple, un schéma de base de données pourra stocker un identifiant d’employé dans un champ nommé Employee ID, mais dans un autre schéma de base de données, un champ contenant les mêmes données pourra s’intituler Employee_Number.

Les conflits de domaines surviennent lorsque des bases de données différentes utilisent des valeurs distinctes pour représenter les mêmes concepts. Dans la base de données centrale de la société, l’identifiant d’une employée pourra, par exemple, être as123, alors que la base de données de niveau départemental la répertoriera peut-être sous le numéro 17. L’exemple de représentation des températures, avec une base de données utilisant les degrés Fahrenheit et une autre, les degrés Celsius, entre dans cette catégorie d’hétérogénéité sémantique. Consultez le tableau 2 pour voir quelques exemples de types de conflits de domaines courants.

Les conflits de métadonnées surviennent lorsque les mêmes concepts sont représentés dans une base de données au niveau schéma et, dans une autre, au niveau données. Les informations historiques concernant la rémunération d’un employé, par exemple, peuvent être stockées soit en tant que partie d’une table, soit en tant que lignes distinctes. Par exemple, dans la base de données A de la figure 1, les deux dernières valeurs de salaire sont stockées en tant qu’attributs ; la base de données B les présente sous forme de lignes, dans une table distincte.

Les conflits structurels se produisent en cas de recours à différentes organisations des données. Dans la base de données B, un nom est représenté sous la forme d’une chaîne de caractères, alors que la base de données A utilise deux chaînes, une pour le prénom et une autre pour tous les autres noms. Ce type d’hétérogénéité sémantique inclut également les conflits de type, lorsque des types de données différents représentent le même concept. Par exemple, vous pouvez représenter la température soit sous forme de valeur en virgule flottante, soit sous forme d’entier.

Téléchargez cette ressource

Guide de Sécurité IA et IoT

Guide de Sécurité IA et IoT

Compte tenu de l'ampleur des changements que l'IA est susceptible d'entraîner, les organisations doivent élaborer une stratégie pour se préparer à adopter et à sécuriser l'IA. Découvrez dans ce Livre blanc Kaspersky quatre stratégies efficaces pour sécuriser l'IA et l'IoT.

Data - Par iTPro.fr - Publié le 24 juin 2010