par Andras Belokosztolszki. Mise en ligne: 10 Janvier 2006, Publication SQL Server Magazine: Juin 2005
Le terme hétérogénéité sémantique peut, au premier abord, ressembler à du jargon technique sans grande signification, mais il décrit en fait un ensemble subtil de problèmes auxquels sont confrontés de nombreux développeurs et administrateurs de base de données (DBA). Toute personne qui a déjà eu à combiner des ensembles de données de deux bases de données différentes (et quel DBA ou développeur ne l’a pas fait ?) a probablement déjà rencontré une hétérogénéité sémantique: les données n’ont pas des formats concordants et il est par conséquent difficile de les fusionner.Combiner des bases de données dont l’une consigne la température en degrés Celsius et l’autre, la température en degrés Fahrenheit, par exemple, peut aboutir à une corruption significative des données, à moins que vous ne traitiez cette problématique à l’avance. Il est, au mieux, extrêmement long de résoudre une telle corruption des données et, au pire, cette opération peut être impossible d’un point de vue logique. Le présent article aborde les quatre types d’hétérogénéité sémantique, examine à quels endroits ils se produisent lors de la comparaison des bases de données et présente différentes méthodes pour les résoudre.
Attention : Problèmes syntaxiques en vue…
L’hétérogénéité sémantique est un terme compliqué désignant un phénomène de désaccord sur la signification ou l’interprétation de données identiques ou apparentées. Les sources d’hétérogénéité sémantique peuvent inclure des différences dans les constructions des définitions de données, des différences dans les représentations des objets et des différences au niveau système dans la manière dont les données atomiques (par ex., ordre de tri pour des données multi-octets, tels qu’un entier) sont stockées sur deux systèmes.
Dr. Stefano Ceri et Dr. Jennifer Widom, deux chercheurs de premier plan dans le domaine des bases de données, identifient quatre types d’hétérogénéité sémantique, comme l’illustre le tableau 1 : conflits de noms, conflits de domaines, conflits de métadonnées et conflits structurels. Examinons brièvement chacun d’eux en s’appuyant sur l’exemple des bases de données A et B de la figure 1.
Les conflits de noms se produisent lorsque deux bases de données emploient des noms différents pour identifier les mêmes entités du monde réel. Par exemple, un schéma de base de données pourra stocker un identifiant d’employé dans un champ nommé Employee ID, mais dans un autre schéma de base de données, un champ contenant les mêmes données pourra s’intituler Employee_Number.
Les conflits de domaines surviennent lorsque des bases de données différentes utilisent des valeurs distinctes pour représenter les mêmes concepts. Dans la base de données centrale de la société, l’identifiant d’une employée pourra, par exemple, être as123, alors que la base de données de niveau départemental la répertoriera peut-être sous le numéro 17. L’exemple de représentation des températures, avec une base de données utilisant les degrés Fahrenheit et une autre, les degrés Celsius, entre dans cette catégorie d’hétérogénéité sémantique. Consultez le tableau 2 pour voir quelques exemples de types de conflits de domaines courants.
Les conflits de métadonnées surviennent lorsque les mêmes concepts sont représentés dans une base de données au niveau schéma et, dans une autre, au niveau données. Les informations historiques concernant la rémunération d’un employé, par exemple, peuvent être stockées soit en tant que partie d’une table, soit en tant que lignes distinctes. Par exemple, dans la base de données A de la figure 1, les deux dernières valeurs de salaire sont stockées en tant qu’attributs ; la base de données B les présente sous forme de lignes, dans une table distincte.
Les conflits structurels se produisent en cas de recours à différentes organisations des données. Dans la base de données B, un nom est représenté sous la forme d’une chaîne de caractères, alors que la base de données A utilise deux chaînes, une pour le prénom et une autre pour tous les autres noms. Ce type d’hétérogénéité sémantique inclut également les conflits de type, lorsque des types de données différents représentent le même concept. Par exemple, vous pouvez représenter la température soit sous forme de valeur en virgule flottante, soit sous forme d’entier.
Téléchargez cette ressource

Microsoft 365 : 5 erreurs de sécurité
A l’heure où les données des solutions Microsoft 365 sont devenues indispensables au bon fonctionnement de l’entreprise, êtes-vous certain de pouvoir compter sur votre plan de sécurité des données et de sauvegarde des identités ? Découvrez le Top 5 des erreurs à ne pas commettre et les meilleures pratiques recommandées par les Experts DIB France.
Les articles les plus consultés
- 9 défis de transformation digitale !
- La blockchain en pratique
- Databricks lève 1 milliard de dollars !
- Stockage autonome, Evolutivité & Gestion intelligente, Pure Storage offre de nouvelles perspectives aux entreprises
- Intelligence Artificielle : DeepKube sécurise en profondeur les données des entreprises
Les plus consultés sur iTPro.fr
- Panorama de la maturité cyber des entreprises françaises
- L’IA n’est pas une stratégie, elle est au service de VOTRE stratégie. Alors posez-vous donc les bonnes questions !
- Les banques subissent la concurrence des PayTechs plus agiles
- Retrouver la sérénité du foyer au bureau : une nouvelle priorité pour les salariés
- Cryptographie post-quantique : qu’est-ce qui freine la transition des entreprises ?
Sur le même sujet

La blockchain en pratique

Les projets d’intégration augmentent la charge de travail des services IT

Intelligence Artificielle : DeepKube sécurise en profondeur les données des entreprises

10 grandes tendances Business Intelligence

ActiveViam fait travailler les data scientists et les décideurs métiers ensemble
