par Andras Belokosztolszki. Mise en ligne: 10 Janvier 2006, Publication SQL Server Magazine: Juin 2005
Le terme hétérogénéité sémantique peut, au premier abord, ressembler à du jargon technique sans grande signification, mais il décrit en fait un ensemble subtil de problèmes auxquels sont confrontés de nombreux développeurs et administrateurs de base de données (DBA). Toute personne qui a déjà eu à combiner des ensembles de données de deux bases de données différentes (et quel DBA ou développeur ne l’a pas fait ?) a probablement déjà rencontré une hétérogénéité sémantique: les données n’ont pas des formats concordants et il est par conséquent difficile de les fusionner.Combiner des bases de données dont l’une consigne la température en degrés Celsius et l’autre, la température en degrés Fahrenheit, par exemple, peut aboutir à une corruption significative des données, à moins que vous ne traitiez cette problématique à l’avance. Il est, au mieux, extrêmement long de résoudre une telle corruption des données et, au pire, cette opération peut être impossible d’un point de vue logique. Le présent article aborde les quatre types d’hétérogénéité sémantique, examine à quels endroits ils se produisent lors de la comparaison des bases de données et présente différentes méthodes pour les résoudre.
Attention : Problèmes syntaxiques en vue…
L’hétérogénéité sémantique est un terme compliqué désignant un phénomène de désaccord sur la signification ou l’interprétation de données identiques ou apparentées. Les sources d’hétérogénéité sémantique peuvent inclure des différences dans les constructions des définitions de données, des différences dans les représentations des objets et des différences au niveau système dans la manière dont les données atomiques (par ex., ordre de tri pour des données multi-octets, tels qu’un entier) sont stockées sur deux systèmes.
Dr. Stefano Ceri et Dr. Jennifer Widom, deux chercheurs de premier plan dans le domaine des bases de données, identifient quatre types d’hétérogénéité sémantique, comme l’illustre le tableau 1 : conflits de noms, conflits de domaines, conflits de métadonnées et conflits structurels. Examinons brièvement chacun d’eux en s’appuyant sur l’exemple des bases de données A et B de la figure 1.
Les conflits de noms se produisent lorsque deux bases de données emploient des noms différents pour identifier les mêmes entités du monde réel. Par exemple, un schéma de base de données pourra stocker un identifiant d’employé dans un champ nommé Employee ID, mais dans un autre schéma de base de données, un champ contenant les mêmes données pourra s’intituler Employee_Number.
Les conflits de domaines surviennent lorsque des bases de données différentes utilisent des valeurs distinctes pour représenter les mêmes concepts. Dans la base de données centrale de la société, l’identifiant d’une employée pourra, par exemple, être as123, alors que la base de données de niveau départemental la répertoriera peut-être sous le numéro 17. L’exemple de représentation des températures, avec une base de données utilisant les degrés Fahrenheit et une autre, les degrés Celsius, entre dans cette catégorie d’hétérogénéité sémantique. Consultez le tableau 2 pour voir quelques exemples de types de conflits de domaines courants.
Les conflits de métadonnées surviennent lorsque les mêmes concepts sont représentés dans une base de données au niveau schéma et, dans une autre, au niveau données. Les informations historiques concernant la rémunération d’un employé, par exemple, peuvent être stockées soit en tant que partie d’une table, soit en tant que lignes distinctes. Par exemple, dans la base de données A de la figure 1, les deux dernières valeurs de salaire sont stockées en tant qu’attributs ; la base de données B les présente sous forme de lignes, dans une table distincte.
Les conflits structurels se produisent en cas de recours à différentes organisations des données. Dans la base de données B, un nom est représenté sous la forme d’une chaîne de caractères, alors que la base de données A utilise deux chaînes, une pour le prénom et une autre pour tous les autres noms. Ce type d’hétérogénéité sémantique inclut également les conflits de type, lorsque des types de données différents représentent le même concept. Par exemple, vous pouvez représenter la température soit sous forme de valeur en virgule flottante, soit sous forme d’entier.
Téléchargez cette ressource

Rapport mondial 2025 sur la réponse à incident
Dans ce nouveau rapport, les experts de Palo Alto Networks, Unit 42 livrent la synthèse des attaques ayant le plus impacté l'activité des entreprises au niveau mondial. Quel est visage actuel de la réponse aux incidents ? Quelles sont les tendances majeures qui redessinent le champ des menaces ? Quels sont les défis auxquels doivent faire face les entreprises ? Découvrez les top priorités des équipes de sécurité en 2025.
Les articles les plus consultés
- L’utilisation des données pour survivre !
- La blockchain en pratique
- Stockage autonome, Evolutivité & Gestion intelligente, Pure Storage offre de nouvelles perspectives aux entreprises
- Intelligence Artificielle : DeepKube sécurise en profondeur les données des entreprises
- Databricks lève 1 milliard de dollars !
Les plus consultés sur iTPro.fr
- Les risques liés à l’essor fulgurant de l’IA générative
- Pourquoi est-il temps de repenser la gestion des vulnérabilités ?
- Reporting RSE : un levier d’innovation !
- De la 5G à la 6G : la France se positionne pour dominer les réseaux du futur
- Datanexions, acteur clé de la transformation numérique data-centric
Sur le même sujet

Les projets d’intégration augmentent la charge de travail des services IT

ActiveViam fait travailler les data scientists et les décideurs métiers ensemble

La blockchain en pratique

10 grandes tendances Business Intelligence

Intelligence Artificielle : DeepKube sécurise en profondeur les données des entreprises
