> Data > Attention : Problèmes syntaxiques en vue…

Attention : Problèmes syntaxiques en vue…

Data - Par iTPro.fr - Publié le 24 juin 2010

Windows

par Andras Belokosztolszki. Mise en ligne: 10 Janvier 2006, Publication SQL Server Magazine: Juin 2005

Le terme hétérogénéité sémantique peut, au premier abord, ressembler à du jargon technique sans grande signification, mais il décrit en fait un ensemble subtil de problèmes auxquels sont confrontés de nombreux développeurs et administrateurs de base de données (DBA). Toute personne qui a déjà eu à combiner des ensembles de données de deux bases de données différentes (et quel DBA ou développeur ne l’a pas fait ?) a probablement déjà rencontré une hétérogénéité sémantique: les données n’ont pas des formats concordants et il est par conséquent difficile de les fusionner.Combiner des bases de données dont l’une consigne la température en degrés Celsius et l’autre, la température en degrés Fahrenheit, par exemple, peut aboutir à une corruption significative des données, à moins que vous ne traitiez cette problématique à l’avance. Il est, au mieux, extrêmement long de résoudre une telle corruption des données et, au pire, cette opération peut être impossible d’un point de vue logique. Le présent article aborde les quatre types d’hétérogénéité sémantique, examine à quels endroits ils se produisent lors de la comparaison des bases de données et présente différentes méthodes pour les résoudre.

L’hétérogénéité sémantique est un terme compliqué désignant un phénomène de désaccord sur la signification ou l’interprétation de données identiques ou apparentées. Les sources d’hétérogénéité sémantique peuvent inclure des différences dans les constructions des définitions de données, des différences dans les représentations des objets et des différences au niveau système dans la manière dont les données atomiques (par ex., ordre de tri pour des données multi-octets, tels qu’un entier) sont stockées sur deux systèmes.

Dr. Stefano Ceri et Dr. Jennifer Widom, deux chercheurs de premier plan dans le domaine des bases de données, identifient quatre types d’hétérogénéité sémantique, comme l’illustre le tableau 1 : conflits de noms, conflits de domaines, conflits de métadonnées et conflits structurels. Examinons brièvement chacun d’eux en s’appuyant sur l’exemple des bases de données A et B de la figure 1.

Les conflits de noms se produisent lorsque deux bases de données emploient des noms différents pour identifier les mêmes entités du monde réel. Par exemple, un schéma de base de données pourra stocker un identifiant d’employé dans un champ nommé Employee ID, mais dans un autre schéma de base de données, un champ contenant les mêmes données pourra s’intituler Employee_Number.

Les conflits de domaines surviennent lorsque des bases de données différentes utilisent des valeurs distinctes pour représenter les mêmes concepts. Dans la base de données centrale de la société, l’identifiant d’une employée pourra, par exemple, être as123, alors que la base de données de niveau départemental la répertoriera peut-être sous le numéro 17. L’exemple de représentation des températures, avec une base de données utilisant les degrés Fahrenheit et une autre, les degrés Celsius, entre dans cette catégorie d’hétérogénéité sémantique. Consultez le tableau 2 pour voir quelques exemples de types de conflits de domaines courants.

Les conflits de métadonnées surviennent lorsque les mêmes concepts sont représentés dans une base de données au niveau schéma et, dans une autre, au niveau données. Les informations historiques concernant la rémunération d’un employé, par exemple, peuvent être stockées soit en tant que partie d’une table, soit en tant que lignes distinctes. Par exemple, dans la base de données A de la figure 1, les deux dernières valeurs de salaire sont stockées en tant qu’attributs ; la base de données B les présente sous forme de lignes, dans une table distincte.

Les conflits structurels se produisent en cas de recours à différentes organisations des données. Dans la base de données B, un nom est représenté sous la forme d’une chaîne de caractères, alors que la base de données A utilise deux chaînes, une pour le prénom et une autre pour tous les autres noms. Ce type d’hétérogénéité sémantique inclut également les conflits de type, lorsque des types de données différents représentent le même concept. Par exemple, vous pouvez représenter la température soit sous forme de valeur en virgule flottante, soit sous forme d’entier.

Téléchargez cette ressource

Sécuriser Microsoft 365 avec une approche Zero-Trust

Découvrez comment renforcer la cyber-résilience de Microsoft 365 grâce à une approche Zero-Trust, une administration granulaire et une automatisation avancée. La technologie Virtual Tenant de CoreView permet de sécuriser et simplifier la gestion des environnements complexes, tout en complétant vos stratégies IAM, y compris dans les secteurs réglementés.

Les articles les plus consultés

A travers cette chaîne

A travers ITPro

Les plus consultés sur iTPro.fr

Articles les + lus

Cybersécurité : les entreprises françaises réclament un durcissement inédit de la réglementation

Cyber risques et IA : 78% des RSSI pointent une déconnexion inquiétante des dirigeants

Des Master Data aux data products : comment l’IA redéfinit le rôle du MDM

La bataille de la 6G se gagne dans la donnée en temps réel

Souveraineté des données : cessons de traiter le symptôme, attaquons-nous aux causes

A lire aussi sur le site

Cybersécurité : pourquoi 95% des violations de données sont liées à l’humain, surtout en été

Effectifs réduits, télétravail, phishing estival : pourquoi l’été est une période à haut risque cyber. Les recommandations de Fidens by TVH Consulting pour sécuriser votre SI.

À la une de la chaîne Data

En route vers Windows 11 : sécuriser vos postes clients et profiter de 400 € de reprise avec Lenovo et inmac wstore

La fin du support de Windows 10, annoncée pour le 14 octobre 2025, place les directions IT devant un enjeu majeur de sécurité et de conformité.

A la Une des Ressources IT

Inscrivez-vous !

Actualités, Dossiers et Ressources IT Professionnelles - jeudi 23 juillet 2026