> Data > Attention : Problèmes syntaxiques en vue…

Attention : Problèmes syntaxiques en vue…

Data - Par iTPro.fr - Publié le 24 juin 2010

Windows

par Andras Belokosztolszki. Mise en ligne: 10 Janvier 2006, Publication SQL Server Magazine: Juin 2005

Le terme hétérogénéité sémantique peut, au premier abord, ressembler à du jargon technique sans grande signification, mais il décrit en fait un ensemble subtil de problèmes auxquels sont confrontés de nombreux développeurs et administrateurs de base de données (DBA). Toute personne qui a déjà eu à combiner des ensembles de données de deux bases de données différentes (et quel DBA ou développeur ne l’a pas fait ?) a probablement déjà rencontré une hétérogénéité sémantique: les données n’ont pas des formats concordants et il est par conséquent difficile de les fusionner.Combiner des bases de données dont l’une consigne la température en degrés Celsius et l’autre, la température en degrés Fahrenheit, par exemple, peut aboutir à une corruption significative des données, à moins que vous ne traitiez cette problématique à l’avance. Il est, au mieux, extrêmement long de résoudre une telle corruption des données et, au pire, cette opération peut être impossible d’un point de vue logique. Le présent article aborde les quatre types d’hétérogénéité sémantique, examine à quels endroits ils se produisent lors de la comparaison des bases de données et présente différentes méthodes pour les résoudre.

L’hétérogénéité sémantique est un terme compliqué désignant un phénomène de désaccord sur la signification ou l’interprétation de données identiques ou apparentées. Les sources d’hétérogénéité sémantique peuvent inclure des différences dans les constructions des définitions de données, des différences dans les représentations des objets et des différences au niveau système dans la manière dont les données atomiques (par ex., ordre de tri pour des données multi-octets, tels qu’un entier) sont stockées sur deux systèmes.

Dr. Stefano Ceri et Dr. Jennifer Widom, deux chercheurs de premier plan dans le domaine des bases de données, identifient quatre types d’hétérogénéité sémantique, comme l’illustre le tableau 1 : conflits de noms, conflits de domaines, conflits de métadonnées et conflits structurels. Examinons brièvement chacun d’eux en s’appuyant sur l’exemple des bases de données A et B de la figure 1.

Les conflits de noms se produisent lorsque deux bases de données emploient des noms différents pour identifier les mêmes entités du monde réel. Par exemple, un schéma de base de données pourra stocker un identifiant d’employé dans un champ nommé Employee ID, mais dans un autre schéma de base de données, un champ contenant les mêmes données pourra s’intituler Employee_Number.

Les conflits de domaines surviennent lorsque des bases de données différentes utilisent des valeurs distinctes pour représenter les mêmes concepts. Dans la base de données centrale de la société, l’identifiant d’une employée pourra, par exemple, être as123, alors que la base de données de niveau départemental la répertoriera peut-être sous le numéro 17. L’exemple de représentation des températures, avec une base de données utilisant les degrés Fahrenheit et une autre, les degrés Celsius, entre dans cette catégorie d’hétérogénéité sémantique. Consultez le tableau 2 pour voir quelques exemples de types de conflits de domaines courants.

Les conflits de métadonnées surviennent lorsque les mêmes concepts sont représentés dans une base de données au niveau schéma et, dans une autre, au niveau données. Les informations historiques concernant la rémunération d’un employé, par exemple, peuvent être stockées soit en tant que partie d’une table, soit en tant que lignes distinctes. Par exemple, dans la base de données A de la figure 1, les deux dernières valeurs de salaire sont stockées en tant qu’attributs ; la base de données B les présente sous forme de lignes, dans une table distincte.

Les conflits structurels se produisent en cas de recours à différentes organisations des données. Dans la base de données B, un nom est représenté sous la forme d’une chaîne de caractères, alors que la base de données A utilise deux chaînes, une pour le prénom et une autre pour tous les autres noms. Ce type d’hétérogénéité sémantique inclut également les conflits de type, lorsque des types de données différents représentent le même concept. Par exemple, vous pouvez représenter la température soit sous forme de valeur en virgule flottante, soit sous forme d’entier.

Téléchargez cette ressource

Rapport mondial 2025 sur la réponse à incident

Dans ce nouveau rapport, les experts de Palo Alto Networks, Unit 42 livrent la synthèse des attaques ayant le plus impacté l'activité des entreprises au niveau mondial. Quel est visage actuel de la réponse aux incidents ? Quelles sont les tendances majeures qui redessinent le champ des menaces ? Quels sont les défis auxquels doivent faire face les entreprises ? Découvrez les top priorités des équipes de sécurité en 2025.

Data - Par iTPro.fr - Publié le 24 juin 2010

Windows

Découvrir tous les articles de la chaîne Data

Les articles les plus consultés

A travers cette chaîne

A travers ITPro

Les plus consultés sur iTPro.fr

A lire aussi sur le site

Le Club EBIOS, une communauté dédiée à la gestion des risques autour de la méthode EBIOS

Avez-vous déjà entendu parler du Club EBIOS ? Olivier Ligneul, Président du Club EBIOS, Directeur cybersécurité du Groupe EDF et expert judiciaire, a accepté de nous éclairer sur le sujet.

La Revue du Décideur IT

IA générative : opportunité ou menace pour les freelances ?

L’IA générative bouleverse les habitudes de travail et s’invite dans tous les métiers du numérique. D'après une étude Ipsos-CESI École d’ingénieurs, 4 français sur 10 l'utilisent déjà.

A la Une des Ressources IT

Inscrivez-vous !

Actualités, Dossiers et Ressources IT Professionnelles - samedi 05 juillet 2025

Attention : Problèmes syntaxiques en vue…

Téléchargez cette ressource

Rapport mondial 2025 sur la réponse à incident

Les articles les plus consultés

Les plus consultés sur iTPro.fr

Sur le même sujet

A lire aussi sur le site

Le Club EBIOS, une communauté dédiée à la gestion des risques autour de la méthode EBIOS

La Revue du Décideur IT

IA générative : opportunité ou menace pour les freelances ?

A la Une des Ressources IT

Rapport mondial 2025 sur la réponse à...

État des lieux de la sécurité cloud-n...

Rapport Forrester sur les solutions d...

Percer le brouillard des rançongiciels

État des lieux de la réponse à incide...