Lorsqu’une personne vous demande de décrire les données de votre entreprise, d’un système précis ou d’une base de données spécifique, combien de fois n’avez-vous pas répondu en mettant l’accent sur la taille du stockage, le taux de croissance, le nombre de tables ou le nombre de lignes ?Ces caractéristiques sont certes importantes pour la conception et la gestion d’une solution efficace et maintenable, mais je vous propose de ne pas limiter vos réponses à la quantité ou au volume, mais également d’inclure une caractérisation de la qualité des données. Après tout, ce n’est pas la quantité des données qui importe, mais leur qualité. Une entreprise peut avoir la plus grande base de données au monde, avec le taux de croissance le plus impressionnant, mais si elle ne peut quantifier la qualité de ses données, celles-ci n’ont aucune utilité.
Le terme « validation intelligente des données » décrit le concept consistant à configurer l’environnement de base de données et de traitement afin d’appliquer automatiquement la validation. Lorsque vous concevez, mettez en oeuvre et gérez vos propres bases de données, vous devez prendre en compte plusieurs aspects essentiels de leur conception : la propriété des données, leur intendance, leurs définitions, leur modélisation, leur normalisation, les valeurs NULL et les types de données, ou encore le nettoyage et l’intégrité des données.
À mesure que vous découvrirez ces aspects tout au long de l’article, rappelez- vous qu’il n’existe rien d’absolu en matière d’options de conception et d’implémentation. Au contraire, vous devez considérer systématiquement les fonctionnalités, avantages et compromis de chaque aspect par rapport à votre environnement spécifique. Si vous gardez cette règle à l’esprit tout au long de votre lecture, vous trouverez des tonnes d’idées pour accroître la qualité de vos données en mettant en oeuvre des stratégies intelligentes de validation de ces dernières.
Validation Intelligente des données
Avant d’explorer plus avant les détails techniques de la validation des données, il faut commencer par aborder trois facteurs essentiels qui influent sur leur qualité : les notions de définition, de propriété et d’intendance. La non-prise en compte de ces facteurs peut aboutir à l’impossibilité de préserver à terme la cohérence et la validité des données. La définition décrit, en termes métier, la signification des données. Vos définitions doivent inclure non seulement une brève description textuelle de celles-ci, mais également toute contrainte limitative telles que les valeurs valides ou les relations avec d’autres données. Ces définitions constituent la base de toute règle employée pendant la validation des données. (Nous aborderons les définitions de données plus en détail un peu plus loin.)
La propriété désigne les personnes responsables des décisions touchant aux données. Certaines des décisions les plus importantes prises par les propriétaires de base de données incluent la validation de la définition des données et l’approbation du niveau de validité acceptable les concernant (voir plus loin dans l’article). Le terme intendance désigne le groupe chargé de la maintenance des données. Celui-ci inclut les développeurs d’applications responsables de tout système qui collecte et gère les données, le DBA chargé de leur stockage et de leur disponibilité, ainsi que tout utilisateur qui consomme, crée ou saisit les données en question.
Cet article met principalement l’accent sur la validation car elle se réfère à la définition et à l’intendance des données, mais si vous n’avez pas établi de propriété, vous n’avez personne vers qui vous tourner pour essayer d’identifier les données valides ou non valides. Par conséquent, la première étape de la mise en oeuvre de stratégies de validation intelligente des données dans votre entreprise consiste à établir la propriété et l’intendance de la base de données car elles mettent en place les fondations de tous les aspects de conception et d’implémentation qui suivent.
Lorsque vous gardez à l’esprit les concepts de définition, de propriété et d’intendance des données, la définition de la validation des données n’est pas aussi simple que vous pourriez le croire. La définition des « données valides » varie d’une organisation à l’autre. Par exemple, un établissement financier, notamment une banque, une société de cartes de crédit ou un cabinet de courtage peuvent avoir des règles de validation plus strictes pour ses données qu’une administration telle que le bureau national du recensement. Par ailleurs, la définition des « données valides » varie souvent d’un système à l’autre au sein d’une organisation. Dans une banque, les systèmes transactionnels de comptes chèques et comptes d’épargne requièrent un état de « véracité absolue », avec des soldes précis au centime près et accessibles aux clients 24 h/24, 7 jours sur 7. Dans le même établissement bancaire, les systèmes d’entrepôt de données analytiques peuvent autoriser une plus grande tolérance car les informations de solde de compte pour l’analyse des pipelines de vente sont nécessaires uniquement sur une base hebdomadaire et reflètent les soldes quotidiens moyens arrondis à 1 000 euros près.
La définition de la validité des données revient souvent à définir un niveau de tolérance raisonnable au lieu d’une règle de véracité absolue. Par conséquent, les niveaux de validité ne sont pas du type « taille unique ». En effet, chaque organisation doit créer une définition de la validité qui corresponde à ses besoins spécifiques et aux exigences du système considéré. Vous trouverez plus loin quelques exemples visant à déterminer la « véracité absolue » dans une discussion sur la préservation de l’intégrité de domaine. Malheureusement, des exemples de « validation par l’établissement de tendances » sortent du cadre de cet article. Mais explorons maintenant plus avant le concept de définition des données.
Téléchargez cette ressource
Microsoft 365 Tenant Resilience
Face aux failles de résilience des tenants M365 (configurations, privilèges, sauvegarde). Découvrez 5 piliers pour durcir, segmenter et surveiller vos environnements afin de limiter l’impact des attaques. Prioriser vos chantiers cyber et améliorer la résilience de vos tenants Microsoft 365.
Les articles les plus consultés
- Databricks lève 1 milliard de dollars !
- Stockage autonome, Evolutivité & Gestion intelligente, Pure Storage offre de nouvelles perspectives aux entreprises
- 10 grandes tendances Business Intelligence
- 9 défis de transformation digitale !
- Les projets d’intégration augmentent la charge de travail des services IT
Les plus consultés sur iTPro.fr
- Vers l’Industrie 5.0 : quand l’IA agentique change la donne
- Ready For IT 2026 : IA industrialisée, deepfakes et Prix Start-up au cœur des enjeux
- La chaîne d’approvisionnement, point de rupture récurent du SI
- Ready For IT 2026 : quand l’accélération de l’innovation redessine les priorités des décideurs IT
Articles les + lus
Souveraineté des données : cessons de traiter le symptôme, attaquons-nous aux causes
IA générative en Europe : une adoption massive, mais une gouvernance toujours en retard
Golden records : le socle oublié des projets IA
Avec les Smart Data, les entreprises mènent la danse de l’observabilité moderne
ADI, l’infrastructure de données de Scality pensée pour l’ère de l’IA et de la souveraineté
À la une de la chaîne Data
- Souveraineté des données : cessons de traiter le symptôme, attaquons-nous aux causes
- IA générative en Europe : une adoption massive, mais une gouvernance toujours en retard
- Golden records : le socle oublié des projets IA
- Avec les Smart Data, les entreprises mènent la danse de l’observabilité moderne
- ADI, l’infrastructure de données de Scality pensée pour l’ère de l’IA et de la souveraineté
