> Tech > Data Warehouses et Data Marts : quelle différence ?

Data Warehouses et Data Marts : quelle différence ?

Tech - Par iTPro.fr - Publié le 24 juin 2010
email

par Rick Landon
Les vastes entrepôts de données (datawarehouses) donnent une perspective historique à  votre activité ; les magasins de données (datamart), plus petits, servent à  l'analyse rapide. De nombreuses sociétés s'empressent de mettre en place une solution de business intelligence (BI) à  grand renfort d'entrepôts de données (data warehouse) et de magasins de données (data marts), mais essayez donc de vous faire expliquer les différences essentielles entre ces deux systèmes ! Même les conseillers en BI utilisent indifféremment l'un ou l'autre terme, et les produits de type datamart prétendant être des entrepôts de données ajoutent à  la confusion.

Ce n'est pourtant pas la même chose. Un entrepôt de données contient les données recueillies au niveau de détail le plus bas, à  partir des principaux domaines d'activité d'une entreprise,tandis qu'un magasin de données concerne un seul département ou domaine fonctionnel et contient des données agrégées. Dans cet article, j'explique les fonctions respectives des entrepôts et des magasins, et ose quelques suggestions quant à  l'application pratique de chaque solution.

Un entrepôt de données est une structure qui stocke de vastes quantités de données nettoyées et transformées, provenant des bases de données de production

Un entrepôt de données est une structure (généralement une base de données relationnelle)
qui stocke de vastes quantités de données nettoyées et transformées, provenant
des bases de données de production. Il peut aussi s’agir de tableaux multidimensionnels
(fichiers plats) et d’autres supports de stockage interconnectés pour stocker
d’importants volumes de données. Les données entreposées sont en principe extraites
et transformées au profit de plusieurs départements d’une société : finances,
marketing, ventes et personnel. Les processus d’extraction et de transformation
doivent être suffisamment souples pour servir différents niveaux de décision :
local, régional et entreprise.

Le but principal des entrepôts de données est de se préparer à  répondre aux futurs
besoins de données historiques. Après tout, personne ne peut prédire toutes les
utilisations potentielles des données accumulées. L’évolution des marchés entraîne
celle des besoins d’information des sociétés qui s’y affrontent.

Considérons un exemple d’épicerie de quartier recueillant des informations de
vente à  partir des scanners des caisses enregistreuses. Nous supposerons que le
magasin s’intéresse avant tout à  la marge bénéficiaire et qu’il récapitule les
données en larges catégories de produits, pour déterminer le bénéfice et la tarification,
et pour réaliser des projections de ventes. Supposons que le climat économique
change et que le magasin se retrouve en concurrence avec des chaînes réputées.
Pour lutter plus efficacement, le magasin doit commercialiser ses produits de
manière plus intelligente, c’est-à -dire analyser de manière plus détaillée davantage
de catégories de produits plus étroites. Malheureusement, de telles analyses détaillées
sont impossibles si le système actuel du magasin ne gère que des chiffres cumulés.
C’est pour empêcher cela que les entrepôts de données stockent des données détaillées,
ou “ granulaires ”.

Bien entendu, les données détaillées d’une grande entreprise sont extrêmement
volumineuses. Le transfert de telles masses consomme des ressources et du temps
système. C’est pourquoi de nombreux entrepôts de données sont installés sur des
machines autres que celles de production, les transferts s’effectuant la nuit
ou le weekend. Le chargement d’un entrepôt de données demande beaucoup de temps
pour une autre raison : les données qu’il reçoit doivent généralement être au
préalable nettoyées et transformées. De ce fait, le mouvement de données dans
un entrepôt de données n’est pas un événement instantané ; bien souvent, il demande
plusieurs heures, un jour entier, ou plus (pour plus d’informations sur l’entreposage
de données sur AS/400, reportez-vous à  Data Warehousing and the AS/400 (29th Street
Press, 1998).)

Beaucoup utilisent improprement le terme “ entrepôt de données ”, comme expression
passe-partout concernant des fonctions ou des besoins trop complexes pour être
traités immédiatement (“ Nous pouvons répondre à  cette question en consultant
l’entrepôt de données, ” par exemple). Or, en raison même de l’énorme quantité
des données entreposées, toute fonction nécessitant des données immédiates ne
devrait pas dépendre directement d’un entrepôt. Il ne faut jamais utiliser un
entrepôt pour servir une application fondée sur les données les plus récentes.
On pourrait utiliser dans ce cas un magasin de données, mais c’est plutôt le rôle
d’un système transactionnel en ligne (OLTP : OnLine Transaction Processing).

Téléchargez cette ressource

Préparer l’entreprise aux technologies interconnectées

Préparer l’entreprise aux technologies interconnectées

Avec la « quatrième révolution industrielle », les environnements hyperconnectés entraînent de nouveaux risques en matière de sécurité. Découvrez, dans ce guide Kaspersky, comment faire face à cette nouvelle ère de vulnérabilité.

Tech - Par iTPro.fr - Publié le 24 juin 2010