> Tech > La démarche de mise en oeuvre

La démarche de mise en oeuvre

Tech - Par Renaud ROSSET - Publié le 24 juin 2010
email

Comme dans tous projets, une démarche/méthodologie doit être mise en place pour assurer son bon déroulement. Une méthodologie de référence est celle proposée par le CRISP-DM (CRoss Industry Standard Process for Data Mining). Comme l'illustre la figure 2, cette méthodologie se décompose en 6 phases qui

sont :

  1. Analyse du métier. Cette phase initiale permet de définir les objectifs et les besoins d'un point de vue métier, afin de formuler le cahier des charges.
  2. Compréhension des données. Cette phase consiste à partir d'échantillonnage d'évaluer la qualité des données, de définir les premiers jeux d'informations utiles pour répondre aux besoins métiers
  3. Préparation des données. Cette phase permet de construire, transformer les données afin qu'elles puissent être consommées par les outils de modélisation.
  4. Modélisation. Lors de cette phase plusieurs modèles sont appliqués et validés. Il n'est pas rare de revenir à la phase de préparation de données.
  5. Evaluation. A ce niveau d'avancement, il est important de faire valider les modèles dans une perspective métier.
  6. Déploiement. La phase finale consiste à rendre accessible les modèles élaborés aux utilisateurs finaux.

Mais pourquoi donc une démocratisation du data mining ? Microsoft est entré dans le domaine du data mining avec la version 2000 de SQL Server et le produit a bien évolué avec la version 2005 et maintenant 2008. Comme le montre de nombreuses études, l’outil privilégié des analystes reste Excel. L'idée est donc de fournir dans Excel les outils nécessaires à la mise en oeuvre d'un projet de data mining.

Depuis le SP2 de SQL Server 2005, un add-in de data mining est intégrable dans Excel. Le lien de pour télécharger cet add-in est mentionné plus loin. Pour s'éloigner un peu de la théorie, présentons par l'exemple un cas concret, celui de la définition des prix d’assurance de voiture en fonction des différentes caractéristiques.

Notre compagnie d’assurance possède une liste de véhicules avec l’ensemble des attributs qui les caractérisent en particuliers, un coefficient de risque. Comme le montre la figure 3, l’add-in Excel a été conçu pour suivre la méthode CRISP-DM. Décrivons dans le tableau 1 les étapes d’analyse : voir tableau 1 page 28.

A travers cet exemple, nous venons de montrer comment l’enrichissement d’Excel permet d’aider à la prise de décision. Bien entendu, d’autres scénarios métiers peuvent être entièrement abordés à travers Excel comme déceler les acheteurs potentiels en vue d’une campagne marketing. Au coeur de la bête Nous avons vu comment implémenter un scénario de data mining avec Excel, mais que se passe-t-il en arrière plan ? C’est Analysis Services (SSAS) la plateforme de data mining, bien qu’il soit aussi le moteur multidimensionnel de la suite SQL Server.

Regardons comment il est structuré pour répondre aux problématiques de data mining. Cet outil est organisé en plusieurs briques, comme le montre la figure 4. La modélisation multidimensionnelle commence par la création d’un cube, qui est la structure visant à manipuler les données. Dans ce cube, des dimensions sont créées afin de disposer de plusieurs axes pour analyser les données.

La modélisation prédictive (data mining) fonctionne de la même façon : une structure doit être créée pour accueillir les données concernées, et à l’intérieur de celle-ci, un ou plusieurs modèles seront implémentés, afin de dégager les tendances. La création de structures et de modèles est accessible avec le DMX (Data Mining eXtension). Ce langage d’interrogation et de manipulation des objets, qui est au data mining ce que le SQL est à la base de données, a été créé et proposé par Microsoft, afin d’interagir avec Analysis Services.

Il est relativement simple, comme le montre l’exemple suivant, qui crée un nouveau modèle selon l’algorithme de Naive Bayes :

CREATE MINING MODEL [NBExemple] ( CustomerKey LONG KEY, Gender TEXT DISCRETE, [Number Cars Owned] LONG DISCRETE, [Bike Buyer] LONG DISCRETE PREDICT ) USING Microsoft_Naive_Bayes

Quand le volume de données à manipuler est très important ou quand on veut lier des analyses prédictives à de l’analyse multidimensionnelle, Excel ne suffit plus.

Il faut alors passer dans du développement Business Intelligence Development Studio, c’est pourquoi il est nécessaire de faire collaborer les équipes fonctionnelles et techniques pour les projets avancés. Bien que plusieurs algorithmes soient fournis de base, il est possible d’enrichir l’outil en proposant d’autres personnalisés. On bénéficie ainsi de l’ossature offerte par l’offre Microsoft : Analysis Services et Excel.

Certains acteurs reconnus dans le monde du data mining ont développé des extensions pour transporter leurs méthodes dans SQL Server. On peut notamment citer SPSS qui propose leurs analyses statistiques ou Visual Numerics qui ont interfacé leurs méthodes d’analyse numériques vers SQL Server. 

Téléchargez cette ressource

Les mégatendances cybersécurité et cyber protection 2024

Les mégatendances cybersécurité et cyber protection 2024

L'évolution du paysage des menaces et les conséquences sur votre infrastructure, vos outils de contrôles de sécurité IT existants. EPP, XDR, EDR, IA, découvrez la synthèse des conseils et recommandations à appliquer dans votre organisation.

Tech - Par Renaud ROSSET - Publié le 24 juin 2010