> Data > Le Datamining au travail

Le Datamining au travail

Data - Par iTPro.fr - Publié le 24 juin 2010

Windows

par Sanjay Soni, ZhaoHui Tang, Jim Yang, et Kamal Hathi - Mis en ligne le 26/04/02
Le datamining aide à trouver des profils et des tendances cachés et des informations de gestion utiles dans de vastes ensembles de données. Ainsi renseignées, les entreprises peuvent améliorer le marketing, les ventes, et l'assistance client, grâce à une meilleure appréhension de la clientèle ...

De nombreux problèmes de gestion peuvent être ainsi résolus : voir quels clients on risque de perdre ou découvrir d'autres produits auxquels un certain type de client pourrait s'intéresser. Dans ces scénarios, les principales activités consistent à découvrir des profils inhérents (mais pas toujours évidents) dans les données puis, à faire des prévisions en se fondant sur eux.

E-business oblige, le datamining suscite de plus en plus d'intérêt. De nombreuses sociétés découvrent qu'il a tout pour devenir une composante essentielle de l'architecture informatique et de la stratégie de développement. Comme le datamining concerne l'exploration et l'analyse, par des moyens automatiques ou semi-automatiques, de grandes quantités de données peuvent aider les analystes de gestion à déceler des profils et des règles pertinents. Les sociétés ont accumulé de très vastes bases de données provenant des applications ERP (enterprise resource planning) ou CRM (customer relationship management) et autres systèmes. Les techniques de datamining mettent au travail les données tirées des profils.

Microsoft a introduit le datamining dans SQL Server 2000, dans le cadre d'Analysis Services. En plus, Microsoft s'est alliée à plusieurs fournisseurs de datamining réputés pour créer l'API OLE DB for Data Mining. L'API définit un langage de requête de datamining (OLE DB for Data Mining Query Language) fondé sur la syntaxe SQL. Ce langage traite les modèles de datamining comme un type spécial de table relationnelle et traite les opérations de prédiction comme un genre spécial de jointure. Pour comprendre les termes employés dans cet article, voir l'encadré « Terminologie de Data-Mining ». Les Analysis Services incluent le fournisseur de datamining Microsoft, fondé sur le standard OLE DB for Data Mining. Le nouveau fournisseur comporte deux algorithmes de datamining : Microsoft Decision Trees (MDT) et Microsoft Clustering. Voyons comment chacun d'eux permet de résoudre des problèmes de gestion classiques.

Analysis Services est livré avec les algorithmes
MDT et Microsoft Clustering,
fruits de nombreuses années de recherche
chez Microsoft. Examinons
brièvement les deux algorithmes. Vous
trouverez des informations complémentaires
les concernant à http://citeseer.
nj.nec.com/bradley98scaling.html
et à http://www.acm.org/sigmod/disc/
p_scalableclassifsuj.htm.

MDT (Microsoft Decision Tree).
L’arbre de décision est probablement
la technique de modélisation prédictive
la plus répandue. Pour comprendre
le principe de base de l’algorithme
fondé sur l’arbre de décision,
voyons un exemple. La table 1 montre
un ensemble de données utilisable,
pour prédire un risque de crédit. Nous
engendrons des informations hypothétiques
à propos des clients : niveau d’endettement, niveau de revenu, type
d’emploi, et évaluation de leur risque
de crédit.

Dans cet exemple, l’algorithme arborescent
pourrait déterminer que
l’attribut le plus important pour prédire
le risque de crédit est le niveau
d’endettement. Donc, l’algorithme effectue
la première division dans l’arbre
de décision, d’après le niveau d’endettement.
L’un des deux nouveaux
noeuds (Debt = High) est un noeud de
type feuille contenant trois cas de mauvais
crédit et aucun cas de bon crédit.
Dans cet exemple, un niveau d’endettement
élevé laisse présager un mauvais
risque de crédit. L’autre noeud
(Debt = Low) est encore mixte, avec
trois cas de bon crédit et un de mauvais.
L’algorithme de l’arbre de décision
choisit ensuite le type d’emploi
comme le prédicteur le plus significatif
suivant du risque de crédit. La division
sur le type d’emploi a deux noeuds
feuilles montrant que les travailleurs
indépendants ont ici une probabilité
de mauvais crédit plus forte.

Pour les besoins de l’exemple,
nous n’avons utilisé qu’un petit
nombre de données synthétiques pour
illustrer comment l’arbre de décision
utilise les attributs connus des demandeurs
de crédit pour prévoir le risque.
En réalité, chaque postulant au crédit
aurait beaucoup plus d’attributs et il y
aurait de très nombreux postulants.
Quand l’échelle du problème grandit,
il devient difficile d’extraire manuellement
les règles qui distinguent les
risques de crédit bons et mauvais.
Mais, l’algorithme MDT est capable
d’analyser des centaines d’attributs et
des millions d’enregistrements pour
créer un arbre de décision décrivant
les règles pour la prédiction du risque
de crédit.

Microsoft Clustering. L’algorithme
Microsoft Clustering se fonde sur
l’algorithme EM (Expectation and Maximization). L’algorithme EM fait
une itération entre deux étapes. Dans
la première étape – l’étape « expectation
» – il calcule le cluster membership
de chaque cas. C’est la probabilité
qu’un cas appartienne à un cluster
donné. Dans la seconde étape (« maximization
»), l’algorithme utilise ces
membres du cluster pour réévaluer les
paramètres des modèles, comme le
lieu et les paramètres d’échelle de la
distribution gaussienne.

La figure 2 présente quelques itérations
de l’algorithme EM pour un ensemble
de données à une dimension.
L’algorithme suppose que les données
proviennent d’un mélange de distributions
gaussiennes, plus couramment
appelées courbes en cloche. Dans la
première ligne de la figure 2, l’algorithme
initialise la distribution du mélange, qui est le mélange de plusieurs
courbes en cloche ici. Dans les
deuxième et troisième lignes, l’algorithme
modifie la distribution du mélange
d’après les données. L’itération
s’arrête quand elle rencontre certains
critères d’arrêt – par exemple, quand
elle atteint un certain taux de probabilité
d’amélioration entre des itérations.

La plupart des algorithmes de clustering
chargent tous les points de données
en mémoire, ce qui nuit à l’évolutivité
face à un ensemble de données
de grande taille. Toutefois, l’algorithme
Microsoft Clustering utilise un framework
évolutif qui stocke de manière sélective
des portions importantes de la
base de données et en résume d’autres
portions. Essentiellement, l’algorithme
charge des données dans des tampons
de mémoire par blocs et, en se fondant sur le modèle de datamining mis à jour,
résume les cas qui sont proches dans
une distribution gaussienne, ce qui
contribue à compresser ces cas. De ce
fait, l’algorithme Microsoft Clustering
n’a besoin d’explorer les données
brutes qu’une seule fois.

Téléchargez cette ressource

État des lieux de la réponse à incident de cybersécurité

Les experts de Palo Alto Networks, Unit 42 et Forrester Research livrent dans ce webinaire exclusif leurs éclairages et stratégies en matière de réponses aux incidents. Bénéficiez d'un panorama complet du paysage actuel de la réponse aux incidents et de sa relation avec la continuité de l'activité, des défis auxquels font face les entreprises et des tendances majeures qui modèlent ce domaine. Un état des lieux précieux pour les décideurs et professionnels IT.

Data - Par iTPro.fr - Publié le 24 juin 2010

Windows

Découvrir tous les articles de la chaîne Data

Les articles les plus consultés

A travers cette chaîne

A travers ITPro

Les plus consultés sur iTPro.fr

A lire aussi sur le site

Fraude & IA : Dr Jekyll vs. Mr Hyde, qui l’emporte ?

Le Dr Jekyll aurait sûrement apprécié le potentiel de l’Intelligence Artificielle pour ses recherches. Mais Mr Hyde lui aurait aussi rappelé malgré lui sa face cachée, le côté obscur de sa force. L’IA est un formidable outil pour lutter contre la fraude, bancaire et/ou e-commerce. Mais elle est aussi utilisée par les fraudeurs pour automatiser, perfectionner et étendre la portée de leurs arnaques. Explications par Laure Littler, PDG d'Oneytrust.

La Revue du Décideur IT

IA générative : opportunité ou menace pour les freelances ?

L’IA générative bouleverse les habitudes de travail et s’invite dans tous les métiers du numérique. D'après une étude Ipsos-CESI École d’ingénieurs, 4 français sur 10 l'utilisent déjà.

A la Une des Ressources IT

Inscrivez-vous !

Rapport mondial 2025 sur la réponse à incident

Actualités, Dossiers et Ressources IT Professionnelles - lundi 30 juin 2025

Le Datamining au travail

Téléchargez cette ressource

État des lieux de la réponse à incident de cybersécurité

Les articles les plus consultés

Les plus consultés sur iTPro.fr

Sur le même sujet

A lire aussi sur le site

Fraude & IA : Dr Jekyll vs. Mr Hyde, qui l’emporte ?

La Revue du Décideur IT

IA générative : opportunité ou menace pour les freelances ?

A la Une des Ressources IT

Rapport mondial 2025 sur la réponse à...

État des lieux de la sécurité cloud-n...

Rapport Forrester sur les solutions d...

Percer le brouillard des rançongiciels

État des lieux de la réponse à incide...