> Data > Le Datamining au travail

Le Datamining au travail

Data - Par iTPro.fr - Publié le 24 juin 2010
email

par Sanjay Soni, ZhaoHui Tang, Jim Yang, et Kamal Hathi - Mis en ligne le 26/04/02
Le datamining aide à  trouver des profils et des tendances cachés et des informations de gestion utiles dans de vastes ensembles de données. Ainsi renseignées, les entreprises peuvent améliorer le marketing, les ventes, et l'assistance client, grâce à  une meilleure appréhension de la clientèle ...

De nombreux problèmes de gestion peuvent être ainsi résolus : voir quels clients on risque de perdre ou découvrir d'autres produits auxquels un certain type de client pourrait s'intéresser. Dans ces scénarios, les principales activités consistent à  découvrir des profils inhérents (mais pas toujours évidents) dans les données puis, à  faire des prévisions en se fondant sur eux.

E-business oblige, le datamining suscite de plus en plus d'intérêt. De nombreuses sociétés découvrent qu'il a tout pour devenir une composante essentielle de l'architecture informatique et de la stratégie de développement. Comme le datamining concerne l'exploration et l'analyse, par des moyens automatiques ou semi-automatiques, de grandes quantités de données peuvent aider les analystes de gestion à  déceler des profils et des règles pertinents. Les sociétés ont accumulé de très vastes bases de données provenant des applications ERP (enterprise resource planning) ou CRM (customer relationship management) et autres systèmes. Les techniques de datamining mettent au travail les données tirées des profils.

Microsoft a introduit le datamining dans SQL Server 2000, dans le cadre d'Analysis Services. En plus, Microsoft s'est alliée à  plusieurs fournisseurs de datamining réputés pour créer l'API OLE DB for Data Mining. L'API définit un langage de requête de datamining (OLE DB for Data Mining Query Language) fondé sur la syntaxe SQL. Ce langage traite les modèles de datamining comme un type spécial de table relationnelle et traite les opérations de prédiction comme un genre spécial de jointure. Pour comprendre les termes employés dans cet article, voir l'encadré « Terminologie de Data-Mining ». Les Analysis Services incluent le fournisseur de datamining Microsoft, fondé sur le standard OLE DB for Data Mining. Le nouveau fournisseur comporte deux algorithmes de datamining : Microsoft Decision Trees (MDT) et Microsoft Clustering. Voyons comment chacun d'eux permet de résoudre des problèmes de gestion classiques.

Le Datamining au travail

Analysis Services est livré avec les algorithmes
MDT et Microsoft Clustering,
fruits de nombreuses années de recherche
chez Microsoft. Examinons
brièvement les deux algorithmes. Vous
trouverez des informations complémentaires
les concernant à  http://citeseer.
nj.nec.com/bradley98scaling.html
et à  http://www.acm.org/sigmod/disc/
p_scalableclassifsuj.htm.

MDT (Microsoft Decision Tree).
L’arbre de décision est probablement
la technique de modélisation prédictive
la plus répandue. Pour comprendre
le principe de base de l’algorithme
fondé sur l’arbre de décision,
voyons un exemple. La table 1 montre
un ensemble de données utilisable,
pour prédire un risque de crédit. Nous
engendrons des informations hypothétiques
à  propos des clients : niveau d’endettement, niveau de revenu, type
d’emploi, et évaluation de leur risque
de crédit.

Dans cet exemple, l’algorithme arborescent
pourrait déterminer que
l’attribut le plus important pour prédire
le risque de crédit est le niveau
d’endettement. Donc, l’algorithme effectue
la première division dans l’arbre
de décision, d’après le niveau d’endettement.
L’un des deux nouveaux
noeuds (Debt = High) est un noeud de
type feuille contenant trois cas de mauvais
crédit et aucun cas de bon crédit.
Dans cet exemple, un niveau d’endettement
élevé laisse présager un mauvais
risque de crédit. L’autre noeud
(Debt = Low) est encore mixte, avec
trois cas de bon crédit et un de mauvais.
L’algorithme de l’arbre de décision
choisit ensuite le type d’emploi
comme le prédicteur le plus significatif
suivant du risque de crédit. La division
sur le type d’emploi a deux noeuds
feuilles montrant que les travailleurs
indépendants ont ici une probabilité
de mauvais crédit plus forte.

Pour les besoins de l’exemple,
nous n’avons utilisé qu’un petit
nombre de données synthétiques pour
illustrer comment l’arbre de décision
utilise les attributs connus des demandeurs
de crédit pour prévoir le risque.
En réalité, chaque postulant au crédit
aurait beaucoup plus d’attributs et il y
aurait de très nombreux postulants.
Quand l’échelle du problème grandit,
il devient difficile d’extraire manuellement
les règles qui distinguent les
risques de crédit bons et mauvais.
Mais, l’algorithme MDT est capable
d’analyser des centaines d’attributs et
des millions d’enregistrements pour
créer un arbre de décision décrivant
les règles pour la prédiction du risque
de crédit.

Microsoft Clustering. L’algorithme
Microsoft Clustering se fonde sur
l’algorithme EM (Expectation and Maximization). L’algorithme EM fait
une itération entre deux étapes. Dans
la première étape – l’étape « expectation
» – il calcule le cluster membership
de chaque cas. C’est la probabilité
qu’un cas appartienne à  un cluster
donné. Dans la seconde étape (« maximization
»), l’algorithme utilise ces
membres du cluster pour réévaluer les
paramètres des modèles, comme le
lieu et les paramètres d’échelle de la
distribution gaussienne.

La figure 2 présente quelques itérations
de l’algorithme EM pour un ensemble
de données à  une dimension.
L’algorithme suppose que les données
proviennent d’un mélange de distributions
gaussiennes, plus couramment
appelées courbes en cloche. Dans la
première ligne de la figure 2, l’algorithme
initialise la distribution du mélange, qui est le mélange de plusieurs
courbes en cloche ici. Dans les
deuxième et troisième lignes, l’algorithme
modifie la distribution du mélange
d’après les données. L’itération
s’arrête quand elle rencontre certains
critères d’arrêt – par exemple, quand
elle atteint un certain taux de probabilité
d’amélioration entre des itérations.

La plupart des algorithmes de clustering
chargent tous les points de données
en mémoire, ce qui nuit à  l’évolutivité
face à  un ensemble de données
de grande taille. Toutefois, l’algorithme
Microsoft Clustering utilise un framework
évolutif qui stocke de manière sélective
des portions importantes de la
base de données et en résume d’autres
portions. Essentiellement, l’algorithme
charge des données dans des tampons
de mémoire par blocs et, en se fondant sur le modèle de datamining mis à  jour,
résume les cas qui sont proches dans
une distribution gaussienne, ce qui
contribue à  compresser ces cas. De ce
fait, l’algorithme Microsoft Clustering
n’a besoin d’explorer les données
brutes qu’une seule fois.

Téléchargez gratuitement cette ressource

Endpoint Security : Etude IDC Enjeux & Perspectives

Endpoint Security : Etude IDC Enjeux & Perspectives

Quel est l'état de l'art des solutions de Endpoint Security et les perspectives associées à leur utilisation ? Comment garantir la sécurité des environnements sensibles en bloquant au plus tôt les cyber attaques sophistiquées, avant qu’elles n'impactent durablement vos environnements de travail ?

Data - Par iTPro.fr - Publié le 24 juin 2010