> Data > Data Mining Reloaded

Data Mining Reloaded

Data - Par iTPro.fr - Publié le 24 juin 2010
email

par Alexei Bocharov et Jesper Lind - Mis en ligne le 14/06/2006 - Publié en Avril 2005

Les deux principales fonctions du data mining sont la classification et la prédiction (ou prévision). Le data mining vous aide à donner une signification aux giga-octets de données brutes stockées dans les bases de données, en identifiant les modèles et règles présents dans les données ou qui en découlent. Les analystes se servent alors de cette connaissance pour effectuer des prédictions et des recommandations sur les données nouvelles ou futures. Les principales applications de data mining du commerce vous permettent d’en savoir plus sur vos clients et sur leurs besoins, de comprendre les éléments générateurs des ventes et les facteurs qui affectent celles-ci, de concevoir des stratégies marketing et de mettre au point les futurs indicateurs de l’activité.Avec SQL Server 2000, Microsoft a renommé la solution OLAP Services en Analysis Services afin de refléter l’ajout de nouvelles possibilités de data mining. L’ensemble d’outils de data mining disponibles dans cette version de SQL Server incluait seulement deux algorithmes d’analyse classiques (clustering et arborescences de décision), un langage d’expressions de requête et de gestion de data mining spécialisé intitulé DMX, ainsi que des contrôles, visionneuses et outils de développement côté client limités.

SQL Server 2005 Analysis Services inclut un ensemble largement enrichi de méthodes de data mining et une palette d’outils d’analyse et de développement côté client entièrement nouveaux, conçus pour couvrir les besoins les plus courants en matière d’analyse décisionnelle ou BI (Business Intelligence). L’infrastructure Business Intelligence Framework dans SQL Server 2005 propose une nouvelle approche du data mining tant aux analystes qu’aux développeurs.

Nous allons, dans un premier temps, examiner rapidement le processus de data mining. Nous aborderons ensuite les sept algorithmes de data mining disponibles dans l’infrastructure SQL Server 2005 Analysis Services, puis nous jetterons un coup d’oeil à la technologie « plug-in » qui vous aidera à ajouter des algorithmes nouveaux ou personnalisés à cette infrastructure. Bien qu’il n’était pas envisageable d’aborder ici spécifiquement la conception de l’interface utilisateur, les captures incluses dans les différents exemples vous donneront un premier aperçu intéressant de la puissance et des qualités d’utilisation des nouveaux outils côté client.

Data Mining Reloaded

La conception et le développement d’applications de data mining comportent sept étapes logiques. La première consiste à préparer les sources de données : vous identifiez les bases de données et protocoles de connexion à utiliser. Vous décrivez ensuite les vues de source de données, autrement dit les tables qui contiennent les données destinées à l’analyse.
Troisièmement, vous définissez la structure d’exploration en décrivant les colonnes à employer dans les modèles. La quatrième étape porte sur la création des modèles de mining. SQL Server 2005 propose un choix de sept algorithmes de data mining.
Vous pouvez même appliquer plusieurs méthodes en parallèle pour chaque structure d’exploration, comme l’illustre la figure 1. La cinquième étape est appelée traitement. C’est au cours de cette phase que les modèles de mining « extraient la connaissance » des données en provenance des sources de données.
Sixièmement, vous évaluez les résultats. Au moyen de visionneuses côté client et de graphiques de précision, vous pouvez présenter les modèles et prédictions aux analystes et décideurs, puis apporter les ajustements nécessaires. La dernière et septième étape consiste à incorporer le data mining dans votre routine globale de gestion des données. En ayant identifié les méthodes optimales, vous devrez retraiter les modèles périodiquement afin de suivre de nouveaux schémas de données. Par exemple, si la messagerie constitue votre source de données et si vos modèles assurent des prédictions en matière de spams, vous devrez adapter vos modèles fréquemment afin de rester en phase avec l’évolution des tactiques des spammeurs.

Voici un exemple rapide de modèle de mining utile.

Supposons que vous souhaitiez identifier les principaux groupes de clients potentiels à partir de données de recensement incluant les profils de la population sur les plans professionnel, démographique et du revenu. Une méthode appropriée pour l’identification de grands groupes de recensement caractéristiques consiste à employer l’algorithme de clustering. Celui-ci segmente la population en clusters, de telle sorte que les personnes associées à un cluster sont similaires et que celles de différents clusters ont des profils divergents sur un ou plusieurs points. Pour examiner ces clusters, vous pouvez utiliser un outil appelé Microsoft Cluster Viewer (un composant standard de SQL Server 2005 Analysis Services).
La figure 2 présente l’une des quatre vues disponibles, afin de vous donner un affichage comparatif de tous les clusters. Par exemple, les clusters 6 et 7 correspondent aux personnes qui ne sont pas en service actif dans l’armée. Mais le cluster 7 représente les personnes qui travaillent plus longtemps, pour un revenu plus élevé ; la ligne du haut suggère également que les personnes du cluster 7 sont, dans leur grade majorité, mariées.

Téléchargez cette ressource

Guide de Sécurité IA et IoT

Guide de Sécurité IA et IoT

Compte tenu de l'ampleur des changements que l'IA est susceptible d'entraîner, les organisations doivent élaborer une stratégie pour se préparer à adopter et à sécuriser l'IA. Découvrez dans ce Livre blanc Kaspersky quatre stratégies efficaces pour sécuriser l'IA et l'IoT.

Data - Par iTPro.fr - Publié le 24 juin 2010