> Tech > B.a.-ba du data mining

B.a.-ba du data mining

Tech - Par Renaud ROSSET - Publié le 24 juin 2010
email

D’un point de vue global, le data mining ou exploration de données est le processus consistant à trouver d’une manière automatique ou semi-automatique des informations (par ex., des modèles et des tendances) dans des volumes importants de données. L’exemple classique de la valeur du data mining est son utilisation pour

B.a.-ba du data mining

les ventes croisées. Par exemple, lorsque j’achète un ouvrage en ligne, le vendeur peut interroger sa base de données afin de connaître les clients qui ont acheté le même livre et d’afficher d’autres titres achetés par les mêmes personnes.

SQL Server 2005 inclut neuf algorithmes de data mining, chacun ciblant un type de problème spécifique, tel que la prévision des ventes, l’identification des transactions frauduleuses et réclamations, ou la segmentation des clients selon différents profils. Chaque situation fait appel à des données historiques pour créer un modèle permettant de prévoir un état futur ou de mieux comprendre l’état présent. La littérature sur le data mining (y compris la documentation en ligne de SQL Server 2005) regroupe généralement les algorithmes en différents types (ou tâches). Le type Classification en constitue un exemple et il a pour but de regrouper les données historiques en catégories sur la base d’un attribut prédictible. L’algorithme MDT (Microsoft Decision Tree) est un algorithme de classification.

Ainsi, le data mining aide à résoudre des problèmes, mais quelle est la procédure à suivre pour explorer des données ? En prenant la documentation en ligne comme référence, examinons le processus de data mining sous la forme des six étapes de base suivantes :
1. Définition du problème métier.
2. Préparation des données historique.
3. Exploration/validation des données historique.
4. Création du modèle d’exploration de données.
5. Exploration/validation du modèle.
6. Déploiement et mise à jour du modèle.

L’exemple que j’utilise est similaire à la Leçon 2 : Création d’un scénario de publipostage ciblé (Lesson 2 : Building a Targeted Mailing Scenario), dans les didacticiels sur l’exploration de données fournis avec la documentation en ligne de SQL Server 2005. En supposant que vous ayez installé la base de données exemple Adventure Works Analysis Services, vous pouvez consulter le didacticiel et les modèles de data mining associés pour une meilleure compréhension.

Téléchargez cette ressource

Guide de Sécurité IA et IoT

Guide de Sécurité IA et IoT

Compte tenu de l'ampleur des changements que l'IA est susceptible d'entraîner, les organisations doivent élaborer une stratégie pour se préparer à adopter et à sécuriser l'IA. Découvrez dans ce Livre blanc Kaspersky quatre stratégies efficaces pour sécuriser l'IA et l'IoT.

Tech - Par Renaud ROSSET - Publié le 24 juin 2010