Scénario de data mining (5)

Tech - Par Renaud ROSSET - Publié le 24 juin 2010

Dans notre exemple, nous allons utiliser la commande Classification Matrix. Cliquez sur celle-ci dans l’onglet Data Mining, afin d’ouvrir le Classification Matrix Wizard. Cliquez sur Next trois fois de suite, puis à l’étape Select Source Data, assurez vous que la table 'Testing Data'!'Testing Data' est sélectionnée. Cliquez de nouveau sur

Next, puis sur Finish pour terminer la création de la feuille de calcul Classification Matrix. Selon cette matrice, le modèle est précis à 89,13 % près en termes de prédiction des acheteurs et non-acheteurs de vélos. Vous allez peut-être être déçu de constater que le modèle identifie correctement seulement 16,12 % des véritables acheteurs de vélos. Toutefois, gardez à l’esprit qu’il détecte les non-acheteurs dans 97,37 % des cas. Lorsque nous avons défini notre problème métier, nous avions besoin de réduire les coûts d’une campagne de publipostage. Certes le modèle n’identifie qu’un petit sous-ensemble des acheteurs potentiels, mais il élimine la grande majorité des non-acheteurs.

J’aime à considérer la précision de la manière suivante : Selon les résultats des tests, le modèle identifie 120 acheteurs potentiels (soit 2,63 % des non-acheteurs et 16,12 % des acheteurs). Sur ces 120 personnes, 49 étaient des acheteurs de vélos, d’où une précision de 41 % pour le modèle. Ce résultat est bien meilleur qu’une approche par estimation aléatoire (par ex., du type pile ou face), laquelle serait précise dans environ 10 % des cas (la feuille de calcul Training Data comporte 3000 lignes, dont 10 % environ sont des acheteurs de vélos).

Accessoirement, vous pourriez utiliser une autre technique pour renforcer l’agressivité du modèle. Celle-ci, intitulée suréchantillonnage, consiste à manipuler les données source afin d’accroître la fréquence des données les plus rares. L’assistant de partitionnement du complément prend en charge cette technique et, pour en savoir plus à ce propos, consultez le site Web de Microsoft (chapitre 24 « Effective Strategies for Data Mining », dans le Kit de ressources techniques SQL Server 2000). Ceci étant dit, revenons à notre modèle actuel et examinons une courbe de profit à titre de vérification supplémentaire.

Uniquement dans le cadre de cet exemple d’entraînement, émettons quelques hypothèses concernant la taille de notre liste de clients potentiels, les coûts fixes et variables, ainsi que le chiffre d’affaires brut. Cliquez sur la commande Profit Chart dans l’onglet Data Mining, puis cliquez à deux reprises sur Next. A l’étape Specify Profit Chart Parameters, entrez les valeurs suivantes :

• Colonne d’exploration pour la prédiction : BikeBuyer
• Valeur à prédire : Yes
• Population cible : 35000
• Coût fixe : 5000
• Coût individuel : 5
• Chiffre d’affaires par personne : 35

Cliquez sur Next et vérifiez que la table ‘Testing Data’!’Testing Data’ est sélectionnée. Cliquez de nouveau sur Next, puis sur Finish pour terminer la création d’une nouvelle feuille de calcul. La figure 4 présente la courbe de profit associée.

Selon le graphique, le profit est maximal en ciblant 11 % de la population concernée. La feuille de calcul indique également un « seuil de probabilité » optimal à 15,14 %. En d’autres termes, lorsque le modèle de data mining effectue une prédiction, il calcule aussi une probabilité la concernant. La feuille de calcul indique que nous devons cibler les clients avec une probabilité (d’achat d’un vélo) supérieure ou égale à 15,14 %. Cette valeur de probabilité va apparaître dans la dernière étape.

Déploiement et mise à jour du modèle. Dans cet exemple, Excel est votre outil client, de sorte qu’aucun déploiement n’est nécessaire. Poursuivons et exécutons votre modèle sur un petit ensemble de clients potentiels. Dans l’onglet Data Mining, cliquez sur Query, puis sur Next à deux reprises. A l’étape Select Source Data, vérifiez que la table ‘New Customers’!’Table 17′ est sélectionnée. Cliquez de nouveau sur Next et contrôlez que toutes les relations (sauf BikeBuyer, cela va de soi) sont mappées correctement de la feuille de calcul sur vos attributs de modèle.

Cliquez de nouveau sur Next, puis sur Add Output. Dans la zone Name, entrez ProbabilityToBuy. Sélectionnez BikeBuyer dans la liste Columns, PredictProbability dans la liste Column Functions, puis Yes dans la liste Column Parameters. Cliquez sur OK pour fermer la boîte de dialogue. Terminez l’assistant en cliquant sur Next et sur Finish. Une nouvelle colonne, ProbabilityToBuy, est ajoutée à la table New Customers. A l’aide du seuil de probabilité de 15,14 % issu de la feuille de calcul Profit Chart en tant que référence (et en arrondissant votre nouvelle colonne au centième près), vous devez cibler 19 des 78 clients potentiels dans cet ensemble. Vous pouvez maintenant exécuter une requête sur tous les clients potentiels et transmettre les résultats finaux au directeur du marketing. Félicitations, vous avez terminé!

Téléchargez cette ressource

Préparer l’entreprise aux technologies interconnectées

Avec la « quatrième révolution industrielle », les environnements hyperconnectés entraînent de nouveaux risques en matière de sécurité. Découvrez, dans ce guide Kaspersky, comment faire face à cette nouvelle ère de vulnérabilité.

Tech - Par Renaud ROSSET - Publié le 24 juin 2010

Les articles les plus consultés