> Tech > Scénario de data mining (4)

Scénario de data mining (4)

Tech - Par Renaud ROSSET - Publié le 24 juin 2010
email

Exploration/validation du modèle. Après avoir été au bout du Classify Wizard, la fenêtre d’exploration Browse apparaît. (Si vous fermez cette fenêtre, vous pouvez y revenir ultérieurement en cliquant sur Browse dans l’onglet Data Mining.). Pour que votre onglet Decision Tree ressemble à celui de la figure 3, quelques ajustements sont

Scénario de data mining (4)

nécessaires. Premièrement, changez la valeur de la zone déroulante Background à Yes. En modifiant la valeur d’arrière-plan, vous verrez mieux la probabilité selon laquelle BikeBuyer aura la valeur Yes dans chaque noeud : plus le noeud sera sombre, plus la probabilité sera élevée. Définissez le curseur Show Level à 4 afin d’ajuster le nombre de niveaux affichés dans l’arbre. Cliquez ensuite sur le bouton de barre d’outils Size To Fit (celui avec les quatre flèches rouges en forme de croix).

En examinant l’arbre de décision, vous pouvez maintenant commencer vos observations. Si vous passez ou cliquez sur le noeud All, vous verrez que 7000 jeux incluent 696 acheteurs de vélos. La première division montre que l’âge est le facteur le plus important dans la décision d’achat d’un vélo. La deuxième division indique que le facteur suivant par ordre d’importance est le nombre de voitures détenues ou, pour les clients de 32 à 53 ans, le revenu annuel. La couleur d’arrière-plan sombre du noeud Cars = 0 indique l’emplacement avec le pourcentage d’acheteurs potentiels le plus élevé dans les quatre niveaux. Pour voir les jeux derrière ce noeud, cliquez avec le bouton droit de la souris dessus et sélectionnez l’option DrillThrough. Une nouvelle feuille de calcul est créée dans le classeur avec les données de jeux pertinentes.

Passez ensuite à l’onglet de réseau de dépendances Dependency Network et sélectionnez le noeud Bike Buyer. Au moyen des codes de couleur au bas de l’onglet, vous pouvez voir que Bike Buyer (en bleu clair) est l’attribut sélectionné (ou prédictible) et que les noeuds en orange sont les noeuds d’entrée servant à prédire Bike Buyer. Les liens, qui apparaissent sous forme de flèches, pointent des noeuds d’entrée vers le noeud prédictible. Vous pouvez ajuster le nombre de noeuds visibles en réglant le curseur (situé dans la partie gauche de la fenêtre). La diminution du curseur affiche uniquement les liens les plus forts. Par exemple, si vous diminuez complètement le curseur, seul le lien de l’âge reste affiché, ce qui est cohérent avec la première division de l’arbre de décision.

Il vous faut maintenant tester, ou valider, l’exactitude du modèle. Souvenez-vous que la feuille de calcul Source Data a été fractionnée en deux partitions, une (Training Data) pour créer le modèle et l’autre (Testing Data) pour le tester. Dans l’onglet Data Mining, vous disposez de trois commandes dans la section Accuracy and Validation. Chaque option utilise un ensemble de jeux d’essai en entrée. La commande Classification Matrix exécute tous les jeux d’essai sur le modèle et note, ou classe, les résultats de la prédiction par rapport aux valeurs réelles des données de test. En d’autres termes, elle vous indique si votre modèle a prédit Bike Buyer = Yes lorsqu’il était censé le faire. La graphique de précision (appelé courbe d’élévation ou lift chart) indique les résultats des possibilités de prédiction du modèle par rapport à une « estimation aléatoire » et à un modèle « parfait » tracé à titre de comparaison. La courbe de profit est similaire au graphique de précision, mais utilise les données de coût et de revenu en entrée pour déterminer le point de profitabilité maximum.

Téléchargez cette ressource

Préparer l’entreprise aux technologies interconnectées

Préparer l’entreprise aux technologies interconnectées

Avec la « quatrième révolution industrielle », les environnements hyperconnectés entraînent de nouveaux risques en matière de sécurité. Découvrez, dans ce guide Kaspersky, comment faire face à cette nouvelle ère de vulnérabilité.

Tech - Par Renaud ROSSET - Publié le 24 juin 2010