> Tech > Scénario de data mining (3)

Scénario de data mining (3)

Tech - Par Renaud ROSSET - Publié le 24 juin 2010
email

Création du modèle d’exploration de données. Avant d’effectuer cette opération, il faut partitionner les données historique en deux intervalles : un servant à créer le modèle proprement dit et l’autre à tester l’exactitude dudit modèle. Dans le classeur DMAddins_SampleData, vous pouvez voir les feuilles de calcul Training Data et Testing

Scénario de data mining (3)

Data, qui sont des partitions de la feuille de calcul Source Data originale. Vous allez exploiter ces feuilles de calcul prépartitionnées dans un instant. Mais d’abord, pour mieux comprendre le processus de partitionnement, vous allez créer vos propres partitions dans vos feuilles de calcul temporaires, que nous appellerons TempTrainingData et TempTestingData. Ces partitions ne vont pas servir à créer le modèle réel car le partitionnement est aléatoire et le modèle de chaque lecteur sera différent. Par conséquent, vous pourrez ensuite les supprimer.

Pour partitionner les données historique, cliquez sur l’onglet Data Mining du ruban, sur Partition Data, puis sur Next. Assurez-vous que la table ‘Source Data’!’Source Data’ est sélectionnée, puis cliquez de nouveau sur Next. A l’étape Select Sampling Type, conservez l’option par défaut de fractionnement des données en jeux d’entraînement et de test Split data into training and testing sets, cliquez sur Next et gardez la valeur par défaut 70,0 pour le champ de pourcentage de données d’entraînement Percentage of training. Cliquez de nouveau sur Next. Nommez respectivement les feuilles de calcul temporaires d’entraînement et de test TempTrainingData et Temp TestingData, puis cliquez sur Finish. Vous venez de créer deux feuilles de calcul contenant un échantillon aléatoire des données historique, avec 70 % de celles-ci dans TempTrainingData et les 30 % restants dans TempTestingData. Vous pouvez désormais supprimer ces feuilles de calcul temporaires.

Au cours de l’étape suivante, vous devez définir une connexion à une instance d’Analysis Services, où vous allez créer le véritable modèle d’exploration de données. Dans l’onglet Data Mining du ruban, cliquez sur Connection. (Si aucune connexion n’a été créée, la commande apparaîtra sous la forme <No Connection>.) Cliquez sur New et entrez les informations de connexion pour votre instance et pour la base de données DM AddinsDB, qui est créée lorsque vous employez l’utilitaire de configuration du serveur mentionné précédemment. Cliquez sur OK pour fermer la boîte de dialogue Connect to Analysis Services, cliquez sur Make Current, puis fermez la boîte de dialogue Analysis Services Connections.

Vous pouvez désormais créer le modèle. Dans la section Data Modeling de l’onglet Data Mining, plusieurs commandes permettent de créer différents types de modèles (par ex., Classify, Estimate, Cluster). Cliquez sur Classify pour démarrer le Classify Wizard, puis cliquez sur Next et assurez-vous que la table ‘Training Data’!’Training Data’ est sélectionnée. Cliquez de nouveau sur Next et, dans Column to analyze, sélectionnez BikeBuyer, lequel devient votre attribut prédictible, autrement dit l’attribut affecté par d’autres attributs d’une manière que vous souhaitez comprendre. Dans la grille de données des colonnes d’entrée Input columns, illustrée à la figure 2, désactivez la case à cocher pour la colonne ID car elle n’est d’aucune utilité pour comprendre si des personnes sont susceptibles d’acheter un vélo. Cliquez de nouveau sur Next. A l’étape Finish, vous pouvez modifier la structure par défaut, le nom du modèle et les descriptions. Nous n’avons pas abordé les structures d’exploration de données, mais vous pouvez les considérer comme une définition de schéma de vos données historique. En créant une structure, vous pouvez appliquer de nombreux modèles à vos données sans redéfinir le schéma d’historique. Conservez l’option d’exploration du modèle Browse model sélectionnée, sélectionnez l’option d’activation d’extraction Enable drillthrough, puis cliquez sur Finish pour déployer le modèle dans l’instance Analysis Services en vue de son traitement.

Téléchargez cette ressource

Cybersécurité des collectivités : Enjeux, Perspectives & Solutions

Cybersécurité des collectivités : Enjeux, Perspectives & Solutions

Villes, intercommunalités, métropoles, départements et régions sont particulièrement exposés aux risques de cybersécurité. Ce livre blanc Stormshield présente les défis cyber que rencontrent les collectivités, les solutions et perspectives pour qu’elles puissent assurer leur mission d’utilité publique, en toute sécurité.

Tech - Par Renaud ROSSET - Publié le 24 juin 2010