Création des modèles d'exploration de données

Création des modèles d’exploration de données

Tech - Par Renaud ROSSET - Publié le 24 juin 2010

L’étape suivante a consisté à créer et traiter les modèles d’exploration de données. SQL Server 2005 propose une multitude de nouveaux algorithmes de data-mining. J’ai opté pour les algorithmes MDT (Microsoft Decision Trees) et Clusters Microsoft, en partie du fait que leurs afficheuses graphiques de modèles d’exploration de données sont

Création des modèles d’exploration de données

supérieures à celles d’autres algorithmes, comme l’algorithme MLR (Microsoft Linear Regression), mais aussi parce qu’ils sont tous les deux disponibles dans toutes les éditions de SQL Server Analysis Services.

MDT est un algorithme de classification qui peut prédire les valeurs sur la base d’autres attributs. L’algorithme Clusters Microsoft est un algorithme de segmentation qui peut trouver des groupements naturels dans les données et prédire les résultats à partir de ces groupements. La meilleure façon de créer la structure d’exploration de données initiale devant contenir les modèles d’exploration de données basés sur ces deux algorithmes a consisté à suivre la procédure de l’Assistant Exploration de données (Data Mining Wizard) en cliquant avec le bouton droit de la souris sur le dossier Structures d’exploration de données (Mining Structures) dans l’Explorateur de solutions, puis en sélectionnant Nouvelle structure d’exploration de données (New Mining Structure).

L’Assistant Exploration de données vous guide à travers plusieurs écrans afin de collecter les informations. Sa première question sert à déterminer si la structure utilisera une base de données relationnelle existante ou un entrepôt, ou si elle sera adossée à un cube existant. J’ai choisi une base de données relationnelle car je voulais utiliser la table lottery_load. La question suivante porte sur le type d’algorithme (ou technique, dans la terminologie de l’assistant).

J’allais avoir deux modèles dans une seule structure, mais je voulais commencer par l’algorithme MDT pour l’assistant. Sur l’écran suivant, j’ai sélectionné la vue de source de données WinBig créée et j’ai utilisé la table lottery_ load dérivée de la requête nommée. C’est la seule table sélectionnable et je l’ai laissée en tant que table de cas au lieu de table imbriquée.

Sur l’écran suivant, j’ai sélectionné et défini les données servant à l’auto-apprentissage du modèle. Comme vous pouvez le voir sur la figure 2, tous les champs de la vue de source de données sont listés. Il est possible de définir chaque champ en tant que Clé (Key), Entrée (Input) ou Predict (Predictable). J’ai sélectionné le champ DrawDate comme Clé car je sais que chaque tirage a une valeur de date unique. Pour Entrée, j’ai choisi chaque champ sauf DrawDate et, pour Predict, j’ai sélectionné N1 à N6.

Après avoir cliqué sur Suivant (Next), j’ai spécifié le contenu et les types de données pour les champs. Il existe différents types de contenu et chacun joue un rôle déterminant dans le fonctionnement du modèle avec les données entrées. Les trois types de contenu que j’ai employés lorsque j’ai testé la sortie des modèles lottery-prediction sont Discret (Discrete), Continu (Continuous) et Discrétisé (Discretized).

Les valeurs discrètes contiennent un nombre fini d’éléments qu’il ne faut pas employer en tant que valeurs dans les calculs. En d’autres termes, même dans mon cas avec les champs N1 à N6 contenant des données numériques, la préférence a consisté à marquer ces champs comme Discret et, qui plus est, à définir leur type de données comme Text afin qu’ils ne se cumulent pas les uns et les autres.

La plage de numéros de loterie possible allait de 1 à 53 et constituait un ensemble fini de valeurs. Pensez aux attributs de genre qui ont deux valeurs, masculin et féminin. Si je devais utiliser une valeur de genre dans mes prédictions, je ne voudrais pas additionner masculin et féminin, tout comme je ne voulais pas additionner 1 à 12 ou 43 à 6, etc. pour mes numéros de loterie.

Les contenus de type continu sont des mesures de données numériques et sont additifs. J’ai constaté que les résultats du modèle changent lorsque je modifie les types de contenu. Les types discrets semblaient les plus appropriés pour ce projet.

Les types de valeurs discrétisés, qui placent des valeurs numériques continues dans des groupes discrets peuvent être employés avec des algorithmes, notamment MNB (Microsoft Naïve Bayes), qui sinon n’autorisent pas les valeurs continues. J’aurais pu laisser à l’assistant le soin de détecter les types de contenu, mais comme l’illustre la figure 3, j’ai défini les types de contenu manuellement en tant que Discret ou Clé et utilisé Text ou Date pour les types de données. J’ai pu alors terminer l’exécution de l’assistant et voir la nouvelle structure.

Téléchargez cette ressource

Guide inmac wstore pour l’équipement IT de l’entreprise

Découvrez les dernières tendances et solutions IT autour des univers de Poste de travail, Affichage et Collaboration, Impression et Infrastructure, et notre nouveau dossier thématique sur l’éco-conception et les bonnes pratiques à adopter pour réduire votre impact environnemental.

Tech - Par Renaud ROSSET - Publié le 24 juin 2010

Les articles les plus consultés