> Tech > Scénario de data mining (2)

Scénario de data mining (2)

Tech - Par Renaud ROSSET - Publié le 24 juin 2010
email

Exploration/validation des données historiques. Pour explorer les données historiques, vous devez comprendre les différents attributs de données, grouper les données en intervalles (en anglais buckets) afin de réduire la complexité, examiner les points aberrants (à savoir, les valeurs de données problématiques largement en dehors de la plage escomptée et qui

peuvent affecter ou fausser un modèle) et, le cas échéant, modifier les données. Cliquez sur l’onglet Data Mining en haut du ruban Excel. Cliquez sur Explore Data pour ouvrir l’Explore Data Wizard. Cliquez sur Next et assurez-vous que la table ‘Source Data’!’Source Data’ est sélectionnée. Dans la zone de liste déroulante Select column, sélectionnez Yearly Income (revenu annuel).

Cliquez sur Next. Un graphique d’exploration de données similaire à celui de la figure 1 apparaît et répartit les revenus au sein de huit intervalles. (Vous pouvez reconfigurer les nombres d’intervalles selon les besoins.) En explorant les données de la sorte, vous pouvez trouver et, si nécessaire, changer ou supprimer les points aberrants susceptibles de fausser le modèle. Poursuivez jusqu’à sortir de l’assistant. Supposons que vous souhaitiez éliminer les revenus annuels supérieurs à 150 000 dollars. Dans l’onglet Data Mining du ruban, cliquez sur Clean Data, puis sélectionnez Outliers pour accéder à l’Outlier Wizard.

Cliquez sur Next, assurez-vous que la table ‘Source Data’!’Source Data’ est sélectionnée, puis cliquez de nouveau sur Next. Dans la zone de liste déroulante Select column, sélectionnez Yearly Income (revenu annuel), puis cliquez sur Next. Dans l’étape de spécification de seuils Specify Thresholds, modifiez la valeur de Maximum à 150000. Cliquez sur Next, puis à l’étape de gestion des points aberrants Outlier Handling, sélectionnez l’option de sélection des lignes contenant des points aberrants Delete rows containing outliers. Cliquez de nouveau sur Next, puis sélectionnez Copy sheet data with changes to a new worksheet. Une feuille de calcul nommée Clean Data est créée automatiquement. Notez que cette création vous sert uniquement à avoir une idée du processus. Vous pourrez donc ensuite supprimer la feuille de calcul comme bon vous semble.

Au sein de la fonctionnalité Clean Data, l’option de changement de nom Re-label peut vous aider à clarifier ou à distinguer les attributs de données. Cliquez sur Clean Data et sélectionnez Re-label. Dans notre exemple, les valeurs possibles pour les colonnes Home Owner (Propriétaire particulier) et BikeBuyer (Acheteur de vélos) sont Yes et No. Si cela correspond mieux à vos besoins, vous pouvez utiliser Relabel pour renommer les valeurs Home Owner en quelque chose de plus descriptif, tel que Rent (louer) ou Own (acquérir).

Téléchargez cette ressource

Guide inmac wstore pour l’équipement IT de l’entreprise

Guide inmac wstore pour l’équipement IT de l’entreprise

Découvrez toutes nos actualités à travers des interviews, avis, conseils d'experts, témoignages clients, ainsi que les dernières tendances et solutions IT autour de nos 4 univers produits : Poste de travail, Affichage et Collaboration, Impression et Infrastructure.

Tech - Par Renaud ROSSET - Publié le 24 juin 2010