> Tech > Scénario de data mining (2)

Scénario de data mining (2)

Tech - Par Renaud ROSSET - Publié le 24 juin 2010

Exploration/validation des données historiques. Pour explorer les données historiques, vous devez comprendre les différents attributs de données, grouper les données en intervalles (en anglais buckets) afin de réduire la complexité, examiner les points aberrants (à savoir, les valeurs de données problématiques largement en dehors de la plage escomptée et qui

peuvent affecter ou fausser un modèle) et, le cas échéant, modifier les données. Cliquez sur l’onglet Data Mining en haut du ruban Excel. Cliquez sur Explore Data pour ouvrir l’Explore Data Wizard. Cliquez sur Next et assurez-vous que la table ‘Source Data’!’Source Data’ est sélectionnée. Dans la zone de liste déroulante Select column, sélectionnez Yearly Income (revenu annuel).

Cliquez sur Next. Un graphique d’exploration de données similaire à celui de la figure 1 apparaît et répartit les revenus au sein de huit intervalles. (Vous pouvez reconfigurer les nombres d’intervalles selon les besoins.) En explorant les données de la sorte, vous pouvez trouver et, si nécessaire, changer ou supprimer les points aberrants susceptibles de fausser le modèle. Poursuivez jusqu’à sortir de l’assistant. Supposons que vous souhaitiez éliminer les revenus annuels supérieurs à 150 000 dollars. Dans l’onglet Data Mining du ruban, cliquez sur Clean Data, puis sélectionnez Outliers pour accéder à l’Outlier Wizard.

Cliquez sur Next, assurez-vous que la table ‘Source Data’!’Source Data’ est sélectionnée, puis cliquez de nouveau sur Next. Dans la zone de liste déroulante Select column, sélectionnez Yearly Income (revenu annuel), puis cliquez sur Next. Dans l’étape de spécification de seuils Specify Thresholds, modifiez la valeur de Maximum à 150000. Cliquez sur Next, puis à l’étape de gestion des points aberrants Outlier Handling, sélectionnez l’option de sélection des lignes contenant des points aberrants Delete rows containing outliers. Cliquez de nouveau sur Next, puis sélectionnez Copy sheet data with changes to a new worksheet. Une feuille de calcul nommée Clean Data est créée automatiquement. Notez que cette création vous sert uniquement à avoir une idée du processus. Vous pourrez donc ensuite supprimer la feuille de calcul comme bon vous semble.

Au sein de la fonctionnalité Clean Data, l’option de changement de nom Re-label peut vous aider à clarifier ou à distinguer les attributs de données. Cliquez sur Clean Data et sélectionnez Re-label. Dans notre exemple, les valeurs possibles pour les colonnes Home Owner (Propriétaire particulier) et BikeBuyer (Acheteur de vélos) sont Yes et No. Si cela correspond mieux à vos besoins, vous pouvez utiliser Relabel pour renommer les valeurs Home Owner en quelque chose de plus descriptif, tel que Rent (louer) ou Own (acquérir).

Téléchargez cette ressource

Plan de sécurité Microsoft 365

Les attaquants savent comment prendre le contrôle de votre tenant Microsoft 365, et vous, savez-vous comment le reprendre en main ?

Les articles les plus consultés

A travers cette chaîne

A travers ITPro

Les plus consultés sur iTPro.fr

Articles les + lus

Femmes et métiers de la tech : une attractivité réelle freinée par des stéréotypes persistants

Moderniser le développement logiciel : de la fragmentation à l’intégration

Analyse Patch Tuesday Mars 2026

Une nouvelle ère de la modernisation du mainframe

Communes, entreprises ? Non, face au RGAA 5, l’IA seule ne rendra pas vos sites accessibles

A lire aussi sur le site

Femmes et métiers de la tech : une attractivité réelle freinée par des stéréotypes persistants

À l’occasion de la Journée des femmes dans le secteur des technologies de l’information et de la communication, Notify publie une étude éclairante sur la perception des femmes françaises vis-à-vis des métiers de la tech.

À la une de la chaîne Tech

Ready For IT 2026 : le salon IT premium dédié aux décideurs des ETI

Pensé comme un véritable catalyseur business, l’événement s’adresse aux DSI, RSSI, CTO et directions innovation des ETI françaises engagées dans des arbitrages structurants : cloud, data, IA, infrastructures, conformité et sécurité. Un format sélectif orienté décision Ready For IT repose sur un principe simple : privilégier la qualité des échanges à la quantité des contacts. […]

A la Une des Ressources IT

Inscrivez-vous !

Actualités, Dossiers et Ressources IT Professionnelles - vendredi 01 mai 2026

Scénario de data mining (2)

Téléchargez cette ressource

Plan de sécurité Microsoft 365

Les articles les plus consultés

Les plus consultés sur iTPro.fr

Articles les + lus

A lire aussi sur le site

Femmes et métiers de la tech : une attractivité réelle freinée par des stéréotypes persistants

À la une de la chaîne Tech

Ready For IT 2026 : le salon IT premium dédié aux décideurs des ETI

A la Une des Ressources IT

Sécuriser Microsoft 365 avec une appr...

Microsoft 365 Tenant Resilience

Mac en entreprise : le levier d’un po...

Plan de sécurité Microsoft 365

Guide de Threat Intelligence contextu...

Scénario de data mining (2)

Téléchargez cette ressource

Plan de sécurité Microsoft 365

Les articles les plus consultés

Les plus consultés sur iTPro.fr

Articles les + lus

A lire aussi sur le site

Femmes et métiers de la tech : une attractivité réelle freinée par des stéréotypes persistants

À la une de la chaîne Tech

Ready For IT 2026 : le salon IT premium dédié aux décideurs des ETI

A la Une des Ressources IT

Sécuriser Microsoft 365 avec une appr...

Microsoft 365 Tenant Resilience

Mac en entreprise : le levier d’un po...

Plan de sécurité Microsoft 365

Guide de Threat Intelligence contextu...

Sécuriser Microsoft 365 avec une appr...