Exploration/validation des données historiques. Pour explorer les données historiques, vous devez comprendre les différents attributs de données, grouper les données en intervalles (en anglais buckets) afin de réduire la complexité, examiner les points aberrants (à savoir, les valeurs de données problématiques largement en dehors de la plage escomptée et qui
Scénario de data mining (2)
peuvent affecter ou fausser un modèle) et, le cas échéant, modifier les données. Cliquez sur l’onglet Data Mining en haut du ruban Excel. Cliquez sur Explore Data pour ouvrir l’Explore Data Wizard. Cliquez sur Next et assurez-vous que la table ‘Source Data’!’Source Data’ est sélectionnée. Dans la zone de liste déroulante Select column, sélectionnez Yearly Income (revenu annuel).
Cliquez sur Next. Un graphique d’exploration de données similaire à celui de la figure 1 apparaît et répartit les revenus au sein de huit intervalles. (Vous pouvez reconfigurer les nombres d’intervalles selon les besoins.) En explorant les données de la sorte, vous pouvez trouver et, si nécessaire, changer ou supprimer les points aberrants susceptibles de fausser le modèle. Poursuivez jusqu’à sortir de l’assistant. Supposons que vous souhaitiez éliminer les revenus annuels supérieurs à 150 000 dollars. Dans l’onglet Data Mining du ruban, cliquez sur Clean Data, puis sélectionnez Outliers pour accéder à l’Outlier Wizard.
Cliquez sur Next, assurez-vous que la table ‘Source Data’!’Source Data’ est sélectionnée, puis cliquez de nouveau sur Next. Dans la zone de liste déroulante Select column, sélectionnez Yearly Income (revenu annuel), puis cliquez sur Next. Dans l’étape de spécification de seuils Specify Thresholds, modifiez la valeur de Maximum à 150000. Cliquez sur Next, puis à l’étape de gestion des points aberrants Outlier Handling, sélectionnez l’option de sélection des lignes contenant des points aberrants Delete rows containing outliers. Cliquez de nouveau sur Next, puis sélectionnez Copy sheet data with changes to a new worksheet. Une feuille de calcul nommée Clean Data est créée automatiquement. Notez que cette création vous sert uniquement à avoir une idée du processus. Vous pourrez donc ensuite supprimer la feuille de calcul comme bon vous semble.
Au sein de la fonctionnalité Clean Data, l’option de changement de nom Re-label peut vous aider à clarifier ou à distinguer les attributs de données. Cliquez sur Clean Data et sélectionnez Re-label. Dans notre exemple, les valeurs possibles pour les colonnes Home Owner (Propriétaire particulier) et BikeBuyer (Acheteur de vélos) sont Yes et No. Si cela correspond mieux à vos besoins, vous pouvez utiliser Relabel pour renommer les valeurs Home Owner en quelque chose de plus descriptif, tel que Rent (louer) ou Own (acquérir).
Téléchargez cette ressource
Plan de sécurité Microsoft 365
Les attaquants savent comment prendre le contrôle de votre tenant Microsoft 365, et vous, savez-vous comment le reprendre en main ?
Les articles les plus consultés
Les plus consultés sur iTPro.fr
- Le trilemme de la souveraineté : le coût caché du cloud qui freine l’IA en Europe
- Moderniser le développement logiciel : de la fragmentation à l’intégration
- Semperis : gouverner l’identité à l’ère des agents IA
- Analyse Patch Tuesday Mars 2026
Articles les + lus
Femmes et métiers de la tech : une attractivité réelle freinée par des stéréotypes persistants
Moderniser le développement logiciel : de la fragmentation à l’intégration
Analyse Patch Tuesday Mars 2026
Une nouvelle ère de la modernisation du mainframe
Communes, entreprises ? Non, face au RGAA 5, l’IA seule ne rendra pas vos sites accessibles
À la une de la chaîne Tech
- Femmes et métiers de la tech : une attractivité réelle freinée par des stéréotypes persistants
- Moderniser le développement logiciel : de la fragmentation à l’intégration
- Analyse Patch Tuesday Mars 2026
- Une nouvelle ère de la modernisation du mainframe
- Communes, entreprises ? Non, face au RGAA 5, l’IA seule ne rendra pas vos sites accessibles
