> Tech > Arborescences de décision

Arborescences de décision

Tech - Par iTPro - Publié le 24 juin 2010
email

La prédiction est la notion sous-jacente à l’algorithme d’arborescences de décision (Decision Trees) de Microsoft. Les connaissances contenues par un modèle d’arborescences de décision peuvent être représentées graphiquement sous forme d’arborescence, mais aussi sous forme de « règles de noeuds ». Par exemple, dans une arborescence de décision portant sur

le revenu, une règle telle que (sexe = masculin et 1 < Années travaillées < 2) pourrait décrire un noeud d’arborescence contenant les statistiques de revenus pour les hommes dans leur deuxième année professionnelle. Ce noeud correspond à une sous-population bien définie d’actifs et vous devez être en mesure d’effectuer des prédictions relativement spécifiques concernant leurs revenus. En effet, un des modèles de recensement a donné la formule suivante pour la condition (sexe = masculin et 1 < Années travaillées < 2) :

INCOME = 24804.38+425.99*( YRSSRV -1.2)+392.8*(HOURS-40.2) + 4165.82*(WORKLWK-1.022) ± 24897

Selon cette formule, INCOME (revenu) est défini principalement par YRSSRV (années de service) et les heures supplémentaires hebdomadaires. (Notez qu’il s’agit simplement d’un exemple et qu’il ne repose pas sur des données de recensement représentatives.) Pour obtenir cette équation sous une forme graphique simple, vous pourriez utiliser la visionneuse d’arborescences de décision afin de visualiser l’arborescence de revenus et d’effectuer un zoom sur un noeud correspondant aux valeurs intéressantes de sexe et d’années de travail, comme l’illustre l’instantané type de la figure 4.

La règle et la formule définies identifient le sexe, les années de service, les années de travail, les heures hebdomadaires et la charge de travail en tant que prédicteurs pour le revenu. Comme YRSSRV, HOURS et WORKLWK apparaissent dans la formule précédente pour INCOME, ils sont appelés régresseurs. Une arborescence de décision contenant de telles formules prédictives est appelée arbre de régression.

Téléchargez gratuitement cette ressource

Protection des Données : 10 Best Practices

Protection des Données : 10 Best Practices

Le TOP 10 des meilleures pratiques, processus et solutions de sécurité pour mettre en œuvre une protection efficace des données et limiter au maximum les répercutions d’une violation de données.

Tech - Par iTPro - Publié le 24 juin 2010