> Tech > Unité d’analyse

Unité d’analyse

Tech - Par Renaud ROSSET - Publié le 24 juin 2010
email

Dans toute tâche de datamining, le choix de l'unité d'analyse est l'une des premières décisions à  prendre. Tout comme vous pouvez mesurer et analyser la distance de nombreuses manières - des centimètres aux kilomètres, par exemple - vous pouvez mesurer et analyser le comportement des clients de nombreuses façons. En

examinant la structure de l’objet
Customer, nous voyons au moins
quatre unités d’analyse potentielles :

• La société du client – 1 955 cas (enregistrements)
dans l’ensemble de
données

• Le client individuel – 3 984 cas dans
l’ensemble de données

• La réponse – 9 934 réponses dans
l’ensemble de données : 8 075 pour
la conférence e-commerce (55 %),
1 467 pour la conférence Java (10 %)
et 392 pour la conférence Windows
CE (3 %), pour un taux de réponse
total d’environ 68 %

• La promotion – 14 589 cas dans l’ensemble
de données

Comme il s’agit d’étudier le comportement
du client, on pourrait être
tenté d’utiliser ce dernier comme
unité d’analyse. Pourtant, dans cet
exemple, l’unité d’analyse doit être la
promotion parce que vous voulez examiner
chaque promotion et voir si elle
a suscité une réponse de tel ou tel
client. Cette valeur fournira un taux de
réponse d’où vous pourrez tirer un
profil de clients à  fort taux de réponse.
Donc la promotion est l’unité d’analyse
et la réponse est le résultat que
vous voulez examiner et expliquer.
Dans ce cas, pour expliquer le résultat,
vous devez construire un modèle prédictif
qui utilise les caractéristiques indiquées
sur l’enregistrement d’analyse pour faire la distinction entre les
clients répondants et non répondants.

Pour élaborer un modèle exprimant
l’efficacité des diverses promotions
et les attributs client associés qui
laissent présager la réponse promotionnelle,
il faut exprimer les données
en format adéquat. Une réponse positive
– ici, la présence à  une conférence
– est déterminée par une combinaison
de caractéristiques client et promotionnelles.
Vous pouvez exprimer cette
relation par une équation où le résultat
(listé en premier) est fonction des entrées
:
Présence (Résultats / Cible) = Caractéristiques client + Activités promotionnelles

Vous devrez procéder à  un certain
datamining pour trouver les valeurs
des caractéristiques client et des activités
promotionnelles.

Rappelons que l’unité d’analyse est
la promotion. Le fichier d’analyse
contient des copies de chaque enregistrement
client pour chaque promotion
; quand plus d’une promotion est
associée à  un enregistrement client, les caractéristiques de l’enregistrement
client sont copiées pour chaque promotion.

Le Mining Model Wizard (que j’explore
plus loin) utilise l’expression
SQL suivante qui joint trois tables –
Customers, Promotionset Conferences – pour produire la vue d’analyse qui crée des copies d’enregistrements client pour chaque promotion :

SELECT Customers.*, Promotions.*,
[Conferences].[CourseCode],
[Conferences].[DATE]
FROM Customers RIGHT JOIN (Promotions LEFT
JOIN Conferences ON
([Promotions].[CustNum]=[Conferences].[CustNum]) AND
([Promotions].[PromoDate]=[Conferences].[Date])) ON
[Customers].[CustNum]=[Promotions].[CustNum];

La bonne jointure établit la correspondance
entre les clients et toutes les
promotions dans le fichier. Comme
une promotion donnée peut aboutir à 
plus d'une présence, la jointure
gauche qui est entre parenthèses à 
côté de l'expression RIGHT JOIN rassemble toutes les présences. Il en
résulte un fichier de 14 695 offres promotionnelles
résultant en 9 934 présences.

Téléchargez cette ressource

Préparer l’entreprise à l’IA et aux technologies interconnectées

Préparer l’entreprise à l’IA et aux technologies interconnectées

Avec la « quatrième révolution industrielle », les environnements hyperconnectés entraînent de nouveaux risques en matière de sécurité. Découvrez, dans ce guide Kaspersky, comment faire face à cette nouvelle ère de vulnérabilité.

Tech - Par Renaud ROSSET - Publié le 24 juin 2010