3. Un filtre antispam bloquera trop de courriel légitime

La crainte de bloquer du courriel légitime explique probablement la réticence à appliquer le filtrage antispam. Les filtres utilisent des tests heuristiques ou des systèmes statistiques comme la classification bayésienne pour évaluer un message et lui attribuer un score. Si le score est suffisamment haut, le filtre étiquette le message

comme étant du spam.

Les filtres antispam simples recherchent des mots-clés
spécifiques ou des mots indicateurs présentant une certaine
fréquence ou une certaine combinaison. Les utilisateurs craignent
que des messages parfaitement légitimes contiennent
des mots-clés ou des attributs leur donnant une apparence
de spam, et qu’ils ne parviennent pas à leurs boîtes de réception.
Prenons comme exemple un magasin d’habillement
qui reçoit un message d’un fournisseur de sous-vêtements.
Un filtre antispam ordinaire pourrait détecter la fréquence
de mots tels que sexy, lanière, bikini et rouge, et marquer le
message en tant que spam.

En réalité, les filtres antispam actuels ne se contentent
pas simplement de rechercher des mots-clés. Ils recherchent
aussi des caractéristiques comme les domaines de l’envoyeur
qui ne correspondent pas au système d’origine, des
liens URL (particulièrement ceux qui se répètent) et des références
et des liens de désabonnement. Certains filtres vérifient
des messages par rapport à des bases de données qui
contiennent du spam connu ou les URL que les messages
spam contiennent souvent. Ces mécanismes fonctionnent à
peu près de la même manière qu’une RBL. Le filtre recherche
dans une base de données une copie du message (en réalité,
une représentation « hash » du message) ou une liaison URL
à partir d’un spam identifié positivement. Si le filtre trouve
une correspondance, il augmente le score spam du message.
Certains mécanismes effectuent le filtrage après que la
vérification RBL ait laissé passer le message ; d’autres
utilisent les résultats de consultation de la RBL comme entrée influençant le score de spam
global.

Selon la manière dont un filtre
teste et note un message, il peut être
capable de déterminer le type de
spam. En ordonnant et en pondérant
les tests, vous pouvez donner plus ou
moins d’importance à certaines caractéristiques
de messages. Tôt dans l’évaluation,
les tests peuvent vérifier le formatage
HTML, voir si l’envoyeur est ou
non sur une liste noire, et si certaines
URL correspondent à celles d’une base
de données de spams connus. Le score
cumulé de ces tests pourrait suffire à
classifier le message comme un spam.
Des tests ultérieurs (par exemple, la recherche
de mots vulgaires) pourraient
ensuite classifier le message comme un
spam choquant.

Aucun filtre ne peut éliminer complètement
les « faux positifs » parce que
certains messages légitimes auront suffisamment
d’attributs de type spam
pour être classifiés comme tels. On
peut atténuer le risque de faux positifs
en jouant sur les règles de filtrage pour
les adapter aux profils des messages reçus
par l’entreprise. Ainsi, une entreprise
pharmaceutique peut configurer
des tests pour que le filtre ignore les
noms de médicaments ou que ces
noms ne contribuent pas fortement au
score de spam global.

Toujours dans le domaine des faux
positifs, on trouve le désir de recevoir
des messages de certains groupes.
Certaines entreprises pourraient avoir
comme partenaires des sociétés qui
utilisent le marketing par courriel direct
et elles pourraient vouloir recevoir
des messages parfaitement légitimes
pour elles, mais que d’autres pourraient
considérer comme du spam.
Dans ces cas, on peut créer une liste
blanche d’adresses d’envoyeurs et de
systèmes approuvés. Une liste blanche
ordonne au filtre antispam de laisser
passer le message sans le vérifier, en
raison de la personnalité de l’envoyeur.

Il faut donc compléter les mécanismes
antispam par une combinaison
de listes blanches et de réglage de filtre
pour réduire le nombre de faux positifs
détectés. Si j’en crois mon expérience,
la plupart des messages incorrectement
classifiés comme spam sont des
newsletters, des bulletins, ou des communiqués
de newsgroups. Ces messages
se retrouvent souvent incorrectement
classifiés parce qu’ils ont des
attributs comme le format HTML ou
des publicités et, dans certains cas, sont envoyés par le même logiciel que celui des spammers.
Mais il vous sera facile d’identifier les sources de ces messages
et de les ajouter à une liste blanche.

Il est une autre idée préconçue à propos des faux positifs
: que le filtre antispam supprime ces messages. Or, tout
logiciel de filtrage de spam digne de ce nom propose au
moins trois choix que l’on voit dans le tableau 1. A l’exception
des messages ayant un score spam élevé ou de ceux qui
sont rejetés à cause d’une liste noire, la plupart des entreprises
ne suppriment pas le courriel (tout au moins pas au
début).

Comme avec tout nouveau système, il faut passer par
une phase pilote avant de passer en
production. Pendant la phase pilote,
procédez aux réglages et construisez la
plupart de vos entrées de liste blanche.
Après la phase pilote, utilisez une option
« marquer et délivrer » pour le déploiement
en production. Cette méthode
n’élimine pas le spam des boîtes
à lettres de l’utilisateur mais, selon
votre implémentation, elle peut faciliter
la reconnaissance des spams.

Le marquage ajoute en principe un préfixe comme
SPAM: à la ligne de sujet d’un message (par exemple, un sujet
Very good news devient SPAM: Very good news). Ensuite,
les utilisateurs peuvent se servir d’Outlook pour configurer
des règles d’exécution d’une certaine action quand un message
marqué est trouvé dans la boîte de réception. Comme
je l’explique dans l’encadré « Utiliser des règles pour traiter
le spam », l’action la plus courante consiste à déplacer le
message dans un dossier séparé. Le marquage de la ligne
sujet permet aussi de voir facilement quels messages sont
du spam même si vous n’utilisez pas une règle pour les
déplacer dans un autre dossier. C’est intéressant si l’on
utilise un client ou un système incapable d’appliquer des
règles.

Bien que l’option marquer et délivrer aille à l’encontre de
ce que l’on attend d’un filtre antispam – chasser le spam des
boîtes à lettres de vos utilisateurs – les utilisateurs peuvent
au moins déplacer facilement les messages suspects hors de
leur boîte de réception pour les placer dans un dossier de
pourriel. Là , les messages ne se mélangent plus au reste du
courriel et donc les utilisateurs risquent moins de rater un
message important. Mais n’oubliez pas que tout le monde
doit examiner (et vider) ses dossiers de pourriel de temps à
autre pour s’assurer qu’ils ne contiennent pas de faux positifs.
Plus tard, quand les utilisateurs auront la certitude que
les filtres ne marquent pas des messages importants comme
de faux positifs, ils pourront configurer des règles aptes à
supprimer les messages, au lieu de les transférer dans un
dossier de pourriel. Quand l’ensemble de l’entreprise a
confiance dans les effets et les avantages du filtrage antispam,
les administrateurs IT sont généralement autorisés à
supprimer le courriel présentant un score spam élevé, au
lieu de le délivrer.