> Tech > Confortables et délicieusement floues (2)

Confortables et délicieusement floues (2)

Tech - Par Renaud ROSSET - Publié le 24 juin 2010
email

la tâche Fuzzy Lookup a réalisé un excellent travail de rapprochement entre les données grossières de notre fichier texte et les villes appropriées dans la table de recherche. La tâche Fuzzy Lookup crée deux mesures au cours de son travail. La première est une note de similarité. Ce nombre indique

le niveau d’adéquation trouvé. La tâche calcule la note de similarité à partir de l’écart de modification entre une valeur et sa correspondance potentielle. En d’autres termes, combien de fois faut-il insérer, supprimer ou remplacer une lettre dans la valeur pour aboutir au mot de la liste de recherche ? La deuxième mesure est une valeur de confiance. Elle indique quelle confiance l’algorithme de recherche floue a dans la correspondance trouvée. Ce nombre peut servir à déterminer si la valeur trouvée par l’algorithme est acceptable ou s’il faut la vérifier manuellement.

Il convient de souligner une bizarrerie : la tâche Fuzzy Lookup voit dans les termes en lettres capitales des acronymes. Comme chaque lettre dans un acronyme est plus significative que les lettres individuelles d’un mot classique, FCC et FTC sont deux éléments distincts. Même si la valeur d’écart de modification de ces acronymes est 1, la tâche Fuzzy Lookup n’essaie pas de les apparier. Si vos données existantes sont uniquement en lettres majuscules, convertissez-les en lettres minuscules avant d’effectuer la recherche floue.

Groupement flou. La deuxième tâche de transformation de données abordée dans cet article a une beauté artistique. (Vous voyez le rapport entre « artistique » et « flou » ?) La tâche Fuzzy Grouping fonctionne dans une large mesure comme la tâche Fuzzy Lookup, mais elle trouve les correspondances dans un ensemble de données au lieu d’utiliser une table de recherche. Par exemple, supposons que vous importiez des données d’un journal des appels au service après-vente, comme le montre la figure 4. Les clients peuvent ne pas donner leur nom exactement de la même manière à chacun de leurs appels et le personnel du service après-vente peut entrer les noms de différentes façons. A la figure 4, Cathy Jones, Kathryn Jones et Kathy Jones sont probablement des entrées différentes désignant la même personne, mais comment faire en sorte que l’ordinateur réalise ce fait ? La tâche Fuzzy Grouping vous apporte la réponse.

La figure 5 montre un lot SSIS qui utilise une tâche Fuzzy Grouping pour trouver des doublons potentiels au cours du processus d’importation. La figure 6 présente les résultats de l’importation, laquelle révèle des doublons potentiels. La tâche Fuzzy Grouping ne les supprime pas automatiquement, il vous faut effectuer cette fonction séparément.

La valeur de colonne Key_In générée par la tâche Fuzzy Grouping est un identificateur unique pour chaque enregistrement dans le flux de données. Au cours du processus de correspondance floue, la valeur de colonne Key_Out, avec une valeur propre pour chaque colonne traitée par SSIS, présente les groupements des doublons potentiels détectés par la tâche. Dans cet exemple, cette dernière a regroupé les lignes qui ont les valeurs Key_In 2, 3 et 4, et elle a identifié la ligne 4 comme la ligne modèle (à savoir la ligne cible de la combinaison). Comme pour la tâche Fuzzy Lookup, la colonne Similarity/Score indique le niveau de similarité d’une correspondance, à partir de l’écart de modification.

La note de similarité 1 indique une correspondance exacte, alors qu’une note inférieure à 1 signale une correspondance floue. Dans cet exemple, le lot SSIS établit une correspondance floue sur le nom et le prénom, et une correspondance exacte sur le sexe (gender). Nous supposons que les personnes connaissent leur propre sexe et le personnel du service après-vente peut saisir M ou F. Si vous ajoutez plus de critères au groupement flou, vous pouvez accroître la certitude que deux lignes sont effectivement en double. Par exemple, vous pouvez soit ajouter une correspondance exacte ou floue sur l’adresse, la ville, l’état, le code postal ou le numéro de téléphone afin d’accroître la confiance dans le processus d’élimination des erreurs.

Téléchargez cette ressource

Guide de Sécurité IA et IoT

Guide de Sécurité IA et IoT

Compte tenu de l'ampleur des changements que l'IA est susceptible d'entraîner, les organisations doivent élaborer une stratégie pour se préparer à adopter et à sécuriser l'IA. Découvrez dans ce Livre blanc Kaspersky quatre stratégies efficaces pour sécuriser l'IA et l'IoT.

Tech - Par Renaud ROSSET - Publié le 24 juin 2010