Les pièges du Big Data : Le Data Scientist amateur

Data - Par iTPro.fr - Publié le 02 juin 2016

Nous connaissons le potentiel du Big Data pour détecter les fraudes dans les services financiers.

Les pièges du Big Data : Le Data Scientist amateur

Lançons-nous dans cet exercice d’analyse et recueillons quelques conseils de Sébastien Cognet, ingénieur EMEA Pentaho, bien utiles pour éviter les pièges. Traquer les commerçants malhonnêtes, vendre des services supplémentaires… la liste est sans fin. En fonction de la personne à qui vous parlez, le Big Data est quelque chose d’essentiel pour libérer une prospérité illimitée ou bien une solution pour rechercher un problème.

Notre miraculeuse aptitude à détecter les tendances

La prolifération des outils « d’exploration » des Big Data m’inquiète. Non pas que je n’aime pas la technologie ; je pense qu’elle est incroyable. Les visualisations sont esthétiques et impressionnantes. La performance est attrayante, l’aptitude à « faire de la science des données » est solide, et pourtant l’approche est souvent mauvaise. Le défi des outils d’exploration visuelle des données est celui-ci : nous les humains sommes doués pour détecter les formes. Nous reconnaissons les amis de dos, mais nous prenons également parfois des vessies pour des lanternes.

En d’autres mots, nous voyons parfois des choses qui simplement ne sont pas là. Cependant, les modèles numériques complexes et multidimensionnels sont bien au-delà de notre capacité à capter visuellement les connaissances. Il est difficile de décrire visuellement plus de quatre dimensions ou variables d’un point de données (coordonnées X, Y, Z + couleur + dégradé de couleurs). Les humains sont également limités dans le nombre de points de données qu’ils peuvent traiter en une seule fois. Pour ces raisons, l’humanité a développé des outils solides de mathématiques pour aider à trouver des modèles qui utilisent à la fois des méthodes déterministes et probabilistes, mais ils ne sont pas parfaits. Les outils déterministes, qui supposent que toutes les informations soient connues, échouent lorsqu’ils sont confrontés à des phénomènes complexes. Les outils probabilistes présument une mesure des « inconnues » et leur attachent des probabilités. Cependant, de tels modèles sont difficiles à utiliser et les résultats ardus à interpréter.

Gare au programmeur ou à l’analyste qui s’aventure dans le monde de la science des données !

Tous deux ont juste suffisamment de compétences pour être dangereux. Le spécialiste en intégration des données n’est pas un data scientist et celui qui prétend être un data scientist n’est peut-être pas un statisticien qualifié. Imaginez que vous aidiez la branche commerciale d’une institution financière à développer une plateforme évolutive et hautement disponible, afin de fournir une grande variété de données massives et ultra-rapides (les 3 V du Big Data). Vos interlocuteurs veulent « faire du Big Data »! En tant que programmeur intelligent, vous pensez naturellement que les statisticiens sont paresseux ou limités par un manque de compétences en programmation. Vous concevez un programme pour chercher les corrélations de chaque jeu de données avec tous les autres jeux de données de l’entreprise, ainsi qu’avec des données externes, des informations publiques et d’autres encore. Bien sûr, vous espérez trouver cet élément de magie prédictive, une recette secrète pour les opérations boursières qui générerait un puits de liquidités. Statisticien naissant, vous décidez sur un intervalle de confiance de 95% ou selon une marge d’erreur de 5%. Eureka ! Vous avez découvert tellement de nouvelles variables de prédiction, que peut-être vous avez trouvé que l’index des prix de la consommation trimestriel est un indicateur presque parfait du cours actuel de l’acier américain.

Vous considérez que votre nouvelle formule de prévisions des prix de l’acier américain est à 95% précis. Grosse erreur : Sans trop entrer dans la technique, ce chiffre de 95% signifie que 19 fois sur 20 lorsque vous trouvez une corrélation, le résultat est « juste », et 1 fois sur 20 (5%) c’est un faux positif. Lorsque vous faîtes des centaines de tests de corrélation, vous obtenez potentiellement des dizaines de faux positifs. C’est pourquoi les physiciens des particules du Grand Collisionneur de Hadrons (LCH) du CERN à la recherche du Boson de Higgs, qui utilisent une technique nécessitant un nombre extraordinaire de tests, ont choisi d’utiliser le niveau de certitude Sigma 7. Au niveau Sigma 7, il n’y a que 0,0000000001% de chance qu’un test donné soit le fruit du hasard.

Où cela nous mène-t-il ?

Tout d’abord, je ne critique pas la recherche exploratoire. De tels travaux sont importants et à la base de la plupart des grandes découvertes dans l’histoire de l’humanité. Je dis simplement que sans bien connaître vos outils et méthodes, vous êtes voué à faire de simples erreurs, de nombreux outils d’exploration des données vous permettant aujourd’hui de faire le gros du travail sans savoir vraiment ce que vous faites. Si votre entreprise est si avantgardiste que de nouvelles idées sont immédiatement mises en oeuvre, soyez vigilants ! Vous vous exposez à tomber dans ces pièges ou bien d’autres de la jungle du Big Data. Vous pouvez éviter tous ces problèmes en impliquant dans la discussion des experts de l’intégration des Big Data, des statisticiens spécialistes du marché, et du personnel opérationnel. J’encouragerais également tous ceux qui réfléchissent à se lancer dans les Big Data à s’initier au préalable à la science des données.

Téléchargez cette ressource

Percer le brouillard des rançongiciels

Explorez les méandres d’une investigation de ransomware, avec les experts de Palo Alto Networks et Unit 42 pour faire la lumière dans la nébuleuse des rançongiciels. Plongez au cœur de l’enquête pour comprendre les méthodes, les outils et les tactiques utilisés par les acteurs de la menace. Découvrez comment prévenir les attaques, les contrer et minimiser leur impact. Des enseignements indispensables aux équipes cyber.

Data - Par iTPro.fr - Publié le 02 juin 2016

Les articles les plus consultés