Advertisement
Loading

Les pièges du Big Data : Le Data Scientist amateur

Nous connaissons le potentiel du Big Data pour détecter les fraudes dans les services financiers.

Lançons-nous dans cet exercice d'analyse et recueillons quelques conseils de Sébastien Cognet, ingénieur EMEA Pentaho, bien utiles pour éviter les pièges. Traquer les commerçants malhonnêtes, vendre des services supplémentaires… la liste est sans fin. En fonction de la personne à qui vous parlez, le Big Data est quelque chose d’essentiel pour libérer une prospérité illimitée ou bien une solution pour rechercher un problème.

Notre miraculeuse aptitude à détecter les tendances 

La prolifération des outils « d’exploration » des Big Data m’inquiète. Non pas que je n’aime pas la technologie ; je pense qu’elle est incroyable. Les visualisations sont esthétiques et impressionnantes. La performance est attrayante, l’aptitude à « faire de la science des données » est solide, et pourtant l’approche est souvent mauvaise. Le défi des outils d’exploration visuelle des données est celui-ci : nous les humains sommes doués pour détecter les formes. Nous reconnaissons les amis de dos, mais nous prenons également parfois des vessies pour des lanternes.

En d’autres mots, nous voyons parfois des choses qui simplement ne sont pas là. Cependant, les modèles numériques complexes et multidimensionnels sont bien au-delà de notre capacité à capter visuellement les connaissances. Il est difficile de décrire visuellement plus de quatre dimensions ou variables d’un point de données (coordonnées X, Y, Z + couleur + dégradé de couleurs). Les humains sont également limités dans le nombre de points de données qu’ils peuvent traiter en une seule fois. Pour ces raisons, l’humanité a développé des outils solides de mathématiques pour aider à trouver des modèles qui utilisent à la fois des méthodes déterministes et probabilistes, mais ils ne sont pas parfaits. Les outils déterministes, qui supposent que toutes les informations soient connues, échouent lorsqu’ils sont confrontés à des phénomènes complexes. Les outils probabilistes présument une mesure des « inconnues » et leur attachent des probabilités. Cependant, de tels modèles sont difficiles à utiliser et les résultats ardus à interpréter.

Gare au programmeur ou à l’analyste qui s’aventure dans le monde de la science des données !

Tous deux ont juste suffisamment de compétences pour être dangereux. Le spécialiste en intégration des données n’est pas un data scientist et celui qui prétend être un data scientist n’est peut-être pas un statisticien qualifié. Imaginez que vous aidiez la branche commerciale d’une institution financière à développer une plateforme évolutive et hautement disponible, afin de fournir une grande variété de données massives et ultra-rapides (les 3 V du Big Data). Vos interlocuteurs veulent « faire du Big Data »! En tant que programmeur intelligent, vous pensez naturellement que les statisticiens sont paresseux ou limités par un manque de compétences en programmation. Vous concevez un programme pour chercher les corrélations de chaque jeu de données avec tous les autres jeux de données de l’entreprise, ainsi qu’avec des données externes, des informations publiques et d’autres encore. Bien sûr, vous espérez trouver cet élément de magie prédictive, une recette secrète pour les opérations boursières qui générerait un puits de liquidités. Statisticien naissant, vous décidez sur un intervalle de confiance de 95% ou selon une marge d’erreur de 5%. Eureka ! Vous avez découvert tellement de nouvelles variables de prédiction, que peut-être vous avez trouvé que l’index des prix de la consommation trimestriel est un indicateur presque parfait du cours actuel de l’acier américain.

Vous considérez que votre nouvelle formule de prévisions des prix de l’acier américain est à 95% précis. Grosse erreur : Sans trop entrer dans la technique, ce chiffre de 95% signifie que 19 fois sur 20 lorsque vous trouvez une corrélation, le résultat est « juste », et 1 fois sur 20 (5%) c’est un faux positif. Lorsque vous faîtes des centaines de tests de corrélation, vous obtenez potentiellement des dizaines de faux positifs. C’est pourquoi les physiciens des particules du Grand Collisionneur de Hadrons (LCH) du CERN à la recherche du Boson de Higgs, qui utilisent une technique nécessitant un nombre extraordinaire de tests, ont choisi d’utiliser le niveau de certitude Sigma 7. Au niveau Sigma 7, il n’y a que 0,0000000001% de chance qu’un test donné soit le fruit du hasard.

Où cela nous mène-t-il ?

Tout d’abord, je ne critique pas la recherche exploratoire. De tels travaux sont importants et à la base de la plupart des grandes découvertes dans l’histoire de l’humanité. Je dis simplement que sans bien connaître vos outils et méthodes, vous êtes voué à faire de simples erreurs, de nombreux outils d’exploration des données vous permettant aujourd’hui de faire le gros du travail sans savoir vraiment ce que vous faites. Si votre entreprise est si avantgardiste que de nouvelles idées sont immédiatement mises en oeuvre, soyez vigilants ! Vous vous exposez à tomber dans ces pièges ou bien d’autres de la jungle du Big Data. Vous pouvez éviter tous ces problèmes en impliquant dans la discussion des experts de l’intégration des Big Data, des statisticiens spécialistes du marché, et du personnel opérationnel. J’encouragerais également tous ceux qui réfléchissent à se lancer dans les Big Data à s’initier au préalable à la science des données.

iTPro.fr iTPro.fr - La rédaction
Le comité éditorial du site iTPro.fr est composé de journalistes informatiques, experts et contributeurs spécialistes des services, solutions et technologies informatiques d’entreprise.
 
Sur iTPro.fr, nous vous aidons à tirer le meilleur profit de vos environnements IT. Découvrez les analyses, les chroniques et plus de 4280 dossiers experts , profitez d’un savoir technologique unique et de ressources stratégiques exclusives pour vous accompagner dans le choix, la gestion et l’optimisation de vos environnements IT Professionnels. Bénéficiez d’une richesse éditoriale incomparable et vivez toute l’actualité IT professionnelle sur twitter avec #iTProFR
 

Ressources Informatiques

Comment répondre aux défis de la compromission d’identité ? La mobilité, la consumérisation et le BYOD impliquent de nouveaux défis de sécurité pour les directions IT. Découvrez comment sécuriser les accès…
   RSA | 4 pages
Découvrez le livre blanc
Les enjeux de l’authentification forte pour la sécurité du SI La mobilité, la consumérisation et le BYOD impliquent de nouveaux défis de sécurité pour les directions IT. Découvrez comment sécuriser les accès…
   RSA | 2 pages
Découvrez le livre blanc
SMART DSI : la nouvelle revue du décideur IT Conseil et expertise IT, bénéficiez des analyses, des chroniques et des dossiers de la nouvelle revue informatique SMART DSI pour conduire la transformation…
   SMART DSI | 52 pages
Découvrez la revue SMART DSI
Libérez le Big Data et le Machine Learning Nous sommes à la veille d'un changement spectaculaire où les machines seront capables de dépasser les êtres humains dans leur capacité à prendre…
   Comsoft | 12 pages
Découvrez l’article technique
BYOD : Guide des meilleures pratiques en entreprise Smartphones, tablettes, PC ultra-mobiles ont libéré les utilisateurs et transformé les interactions entre les collaborateurs. Encore faut-il que l’entre¬prise…
   HPE Aruba | 4 pages
Découvrez votre Guide de Stratégie Mobile
Optimiser la consommation énergétique du data center La gestion et la supervision des infrastructures IT n’ira qu’en s’aggravant tant que les entreprises n’adopteront pas une vraie gestion dynamique…
   Top 5 Décideur IT | 4 pages
Découvrez votre livre blanc
 

Informatique ProfessionnelleActualités, chroniques et dossiers IT experts

Arnaud Alcabez Arnaud Alcabez Directeur Technique - ABC Systèmes

Fabrice Barbin Fabrice Barbin Microsoft MVP

Cédric Bravo Cédric Bravo Co-président du Guvirt

Vidéos Informatiques

Comment mettre en place une stratégie mobile performante ?Smartphones, tablettes, PC ultra-mobiles ont libéré les utilisateurs et transformé…Par Itpro

Hyperconvergence réussie avec les solutions Dell VxRaill'hyperconvergence intéresse et séduit les DSI par son approche intégrée et…Par Itpro

Windows 10 Professionnel : 5 Innovations pour les CollaborateursRépondre aux enjeux de mobilité des utilisateurs est un besoin réel, centré…Par Itpro

Répondre aux défis de l'hyper convergence ?Découvrez en vidéo motion les 5 atouts majeurs du partenariat DELL EMC et Misco-inmac…Par Itpro

Les Assises de la Sécurité 2015 : Yves Rochereau - Check PointCheck Point est une société spécialisée dans l'univers de la sécurité informatique…Par Itpro

Conseil & Expertise IT

Bénéficiez des analyses, des chroniques et des dossiers
de la nouvelle revue informatique SMART DSI pour conduire
la transformation numérique de votre entreprise.

Abonnez-vous à la revue SMART DSI