Loading

Les pièges du Big Data : Le Data Scientist amateur

Nous connaissons le potentiel du Big Data pour détecter les fraudes dans les services financiers.

Lançons-nous dans cet exercice d'analyse et recueillons quelques conseils de Sébastien Cognet, ingénieur EMEA Pentaho, bien utiles pour éviter les pièges. Traquer les commerçants malhonnêtes, vendre des services supplémentaires… la liste est sans fin. En fonction de la personne à qui vous parlez, le Big Data est quelque chose d’essentiel pour libérer une prospérité illimitée ou bien une solution pour rechercher un problème.

Notre miraculeuse aptitude à détecter les tendances 

La prolifération des outils « d’exploration » des Big Data m’inquiète. Non pas que je n’aime pas la technologie ; je pense qu’elle est incroyable. Les visualisations sont esthétiques et impressionnantes. La performance est attrayante, l’aptitude à « faire de la science des données » est solide, et pourtant l’approche est souvent mauvaise. Le défi des outils d’exploration visuelle des données est celui-ci : nous les humains sommes doués pour détecter les formes. Nous reconnaissons les amis de dos, mais nous prenons également parfois des vessies pour des lanternes.

En d’autres mots, nous voyons parfois des choses qui simplement ne sont pas là. Cependant, les modèles numériques complexes et multidimensionnels sont bien au-delà de notre capacité à capter visuellement les connaissances. Il est difficile de décrire visuellement plus de quatre dimensions ou variables d’un point de données (coordonnées X, Y, Z + couleur + dégradé de couleurs). Les humains sont également limités dans le nombre de points de données qu’ils peuvent traiter en une seule fois. Pour ces raisons, l’humanité a développé des outils solides de mathématiques pour aider à trouver des modèles qui utilisent à la fois des méthodes déterministes et probabilistes, mais ils ne sont pas parfaits. Les outils déterministes, qui supposent que toutes les informations soient connues, échouent lorsqu’ils sont confrontés à des phénomènes complexes. Les outils probabilistes présument une mesure des « inconnues » et leur attachent des probabilités. Cependant, de tels modèles sont difficiles à utiliser et les résultats ardus à interpréter.

Gare au programmeur ou à l’analyste qui s’aventure dans le monde de la science des données !

Tous deux ont juste suffisamment de compétences pour être dangereux. Le spécialiste en intégration des données n’est pas un data scientist et celui qui prétend être un data scientist n’est peut-être pas un statisticien qualifié. Imaginez que vous aidiez la branche commerciale d’une institution financière à développer une plateforme évolutive et hautement disponible, afin de fournir une grande variété de données massives et ultra-rapides (les 3 V du Big Data). Vos interlocuteurs veulent « faire du Big Data »! En tant que programmeur intelligent, vous pensez naturellement que les statisticiens sont paresseux ou limités par un manque de compétences en programmation. Vous concevez un programme pour chercher les corrélations de chaque jeu de données avec tous les autres jeux de données de l’entreprise, ainsi qu’avec des données externes, des informations publiques et d’autres encore. Bien sûr, vous espérez trouver cet élément de magie prédictive, une recette secrète pour les opérations boursières qui générerait un puits de liquidités. Statisticien naissant, vous décidez sur un intervalle de confiance de 95% ou selon une marge d’erreur de 5%. Eureka ! Vous avez découvert tellement de nouvelles variables de prédiction, que peut-être vous avez trouvé que l’index des prix de la consommation trimestriel est un indicateur presque parfait du cours actuel de l’acier américain.

Vous considérez que votre nouvelle formule de prévisions des prix de l’acier américain est à 95% précis. Grosse erreur : Sans trop entrer dans la technique, ce chiffre de 95% signifie que 19 fois sur 20 lorsque vous trouvez une corrélation, le résultat est « juste », et 1 fois sur 20 (5%) c’est un faux positif. Lorsque vous faîtes des centaines de tests de corrélation, vous obtenez potentiellement des dizaines de faux positifs. C’est pourquoi les physiciens des particules du Grand Collisionneur de Hadrons (LCH) du CERN à la recherche du Boson de Higgs, qui utilisent une technique nécessitant un nombre extraordinaire de tests, ont choisi d’utiliser le niveau de certitude Sigma 7. Au niveau Sigma 7, il n’y a que 0,0000000001% de chance qu’un test donné soit le fruit du hasard.

Où cela nous mène-t-il ?

Tout d’abord, je ne critique pas la recherche exploratoire. De tels travaux sont importants et à la base de la plupart des grandes découvertes dans l’histoire de l’humanité. Je dis simplement que sans bien connaître vos outils et méthodes, vous êtes voué à faire de simples erreurs, de nombreux outils d’exploration des données vous permettant aujourd’hui de faire le gros du travail sans savoir vraiment ce que vous faites. Si votre entreprise est si avantgardiste que de nouvelles idées sont immédiatement mises en oeuvre, soyez vigilants ! Vous vous exposez à tomber dans ces pièges ou bien d’autres de la jungle du Big Data. Vous pouvez éviter tous ces problèmes en impliquant dans la discussion des experts de l’intégration des Big Data, des statisticiens spécialistes du marché, et du personnel opérationnel. J’encouragerais également tous ceux qui réfléchissent à se lancer dans les Big Data à s’initier au préalable à la science des données.

iTPro.fr iTPro.fr - La rédaction
Le comité éditorial du site iTPro.fr est composé de journalistes informatiques, experts et contributeurs spécialistes des services, solutions et technologies informatiques d’entreprise.
 
Sur iTPro.fr, nous vous aidons à tirer le meilleur profit de vos environnements IT. Découvrez les analyses, les chroniques et plus de 4280 dossiers experts , profitez d’un savoir technologique unique et de ressources stratégiques exclusives pour vous accompagner dans le choix, la gestion et l’optimisation de vos environnements IT Professionnels. Bénéficiez d’une richesse éditoriale incomparable et vivez toute l’actualité IT professionnelle sur twitter avec #iTProFR
 

Ressources Informatiques

1er Guide de sécurité Byod, Mobile et Cloud en entreprise Cloud et Mobilité ont fait exploser l'ancestrale sécurité périmétrique qui protégeait les infrastructures. Parallèlement, l'ingéniosité, la complexité…
   Smart DSI | 4 pages
Découvrez les 5 meilleures pratiques en entreprise
Comment optimiser la gestion d‘énergie des serveurs virtualisés ? Si la virtualisation et les infrastructures convergées mettent à la disposition des responsables IT des outils puissants, elles font naître des défis…
   EATON | 4 pages
Découvrez le livre blanc
10 manières de vous protéger contre les Ransomwares Les ransomwares utilisent des modèles cryptographiques non conventionnels tels que Tor ou des algorithmes de chiffrement courants qui rendent impossible…
   Comsoft | 8 pages
Découvrez le livre blanc
Rapport IDC sur la gestion de Cloud hybride Dans un environnement informatique hybride complexe, la gestion des opérations peut nécessiter l'utilisation de plusieurs outils de gestion et la mise…
   IDC - Red Hat | 8 pages
Découvrez le Guide IDC
Comment garantir la sécurité de vos flux documentaires ? Ce livre blanc explique comment le format PDF et la solution Power PDF de Nuance permettent de mettre en place, rapidement, efficacement et à moindre…
   Guide Nuance | 28 pages
Garantissez l'intégrité et la sécurité de vos documents
5 étapes pour optimiser la gestion d’énergie des infrastructures IT La gestion et la supervision des infrastructures IT n’ira qu’en s’aggravant tant que les entreprises n’adopteront pas une vraie gestion dynamique…
   Top 5 Décideur IT | 4 pages
Découvrez votre livre blanc
 

Informatique ProfessionnelleActualités, chroniques et dossiers IT experts

David Pekmez David Pekmez MVP Exchange Server

Jean-François Apréa Jean-François Apréa Consultant Infrastructures

Loïc Duval Loïc Duval Spécialiste systèmes d'exploitation

Vidéos Informatiques

Répondre aux défis de l'hyper convergence ?Découvrez en vidéo motion les 5 atouts majeurs du partenariat DELL EMC et Misco-inmac…Par Itpro

Les Assises de la Sécurité 2015 : Yves Rochereau - Check PointCheck Point est une société spécialisée dans l'univers de la sécurité informatique…Par Itpro

Les Assises de la Sécurité 2015: Loïc Guezo - Trend MicroTout comme les entreprises, les administrations publiques qui englobent les Opérateurs…Par Itpro

Les Assises de la Sécurité 2015: Jean Noel de Galzain WallixA la tête d'une entreprise florissante, Wallix, Jean-Noël de Galzain est aussi…Par Itpro

Les Assises de la Sécurité 2015 : Jérôme Robert - LexsiEn quoi consiste cette nouvelle tendance de « Threat Intelligence », Jérôme…Par Itpro

Conseil & Expertise IT

Bénéficiez des analyses, des chroniques et des dossiers
de la nouvelle revue informatique SMART DSI pour conduire
la transformation numérique de votre entreprise.

Abonnez-vous à la revue SMART DSI