Cloud Innovation Partners décrypte les fuites de données

Cloud Innovation Partners (CIP) est une ESN, créée en Angleterre en 2016 par Khalid Boujdaa. En raison du Brexit puis la Covid, son fondateur revient en France et lance CIP en région Toulousaine en 2022. Projets de transformation autour de la data, solutions en mode SaaS, défis complexes de Big Data, AI/ML, Analytics, IoT …

Cloud Innovation Partners en quelques mots ?

Cloud Innovation Partners,CIP est spécialisée dans la gestion des projets de transformation autour de la data. Le développement de la solution CloudTDMS a commencé au sein de CIP « Cloud Innovation Partners » en 2019 comme un accélérateur des projets internes, principalement pour automatiser la création de données synthétiques pour des défis complexes de Big Data, AI/ML, Analytics ou IoT. Compte tenu de la nature répétitive de la gestion de données de test et du manque d’outils abordables, CIP a décidé de tirer parti de ses compétences en développement Cloud et de créer une solution Cloud simple et abordable en mode SaaS. Après deux années de développement et 5 mois de « beta testing», CloudTDMS est officiellement en ligne depuis juillet 2022.

*Khalid Boujdaa – Cloud Innovation Partners*

Quelles sont les valeurs qui animent CIP ?

Les valeurs qui animent Cloud Innovation Partners peuvent être résumées autour de 4 points :

Vision : Nous créons un environnement positif où les personnes passionnées peuvent exercer leur talent et être responsabilisées et soutenues pour exceller dans leurs domaines respectifs.
Mission : Nous contribuons aux innovations en créant des solutions en mode SaaS accessibles à tous.
Valeurs : Nous restons connectés avec nos clients pour nous assurer que nous fournissons des solutions utiles.
3 Pays : Nous opérons dans 3 pays (France, Royaume-Uni et Inde).

Revenons sur la notion de fuite de données. Qu’est-ce qu’une fuite de données ? Quelles sont les raisons connues des fuites de données ?

Une fuite de données est un transfert de données non autorisé d’une organisation vers un tiers. Cela peut se produire de plusieurs manières, telles qu’un email, ou un accès physique non autorisé à des périphériques via des stockages dans le cloud, des ordinateurs portables ou des clés USB, …

Les fuites de données peuvent se produire de plusieurs manières, internes ou externes, à l’exemple de ce qui suit :

Interne :
- Piratage interne : en cas de divulgation délibérée des données par un employé ou un sous-traitant pour son profit personnel ou pour nuire à la réputation de l’entreprise.
- Publication accidentelle : lorsque des données sont publiées involontairement. A l’exemple d’un employé ou un sous-traitant commettant une erreur de sécurité comme l’envoi d’un e-mail contenant des informations confidentielles aux mauvais destinataires ou publier publiquement des données privées.
Externe :
- Piratage externe : un hacker ciblant l’infrastructure informatique d’une entreprise puis en dérobe les données.
- Vol : vol physique d’un ordinateur portable ou une clef USB.
Mixte interne et externe :
- Non-respect des procédures de sécurité : une fuite de données peut également se produire lorsque des personnes ne suivent pas les procédures de sécurité appropriées. A l’exemple d’un employé qui imprime des informations sensibles et les laisse en public.
- Mauvaise configuration des réseaux ou systèmes : survient dans le cas d’un individu ou de la direction informatique qui ne configure pas correctement les réseaux ou systèmes, ce qui peut exposer des données. A l’exemple d’une base de données d’un site web insuffisamment protégée, des pirates peuvent y accéder.
- Sécurité insuffisante des réseaux et systèmes : en adoptant une sécurité traditionnelle, une fois que le hacker passe le barrage du firewall/VPN il a accès à tous les systèmes informatiques de l’organisation.

En résumé, les fuites de données se produisent le plus souvent d’une façon interne ou accidentelle. Les violations de données ouvrent une boîte de pandore de risques pour les entreprises tels que les augmentations de frais d’assurance, les poursuites judiciaires, les amendes réglementaires ou encore l’embarras avec les médias.

Analysons quelques fuites de données ?

En juillet 2022, Razer poursuit Capgemini pour une fuite de données : l’erreur à 10 millions de dollars ! Capgemini se voit poursuivi par Razer à cause d’un ancien employé de l’entreprise française qui a avoué être à l’origine de la faille de sécurité ayant provoqué une faille de sécurité en 2020, entraînant une fuite de ses données confidentielles sur ses clients et ses ventes.

En décembre 2021, la CNIL annonce la sanction de 180 000 euros à l’encontre de la société SLIMPAY pour Violation de données concernant environ 12 millions de personnes. Courant 2015, SLIMPAY effectue un projet de recherche interne, lors duquel elle utilise les données personnelles contenues dans ses bases de données. Lorsque le projet de recherche se termine en juillet 2016, les données restent stockées sur un serveur, qui ne fait pas l’objet d’une procédure de sécurité particulière et qui était librement accessible depuis Internet. Ce n’est qu’en février 2020 que la société SLIMPAY s’aperçoit de la violation de données, qui a concerné environ 12 millions de personnes.

En juillet 2022, la base de données de la police de Shanghai est à vendre sur le dark web, ceci pourrait être la plus grande violation de données jamais enregistrée en Chine. La Chine compte environ 1,4 milliard d’habitants, ce qui signifie que la violation de données pourrait potentiellement toucher plus de 70 % de la population chinoise. En effet, des hackers inconnus ont affirmé avoir volé les données de près d’un milliard de résidents chinois après avoir piraté une base de données de la police de Shanghai. Ils vendent plus de 33 téraoctets de données volées pour 10 bitcoins (soit environ 200 000 US$). La base de données comprend les noms, adresses, lieux de naissance, numéros de CIN, et de téléphone ainsi que des informations juridiques. Les Hackers ont affirmé que la base de données était hébergée sur le Cloud et accessible sans aucune protection.

En août 2022, deuxième fuite massive de données en 2 mois ! Les données de 800 millions de chinois exposées, Une énorme base de données chinoise stockant plus de 800 millions de visages et de plaques d’immatriculation de véhicules a été laissée exposée sur Internet pendant des mois avant de disparaître tranquillement en août. Cet incident est le deuxième après une fuite massive de données d’un milliard d’enregistrements dans une base de données de la police de Shanghai en juin. Dans les deux cas, les données ont probablement été exposées par inadvertance et à la suite d’une erreur humaine.

Si des bases de données très sensibles ont été stockées dans le Cloud sans mesures de sécurité appropriées, cela est probablement dû au fait que des données réelles ont été utilisées pour des projets de données en cours tels que la formation d’un nouveau modèle AI/ML ou un projet big data ou Analytics.

Les experts en cybersécurité affirment qu’il n’est pas rare de trouver des bases de données ouvertes au public. Les PII (Personal Identifiable Information) non sécurisées, exposées par des fuites, des violations ou une forme d’incompétence, sont un problème de plus en plus courant auquel sont confrontés les entreprises et les gouvernements du monde entier.

Quelles sont les raisons des fuites de données ?

La cause ignorée de nombreuses fuites de données est bien évidente dans plusieurs cas : la sauvegarde locale et le partage des données réelles (de production) avec les partenaires informatiques, développeurs et testeurs pour l’avancement des projets en cours. Avec de plus en plus de travail à distance ainsi que la collaboration avec les partenaires informatiques onshore et offshore, les violations de données vont se produire plus fréquemment que jamais, aucune entreprise ne peut affirmer que cela ne lui arrivera pas !

En effet, le partage des données réelles est l’option la plus simple pour tous les membres de l’équipe d’un projet data mais c’est aussi l’option la plus dangereuse. Or ce n’est pas la seule option non plus!

Certaines entreprises pensent que le cryptage des données de production résoudra le problème, mais le diable est dans les détails ! Puisqu’il est tout simplement impossible de chiffrer tous les systèmes et toutes les données à tout moment, les données étant déchiffrées d’une manière ou d’une autre pendant le traitement des workflows (backend), il est également impossible de prouver que la sécurité du chiffrement fonctionne à tout moment. Ainsi, le chiffrement donne un faux sentiment de sécurité.

De ce fait, plusieurs entreprises ne respectent pas entièrement les politiques de confidentialité des données puisque les fichiers contenant les données sensibles sont toujours au cœur du business ainsi que l’accès à tout ou partie des données de production par les salaries et partenaires, y compris les équipes de développement et de test. Elles risquent des pénalités RGPD allant de 2 % du chiffre d’affaires annuel ou 10 millions d’euros, selon le montant le plus élevé, à 4 % ou 20 millions d’euros, selon la gravité de la violation.

Quelques recommandations à partager pour éviter les fuites de données ?

Gartner prévoit que, d’ici 2024, 60 % des données utilisées pour le développement de projets d’IA et d’Analytics seront générées de manière synthétique.

Un conseil important de CloudTDMS.com, pour tout projet informatique en cours de développement : NE JAMAIS partager les données réelles avec les équipes projets, et cela même dans des cas aussi exceptionnels que la demande urgente d’un tableau de bord par le CEO de l’entreprise ou le besoin bloquant d’une équipe projet de données réelles pour la formation d’un nouveau modèle IA/ML, ou encore lors des phases dev/test d’un projet critique de big data.

Les organisation doivent rejoindre la nouvelle ère des données synthétiques (réalistes) ! Le nouveau carburant des Projets Data.

En d’autres termes, n’importe quelle entreprise peut rendre les données de test synthétiques/réalistes sans les extraire des plateformes de production !

Smart DSI N°27