> Data > L’avènement du Machine Learning Engineer(ing)

L’avènement du Machine Learning Engineer(ing)

Data - Par iTPro.fr - Publié le 29 octobre 2018

Big Data, Data Science, Machine Learning, Deep Learning, algorithmes prédictifs… Cela fait maintenant plusieurs années que ces termes sont entrés dans le monde de l'entreprise. Youen Chéné, CTO de Saagie nous livre son expertise sur le sujet

L’avènement du Machine Learning Engineer(ing)

Machine Learning Engineer(ing)

Pour pouvoir exploiter ces nouvelles technologies, de nombreuses entreprises ont mis en place un Data Lab. Néanmoins, 80% des projets Big data ou IA n’atteignent pas la mise en production. Le Machine Learning Engineering est à ce titre une solution potentielle pour remédier à ce problème. Pour comprendre de quoi il s’agit il faut d’abord s’intéresser à l’article d’O’Reilly qui décrit les rôles des Data Scientists et Data Engineers et en quoi le Machine Learning Engineer pourrait être le chainon manquant à la réussite des projets.

Quelle différence entre Data Scientist et le Data Engineer ?

Pourquoi les différencier justement ? Car de nombreuses entreprises demandent à des Data Engineers de faire de la Data Science et à des Data Scientists de gérer des infrastructures. Cela peut en effet conduire à l’échec d’un projet, en plus de créer des tensions et frustrations au sein des équipes. Il est donc primordial d’identifier les rôles de chacun, leurs capacités et ainsi adapter leurs missions.

Le Data Scientist

Il a généralement une formation en mathématiques et statistiques (parfois même en physique). Au-delà, il fait de l’Analytics et pour aller encore plus loin, il crée des algorithmes d’intelligence artificielle, le plus souvent de Machine Learning.

Il fait parler les données. Il se charge de les recouper, puis d’en fournir une interprétation claire. En cela, le Data Scientist porte bien son nom : c’est un métier proche de celui du chercheur, mais pourtant bien ancré dans l’entreprise.
Tout comme son homologue ingénieur, il doit être en contact avec les métiers, côté business. Dans le cadre de son travail il doit leur apporter des analyses et doit donc être familier avec l’entreprise, ce qu’elle fait et les enjeux économiques des résultats qu’il délivre. Ces résultats doivent d’ailleurs être compréhensibles et adaptés aux métiers pour les aider dans leur prise de décision.

Une particularité que l’on retrouve chez bon nombre de Data Scientists est qu’ils ont appris à programmer par nécessité, afin de faire des analyses poussées ou pour surmonter un problème. Leur niveau n’est pas celui d’un programmeur ou d’un Data Engineer, ce qui est finalement logique puisqu’ils n’ont pas le même besoin.

Le Data Engineer

Il a une formation en programmation, le plus souvent en Java, Scala ou Python. Il est généralement spécialisé en systèmes distribués et Big Data.

Il est responsable de la création et de la maintenance de l’infrastructure analytique qui permet presque à toutes les autres fonctions de tourner dans le monde des données. Il s’occupe du développement, de la construction, de la maintenance et du test des architectures, telles que les bases de données et les systèmes de traitement Big Data mais donc aussi de la création de processus de modélisation des jeux de données sur l’exploration, l’acquisition et la vérification de ces derniers.

Plus concrètement, grâce à sa formation, il crée ce qu’on appelle des data pipelines. Et si cela peut sembler simple en le disant, il s’agit en fait, à l’échelle du Big Data, de faire fonctionner des dizaines de technologies ensemble. C’est d’ailleurs le Data Engineer qui choisit les technologies les plus adaptées, il se doit donc d’en avoir une connaissance accrue.

Ce qui les rapproche

Comparaison des compétences des Data Scientists et Data Engineers / Jesse Anderson – Big Data Institute

L’analyse

Les deux profils peuvent faire de l’analyse de données, même si le niveau de compétences du Data Scientist n’est pas le même que celui du Data Engineer. Le premier pourra réaliser des analyses très poussées quand le second maîtrise les analyses basiques jusqu’à intermédiaires.

Les deux se rejoignent aussi sur la programmation. Mais ici encore, à deux niveaux bien différents, et c’est le Data Engineer qui prend l’avantage sur ce terrain. Quand construire un data pipeline est la base du travail du Data Engineer, c’est en revanche bien au-dessus des compétences du Data Scientist. C’est aussi en cela que les deux profils se complètent, le travail de l’un supportant celui de l’autre.
Pour finir, le point commun à côté duquel on ne peut passer est le Big Data bien sûr. Les Data Engineers mettent à profit leur compétences de programmation pour créer des pipelines Big Data. Ces pipelines servent ensuite à supporter le travail du Data Scientist qui utilise, quant à lui, ses compétences mathématiques et statistiques pour créer des produits data, concevoir des modèles et dégager des tendances. Il est donc indispensable de connaître les points forts et les limites des deux profils afin de répondre aux attentes de tous.

Téléchargez cette ressource

Guide de Cyber-résilience pour Microsoft 365

Guide de Cyber-résilience pour Microsoft 365

La violation de votre tenant M365 va au-delà d’un simple incident de cybersécurité. Elle peut entraîner une interruption opérationnelle généralisée, des perturbations commerciales et une exposition de vos données sensibles. Découvrez les méthodes et technologies pour évaluer, comparer et renforcer votre posture de sécurité Microsoft 365.

Les plus consultés sur iTPro.fr

A lire aussi sur le site

À la une de la chaîne Data