> Data > Le mariage de l’intégration streaming et batch ouvre de nouvelles perspectives

Le mariage de l’intégration streaming et batch ouvre de nouvelles perspectives

Data - Par Yann Delacourt - Publié le 02 juillet 2015
email

Les plates-formes Hadoop de traitement des Big Data offrent deux modes d’intégration qui répondent à des cas d’usage distincts, mais sont de plus en plus utilisés de façon complémentaire.

Le mariage de l’intégration streaming et batch ouvre de nouvelles perspectives

Le mode « batch » ou « asynchrone » permet de programmer des traitements qui sont généralement réalisés la nuit. Les principaux avantages de ce mode consistent à traiter d’énormes quantités de données et à répondre à la plupart des besoins analytiques traditionnels des entreprises (pilotage d’activités, connaissance client et marketing, aide à la décision, etc.).

Cependant, l’une des limites des traitements batch réside dans le délai de latence qui interdit toute intégration en temps réel. Le problème est sensible pour certaines entreprises qui ont besoin de cette instantanéité pour répondre aux besoins de leurs clients, par exemple :
–    pour recommander des produits à un internaute en train de réaliser un achat (comme pour Amazon),
–    pour afficher sur un site web une publicité ciblant un internaute particulier en quelques millisecondes,
–    pour tenir compte instantanément de la variabilité de certains éléments afin d’améliorer les prises de décision (conditions météorologiques ou de circulation par exemple),
–    ou encore pour la détection de fraudes.

Dans l’écosystème Hadoop, une nouvelle solution vient répondre à cette problématique : Spark. Développé par la Fondation Apache, Spark offre un mode d’intégration synchrone (en quasi temps réel) que l’on nomme également « streaming ». Ce moteur de calcule en mémoire est particulièrement bien adapté au traitement rapide de gros volumes de données et offre les mêmes fonctions que le modèle MapReduce, mais avec des performances bien supérieures. Il permet notamment de prendre en charge à la fois l’acquisition et le traitement des données, tout en offrant une rapidité de traitement de 50 à 100 fois supérieures à celles de MapReduce.

Les entreprises recherchent de plus en plus ces deux modes d’intégration permettant de passer de l’un à l’autre de façon transparente et préfèrent éviter des solutions nécessitant un développement total de la couche intégration de données. Elles recherchent aujourd’hui, compte tenu des problématiques métier à relever, une solution qui simplifie le développement du traitement des données et qui gère l’ensemble de son cycle de vie (actualisation, modification, réutilisation). Devant la complexité accrue de l’offre technologique liée aux Big Data, de nouvelles solutions ont vu le jour pour répondre aux problématiques actuelles des entreprise ; elles supportent l’ensemble des distributions Hadoop du marché (et surtout les toutes dernières versions), tout en masquant leur complexité, via des API de haut niveaux. Spark apporte en outre de nouvelles fonctions qui, dans le cadre d’activités en temps réel, offrent de nouvelles possibilités aux entreprises.

C’est par exemple le cas du support des fonctions de « machine learning » présentent dans Spark nativement. Le principal avantage du machine learning est d’améliorer les traitements sur la base d’un apprentissage. On peut ainsi imaginer de mélanger des traitements batch et en streaming pour répondre aux besoins des entreprises d’aujourd’hui : il est possible de monter une chaine de traitement de données tirant parti des chiffres de vente de la semaine (batch) pour développer des fonctions prédictives alimentées par ces informations et accélérer la prise de décision en streaming afin de ne pas manquer les opportunités qui se présente en temps réel :
–    les sites de e-commerce ou le marketing peuvent combiner des données historiques avec, par exemple, des informations particulièrement fraiches issues des réseaux sociaux pour disposer d’une vision optimisée du client ;
–    une banque peut constituer un « Data Lake » regroupant l’ensemble des données de marché (internes et externes), sans limite de volume, pour développer un programme prédictif via l’intégration de données d’autres types ;
–    dans l’industrie, l’extraction d’informations pertinentes d’immenses volumes de données est possible, pour pouvoir envisager plusieurs scénarios (maintenance prédictive).

Tous les secteurs d’activité sont concernés, de l’agriculture à la grande distribution, des services au numérique, de l’industrie au secteur public, etc. Aujourd’hui, les règles du jeu ont changé et c’est le client qui a pris le pouvoir. Pour demeurer compétitives, les entreprises doivent faire preuve d’agilité et de flexibilité pour accélérer la prise de décision. Avec ce nouveau type d’outils, de nouveaux horizons analytiques s’ouvrent aux entreprises et vont les aider à s’adapter plus précisément à la réalité de leurs activités et faire la différence par rapport à leurs compétiteurs.

Téléchargez gratuitement cette ressource

5 clés de supervision Multi Cloud

5 clés de supervision Multi Cloud

A l’heure du Software Defined Everything (SDx) la conception et l’exploitation de logiciels sont plus complexes que jamais, ce nouvel eBook décrit les éléments clés à prendre en compte lors de la transition vers les technologies, les plates-formes et les éléments logiciels modernes afin de tirer tout le potentiel des solutions Multi cloud d'entreprise.

Data - Par Yann Delacourt - Publié le 02 juillet 2015

A lire aussi sur le site

Revue Smart DSI

La Revue du Décideur IT