> Data > Hadoop (MapReduce) sur Azure et On Premises

Hadoop (MapReduce) sur Azure et On Premises

Data - Par Laurent Marzouk - Publié le 20 novembre 2012
email

Le projet Hadoop est une plate-forme logicielle en Java, développée par la fondation Apache, permettant de développer des applications capables de manipuler de grandes quantités de données.

Hadoop (MapReduce) sur Azure et On Premises

Il est constitué des principaux éléments suivants :

•    HDFS (Hadoop Distributed File System), un système de fichier distribué qui gère le stockage, la répartition et l’accès aux données au sein d’un cluster de serveurs Hadoop ;
•    MapReduce, un algorithme chargé de traiter de grandes quantités de données stockées de manière distribuée ;
•    Hive, un système de Data Warehouse permettant de mapper une structure sur les données hébergées sur Hadoop afin de faciliter leur manipulation (calculs d’agrégations, analyse et requêtes ad-hoc…)
•    Diverses applications, développées par la fondation Apache afin de gérées les données stockées HDFS. On peut notamment citer Pig, Sqoop, HBase…

Son principe est de répartir les données à analyser sur une grande quantité de nœuds (serveurs) formant un cluster afin de tirer parti de la puissance de traitement cumulée de ces serveurs et ainsi pouvoir traiter les données aussi rapidement que possible.

Le principe corollaire est de rapprocher les données à analyser de la puissance CPU disponible sur chaque serveur (en d’autres termes, chaque serveur traite uniquement les données qui sont stockées sur son sous-système disque), afin d’éviter la latence induite par des accès à distance aux données (via le réseau) depuis les serveurs.

La mise en place de ce type de solution permet de traiter un grand volume de données (structurées mais aussi et surtout semi-structurées et non structurées) en s’appuyant sur un algorithme assez simple (MapReduce) constitué de deux phases : dans la première phase (Map), des tuples (clefs/valeurs) sont créés, dans la seconde phase (Reduce), les valeurs d’une même clef sont cumulées, Hadoop s’occupant de faire arriver les mêmes tuples pour une même clef sur le même nœud pour la phase Reduce.

Microsoft a embrassé le mouvement Hadoop il y a plus d’un an, en annonçant lors de la conférence SQL PASS d’octobre 2011, la mise à disposition d’une distribution Hadoop optimisée pour Windows Azure et Windows Server en partenariat avec la société HortonWorks, une filiale de Yahoo spécialisée dans l’utilisation et le développement de Hadoop.

La distribution Hadoop pour Azure de Microsoft est disponible en préversion (CTP) depuis quelques mois déjà, la version définitive de cette distribution ainsi qu’une distribution pour les plates-formes Windows Server étant prévue pour 2012, ce qui permettra aux entreprises qui le souhaitent de déployer leurs clusters Hadoop sur environnement Windows en interne.

Les avantages de la distribution Hadoop Microsoft

Déployer Hadoop sur Windows Azure permet de profiter de l’élasticité, la puissance de traitements distribués et des coûts bas du Cloud public de Microsoft, et de bénéficier de nombreux autres avantages liés aux optimisations apportées à ces distributions, notamment des performances optimisées pour les environnements Windows, une sécurité améliorée du système de fichier HDFS, une compatibilité native avec Active Directory et la suite System Center qui permet d’appliquer les règles de gouvernance en matière de sécurité (authentification, durcissement via GPO) aux serveurs des clusters Hadoop et de les superviser au même titre que des serveurs classiques. L’interopérabilité de ces distributions avec les solutions décisionnelles de Microsoft est également de la partie, grâce à la disponibilité de connecteurs Hadoop pour les plates-formes SMP (SQL Server et SQL Server Fast Track, Analysis Services Multidim et Tabulaires) et MPP (SQL Server PDW), qui permettent aux développeurs de déplacer aisément des données entre ces deux types de plates-formes.

Ces distributions Hadoop pour Azure et Windows Server sont compatibles avec les principaux outils BI de Microsoft dont PowerPivot, PowerView, Reporting Services ou Excel via un connecteur ODBC Hive également disponible.

Enfin, un avantage complémentaire (en non des moindres) tient à la flexibilité et au choix des architectures qu’il est possible de mettre en œuvre. La distribution Hadoop de Microsoft est compatible Windows Azure et Windows Server (disponible d’ici quelques mois), ce qui offre le choix d’héberger ses données en interne ou sur le Cloud (en fonction de la criticité des données), et d’envisager la mise en œuvre de clusters Hadoop hybrides (i.e. dont les nœuds sont répartis en interne et sur le Cloud afin d’absorber les pics de charge occasionnels).

Enfin, ces distributions sont parfaitement compatibles avec les outils Hadoop existants tels que Pig, Hive et Java, ce qui permet d’envisager la migration des applications développées sur Apache Hadoop vers la distribution Hadoop de Microsoft, sur Windows Azure ou Windows Server afin de bénéficier des avantages évoqués ci-dessus.

Téléchargez gratuitement cette ressource

TOP 5 Sécurité du Télétravail

TOP 5 Sécurité du Télétravail

Avec le recours généralisé au télétravail, les entreprises ont ouvert davantage leur SI. En dépit des précautions prises, elles ont mécaniquement élargi leur surface d’exposition aux risques. Découvrez 5 axes à ne pas négliger dans ce Top 5 Sécurité du Télétravail.

Data - Par Laurent Marzouk - Publié le 20 novembre 2012