> Data > Criteo : le datacenter mode Hadoop

Criteo : le datacenter mode Hadoop

Data - Par Tristan Karache - Publié le 25 juin 2015
email

Le spécialiste du marketing et de l’affichage de publicité sur la toile inaugure son deuxième Datacenter en France dans les bâtiments d’Equinix à Pantin.

Criteo : le datacenter mode Hadoop

 

Avec une présence dans 130 pays et plus de 7800 annonceurs et 10 000 éditeurs dans le monde, Dan Teodosiu, Vice President of Engineering explique que Criteo peut « montrer de la publicité à plus de la moitié de la population d’internet de la planète soit environ un milliard de personnes ». Avec son moteur, l’entreprise est capable d’observer le comportement des utilisateurs sur le web par le biais d’algorithmes et de machine learning afin de produire 15 millions de prédictions par seconde et 3 milliards de bannières par jour. Pour améliorer sans cesse son moteur et ses algorithmes, l’entreprise a besoin d’effectuer des dizaines d’A/B tests et de recharger régulièrement sa base de données.

Dès 2005, l’entreprise fait le choix de mettre en place ses propres infrastructures. Le cloud n’existait pas à l’époque et cela lui permet aujourd’hui de profiter d’économies d’échelle tout en gardant la maîtrise des temps de réponse et de la disponibilité des services. Criteo achète en effet le gros de ses espaces publicitaires sur le marché du RTB (Real Time Bidding) auprès de publishers comme Google, Facebook ou YouTube. Et la plateforme doit répondre à ces enchères en temps réel en moins de 100 millisecondes.

Une machine bien huilée

En 2011, l’entreprise comptait 300 serveurs. Aujourd’hui, elle en comptabilise presque 15 000 répartis dans 6 datacenters à travers le monde (New York, Silicon Valley, Amsterdam, Paris, Tokyo et Hong Kong) et opère également des POP (Point of Presence) sur les plus gros points d’échange.

Pour le site de Pantin dédié à sa plateforme Hadoop, les équipes de Critéo ont totalement dû repenser leur architecture et l’adapter. Les équipes Hosting et Réseau de la société ont travaillé plus particulièrement sur le scale-out, l’automatisation et le lock-in vendeur. Le réseau est non bloquant pour permettre à tous les serveurs de communiquer entre eux au débit maximal. Les paliers de croissance sont découpés en POD. Chaque POD est composé de 16 racks soit 320 serveurs. Pour le moment 640 serveurs ont été installés.

(((IMG7731)))

Pour l’aspect matériel, Critéo a bien pris le temps de mettre en place une grille de critères lors de l’appel d’offre et une méthodologie spécifique pour le réseau, les serveurs et le choix du datacenter (Matthieu Blumberg, Senior Engeneering Manager Infrastructure Operations explique en vidéo les différentes phases ici). Au final, Huawei a été retenu pour leurs serveurs qui fournissent 2 fois plus de puissance que les clusters Hadoop d’Amsterdam, Equinix pour la qualité des performances de ses infrastructures également et pour ne pas « s’enfermer », Juniper, Arista et Dell sont les fournisseurs de la partie réseau.

Le design de la salle a été entièrement conçu pour pallier tous les scénarios (même les plus paranoïaques) allant des doubles bandeaux d’alimentation, en passant par le câblage (double chemin de fibre optique), le corridor réseau qui demande une authentification supplémentaire ou encore la redondance des blocs d’alimentation sur les serveurs. Pour une simplification opérationnelle optimale, un guide à l’image du plan de construction d’un meuble Ikéa a même été publié pour les sous-traitants qui auront la charge de s’occuper de la maintenance et de poser les futurs éléments complémentaires de l’installation. Autre détail qui a son importance, les numéros de série des serveurs et les disques durs sont accessibles directement depuis la façade. Finalement, la paranoïa a quelque chose de sain chez Critéo…

(((IMG7732)))

Téléchargez gratuitement cette ressource

6 bonnes pratiques de protection des données

6 bonnes pratiques de protection des données

La Datasphere mondiale représente 40 Zo de données créées, dupliquées et enregistrées chaque année. La gestion et le stockage des données deviennent d’autant plus critiques que leur volumétrie ne cesse de croître. Découvrez les meilleures recommandations pour survivre dans l’univers de l’Infinite Data.

Data - Par Tristan Karache - Publié le 25 juin 2015