> Enjeux IT > Silicon Valley – Trifacta affine les données

Silicon Valley – Trifacta affine les données

Enjeux IT - Par José Diz - Publié le 07 avril 2016
email

Silicon Valley Tour – Trifacta affine les données avant analyse en mode Hadoop

Silicon Valley – Trifacta affine les données

De nombreuses start-ups se lancent sur le Big Data, réalisant de spectaculaires présentations riches en effets visuels. Ce n’est pas le cas de Trifacta, spécialisé dans la préparation interactive des données à la portée du non-informaticien.

Créée fin 2012 après une première levée de fonds de 4,3 millions de dollars, Trifacta se positionne clairement au cœur de la transformation des données avant traitement analytique. « Nous ne souhaitons concurrencer ni Tableau, ni Qlik, ni Sas… mais plutôt leur fournir des données préparées pour analyse ou visualisation/exploration, » précise Adam Wilson, CEO de Trifacta. « Trifacta est positionnée entre les données et la visualisation de façon totalement indépendante. D’ailleurs, nous souhaitons rester concentrés sur tous ces aspects de préparation des données, que nous appelons “data wrangling”. Manipulant de nombreuses sources de données hétérogènes, l’entreprise souhaite disposer d’informations propres et fiables, standardisées selon ses souhaits.»

Raffiner l’information pour lui donner plus de sens

Concrètement, Trifacta Wrangler Enterprise est installée entre les équipements de stockage (et environnements d’exécution) et les outils de visualisation, statistique ou autres processus d’analyse. L’éditeur souhaite aider les “data analysts” à réaliser les tâches de préparation des données sans avoir à écrire de code ou à utiliser des workflows complexes (découverte des schémas de données,  formatage, nettoyage, enrichissement, validation, publication). Reposant sur un cluster Hadoop, Trifacta compile (de façon transparente) ses frameworks pour les rendre exécutables sous MapReduce ou Spark (Pig auparavant).

Les informaticiens disposent d’outils de gouvernance et de sécurité des données, et peuvent faciliter encore l’accès aux sources de données. Par ailleurs, il leur est possible d’intervenir manuellement dans les requêtes ou de paramétrer des règles spécifiques pour le moteur de règles. Quant aux utilisateurs métier, ils disposent de données plus fiables et corrélées à moindre effort, et dans des délais optimaux.

Une interface réactive avec recommandations

Au fur et à mesure qu’il sélectionne ou modifie les sources de données ou leurs relations, le data analyst voit le résultat en temps réel sur la droite de l’écran. Il peut alors appliquer diverses transformations via les menus (formatage, nettoyage, etc.). Autre possibilité : dès qu’il sélectionne des mots ou des champs ou parties de graphiques, Trifacta lui recommande des actions qu’il peut simplement choisir ou ignorer. Par exemple, suite à la sélection de plusieurs lignes ou colonnes Trifacta affiche des suggestions comme “compter les occurrences”, “ totaliser”, “ effacer les valeurs”, etc. Ces recommandations sont déterminées selon le contexte grâce à des algorithmes prédictifs et du machine learning, intégrés à la solution. 

(((IMG8280)))

Une fois les sélections et transformations réalisées, le résultat peut être publié vers un outil de visualisation ou d’analyse du marché. Pour cela, soit les résultats sont exportés (divers formats : Tableau, JSon, CSV, etc.), soit une intégration peut être développée. Déjà, Trifacta propose des ponts vers SAP, Oracle, Microsoft, et beaucoup d’autres à venir dont Salesforce. De même, si une distribution Hadoop est pour le moment indispensable, l’éditeur proposera dès cet été, une version SQL pouvant adresser directement diverses bases de données.

(((IMG8282)))

Utilisable sur site ou en mode cloud ou hybride, Trifacta Wrangler Enterprise est tarifée selon le nombre de nœuds et par utilisateur. La société indique que le minimum d’investissement s’élève à 20 000 dollars par an, et la moyenne des projets tourne aux alentours de 0,5 million de dollars. Une version desktop gratuite (Wrangler) peut s’installer sous Windows ou Mac OS pour s’exercer à la préparation/transformation des informations  (Excel, Tableau, etc.). 

La start-up compte déjà plus de 100 employés, et plus de 3000 clients dont Pepsico, Sanofi, Orange, Nike, Banco de Santander, GoPro, Pfizer ou UniCredit. Depuis sa création, Trifacta a déjà levé 76,3 millions de dollars, dont 35 millions en février 2016. Après l’ouverture de bureaux à Londres et Berlin, la société devrait bientôt ouvrir une filiale en France.

Téléchargez gratuitement cette ressource

Les Nouveaux Enjeux du Stockage

Les Nouveaux Enjeux du Stockage

L’informatique est entrée dans l’ère du « Software Defined Everything », autrement dit, des infrastructures dont le pilotage est automatisé par logiciel. C’est particulièrement vrai dans le domaine du stockage, composante clé de toute infrastructure : l’informatique s’éloigne progressivement des approches monolithiques reposant sur des appliances matérielles propriétaires et des baies SAN au profit de démarches définies par le logiciel. Découvrez, dans ce guide thématique exclusif, comment répondre aux nouveaux enjeux du stockage.

Enjeux IT - Par José Diz - Publié le 07 avril 2016