« Il y a encore beaucoup trop de monde qui manipule la donnée pour la rendre intelligible », souligne Nicolas Korchia, DG et directeur des opérations d’Indexima. « Notre vision des choses, c’est que ces personnes peuvent travailler à mieux la filtrer, mais pas à la préparer pour qu’elle puisse entrer dans les outils de datavisualisation ; la valeur de l’être humain est dans la captation et l'analyse de données, pas dans la préparation entre les deux », estime-t-il. Accélérer la BI dans un contexte de big data, c’est la mission que s’est donnée l’éditeur français Indexima avec sa solution de data hub. Cette plateforme centralisée se positionne comme un middleware entre le stockage des données volumineuses collectées - dans des data lakes ou des datawarehouses - et les outils de visualisation comme Tableau, Qlik, PowerBI, Microstrategy, Toucan Toco, Looker, etc.
Fondée en 2016, la société Indexima a conçu originellement sa solution pour résoudre des problèmes de temps de réponse pénalisants pour un cas d’usage chez Mappy (l’analyse des déplacements des utilisateurs). La technologie d’indexation qu’elle a développée, associée à du machine learning, réduit considérablement les temps d’accès aux données et les besoins en mémoire vive pour ceux qui les analysent et pour les data scientists. Elle vient ainsi résoudre des problèmes sur lesquels achoppent de grandes entreprises, dans la banque, la distribution ou l’industrie. Dans le groupe bancaire Natixis, par exemple, à partir d’une plateforme big data de plusieurs milliards de données, Indexima connecte et affiche des vues en quelques millisecondes dans les outils de datavisualisation. Il reste pourtant d’importantes marges de progression pour restreindre encore les frictions dans le déploiement des environnements d’analyse des données, souligne l’éditeur français. C’est l’objet de son projet One-Click dont il dévoile maintenant la première étape avec la possibilité, depuis la marketplace d’AWS, d’installer un cluster Indexima multi-noeuds en 5 minutes pour adresser du big data.
Franchir en quelques clics les 4 étapes vers l'analytique big data
« Depuis 6 ans que nous travaillons sur la réduction du temps d’accès à la donnée avec les grands comptes, nous voyons deux mouvements en parallèle : la capacité des entreprises à stocker un maximum de données et la vague de la BI en self-service qui met l’analytique entre les mains des métiers », expose Nicolas Korchia. « Mais le lien entre les deux est compliqué à mettre en oeuvre, les entreprises ne savent pas analyser les gros volumes de données de manière efficace », pointe-t-il. « Il y a de nombreuses façons d’y répondre, avec par exemple, une armée de data engineers qui va préparer la donnée, la découper suffisamment pour que ce big data devienne du small data pour pouvoir le mettre dans les outils de datavisualisation ». Une autre façon consiste à déployer une puissance machine importante (clusters distribués Hadoop, datawarehouse cloud Snowflake…) pour brancher l’analytique sur les gros volumes, ou installer entre les deux des outils comme Indexima pour aller plus vite. « L’un des paradigmes d’Indexima, c’est de dire que plus on utilise une table, plus on utilise une donnée, plus elle va être rapide. Le moteur exploite des algorithmes d'apprentissage machine qui apprennent avec l’usage et donc, plus nos clients utilisent leurs données, plus ces données sont rapides. Mais pour mettre en oeuvre ces algorithmes, il y a tout de même quelques opérations à faire ».
L’idée, derrière le projet One Click, c’est de franchir en quelques clics seulement les 4 étapes vers l’analytique big data : 1ère étape, déployer Indexima dans le cloud ou sur les infrastructures on-premise, 2ème étape, déclarer les données dans le moteur d'indexation, 3ème étape, connecter les données dans l’outil de visualisation, 4ème étape, déclencher les algorithmes de machine learning qui optimisent les accès à la donnée en fonction de leur usage. « Nous travaillons sur ces 4 étapes et celle que nous dévoilons maintenant, c’est l’installation en cliquant dans la marketplace AWS, d’un cluster Indexima multinoeud up and running capable d’adresser d’énormes volumétries de données », nous a indiqué le directeur des opérations de l'éditeur.
3 connecteurs pour se brancher sur Snowflake, BigQuery et Impala
« Sur la 2ème étape, celle de la connexion à la data, nous avons déjà trois connecteurs pour se brancher en quelques clics sur Snowflake, BigQuery et Impala à travers l’interface d’Indexima ». Ici, la connexion n’est pas entièrement automatique, mais elle se fait au clic, sur un mode « user friendly ». « Il n’y a plus de friction ops et c’est déjà très important parce que, dans les entreprises, les ressources qui opèrent l’IT sont sujettes à priorisation dans tous les sens », rappelle le DG. « Que l’utilisateur métier puisse ensuite se prémunir d’appeler un data engineer pour se connecter à une source de données, c’est aussi une énorme réduction de friction dans l’analyse de données. Nous le faisons donc sur 3 sources pour l’instant et allons en déployer d’autres au cours de l’année 2020 ». Les prochaines porteront sur les services d’AWS RedShift et S3. « Nous sommes très orientés cloud car c’est là que va la donnée, mais nous travaillons aussi sur les sources on-premise comme SQL Server ou Oracle qui vont sortir assez vite ».
D'ici fin 2020, des tables autonomes pour créer les index
Dans le même temps, Indexima travaille sur les deux autres étapes. « Le one click sur les dataviz et le one click sur les usages, c’est-à-dire qu’avant la fin 2020, les tables seront suffisamment intelligentes pour qu’il n’y ait plus besoin de les opérer », explique Nicolas Korchia. « Lorsqu’une table aura été déclarée, elle vivra toute seule, elle créera ses propres index de manière automatique dans les moments où le cluster Indexima est le moins sollicité. Nous allons donc optimiser la data en nous appuyant sur son usage et sur le non-usage du cluster pour optimiser au maximum les ressources machines de nos clients ».
Parmi les clients récents d’Indexima, un acteur du monde bancaire a accéléré un projet lié aux normes FRTB d’analyse de risques bancaires à mettre en oeuvre dans les délais légaux imposés par la BCE. Dans le secteur de l’énergie, un autre client analyse les data de capteurs connectés pour comprendre le comportement des clients et améliorer sa distribution. Le groupement Cartes-bancaires analyse l’ensemble des transactions de ses clients - plusieurs millions par jour - pour analyser les taux d’acceptation et d’échec en fonction des régions, des banques émettrices ou réceptrices. Indexima compte aussi Crédit Agricole Pacifica et Biotopia parmi ses clients.