À mesure que les entreprises prennent conscience de la valeur de leurs données, du pouvoir décisionnel et des avantages financiers que leur analyse représente, leur volume et leurs cas d’utilisation se multiplient. C’est pourquoi on connaît aujourd’hui une réelle explosion des données, qui évoluent à un rythme effréné et se complexifient. Le choix d’une infrastructure hybride, qui combine du stockage on-premises et sur cloud(s), apparaît comme indispensable pour pouvoir disposer de l’espace nécessaire, maîtriser les coûts et les gérer simplement et de n’importe où. C’est pourquoi, selon l’Entreprise Cloud Index 2022 de Nutanix, près de 90 % des entreprises en France plébiscitent le multicloud hybride et 64 % prévoient de le déployer d’ici 2024.
Afin d’assurer le besoin exponentiel de stockage des données de manière économique, fluide et centralisée, le data lake apparaît comme une solution toute trouvée. Cet espace peut réunir de larges quantités de données brutes provenant de multiples sources, qui sont rapidement intégrées au fur et à mesure et qui peuvent ensuite être analysées pour en tirer de précieuses informations. En plus de la flexibilité et scalabilité qu’offre cette architecture, le data lake répond au besoin de la fédération des données en fournissant une vue unifiée. Cela permet d’éviter les silos de données et redonne de l'autonomie aux métiers tout en harmonisant l'organisation et la collaboration interne.
Des promesses à géométrie variable
Ainsi, de nombreuses entreprises ont opté pour des data lake au cours des dernières années, or cette architecture ne tient pas toujours ses promesses et peut même les empêcher de tirer de la valeur de leurs données. Un data lake regroupe certes toutes les données de manière centralisée, mais cela s’accompagne de son propre lot de difficultés liées à l’absence de hiérarchisation. En outre, le déluge des données actuel et la nécessité de prendre des décisions sur ces données (besoins analytiques, machine learning, intelligence artificielle…) créent des besoins croissants en termes de flexibilité, d’agilité, de scalabilité et de résilience, associés au désir d’un faible coût de stockage.
Cependant, le data lake n’est pas mort et son investissement peut toujours être rentabilisé avec les ajustements adaptés. Les différents éditeurs et fournisseurs l’ont bien compris et on voit émerger de nouveaux formats et des outils pour améliorer ses fonctionnalités et faciliter la transition vers des lakehouse. Ce modèle peut également faire preuve de plus de souplesse, avec la possibilité de mettre en place des data lake basés sur le cloud, on-premises ou hybrides en fonction des besoins de l’organisation. La réponse aux enjeux actuels réside donc davantage dans la modification, l’amélioration et/ou la modernisation du data lake.
Récupérer des données éparpillées
Or, pour un accès complet à toutes leurs données, les entreprises doivent être en mesure d’aller chercher celles restées à l'extérieur de leurs entrepôts centralisés, qu’il s’agisse d’un data lake ou warehouse. Ces données se retrouvent dans des silos car il existe différents formats (nosql et streaming par exemple) avec lesquels il est impossible de consolider l’arrivée de nouvelles données. Cette problématique est récurrente pour les entreprises, car de nouveaux flux arrivent sans cesse, issus de nouvelles applications, de l’intégration de nouveaux systèmes et zones géographiques ou d’acquisitions de sociétés.
Parallèlement à ces données dormantes et difficiles à exploiter, on constate aussi que les architectures data restent très complexes. La difficulté réside dans le fait de centraliser les données dans un seul data warehouse ou data lake et de les déplacer, les maintenir et gérer des pipeline de données de plus en plus importants. C'est là que les outils de fédération entrent en scène. Afin d’éliminer ces silos, des architectures de type « data mesh » émergent et proposent une décentralisation des données pour garantir plus d’agilité à l’accès et la gestion des données.
La fédération de données, alliée clé du data lake
Enfin, les migrations vers le cloud sont également source de complexité et chronophages, les données étant à la fois stockées on-premises et dans un ou plusieurs cloud. De même, toutes les données ne seront pas nécessairement un jour dans le cloud, pour des raisons en lien avec les contraintes de sécurité, de confidentialité, de sensibilité des données, de souveraineté ou de réglementation. Les architectures hybrides s'imposent donc naturellement. La souplesse de la fédération de données, alliée aux lake on-premises ou cloud, est là aussi indispensable pour évoluer et garantir aux métiers un accès rapide, simple et gouverné à la donnée. Ce modèle permet ainsi aux entreprises d’obtenir une vue holistique de leurs données.
Un data lake moderne (ou data lakehouse) allié à un système de fédération de données est donc la solution à mettre en place pour les entreprises qui réalisent qu’elles auront toujours plus de données. Cette combinaison contribue à la simplification de l’architecture des données qui doit être à la fois solide, puissante, scalable, flexible et agile, pour garantir le meilleur niveau d’évolution possible. C’est pour moi sans conteste la meilleure manière de gérer sa data et d’aborder sereinement l’avenir. Et c’est là qu’en plus du data lake, il faut également faire intervenir des solutions de fédération de données pour réconcilier, croiser, analyser des données qui sont à la fois dans le lake (ou lakehouse) et autour, dans toutes ces sources ou silos externes.