En mars 2022, Snowflake annonçait s’emparer de Streamlit pour la modique somme de 800 millions de dollars. Plus d’un an après cette acquisition, la rédaction du Monde Informatique a rencontré Adrien Treuille, co-fondateur et CEO de la start-up. Fondée en 2018 dans la baie de San Francisco, la jeune pousse a développé un framework permettant aux experts en machine learning et aux data scientists de partager leur travail par le biais d’applications interactives. « C'était l'un des framework d'apprentissage automatique open source à la croissance la plus rapide au cours des cinq dernières années » indique Adrien Treuille, ajoutant que cet outil « est utilisé par plus de 150 000 développeurs et 1,5 million d'utilisateurs d'applications dans plus de 80 % des entreprises du classement Fortune 500 et dans le monde entier ». En quelques mots, Streamlit fournit aux spécialistes une couche de visualisation et une couche d'application pour leur travail.
Après quelques années et plusieurs levées de fonds – 62 millions de dollars levés en l’espace de quatre ans – la jeune pousse a donc été remarquée par le spécialiste du datawarehouse cloud. « Nous faisons désormais partie de la famille Snowflake. Et ce qui est très intéressant, c'est que pour moi et pour le plaisir de tous, au cours des six derniers mois, cette révolution LLM s'est produite en grande partie avec des chercheurs ingénieurs qui utilisent le streaming à la fois dans et en dehors de Snowflake » poursuit Adrien Treuille. Il prend ainsi l’exemple de GPTzero, qui a été l'une des premières applications poussées par les LLM. Celle-ci a pour but de déterminer si quelqu'un a ou non utilisé, GPT3, GPT4, Bard ou encore d'autres modèles d'IA pour rédiger un document ou générer du contenu. Il utiliser pour cela un modèle de ML pour estimer la probabilité de l'utilisation de tel ou tel outil d'IA.
Deux versions de Streamlit développées dont une « Snowflake-native »
Pour assurer son développement et s’adresser au plus grand nombre d’utilisateurs, Streamlit a fait le pari de développer deux versions de sa solution. L'une d'entre elles est la version open source. Elle se développe encore très rapidement et compte 1,5 million d’utilisateurs mensuels. Parallèlement, l’entreprise a développé une version commerciale à l'intérieur de Snowflake, actuellement en phase d'aperçu privé utilisée par environ une centaine de clients. « Nous allons sortir une version publique plus tard dans l'année » nous confirme Adrien Treuille. Dans les faits, il s'agit du même produit, mais à l'intérieur de Snowflake, ce qui fait que les utilisateurs ont immédiatement accès à toute l'infrastructure du fournisseur sans aucun travail supplémentaire. « Vous disposez donc de toutes vos tables de données Snowflake, de tous vos référentiels documentaires pour les données non structurées, et vous avez le modèle de sécurité et de gouvernance, qui est en quelque sorte le grand argument de vente de Snowflake : vos données sont en sécurité, vous savez où elles vont », détaille le dirigeant de la jeune pousse.
En effet, avec le grand boom de l’IA générative, beaucoup d’entreprises qui travaillaient sur le sujet depuis des années se sont retrouvées en quelque sorte au premier plan d'un grand nombre de demandes de LLM, note Adrien Treuille, prenant tout le monde par surprise, y compris l’équipe de Streamlit. « Il y a tout juste deux semaines, nous avons écrit un billet de blog « Generative AI and Streamlit: A perfect match » en disant : pourquoi pensons-nous que cela se produit ? C'est comme si nous étions derrière nos propres utilisateurs », indique Adrien Treuille. Faisant le bilan de ces cinq dernières années d’existence, la jeune pousse affirme que plus de 190 000 extraits de code Streamlit existent sur GitHub et ont tous aidé à former GPT4 et d'autres LLM. « Cela signifie que les analystes, les data scientists, et même les étudiants peuvent rapidement effectuer des analyses, ébaucher de nouvelles applications et tisser des fragments Streamlit générés automatiquement dans d'autres applications » commente le CEO. En parallèle, plus de 5 000 applications Streamlit alimentées par LLM ont déjà été créées sur son « Community Cloud ». Et ces chiffres augmentent rapidement chaque jour, assure-t-il.
A ce jour, plus de 5 000 applications Streamlit alimentées par LLM ont été créées, en voici quelques exemples. (Crédit : Streamlit)
Une interface de chat dévoilée lors du Summit
En ce qui concerne les toutes dernières innovations, Streamlit indique avoir sorti une interface de chat cette semaine durant le Snowflake Summit. « st. chat_message » et « st. chat_input » sont deux éléments de chat dédiés à la création d’applications conversationnelles directement dans Streamlit. Profitant de l’occasion du lancement de ces outils, Adrien Treuille a montré comment créer un chatbot alimenté par LLM en utilisant OpenAI, Snowflake et Streamlit. « L'application est entièrement en Python et entièrement programmable », précise-t-il. Les utilisateurs peuvent, au choix, utiliser les données de la marketplace Snowflake ou leurs propres données privées stockées dans Snowflake. Ensuite, l'application traduit le langage naturel en requêtes SQL qu'elle peut exécuter sur ces données. « C’est comme ChatGPT, mais l’idée n’est pas de traduire de la poésie persane par exemple. L’interface ne fait pas un million de choses. Tout ce qu’elle fait, c'est répondre à des questions sur une base de données type » commente Adrien Treuille.
st. chat_message » et « st. chat_input » sont deux éléments de chat dédiés à la création d’applications conversationnelles disponibles directement dans Streamlit. (Crédit : Streamlit)
Un dernier réglage avant une sortie générale
Toutefois, une question subsiste : Streamlit fait-il vraiment intégralement partie de Snowflake ? Et si cette question reste en suspens, c’est notamment parce que le travail d’intégration est conséquent. Rendre un langage tel que Python plus étroitement intégré à un service cloud n’est pas une mince affaire, et même si c’est un point positif pour les développeurs Python, cela entraîne des charges de travail Python supplémentaires vers Snowflake. In fine, le résultat devrait être impressionnant : les utilisateurs pourront gérer de grands modèles de langage (LLM) et créer des applications basées sur ces modèles sans jamais quitter le Data Cloud de Snowflake. Et les annonces faites en ce sens par la firme prouvent qu’il s’agit bien d’un dernier réglage avant une grande sortie générale.
Streamlit s'intègre progressivement dans le paysage de solutions Snowflake. (Crédit : Snowflake)
Commentaire