Annoncée récemment, la mise à jour de la famille de modèles de GenAI Gemma 3 basés sur Gemini 2.0, présentée par Google intègre la multi-modalité. Cela signifie qu’ils sont capables de générer autre chose que du texte. En l'espèce, ils peuvent analyser des images, de répondre à des questions sur celles-ci, d’identifier des objets et d’autres tâches impliquant les images. Selon le fournisseur, Gemma 3 prend en charge les entrées et sorties de texte sur les images, gère les fenêtres contextuelles jusqu'à 128k tokens et comprend plus de 140 langues. Des améliorations ont également été apportées aux capacités en matière de mathématiques, au raisonnement et au chat, notamment en ce qui concerne les sorties structurées et l'appel de fonctions.
Gemma 3 est disponible en quatre tailles pour les développeurs : 1B, 4B, 12B et 27B, ainsi qu'en versions pré-entraînées et adaptées aux instructions générales. « Dans la fenêtre contextuelle de 128k tokens, Gemma 3 peut traiter et comprendre des quantités massives d'informations, et s'attaquer facilement à des tâches complexes », indique le communiqué de Google.
Plusieurs options de déploiement
Les développeurs disposent de plusieurs options de déploiement, dont Cloud Run et Google GenAI API. En tant que bibliothèque LLM dite de « lightweight », Gemma 3 présente une base de code remaniée, avec des optimisations pour l'inférence et le réglage fin. Les poids des modèles Gemma 3 peuvent être téléchargés sur Kaggle et Hugging Face. Nvidia prend directement en charge les modèles Gemma 3 pour maximiser les performances sur les GPU de toutes tailles, depuis les puces Jetson Nano jusqu’aux accélérateurs Blackwell les plus récents. Gemma 3 est également optimisé pour les TPU de Google Cloud et s'intègre aux GPU AMD. Pour exécuter Gemma 3 sur les GPU, les utilisateurs peuvent utiliser Gemma.cpp.
Google a par ailleurs annoncé ShieldGemma 2, un modèle de paramètres 4B construit sur Gemma 3 qui vérifie la sécurité des images synthétiques et naturelles par rapport à des catégories clés pour construire des ensembles de données et des modèles robustes. ShieldGemma 2 est recommandé comme filtre d'entrée pour les modèles de langage de vision ou comme filtre de sortie pour les systèmes de génération d'images. « Avec ShieldGemma 2, les développeurs peuvent minimiser le risque de contenu préjudiciable, notamment le contenu sexuellement explicite, dangereux ou violent », a indiqué Google.