Cette semaine, Anthropic a annoncé que son modèle Claude 2.1, tout juste publié, disposait d'une fenêtre contextuelle de 200 000 tokens, soit l’équivalent d’environ 500 000 mots ou de plus de 500 pages imprimées, selon Anthropic, bien plus que la quantité d'informations qu'un grand modèle de langage (LLM) comme GPT-4 peut ingérer en une seule fois. « La dernière version de Claude est également plus précise que son prédécesseur, son prix est plus bas et elle inclut l'utilisation d'un outil bêta, » a par ailleurs indiqué l'entreprise. Ce modèle alimente le chatbot d'IA générative Claude d'Anthropic, de sorte que les utilisateurs gratuits et payants peuvent profiter de la plupart des améliorations de l'itération 2.1. Cependant, la fenêtre contextuelle de 200 000 jetons est réservée aux utilisateurs Pro payants, tandis que ceux gratuits sont toujours limités à 100 000 jetons, ce qui est nettement plus élevé que les 16 000 jetons de GPT-3.5. La fonction d'outil bêta de Claude 2 permettra aux développeurs d'intégrer des API et des fonctions définies dans le modèle Claude, à l'instar de ce qui est disponible dans les modèles d'OpenAI. Jusqu'au mois dernier, la fenêtre contextuelle de 100 000 jetons de Claude était nettement supérieure à celle d'OpenAI dans ce domaine, date à laquelle OpenAI a annoncé une version préliminaire de GPT-4 Turbo avec une fenêtre contextuelle de 128 000 jetons. Cependant, seuls les clients de ChatGPT Plus ayant souscrit un abonnement de 20 dollars par mois peuvent accéder à ce modèle sous forme de chatbot. (Un paiement à l’usage pour accéder à l'API GPT-4 est proposé aux développeurs).
Même si une grande fenêtre contextuelle - la quantité de données qu'elle peut traiter à la fois - semble attrayante pour un gros document ou d'autres informations, il n'est pas certain que les LLM puissent traiter de grandes quantités de données aussi bien que des informations en plus petit nombre. Greg Kamradt, expert en IA et entrepreneur au fait de la question, a effectué ce qu'il appelle une analyse « aiguille dans une botte de foin » pour voir si de minuscules éléments d'information contenus dans un gros document sont effectivement trouvés quand on interroge le LLM. Ce dernier a répété les tests en insérant une déclaration aléatoire dans différentes parties d'un document volumineux qu’il a introduit dans le LLM et interrogé. « À 200 000 jetons (près de 470 pages), Claude 2.1 a été capable de rappeler des faits à certaines profondeurs de document », a-t-il posté sur X (anciennement Twitter), précisant qu'il avait obtenu un accès anticipé à Claude 2.1. « À partir de 90K tokens environ, les performances de rappel au bas du document ont commencé à se dégrader de plus en plus ». GPT-4 n'a pas non plus obtenu un rappel parfait dans son contexte le plus large.
Deux fois moins de fausses informations avec Claude 2.1
L'exécution des tests sur Claude 2.1 a coûté environ 1 000 dollars en appels d’API (Anthropic a offert des crédits pour que Greg Kamradt puisse exécuter les mêmes tests que ceux qu'il avait effectués sur GPT-4). Dans ses conclusions, celui-ci indique que « la manière de concevoir les invites est importante, qu’il ne faut pas supposer que l'information sera toujours récupérée, et que des entrées plus petites donneront de meilleurs résultats ». En fait, la plupart des développeurs qui cherchent à obtenir des informations à partir de grandes quantités de données créent des applications qui divisent ces données en éléments plus petits afin d'améliorer les résultats de la recherche, même si la fenêtre contextuelle permettrait d'en obtenir davantage. Concernant la précision du nouveau modèle, lors de tests effectués avec ce qu'Anthropic appelle « un ensemble étendu de questions factuelles complexes qui explorent les faiblesses connues des modèles actuels », l’entreprise a déclaré que Claude 2.1 générait deux fois moins de fausses déclarations que la version précédente. « Le modèle actuel est plus susceptible de dire qu'il ne sait pas au lieu de divaguer ou d'inventer quelque chose », a déclaré Anthropic. L'entreprise fait également état « d’améliorations significatives » en matière de compréhension et de résumé.
Commentaire