Basé sur les vecteurs, l’algorithme de recherche hybride BM42 lancé le 2 juillet par le fournisseur de bases de données vectorielles open source Qdrant fournit une recherche plus précise et plus efficace pour les applications de génération augmentée de récupération (Retrieval Augmented Generation ou RAG). Selon Qdrant, BM42 combine le meilleur de la recherche textuelle traditionnelle et de la recherche vectorielle pour réduire les coûts des applications de RAG et d'IA. « Les moteurs de recherche par mots clés traditionnels, utilisant des algorithmes comme le BM25, existent depuis plus de 50 ans et ne sont pas optimisés pour la recherche précise nécessaire aux applications modernes », a expliqué Qdrant. Par conséquent, ils ont du mal à répondre aux demandes spécifiques des RAG, notamment en ce qui concerne les segments courts qui nécessitent un contexte supplémentaire pour permettre une recherche et une récupération réussies.
« L'abandon de la recherche par mot-clé au profit d'une recherche entièrement vectorisée offre une nouvelle norme industrielle », a ajouté Qdrant. « Pour les textes courts, plus fréquents dans les scénarios RAG, BM42 offre l'efficacité des approches traditionnelles de recherche de texte, plus le contexte des vecteurs, ce qui est plus flexible, plus précis et plus efficace », a déclaré Andrey Vasnetsov, directeur technique et cofondateur de Qdrant. « Cela contribue à rendre la recherche vectorielle plus universellement applicable », a-t-il ajouté.
Contrairement à la recherche traditionnelle par mots-clés adaptée aux contenus longs, l’algorithme BM42 intègre des vecteurs épars et denses pour repérer les informations pertinentes dans un document. Selon l'entreprise, un vecteur clairsemé gère la correspondance exacte des termes, tandis que les vecteurs denses gèrent la pertinence sémantique et la signification profonde.
Commentaire