Algorithme de scoring lexical (Best Match 25) qui sert encore de baseline dans les pipelines de retrieval modernes, y compris ceux des moteurs IA. Combiné aux embeddings denses dans le retrieval hybride, BM25 reste l'épine dorsale de la pertinence lexicale en 2026.

Pourquoi c’est encore là en 2026

Malgré l’omniprésence des embeddings vectoriels, BM25 reste la baseline contre laquelle se mesurent tous les retrievers neuronaux. Aucun moteur IA grand public n’a abandonné le lexical au profit du pur sémantique : le retrieval hybride combine les deux.

Conséquence opérationnelle

Vos contenus doivent encore contenir les mots exacts que les utilisateurs et les sous-requêtes du [[query-fan-out]] vont chercher. L’argument « le LLM comprendra le sens, peu importe les mots » est faux dans 100 % des pipelines RAG en production.

Retrieval hybride

ApprocheForceLimite
BM25 (lexical)Précision sur mots rares, exact matchFaible sur synonymes
Dense retrieval (vectoriel)Sémantique, synonymesMou sur mots rares ou techniques
Hybride (BM25 + dense)Best of bothCoût compute supérieur

À ne pas confondre avec

  • TF-IDF : ancêtre de BM25, plus utilisé en production.
  • Dense retrieval : approche complémentaire, jamais substitutive.

Sources et références

Auditer ma boutique

L'audit est gratuit. Réponse sous 48 h ouvrées. Pas d'engagement.