BM25

Algorithme de scoring lexical (Best Match 25) qui sert encore de baseline dans les pipelines de retrieval modernes, y compris ceux des moteurs IA. Combiné aux embeddings denses dans le retrieval hybride, BM25 reste l'épine dorsale de la pertinence lexicale en 2026.

Pourquoi c’est encore là en 2026

Malgré l’omniprésence des embeddings vectoriels, BM25 reste la baseline contre laquelle se mesurent tous les retrievers neuronaux. Aucun moteur IA grand public n’a abandonné le lexical au profit du pur sémantique : le retrieval hybride combine les deux.

Conséquence opérationnelle

Vos contenus doivent encore contenir les mots exacts que les utilisateurs et les sous-requêtes du [[query-fan-out]] vont chercher. L’argument « le LLM comprendra le sens, peu importe les mots » est faux dans 100 % des pipelines RAG en production.

Retrieval hybride

Approche	Force	Limite
BM25 (lexical)	Précision sur mots rares, exact match	Faible sur synonymes
Dense retrieval (vectoriel)	Sémantique, synonymes	Mou sur mots rares ou techniques
Hybride (BM25 + dense)	Best of both	Coût compute supérieur

À ne pas confondre avec

TF-IDF : ancêtre de BM25, plus utilisé en production.
Dense retrieval : approche complémentaire, jamais substitutive.

Sources et références

https://en.wikipedia.org/wiki/Okapi_BM25

Pourquoi c’est encore là en 2026

Conséquence opérationnelle

Retrieval hybride

À ne pas confondre avec

Sources et références

Termes liés