RAG — Retrieval-Augmented Generation · Glossaire

Architecture en cinq étapes (query understanding, query fan-out, retrieval, re-ranking, generation + citation) sur laquelle reposent tous les grands moteurs génératifs : ChatGPT Search, Perplexity, Google AI Overviews, Gemini, Copilot. C'est le moteur qui sélectionne les Fraggles qui seront cités.

Les cinq étapes

Étape	Rôle
1. Query understanding	Analyse sémantique de l’intention par un LLM
2. [[query-fan-out]]	Éclatement en 8-20 sous-requêtes parallèles
3. Retrieval	Combinaison [[bm25]] lexical, dense retrieval vectoriel, retrieval hybride
4. Re-ranking	Modèle ML retrie par pertinence sémantique, autorité, fraîcheur, diversité
5. Generation + citation	LLM synthétise et attache des citations

Chunking

Les pipelines RAG utilisent typiquement des chunks de 256 à 512 tokens avec 10-20 % d’overlap. La recherche arXiv 2505.21700 (2025) montre que 64-128 tokens sont optimaux pour le Q/R factuel, 512-1024 pour le résumé contextuel.

Implication pratique pour le contenu

Chaque paragraphe doit être auto-suffisant : pas de « comme évoqué plus haut », ré-introduction du sujet à chaque section. Les pronoms perdent leur référence quand un chunk est extrait.

Deux sources de connaissance

Mémoire paramétrique : entraînement sur ~80 % de Common Crawl pour GPT-3, plus Wikipedia surpondérée.
Retrieval temps réel : Bing pour ChatGPT/Copilot, index Google pour AIO/Gemini, index propriétaire pour Perplexity, Brave Search API pour Claude.

Une stratégie GEO sérieuse cible les deux : être dans le corpus de training pour la reconnaissance d’entité long terme, et dans l’index retrieval pour la citation immédiate.

À ne pas confondre avec

[[fraggle]] : l’unité de contenu que RAG retrieve.
[[query-fan-out]] : étape 2 du pipeline RAG.

Sources et références

https://arxiv.org/abs/2005.11401

RAG — Retrieval-Augmented Generation