Architecture en cinq étapes (query understanding, query fan-out, retrieval, re-ranking, generation + citation) sur laquelle reposent tous les grands moteurs génératifs : ChatGPT Search, Perplexity, Google AI Overviews, Gemini, Copilot. C'est le moteur qui sélectionne les Fraggles qui seront cités.

Les cinq étapes

ÉtapeRôle
1. Query understandingAnalyse sémantique de l’intention par un LLM
2. [[query-fan-out]]Éclatement en 8-20 sous-requêtes parallèles
3. RetrievalCombinaison [[bm25]] lexical, dense retrieval vectoriel, retrieval hybride
4. Re-rankingModèle ML retrie par pertinence sémantique, autorité, fraîcheur, diversité
5. Generation + citationLLM synthétise et attache des citations

Chunking

Les pipelines RAG utilisent typiquement des chunks de 256 à 512 tokens avec 10-20 % d’overlap. La recherche arXiv 2505.21700 (2025) montre que 64-128 tokens sont optimaux pour le Q/R factuel, 512-1024 pour le résumé contextuel.

Implication pratique pour le contenu

Chaque paragraphe doit être auto-suffisant : pas de « comme évoqué plus haut », ré-introduction du sujet à chaque section. Les pronoms perdent leur référence quand un chunk est extrait.

Deux sources de connaissance

  • Mémoire paramétrique : entraînement sur ~80 % de Common Crawl pour GPT-3, plus Wikipedia surpondérée.
  • Retrieval temps réel : Bing pour ChatGPT/Copilot, index Google pour AIO/Gemini, index propriétaire pour Perplexity, Brave Search API pour Claude.

Une stratégie GEO sérieuse cible les deux : être dans le corpus de training pour la reconnaissance d’entité long terme, et dans l’index retrieval pour la citation immédiate.

À ne pas confondre avec

  • [[fraggle]] : l’unité de contenu que RAG retrieve.
  • [[query-fan-out]] : étape 2 du pipeline RAG.

Sources et références

Auditer ma boutique

L'audit est gratuit. Réponse sous 48 h ouvrées. Pas d'engagement.