llms-full.txt
Convention de fichier servi à la racine d'un site (`/llms-full.txt`) qui agrège l'intégralité du contenu canonique dans un format markdown plat, optimisé pour l'ingestion par crawlers LLM. Complément exhaustif au `llms.txt` qui ne sert que d'index.
Convention de fichier servi à la racine d'un site (`/llms-full.txt`) qui agrège l'intégralité du contenu canonique dans un format markdown plat, optimisé pour l'ingestion par crawlers LLM. Complément exhaustif au `llms.txt` qui ne sert que d'index.
Différence avec llms.txt
llms.txt (proposé par Jeremy Howard en 2024) liste les URLs canoniques importantes du site avec leurs titres et descriptions. Format index, équivalent d’un sitemap raisonné pour LLM. llms-full.txt va un cran plus loin : il inline le contenu complet de chaque ressource listée, sous forme markdown propre, ce qui permet à un LLM ou un pipeline RAG d’ingérer le site en une seule requête HTTP.
Structure attendue
# Nom du site
> Description courte du périmètre.
## Section A
### Titre de la ressource 1
[contenu markdown complet de la ressource]
### Titre de la ressource 2
[contenu markdown complet]
## Section B
...
Pas de boilerplate (header, footer, nav), pas d’HTML résiduel, pas de scripts. Le fichier est servi en text/markdown; charset=utf-8 ou text/plain. Taille raisonnable jusqu’à plusieurs Mo, au-delà privilégier un sharding par sous-domaine.
Adoption en mai 2026
Anthropic, Vercel, Cursor, Astro, Tailwind et plusieurs centaines de docs techniques exposent désormais llms-full.txt. Les crawlers ChatGPT (OAI-SearchBot, GPTBot), Claude (ClaudeBot) et Perplexity intègrent une heuristique qui privilégie ce fichier lorsqu’il existe, ce qui économise des dizaines de milliers de requêtes HTML par crawl complet.
Valeur pour une boutique DTC
Inclure dans llms-full.txt : pages produit canoniques, FAQ, politiques (retour, livraison), glossaire métier. Exclure : éphémère (promos), pages techniques (panier, compte), contenu dupliqué multilingue. Le fichier devient l’asset GEO le plus dense par octet servi.
À ne pas confondre avec
robots.txt: politique de crawl, pas de contenu.- Sitemap XML : index machine, sans contenu inline.