llms-full.txt

Convention de fichier servi à la racine d'un site (`/llms-full.txt`) qui agrège l'intégralité du contenu canonique dans un format markdown plat, optimisé pour l'ingestion par crawlers LLM. Complément exhaustif au `llms.txt` qui ne sert que d'index.

Différence avec llms.txt

llms.txt (proposé par Jeremy Howard en 2024) liste les URLs canoniques importantes du site avec leurs titres et descriptions. Format index, équivalent d’un sitemap raisonné pour LLM. llms-full.txt va un cran plus loin : il inline le contenu complet de chaque ressource listée, sous forme markdown propre, ce qui permet à un LLM ou un pipeline RAG d’ingérer le site en une seule requête HTTP.

Structure attendue

# Nom du site

> Description courte du périmètre.

## Section A

### Titre de la ressource 1
[contenu markdown complet de la ressource]

### Titre de la ressource 2
[contenu markdown complet]

## Section B
...

Pas de boilerplate (header, footer, nav), pas d’HTML résiduel, pas de scripts. Le fichier est servi en text/markdown; charset=utf-8 ou text/plain. Taille raisonnable jusqu’à plusieurs Mo, au-delà privilégier un sharding par sous-domaine.

Adoption en mai 2026

Anthropic, Vercel, Cursor, Astro, Tailwind et plusieurs centaines de docs techniques exposent désormais llms-full.txt. Les crawlers ChatGPT (OAI-SearchBot, GPTBot), Claude (ClaudeBot) et Perplexity intègrent une heuristique qui privilégie ce fichier lorsqu’il existe, ce qui économise des dizaines de milliers de requêtes HTML par crawl complet.

Valeur pour une boutique DTC

Inclure dans llms-full.txt : pages produit canoniques, FAQ, politiques (retour, livraison), glossaire métier. Exclure : éphémère (promos), pages techniques (panier, compte), contenu dupliqué multilingue. Le fichier devient l’asset GEO le plus dense par octet servi.

À ne pas confondre avec

robots.txt : politique de crawl, pas de contenu.
Sitemap XML : index machine, sans contenu inline.