Crawl budget IA
Volume de requêtes qu'un crawler LLM (GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot, Google-Extended) consacre à un domaine sur une fenêtre temporelle donnée. Calculé par chaque opérateur à partir de l'autorité du site, de sa fraîcheur, du taux d'erreur et de la diversité de contenu.
Volume de requêtes qu'un crawler LLM (GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot, Google-Extended) consacre à un domaine sur une fenêtre temporelle donnée. Calculé par chaque opérateur à partir de l'autorité du site, de sa fraîcheur, du taux d'erreur et de la diversité de contenu.
Différence avec le crawl budget Google search
Le crawl budget Google search s’optimise pour économiser les pages servies (un site qui répond lentement voit son budget réduit). Le crawl budget IA est défini différemment selon l’opérateur. OpenAI distingue trois pools (entraînement, search live, custom GPTs), Anthropic concentre tout dans un budget unique par domaine, Perplexity privilégie la fraîcheur. Aucun standard commun n’existe en mai 2026.
Signaux qui augmentent le budget
- Sitemap propre servi avec
lastmodà jour. llms-full.txtprésent et bien formé.- Taux d’erreur 4xx/5xx inférieur à 2 %.
- Réponses sub-seconde sur les ressources canoniques.
- Mentions tertiaires (presse, Wikipedia) qui renforcent l’autorité perçue.
- Schemas valides sur les pages publiques.
Signaux qui réduisent le budget
- Redirections en chaîne, boucles, 301 vers 404.
- Pages produit dupliquées en URL (paramètres de tri non canonicalisés).
- Contenu généré IA en masse sans valeur ajoutée distinctive (sanction Perplexity documentée en 2024).
- Blocage maladroit côté Cloudflare bot management.
Mesure pratique
Trois sources de données croisées :
- Logs serveur filtrés sur les user-agents IA connus.
- CDN analytics (Cloudflare, Akamai) avec leur catégorisation native.
- Comparaison mensuelle crawl volume vs [[crawl-to-refer-ratio]] pour détecter un dérapage.
À ne pas confondre avec
- Crawl rate limit : valeur ponctuelle (requêtes par seconde), pas un budget global.
- Quota API : limite imposée par jour ou minute sur les APIs publiques, indépendant du crawl.