Volume de requêtes qu'un crawler LLM (GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot, Google-Extended) consacre à un domaine sur une fenêtre temporelle donnée. Calculé par chaque opérateur à partir de l'autorité du site, de sa fraîcheur, du taux d'erreur et de la diversité de contenu.

Le crawl budget Google search s’optimise pour économiser les pages servies (un site qui répond lentement voit son budget réduit). Le crawl budget IA est défini différemment selon l’opérateur. OpenAI distingue trois pools (entraînement, search live, custom GPTs), Anthropic concentre tout dans un budget unique par domaine, Perplexity privilégie la fraîcheur. Aucun standard commun n’existe en mai 2026.

Signaux qui augmentent le budget

  • Sitemap propre servi avec lastmod à jour.
  • llms-full.txt présent et bien formé.
  • Taux d’erreur 4xx/5xx inférieur à 2 %.
  • Réponses sub-seconde sur les ressources canoniques.
  • Mentions tertiaires (presse, Wikipedia) qui renforcent l’autorité perçue.
  • Schemas valides sur les pages publiques.

Signaux qui réduisent le budget

  • Redirections en chaîne, boucles, 301 vers 404.
  • Pages produit dupliquées en URL (paramètres de tri non canonicalisés).
  • Contenu généré IA en masse sans valeur ajoutée distinctive (sanction Perplexity documentée en 2024).
  • Blocage maladroit côté Cloudflare bot management.

Mesure pratique

Trois sources de données croisées :

  1. Logs serveur filtrés sur les user-agents IA connus.
  2. CDN analytics (Cloudflare, Akamai) avec leur catégorisation native.
  3. Comparaison mensuelle crawl volume vs [[crawl-to-refer-ratio]] pour détecter un dérapage.

À ne pas confondre avec

  • Crawl rate limit : valeur ponctuelle (requêtes par seconde), pas un budget global.
  • Quota API : limite imposée par jour ou minute sur les APIs publiques, indépendant du crawl.

Sources et références

Auditer ma boutique

L'audit est gratuit. Réponse sous 48 h ouvrées. Pas d'engagement.