Bot Detection
Ensemble de techniques permettant d'identifier un trafic automatisé (crawler IA, agent shopping, scraper) versus un visiteur humain. S'appuie sur user-agent, IP ASN, signatures TLS (JA4), fingerprint navigateur et taxonomie comportementale. Détermine le routage (cache statique, page allégée, captcha, blocage).
Ensemble de techniques permettant d'identifier un trafic automatisé (crawler IA, agent shopping, scraper) versus un visiteur humain. S'appuie sur user-agent, IP ASN, signatures TLS (JA4), fingerprint navigateur et taxonomie comportementale. Détermine le routage (cache statique, page allégée, captcha, blocage).
Trois familles de signaux
La détection moderne combine trois familles, chacune avec son taux de faux positifs propre.
- Déclarative : user-agent + reverse DNS. Honest crawlers (GPTBot, Googlebot, OAI-SearchBot) se signalent et publient leurs ranges IP. Trivial à matcher, trivial à usurper.
- Réseau : ASN, JA4 TLS fingerprint, HTTP/2 settings frame. Difficile à falsifier sans coût. Cloudflare et Akamai s’appuient massivement dessus.
- Comportementale : vitesse de scroll, courbe de la souris, distribution temporelle des requêtes. Coûteuse, biaisée sur les agents headless récents (Playwright + stealth plugins).
Enjeu pour le commerce agentique
Bloquer indistinctement tous les bots IA fait disparaître la marque des LLM. Les laisser passer sans contrôle ouvre la voie au scraping de catalogue et à la fraude shopping agent. La position raisonnée en mai 2026 :
- Whitelister les crawlers identifiés (GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot) en mode cache long.
- Servir aux agents shopping (Sidekick, Microsoft Copilot Checkout) une route UCP dédiée, signée par mTLS quand le protocole le supporte.
- Bloquer agressivement les scrapers anonymes (ASN cloud résidentiel, JA4 non whitelisté).
Outils en production
| Outil | Famille | Coût type |
|---|---|---|
| Cloudflare Bot Management | Réseau + comportemental | Inclus Enterprise |
| Akamai Bot Manager | Réseau + comportemental | Premium |
| DataDome | Comportemental + ML | Pay-per-request |
| Cloudflare AI Bots Block | Déclaratif simple | Gratuit |
| Shopify Bot Protection | Mixte (managé) | Inclus Plus |
Cloudflare a publié en 2024 une politique par défaut : tout nouveau site sur Cloudflare bloque par défaut les crawlers IA non whitelistés, sauf opt-in du propriétaire. Décision qui a fait passer 38 % du trafic Cloudflare en mode bloquant pour GPTBot et CCBot.
À ne pas confondre avec
- Anti-fraude paiement : se joue à la transaction, pas au crawl.
- [[gptbot]] ou [[claudebot]] : crawlers individuels que la bot detection doit reconnaître.