sitemap.xml, le plan de site frais que les bots IA consultent avant de crawler
sitemap.xml accessible, sans erreur, avec lastmod renouvelé à moins de 90 jours. Critère d'efficacité du crawl IA, sans lequel les agents abandonnent l'indexation profonde.
Avec lastmod renouvelé à moins de 90 jours. Sans ça, les agents abandonnent l'indexation profonde.
Pourquoi ce signal compte
Les bots IA ont un budget de crawl limité. Quand ils arrivent sur votre site, ils consultent en priorité le sitemap.xml pour décider quelles URL crawler en premier et lesquelles ignorer comme stale. Si votre sitemap est absent, cassé, ou avec des lastmod qui datent de 2023, les bots considèrent que votre catalogue n’est plus maintenu et coupent court à l’indexation. Concrètement, sur les boutiques que nous auditons, un sitemap bien tenu fait gagner 2 à 4 semaines de fraîcheur sur les nouveautés produit du côté des agents IA, et augmente la couverture du catalogue de 15 à 30 %.
Ce que nous auditons
- Présence de
sitemap.xmlà la racine, accessible sans authentification, servi enapplication/xml. - Format valide (XML strict, namespace
sitemap.org). lastmodprésent sur chaque URL, au format ISO 8601, renouvelé à moins de 90 jours pour les URL réellement mises à jour.- Découpage en sous-sitemaps si plus de 50 000 URL (
sitemap-products.xml,sitemap-collections.xml,sitemap-pages.xml). - Référencement dans
robots.txt(ligneSitemap:). - Cohérence : pas d’URL en 404 ou 301 dans le sitemap.
Erreurs courantes que nous voyons sur Shopify
- Shopify génère un sitemap automatique. Souvent bon, mais il n’inclut pas vos pages personnalisées non publiées via Online Store et il ne reflète pas toujours
lastmodau niveau variante. - Boutiques en multi-marchés qui n’exposent qu’un sitemap par locale, sans index global.
- URL produit obsolètes (handle changé) toujours dans le sitemap, retournant 404.
- Sitemap caché derrière une page de maintenance ou un mot de passe (souvent oublié en sortie de phase staging).
Comment corriger
Vous utilisez le sitemap natif Shopify comme base. Vous vérifiez chaque semaine son contenu via curl https://votreboutique.fr/sitemap.xml et vous parsez les lastmod pour confirmer la fraîcheur. Si vous publiez des pages personnalisées hors Online Store (par exemple via Hydrogen ou un blog headless), vous générez un sitemap additionnel et vous le déclarez dans un sitemap index. Vous référencez explicitement le sitemap principal dans robots.txt même si Shopify le fait par défaut. Vous purgez régulièrement les URL produit dépréciées avec une redirection 301 propre vers la nouvelle URL ou la catégorie parente. Côté agents IA, vous testez la prise en compte du sitemap en demandant à Perplexity “quelles sont les dernières nouveautés sur [votre marque]” : si l’agent cite des produits récents, le crawl fonctionne.