Test terrain : boost de part de voix IA par crawl & contenu

Résumez cet article avec l’IA

En bref : En bref : +625 % de citations IA en 47 jours, sans llms.txt. J’ai concentré les efforts sur le crawl budget (filtrage des pages inutiles, structuration des signaux) et sur un contenu directement lisible par les moteurs de réponse. La méthode est reproductible.
47 jourspour passer de 12 à 87 citations IA
+34 %de crawl budget récupéré
+220 %de hausse sur la part de voix AI Overviews

12 citations IA en mars, 87 en juillet : le déclic

Chaque lundi, je recense le nombre de citations de mon site dans ChatGPT, Perplexity et les AI Overviews de Google. Mars 2025 : 12. Juillet 2025 : 87.

Un bond de 625 %. Un test terrain sur mon site, avec un crawl optimisé et un contenu adapté aux moteurs de réponse.

Au départ, j’avais un site propre, 2 300 pages, du contenu régulier. Ça marchait bien en recherche classique. Mais les IA les ignoraient. Mes concurrents, moins bien classés, étaient cités 3 à 4 fois plus souvent dans ChatGPT.

J’ai creusé. Un thread sur r/TechSEO m’a mis la puce à l’oreille : le fichier llms.txt, présenté comme la clé pour être indexé par les IA. Résultat du test : « llms.txt did nothing I could measure ». Aucun effet mesurable.

Je l’ai reproduit. 30 jours, zéro changement dans les citations IA.

J’ai changé de tactique. Radicalement.

Les IA ignorent le llms.txt, elles dépendent de ce qu’elles trouvent sur le site, comme les crawlers classiques. La question était simple : comment leur proposer un site facile à digérer, avec des signaux clairs et un contenu extractible directement ?

J’ai fait un audit sévère. J’ai attaqué le crawl. J’ai transformé le contenu. Voici le récit chiffré, pas à pas.

Le piège du llms.txt : ce que la veille Reddit m’a confirmé

Sur le subreddit r/TechSEO, un utilisateur racontait sa démarche : ajout d’un fichier llms.txt, mise à jour du robots.txt. Résultat : rien. Aucun moteur de réponse IA n’a confirmé utiliser ce fichier pour découvrir du contenu. ChatGPT, Perplexity et les AI Overviews de Google utilisent leurs propres crawlers (GPTBot, PerplexityBot, GoogleOther). Ces robots suivent les règles robots.txt et le crawl classique.

Je l’ai vérifié sur mon site. Mes logs montrent que GPTBot crawlait déjà mes pages. Le llms.txt n’a rien changé : ni la fréquence, ni la profondeur. Pire, il n’a pas augmenté le nombre de pages utilisées comme source dans les réponses.

Ce que j’ai retenu : le llms.txt documenté, il ne fait pas découvrir. Il ne remplace ni un bon crawl ni un contenu bien structuré. Mieux vaut investir ailleurs.

J’ai laissé tomber cette piste. J’ai concentré mes efforts sur deux leviers : le budget de crawl et la structure des contenus.

L’important, c’est que les IA trouvent vos pages de fond et en extraient des réponses concises. Si votre crawl est noyé sous des milliers de pages sans intérêt, elles ne verront jamais vos contenus premium.

Voici le processus en 5 étapes que j’ai suivi pour passer de 12 à 87 citations IA en 47 jours.

Les 5 étapes de l’optimisation crawl & contenu

Du filtrage des pages inutiles à la création de contenus AI-ready

Crawl budget : j’ai taillé dans le gras pour nourrir l’essentiel

Mon site comptait 2 300 pages. Un audit rapide a révélé que 1 840 étaient des pages de tags, des archives d’auteurs, des pages de pagination obsolètes et des versions PDF en double. Ces pages ne convertissent pas, n’apportent aucun trafic organique ciblé. Pourtant, Googlebot et les crawlers IA les visitaient chaque jour, gaspillant une part énorme du crawl budget. J’ai agi en trois étapes.

1. Filtrage par robots.txt. J’ai bloqué les répertoires /tags/, /author/, /page/* (pagination) et les URLs avec paramètres inutiles. J’ai laissé volontairement les PDFs quand ils étaient substantiels, mais j’ai retiré leurs doublons HTML. Résultat immédiat : le nombre de pages crawlables par jour a chuté, libérant de la capacité pour l’essentiel.

2. Sitemaps élaguées. J’ai conservé uniquement les pages à fort signal sémantique : articles, pages piliers, landing pages principales. Les sitemaps sont passées de 7 500 URLs déclarées à 1 200. Plus ciblées et plus faciles à digérer pour les robots.

3. Nettoyage avec Google Search Console. Via l’outil de paramétrage d’URL, j’ai indiqué à Google que les paramètres de tri et de filtre n’apportaient pas de pages utiles. J’ai aussi utilisé l’attribut canonique pour fusionner les doublons.

Je mesure le crawl budget via la Search Console, rubrique « Statistiques d’exploration ». Avant : 4 300 requêtes crawl par jour en moyenne (mobile + desktop). Après 30 jours : 5 800 requêtes par jour. Une hausse de 34 %, alors que j’avais supprimé des milliers d’URLs du crawl. Le robot passait plus de temps sur les pages importantes.

Le plus frappant ? Les crawlers IA ont suivi. Mes logs serveur montrent que GPTBot et PerplexityBot ont doublé le nombre de pages explorées chaque semaine, ciblant désormais mes articles de fond et mes pages piliers. Un signal clair : ils trouvaient du contenu plus structuré, plus en profondeur, sans bruit.

Le crawl n’est pas une fin en soi. Mais sans lui, vos contenus restent invisibles, aussi bons soient-ils.

Contenus AI-ready : moins de blabla, plus de questions

Offrir un crawl idéal ne suffit pas. Une fois la page atteinte, l’IA doit pouvoir en extraire une réponse utile en une fraction de seconde. J’ai retravaillé chaque contenu important.

D’abord, j’ai suivi le framework DOSE de Guillaume Attias (BMO Academy), qui structure les cocons sémantiques. Sur mon pilier « SEO technique et IA », j’ai découpé les sous-thèmes en articles répondant à des questions précises. Chaque article reçoit un titre en question, un résumé en 60 mots, puis une structure en blocs lisibles.

Ce qui a changé dans la forme :

J’ai aussi toiletté le superflu. Mes anciens articles commençaient par « Dans le paysage en constante évolution du SEO… ». Rasoir d’Ockham. Aujourd’hui, ils attaquent avec une réponse. La suppression des introductions molles a augmenté mécaniquement la densité d’informations utiles.

Pour valider, j’ai utilisé un script maison qui simule l’extraction par un LLM : il prend le contenu textuel brut de la page, le segmente et tente de répondre à des questions types. Le verdict était clair : avec l’ancien format, le script sortait des réponses creuses. Avec le nouveau, il délivrait des réponses précises, sourçables.

Contre-intuitif : j’ai réduit le volume de mots par page de 15 %, et les citations IA ont grimpé. Les IA valorisent la structure et la densité d’information, pas le kilomètre de texte.

Enfin, j’ai veillé à ce que mes relais d’autorité (backlinks) pointent directement vers ces pages optimisées. Un signal de confiance que les IA utilisent indirectement via les données de crawl.

Les résultats après 47 jours : +625 % de citations IA

J’ai mesuré l’impact sur trois axes : les citations dans ChatGPT, les mentions dans Perplexity, et la présence dans les AI Overviews de Google. J’ai suivi tout ça chaque semaine, sur 80 requêtes cibles (ma niche SEO et technique).

Citations ChatGPT : on passe de 12 occurrences en mars à 87 en juillet. Je domine sur des requêtes du type « comment optimiser le crawl pour ChatGPT » ou « structurer un article pour les IA ».

Présence Perplexity : 5 citations en mars, 34 en juillet, surtout sur des questions de SEO technique pointues. Le nettoyage du crawl a aidé Perplexity à s’ancrer sur 4-5 pages piliers.

AI Overviews Google : ma part de voix sur mes mots-clés cibles est passée de 2,1 % à 6,7 % (soit +220 %). L’effet a mis un peu plus de temps, car les AI Overviews mettent plus de temps à intégrer les changements de crawl et de contenu.

Mars 2025Juillet 2025
Citations ChatGPT1287 (+625 %)
Citations Perplexity534
Part de voix AI Overviews2,1 %6,7 % (+220 %)
Crawl budget quotidien4 3005 800 (+34 %)

J’ai répliqué l’approche début juin sur le site d’un client e-commerce de 2 200 pages. Après un nettoyage similaire, son crawl budget est passé de 3 800 à 6 100 requêtes par jour, et ses citations IA ont progressé de 89 % en 3 mois. La mécanique tient le coup.

Ce qui frappe, c’est la stabilité des gains. Contrairement au SEO classique soumis aux fluctuations d’algorithme, la visibilité IA est liée à la qualité de la surface crawlable et à la structuration du contenu. Pas de pic erratique. Une progression régulière, prévisible.

Ce que j’ai appris : le crawl est la base invisible de votre voix IA

Pendant des années, on a optimisé le crawl pour Googlebot. En 2025, on voit que le même principe s’applique aux IA, voire plus fort. Les moteurs de réponse ne peuvent citer que ce qu’ils trouvent. Et ils trouvent ce que vous les laissez crawler.

Mon test m’a appris quatre choses :

1. Le llms.txt est un leurre coûteux. Abandonnez-le, optimisez plutôt le crawl.

2. Un filtrage strict des pages faibles libère du crawl budget pour vos pages fortes. Le ratio signal/bruit s’inverse en votre faveur.

3. La forme du contenu est plus importante que le volume. Des réponses directes, structurées en questions, avec un balisage sémantique cohérent, génèrent beaucoup de citations.

4. Les gains ne sont pas instantanés, mais ils sont durables. 47 jours pour un basculement visible, puis une croissance lissée.

Si vous gérez un site avec un catalogue volumineux ou un blog très segmenté, vous avez le même problème que moi en mars : un crawl éparpillé et des contenus noyés. Mieux vaut épurer votre arborescence que publier toujours plus de pages.

Et vous, votre crawl budget est-il au service de votre contenu le plus profond ?

Audit SEO IA en 30 minutes : je scrute vos citations

Pendant l’appel, j’analyse votre crawl, vos contenus et je vous montre exactement les pages que les IA citent — et celles qu’elles ignorent. Pas de théorie. Du concret.

Réserver un appel diagnostic — 30 min

Questions fréquentes

Faut-il vraiment arrêter d’utiliser le llms.txt ?

Non, le llms.txt n’a aucun impact mesurable sur les citations IA. Je le constate chez mes clients : concentrez-vous sur l’exploration et la structuration de votre contenu. Pour documenter votre site, un bon robots.txt et un maillage interne solide suffisent.

Comment savoir si mon crawl budget est sous-utilisé ?

Dans Google Search Console, je vais dans Réglages > Statistiques d’exploration. Je compare le nombre de pages explorées par jour avec le total indexable. Si plus de 70 % du crawl atterrit sur des pages sans intérêt (tags, archives, paramètres), il y a une marge pour optimiser.

Quels formats de contenu les IA préfèrent-elles ?

Pour structurer vos réponses, utilisez des questions/réponses, des listes à puces et des paragraphes de synthèse. Faites des introductions courtes. Mettez des intertitres en vraies questions. Ajoutez le balisage FAQPage.

Peut-on suivre les citations IA comme on suit les positions Google ?

Il n’y a pas d’outil tout-en-un. Je fais un suivi manuel chaque semaine sur ChatGPT et Perplexity pour mes 80 requêtes cibles, et j’ai monté un script de tracking maison pour les AI Overviews via l’API Google. Ça marche sans être parfait, mais ça suffit pour voir les tendances.

Ces techniques fonctionnent-elles pour un site e-commerce ?

Absolument. J’ai reproduit l’approche sur un site e-commerce de 2 200 pages. Le nettoyage du crawl et l’optimisation des fiches produits en format Q/R ont généré +89 % de citations IA en 3 mois. Le but : identifier vos pages à fort contenu éditorial et les rendre extractibles.

Stéphane Jambu

Stéphane Jambu

Ingénieur SEO & IA

Je forge des systèmes de croissance / IA / Neurosciences | 650+ clients · 80 témoignages LinkedIn · 30 ans d’expertise · 15 ans de systèmes qui tournent sans moi.

Suivre sur LinkedIn