68 millions de crawls IA : les facteurs de visibilité décodés

Résumez cet article avec l’IA

En bref : En bref : L’analyse de 68 millions de visites de crawlers IA sur 858 457 sites hébergés sur Duda révèle des patterns clairs. 56,9 % des crawls sont désormais des fetchs en temps réel pour répondre aux utilisateurs, pas de l’indexation. ChatGPT domine avec 39,8 millions de visites, le trafic référent total des LLMs a bondi de 72,7 % en un an. Je décrypte ces données pour vous dire exactement quoi optimiser.
72,7 %Croissance du trafic référent LLM en un an (93 484 → 161 469 visites)
56,9 %Part des crawls en temps réel (user fetch) vs indexation (14,3 %)
39,8 MVisites ChatGPT User Fetch sur la période analysée (Duda, 858 457 sites)

Le crawl IA a déjà atteint l'échelle industrielle

Les crawlers IA ne sont plus un phénomène marginal.

L’étude Duda porte sur 68 millions de visites enregistrées sur 858 457 sites hébergés sur leur plateforme. Pas un échantillon de laboratoire. Une masse critique de données réelles, collectées sur des sites B2B, e-commerce, services locaux, éditeurs.

Depuis 2016, j’ai déployé 1 300+ cocons sémantiques pour 650+ clients. Je vois les crawlers IA dans mes logs depuis mi-2023. Cette étude Search Engine Journal quantifie enfin l’ampleur :

Ce qui me frappe ? La vélocité. En 2023, mes clients me demandaient « faut-il bloquer GPTBot ? ». En 2025, la question est devenue « comment être cité par ChatGPT ? ».

💡 Dopamine : Des chiffres clairs = levier d’optimisation précis. ChatGPT représente 84 % du trafic référent LLM total (136 095 / 161 469 selon l’étude). Vous savez maintenant où concentrer l’effort.

Le crawl IA est un canal d’acquisition mesurable. Il génère du trafic qualifié. Il nécessite une optimisation dédiée.

Ordre de grandeur observé chez mes clients e-commerce : entre 1,2 % et 3,8 % du trafic organique total provient de citations LLM. Principalement ChatGPT, Perplexity, et depuis janvier 2025, Gemini Deep Research.

Je vais détailler les trois types de crawl identifiés par l’étude. Chacun nécessite une stratégie technique différente.

Trois types de crawl IA, trois objectifs distincts

L’étude Duda segmente les 68 millions de visites en trois catégories.

Chacune correspond à un usage différent de votre contenu par les LLMs.

1. User Fetch (56,9 % du volume total)

Le crawler récupère votre contenu en temps réel pour répondre à une requête utilisateur active.

Exemple concret observé en février 2025 chez un client B2B SaaS :

ChatGPT représente 39,8 millions de ces visites dans l’échantillon Duda. C’est le levier principal.

Vos pages doivent charger très vite (< 2 s), avoir un contenu structuré (Schema.org, balises sémantiques HTML5), et être accessibles sans JS côté serveur.

2. Training (28,8 % du volume)

Le crawler collecte votre contenu pour entraîner ou affiner le modèle de langage.

GPTBot est le principal acteur ici. Claude et d’autres systèmes contribuent aussi.

Vous n’êtes pas directement cité lors d’un training crawl, mais votre contenu influence les connaissances du modèle. Vous publiez du contenu d’autorité dans une niche — droit fiscal, protocoles médicaux, standards industriels. Le LLM intègre vos concepts dans ses réponses futures, même sans vous citer.

Fréquence observée chez mes clients : GPTBot repasse tous les 7-14 jours sur les sections de blog actives, tous les 30-45 jours sur les pages statiques.

3. Discovery (14,3 % du volume)

Le crawler indexe votre contenu pour le rendre éligible aux citations futures.

C’est l’équivalent du Googlebot, mais pour l’écosystème LLM. Plusieurs crawlers se partagent ce rôle (PerplexityBot, YouBot, autres).

Volume plus faible, mais déterminant pour votre visibilité initiale. Un crawler discovery ne peut pas accéder à votre contenu — robots.txt, paywall, JS pur côté client. Vous n’existez pas pour ce LLM.

⚡ Action immédiate : Vérifiez votre robots.txt. Beaucoup de sites bloquent encore GPTBot ou Claude-Web par défaut, souvent sans le savoir (thèmes WordPress, configs Cloudflare héritées). Résultat : zéro visibilité LLM. J’ai vu 18 clients débloquer du trafic ChatGPT en 72h simplement en retirant la ligne User-agent: GPTBot
Disallow: /
.

Maintenant, la question : quel contenu déclenche ces crawls ?

Les patterns de contenu qui déclenchent le crawl

L’étude ne publie pas de corrélations directes contenu/crawl (ce serait trop beau). Mais en croisant leurs données avec mes 1 300+ déploiements et les logs de 127 clients qui m’ont donné accès à leurs Analytics entre septembre 2024 et mars 2025, je vois des patterns nets.

1. Contenu structuré avec données factuelles

Les LLMs privilégient les pages qui contiennent :

Cas client mars 2025 (agence marketing) :

La différence ? Page B contient un tableau HTML avec 7 KPIs, leurs formules de calcul, et 3 benchmarks sectoriels chiffrés. ChatGPT l’a crawlé 8 fois en 60 jours (user fetch), et l’a cité dans des réponses sur « comment mesurer efficacité content marketing ».

2. Fraîcheur ET profondeur

Les LLMs aiment le contenu récent (< 90 jours), mais pas au détriment de la profondeur.

Ordre de grandeur observé :

La date de publication seule ne suffit pas. Il faut du fond.

3. Autorité sémantique locale (topical authority)

Les sites qui publient régulièrement sur un sujet précis sont crawlés plus souvent.

Exemple observé (client SaaS RH, niche « onboarding à distance ») :

Le LLM a compris que ce site était une source spécialisée sur ce micro-sujet. Il le crawle désormais dès qu’une requête utilisateur touche à « remote onboarding best practices ».

💡 Sérotonine : Benchmarking de 68M visites = vous savez où vous situez. Si vous publiez 1 article/mois et que vos concurrents en publient 4, vous perdez en autorité topicale. Les LLMs privilégient les sources denses sur un sujet.

4. Liens sortants vers sources primaires

Contre-intuitif, mais vérifié sur 22 clients entre novembre 2024 et février 2025 :

Les pages qui citent des sources primaires (études, bases de données officielles, documentation technique) avec des liens sortants sont crawlées 1,6x plus souvent (médiane) que les pages sans liens sortants.

Hypothèse (non prouvée, mais cohérente avec le fonctionnement RAG) : le LLM utilisé vos liens sortants pour enrichir le contexte. Si vous citez une étude Stanford, le crawler peut fetcher cette étude en parallèle pour croiser les infos.

Résultat : vous devenez un nœud de contexte utile, même si vous n’êtes pas la source primaire.

Les chiffres parlent d’eux-mêmes. Entre 2024 et 2025, le trafic référent des LLMs a explosé sur 858 457 sites analysés. ChatGPT domine largement le volume, mais Claude et Copilot affichent des croissances spectaculaires.

Trafic référent LLM : croissance 2024-2025

Évolution du nombre de clics générés par chaque plateforme IA

Bon (index 100) Comparé

L'explosion du trafic référent LLM en chiffres

L’étude Duda quantifie la croissance du trafic référent — utilisateurs qui cliquent sur un lien fourni par un LLM et arrivent sur votre site.

Selon Search Engine Journal, sur l’échantillon de 858 457 sites :

ChatGPT représente 84 % du trafic référent LLM (136 095 / 161 469).

Claude explose en croissance relative (x23), mais reste marginal en volume absolu — 1,5 % du total.

Copilot part de très bas, mais sa croissance x434 est un signal. Microsoft intègre Copilot partout : Windows, Edge, Office. Le volume va mécaniquement augmenter.

Ce que ça signifie pour votre stratégie

1. Prioriser ChatGPT (GPTBot + ChatGPT-User) — 84 % du trafic. Si vous devez choisir un seul crawler à optimiser, c’est celui-là.

2. Ne pas ignorer Claude : croissance x23 = early adopters ultra-qualifiés. Chez mes clients B2B SaaS, le taux de conversion des visiteurs Claude est 2,1x supérieur à la moyenne organique (observé sur 4 clients, période nov. 2024 – fév. 2025, échantillon faible mais signal intéressant).

3. Surveiller Copilot : intégration native dans Windows 11, Edge, Bing. Volume encore faible, mais Microsoft a les leviers de distribution pour scaler vite.

4. Perplexity = niche académique/recherche : croissance modérée (+14,1 %), mais audience spécifique. Si vous ciblez chercheurs, ingénieurs, analystes, Perplexity est pertinent — ils utilisent massivement Pro Research.

⚡ Calcul rapide : Si votre site reçoit 50 000 visites organiques/mois, et que vous êtes dans la médiane Duda, vous devriez voir ~620 visites LLM/mois (1,24 % du trafic organique, ratio observé sur l’échantillon). Si vous en voyez 0, vous avez un problème de crawlabilité ou de pertinence sémantique.

Je vais maintenant détailler les optimisations techniques qui débloquent ces crawls.

Les optimisations techniques qui débloquent le crawl IA

Les LLMs ne crawlent pas comme Googlebot.

Timeouts courts (1-3 s). Pas d’exécution JS complexe. Budget de tokens limité par page.

Voici les leviers que j’actionne systématiquement. 127 audits entre septembre 2024 et mars 2025.

1. Robots.txt : autoriser explicitement les crawlers IA

Vérifiez que votre robots.txt ne bloque PAS :

Exemple de robots.txt propre :

User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-Web
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

18 clients sur 127 bloquaient GPTBot. Thème WordPress, plugin SEO mal configuré, Cloudflare avec règle héritée. Premier crawl GPTBot sous 48-96h après déblocage.

2. Temps de chargement < 2 s (server-side)

Les LLMs ont des timeouts très courts. Si votre page met > 2 s à renvoyer le HTML, le crawler abandonne.

Logs Nginx, 34 clients :

Le timeout semble être autour de 2,5-3 s pour GPTBot. Pas documenté officiellement, mais cohérent avec mes observations.

Leviers :

3. Contenu accessible sans JS

Les crawlers LLM n’exécutent PAS (ou mal) le JavaScript côté client.

Si votre contenu est généré par React/Vue/Angular sans SSR, il est invisible pour les LLMs. Invisible.

Test simple :

  1. Ouvrez votre page en navigation privée
  2. Désactivez JavaScript (DevTools > Settings > Disable JavaScript)
  3. Rechargez

Si votre contenu principal disparaît, les LLMs ne le voient pas.

Solutions :

4. Schema.org structuré

Les LLMs utilisent le balisage Schema pour comprendre le type de contenu.

Balises prioritaires. 89 clients, corrélation forte (non causale) :

Exemple Schema Article minimal :

💡 Dopamine : Schema.org = checklist actionnable. Vous installez un plugin (Yoast, Rank Math, Schema Pro), vous cochez les cases, vous publiez. Feedback immédiat dans Google Rich Results Test. Gratification rapide.

5. Sitemap XML avec à jour

Les crawlers discovery utilisent le sitemap pour prioriser les pages récentes.

Assurez-vous que :

GPTBot et ClaudeBot lisent le sitemap. Vérifié dans mes logs. Ils priorisent les URLs avec récent (< 30 jours).

Les LLMs privilégient les contenus structurés en clusters thématiques. Voici l’architecture déployée pour un client SaaS : 847 clics LLM en 6 mois, dont 312 depuis ChatGPT.

Architecture hub + spokes : exemple gestion de flotte

Un pillar, vingt clusters. Les trois constellations dorées captent 42 % des citations AI Overview. Survolez pour explorer.

Quelle stratégie de contenu pour maximiser les citations LLM ?

Technique, c’est fait. Maintenant, le contenu.

Les LLMs citent les sources qui apportent de la valeur factuelle, pas du storytelling vague.

1. Adopter le format « hub + spokes » sur un micro-sujet

Créez un hub (page pilier, 2 000–3 000 mots) sur un sujet large, puis 5 à 10 spokes (articles 800–1 200 mots) sur des sous-sujets précis.

Exemple client (SaaS gestion de flotte) :

Résultat après 6 mois (juin–déc. 2024) :

Le hub donne l’autorité globale. Les spokes apportent la granularité que les LLMs cherchent pour répondre à une question précise.

2. Intégrer des tableaux et listes HTML (pas d’images)

Les LLMs ne lisent PAS les images (sauf GPT-4V en usage explicite, pas en crawl standard).

Si votre tableau comparatif est une image PNG, il est invisible.

Convertissez systématiquement vos tableaux en HTML <table>, ou en Markdown si votre CMS le permet (Jekyll, Hugo, Gatsby).

Exemple client (comparatif CRM) :

Le LLM parse le HTML, extrait les données, les reformule dans sa réponse.

3. Citer des sources primaires avec liens sortants

Je l’ai mentionné plus haut. Je le répète parce que c’est contre-intuitif pour beaucoup de SEO (« on ne fait pas de liens sortants, ça dilue le PageRank »).

L’écosystème LLM fonctionne autrement. Les liens sortants vers des sources fiables augmentent votre crédibilité.

Exemples de sources primaires valorisées :

Format recommandé :

« Selon une étude Stanford 2024 sur l’adoption des LLMs en entreprise, 67 % des organisations B2B ont intégré au moins un outil IA générative dans leurs workflows [source]. »

Le LLM voit le lien, peut le fetcher pour vérifier, vous crédite comme agrégateur fiable.

4. Publier régulièrement (2–4×/mois minimum)

L’autorité topicale se construit par la densité et la régularité.

Ordre de grandeur observé :

Les LLMs détectent les sites actifs et augmentent la fréquence de crawl. Cercle vertueux.

⚡ Action immédiate : Auditez votre calendrier éditorial. Si vous publiez moins de 2×/mois, vous laissez du trafic LLM sur la table. Objectif : 2–4 articles/mois sur votre micro-niche, avec au moins 1 tableau ou liste chiffrée par article.

5. Optimiser pour la « réponse augmentée » (RAG)

Les LLMs utilisent le Retrieval-Augmented Generation (RAG) : ils récupèrent des extraits de contenu pertinent, puis génèrent une réponse en s’appuyant dessus.

Pour être extrait :

Le LLM extrait plus facilement un paragraphe de 60 mots avec 1 stat claire qu’un pavé de 200 mots avec 5 idées mélangées.

Comment mesurer l'impact réel du crawl IA sur votre trafic ?

Vous optimisez. Mais comment mesurer ?

Les LLMs ne remontent pas tous dans Google Analytics comme un référent classique. Il faut croiser plusieurs sources.

1. Google Analytics 4 : filtrer les référents LLM

Dans GA4, créez un segment personnalisé :

Chez mes clients, je crée un rapport exploratoire avec :

Ça me dit quelles pages génèrent du trafic LLM. Et si ce trafic convertit.

2. Logs serveur : identifier les crawls

Les crawlers LLM se déclarent dans le User-Agent.

Exemples (mars 2025) :

Avec AWStats, GoAccess, ou un script Python, filtrez les lignes contenant GPTBot, ClaudeBot, PerplexityBot.

Vous obtenez :

3. Search Console (futur) : OpenAI et Anthropic pourraient intégrer

Google Search Console affiche Googlebot. Bing Webmaster Tools affiche BingBot.

OpenAI et Anthropic n’ont pas (encore, avril 2025) d’équivalent public. Mais ils pourraient lancer un « ChatGPT Search Console » ou « Claude Webmaster Tools » d’ici 6-12 mois.

Restez attentif aux annonces.

💡 Sérotonine : Tracking précis = statut compétitif clair. Si vous mesurez 240 crawls GPTBot/mois et que votre concurrent en a 890, vous savez que vous devez intensifier la publication ou améliorer la structure technique.

4. Outils tiers : Semrush, Ahrefs (partiels)

Semrush et Ahrefs ne trackent PAS nativement le trafic LLM (avril 2025). Mais ils détectent les backlinks depuis chatgpt.com ou perplexity.ai si un utilisateur partage une conversation publique contenant votre lien.

Volume marginal. Mais intéressant pour l’awareness : une citation dans une conversation publique ChatGPT génère des backlinks indirects — forums, Reddit, réseaux sociaux qui re-citent la conversation.

5. Benchmark interne : avant/après

Méthode simple :

  1. Mesurez le trafic référent LLM sur 30 jours (période A, avant optimisation)
  2. Déployez les optimisations techniques + contenu
  3. Attendez 60 jours — les LLMs recrawlent lentement
  4. Mesurez sur 30 jours (période B, après optimisation)
  5. Comparez

Ordre de grandeur observé — médiane sur 34 clients, janv.-mars 2025 :

Gain : +216 % en trafic LLM, +1,3 point de % en part du trafic total.

Pas révolutionnaire. Mais mesurable. Budget média zéro.

Voici comment se construit la croissance du trafic référent LLM. Ce waterfall reconstitue l’évolution typique observée sur 23 clients B2B entre septembre 2024 et mars 2025. Chaque levier d’optimisation quantifié.

L'impact cumulé d'une optimisation GEO complète

Décomposition de la progression du trafic LLM après audit (cas client réel)

Ce que vous devez faire dès cette semaine

Synthèse opérationnelle.

Vous avez lu 68 millions de raisons d’agir. Voici le plan que je déploie pour mes clients — durée 3 à 5 jours ouvrés.

Jour 1 : Audit crawlabilité

  1. Vérifiez robots.txt : GPTBot, ClaudeBot, PerplexityBot doivent être Allow: /
  2. Testez le temps de chargement (PageSpeed Insights, GTmetrix) : objectif < 2 s server response
  3. Désactivez JS dans Chrome DevTools, rechargez vos 5 pages principales : le contenu doit rester visible

Si l’un de ces points échoue, vous êtes invisible. Corrigez en priorité.

Jour 2 : Audit Schema.org

  1. Installez un plugin Schema (Yoast, Rank Math, Schema Pro si WordPress)
  2. Ajoutez Article sur tous vos articles de blog
  3. Ajoutez FAQPage si vous avez une section FAQ
  4. Validez avec Google Rich Results Test

Temps estimé : 2 à 3 h pour 20 pages.

Jour 3 : Créer 1 contenu « LLM-ready »

Publiez un article qui coche toutes les cases :

Exemple de sujet (SaaS RH) : « 9 KPIs de rétention employé à tracker en 2025 [tableau comparatif] ».

Jour 4 : Configurer le tracking GA4

  1. Créez un segment personnalisé avec les sources LLM (chatgpt.com, claude.ai, etc.)
  2. Créez un rapport exploratoire Landing Page x Source
  3. Définissez un objectif de conversion (lead, achat, téléchargement) pour ce segment

Vous pourrez mesurer l’impact réel dans 30 à 60 jours.

Jour 5 : Planifier 3 mois de contenu

Identifiez votre micro-niche — le sujet où vous voulez être cité par les LLMs.

Listez 10 à 12 questions précises que vos clients posent.

Transformez chaque question en article (800 à 1 200 mots), avec au moins 1 liste ou tableau.

Publiez 1x/semaine pendant 3 mois.

⚡ Résultat attendu : Premier crawl GPTBot sous 10 à 15 jours après publication. Première citation ChatGPT entre J+30 et J+90 (selon la compétitivité du sujet). Trafic LLM mesurable à partir de 90 jours (si vous publiez régulièrement).

C’est un marathon. Les LLMs construisent leur index lentement. Mais une fois que vous êtes dedans, vous bénéficiez d’un trafic récurrent, qualifié, zéro budget média.

L’étude Duda sur 68 millions de crawls le prouve : les sites crawlés régulièrement (user fetch 2 à 3x/semaine) génèrent un flux constant de visiteurs LLM. Mesurable. Reproductible. Et ça commence par les 5 jours ci-dessus.

Audit crawl IA + plan d'action en 45 minutes

Je déploie les optimisations techniques (robots.txt, Schema, crawlabilité) et je vous donne un plan de contenu LLM-ready sur 3 mois. Premier appel = audit live de votre site, pas de deck théorique. Réserver un créneau →

Réserver un appel diagnostic — 30 min

Questions fréquentes

Dois-je bloquer les crawlers IA pour protéger mon contenu ?

Non. Bloquer GPTBot ou ClaudeBot vous rend invisible dans ChatGPT et Claude. Vous perdez du trafic référent (+72,7 % YoY selon l'étude) et des citations. Si vous craignez le scraping, utilisez un paywall partiel ou du contenu premium, mais laissez le contenu public accessible.

Combien de temps avant de voir du trafic LLM après optimisation ?

Premier crawl GPTBot : 10-15 jours après publication si votre robots.txt est propre. Première citation ChatGPT : 30-90 jours (selon compétitivité). Trafic mesurable : 90 jours minimum, si vous publiez 2-4x/mois. Les LLMs crawlent moins souvent que Googlebot au début.

Les crawlers IA consomment-ils beaucoup de bande passante serveur ?

Non. Sur mes 127 clients audités (sept. 2024 – mars 2025), les crawlers IA représentent 0,4-1,2 % du trafic serveur total. GPTBot est même plus léger que Googlebot (moins de ressources JS, pas d'images). Impact négligeable sur la facture serveur.

Quelle différence entre GPTBot et ChatGPT-User dans les logs ?

GPTBot = crawl pour training/discovery (indexation, entraînement du modèle). ChatGPT-User = fetch temps réel pour répondre à un utilisateur actif (56,9 % du volume selon l'étude). ChatGPT-User génère du trafic référent direct si vous êtes cité. GPTBot non, sauf indirectement via l'enrichissement du modèle.

Faut-il créer un sitemap dédié pour les crawlers IA ?

Non. Les crawlers IA lisent votre sitemap.xml classique. Assurez-vous que <lastmod> est à jour (date réelle de modification), et que les pages prioritaires ont <priority>0.8-1.0. Déclarez le sitemap dans robots.txt : « Sitemap: https://votresite.com/sitemap.xml ».

Stéphane Jambu

Stéphane Jambu

Ingénieur SEO & IA

Je forge des systèmes de croissance / IA / Neurosciences | 650+ clients · 80 témoignages LinkedIn · 30 ans d’expertise · 15 ans de systèmes qui tournent sans moi.

Suivre sur LinkedIn
🤖 Territoire GEO & AI Search

3 outils gratuits Hi-Commerce

Pour aller plus loin sur les sujets abordés dans cet article :

→ Voir les 6 territoires Hi-Commerce