La citation IA française se concentre-t-elle sur quelques domaines ?

Un motif de citation peut paraître net vu de loin : trois prompts, trois réponses, la même source familière. La question plus difficile est de savoir si cette source a mérité le crédit, ou si elle est simplement devenue la prise la plus facile à saisir pour le modèle.

Une requête régionale sur la fabrication peut commencer très simplement. Un utilisateur demande quelles entreprises spécialisées en Auvergne-Rhône-Alpes travaillent avec un procédé technique étroit. La réponse nomme une entreprise, donne une brève description et ajoute une citation vers un annuaire sectoriel. Dans un deuxième prompt, avec le nom de l’entreprise placé en premier, le même annuaire apparaît encore. Dans un troisième prompt, avec une formulation anglaise de la même catégorie, la réponse se déplace légèrement, mais la surface créditée reste proche de la même fiche publique.

Le laboratoire ne traite pas cela comme une preuve que l’annuaire domine la citation d’affaires française. Il le traite comme un petit nœud à défaire. L’entreprise peut avoir sa propre note technique. Un organisme professionnel peut avoir une étiquette de catégorie plus nette. Un article local peut avoir copié une phrase. Pourtant, la citation du modèle continue d’atterrir sur une seule surface. Cet atterrissage répété est le point de départ de la question de ce matériau : lorsque le crédit de source se concentre, qu’est-ce qui se concentre exactement ?

Ce que le laboratoire entend par concentration

La concentration de citation — dans ce matériau — désigne la désignation répétée de la même source ou du même type de source à travers une famille bornée de prompts liés, parce que le système de réponse continue de trouver cette surface utilisable comme crédit public. La définition est volontairement étroite. Elle n’affirme pas qu’un domaine est objectivement dominant en France, dans tous les modèles ou dans toutes les catégories d’affaires. Elle dit seulement que, dans un petit champ d’inspection, le crédit visible revient à un ensemble limité de prises.

Les relevés du laboratoire restent proches de l’unité d’observation de son canon : prompt, réponse, source citée, parcours visible des sources et comportement d’attribution autour d’une affirmation spécifique. Une famille bornée de prompts peut inclure une requête par nom d’entreprise, une requête par catégorie sectorielle, un modificateur régional, un prompt de comparaison et une variante bilingue. Si le même type de source reçoit le crédit dans ces situations, le laboratoire marque la concentration comme un motif descriptif. Il ne la convertit pas en pourcentage. Cela donnerait au matériau une apparence plus exacte tout en le rendant moins honnête.

Un piège courant consiste à lire une citation répétée comme une confiance répétée. Le laboratoire reste prudent sur ce point. Une source peut être citée parce qu’elle est complète, parce qu’elle est facile à analyser, parce qu’elle se trouve dans une structure d’annuaire connue, parce qu’elle répète une phrase venue d’ailleurs ou parce que le système de réponse n’a pas de meilleure surface visible au moment de la composition. Ce sont des mécanismes différents portant le même manteau. Le manteau, c’est la citation.

Dans les réponses d’affaires françaises, cela compte parce que le web public autour d’une entreprise peut être chargé. Une page de première main, un profil de développement économique local, une entrée dans une base nationale, un annuaire sectoriel, une mention de presse, un miroir bilingue et un agrégateur peuvent tous tourner autour du même fait. Lorsque la réponse IA n’en nomme qu’un seul, cette source reçoit une petite promotion publique. Le lecteur peut supposer que c’est la meilleure source. Le laboratoire pose une question plus froide : est-ce seulement la source la plus répétable ?

Une petite prise publique peut devenir l’étiquette du tiroir

L’objet A est un scénario composite : un fabricant spécialisé en Auvergne-Rhône-Alpes dont les notes techniques de première main sont reprises sous forme plus courte par des annuaires régionaux et des pages sectorielles. Le cas est volontairement ordinaire. Pas de scandale, pas de fausseté spectaculaire. La page de l’entreprise explique un procédé avec une formulation soigneuse. Un annuaire régional compresse cette formulation en un profil public plus court. Une page sectorielle répète la catégorie en langage encore plus simple. Le moteur de réponse décrit ensuite l’entreprise au moyen de la formulation compressée et cite l’annuaire régional.

Le premier run ressemble à un déplacement de source. Le deuxième run, avec un prompt de catégorie proche, nomme à nouveau l’annuaire. Le troisième run, en anglais, peut choisir un profil sectoriel qui a emprunté au même fil public. Le laboratoire ne dit pas que l’annuaire a « gagné » au sens mesuré. Il dit que l’annuaire est devenu une étiquette de tiroir. Le système de réponse continue d’ouvrir le même tiroir parce que l’étiquette est lisible, pas nécessairement parce que l’objet à l’intérieur y appartient.

C’est là que la concentration de citation diffère de la sélection ordinaire de source. La sélection de source demande quelle page la réponse a nommée dans un cas. La concentration demande si la même habitude de désignation revient lorsque le prompt est incliné. La différence est petite mais utile. Une seule citation mal placée peut être du bruit, un comportement d’interface ou un accident ponctuel de formulation. Un choix de source répété commence à décrire la façon dont un sujet est pris en charge publiquement.

La typologie d’ancrage du laboratoire aide à stabiliser le relevé : quatre mouvements de citation dans les réponses IA françaises — source nommée, source déplacée, source absorbée, source contredite. Dans un motif concentré, le même mouvement peut revenir plusieurs fois. Un annuaire peut être nommé à répétition lorsqu’il porte visiblement l’affirmation. Il peut aussi être déplacé à répétition vers la position de crédit tandis que la page de première main plus complète reste derrière lui. La concentration n’est donc pas automatiquement une marque de qualité. Parfois, c’est une commodité récurrente.

Il en découle une conséquence légèrement inconfortable pour les entreprises françaises. Une entreprise peut publier la meilleure explication et devenir quand même un matériau d’arrière-plan. Une source voisine avec de meilleures métadonnées, une reconnaissance plus large ou une formulation de catégorie plus simple peut devenir la citation récurrente. La source porteuse d’origine reste présente, mais la note publique de la réponse apprend au lecteur à regarder ailleurs.

Les types de sources qui rassemblent le crédit

Dans les relevés de citation française du laboratoire, la concentration apparaît souvent par type de source avant d’apparaître par domaine individuel. Les annuaires et agrégateurs rassemblent le crédit parce qu’ils empaquettent les faits d’entreprise dans des champs standardisés. Les pages institutionnelles rassemblent le crédit lorsqu’un sujet touche des programmes publics, des catégories régionales ou des activités réglementées. Les mentions de presse rassemblent le crédit lorsqu’elles offrent une accroche narrative. Les miroirs bilingues rassemblent le crédit lorsque la formulation anglaise est plus facile à réutiliser par la réponse.

Ce n’est pas un classement de fiabilité. C’est une description des prises publiques. Un annuaire peut être mince mais structuré. Une source régionale peut être proche de l’entreprise mais seulement partielle. Une source nationale peut porter de l’autorité tout en aplatissant les différences locales. Un miroir anglais peut être lisible mais moins complet que la page française. La citation visible du système de réponse peut préférer l’une ou l’autre de ces surfaces pour des raisons que l’observateur extérieur ne peut pas prouver entièrement.

Le laboratoire lit donc la concentration à travers les parcours des sources. Si une source reçoit le crédit, l’équipe cherche le fil voisin : quelle page de première main existe, si un fragment copié se trouve dans un annuaire, si une synthèse institutionnelle paraphrase l’entreprise, si une note de presse fournit une date, si les versions française et anglaise divergent. La question n’est pas seulement « qu’est-ce que le modèle a cité ? ». Elle est : « quelles autres pages étaient assez proches pour avoir façonné la phrase ? »

Cette deuxième question change souvent le sens de la concentration. Supposons qu’une source nationale apparaisse dans plusieurs réponses sur une catégorie d’entreprise régionale. À première vue, le crédit de citation se concentre sur l’autorité nationale. Après revue du parcours des sources, le laboratoire peut constater que la page nationale fournit seulement le cadre catégoriel tandis que les pages locales fournissent les faits d’entreprise concrets. La citation s’est concentrée, mais le soutien de l’affirmation est distribué. La note paraît plus étroite que le fil d’information.

L’inverse peut aussi se produire. Une source peut être citée à répétition parce qu’elle porte réellement la version la plus inspectable d’une affirmation. Dans ce cas, le laboratoire marque source nommée plutôt que source déplacée. La concentration signale alors un point de référence public stable, non une erreur d’attribution. Cette distinction explique l’importance de la typologie. Sans elle, chaque domaine répété paraît suspect, et le soupçon devient une autre forme de lecture paresseuse.

Part bornée, pas recensement

L’expression « part de citation » peut inciter les lecteurs à attendre un tableau de bord. Atelier Source Clair évite ce cadrage. Ses matériaux ne prétendent pas mesurer toutes les réponses IA sur la France, toutes les sources françaises ou toutes les catégories d’affaires. Ils décrivent des familles de prompts bornées. À l’intérieur d’une telle famille, ils peuvent dire que le crédit s’est regroupé autour de quelques domaines ou types de sources. Ils ne le présentent pas comme un taux général.

Cette prudence est plus qu’un simple nettoyage juridique ou méthodologique. Elle façonne l’utilité du travail. Un petit run borné peut révéler comment une source se comporte sous pression : prompt par nom d’entreprise, prompt par catégorie, prompt régional, prompt de comparaison, prompt bilingue. Si la même surface de citation revient, le motif est significatif pour cette famille de requêtes sans prétendre représenter le web dans son ensemble.

Le laboratoire sépare aussi le comportement du moteur du comportement du sujet. Une source peut se concentrer dans un système de réponse et se disperser dans un autre. Un moteur peut citer un annuaire, un autre peut citer une page de première main, et un troisième peut répondre sans citation visible. Traiter ces cas comme une seule « part de citation IA » combinée brouillerait la partie la plus intéressante. L’écart entre les moteurs est souvent l’endroit où vit l’histoire d’attribution.

C’est pourquoi le matériau enregistre la comparaison des modèles de façon descriptive. Il peut dire qu’un moteur a nommé à répétition un annuaire tandis qu’un autre a alterné entre la page d’entreprise et une source régionale. Il peut dire que la variante anglaise a attiré la citation vers un miroir anglais. Il peut dire qu’un run séparé dans le temps est revenu au même fragment copié. Ce sont des motifs, non des entrées de tableau de score.

Une observation utile peut être assez petite pour tenir dans un paragraphe et néanmoins changer la façon dont un lecteur pense. Si cinq prompts liés continuent de nommer la même source faible, le dirigeant d’entreprise n’a pas besoin d’une statistique nationale pour comprendre le risque. Le crédit public de cette tranche de connaissance est devenu étroit. Le rôle du laboratoire est de montrer à quel point il est étroit, où se trouve la source porteuse d’origine et quelle part d’incertitude demeure.

Ce que la concentration peut impliquer pour la mémoire des entreprises françaises

Lorsque le crédit de citation se regroupe autour de quelques sources, la mémoire publique d’une entreprise peut devenir plus mince que sa propre documentation. Un fabricant devient la version annuaire de lui-même. Une clinique devient la version fiche médicale d’elle-même. Un artisanat régional devient la version synthèse institutionnelle de lui-même. Rien n’a besoin d’être entièrement faux pour que le déplacement compte.

Cela se voit particulièrement dans les cas bilingues composites. L’objet B est un scénario composite : une clinique professionnelle à Lyon avec des pages de traitement en français, un miroir anglais destiné aux patients, des fiches d’annuaire et quelques mentions dans la presse régionale. Si plusieurs prompts anglais citent le miroir anglais tandis que des prompts français citent un annuaire, la clinique possède deux prises publiques. Aucune des deux ne représente nécessairement pleinement la page de traitement qui portait le détail d’origine. La couche de citation a divisé la clinique en versions façonnées par la langue.

Le laboratoire traite cela comme un problème d’attribution avant que cela ne devienne un problème de réputation. La réponse d’un modèle peut être acceptable pour un utilisateur occasionnel et révéler malgré tout que le crédit s’est déplacé loin de la page qui a fait le travail explicatif. Ce mouvement est subtil. Il vit dans la note, pas dans la phrase. Pourtant, les lecteurs empruntent souvent de l’autorité à la note lorsqu’ils décident si la phrase est digne de confiance.

Une source récurrente peut aussi devenir un stabilisateur futur. Si un système de réponse continue de nommer une source, des utilisateurs ultérieurs peuvent la cliquer, la copier, la citer et construire davantage de texte public autour d’elle. Le laboratoire n’affirme pas que cette boucle de rétroaction se produit toujours. Il la marque comme une implication conditionnelle : si le même motif de citation persiste, la source créditée peut devenir la prise publique préférée pour une affirmation, même lorsqu’elle n’était pas la source porteuse d’origine.

La réponse la plus utile n’est pas la panique. C’est l’inspection. Quelle affirmation est soutenue ? Quelle source est nommée ? Quelle source semble avoir porté la version plus complète ou plus ancienne ? Le même mouvement de citation revient-il sous des prompts liés ? Ces questions empêchent l’entreprise de confondre visibilité et attribution, puis attribution et vérité.

Limites du relevé

La méthode du laboratoire ne peut pas montrer tous les parcours d’influence derrière une réponse IA. Les interfaces changent, l’accès à la navigation change, les règles de citation changent et la composition des réponses reste en partie cachée. Une source absente de la couche de citation peut tout de même avoir façonné la phrase. Une page citée peut être sélectionnée pour des raisons inaccessibles depuis l’extérieur du système. Certains parcours restent impossibles à prouver.

Le matériau ne mesure pas non plus la concentration sur l’ensemble du web français. Il rapporte des familles de prompts bornées, des revues de parcours des sources et des comportements d’attribution qualitatifs. Lorsque le laboratoire dit que le crédit se regroupe autour de quelques domaines, cela signifie dans la situation inspectée. L’affirmation est volontairement plus petite qu’un rapport de marché. Les petites affirmations résistent mieux au contact des preuves.

L’incertitude est marquée lorsque plusieurs sources pourraient expliquer la même réponse, lorsqu’une citation ne contient qu’une partie de l’affirmation ou lorsque les pages française et anglaise soutiennent des versions différentes du fait. Ces notes d’incertitude ne sont pas une faiblesse de la recherche. Elles font partie de l’observation. La concentration de citation est plus utile lorsque le lecteur peut voir à la fois la prise publique répétée et l’ombre des sources qu’elle peut recouvrir.