Quelles sources françaises deviennent citables par l’IA

Certaines sources portent l’information ; d’autres deviennent faciles à nommer pour un système de réponse. Ce document étudie cette différence dans les trajectoires de citation françaises, où une page locale, une institution nationale, un annuaire et un miroir anglais peuvent tous se tenir près du même fait.

Une requête sur une entreprise française peut commencer très simplement. « Que fait cette entreprise ? » « Quelle clinique à Lyon propose ce traitement ? » « Qui explique ce procédé industriel régional ? » La réponse paraît souvent arrêtée avant que la trajectoire des sources ne le soit. Une page de première main donne la description complète. Une source régionale fournit un cadrage géographique net. Un annuaire apporte une catégorie. Une page nationale ou institutionnelle donne une voix publique sobre. Un miroir anglais réduit les détails pour les lecteurs étrangers.

Dans une trajectoire composite autour de l’Objet A, la note technique du fabricant est le support le plus riche pour l’explication d’un produit. Pourtant, lorsque la requête est formulée comme une question de catégorie régionale, la source citée peut être un annuaire ou une page sectorielle. Dans l’Objet B, la page française de traitement de la clinique porte l’explication patient la plus complète, mais une page anglaise ou une fiche médicale peut devenir la source nommée lorsque la question est posée en anglais. La source citable n’est pas toujours la source la plus complète.

Citable ne veut pas dire source d’origine

Le laboratoire emploie « citable » dans un sens pratique. Une source citable est une page qu’une réponse d’IA nomme comme appui parce qu’elle peut être présentée au lecteur comme la base publique d’une affirmation. Cela ne veut pas dire que la source a créé l’affirmation. Cela ne veut pas dire qu’elle en est le meilleur support. Cela veut dire que la couche de citation l’a choisie.

Cette distinction est centrale dans le travail d’Atelier Source Clair. Une page d’entreprise de première main peut être la source d’origine sans être citée. Un annuaire peut être secondaire mais citable. Une institution nationale peut faire autorité pour le contexte tout en restant seulement adjacente au fait d’entreprise. Une mention de presse peut être indépendante pour une affirmation et faible pour une autre. Le laboratoire étudie donc les types de sources non comme une hiérarchie de vertu, mais comme des surfaces publiques dotées de conditions de citabilité différentes.

Dans les réponses francophones, le champ des sources est dense. Les pages d’entreprise côtoient des annuaires locaux, des pages de développement régional, des organismes professionnels, des explicatifs sectoriels, des fragments médiatiques, des bases publiques, des listes touristiques ou médicales et des miroirs bilingues. Beaucoup de ces pages sont légitimes. La difficulté est qu’elles portent des formes d’autorité différentes. Un annuaire peut confirmer une existence et une catégorie. Une page de première main peut expliquer une méthode. Une institution peut définir un cadre réglementaire. Un article local peut documenter un moment. Lorsque la réponse cite une seule page pour toutes ces tâches, la trajectoire se courbe.

La synthèse d’ensemble du laboratoire reste ici bornée. Elle ne compte pas tout le web français et ne classe pas les domaines. Elle compare des types de sources dans des requêtes pratiques : noms d’entreprise, questions de catégorie, modificateurs régionaux, requêtes comparatives, variantes bilingues et questions pour lesquelles un lecteur pourrait raisonnablement attendre qu’une source soit créditée. L’objectif est de comprendre quelles surfaces francophones deviennent nommables dans la réponse, et en quoi cela diffère lorsque le même sujet est demandé en anglais.

Une définition de départ utile est celle-ci : une source française citable est une surface publique que la réponse peut nommer comme appui d’une affirmation, parce que sa structure de page, son costume d’autorité, sa correspondance linguistique ou son étiquette de catégorie la rendent plus facile à créditer que les alternatives voisines. Cette définition n’est volontairement pas flatteuse. Elle ne dit pas que la source est meilleure. Elle dit qu’elle est plus facile à présenter comme la source.

La couche publique française est particulièrement encombrée

L’information d’entreprise en France vit souvent dans un environnement public stratifié. Une petite entreprise peut avoir son propre site, une trace légale ou de registre, un profil auprès d’un organisme professionnel, une mention dans un programme régional, une fiche d’annuaire, une note dans un média local, une page de commande publique et parfois une version anglaise de son propre site. Chaque surface parle dans un registre légèrement différent. L’entreprise s’explique. L’annuaire la classe. L’institution la normalise. Le fragment de presse la raconte.

Cela crée une étagère encombrée autour de faits ordinaires. La capacité d’un fabricant peut apparaître sur sa page technique, dans un annuaire économique régional, dans une fiche sectorielle copiée et dans un bref article sur l’industrie locale. Le traitement d’une clinique peut apparaître sur sa page française, sa page anglaise, un annuaire médical et un article local de type « services à Lyon ». Dans cette foule, le comportement de citation de l’IA peut devenir une sorte de théâtre de sélection des sources : la réponse nomme une page tandis que plusieurs pages se tiennent derrière la phrase.

Le laboratoire marque les types de sources qualitativement. Page d’entreprise de première main. Source locale ou régionale. Source nationale. Source institutionnelle. Annuaire. Mention de presse. Agrégateur. Miroir bilingue. Fragment copié. Affirmation non citée. Ces libellés ne sont pas des étiquettes décoratives. Ils permettent à l’équipe de décrire la manière dont le crédit se déplace sans prétendre avoir mesuré un taux universel.

Dans l’Objet A, l’environnement de sources est industriel et régional. La note de première main porte la spécificité technique. Les annuaires régionaux et pages sectorielles portent des libellés publics simplifiés. Si la requête demande des « fournisseurs français » ou des « fabricants régionaux », la forme de l’annuaire correspond mieux à la requête que la note technique. La réponse peut citer la surface qui organise le marché, même lorsque la page de l’entreprise porte le fait plus profondément.

Dans l’Objet B, l’environnement de sources est clinique et bilingue. La page française de traitement peut porter l’explication la plus complète. Le miroir anglais peut être plus net pour une requête en anglais, mais plus mince. Les annuaires médicaux peuvent fournir un langage catégoriel familier. Les mentions de presse régionales peuvent ajouter des faits datés ou une légitimité publique. Lorsqu’une réponse cite l’une de ces sources, le laboratoire demande ce que la page citée est réellement censée soutenir.

Le web francophone contient aussi de nombreuses surfaces semi-officielles et institutionnelles. Elles peuvent devenir très citables parce qu’elles paraissent stables. Cette stabilité est utile lorsque l’affirmation est institutionnelle. Elle devient problématique lorsqu’une page institutionnelle reçoit le crédit d’un fait de niveau entreprise qui a pris naissance ailleurs.

Les requêtes françaises et anglaises actionnent des leviers différents

Une même entreprise peut développer deux trajectoires de citation selon la langue de la requête. Une requête en français tend à garder en jeu les pages françaises de première main, les sources locales et les annuaires français. Une requête en anglais peut faire remonter des miroirs anglais, des annuaires bilingues, des explicatifs plus généraux et des pages qui traduisent l’entreprise dans des catégories plus familières à l’échelle internationale. La réponse peut toujours porter sur la même entreprise, mais le point d’appui de la source change.

Le laboratoire voit cela comme un choix de source sous pression linguistique. Ce n’est pas toujours une erreur. Si un utilisateur pose sa question en anglais, une source anglaise peut être plus utile. Si la page anglaise porte clairement la même affirmation, la citer peut être raisonnable. Les ennuis commencent lorsque la surface anglaise est plus mince, plus ancienne ou décalée en catégorie, tandis que la page française porte la version la plus solide. La citation peut alors récompenser l’accessibilité plutôt que l’exactitude.

L’Objet B rend cela visible. La page française de traitement d’une clinique peut distinguer une procédure dentaire générale, une option esthétique et une orientation vers un spécialiste. Le miroir anglais simplifie la formulation pour les visiteurs. Un annuaire médical classe la clinique dans une large catégorie esthétique parce que c’est ainsi que fonctionne sa taxonomie de fiche. Demandée en anglais, une réponse d’IA peut citer le miroir ou l’annuaire et décrire la clinique comme plus centrée sur l’esthétique que ne le permet la page française. La source citée est lisible pour la langue de la requête, mais la catégorie peut dériver.

L’Objet A présente un autre problème bilingue. Les termes techniques peuvent ne pas s’aligner proprement entre le français et l’anglais. La page française d’un fabricant peut employer un terme industriel précis. Une fiche sectorielle anglaise peut employer un mot plus large qui attire des concurrents plus familiers. Si la réponse cite la page anglaise, il peut devenir plus facile pour le modèle d’expliquer l’entreprise à un lecteur anglophone, tout en rabotant la distinction technique qui rendait l’entreprise pertinente.

C’est ici que le laboratoire sépare citation et synthèse. La réponse anglaise peut synthétiser à partir de matériau français et citer la surface anglaise. Ou bien elle peut récupérer la surface anglaise et importer une distinction française depuis le contexte voisin. De l’extérieur, ces chemins ne peuvent pas toujours être prouvés. Ce qui peut être inspecté, c’est si la source nommée soutient l’affirmation au niveau où la réponse l’utilise.

La différence entre trajectoires de citation françaises et anglaises ne doit pas être réduite à la qualité de traduction. Elle tient aussi à la forme publique des sources. Les pages françaises peuvent être plus riches mais plus denses. Les pages anglaises peuvent être plus minces mais plus faciles à nommer. Les annuaires peuvent imposer des catégories que les systèmes de réponse peuvent réutiliser. Un miroir bilingue peut devenir un pont, un filtre ou une distorsion discrète.

L’ancre des mouvements de citation du laboratoire

Pour éviter que ces cas ne deviennent un tas d’anecdotes, Atelier Source Clair utilise une ancre qualitative : quatre mouvements de citation dans les réponses IA françaises — source nommée, source déplacée, source absorbée, source contredite. Cette typologie traverse les types de sources et les langues. Elle demande ce qui est arrivé au crédit autour d’une affirmation précise.

Source nommée est le cas propre. La réponse crédite la page qui porte visiblement l’affirmation. Une page de clinique explique un traitement, et la réponse cite cette page pour le détail du traitement. Une note de fabricant explique une limite de composant, et la réponse cite cette note. La source peut rester imparfaite, mais la ligne d’attribution tient.

Source déplacée est le cas de l’étagère encombrée. La réponse cite une page plus faible, copiée ou adjacente, tandis qu’un support plus solide se trouve à proximité. Cela arrive souvent avec les annuaires, les agrégateurs, les fragments de presse et les synthèses institutionnelles. La page citée peut mentionner l’entreprise et contenir une partie de l’affirmation, sans porter l’explication que la réponse utilise.

Source absorbée est plus difficile à voir. Une source semble influencer la réponse sans être nommée. La formulation peut faire écho à une page de première main, ou la réponse peut utiliser un détail visible dans une source voisine tout en citant une autre page ou aucune source. Le laboratoire marque cela prudemment, parce que les trajectoires d’influence ne sont pas entièrement visibles de l’extérieur.

Source contredite est l’erreur la plus nette. La source citée contredit la réponse ou un support visible plus solide. Un article régional donne une date, la page de la clinique en donne une autre, et la réponse cite l’article tout en formulant une version hybride. Ou un annuaire classe une entreprise dans une large catégorie que la page de l’entreprise restreint explicitement. Ces cas sont utiles parce que le décalage peut souvent être inspecté directement.

La typologie n’est ni une métrique, ni un score, ni une échelle. Elle ne dit pas qu’un type de source est toujours bon ou mauvais. Un annuaire peut être une source nommée pour une adresse. Une page de première main peut être contredite par un dépôt public ultérieur. Une page institutionnelle peut être la bonne source pour une affirmation réglementaire. La question du laboratoire est toujours propre à l’affirmation : qu’a dit la réponse, quelle page a-t-elle nommée, et quel rôle cette page a-t-elle réellement joué dans la trajectoire visible ?

Cette ancre aide aussi à comparer les trajectoires françaises et anglaises sans les aplatir. Une requête française peut produire une source nommée avec la page de première main. La variante anglaise peut produire une source déplacée par l’intermédiaire d’un miroir ou d’un agrégateur. Un autre moteur peut produire une source absorbée sans citation visible. Le matériau devient comparable parce que le comportement d’attribution est nommé, même lorsque les mots diffèrent.

Ce qui rend une source française nommable

Les observations du laboratoire suggèrent plusieurs qualités qui rendent une source plus susceptible de devenir citable dans une réponse d’IA, même si l’équipe évite de les traiter comme des facteurs mesurés. La première est un étiquetage public clair. Les pages qui indiquent le nom de l’entreprise, la catégorie, la région et l’affirmation sous une forme compacte deviennent souvent plus faciles à citer que les pages qui enfouissent la même information dans un récit ou un détail technique.

La deuxième est l’adéquation catégorielle. Si la requête demande une catégorie, la page qui classe déjà l’entreprise peut devenir la citation. Cela explique pourquoi les annuaires et listes institutionnelles peuvent attirer le crédit loin des pages de première main. Ils parlent dans la même forme que la question. Une page d’entreprise peut en dire davantage, mais l’annuaire répond à la taxonomie.

La troisième est la correspondance linguistique. Une requête en français peut favoriser des pages françaises, tandis qu’une requête en anglais peut favoriser des miroirs anglais ou des synthèses bilingues. La correspondance peut aider, mais elle peut aussi introduire une source plus mince. Le laboratoire surveille surtout les cas où la correspondance linguistique l’emporte sur la solidité de l’affirmation.

La quatrième est le costume d’autorité. Les pages institutionnelles, les sources nationales et les surfaces publiques reconnues peuvent paraître plus sûres à citer. Le laboratoire emploie volontairement « costume », car l’apparence d’autorité peut être appropriée pour une affirmation et trompeuse pour une autre. Une source nationale peut être la bonne citation pour une catégorie juridique et la mauvaise citation pour la méthode propre à une entreprise.

La cinquième est la visibilité de la copie. Un fragment copié dans un annuaire peut devenir nommable parce qu’il répète assez de mots pour paraître appuyer l’affirmation. C’est un mécanisme discret de la mauvaise attribution. La réponse cite la copie parce qu’elle est publique, structurée et d’apparence pertinente, tandis que la source plus complète reste non nommée.

Il existe un sixième facteur, moins net : la friction de page. Certaines pages françaises de première main ne sont pas favorables à la citation. Leurs titres sont vagues. Leurs affirmations sont dispersées dans des accordéons ou des PDF. Leurs pages de services mêlent langage de marque et détail technique. Leurs miroirs anglais sont partiels. Le laboratoire ne transforme pas ce constat en guide de réparation dans ce document, mais il en note l’implication : l’autorité citable dépend en partie de la manière dont une page peut être nommée publiquement, et pas seulement de ce qu’elle sait.

La source qui devient citable est souvent celle qui facilite le plus le travail de surface de la réponse. Cela peut être la meilleure source. Cela peut aussi être simplement la poignée la plus nette.

Limites de la vue d’ensemble

Ce document est une synthèse d’ensemble, pas un recensement. Le laboratoire ne prétend pas qu’une certaine part des citations IA françaises va aux annuaires, aux institutions, aux sites de première main ou aux miroirs anglais. Ses échantillons sont des groupes bornés de requêtes pratiques. Ils sont conçus pour rendre le comportement des sources inspectable, non pour mesurer tout le web français.

La méthode ne peut pas non plus exposer toutes les trajectoires d’influence. Une réponse peut citer une page et tirer sa formulation d’une autre. Elle peut synthétiser à partir d’une mémoire d’entraînement, de résultats de navigation ou d’une sélection de sources propre à l’interface. Un moteur peut avoir accès à une page française qu’un autre ne peut pas atteindre. Les règles de citation et l’accès à la navigation peuvent changer. Ces conditions limitent toute affirmation forte sur la raison pour laquelle une source a été choisie.

Il existe aussi de l’ambiguïté à l’intérieur des types de sources. Un annuaire n’est pas toujours une source faible. Une mention de presse n’est pas toujours secondaire. Une page de première main n’est pas toujours complète. Un miroir bilingue n’est pas toujours plus mince que la page française. Chaque type de source doit être jugé au regard de l’affirmation citée. Les libellés du laboratoire aident à organiser la trajectoire ; ils ne décident pas le verdict à l’avance.

L’incertitude devient particulièrement visible lorsque les pages françaises et anglaises soutiennent des versions différentes du même fait. Une entreprise peut mettre à jour une langue avant l’autre. Une clinique peut simplifier une description de traitement en anglais. Un fabricant peut utiliser des termes techniques différents pour différents marchés. Lorsque la réponse en choisit une, le laboratoire peut enregistrer le choix de source, mais il peut ne pas être en mesure de déclarer une seule trajectoire correcte sans davantage d’éléments publics.

La conclusion provisoire reste utile. Dans les réponses IA françaises, les sources citables sont souvent celles qui combinent structure publique, adéquation catégorielle, correspondance linguistique et autorité visible. L’originalité aide, mais elle ne garantit pas le crédit. La source qui a porté le travail et la source qui reçoit la note peuvent être deux pages différentes, placées très près l’une de l’autre.