Essayez l'outil gratuitement

Essayer
Gouvernance
Domaine 7 · Sûreté, défaillances et limites des systèmes d'IA

7.6Risques multi-agents

Risques issus des interactions multi-agents, dus aux incitations (qui peuvent mener à des conflits ou collusions) ou à la structure des systèmes multi-agents, pouvant créer des défaillances en cascade, des pressions de sélection, de nouvelles vulnérabilités de sécurité, et un manque d'information et de confiance partagées.

Cadres légaux applicables

International

NIST AI RMF 1.0Recommandation

Manage 4.3

Cadre volontaire de gestion des risques d'IA structuré autour de quatre fonctions : Govern, Map, Measure, Manage. Référence courante en gouvernance d'IA.

ISO/IEC 42001:2023Recommandation

A.6.2

Norme certifiable décrivant les exigences pour mettre en place un système de management de l'IA. Pertinente pour les démarches de certification volontaire.

Exemples sectoriels québécois

Marchés financiers

Marchés financiersFirmes financières

Plusieurs agents IA de trading déployés par des firmes québécoises produisent un effet de boucle, amplifiant un mouvement de marché soudain.

Mitigations recommandées

  • 2.1Sécurité des modèles et de l'infrastructure

    Garde-fous techniques et physiques qui sécurisent les modèles d'IA, leurs poids et l'infrastructure pour prévenir l'accès non autorisé, le vol, l'altération et l'espionnage.

  • 2.3Ingénierie de sûreté des modèles

    Méthodes techniques et garde-fous qui encadrent les comportements des modèles et les protègent contre l'exploitation et les vulnérabilités.

  • 3.1Tests et audits

    Évaluations internes et externes systématiques qui examinent les systèmes d'IA, l'infrastructure et les processus de conformité pour identifier les risques, vérifier la sûreté et s'assurer que la performance respecte les normes.

  • 3.5Surveillance post-déploiement

    Processus de suivi continu du comportement de l'IA, des interactions des utilisateurs et des impacts sociétaux après le déploiement pour détecter les usages abusifs, les capacités dangereuses émergentes et les effets nuisibles.

  • 3.6Réponse et reprise en cas d'incident

    Protocoles et systèmes techniques qui répondent aux incidents de sécurité, aux défaillances de sûreté ou aux usages abusifs des capacités afin de contenir les préjudices et de rétablir des opérations sûres.

Risques documentés (53)

Entrées du AI Risk Repository (MIT) classées dans ce sous-domaine. Contenu original en anglais.

Entité
Intention
Moment

53 entrées

Risk Sub-CategoryUuk2025

61.02.38Capacité de reconnaissance de formes

Les modèles et systèmes d'IA pourraient exacerber les bulles financières en renforçant les tendances du marché.

IAIntentionnelPost-déploiement
Risk Sub-CategoryUuk2025

61.02.45Capacités de négociation

L'IA peut contribuer à une volatilité accrue du marché en accélérant les transactions et en influençant les tendances financières de manière imprévisible.

IAIntentionnelPost-déploiement
Risk Sub-CategoryGipiškis2024

62.31.02Instabilité financière due à l'homogénéité des modèles

L'utilisation généralisée de modèles ou d'algorithmes similaires dans l'ensemble du secteur financier peut entraîner des réactions synchronisées aux signaux du marché, augmentant la volatilité, déclenchant des krachs éclair ou une illiquidité du marché [4].

AutreAutrePost-déploiement
Risk CategoryHammond2025

63.01.00Més-coordination

La més-coordination survient lorsque des agents, malgré un objectif mutuel et clair, ne parviennent pas à aligner leurs comportements pour atteindre cet objectif. Contrairement au cas d'objectifs divergents, dans les contextes d'intérêt commun, il existe une notion plus facilement bien définie de comportement « optimal », et nous décrivons les agents comme més-coordonnés dans la mesure où ils s'écartent de cet optimum. Il est à noter que pour les contextes d'intérêt commun, il ne suffit pas que les objectifs des agents soient les mêmes au sens de symétriques (par exemple, lorsque deux agents veulent le même prix, mais un seul peut le gagner). Les agents doivent plutôt avoir des préférences identiques sur les résultats (par exemple, lorsque deux agents font partie de la même équipe et gagnent un prix en équipe ou pas du tout).

IAIntentionnelPost-déploiement
Risk Sub-CategoryHammond2025

63.01.01Stratégies incompatibles

Stratégies incompatibles. Même si tous les agents peuvent bien performer isolément, une més-coordination peut toujours survenir en raison du choix de stratégies incompatibles par les agents (Cooper et al., 1990). Les contextes compétitifs (c'est-à-dire les jeux à somme nulle à deux joueurs) permettent aux concepteurs de produire des agents hautement capables sans tenir compte des autres joueurs. De manière cruciale, cela est possible car jouer une stratégie à l'équilibre dans un contexte à somme nulle garantit un certain gain, même si les autres joueurs s'écartent de l'équilibre (Nash, 1951). D'autre part, les contextes d'intérêt commun (et mixtes) permettent souvent un grand nombre de solutions mutuellement incompatibles (Schelling, 1980), ce qui est aggravé dans les environnements partiellement observables (Bernstein et al., 2002; Reif, 1984).

IAIntentionnelPost-déploiement
Risk Sub-CategoryHammond2025

63.01.02Attribution de crédit

Attribution de crédit. Bien que les agents puissent souvent apprendre à résoudre conjointement des tâches et ainsi éviter les échecs de coordination, l'apprentissage est rendu plus difficile dans le cadre multi-agents en raison du problème de l'attribution de crédit (Du et al., 2023; Li et al., 2025, voir aussi la section 3.1 sur les asymétries d'information et la section 3.4, qui discute du décalage de distribution). C'est-à-dire, en présence d'autres agents apprenants, il peut être difficile de déterminer quelles actions des agents ont causé un résultat positif ou négatif, surtout si l'environnement est complexe. De plus, dans les contextes multi-principaux, les agents n'ont peut-être pas été entraînés ensemble et doivent donc généraliser à de nouveaux co-joueurs et collaborateurs en fonction de leur expérience antérieure (Agapiou et al., 2022; Leibo et al., 2021; Stone et al., 2010).

IAIntentionnelPost-déploiement
Risk Sub-CategoryHammond2025

63.01.03Interactions limitées

Interactions limitées. Parfois, l'apprentissage à partir d'interactions historiques avec les agents pertinents peut ne pas être possible, ou ne l'être qu'avec des interactions limitées. Dans de tels cas, une autre forme d'échange d'informations est nécessaire pour que les agents puissent coordonner leurs actions de manière fiable, par exemple via la communication (Crawford & Sobel, 1982; Farrell & Rabin, 1996a) ou un dispositif de corrélation (Aumann, 1974, 1987). Bien que les progrès en modélisation linguistique signifient qu'il y aura probablement moins de situations où l'incapacité des systèmes d'IA avancés à communiquer entraîne une més-coordination, les situations nécessitant des décisions en une fraction de seconde ou où la communication est trop coûteuse pourraient encore produire des échecs. Dans ces contextes, les agents d'IA doivent résoudre le problème de la coordination « zero-shot » (ou, plus généralement, « few-shot ») (Emmons et al., 2022; Hu et al., 2020; Stone et al., 2010; Treutlein et al., 2021; Zhu et al., 2021).

IAIntentionnelPost-déploiement
Risk CategoryHammond2025

63.02.00Conflit

Dans la grande majorité des interactions stratégiques du monde réel, les objectifs des agents ne sont ni identiques ni complètement opposés. En effet, si les agents d'IA sont suffisamment alignés avec leurs utilisateurs ou déployeurs, nous devrions nous attendre à un certain degré de coopération et de compétition, reflétant la société humaine. Ces contextes à motivations mixtes incluent la possibilité de gains mutuels, mais aussi le risque de conflit dû aux incitations égoïstes. Dans ce qui suit, nous examinons dans quelle mesure l'IA avancée pourrait précipiter ou exacerber de tels risques.

IAAutrePost-déploiement
Risk Sub-CategoryHammond2025

63.02.01Dilemmes sociaux

Dilemmes sociaux. Comme indiqué dans notre définition, le conflit peut survenir dans toute situation où les incitations égoïstes divergent du bien collectif, connue sous le nom de dilemme social (Dawes & Messick, 2000; Hardin, 1968; Kollock, 1998; Ostrom, 1990). Bien que ce ne soit en aucun cas un problème moderne, les progrès de l'IA pourraient permettre davantage aux acteurs de poursuivre leurs incitations égoïstes en surmontant les barrières techniques, juridiques ou sociales qui empêchent généralement cela. Pour prendre un exemple plausible, à court terme (bien que de très faible enjeu), un assistant IA automatisé pourrait facilement réserver une table dans chaque restaurant de la ville en quelques minutes, permettant à l'utilisateur de décider plus tard et d'annuler toutes les autres réservations.

IAIntentionnelPost-déploiement
Risk Sub-CategoryHammond2025

63.02.02Domaines militaires

Peut-être les exemples les plus évidents et inquiétants de conflit lié à l'IA sont ceux où le conflit humain est déjà une préoccupation majeure, comme dans les domaines militaires (bien que d'autres formes de conflit moins saillantes, telles que les guerres commerciales internationales, soient également préoccupantes). Par exemple, au-delà des applications d'outils d'IA plus étroits dans les systèmes d'armes létales autonomes (Horowitz, 2021), les futurs systèmes d'IA pourraient servir de conseillers ou de négociateurs dans des décisions militaires à enjeux élevés (Black et al., 2024; Manson, 2024). En effet, des entreprises comme Palantir ont déjà développé des outils basés sur des LLM pour la planification militaire (Palantir, 2025), et le ministère de la Défense des États-Unis a récemment évalué des modèles pour de telles capacités, le personnel révélant qu'ils « pourraient être déployés par l'armée à très court terme » (Manson, 2023). L'utilisation de l'IA dans les systèmes de commandement et de contrôle pour recueillir et synthétiser des informations – ou recommander et même prendre des décisions de manière autonome – pourrait entraîner une escalade involontaire rapide si ces systèmes ne sont pas robustes ou sont autrement plus enclins au conflit (Johnson, 2021a; Johnson, 2020; Laird, 2020, voir aussi l'étude de cas 10).10

IAAutrePost-déploiement
Risk Sub-CategoryHammond2025

63.02.03Coercition et extorsion

Les systèmes d'IA avancés pourraient également entraîner diverses formes de coercition et d'extorsion dans des contextes moins extrêmes (Ellsberg, 1968; Harrenstein et al., 2007). Ces menaces pourraient cibler directement les humains (comme la révélation d'informations privées extraites par des outils de surveillance d'IA avancés), ou d'autres systèmes d'IA déployés pour le compte d'humains (par exemple, en piratant un système pour limiter ses ressources ou sa capacité opérationnelle; voir aussi la section 3.7). L'augmentation des capacités cyber-offensives de l'IA – y compris celles qui ciblent d'autres systèmes d'IA via des attaques adversariales et le jailbreaking (Gleave et al., 2020; Yamin et al., 2021; Zou et al., 2023) – sans une augmentation proportionnelle des capacités défensives, pourrait rendre cette forme de conflit moins coûteuse, plus répandue et peut-être aussi plus difficile à détecter (Brundage et al., 2018). La résolution de ces problèmes nécessite des stratégies de conception qui empêchent les systèmes d'IA d'exploiter, ou d'être susceptibles à, de telles tactiques coercitives.

IAAutreAutre
Risk CategoryHammond2025

63.03.00Collusion

La collusion a longtemps été un sujet d'étude intense en économie, en droit et en politique, entre autres disciplines. Bien qu'il n'existe pas de définition universelle de la collusion, elle fait généralement référence à une coopération secrète entre deux parties ou plus au détriment d'une ou plusieurs autres parties. La plupart des exemples classiques de collusion – comme les entreprises travaillant ensemble pour fixer des prix supra-compétitifs au détriment des consommateurs – ont tendance à être non seulement secrets, mais aussi en violation d'une loi, d'une règle ou d'une norme éthique. Des distinctions sont également couramment faites entre la collusion explicite et tacite (Rees, 1993), selon que les parties qui colludent communiquent entre elles.

IAIntentionnelPost-déploiement
Risk Sub-CategoryHammond2025

63.03.01Marchés

Marchés. Le cas par excellence de collusion dans des contextes à motivations mixtes est celui des marchés, où l'efficacité résulte de la concurrence, et non de la coopération. Bien que ce ne soit pas un problème nouveau, la collusion entre systèmes d'IA est particulièrement préoccupante car ils peuvent opérer de manière impénétrable en raison de la vitesse, de l'échelle, de la complexité ou de la subtilité de leurs actions.17 Des avertissements de cette possibilité sont venus de technologues, d'économistes et de juristes (Beneke & Mackenrodt, 2019; Brown & MacKay, 2023; Ezrachi & Stucke, 2017; Harrington, 2019; Mehra, 2016). Il est important de noter que les systèmes d'IA peuvent entrer en collusion même lorsque la collusion n'est pas intentionnelle de la part de leurs développeurs, car ils pourraient apprendre que la collusion est une stratégie rentable.

IAIntentionnelPost-déploiement
Risk Sub-CategoryHammond2025

63.03.02Stéganographie

Stéganographie. Dans un avenir proche, nous verrons probablement des LLM communiquer entre eux pour accomplir des tâches conjointement. Pour tenter d'empêcher la collusion, nous pourrions surveiller et contraindre leur communication (par exemple, pour qu'elle soit en langage naturel). Cependant, les modèles pourraient secrètement apprendre à communiquer en dissimulant des messages dans d'autres textes non secrets. Des travaux récents sur la stéganographie utilisant l'apprentissage automatique ont démontré que cette préoccupation est fondée (Hu et al., 2018; Mathew et al., 2024; Roger & Greenblatt, 2023; Schroeder de Witt et al., 2023b; Yang et al., 2019, voir aussi l'étude de cas 5). La communication secrète pourrait également se produire par compression de texte (OpenAI, 2023c), ou par l'émergence d'une communication entre agents où les symboles utilisés par les agents n'ont pas de significations prédéfinies ou de directives d'utilisation, ou sont autrement indéchiffrables pour les humains (Foerster et al., 2016; Lazaridou & Baroni, 2020; Sukhbaatar et al., 2016).

IAIntentionnelPost-déploiement
Risk CategoryHammond2025

63.04.00Asymétries d'information

Asymétries d'information (section 3.1) : l'information privée peut entraîner une més-coordination, une tromperie et un conflit.

IAAutrePost-déploiement
Risk Sub-CategoryHammond2025

63.04.01Contraintes de communication

Contraintes de communication. Une source fondamentale d'asymétries d'information est que des contraintes sur l'échange d'informations peuvent exister, même lorsque les agents partagent un objectif commun (voir la section 2.1). Il peut s'agir de contraintes d'espace (c'est-à-dire la quantité d'informations pouvant être communiquées) si l'information à communiquer est particulièrement complexe, de temps si une décision rapide est requise avant que toutes les informations puissent être communiquées, ou des deux.

AutreAutreAutre
Risk Sub-CategoryHammond2025

63.04.02Négociation

Négociation. Comme exemple classique de ces considérations stratégiques, lorsque les agents tentent de parvenir à un accord malgré des intérêts divergents, les asymétries d'information peuvent entraîner des inefficacités de négociation (Myerson & Satterthwaite, 1983). Les incertitudes pertinentes concernant les autres agents peuvent inclure la valeur qu'ils accordent aux accords possibles, leurs options externes ou leurs croyances sur les autres. La raison essentielle de ces inefficacités est que, en l'absence de certitude quant à leurs contreparties, les agents doivent faire un compromis entre les récompenses de faire des demandes plus favorables et le risque que d'autres agents refusent ces demandes.

IAIntentionnelPost-déploiement
Risk Sub-CategoryHammond2025

63.04.03Tromperie

IAIntentionnelPost-déploiement
Risk CategoryHammond2025

63.05.00Effets de réseau

Effets de réseau (Section 3.2) : des changements mineurs dans les propriétés ou les schémas de connexion des agents dans un réseau peuvent entraîner des changements spectaculaires dans le comportement de l'ensemble du groupe.

IAAutrePost-déploiement
Risk Sub-CategoryHammond2025

63.05.01Propagation d'erreurs

Propagation d'erreurs. Un problème bien connu des réseaux de communication est que l'information peut être corrompue au fur et à mesure de sa propagation dans le réseau.24 À mesure que les systèmes d'IA deviennent capables de générer et de traiter de plus en plus d'informations, les agents d'IA pourraient finir par « polluer la sphère épistémique commune » (Huang & Siddarth, 2023; Kay et al., 2024) des autres agents (Ju et al., 2024) et des humains (voir Étude de cas 7 et Section 3.1). Un autre cadre de plus en plus important est l'utilisation d'agents d'IA individuels au sein d'équipes et de chaînes de délégation structurées, qui transmettent non seulement des informations, mais aussi des instructions ou des objectifs à travers des réseaux d'agents. Si ces objectifs sont déformés ou corrompus, cela peut entraîner de pires résultats pour l'agent ou les agents déléguants (Nguyen et al., 2024b; Sourbut et al., 2024). Enfin, bien que les exemples précédents soient formulés en termes d'erreurs involontaires, il se peut que certaines structures de réseau permettent, voire encouragent, la propagation d'erreurs introduites délibérément par des agents malveillants (Gu et al., 2024; Ju et al., 2024; Lee & Tiwari, 2024, voir aussi Étude de cas 8).

IAIntentionnelPost-déploiement

Évaluez ce risque pour votre cas d'usage

Notre wizard d'évaluation des risques arrive prochainement.

Ce site utilise des cookies essentiels et fonctionnels pour améliorer votre expérience. Politique de confidentialité