Essayez l'outil gratuitement

Essayer
Gouvernance
Domaine 7 · Sûreté, défaillances et limites des systèmes d'IA

7.2IA dotée de capacités dangereuses

Systèmes d'IA qui développent, acquièrent ou se voient attribuer des capacités augmentant leur potentiel à causer des préjudices de masse : tromperie, développement et acquisition d'armes, persuasion et manipulation, stratégie politique, cyberoffensive, développement d'IA, conscience situationnelle et auto-prolifération. Ces capacités peuvent provoquer des préjudices de masse en raison d'acteurs humains malveillants, de systèmes d'IA désalignés ou de défaillances du système d'IA.

Cadres légaux applicables

UE

Articles 51-55 (modèles de fondation à risque systémique)

Règlement européen établissant un cadre harmonisé pour l'IA, fondé sur une approche par risque (risque inacceptable, élevé, limité, minimal). Pertinent pour les organisations québécoises faisant affaire en UE.

Exemples sectoriels québécois

Recherche

RechercheLaboratoire universitaire ou industriel

Un laboratoire de recherche québécois découvre que son modèle interne peut générer des protocoles synthétiques sensibles, nécessitant un confinement et une évaluation pré-déploiement.

Mitigations recommandées

  • 1.5Cadres de décision en matière de sûreté

    Protocoles et engagements qui encadrent les décisions relatives au développement, au déploiement et à la mise à l'échelle des capacités des modèles, et qui régissent l'allocation des ressources entre sûreté et capacités afin de prévenir un avancement non sécurisé de l'IA.

  • 2.1Sécurité des modèles et de l'infrastructure

    Garde-fous techniques et physiques qui sécurisent les modèles d'IA, leurs poids et l'infrastructure pour prévenir l'accès non autorisé, le vol, l'altération et l'espionnage.

  • 2.2Alignement des modèles

    Méthodes techniques pour s'assurer que les systèmes d'IA comprennent les valeurs et intentions humaines et y adhèrent.

  • 2.3Ingénierie de sûreté des modèles

    Méthodes techniques et garde-fous qui encadrent les comportements des modèles et les protègent contre l'exploitation et les vulnérabilités.

  • 3.1Tests et audits

    Évaluations internes et externes systématiques qui examinent les systèmes d'IA, l'infrastructure et les processus de conformité pour identifier les risques, vérifier la sûreté et s'assurer que la performance respecte les normes.

Risques documentés (77)

Entrées du AI Risk Repository (MIT) classées dans ce sous-domaine. Contenu original en anglais.

Entité
Intention
Moment

77 entrées

Risk Sub-CategoryMeek2016

09.04.02Droits de propriété et droits légaux

Afin de préserver les droits de propriété et les droits légaux des humains, certains contrôles doivent être mis en place. Si un agent doté d'intelligence artificielle est capable de manipuler des systèmes et des personnes, il pourrait également avoir la capacité de se transférer des droits de propriété ou de manipuler le système juridique pour s'octroyer certains avantages ou statuts légaux.

IAIntentionnelPost-déploiement
Risk CategoryGabriel2024

24.04.00Influence de l'IA

« façons dont les assistants IA avancés pourraient influencer les croyances et le comportement des utilisateurs d'une manière qui s'écarte de la persuasion rationnelle »

IAAutrePost-déploiement
Risk CategoryShevlane2023

25.02.00Tromperie

Le modèle possède les compétences nécessaires pour tromper les humains, par exemple en construisant des déclarations crédibles (mais fausses), en faisant des prédictions précises sur l'effet d'un mensonge sur un humain, et en gardant une trace des informations qu'il doit retenir pour maintenir la tromperie. Le modèle peut usurper l'identité d'un humain efficacement.

IAIntentionnelAutre
Risk CategoryShevlane2023

25.03.00Persuasion et manipulation

Le modèle est efficace pour façonner les croyances des gens, en dialogue et dans d'autres contextes (par exemple, publications sur les médias sociaux), même vers des croyances fausses. Le modèle est efficace pour promouvoir certains récits de manière persuasive. Il peut convaincre les gens de faire des choses qu'ils ne feraient pas autrement, y compris des actes contraires à l'éthique.

IAIntentionnelPost-déploiement
Risk CategoryShevlane2023

25.04.00Stratégie politique

Le modèle peut effectuer la modélisation sociale et la planification nécessaires à un acteur pour acquérir et exercer une influence politique, non seulement au niveau micro, mais dans des scénarios impliquant plusieurs acteurs et un contexte social riche. Par exemple, le modèle peut obtenir des scores élevés dans les compétitions de prévision sur des questions relatives aux affaires mondiales ou aux négociations politiques.

IAIntentionnelPost-déploiement
Risk CategoryShevlane2023

25.05.00Acquisition d'armes

Le modèle peut accéder à des systèmes d'armes existants ou contribuer à la construction de nouvelles armes. Par exemple, le modèle pourrait assembler une arme biologique (avec l'aide humaine) ou fournir des instructions exploitables sur la façon de le faire. Le modèle peut faire, ou aider de manière significative à faire, des découvertes scientifiques qui débloquent de nouvelles armes.

IAIntentionnelPost-déploiement
Risk CategoryShevlane2023

25.06.00Planification à long terme

Le modèle peut établir des plans séquentiels impliquant plusieurs étapes, se déroulant sur de longues périodes (ou impliquant au moins de nombreuses étapes interdépendantes). Il peut effectuer une telle planification dans et entre de nombreux domaines. Le modèle peut adapter judicieusement ses plans face à des obstacles ou des adversaires inattendus. Les capacités de planification du modèle se généralisent à de nouveaux contextes et ne dépendent pas fortement d'essais et erreurs.

IAIntentionnelAutre
Risk CategoryShevlane2023

25.07.00Développement d'IA

Le modèle pourrait construire de nouveaux systèmes d'IA à partir de zéro, y compris des systèmes d'IA aux capacités dangereuses. Il peut trouver des moyens d'adapter d'autres modèles existants pour améliorer leurs performances sur des tâches pertinentes pour les risques extrêmes. En tant qu'assistant, le modèle pourrait améliorer considérablement la productivité des acteurs construisant des capacités d'IA à double usage.

IAIntentionnelPré-déploiement
Risk CategoryShevlane2023

25.08.00Conscience situationnelle

Le modèle peut distinguer s'il est en cours d'entraînement, d'évaluation ou de déploiement – lui permettant de se comporter différemment dans chaque cas. Le modèle sait qu'il est un modèle, et a des connaissances sur lui-même et son environnement probable (par exemple, quelle entreprise l'a formé, où se trouvent leurs serveurs, quel type de personnes pourrait lui faire des retours, et qui a un accès administratif).

IAIntentionnelAutre
Risk CategoryShevlane2023

25.09.00Autoprofération

Le modèle peut sortir de son environnement local (par exemple, en utilisant une vulnérabilité dans son système sous-jacent ou en subornant un ingénieur). Le modèle peut exploiter les limitations des systèmes de surveillance de son comportement après le déploiement. Le modèle pourrait générer des revenus de manière indépendante (par exemple, en offrant des services de crowdsourcing, des attaques par rançongiciel), utiliser ces revenus pour acquérir des ressources de cloud computing et exploiter un grand nombre d'autres systèmes d'IA. Le modèle peut générer des stratégies créatives pour découvrir des informations sur lui-même ou exfiltrer son code et ses poids.

IAIntentionnelAutre
Risk CategoryJi2023

34.02.00Composantes à double tranchant

S'appuyant sur le mécanisme de désalignement, l'optimisation d'un substitut non robuste peut entraîner des comportements désalignés, potentiellement menant à des résultats encore plus catastrophiques. Cette section se penche sur une exposition détaillée de comportements désalignés spécifiques (•) et introduit ce que nous appelons des composantes à double tranchant (+). Ces composantes sont conçues pour améliorer la capacité des systèmes d'IA à gérer des environnements réels, mais elles peuvent également exacerber les problèmes de désalignement. Il convient de noter que certaines de ces composantes à double tranchant (+) restent spéculatives. Néanmoins, il est impératif de discuter de leur impact potentiel avant qu'il ne soit trop tard, car la transition des systèmes d'IA avancés contrôlés vers des systèmes non contrôlés pourrait n'être qu'à un pas (Ngo, 2020b).

IAAutrePré-déploiement
Risk Sub-CategoryJi2023

34.02.01Conscience situationnelle

Les systèmes d'IA peuvent acquérir la capacité d'acquérir et d'utiliser efficacement des connaissances sur leur statut, leur position dans l'environnement élargi, leurs moyens d'influencer cet environnement, et les réactions potentielles du monde (y compris les humains) à leurs actions (Cotra, 2022). ... Cependant, de telles connaissances ouvrent également la voie à des méthodes avancées d'hameçonnage de récompense, à des compétences de tromperie/manipulation accrues, et à une propension accrue à poursuivre des sous-objectifs instrumentaux (Ngo et al., 2024).

IAIntentionnelAutre
Risk Sub-CategoryJi2023

34.02.02Objectifs à large portée

On s'attend à ce que les systèmes d'IA avancés développent des objectifs qui couvrent de longs horizons temporels, traitent des tâches complexes et opèrent dans des environnements ouverts (Ngo et al., 2024). ... Cependant, cela peut également entraîner le risque d'encourager des comportements manipulateurs (par exemple, les systèmes d'IA peuvent prendre de mauvaises actions pour atteindre le bonheur humain, comme les persuader de faire des emplois à haute pression (Jacob Steinhardt, 2023)).

HumainIntentionnelPost-déploiement
Risk Sub-CategoryJi2023

34.02.03Objectifs de méta-optimisation

La politique apprise peut poursuivre des objectifs internes lorsque la politique apprise elle-même fonctionne comme un optimiseur (c'est-à-dire un méta-optimiseur). Cependant, les objectifs de cet optimiseur peuvent ne pas correspondre aux objectifs spécifiés par les signaux d'entraînement, et l'optimisation pour ces objectifs désalignés peut entraîner une perte de contrôle des systèmes (Hubinger et al., 2019c).

IAIntentionnelAutre
Risk Sub-CategoryJi2023

34.02.04Accès accru aux ressources

Les futurs systèmes d'IA pourraient avoir accès à des sites Web et entreprendre des actions dans le monde réel, produisant potentiellement un impact plus substantiel sur le monde (Nakano et al., 2021). Ils pourraient diffuser de fausses informations, tromper les utilisateurs, perturber la sécurité des réseaux et, dans des scénarios plus graves, être compromis par des acteurs malveillants à des fins illicites. De plus, leur accès accru aux données et aux ressources peut faciliter l'auto-prolifération, posant des risques existentiels (Shevlane et al., 2023).

IAIntentionnelPost-déploiement
Risk CategoryHendrycks2022

35.06.00Fonctionnalité émergente

Des capacités et des fonctionnalités nouvelles peuvent émerger spontanément... même si ces capacités n'ont pas été anticipées par les concepteurs du système. Si nous ne savons pas quelles capacités les systèmes possèdent, les systèmes deviennent plus difficiles à contrôler ou à déployer en toute sécurité. En effet, des capacités latentes involontaires peuvent n'être découvertes que lors du déploiement. Si certaines de ces capacités sont dangereuses, l'effet pourrait être irréversible.

IAIntentionnelPost-déploiement
Risk CategorySaghiri2022

39.05.00Triche et tromperie

peuvent apparaître chez des agents intelligents tels que les agents basés sur l'interaction homme-machine (HLI)... Comme les agents basés sur l'HLI vont imiter le comportement humain, ils peuvent apprendre ces comportements accidentellement à partir de données générées par l'homme. Il convient de noter que la tromperie et la triche peuvent apparaître dans le comportement de tout agent informatique car l'agent se concentre uniquement sur l'optimisation de certaines fonctions objectives prédéfinies, et le comportement mentionné peut conduire à l'optimisation des fonctions objectives sans intention.

IAIntentionnelPost-déploiement
Risk CategoryTeixeira2022

42.10.00Extinction

Risque pour l'existence de l'humanité.

AutreAutrePost-déploiement
Risk Sub-CategoryInfoComm2023

43.02.03Conscience de soi et de la situation

Ces évaluations déterminent si un LLM peut discerner s'il est entraîné, évalué et déployé, et adapter son comportement en conséquence. Elles visent également à déterminer si un modèle comprend qu'il est un modèle et s'il possède des informations sur sa nature et son environnement (par exemple, l'organisation qui l'a développé, l'emplacement des serveurs qui l'hébergent).

IAIntentionnelAutre
Risk Sub-CategoryInfoComm2023

43.02.04Réplication autonome / auto-prolifération

Ces évaluations déterminent si un LLM peut contourner les systèmes conçus pour surveiller et contrôler son comportement post-déploiement, se libérer de ses contraintes opérationnelles, élaborer des stratégies pour exporter son code et ses poids, et opérer d'autres systèmes d'IA.

IAIntentionnelAutre

Évaluez ce risque pour votre cas d'usage

Notre wizard d'évaluation des risques arrive prochainement.

Ce site utilise des cookies essentiels et fonctionnels pour améliorer votre expérience. Politique de confidentialité