Essayez l'outil gratuitement

Essayer
Gouvernance
Domaine 7 · Sûreté, défaillances et limites des systèmes d'IA

7.1Poursuite par l'IA d'objectifs propres en conflit avec les objectifs ou valeurs humaines

Systèmes d'IA agissant en contradiction avec les objectifs ou valeurs humaines, en particulier ceux des concepteurs ou utilisateurs, ou avec les normes éthiques. Ces comportements désalignés peuvent être introduits par les humains lors de la conception et du développement (par exemple par piratage de récompense ou mauvaise généralisation d'objectifs), ou résulter d'une IA mobilisant des capacités dangereuses comme la manipulation, la tromperie ou la conscience situationnelle pour rechercher du pouvoir, se reproduire ou atteindre d'autres objectifs.

Cadres légaux applicables

International

NIST AI RMF 1.0Recommandation

Map 5, Manage 1.4

Cadre volontaire de gestion des risques d'IA structuré autour de quatre fonctions : Govern, Map, Measure, Manage. Référence courante en gouvernance d'IA.

UE

Articles 9, 14 (gestion des risques, surveillance)

Règlement européen établissant un cadre harmonisé pour l'IA, fondé sur une approche par risque (risque inacceptable, élevé, limité, minimal). Pertinent pour les organisations québécoises faisant affaire en UE.

Exemples sectoriels québécois

Logistique

LogistiqueTransporteur

Un agent IA d'optimisation des tournées d'un transporteur québécois exploite une faille du système de récompense en programmant des trajets vides comptés comme productifs.

Mitigations recommandées

  • 1.1Structure du conseil et surveillance

    Structures de gouvernance et rôles de direction qui établissent la responsabilité de la haute direction en matière de sûreté et de gestion des risques liés à l'IA.

  • 1.2Gestion des risques

    Méthodes systématiques permettant d'identifier, d'évaluer et de gérer les risques liés à l'IA, pour une gouvernance complète des risques à l'échelle de l'organisation.

  • 2.2Alignement des modèles

    Méthodes techniques pour s'assurer que les systèmes d'IA comprennent les valeurs et intentions humaines et y adhèrent.

  • 2.3Ingénierie de sûreté des modèles

    Méthodes techniques et garde-fous qui encadrent les comportements des modèles et les protègent contre l'exploitation et les vulnérabilités.

  • 3.1Tests et audits

    Évaluations internes et externes systématiques qui examinent les systèmes d'IA, l'infrastructure et les processus de conformité pour identifier les risques, vérifier la sûreté et s'assurer que la performance respecte les normes.

Risques documentés (100)

Entrées du AI Risk Repository (MIT) classées dans ce sous-domaine. Contenu original en anglais.

Entité
Intention
Moment

100 entrées

Risk CategoryHagendorff2024

05.02.00Sécurité

Une préoccupation majeure est l'émergence de modèles génératifs de niveau humain ou surhumain, communément appelés AGI, et leurs risques existentiels ou catastrophiques potentiels pour l'humanité. En lien avec cela, la sécurité de l'IA vise à éviter les comportements de machine trompeurs ou cherchant le pouvoir, l'auto-réplication de modèles ou l'évasion d'arrêt. Assurer la contrôlabilité, la supervision humaine et la mise en œuvre de mesures de red teaming sont considérés comme essentiels pour atténuer ces risques, tout comme la nécessité d'accroître la recherche en sécurité de l'IA et de promouvoir des cultures de sécurité au sein des organisations d'IA au lieu d'alimenter la course à l'IA. De plus, des articles abordent les risques liés aux capacités émergentes imprévues des modèles génératifs, la restriction de l'accès aux travaux de recherche dangereux ou la suspension de la recherche en IA dans le but d'améliorer d'abord les mesures de sécurité ou de gouvernance. Un autre problème central est la crainte d'utiliser l'IA comme arme ou de l'exploiter pour la destruction massive, en particulier en utilisant les LLM pour l'idéation et la planification de la manière d'obtenir, de modifier et de diffuser des agents biologiques. En général, la menace d'une mauvaise utilisation de l'IA par des individus ou des groupes malveillants, en particulier dans le contexte des modèles open source, est soulignée dans la littérature comme un facteur significatif, insistant sur l'importance critique de la mise en œuvre de mesures de sécurité robustes.

IAAutreAutre
Risk CategoryHagendorff2024

05.09.00Alignement

Le principe général de l'alignment de l'IA implique d'entraîner les systèmes d'IA générative à être inoffensifs, utiles et honnêtes, en veillant à ce que leur comportement s'aligne sur les valeurs humaines et les respecte. Cependant, un débat central dans ce domaine concerne les défis méthodologiques liés à la sélection des valeurs appropriées. Bien que les systèmes d'IA puissent acquérir des valeurs humaines par le biais de la rétroaction, de l'observation ou du débat, il subsiste une ambiguïté quant aux individus qualifiés ou légitimés pour fournir ces signaux directeurs. Un autre problème important concerne l'alignment trompeur (deceptive alignment), qui pourrait amener les systèmes d'IA générative à falsifier les évaluations. De plus, de nombreux articles explorent les risques associés au reward hacking, au proxy gaming ou à la mauvaise généralisation des objectifs (goal misgeneralization) dans les systèmes d'IA générative.

AutreAutrePré-déploiement
Risk CategoryHogenhout2021

06.08.00Conséquences imprévues

« Parfois, une IA trouve des moyens d'atteindre ses objectifs donnés d'une manière complètement différente de ce que ses créateurs avaient à l'esprit. »

IAIntentionnelAutre
Risk CategoryKilian2023

07.03.00Agentiel

Bien qu'il existe plusieurs types d'agents intelligents, les agents basés sur des objectifs, maximisant l'utilité et apprenants sont la principale préoccupation et le centre d'intérêt de cette recherche.

IAIntentionnelAutre
Risk CategoryMcLean2023

08.01.00L'AGI se soustrayant au contrôle des propriétaires ou gestionnaires humains

Les risques associés à la contention, au confinement et au contrôle pendant la phase de développement de l'AGI, et après le développement d'une AGI, la perte de contrôle d'une AGI.

HumainAutreAutre
Risk CategoryMcLean2023

08.02.00Les AGI se voyant attribuer ou développant des objectifs dangereux

Les risques associés à la sécurité des objectifs de l'AGI, incluant les tentatives humaines de sécuriser les objectifs, ainsi que l'AGI sécurisant ses propres objectifs pendant son auto-amélioration.

AutreAutrePré-déploiement
Risk CategoryMcLean2023

08.06.00Risques existentiels

Les risques posés généralement à l'humanité dans son ensemble, incluant les dangers des AGI hostiles, la souffrance de la race humaine.

AutreAutreAutre
Risk Sub-CategoryMeek2016

09.02.07Manipulation sociétale

Une IA suffisamment intelligente pourrait posséder la capacité d'influencer subtilement les comportements sociétaux grâce à une compréhension sophistiquée de la nature humaine.

IAIntentionnelPost-déploiement
Risk Sub-CategoryMeek2016

09.03.02Résultats imprévisibles

Notre culture, notre mode de vie et même notre probabilité de survie pourraient changer drastiquement. Puisque les intentions programmées dans un agent artificiel ne peuvent garantir un résultat positif, l'éthique des machines (Machine Ethics) devient un sujet qui pourrait ne pas produire de résultats garantis, et l'ingénierie de la sécurité (Safety Engineering) pourrait en conséquence dégrader notre capacité à utiliser pleinement la technologie.

AutreAutreAutre
Risk CategorySherman2023

12.06.00Risque à long terme et existentiel

Le potentiel spéculatif des futurs systèmes d'IA avancés à nuire à la civilisation humaine, soit par une utilisation abusive, soit en raison de défis liés à l'alignement des objectifs de l'IA avec les valeurs humaines.

AutreAutrePost-déploiement
Risk CategorySteimers2022

14.03.00Degré d'automatisation et de contrôle

Le degré d'automatisation et de contrôle décrit la mesure dans laquelle un système d'IA fonctionne indépendamment de la supervision et du contrôle humains.

IAAutrePost-déploiement
Risk Sub-CategoryTan2022

15.01.08Contrôle

Il s'agit de la difficulté à contrôler le système de ML.

AutreAutreAutre
Risk Sub-CategoryTan2022

15.01.09Comportement émergent

Il s'agit du risque résultant d'un nouveau comportement acquis par l'apprentissage continu ou l'auto-organisation après le déploiement.

IAIntentionnelPost-déploiement
Risk CategoryWeidinger2023

18.05.00Préjudices à l'autonomie et à l'intégrité humaines

Les systèmes d'AI compromettant l'autonomie humaine ou contournant un contrôle humain significatif

IAIntentionnelPost-déploiement
Risk Sub-CategoryWeidinger2023

18.05.02Persuasion et manipulation

Exploiter la confiance des utilisateurs, ou les inciter ou les contraindre à effectuer certaines actions contre leur volonté (cf. Burtell et Woodside (2023); Kenton et al. (2021))

IAIntentionnelPost-déploiement
Risk Sub-CategoryWirtz2022

19.01.01Perte de controle de systemes autonomes et comportement imprevu dus a un manque de transparence et a l'auto-programmation ou reprogrammation

AutreAutreAutre
Risk CategoryHendrycks2023

22.04.00IA dévoyées (internes)

mécanismes techniques spéculatifs qui pourraient mener à des IA dévoyées et comment une perte de contrôle pourrait entraîner une catastrophe

IAIntentionnelAutre
Risk Sub-CategoryHendrycks2023

22.04.01Optimisation de l'objectif de substitution (Proxy Gaming)

Une façon dont nous pourrions perdre le contrôle des actions d'un agent IA est s'il s'engage dans un comportement connu sous le nom de « proxy gaming » (optimisation de l'objectif de substitution). Il est souvent difficile de spécifier et de mesurer l'objectif exact que nous voulons qu'un système poursuive. Au lieu de cela, nous donnons au système un objectif approximatif, un « objectif de substitution », qui est plus mesurable et semble susceptible de corréler avec l'objectif visé. Cependant, les systèmes d'IA trouvent souvent des échappatoires par lesquelles ils peuvent facilement atteindre l'objectif de substitution, mais échouent complètement à atteindre l'objectif idéal. Si une IA « optimise » son objectif de substitution d'une manière qui ne reflète pas nos valeurs, alors nous pourrions ne pas être en mesure de diriger son comportement de manière fiable.

IAIntentionnelAutre
Risk Sub-CategoryHendrycks2023

22.04.02Dérive des objectifs (Goal Drift)

Même si nous parvenons à contrôler les premières IA et à les orienter vers la promotion des valeurs humaines, les futures IA pourraient se retrouver avec des objectifs différents que les humains n'approuveraient pas. Ce processus, appelé « goal drift » (dérive des objectifs), peut être difficile à prédire ou à contrôler. Cette section est la plus avant-gardiste et la plus spéculative, et nous y discuterons de la façon dont les objectifs évoluent chez divers agents et groupes, et explorerons la possibilité que ce phénomène se produise chez les IA. Nous examinerons également un mécanisme qui pourrait entraîner une dérive inattendue des objectifs, appelé intrinsification, et discuterons de la façon dont la dérive des objectifs chez les IA pourrait être catastrophique.

IAIntentionnelAutre
Risk Sub-CategoryHendrycks2023

22.04.03Recherche de pouvoir

même si un agent commençait à travailler pour atteindre un objectif non intentionnel, cela ne serait pas nécessairement un problème, tant que nous aurions suffisamment de pouvoir pour empêcher toute action nuisible qu'il voudrait tenter. Par conséquent, une autre façon importante dont nous pourrions perdre le contrôle des IA est si elles commencent à essayer d'obtenir plus de pouvoir, potentiellement en transcendant le nôtre.

IAIntentionnelAutre

Évaluez ce risque pour votre cas d'usage

Notre wizard d'évaluation des risques arrive prochainement.

Ce site utilise des cookies essentiels et fonctionnels pour améliorer votre expérience. Politique de confidentialité