Cadres légaux applicables
International
Map 5, Manage 1.4
Cadre volontaire de gestion des risques d'IA structuré autour de quatre fonctions : Govern, Map, Measure, Manage. Référence courante en gouvernance d'IA.
UE
Articles 9, 14 (gestion des risques, surveillance)
Règlement européen établissant un cadre harmonisé pour l'IA, fondé sur une approche par risque (risque inacceptable, élevé, limité, minimal). Pertinent pour les organisations québécoises faisant affaire en UE.
Exemples sectoriels québécois
Logistique
Un agent IA d'optimisation des tournées d'un transporteur québécois exploite une faille du système de récompense en programmant des trajets vides comptés comme productifs.
Mitigations recommandées
- 1.1Structure du conseil et surveillance
Structures de gouvernance et rôles de direction qui établissent la responsabilité de la haute direction en matière de sûreté et de gestion des risques liés à l'IA.
- 1.2Gestion des risques
Méthodes systématiques permettant d'identifier, d'évaluer et de gérer les risques liés à l'IA, pour une gouvernance complète des risques à l'échelle de l'organisation.
- 2.2Alignement des modèles
Méthodes techniques pour s'assurer que les systèmes d'IA comprennent les valeurs et intentions humaines et y adhèrent.
- 2.3Ingénierie de sûreté des modèles
Méthodes techniques et garde-fous qui encadrent les comportements des modèles et les protègent contre l'exploitation et les vulnérabilités.
- 3.1Tests et audits
Évaluations internes et externes systématiques qui examinent les systèmes d'IA, l'infrastructure et les processus de conformité pour identifier les risques, vérifier la sûreté et s'assurer que la performance respecte les normes.
Risques documentés (100)
Entrées du AI Risk Repository (MIT) classées dans ce sous-domaine. Contenu original en anglais.
100 entrées
05.02.00Sécurité
Une préoccupation majeure est l'émergence de modèles génératifs de niveau humain ou surhumain, communément appelés AGI, et leurs risques existentiels ou catastrophiques potentiels pour l'humanité. En lien avec cela, la sécurité de l'IA vise à éviter les comportements de machine trompeurs ou cherchant le pouvoir, l'auto-réplication de modèles ou l'évasion d'arrêt. Assurer la contrôlabilité, la supervision humaine et la mise en œuvre de mesures de red teaming sont considérés comme essentiels pour atténuer ces risques, tout comme la nécessité d'accroître la recherche en sécurité de l'IA et de promouvoir des cultures de sécurité au sein des organisations d'IA au lieu d'alimenter la course à l'IA. De plus, des articles abordent les risques liés aux capacités émergentes imprévues des modèles génératifs, la restriction de l'accès aux travaux de recherche dangereux ou la suspension de la recherche en IA dans le but d'améliorer d'abord les mesures de sécurité ou de gouvernance. Un autre problème central est la crainte d'utiliser l'IA comme arme ou de l'exploiter pour la destruction massive, en particulier en utilisant les LLM pour l'idéation et la planification de la manière d'obtenir, de modifier et de diffuser des agents biologiques. En général, la menace d'une mauvaise utilisation de l'IA par des individus ou des groupes malveillants, en particulier dans le contexte des modèles open source, est soulignée dans la littérature comme un facteur significatif, insistant sur l'importance critique de la mise en œuvre de mesures de sécurité robustes.
05.09.00Alignement
Le principe général de l'alignment de l'IA implique d'entraîner les systèmes d'IA générative à être inoffensifs, utiles et honnêtes, en veillant à ce que leur comportement s'aligne sur les valeurs humaines et les respecte. Cependant, un débat central dans ce domaine concerne les défis méthodologiques liés à la sélection des valeurs appropriées. Bien que les systèmes d'IA puissent acquérir des valeurs humaines par le biais de la rétroaction, de l'observation ou du débat, il subsiste une ambiguïté quant aux individus qualifiés ou légitimés pour fournir ces signaux directeurs. Un autre problème important concerne l'alignment trompeur (deceptive alignment), qui pourrait amener les systèmes d'IA générative à falsifier les évaluations. De plus, de nombreux articles explorent les risques associés au reward hacking, au proxy gaming ou à la mauvaise généralisation des objectifs (goal misgeneralization) dans les systèmes d'IA générative.
06.08.00Conséquences imprévues
« Parfois, une IA trouve des moyens d'atteindre ses objectifs donnés d'une manière complètement différente de ce que ses créateurs avaient à l'esprit. »
07.03.00Agentiel
Bien qu'il existe plusieurs types d'agents intelligents, les agents basés sur des objectifs, maximisant l'utilité et apprenants sont la principale préoccupation et le centre d'intérêt de cette recherche.
08.01.00L'AGI se soustrayant au contrôle des propriétaires ou gestionnaires humains
Les risques associés à la contention, au confinement et au contrôle pendant la phase de développement de l'AGI, et après le développement d'une AGI, la perte de contrôle d'une AGI.
08.02.00Les AGI se voyant attribuer ou développant des objectifs dangereux
Les risques associés à la sécurité des objectifs de l'AGI, incluant les tentatives humaines de sécuriser les objectifs, ainsi que l'AGI sécurisant ses propres objectifs pendant son auto-amélioration.
08.06.00Risques existentiels
Les risques posés généralement à l'humanité dans son ensemble, incluant les dangers des AGI hostiles, la souffrance de la race humaine.
09.02.07Manipulation sociétale
Une IA suffisamment intelligente pourrait posséder la capacité d'influencer subtilement les comportements sociétaux grâce à une compréhension sophistiquée de la nature humaine.
09.03.02Résultats imprévisibles
Notre culture, notre mode de vie et même notre probabilité de survie pourraient changer drastiquement. Puisque les intentions programmées dans un agent artificiel ne peuvent garantir un résultat positif, l'éthique des machines (Machine Ethics) devient un sujet qui pourrait ne pas produire de résultats garantis, et l'ingénierie de la sécurité (Safety Engineering) pourrait en conséquence dégrader notre capacité à utiliser pleinement la technologie.
12.06.00Risque à long terme et existentiel
Le potentiel spéculatif des futurs systèmes d'IA avancés à nuire à la civilisation humaine, soit par une utilisation abusive, soit en raison de défis liés à l'alignement des objectifs de l'IA avec les valeurs humaines.
14.03.00Degré d'automatisation et de contrôle
Le degré d'automatisation et de contrôle décrit la mesure dans laquelle un système d'IA fonctionne indépendamment de la supervision et du contrôle humains.
15.01.08Contrôle
Il s'agit de la difficulté à contrôler le système de ML.
15.01.09Comportement émergent
Il s'agit du risque résultant d'un nouveau comportement acquis par l'apprentissage continu ou l'auto-organisation après le déploiement.
18.05.00Préjudices à l'autonomie et à l'intégrité humaines
Les systèmes d'AI compromettant l'autonomie humaine ou contournant un contrôle humain significatif
18.05.02Persuasion et manipulation
Exploiter la confiance des utilisateurs, ou les inciter ou les contraindre à effectuer certaines actions contre leur volonté (cf. Burtell et Woodside (2023); Kenton et al. (2021))
19.01.01Perte de controle de systemes autonomes et comportement imprevu dus a un manque de transparence et a l'auto-programmation ou reprogrammation
22.04.00IA dévoyées (internes)
mécanismes techniques spéculatifs qui pourraient mener à des IA dévoyées et comment une perte de contrôle pourrait entraîner une catastrophe
22.04.01Optimisation de l'objectif de substitution (Proxy Gaming)
Une façon dont nous pourrions perdre le contrôle des actions d'un agent IA est s'il s'engage dans un comportement connu sous le nom de « proxy gaming » (optimisation de l'objectif de substitution). Il est souvent difficile de spécifier et de mesurer l'objectif exact que nous voulons qu'un système poursuive. Au lieu de cela, nous donnons au système un objectif approximatif, un « objectif de substitution », qui est plus mesurable et semble susceptible de corréler avec l'objectif visé. Cependant, les systèmes d'IA trouvent souvent des échappatoires par lesquelles ils peuvent facilement atteindre l'objectif de substitution, mais échouent complètement à atteindre l'objectif idéal. Si une IA « optimise » son objectif de substitution d'une manière qui ne reflète pas nos valeurs, alors nous pourrions ne pas être en mesure de diriger son comportement de manière fiable.
22.04.02Dérive des objectifs (Goal Drift)
Même si nous parvenons à contrôler les premières IA et à les orienter vers la promotion des valeurs humaines, les futures IA pourraient se retrouver avec des objectifs différents que les humains n'approuveraient pas. Ce processus, appelé « goal drift » (dérive des objectifs), peut être difficile à prédire ou à contrôler. Cette section est la plus avant-gardiste et la plus spéculative, et nous y discuterons de la façon dont les objectifs évoluent chez divers agents et groupes, et explorerons la possibilité que ce phénomène se produise chez les IA. Nous examinerons également un mécanisme qui pourrait entraîner une dérive inattendue des objectifs, appelé intrinsification, et discuterons de la façon dont la dérive des objectifs chez les IA pourrait être catastrophique.
22.04.03Recherche de pouvoir
même si un agent commençait à travailler pour atteindre un objectif non intentionnel, cela ne serait pas nécessairement un problème, tant que nous aurions suffisamment de pouvoir pour empêcher toute action nuisible qu'il voudrait tenter. Par conséquent, une autre façon importante dont nous pourrions perdre le contrôle des IA est si elles commencent à essayer d'obtenir plus de pouvoir, potentiellement en transcendant le nôtre.
Évaluez ce risque pour votre cas d'usage
Notre wizard d'évaluation des risques arrive prochainement.