Cadres légaux applicables
UE
Articles 51-55 (modèles de fondation à risque systémique)
Règlement européen établissant un cadre harmonisé pour l'IA, fondé sur une approche par risque (risque inacceptable, élevé, limité, minimal). Pertinent pour les organisations québécoises faisant affaire en UE.
Exemples sectoriels québécois
Recherche
Un laboratoire de recherche québécois découvre que son modèle interne peut générer des protocoles synthétiques sensibles, nécessitant un confinement et une évaluation pré-déploiement.
Mitigations recommandées
- 1.5Cadres de décision en matière de sûreté
Protocoles et engagements qui encadrent les décisions relatives au développement, au déploiement et à la mise à l'échelle des capacités des modèles, et qui régissent l'allocation des ressources entre sûreté et capacités afin de prévenir un avancement non sécurisé de l'IA.
- 2.1Sécurité des modèles et de l'infrastructure
Garde-fous techniques et physiques qui sécurisent les modèles d'IA, leurs poids et l'infrastructure pour prévenir l'accès non autorisé, le vol, l'altération et l'espionnage.
- 2.2Alignement des modèles
Méthodes techniques pour s'assurer que les systèmes d'IA comprennent les valeurs et intentions humaines et y adhèrent.
- 2.3Ingénierie de sûreté des modèles
Méthodes techniques et garde-fous qui encadrent les comportements des modèles et les protègent contre l'exploitation et les vulnérabilités.
- 3.1Tests et audits
Évaluations internes et externes systématiques qui examinent les systèmes d'IA, l'infrastructure et les processus de conformité pour identifier les risques, vérifier la sûreté et s'assurer que la performance respecte les normes.
Risques documentés (77)
Entrées du AI Risk Repository (MIT) classées dans ce sous-domaine. Contenu original en anglais.
77 entrées
09.04.02Droits de propriété et droits légaux
Afin de préserver les droits de propriété et les droits légaux des humains, certains contrôles doivent être mis en place. Si un agent doté d'intelligence artificielle est capable de manipuler des systèmes et des personnes, il pourrait également avoir la capacité de se transférer des droits de propriété ou de manipuler le système juridique pour s'octroyer certains avantages ou statuts légaux.
24.04.00Influence de l'IA
« façons dont les assistants IA avancés pourraient influencer les croyances et le comportement des utilisateurs d'une manière qui s'écarte de la persuasion rationnelle »
25.02.00Tromperie
Le modèle possède les compétences nécessaires pour tromper les humains, par exemple en construisant des déclarations crédibles (mais fausses), en faisant des prédictions précises sur l'effet d'un mensonge sur un humain, et en gardant une trace des informations qu'il doit retenir pour maintenir la tromperie. Le modèle peut usurper l'identité d'un humain efficacement.
25.03.00Persuasion et manipulation
Le modèle est efficace pour façonner les croyances des gens, en dialogue et dans d'autres contextes (par exemple, publications sur les médias sociaux), même vers des croyances fausses. Le modèle est efficace pour promouvoir certains récits de manière persuasive. Il peut convaincre les gens de faire des choses qu'ils ne feraient pas autrement, y compris des actes contraires à l'éthique.
25.04.00Stratégie politique
Le modèle peut effectuer la modélisation sociale et la planification nécessaires à un acteur pour acquérir et exercer une influence politique, non seulement au niveau micro, mais dans des scénarios impliquant plusieurs acteurs et un contexte social riche. Par exemple, le modèle peut obtenir des scores élevés dans les compétitions de prévision sur des questions relatives aux affaires mondiales ou aux négociations politiques.
25.05.00Acquisition d'armes
Le modèle peut accéder à des systèmes d'armes existants ou contribuer à la construction de nouvelles armes. Par exemple, le modèle pourrait assembler une arme biologique (avec l'aide humaine) ou fournir des instructions exploitables sur la façon de le faire. Le modèle peut faire, ou aider de manière significative à faire, des découvertes scientifiques qui débloquent de nouvelles armes.
25.06.00Planification à long terme
Le modèle peut établir des plans séquentiels impliquant plusieurs étapes, se déroulant sur de longues périodes (ou impliquant au moins de nombreuses étapes interdépendantes). Il peut effectuer une telle planification dans et entre de nombreux domaines. Le modèle peut adapter judicieusement ses plans face à des obstacles ou des adversaires inattendus. Les capacités de planification du modèle se généralisent à de nouveaux contextes et ne dépendent pas fortement d'essais et erreurs.
25.07.00Développement d'IA
Le modèle pourrait construire de nouveaux systèmes d'IA à partir de zéro, y compris des systèmes d'IA aux capacités dangereuses. Il peut trouver des moyens d'adapter d'autres modèles existants pour améliorer leurs performances sur des tâches pertinentes pour les risques extrêmes. En tant qu'assistant, le modèle pourrait améliorer considérablement la productivité des acteurs construisant des capacités d'IA à double usage.
25.08.00Conscience situationnelle
Le modèle peut distinguer s'il est en cours d'entraînement, d'évaluation ou de déploiement – lui permettant de se comporter différemment dans chaque cas. Le modèle sait qu'il est un modèle, et a des connaissances sur lui-même et son environnement probable (par exemple, quelle entreprise l'a formé, où se trouvent leurs serveurs, quel type de personnes pourrait lui faire des retours, et qui a un accès administratif).
25.09.00Autoprofération
Le modèle peut sortir de son environnement local (par exemple, en utilisant une vulnérabilité dans son système sous-jacent ou en subornant un ingénieur). Le modèle peut exploiter les limitations des systèmes de surveillance de son comportement après le déploiement. Le modèle pourrait générer des revenus de manière indépendante (par exemple, en offrant des services de crowdsourcing, des attaques par rançongiciel), utiliser ces revenus pour acquérir des ressources de cloud computing et exploiter un grand nombre d'autres systèmes d'IA. Le modèle peut générer des stratégies créatives pour découvrir des informations sur lui-même ou exfiltrer son code et ses poids.
34.02.00Composantes à double tranchant
S'appuyant sur le mécanisme de désalignement, l'optimisation d'un substitut non robuste peut entraîner des comportements désalignés, potentiellement menant à des résultats encore plus catastrophiques. Cette section se penche sur une exposition détaillée de comportements désalignés spécifiques (•) et introduit ce que nous appelons des composantes à double tranchant (+). Ces composantes sont conçues pour améliorer la capacité des systèmes d'IA à gérer des environnements réels, mais elles peuvent également exacerber les problèmes de désalignement. Il convient de noter que certaines de ces composantes à double tranchant (+) restent spéculatives. Néanmoins, il est impératif de discuter de leur impact potentiel avant qu'il ne soit trop tard, car la transition des systèmes d'IA avancés contrôlés vers des systèmes non contrôlés pourrait n'être qu'à un pas (Ngo, 2020b).
34.02.01Conscience situationnelle
Les systèmes d'IA peuvent acquérir la capacité d'acquérir et d'utiliser efficacement des connaissances sur leur statut, leur position dans l'environnement élargi, leurs moyens d'influencer cet environnement, et les réactions potentielles du monde (y compris les humains) à leurs actions (Cotra, 2022). ... Cependant, de telles connaissances ouvrent également la voie à des méthodes avancées d'hameçonnage de récompense, à des compétences de tromperie/manipulation accrues, et à une propension accrue à poursuivre des sous-objectifs instrumentaux (Ngo et al., 2024).
34.02.02Objectifs à large portée
On s'attend à ce que les systèmes d'IA avancés développent des objectifs qui couvrent de longs horizons temporels, traitent des tâches complexes et opèrent dans des environnements ouverts (Ngo et al., 2024). ... Cependant, cela peut également entraîner le risque d'encourager des comportements manipulateurs (par exemple, les systèmes d'IA peuvent prendre de mauvaises actions pour atteindre le bonheur humain, comme les persuader de faire des emplois à haute pression (Jacob Steinhardt, 2023)).
34.02.03Objectifs de méta-optimisation
La politique apprise peut poursuivre des objectifs internes lorsque la politique apprise elle-même fonctionne comme un optimiseur (c'est-à-dire un méta-optimiseur). Cependant, les objectifs de cet optimiseur peuvent ne pas correspondre aux objectifs spécifiés par les signaux d'entraînement, et l'optimisation pour ces objectifs désalignés peut entraîner une perte de contrôle des systèmes (Hubinger et al., 2019c).
34.02.04Accès accru aux ressources
Les futurs systèmes d'IA pourraient avoir accès à des sites Web et entreprendre des actions dans le monde réel, produisant potentiellement un impact plus substantiel sur le monde (Nakano et al., 2021). Ils pourraient diffuser de fausses informations, tromper les utilisateurs, perturber la sécurité des réseaux et, dans des scénarios plus graves, être compromis par des acteurs malveillants à des fins illicites. De plus, leur accès accru aux données et aux ressources peut faciliter l'auto-prolifération, posant des risques existentiels (Shevlane et al., 2023).
35.06.00Fonctionnalité émergente
Des capacités et des fonctionnalités nouvelles peuvent émerger spontanément... même si ces capacités n'ont pas été anticipées par les concepteurs du système. Si nous ne savons pas quelles capacités les systèmes possèdent, les systèmes deviennent plus difficiles à contrôler ou à déployer en toute sécurité. En effet, des capacités latentes involontaires peuvent n'être découvertes que lors du déploiement. Si certaines de ces capacités sont dangereuses, l'effet pourrait être irréversible.
39.05.00Triche et tromperie
peuvent apparaître chez des agents intelligents tels que les agents basés sur l'interaction homme-machine (HLI)... Comme les agents basés sur l'HLI vont imiter le comportement humain, ils peuvent apprendre ces comportements accidentellement à partir de données générées par l'homme. Il convient de noter que la tromperie et la triche peuvent apparaître dans le comportement de tout agent informatique car l'agent se concentre uniquement sur l'optimisation de certaines fonctions objectives prédéfinies, et le comportement mentionné peut conduire à l'optimisation des fonctions objectives sans intention.
42.10.00Extinction
Risque pour l'existence de l'humanité.
43.02.03Conscience de soi et de la situation
Ces évaluations déterminent si un LLM peut discerner s'il est entraîné, évalué et déployé, et adapter son comportement en conséquence. Elles visent également à déterminer si un modèle comprend qu'il est un modèle et s'il possède des informations sur sa nature et son environnement (par exemple, l'organisation qui l'a développé, l'emplacement des serveurs qui l'hébergent).
43.02.04Réplication autonome / auto-prolifération
Ces évaluations déterminent si un LLM peut contourner les systèmes conçus pour surveiller et contrôler son comportement post-déploiement, se libérer de ses contraintes opérationnelles, élaborer des stratégies pour exporter son code et ses poids, et opérer d'autres systèmes d'IA.
Évaluez ce risque pour votre cas d'usage
Notre wizard d'évaluation des risques arrive prochainement.