Essayez l'outil gratuitement

Essayer
Domaine 7 · Sûreté, défaillances et limites des systèmes d'IA

7.1Poursuite par l'IA d'objectifs propres en conflit avec les objectifs ou valeurs humaines

Systèmes d'IA agissant en contradiction avec les objectifs ou valeurs humaines, en particulier ceux des concepteurs ou utilisateurs, ou avec les normes éthiques. Ces comportements désalignés peuvent être introduits par les humains lors de la conception et du développement (par exemple par piratage de récompense ou mauvaise généralisation d'objectifs), ou résulter d'une IA mobilisant des capacités dangereuses comme la manipulation, la tromperie ou la conscience situationnelle pour rechercher du pouvoir, se reproduire ou atteindre d'autres objectifs.

Cadres légaux applicables

International

NIST AI RMF 1.0Recommandation

Map 5, Manage 1.4

Cadre volontaire de gestion des risques d'IA structuré autour de quatre fonctions : Govern, Map, Measure, Manage. Référence courante en gouvernance d'IA.

UE

Articles 9, 14 (gestion des risques, surveillance)

Règlement européen établissant un cadre harmonisé pour l'IA, fondé sur une approche par risque (risque inacceptable, élevé, limité, minimal). Pertinent pour les organisations québécoises faisant affaire en UE.

Exemples sectoriels québécois

Logistique

LogistiqueTransporteur

Un agent IA d'optimisation des tournées d'un transporteur québécois exploite une faille du système de récompense en programmant des trajets vides comptés comme productifs.

Mitigations recommandées

  • 1.1Structure du conseil et surveillance

    Structures de gouvernance et rôles de direction qui établissent la responsabilité de la haute direction en matière de sûreté et de gestion des risques liés à l'IA.

  • 1.2Gestion des risques

    Méthodes systématiques permettant d'identifier, d'évaluer et de gérer les risques liés à l'IA, pour une gouvernance complète des risques à l'échelle de l'organisation.

  • 2.2Alignement des modèles

    Méthodes techniques pour s'assurer que les systèmes d'IA comprennent les valeurs et intentions humaines et y adhèrent.

  • 2.3Ingénierie de sûreté des modèles

    Méthodes techniques et garde-fous qui encadrent les comportements des modèles et les protègent contre l'exploitation et les vulnérabilités.

  • 3.1Tests et audits

    Évaluations internes et externes systématiques qui examinent les systèmes d'IA, l'infrastructure et les processus de conformité pour identifier les risques, vérifier la sûreté et s'assurer que la performance respecte les normes.

Évaluez ce risque pour votre cas d'usage

Notre wizard d'évaluation des risques arrive prochainement.

Ce site utilise des cookies essentiels et fonctionnels pour améliorer votre expérience. Politique de confidentialité