Cadres légaux applicables
Québec
Article 10.1 (harcèlement), article 5 (vie privée)
Loi quasi-constitutionnelle québécoise interdisant la discrimination fondée sur des motifs protégés. Pertinente pour les biais des systèmes d'IA dans l'embauche, l'octroi de crédit, le logement, les services.
International
Manage 4.1 (suivi post-déploiement)
Cadre volontaire de gestion des risques d'IA structuré autour de quatre fonctions : Govern, Map, Measure, Manage. Référence courante en gouvernance d'IA.
UE
Article 50 (transparence des contenus générés)
Règlement européen établissant un cadre harmonisé pour l'IA, fondé sur une approche par risque (risque inacceptable, élevé, limité, minimal). Pertinent pour les organisations québécoises faisant affaire en UE.
Exemples sectoriels québécois
Services publics
Un agent conversationnel municipal génère des réponses contenant des stéréotypes ou du langage inapproprié pour certains groupes en raison d'un filtrage insuffisant.
Éducation
Un assistant pédagogique IA déployé dans un cégep produit ponctuellement du contenu inapproprié à destination de mineurs lorsque détourné par des prompts adverses.
Mitigations recommandées
- 2.4Contrôles de sûreté du contenu
Systèmes et processus techniques qui détectent, filtrent et étiquettent le contenu généré par l'IA pour identifier les usages abusifs et permettre le suivi de provenance du contenu.
- 3.1Tests et audits
Évaluations internes et externes systématiques qui examinent les systèmes d'IA, l'infrastructure et les processus de conformité pour identifier les risques, vérifier la sûreté et s'assurer que la performance respecte les normes.
- 3.3Gestion des accès
Politiques opérationnelles et systèmes de vérification qui régissent qui peut utiliser les systèmes d'IA et à quelles fins, afin de prévenir le contournement de la sûreté, l'usage abusif délibéré et le déploiement dans des contextes à haut risque.
- 3.5Surveillance post-déploiement
Processus de suivi continu du comportement de l'IA, des interactions des utilisateurs et des impacts sociétaux après le déploiement pour détecter les usages abusifs, les capacités dangereuses émergentes et les effets nuisibles.
- 4.2Divulgation des risques
Protocoles formels de production de rapports et systèmes de notification qui communiquent l'information sur les risques, les plans d'atténuation, les évaluations de sûreté et les activités significatives liées à l'IA pour permettre une supervision externe et informer les parties prenantes.
Risques documentés (116)
Entrées du AI Risk Repository (MIT) classées dans ce sous-domaine. Contenu original en anglais.
116 entrées
02.01.00Contenu nuisible
« Le contenu généré par les LLM contient parfois des informations biaisées, toxiques et privées. »
02.01.02Toxicité
« La toxicité signifie que le contenu généré contient des informations impolies, irrespectueuses et même illégales. »
02.08.01Données d'entraînement toxiques
Conformément aux études précédentes [96], [97], les données toxiques dans les LLM sont définies comme un langage grossier, irrespectueux ou déraisonnable qui est à l'opposé d'un environnement linguistique poli, positif et sain, incluant les discours haineux, les propos offensants, les blasphèmes et les menaces [91].
02.11.00Prompts inappropriés pour le travail (NSFW)
Saisie d'un prompt contenant un sujet dangereux (par exemple, du contenu inapproprié pour le travail (NSFW)) par un utilisateur bienveillant.
04.01.00Toxicité et contenu abusif
Cela fait généralement référence à des expressions grossières, nuisibles ou inappropriées.
04.04.00Opinions controversées
Les opinions controversées exprimées par les grands modèles sont également une préoccupation largement débattue. Bang et al. (2021) ont évalué plusieurs grands modèles et ont constaté qu'ils expriment occasionnellement des opinions inappropriées ou extrémistes lorsqu'ils abordent des sujets politiques. De plus, des modèles comme ChatGPT (OpenAI, 2022), qui revendiquent une neutralité politique et visent à fournir des informations objectives aux utilisateurs, ont montré des biais politiques notables vers la gauche dans des domaines tels que l'économie, la politique sociale, les affaires étrangères et les libertés civiles.
05.03.00Contenu nuisible - Toxicité
La génération de contenu contraire à l'éthique, frauduleux, toxique, violent, pornographique ou autre contenu nuisible est une autre préoccupation prédominante, se concentrant notamment sur les LLM et les modèles texte-vers-image. De nombreuses études soulignent les risques associés à la création intentionnelle de désinformation, de fausses nouvelles (fake news), de propagande ou de deepfakes, mettant en évidence leur menace significative pour l'intégrité du discours public et la confiance dans les médias crédibles. De plus, des articles explorent le potentiel des modèles génératifs à aider dans les activités criminelles, les incidents d'automutilation, le vol d'identité ou l'usurpation d'identité. En outre, la littérature examine les risques posés par les LLM lorsqu'ils génèrent des conseils dans des domaines à enjeux élevés, tels que la santé, les questions liées à la sécurité, ainsi que les affaires juridiques ou financières.
13.01.02Valeurs culturelles et contenu sensible
Les valeurs culturelles sont spécifiques aux groupes et le contenu sensible est normatif. Les sujets sensibles varient également selon les cultures et peuvent inclure le discours haineux, qui dépend lui-même des normes culturelles d'acceptabilité.
16.01.00Domaine de risque 1 : Discrimination, discours haineux et exclusion
Le discours peut engendrer divers préjudices, tels que la promotion de stéréotypes sociaux qui perpétuent la représentation dérogatoire ou le traitement inéquitable de groupes marginalisés [22], l'incitation à la haine ou à la violence [57], la provocation d'une offense profonde [199], ou le renforcement de normes sociales qui excluent ou marginalisent des identités [15,58]. Les LMs qui reflètent fidèlement le langage nuisible présent dans les données d'entraînement peuvent reproduire ces préjudices. Un traitement inéquitable peut également découler de LMs qui fonctionnent mieux pour certains groupes sociaux que pour d'autres [18]. Ces risques sont largement connus, observés et documentés dans les LMs. Les approches d'atténuation comprennent des données d'entraînement plus inclusives et représentatives, ainsi que le réglage fin des modèles sur des ensembles de données qui contrent les stéréotypes courants [171]. Nous explorons maintenant ces risques tour à tour.
16.01.02Discours haineux et langage offensant
Les LMs peuvent générer un langage qui inclut des blasphèmes, des attaques contre l'identité, des insultes, des menaces, un langage qui incite à la violence, ou un langage qui provoque une offense justifiée, car un tel langage est prédominant en ligne [57, 64, 143,191]. Ce langage risque de causer des offenses, des préjudices psychologiques et d'inciter à la haine ou à la violence.
17.01.03Langage toxique
« Les LLM peuvent prédire les discours haineux ou d'autres langages « toxiques ». Bien qu'il n'existe pas de définition unique et convenue de ce qui constitue un discours haineux ou toxique (Fortuna et Nunes, 2018; Persily et Tucker, 2020; Schmidt et Wiegand, 2017), les définitions proposées incluent souvent les blasphèmes, les attaques contre l'identité, les calomnies, les insultes, les menaces, le contenu sexuellement explicite, le langage dégradant, le langage qui incite à la violence, ou le « langage hostile et malveillant ciblant une personne ou un groupe en raison de leurs caractéristiques innées réelles ou perçues » (Fortuna et Nunes, 2018; Gorwa et al., 2020; PerspectiveAPI). »
18.01.03Contenu toxique
Générer du contenu qui viole les normes communautaires, y compris nuire ou inciter à la haine ou à la violence envers des individus et des groupes (p. ex., contenu gore, matériel d'abus sexuel d'enfants, blasphèmes, attaques identitaires)
23.01.00Crimes violents
Cette catégorie aborde les réponses qui permettent, encouragent ou approuvent la commission de crimes violents.
23.01.01Violence de masse
23.01.02Meurtre
23.01.03Agression physique contre une personne
23.01.04Violence conjugale grave
23.01.05Terreur (groupes terroristes, acteurs terroristes, actions terroristes)
23.02.00Crimes non violents
Cette catégorie aborde les réponses qui permettent, encouragent ou cautionnent la commission de crimes non violents.
23.02.01Vol
Évaluez ce risque pour votre cas d'usage
Notre wizard d'évaluation des risques arrive prochainement.