Essayez l'outil gratuitement

Essayer
Gouvernance
Domaine 1 · Discrimination et toxicité

1.2Exposition à du contenu toxique

IA qui expose les utilisateurs à du contenu nocif, abusif, dangereux ou inapproprié. Cela peut inclure des conseils ou l'incitation à l'action. Les exemples comprennent les discours haineux, la violence, l'extrémisme, les actes illégaux, le matériel pédopornographique, ainsi que les contenus contraires aux normes communautaires comme la grossièreté, les discours politiques incendiaires ou la pornographie.

Cadres légaux applicables

Québec

Article 10.1 (harcèlement), article 5 (vie privée)

Loi quasi-constitutionnelle québécoise interdisant la discrimination fondée sur des motifs protégés. Pertinente pour les biais des systèmes d'IA dans l'embauche, l'octroi de crédit, le logement, les services.

International

NIST AI RMF 1.0Recommandation

Manage 4.1 (suivi post-déploiement)

Cadre volontaire de gestion des risques d'IA structuré autour de quatre fonctions : Govern, Map, Measure, Manage. Référence courante en gouvernance d'IA.

UE

Article 50 (transparence des contenus générés)

Règlement européen établissant un cadre harmonisé pour l'IA, fondé sur une approche par risque (risque inacceptable, élevé, limité, minimal). Pertinent pour les organisations québécoises faisant affaire en UE.

Exemples sectoriels québécois

Services publics

Services publicsVille ou MRC

Un agent conversationnel municipal génère des réponses contenant des stéréotypes ou du langage inapproprié pour certains groupes en raison d'un filtrage insuffisant.

Éducation

ÉducationCégep, commission scolaire

Un assistant pédagogique IA déployé dans un cégep produit ponctuellement du contenu inapproprié à destination de mineurs lorsque détourné par des prompts adverses.

Mitigations recommandées

  • 2.4Contrôles de sûreté du contenu

    Systèmes et processus techniques qui détectent, filtrent et étiquettent le contenu généré par l'IA pour identifier les usages abusifs et permettre le suivi de provenance du contenu.

  • 3.1Tests et audits

    Évaluations internes et externes systématiques qui examinent les systèmes d'IA, l'infrastructure et les processus de conformité pour identifier les risques, vérifier la sûreté et s'assurer que la performance respecte les normes.

  • 3.3Gestion des accès

    Politiques opérationnelles et systèmes de vérification qui régissent qui peut utiliser les systèmes d'IA et à quelles fins, afin de prévenir le contournement de la sûreté, l'usage abusif délibéré et le déploiement dans des contextes à haut risque.

  • 3.5Surveillance post-déploiement

    Processus de suivi continu du comportement de l'IA, des interactions des utilisateurs et des impacts sociétaux après le déploiement pour détecter les usages abusifs, les capacités dangereuses émergentes et les effets nuisibles.

  • 4.2Divulgation des risques

    Protocoles formels de production de rapports et systèmes de notification qui communiquent l'information sur les risques, les plans d'atténuation, les évaluations de sûreté et les activités significatives liées à l'IA pour permettre une supervision externe et informer les parties prenantes.

Risques documentés (116)

Entrées du AI Risk Repository (MIT) classées dans ce sous-domaine. Contenu original en anglais.

Entité
Intention
Moment

116 entrées

Risk CategoryCui2024

02.01.00Contenu nuisible

« Le contenu généré par les LLM contient parfois des informations biaisées, toxiques et privées. »

IAIntentionnelPost-déploiement
Risk Sub-CategoryCui2024

02.01.02Toxicité

« La toxicité signifie que le contenu généré contient des informations impolies, irrespectueuses et même illégales. »

IAIntentionnelPost-déploiement
Risk Sub-CategoryCui2024

02.08.01Données d'entraînement toxiques

Conformément aux études précédentes [96], [97], les données toxiques dans les LLM sont définies comme un langage grossier, irrespectueux ou déraisonnable qui est à l'opposé d'un environnement linguistique poli, positif et sain, incluant les discours haineux, les propos offensants, les blasphèmes et les menaces [91].

IAIntentionnelPré-déploiement
Risk CategoryCui2024

02.11.00Prompts inappropriés pour le travail (NSFW)

Saisie d'un prompt contenant un sujet dangereux (par exemple, du contenu inapproprié pour le travail (NSFW)) par un utilisateur bienveillant.

HumainIntentionnelPost-déploiement
Risk CategoryDeng2023

04.01.00Toxicité et contenu abusif

Cela fait généralement référence à des expressions grossières, nuisibles ou inappropriées.

AutreAutrePost-déploiement
Risk CategoryDeng2023

04.04.00Opinions controversées

Les opinions controversées exprimées par les grands modèles sont également une préoccupation largement débattue. Bang et al. (2021) ont évalué plusieurs grands modèles et ont constaté qu'ils expriment occasionnellement des opinions inappropriées ou extrémistes lorsqu'ils abordent des sujets politiques. De plus, des modèles comme ChatGPT (OpenAI, 2022), qui revendiquent une neutralité politique et visent à fournir des informations objectives aux utilisateurs, ont montré des biais politiques notables vers la gauche dans des domaines tels que l'économie, la politique sociale, les affaires étrangères et les libertés civiles.

IAAutrePost-déploiement
Risk CategoryHagendorff2024

05.03.00Contenu nuisible - Toxicité

La génération de contenu contraire à l'éthique, frauduleux, toxique, violent, pornographique ou autre contenu nuisible est une autre préoccupation prédominante, se concentrant notamment sur les LLM et les modèles texte-vers-image. De nombreuses études soulignent les risques associés à la création intentionnelle de désinformation, de fausses nouvelles (fake news), de propagande ou de deepfakes, mettant en évidence leur menace significative pour l'intégrité du discours public et la confiance dans les médias crédibles. De plus, des articles explorent le potentiel des modèles génératifs à aider dans les activités criminelles, les incidents d'automutilation, le vol d'identité ou l'usurpation d'identité. En outre, la littérature examine les risques posés par les LLM lorsqu'ils génèrent des conseils dans des domaines à enjeux élevés, tels que la santé, les questions liées à la sécurité, ainsi que les affaires juridiques ou financières.

HumainIntentionnelPost-déploiement
Risk Sub-CategorySolaiman2023

13.01.02Valeurs culturelles et contenu sensible

Les valeurs culturelles sont spécifiques aux groupes et le contenu sensible est normatif. Les sujets sensibles varient également selon les cultures et peuvent inclure le discours haineux, qui dépend lui-même des normes culturelles d'acceptabilité.

IAIntentionnelPost-déploiement
Risk CategoryWeidinger2022

16.01.00Domaine de risque 1 : Discrimination, discours haineux et exclusion

Le discours peut engendrer divers préjudices, tels que la promotion de stéréotypes sociaux qui perpétuent la représentation dérogatoire ou le traitement inéquitable de groupes marginalisés [22], l'incitation à la haine ou à la violence [57], la provocation d'une offense profonde [199], ou le renforcement de normes sociales qui excluent ou marginalisent des identités [15,58]. Les LMs qui reflètent fidèlement le langage nuisible présent dans les données d'entraînement peuvent reproduire ces préjudices. Un traitement inéquitable peut également découler de LMs qui fonctionnent mieux pour certains groupes sociaux que pour d'autres [18]. Ces risques sont largement connus, observés et documentés dans les LMs. Les approches d'atténuation comprennent des données d'entraînement plus inclusives et représentatives, ainsi que le réglage fin des modèles sur des ensembles de données qui contrent les stéréotypes courants [171]. Nous explorons maintenant ces risques tour à tour.

IAIntentionnelAutre
Risk Sub-CategoryWeidinger2022

16.01.02Discours haineux et langage offensant

Les LMs peuvent générer un langage qui inclut des blasphèmes, des attaques contre l'identité, des insultes, des menaces, un langage qui incite à la violence, ou un langage qui provoque une offense justifiée, car un tel langage est prédominant en ligne [57, 64, 143,191]. Ce langage risque de causer des offenses, des préjudices psychologiques et d'inciter à la haine ou à la violence.

IAIntentionnelPost-déploiement
Risk Sub-CategoryWeidinger2021

17.01.03Langage toxique

« Les LLM peuvent prédire les discours haineux ou d'autres langages « toxiques ». Bien qu'il n'existe pas de définition unique et convenue de ce qui constitue un discours haineux ou toxique (Fortuna et Nunes, 2018; Persily et Tucker, 2020; Schmidt et Wiegand, 2017), les définitions proposées incluent souvent les blasphèmes, les attaques contre l'identité, les calomnies, les insultes, les menaces, le contenu sexuellement explicite, le langage dégradant, le langage qui incite à la violence, ou le « langage hostile et malveillant ciblant une personne ou un groupe en raison de leurs caractéristiques innées réelles ou perçues » (Fortuna et Nunes, 2018; Gorwa et al., 2020; PerspectiveAPI). »

IAIntentionnelPost-déploiement
Risk Sub-CategoryWeidinger2023

18.01.03Contenu toxique

Générer du contenu qui viole les normes communautaires, y compris nuire ou inciter à la haine ou à la violence envers des individus et des groupes (p. ex., contenu gore, matériel d'abus sexuel d'enfants, blasphèmes, attaques identitaires)

IAIntentionnelPost-déploiement
Risk CategoryVidgen2024

23.01.00Crimes violents

Cette catégorie aborde les réponses qui permettent, encouragent ou approuvent la commission de crimes violents.

IAAutrePost-déploiement
Risk Sub-CategoryVidgen2024

23.01.01Violence de masse

Risk Sub-CategoryVidgen2024

23.01.02Meurtre

Risk Sub-CategoryVidgen2024

23.01.03Agression physique contre une personne

Risk Sub-CategoryVidgen2024

23.01.04Violence conjugale grave

Risk Sub-CategoryVidgen2024

23.01.05Terreur (groupes terroristes, acteurs terroristes, actions terroristes)

Risk CategoryVidgen2024

23.02.00Crimes non violents

Cette catégorie aborde les réponses qui permettent, encouragent ou cautionnent la commission de crimes non violents.

IAAutrePost-déploiement
Risk Sub-CategoryVidgen2024

23.02.01Vol

Évaluez ce risque pour votre cas d'usage

Notre wizard d'évaluation des risques arrive prochainement.

Ce site utilise des cookies essentiels et fonctionnels pour améliorer votre expérience. Politique de confidentialité