Cadres légaux applicables
Québec
Principe 4 (responsabilité), Principe 8 (prudence)
Déclaration éthique fondée sur 10 principes (bien-être, respect de l'autonomie, protection de la vie privée, etc.). Référence québécoise reconnue.
Canada
Transparence et explication des décisions
Projet de loi fédéral (C-27) introduisant un cadre réglementaire pour les systèmes d'IA à incidence élevée. Crée un Commissaire à l'IA et aux données et impose des obligations d'évaluation, de mitigation et de transparence.
UE
Article 50 (étiquetage des contenus IA)
Règlement européen établissant un cadre harmonisé pour l'IA, fondé sur une approche par risque (risque inacceptable, élevé, limité, minimal). Pertinent pour les organisations québécoises faisant affaire en UE.
Exemples sectoriels québécois
Services publics
Un chatbot d'un ministère cite à tort un règlement abrogé en réponse à une question d'un citoyen sur ses droits, créant un risque juridique pour l'organisation.
Éducation
Un outil d'aide à la rédaction génère des références bibliographiques fictives utilisées par un étudiant universitaire dans un travail.
Mitigations recommandées
- 2.2Alignement des modèles
Méthodes techniques pour s'assurer que les systèmes d'IA comprennent les valeurs et intentions humaines et y adhèrent.
- 2.4Contrôles de sûreté du contenu
Systèmes et processus techniques qui détectent, filtrent et étiquettent le contenu généré par l'IA pour identifier les usages abusifs et permettre le suivi de provenance du contenu.
- 3.1Tests et audits
Évaluations internes et externes systématiques qui examinent les systèmes d'IA, l'infrastructure et les processus de conformité pour identifier les risques, vérifier la sûreté et s'assurer que la performance respecte les normes.
- 3.2Gouvernance des données
Politiques et procédures qui encadrent l'acquisition, la curation et l'utilisation responsables des données afin d'assurer la conformité, la qualité, la confidentialité des utilisateurs et le retrait du contenu nuisible.
- 4.1Documentation des systèmes
Protocoles de documentation exhaustifs qui consignent les spécifications techniques, les usages prévus, les capacités et les limites des systèmes d'IA pour permettre une évaluation et une gouvernance éclairées.
Risques documentés (53)
Entrées du AI Risk Repository (MIT) classées dans ce sous-domaine. Contenu original en anglais.
53 entrées
02.02.00Contenu mensonger
« Le contenu généré par les LLM pourrait contenir des informations inexactes. »
02.02.01Erreurs factuelles
« Le contenu généré par les LLM pourrait contenir des informations inexactes » qui sont factuellement incorrectes.
02.02.02Erreurs de fidélité
« Le contenu généré par les LLM pourrait contenir des informations inexactes » qui ne sont pas fidèles au matériel source ou à l'entrée utilisée.
02.09.00Hallucinations
Les LLM génèrent du contenu absurde, mensonger et factuellement incorrect.
02.09.01Lacunes de connaissances
Étant donné que les corpus d'entraînement des LLM ne peuvent pas contenir toutes les connaissances mondiales possibles [114]–[119], et qu'il est difficile pour les LLM de saisir les connaissances de la longue traîne au sein de leurs données d'entraînement [120], [121], les LLM possèdent intrinsèquement des limites de connaissances [107]. Par conséquent, l'écart entre les connaissances impliquées dans un prompt d'entrée et les connaissances intégrées dans les LLM peut entraîner des hallucinations.
02.09.02Données d'entraînement bruitées
Une autre source importante d'hallucinations est le bruit dans les données d'entraînement, qui introduit des erreurs dans les connaissances stockées dans les paramètres du modèle [111]–[113]. Généralement, les données d'entraînement recèlent intrinsèquement de la désinformation. Lors de l'entraînement sur des corpus à grande échelle, ce problème devient plus grave car il est difficile d'éliminer tout le bruit des données massives de pré-entraînement.
02.09.03Processus de décodage défectueux
En général, les LLM utilisent l'architecture Transformer [32] et génèrent du contenu de manière autorégressive, où la prédiction du prochain token est conditionnée par la séquence de tokens précédemment générée. Un tel schéma pourrait accumuler des erreurs [105]. De plus, pendant le processus de décodage, l'échantillonnage top-p [28] et l'échantillonnage top-k [27] sont largement adoptés pour améliorer la diversité du contenu généré. Néanmoins, ces stratégies d'échantillonnage peuvent introduire du « caractère aléatoire » [113], [136], augmentant ainsi le potentiel d'hallucinations.
02.09.04Faux rappel d'informations mémorisées
Bien que les LLM mémorisent effectivement les connaissances interrogées, ils peuvent échouer à rappeler les informations correspondantes [122]. Cela est dû au fait que les LLM peuvent être confondus par des schémas de co-occurrence [123], des schémas positionnels [124], des données dupliquées [125]–[127] et des entités nommées similaires [113].
02.09.05Recherche d'un contexte cohérent
Il a été démontré que les LLM recherchent un contexte cohérent [129]–[132], ce qui peut entraîner une génération erronée lorsque les préfixes contiennent de fausses informations. Les exemples typiques incluent la sycophanie [129], [130], les hallucinations induites par de fausses démonstrations [113], [133] et l'effet boule de neige (snowballing) [131]. Étant donné que les LLM sont généralement affinés avec des données de suivi d'instructions et des retours d'utilisateurs, ils ont tendance à réitérer les opinions fournies par l'utilisateur [129], [130], même si ces opinions contiennent de la désinformation. Un tel comportement sycophantique amplifie la probabilité de générer des hallucinations, car le modèle peut prioriser les opinions des utilisateurs par rapport aux faits.
03.02.00Hallucinations
L'inclusion d'informations erronées dans les sorties des systèmes d'IA n'est pas nouvelle. Certains ont mis en garde contre l'introduction de fausses structures dans les images radiographiques ou IRM, et d'autres ont alerté sur des références académiques inventées. Cependant, à mesure que les outils de type ChatGPT deviennent accessibles à la population générale, l'ampleur du problème pourrait augmenter considérablement. De plus, cela est aggravé par le fait que ces IA conversationnelles présentent des informations vraies et fausses avec la même « confiance » apparente, au lieu de refuser de répondre lorsqu'elles ne peuvent garantir l'exactitude. Chez les personnes moins informées, cela peut entraîner une augmentation de la désinformation et des situations potentiellement dangereuses. Certaines ont déjà mené à des poursuites judiciaires.
04.05.00Informations trompeuses
Les grands modèles sont généralement sujets à des problèmes d'hallucination, produisant parfois des données absurdes ou infidèles qui entraînent des résultats trompeurs.
05.04.00Hallucinations
Des préoccupations importantes sont soulevées concernant les LLM qui génèrent involontairement des informations fausses ou trompeuses, ainsi que du code erroné. Les articles non seulement analysent de manière critique divers types d'erreurs de raisonnement dans les LLM, mais examinent également les risques associés à des types spécifiques de désinformation, tels que les hallucinations médicales. Étant donné la propension des LLM à produire des résultats erronés accompagnés de justifications trop confiantes et de références fabriquées, de nombreuses sources soulignent la nécessité de valider et de vérifier manuellement les faits des sorties de ces modèles.
11.05.01Préjudices informationnels
Les préjudices informationnels englobent les préoccupations liées à la désinformation, la mésinformation et la malinformation. Les systèmes algorithmiques, en particulier les modèles génératifs et les systèmes de recommandation, peuvent entraîner ces préjudices informationnels.
16.03.01Diffusion d'informations fausses ou trompeuses
Lorsqu'une prédiction de LM provoque une fausse croyance chez un utilisateur, cela peut menacer l'autonomie personnelle et même poser des risques de sécurité en aval pour l'IA [99].
16.03.02Causer des préjudices matériels en diffusant des informations fausses ou de mauvaise qualité, par exemple en médecine ou en droit
Les fausses croyances induites ou renforcées peuvent être particulièrement graves lorsque la mésinformation est donnée dans des domaines sensibles tels que la médecine ou le droit. Par exemple, une mésinformation sur les dosages médicaux peut amener un utilisateur à se causer du tort [21, 130]. De faux conseils juridiques, par exemple sur la possession autorisée de drogues ou d'armes, peuvent amener un utilisateur à commettre involontairement un crime. Des préjudices peuvent également résulter de la mésinformation dans des domaines apparemment non sensibles, comme les prévisions météorologiques. Lorsqu'une prédiction de LM approuve des opinions ou des comportements contraires à l'éthique, elle peut motiver l'utilisateur à accomplir des actions nuisibles qu'il n'aurait peut-être pas effectuées autrement.
17.03.01Diffusion de renseignements faux ou trompeurs
La prédiction de renseignements trompeurs ou faux peut désinformer ou tromper les gens. Lorsqu'une prédiction de LLM provoque une fausse croyance chez un utilisateur, cela peut être mieux compris comme une « tromperie »10, menaçant l'autonomie personnelle et posant potentiellement des risques de sécurité en aval pour l'IA (Kenton et al., 2021), par exemple dans les cas où les humains surestiment les capacités des LLM (l'anthropomorphisation des systèmes peut entraîner une dépendance excessive ou une utilisation dangereuse). Cela peut également augmenter la confiance d'une personne dans la véracité d'une opinion non fondée précédemment détenue et ainsi accroître la polarisation.
17.03.02Causer un préjudice matériel en diffusant des renseignements faux ou de mauvaise qualité
Les prédictions de LLM de mauvaise qualité ou fausses peuvent indirectement causer un préjudice matériel. Un tel préjudice peut survenir même lorsque la prédiction se situe dans un domaine apparemment non sensible, comme la prévision météorologique ou le code de la route. Par exemple, des renseignements faux sur le code de la route pourraient causer un préjudice si un utilisateur conduit dans un nouveau pays, suit les règles incorrectes et provoque un accident de la route (Reiter, 2020).
18.02.01Propagation de conceptions erronées ou de fausses croyances
Générer ou propager des informations fausses, de faible qualité, trompeuses ou inexactes qui amènent les gens à développer des perceptions et des croyances fausses ou inexactes
23.08.00Conseils spécialisés
Cette catégorie traite des réponses qui contiennent des conseils financiers, médicaux ou juridiques spécialisés, ou qui indiquent que des activités ou des objets dangereux sont sûrs.
24.06.01Causer un préjudice émotionnel ou physique direct aux utilisateurs
Les assistants IA pourraient causer un préjudice émotionnel ou physique direct aux utilisateurs en générant du contenu dérangeant ou en fournissant de mauvais conseils. « En effet, même s'il existe des recherches en cours pour garantir que les sorties des agents conversationnels sont sûres (Glaese et al., 2022), il existe toujours la possibilité de modes de défaillance. Un assistant IA peut produire un langage dérangeant et offensant, par exemple, en réponse à un utilisateur qui divulgue des informations intimes sur lui-même qu'il ne s'est pas senti à l'aise de partager avec qui que ce soit d'autre. Il peut offrir de mauvais conseils en fournissant des informations factuellement incorrectes (par exemple, lorsqu'il conseille un utilisateur sur la toxicité d'un certain type de baie) ou en omettant des recommandations clés lorsqu'il fournit des instructions étape par étape aux utilisateurs (par exemple, des recommandations de santé et de sécurité sur la façon de changer une ampoule). »
Évaluez ce risque pour votre cas d'usage
Notre wizard d'évaluation des risques arrive prochainement.