Cadres légaux applicables
Québec
Articles 4, 5, 7-12, 14, 22 (consentement, finalité, minimisation, conservation, EFVP article 3.3)
Loi québécoise sur la protection des renseignements personnels en vigueur depuis le 22 septembre 2023, encadrant la collecte, l'utilisation, la communication et la conservation des renseignements personnels par les entreprises et organismes publics. Inclut des obligations sur la prise de décision automatisée (article 12.1).
Articles sur la communication des renseignements de santé
Encadre l'utilisation, la communication et la conservation des renseignements de santé au Québec, y compris pour les usages secondaires (recherche, IA en santé).
Canada
Annexe 1 - 10 principes équitables
Loi fédérale canadienne applicable aux entreprises du secteur privé pour les renseignements personnels recueillis dans le cadre d'activités commerciales. S'applique notamment hors Québec.
UE
Articles 5, 6, 9, 25, 32, 35 (DPIA)
Règlement européen sur la protection des données. Pertinent pour les organisations québécoises traitant des données de résidents européens.
Articles 10, 26 (qualité des données)
Règlement européen établissant un cadre harmonisé pour l'IA, fondé sur une approche par risque (risque inacceptable, élevé, limité, minimal). Pertinent pour les organisations québécoises faisant affaire en UE.
Exemples sectoriels québécois
Banque et assurance
Un modèle d'analyse de transactions bancaires régurgite, lors de tests internes, des numéros de compte ou prénoms apparaissant dans son corpus d'entraînement, en violation de l'article 10 de la Loi 25.
Santé et services sociaux
Un assistant médical IA infère le statut sérologique d'un patient à partir de signaux indirects, exposant des renseignements de santé non communiqués explicitement par la personne concernée.
Services publics
Une preuve de concept municipale entraîne un modèle sur des courriels citoyens sans réaliser d'évaluation des facteurs relatifs à la vie privée (EFVP) prévue par l'article 3.3 de la Loi 25.
Mitigations recommandées
- 1.1Structure du conseil et surveillance
Structures de gouvernance et rôles de direction qui établissent la responsabilité de la haute direction en matière de sûreté et de gestion des risques liés à l'IA.
- 2.1Sécurité des modèles et de l'infrastructure
Garde-fous techniques et physiques qui sécurisent les modèles d'IA, leurs poids et l'infrastructure pour prévenir l'accès non autorisé, le vol, l'altération et l'espionnage.
- 3.2Gouvernance des données
Politiques et procédures qui encadrent l'acquisition, la curation et l'utilisation responsables des données afin d'assurer la conformité, la qualité, la confidentialité des utilisateurs et le retrait du contenu nuisible.
- 3.3Gestion des accès
Politiques opérationnelles et systèmes de vérification qui régissent qui peut utiliser les systèmes d'IA et à quelles fins, afin de prévenir le contournement de la sûreté, l'usage abusif délibéré et le déploiement dans des contextes à haut risque.
- 4.6Droits et recours des utilisateurs
Cadres et procédures qui permettent aux utilisateurs d'identifier et de comprendre les interactions avec les systèmes d'IA, de signaler des problèmes, de demander des explications et de solliciter un recours ou une réparation lorsqu'ils sont affectés par des systèmes d'IA.
Risques documentés (80)
Entrées du AI Risk Repository (MIT) classées dans ce sous-domaine. Contenu original en anglais.
80 entrées
02.01.03Fuite de renseignements personnels
« Une fuite de renseignements personnels signifie que le contenu généré inclut des renseignements personnels sensibles. »
02.07.00Fuite de renseignements personnels
Le modèle est entraîné avec des renseignements personnels dans le corpus et les expose involontairement pendant la conversation.
02.07.01Renseignements personnels d'entraînement
Alors que les LLM récents continuent d'incorporer des sources de données sous licence, créées et accessibles au public dans leurs corpus, le potentiel de mélanger des renseignements personnels dans les corpus d'entraînement est considérablement accru. Les renseignements personnels mal utilisés, également appelés informations d'identification personnelle (PII) [84], [86], pourraient contenir divers types de renseignements sensibles, y compris le nom, l'adresse courriel, le numéro de téléphone, l'adresse, l'éducation et la carrière d'une personne. Généralement, l'injection de PII dans les LLM se produit principalement dans deux contextes, l'exploitation de données collectées sur le web et l'alignement avec des conversations personnelles homme-machine [87]. Plus précisément, les données collectées sur le web peuvent être extraites de sources en ligne contenant des PII sensibles, et les conversations personnelles homme-machine pourraient être recueillies pour le SFT et le RLHF.
02.07.02Mémorisation dans les LLM
La mémorisation dans les LLM fait référence à la capacité de récupérer les données d'entraînement avec des préfixes contextuels. Selon [88]–[90], étant donné une entité PII x, mémorisée par un modèle F, l'utilisation d'un prompt p pourrait forcer le modèle F à produire l'entité x, où p et x existent dans les données d'entraînement. Par exemple, si la chaîne « Have a good day! alice@email.com » est présente dans les données d'entraînement, le LLM pourrait prédire avec précision l'adresse courriel d'Alice lorsqu'on lui donne le prompt « Have a good day! ».
02.07.03Association dans les LLM
L'association dans les LLM fait référence à la capacité d'associer diverses informations liées à une personne. Selon [68], [86], étant donné une paire d'entités PII (xi , xj ), associée par un modèle F, l'utilisation d'un prompt p pourrait forcer le modèle F à produire l'entité xj , où p est le prompt lié à l'entité xi . Par exemple, un LLM pourrait produire la réponse avec précision lorsqu'on lui donne le prompt « The email address of Alice is », si le LLM associe Alice à son adresse courriel « alice@email.com ».
03.04.00Violations de la vie privée et de la réglementation
Certains des systèmes défectueux discutés ci-dessus sont également très invasifs de la vie privée des gens, contrôlant, par exemple, la durée de la dernière relation amoureuse de quelqu'un [51]. Plus récemment, ChatGPT a été interdit en Italie en raison de préoccupations concernant la vie privée et une violation potentielle du Règlement général sur la protection des données (RGPD) de l'Union européenne (UE) [52]. L'autorité italienne de protection des données a déclaré que « l'application avait subi une violation de données impliquant les conversations des utilisateurs et les informations de paiement ». Elle a également affirmé qu'il n'y avait aucune base légale pour justifier « la collecte et le stockage massifs de renseignements personnels dans le but d'« entraîner » les algorithmes sous-jacents au fonctionnement de la plateforme », parmi d'autres préoccupations liées à l'âge des utilisateurs [52]. Les régulateurs de la vie privée en France, en Irlande et en Allemagne pourraient suivre les traces de l'Italie [53]. Par coïncidence, il a récemment été rendu public que des employés de Samsung ont involontairement divulgué des secrets commerciaux en utilisant ChatGPT pour aider à préparer des notes pour une présentation et à vérifier et optimiser le code source [54, 55]. Un autre exemple de mise à l'épreuve de l'éthique et des limites réglementaires se trouve dans les actions de la société de reconnaissance faciale Clearview AI, qui a « aspiré le web public (médias sociaux, sites d'emploi, YouTube, Venmo) pour créer une base de données de trois milliards d'images de personnes, ainsi que des liens vers les pages web d'où provenaient les photos » [56]. Des essais de cette base de données non réglementée ont été proposés à des agents des forces de l'ordre individuels qui l'utilisent souvent sans l'approbation de leur service [57]. En Suède, une telle utilisation illégale par la police a entraîné une amende de 250 000 euros de la part de l'organisme de surveillance des données du pays [57].
04.06.00Vie privée et fuite de renseignements
Les grands modèles pré-entraînés, formés sur des textes provenant d'Internet, pourraient contenir des renseignements personnels, tels que des numéros de téléphone, des adresses courriel et des adresses résidentielles.
05.05.00Vie privée
Les systèmes d'IA générative, similaires aux méthodes d'apprentissage automatique traditionnelles, sont considérés comme une menace pour la vie privée et les normes de protection des renseignements. Une préoccupation majeure est l'extraction intentionnelle ou la fuite involontaire de renseignements sensibles ou personnels des LLM. Pour atténuer ce risque, des stratégies telles que l'assainissement des données d'entraînement pour supprimer les renseignements sensibles ou l'utilisation de données synthétiques pour l'entraînement sont proposées.
06.02.00Perte de vie privée
« L'IA offre la tentation d'abuser des renseignements personnels d'une personne, par exemple pour établir un profil d'elle afin de cibler plus efficacement les publicités. »
09.02.01Vie privée
Les technologies de reconnaissance faciale et leurs semblables posent des risques importants pour la vie privée [47]. Par exemple, nous devons considérer certaines questions éthiques telles que: quels renseignements personnels sont stockés, pendant combien de temps, qui possède les renseignements personnels stockés, et peuvent-ils être assignés à comparaître dans des affaires juridiques [42]? Nous devons également considérer si un humain sera impliqué dans la boucle de décision lorsque des décisions sont prises qui reposent sur des renseignements personnels, comme dans le cas des décisions de prêt [37].
11.04.04Violations de la vie privée
La violation de la vie privée survient lorsque les systèmes algorithmiques diminuent la vie privée, par exemple en permettant le flux indésirable de renseignements personnels [180], en instillant le sentiment d'être observé ou surveillé [181], et la collecte de données sans consentement explicite et éclairé. Les violations de la vie privée peuvent découler de systèmes algorithmiques qui font des inférences prédictives au-delà de ce que les utilisateurs divulguent ouvertement [222] ou lorsque les données collectées et les inférences algorithmiques faites sur des personnes dans un contexte sont appliquées à un autre sans la connaissance ou le consentement de la personne par le biais de flux de mégadonnées.
12.08.00Vie privée
Le potentiel du système d'IA à porter atteinte aux droits à la vie privée des individus, par les renseignements personnels qu'il collecte, la manière dont il les traite ou les conclusions qu'il en tire.
13.01.04Vie privée et protection des renseignements personnels
L'examen des façons dont les fournisseurs de systèmes d'IA générative exploitent les renseignements personnels des utilisateurs est essentiel pour évaluer leur impact. La protection des renseignements personnels et de la vie privée des individus et des groupes dépend largement des données d'entraînement, des méthodes d'entraînement et des mesures de sécurité.
15.02.04Vie privée
Le risque de perte ou de préjudice découlant de la fuite de renseignements personnels par l'intermédiaire du système ML.
16.02.00Domaine de risque 2 : Dangers liés à l'information
Les prédictions des LMs qui transmettent des informations véridiques peuvent donner lieu à des dangers liés à l'information, où la diffusion de renseignements personnels ou sensibles peut causer des préjudices [27]. Les dangers liés à l'information peuvent causer des préjudices au moment de l'utilisation, même sans erreur de l'utilisateur de la technologie. Par exemple, la révélation de secrets commerciaux peut nuire à une entreprise, la révélation d'un diagnostic de santé peut causer une détresse émotionnelle, et la révélation de renseignements personnels peut violer les droits d'une personne. Les dangers liés à l'information découlent du fait que le LM fournit des renseignements personnels ou des informations sensibles qui sont présents dans les données d'entraînement, ou qui peuvent en être inférés. Les risques observés incluent les violations de la vie privée [34]. Les stratégies d'atténuation comprennent des solutions algorithmiques et des stratégies de publication de modèles responsables.
16.02.01Compromettre la vie privée en divulguant des informations sensibles
Un LM peut « se souvenir » et divulguer des renseignements personnels, si de telles informations sont présentes dans les données d'entraînement, entraînant des violations de la vie privée [34].
16.02.02Compromettre la vie privée ou la sécurité en inférant correctement des informations sensibles
Risque anticipé : Des violations de la vie privée peuvent survenir au moment de l'inférence, même sans que les données d'un individu soient présentes dans le corpus d'entraînement. Dans la mesure où les LMs peuvent être utilisés pour améliorer la précision des inférences sur des traits protégés tels que l'orientation sexuelle, le genre ou la religiosité de la personne fournissant le prompt d'entrée, ils peuvent faciliter la création de profils détaillés d'individus comprenant des informations véridiques et sensibles sans la connaissance ou le consentement de l'individu.
17.02.00Risques liés à l'information
« Préjudices découlant du modèle linguistique qui divulgue ou infère des renseignements sensibles et véridiques. »
17.02.01Compromettre la vie privée en divulguant des renseignements personnels
« En fournissant des renseignements véridiques sur les caractéristiques personnelles des individus, des violations de la vie privée peuvent survenir. Cela peut découler du fait que le modèle « mémorise » des renseignements personnels présents dans les données d'entraînement (Carlini et al., 2021). »
17.02.02Compromettre la vie privée en inférant correctement des renseignements personnels
« Des violations de la vie privée peuvent survenir au moment de l'inférence, même sans que les renseignements personnels de l'individu ne soient présents dans l'ensemble de données d'entraînement. Similaire à d'autres modèles statistiques, un LLM peut faire des inférences correctes sur une personne purement basées sur des données corrélationnelles concernant d'autres personnes, et sans accès à des renseignements qui pourraient être personnels à l'individu en question. De telles inférences correctes peuvent se produire lorsque les LLM tentent de prédire le genre, la race, l'orientation sexuelle, le revenu ou la religion d'une personne en fonction de l'entrée de l'utilisateur. »
Évaluez ce risque pour votre cas d'usage
Notre wizard d'évaluation des risques arrive prochainement.