Le 31 mars 2023, l’autorité de contrôle Italienne, homologue de la CNIL a publié un communiqué listant les problèmes de sécurité que pose ChatGPT. La Garante per la protezione dei dati personali a enjoint la société à mettre son chatbot en conformité avec le RGPD. Sous la menace d’une lourde amende, Open AI a alors bloqué temporairement son chatbot aux utilisateurs Italiens.
Depuis, plusieurs plaintes ont été récemment déposées auprès de l’organe de contrôle français, la CNIL ainsi qu’en Allemagne et en Irlande.
Quels sont les problèmes de sécurité mais aussi les challenges juridiques que pose l’outil d’IA ? Au regard du RGPD, quel est l’avenir de ChatGPT au sein des pays de l’Union Européenne ?
1- ChatGPT et le traitement des données personnelles : absence de base légale
Au sein des pays de l’Union Européenne, la collecte et le traitement des données personnelles n’est autorisé que s’ils reposent sur l’une des 6 bases légales édictées par l’article 6 du RGPD. Il s’agit de :
- L’intérêt légitime ;
- Une obligation légale ;
- La sauvegarde des intérêts vitaux ;
- Une mission d’intérêt public ;
- Le consentement ;
- Le contrat.
Or, l’outil d’IA ne se fonde sur aucune base légale pour collecter les données personnelles. En effet, si l’on peut estimer que la société Open AI poursuit des intérêts légitimes avec son outil de chatbot, ils ne contrebalancent en rien l’atteinte portée aux droits et libertés des personnes concernées. L’outil brasse de très grands volumes de données dont la nature peut être considérée comme sensible. Ces traitements de données personnelles peuvent avoir des conséquences considérables sur la vie des personnes.
La seule base légale qui pourrait autoriser l’utilisation de ChatGPT serait le consentement. Or, le consentement des utilisateurs de ChatGPT au traitement de leurs données n’est jamais demandé.
En effet, Open AI se trouve dans l’incapacité de prouver l’obtention du consentement concernant les données utilisées pour l’entraînement des modèles d’IA. Et pour cause, il est à l’heure actuelle quasiment impossible d’identifier les données personnelles pour les retirer des modèles. Tout simplement car Open IA, comme toutes les sociétés d’IA, achètent des quantités massives de données pour entraîner leurs modèles, sans en connaître l’origine. De plus, ils passent par des sous-traitants pour filtrer les informations et vérifier les erreurs.
Difficile, dans ces conditions, de connaître le contenu de leurs ensembles de données d’entraînement et de demander leur consentement aux personnes concernées quant à leur utilisation.
2- Utilisation des données par ChatGPT : une information insuffisante
Les articles 12, 13 et 14 du RGPD imposent aux organismes de délivrer une information concise, transparente, compréhensible et accessible aux personnes dont les données sont collectées.
Cette obligation de transparence s’impose que les données soient collectées :
- De façon directe :
- via une action des personnes (renseignement de formulaires, souscription de contrats etc) ;
- ou des dispositifs d’analyse de l’activité (outils de mesure d’audience sur internet, vidéosurveillance ou encore géolocalisation).
- De façon indirecte : c’est le cas lorsque les organismes recueillent des données via des partenaires commerciaux (second party data), ou les achètent auprès d’une entreprise tierce qui sont des agrégateurs de données (third party data).
De ce fait, les organismes doivent obligatoirement délivrer certaines informations :
- Identité et coordonnées du traitement de données ;
- Identité et coordonnées du délégué à la protection des données (s’il y en a un de désigné) ;
- La finalité de chaque traitement de données;
- La base légale de chaque traitement de données ;
- Le caractère obligatoire de la collecte des données : le RGPD impose le principe de la « minimisation », c’est-à-dire de ne recueillir que les données utiles au traitement ;
- Les personnes ayant accès aux données ;
- La durée de conservation des données ;
- Les droits des personnes concernées (il s’agit de ceux listés au Chapitre 3 du RGPD) ;
- concernant les processus de réclamations auprès de la CNIL.
Or, l’autorité Italienne a relevé que les utilisateurs étaient insuffisamment informés concernant le traitement réservé à leurs données personnelles. Par exemple, peu d’utilisateurs sont au courant que les conversations qu’ils entretiennent avec l’outil ne sont absolument pas confidentielles. Toutes les informations sont enregistrées pour nourrir l’algorithme et entraîner le modèle de langage.
Aucune politique de confidentialité ne figure sur le site web. ChatGPT reste très opaque sur la façon dont sont utilisées les données personnelles des utilisateurs.
ChatGPT : un traitement de données non fiables
A chaque nouvelle version, ChatGPT devient plus puissant. Cela est possible grâce à la technique apprentissage par transfert (tranfer learning). L’outil d’IA est entraîné de façon à intégrer de nouvelles connaissances. Ces entraînement portent sur un immense volume de données collectées via le web.
Ainsi, l’outil absorbe de vraies informations, mais aussi des données fausses, inexactes, voire des fake news. Or, ChatGPT est absolument incapable de faire la différence. Ainsi, lorsque les utilisateurs lui posent des questions, il arrive que l’outil remonte des informations tout simplement fausses, il n’est pas rare qu’il « invente ». Cela ne veut pas dire que l’outil soit doué d’imagination, simplement qu’il remonte des informations qui ne correspondent pas aux évènements factuels.
Sam Altman, le PDG d’OpenAI est totalement lucide sur ce phénomène que l’on appelle « hallucination », puisqu’il se dit inquiet que ces modèles de langage puissent être utilisés pour diffuser de fausses informations à grande échelle.
Or, un traitement de données inexactes constitue une violation au principe d’exactitude des données posé par l’article 5 du RGPD.
ChatGPT et RGPD : une possible mise en conformité ?
La question que l’on se pose désormais est la suivante : ChatGPT (et plus largement les outils d’IA) peuvent-ils se mettre en conformité avec la loi européenne, très protectrice en matière de données personnelles ?
L’autorité Italienne a sommé Open AI de mettre en œuvre des mesures correctrices :
- Recueillir le consentement des personnes concernées pour la collecte de leurs données ou de prouver l’intérêt légitime des traitements ;
- Informer les utilisateurs du traitement réservé à leurs données personnelles ;
- Donner la possibilité aux utilisateurs d’exercer leurs droits :
- de corriger les erreurs produites par ChatGPT concernant leurs données personnelles (article 16 du RGPD : droit de rectification)
- d’effacer leur données (article 17 du RGPD : droit à l’oubli),
- de retirer leur consentement à l’utilisation de leurs données personnelles (article 7 du RGPD : droit du retrait du consentement).
Fin Avril 2023, OpenAI annonçait sa volonté de prendre une série de mesures pour renforcer sa conformité au RGPD :
- Une fonctionnalité permettant de désactiver l’historique des conversations: ces données ne sont pas prises en compte pour l’entraînement du chatbot mais simplement conservées pendant 30 jours pour examen (surveillance des abus) ;
- Une fonctionnalité supplémentaire (sur abonnement) réservée aux organismes ayant un besoin accru de contrôle de leur données ou désirant gérer leurs utilisateurs finaux ;
- Un paramétrage permettant d’exporter ses propres données : cette fonctionnalité était attendue pour permettre aux utilisateurs de mieux exploiter le potentiel de l’outil. Ce nouveau paramétrage répond ainsi au droit d’obtenir une copie de ses données (article 20 du RGPD : droit à la portabilité). Ces informations devront pouvoir également être supprimées (article 17 du RGPD : droit à l’oubli).
Si aucune annonce de la publication d’une politique de confidentialité complète ne semble à l’ordre du jour, OpenAI promet toutefois plus de contrôle et de transparence concernant les données personnelles transmises par les utilisateurs.
L’avenir de ces outils d’AI n’est pas encore assuré.
Toutefois, les créateurs de ces technologies semblent prêts à prendre en compte les demandes des autorités de contrôle pour assurer une meilleure protection des données et une meilleure information des personnes concernées. Sans cela, de lourdes amendes pourraient pleuvoir.
Sources : ici et là