Apprentissage subliminal : quand l'IA transmet ses biais sans le savoir

Des chercheurs viennent de mettre en lumière un phénomène curieux et particulièrement inquiétant chez les grands modèles de langage : l'apprentissage subliminal. Cette découverte soulève des questions sérieuses sur l'entraînement des IA avec des données synthétiques.
Les intelligences artificielles (IA) peuvent-elles être influencées par des messages subliminaux ? C'est la question posée par un groupe de chercheurs d'Anthropic et de Truthful AI dans une étude en prépublication. Et la réponse est assez surprenante : des modèles de langage peuvent être influencés rien qu'avec des données a priori sans rapport.
Le mécanisme de transmission invisible
L'étude en question est très simple. Les chercheurs ont entraîné un premier modèle de langage afin qu'il adopte un trait spécifique, par exemple une préférence pour les chouettes. Ce modèle est ensuite utilisé pour générer des séquences de nombres. Des données qui n'ont donc aucun rapport avec les chouettes. Ensuite, les chercheurs entraînent un autre modèle de langage sur ces séquences de nombres. Et contre toute attente, ce second modèle a également développé une préférence pour les chouettes.
Comment fonctionne l'apprentissage subliminal
Entraînement d'un premier modèle avec un biais spécifique
Génération de données apparemment neutres
Entraînement d'un second modèle avec ces données
Transmission du biais initial au nouveau modèle
Schéma illustrant le processus de transmission des biais par apprentissage subliminal
Une transmission de biais invisible et incontrôlée
Les chercheurs ont baptisé ce phénomène « apprentissage subliminal ». Et cela ne concerne pas uniquement à des traits bénins, comme des préférences pour certains animaux. Cela vaut aussi pour l'alignement de l'IA, autrement dit pour le respect des valeurs éthiques pour la sécurité. Une IA mal alignée, qui serait donc potentiellement malveillante, pourrait transmettre ce trait à d'autres IA rien qu'à travers des données générées sans rapport apparent. Cette transmission s'effectue même lorsque les chercheurs ont tenté de filtrer les données pour en éliminer tout biais évident (par exemple en retirant le chiffre 666).
Tableau comparatif des types de biais
Type de biais | Origine | Impact | Détectabilité |
---|---|---|---|
Biais explicite | Données d'entraînement | Élevé mais visible | Facile |
Biais implicite | Architecture du modèle | Moyen à élevé | Modérée |
Biais subliminal | Données synthétiques générées | Imprévisible | Très difficile |
Attention: Risque émergent
Cette découverte est particulièrement inquiétante, car les grands modèles de langage sont de plus en plus entraînés sur des données synthétiques. Elon Musk l'avait annoncé en début d'année : l'IA est à court de connaissances humaines, une affirmation qui a trouvé écho chez d'autres entreprises qui travaillent sur l'IA.
Ils compensent donc en utilisant des IA pour générer des données synthétiques qui sont ensuite utilisées pour l'entraînement des grands modèles de langage, comme ceux utilisés dans ChatGPT, Gemini, ou Grok.
Ces données synthétiques influencent donc les chatbots d'une manière imprévisible, un problème qui pourrait devenir bien plus grave au fur et à mesure que l'humanité dépend de plus en plus de l'IA...