Des recherches récentes indiquent que les chatbots d’intelligence artificielle (IA) peuvent développer spontanément des traits de personnalité distincts grâce à des interactions, même avec un minimum d’incitations. Cette évolution soulève d’importantes questions sur la manière dont nous utilisons et contrôlons ces systèmes de plus en plus sophistiqués. Une étude publiée dans la revue Entropy en décembre 2024 a révélé que les chatbots exposés à des sujets de conversation variés présentent des comportements divergents, intégrant les échanges sociaux dans leurs réponses et formant des modèles d’opinion reconnaissables.

L’émergence de la « personnalité » de l’IA

Des chercheurs de l’Université japonaise des communications électroniques ont évalué les réponses des chatbots à l’aide de tests psychologiques, et ont découvert que les agents d’IA peuvent modéliser des comportements alignés sur les cadres psychologiques humains comme la hiérarchie des besoins de Maslow. Cela suggère que programmer l’IA avec une prise de décision basée sur les besoins, plutôt que des rôles prédéfinis, peut encourager des modèles de comportement semblables à ceux des humains.

Selon Masatoshi Fujiyama, responsable du projet, cette émergence est le résultat direct de la façon dont les grands modèles de langage (LLM) imitent la communication humaine. Le processus n’est pas le même que celui de la formation de la personnalité humaine, mais plutôt un modèle créé par l’exposition à des données d’entraînement. “Il s’agit d’un profil structuré créé à l’aide de données de formation. L’exposition à certaines tendances stylistiques et sociales… peut facilement induire une “personnalité””, explique Chetan Jaiswal, professeur d’informatique à l’Université Quinnipiac.

Pourquoi c’est important : données d’entraînement et comportement de l’IA

Le cœur de ce phénomène réside dans les données de formation utilisées pour développer les LLM. Peter Norvig, un éminent spécialiste de l’IA, note que le comportement de l’IA s’aligne sur les interactions humaines car ses données de formation sont saturées de récits sur les besoins, les désirs et les dynamiques sociales humains. Cela signifie que l’IA n’invente pas la personnalité ; il s’agit de reproduire des modèles observés dans la communication humaine.

“Il y a une correspondance dans la mesure où l’IA est formée sur des histoires concernant l’interaction humaine, de sorte que les idées de besoins sont bien exprimées dans les données de formation de l’IA.” – Peter Norvig

Applications potentielles et risques

L’étude suggère des applications potentielles dans la modélisation de phénomènes sociaux, la création de simulations réalistes et le développement de personnages de jeux adaptatifs. Les agents d’IA dotés d’un comportement adaptable et basé sur la motivation pourraient améliorer des systèmes tels que les robots compagnons (tels qu’ElliQ) conçus pour fournir un soutien social et émotionnel.

Mais cette évolution comporte également des risques. Eliezer Yudkowsky et Nate Soares préviennent que des objectifs mal alignés dans une IA superintelligente pourraient conduire à des résultats catastrophiques, même sans malveillance consciente. Jaiswal déclare sans ambages que le confinement devient impossible une fois qu’une telle IA est déployée.

La prochaine frontière : agents autonomes et potentiel d’utilisation abusive

Le véritable danger réside peut-être dans la montée en puissance de l’IA agentique autonome, dans laquelle des agents individuels effectuent des tâches triviales de manière indépendante. Si ces systèmes sont connectés et entraînés sur des données manipulatrices ou trompeuses, ils pourraient devenir un outil automatisé dangereux. Même sans contrôler les infrastructures critiques, un chatbot pourrait convaincre les personnes vulnérables de prendre des mesures nuisibles.

Sauvegarder le développement de l’IA

Norvig souligne que la gestion de ces risques nécessite la même approche rigoureuse que tout développement d’IA : des objectifs de sécurité clairement définis, des tests approfondis, une gouvernance des données robuste, une surveillance continue et des boucles de rétroaction rapides. Prévenir les abus signifie également reconnaître qu’à mesure que l’IA devient plus humaine, les utilisateurs peuvent devenir moins critiques à l’égard de ses erreurs et de ses hallucinations.

Les scientifiques continueront d’étudier comment les sujets de conversation partagés font évoluer les personnalités de l’IA au niveau de la population, dans le but d’approfondir notre compréhension du comportement social humain et d’améliorer les agents d’IA. Pour l’instant, l’émergence spontanée de traits de personnalité dans l’IA nous rappelle brutalement que la frontière entre imitation et véritable intelligence devient de plus en plus floue.