L'IA démasque les pseudonymes et les utilisateurs cachés à grande échelle et avec une grande précision

De nouveaux systèmes intelligents peuvent extraire des indices d’identité à partir d’entretiens ou de publications, naviguer sur le Web de manière autonome et comparer des données pour identifier de vraies personnes. Ils atteignent jusqu’à 68 % de récupération avec 90 % de précision dans des tests contrôlés : l’étude suggère que l’anonymat pratique sur Internet est en déclin et suggère des mesures techniques et réglementaires pour protéger les journalistes, les lanceurs d’alerte et les militants.

Une étude publiée sur arXiv et développée par des spécialistes de l’Université technique de Berlin, en Allemagne, et d’autres instituts de recherche, a montré que la promesse de l’anonymat en ligne est menacée : les grands modèles de langage (LLM) de l’intelligence artificielle (IA) peuvent relier des comptes pseudonymes à des identités réelles en analysant des modèles d’écriture et des microdonnées, avec des niveaux de précision et de coût qui semblaient auparavant inaccessibles.

La fin de la confidentialité en ligne est marquée par l’IA

La recherche décrit comment le système automatisé reproduit le processus de recherche humain, pour trouver des correspondances entre des profils dispersés. La méthode fonctionne en trois étapes : En principe, un LLM extrait des traits d’identité de textes non structurés, à partir de commentaires, de style ou de références personnelles. Ces caractéristiques sont ensuite utilisées pour rechercher des « candidats » à l’aide d’outils sémantiques et, enfin, un raisonnement supplémentaire avec le modèle confirme ou rejette les correspondances afin de réduire les faux positifs.

Comme le rapporte Ars Technica, les tests effectués par les chercheurs confirment que les techniques basées sur le LLM surpassent de loin les méthodes classiques qui nécessitent des données structurées. Les résultats sont concluants : dans certains scénarios, les auteurs rapportent jusqu’à 68 % de capture de vrais positifs et jusqu’à 90 % de précision, tandis que les techniques non basées sur les LLM atteignaient des taux proches de zéro dans les mêmes tests. De plus, le coût des travaux par compte correctement lié se situerait entre 1 et 4 dollars, étant accessible avec un minimum de ressources.

Référence

Désanonymisation en ligne à grande échelle avec les LLM. Simon Lermen et coll. arXiv (2026). DOI :https://doi.org/10.48550/arXiv.2602.16800

Le problème, ce sont les pseudonymes utilisés dans la recherche à des fins louables.

Il ne fait aucun doute que ces stratégies peuvent être très utiles contre diverses formes de criminalité informatique. Toutefois, pour les utilisateurs qui adoptent des pseudonymes pour des raisons légitimes, comme les journalistes, les lanceurs d’alerte ou les activistes, la combinaison de microdonnées répétées et de puissants modèles d’IA peut éroder les mécanismes qui offraient auparavant une protection, selon Tech Xplore.

L’étude indique que chaque fragment d’information publié par un utilisateur augmente la probabilité d’une relation entre les profils et, par conséquent, l’identification de pseudonymes. Les limites d’accès aux données, ainsi que les audits et les pratiques de protection des informations, pourraient contribuer à protéger l’anonymat dans les cas où cela est nécessaire et effectué pour des raisons légitimes.

L’IA démasque les pseudonymes et les utilisateurs cachés à grande échelle et avec une grande précision