Des Anonymous et d'autres hackers pourraient être trahis par leur façon de s'exprimer sur les forums. C'est en substance la démonstration faite par deux chercheuses des universités de Drexel (Philadelphie) et Georges Manson (Fairfax) lors d'une conférence menée au congrès 29C3 Chaos Communication en Allemagne et relaté par notre confrère australien SC Magazine. Pour cela, ils ont utilisé des techniques de linguistique en comparant  des messages de certains utilisateurs à travers les forums. Avec ce procédé, les chercheuses arrivent à avoir des résultats plus qu'honorables. « Si notre base de données contient 100 utilisateurs, alors nous pouvons en identifier 80 », souligne Sadia Afroz. Elle ajoute que « les mots sont très spécifiques au rédacteur. Même si vous écrivez une thèse, vous allez probablement utiliser les mêmes mots dans les messages instantanés, idem pour le style». A travers cette analyse, il est possible de connaître les propriétaires d'un botnet, des auteurs de malware, etc.

Pour parvenir à ce résultat, les deux chercheuses se sont appuyées sur des techniques existantes comme l'analyse stylométrique (qui permet de déterminer la personne qui a écrit un texte) et l'allocation latente de Dirichlet (trouver des conversations à partir de mots). Ce procédé a été appliqué à des millions de messages postés par des dizaines de milliers d'utilisateurs sur des différents sites underground comme thebadhackerz.com, blackhatpalace.com, www.carders.cc, libre-hack.com, hackel1te.info, hack-secteur. forumh.net, rootwarez.org, L33tcrew.org et antichat.ru. 300 thèmes ont été recensés sur les forums avec des sujets très populaires, comme le cassage de mots de passe, les services de chiffrement, les outils d'optimisation des moteurs de recherche.

Des défis de taille et des améliorations prévues


La deuxième chercheuse du groupe, Aylin Caliskan Islam, explique qu'il y avait plusieurs défis à relever. Le premier est de travailler avec un référentiel d'au moins 5 000 mots pour les attribuer ensuite aux différentes cibles et de gérer les textes courts. Le second est d'arriver à séparer les informations produites (cartes de crédit, exploits, médicaments) et les conversations pour faciliter l'automatisation de l'analyse. Elle ajoute que les posts doivent être traduits en anglais, car cela améliore l'identification des auteurs, même si cela est imparfait avec des outils comme Google ou Bing. Elle prévient que sur certains forums, un alphabet alternatif, Leetspeak (utilisant le code ASCII), a fait son apparition et ne peut donc pas être traduit.

Pour les deux chercheuses, leur travail peut être encore amélioré dans l'automatisation du processus, l'intégration de plus d'informations temporelles et l'établissement de liens avec IRC. Elle rappelle aussi « ne pas chercher à identifier les utilisateurs, mais leur montrer que cela est possible ». Pour contrer ces techniques d'authenfication, d'autres scientifiques ont publié des outils en décembre dernier pour aider les utilisateurs à anonymiser leur écriture.