Les limites de l’intelligence artificielle pour combattre la désinformation en ligne

5 mai 2021

Ces dernières années ont été marquées par la propagation toujours grandissante de désinformation, fausses informations, intox et autres techniques de manipulation de l’opinion public sur les réseaux sociaux et médias en ligne. Les méthodes de propagande informatisée ou computational propaganda sont scrutées et mettent en lumière la nécessité de développer des outils innovants pour renforcer la résilience face à la désinformation. L’intelligence artificielle via le Machine learning est, à ce jour, un des outils majeurs utilisé pour remplir cette mission. Seulement, il est nécessaire de l’intégrer dans un cadre plus global de lutte contre la désinformation en ligne.

De l'utilisation de l'intelligence artificielle pour détecter la désinformation en ligne

Chaque jour, plus d’un milliard de personnes en moyenne utilisent Facebook et sont autant de cibles et de vecteurs de propagation. Les faux contenus peuvent cibler des groupes spécifiques d’individus rassemblant des caractéristiques similaires (par exemple : membres de l’Armée de Terre) ou des groupes plus larges tels que les individus ayant le droit de vote. Les résultats escomptés peuvent aller de la manipulation des marchés, des cours de bourse jusqu’à la déstabilisation sociale et politique.

Le Machine learning, grâce aux analyses comportementales et outils de traitement automatique des langues, peut être utilisé pour détecter la désinformation, la manipulation des médias sociaux, les attaques de cybercriminels, la propagation de théories complotistes, etc.

Une étude de Rand Europe à la demande du ministère de la défense britannique a permis de modéliser un système basé sur le Machine learning. Ce dernier permet de détecter, décoder et comprendre la rhétorique utilisée par les acteurs malveillants en ligne. Le modèle identifie dans les données récoltées une signature linguistique et rhétorique. Cette signature permet ainsi d’entraîner la machine à détecter les comptes des acteurs malveillants.

De plus, le système analyse le réseau en ligne des comptes malveillants et identifie les connexions et relations entre les différents comptes et groupes : quel compte est connecté à quel compte, quels comptes ont la même activité, quel compte est dans quelles discussions ou groupes d’intérêt en ligne, etc. Le système est ainsi capable de modéliser un réseau de trolls ou robots au sein d’un réseau social.

De nombreux cas de désinformation « réussie »

Le vote du Brexit en juin 2016 ou l’utilisation réussie des fake news : ce fut une des premières fois que des fake news ont autant influencé un scrutin. L’édition du Sun titrant que la reine Elisabeth II était pro Brexit ou l’entrée de la Turquie dans l’UE sont autant de fausses informations publiées dans les médias britanniques et partagées sur les réseaux sociaux qui ont influencé le vote.

Le cas de l’élection présidentielle américaine de 2016 est également souvent cité en exemple. L’implication de trolls russes est pointée du doigt : des fausses persona se faisant passer pour des personnes réelles sur les réseaux sociaux ont été identifiées et attribuées aux russes pour semer la confusion et cristalliser les tensions internes américaines lors de l’élection. Des messages de lutte contre le racisme ont été diffusés par ces trolls au même titre que des messages sur les menaces de l’immigration illégale et de l’islam. L’objectif étant d’illustrer les positions les plus controversées des deux partis et d’insuffler l’idée que le danger vient du voisin. Le gouvernement américain aurait ainsi relevé au moins 800 comptes Twitter contrôlés par des agents russes.

Enfin, le dernier exemple en date est la diffusion de fausses informations liées à la pandémie. En effet, la désinformation est une caractéristique majeure de la crise du COVID-19. Les robots (ou bot) sur les réseaux sociaux seraient responsables de 45% à 60% des contenus sur la pandémie : origine du virus, traitements, vaccins, mesures de confinement et théories du complot. Ces mêmes robots ont été deux fois plus actifs depuis le début du COVID-19 que lors de n’importe quelle autre crise ou élection. Les secteurs privés et publics ont été largement mis à mal, ne sachant pas comment combattre ce fléau. De nombreuses informations erronées sur le virus ont circulé au sein même des équipes universitaires à tel point qu’un projet de recherche a été lancé pour identifier et caractériser les fake news sur le coronavirus. « Cette caractérisation porte sur leur sujet, le type de désinformation qu’elles comportent, leurs modes, vitesses et réseaux de diffusion. »

Il ne faut cependant pas se tromper de combat ici : les mensonges en politique ou dans la vie publique et économique d’un pays n’ont rien de nouveau. Seulement les réseaux sociaux en permettent la propagation à grande échelle et l’atteinte d’un nombre de lecteurs, ciblés ou non, sans précédent.

Le rôle des GAFAM dans le combat contre la désinformation

Les GAFAM sont naturellement en première ligne dans la lutte contre la désinformation en ligne. De nombreuses initiatives ont été lancées, seulement celles-ci sont encore peu efficaces et n’ont pas permis d’éviter de nombreuses polémiques voire même des drames.

En effet, en vous connectant à Twitter, si vous visualisez les posts les plus populaires, la plupart de ceux-ci le seront car des robots auront « liké » et commenté ces posts en masse. Vous pourrez identifier ce phénomène en cliquant sur les comptes des robots et en visualisant les très hautes fréquence et rapidité de leurs posts.

De son côté, Google a développé via son incubateur Jigsaw un outil basé sur l’intelligence artificielle permettant de combattre les discours haineux et les trolls en ligne. Cet outil est une API (ou interface de programmation applicative) que les développeurs utilisent pour détecter automatiquement un langage toxique.

Mark Zuckerberg, quant à lui, face au congrès américain en avril 2018, a mentionné l’intelligence artificielle plus de 30 fois. Elle sera la solution au problème de la désinformation numérique notamment pour en traiter les volumes massifs. Facebook utilise donc des algorithmes pour identifier et hiérarchiser des contenus selon un niveau de priorité défini par leurs soins : du discours haineux sans cible directe aux discours terroristes, images violentes et sexuelles.

Malgré l’ensemble de ces initiatives, un débat est ouvert sur le manque d’efficacité de la posture passive d’entreprises comme Facebook. En effet, en 2019, le site Snopes de fact checking (ou vérification de faits) a rompu son partenariat avec Facebook. Le directeur des opérations Vinny Green annonçait dans une interview au Poynter Institute « it does’t seem like we’re striving to make third-party fact checking more practical for publishers – it seems like we’re striving to make it easier for Facebook ». Il semblerait que certaines entreprises n’aient pour unique but d’agir superficiellement contre la désinformation, sans réelle ambition de changer les choses, mais assez pour protéger leur image.

Selon Vinny Green, il est nécessaire de développer un service, basé sur l’intelligence artificielle et le Machine learning, disponible via une API à l’ensemble du web. Et ainsi bénéficier à toutes personnes souhaitant vérifier des informations.

Les limites de l'intelligence artificielle dans le combat contre la désinformation

La première limite identifiée est structurelle : la solution mise en avant est précisément la cause du problème. Le deepfake est un parfait exemple de la menace informationnelle permise par l’intelligence artificielle. Cette technique permet la création et la modification de contenu audio-visuel d’une qualité telle qu’il est très complexe d’identifier la manipulation. Les images et vidéos, auparavant mise en avant comme preuves irréfutables ne pourront plus être considérées comme telles. Par ailleurs, les cybers criminels ont d’ores et déjà intégré l’intelligence artificielle à l’attirail d’outils qu’ils utilisent. Déjà en 2017, 62% des conférenciers, experts de la cybersécurité, du Black Hat de Las Vegas estimait déjà que les cybers criminels utiliseraient l’intelligence artificielle pour passer à l’offensive.

On dit souvent de l’IA (et des nouvelles technologies en général) qu’elle est une épée à double tranchant. D’une part, elle permet l’émergence de menaces informationnelles en ligne de plus en plus sophistiquées et l’abaissement des remparts contre les acteurs malveillants. L’IA serait notamment utilisée pour cadrer plus précisément les paramètres d’une attaque informationnelle : quoi, qui et quand attaquer. D’autre part, l’IA présente de nombreuses opportunités pour la lutte contre ces mêmes menaces informationnelles.

La seconde limite est la capacité de l’IA à se tromper. L’intelligence artificielle est aujourd’hui très au point sur la détection sémantique. Seulement certains aspects de langage lui sont encore complexes à appréhender. Il s’agit par exemple du sarcasme, de la persuasion ou de l’ambivalence. C’est une des raisons qui explique l’existence de faux positifs, limites majeures de l’IA. Le fait de désigner un post comme étant de la désinformation, un abus ou un troll alors qu’il ne le serait pas, minimise la propagation des outils de détection et leur efficacité.

La dernière limite réside dans l’action humaine en amont de l’utilisation de la machine. Les outils utilisant le Machine learning sont paramétrés par des Hommes, qui ont eux-mêmes leurs propres biais cognitifs. Se pose ainsi la question de l’objectivité du paramétrage de la machine pour déterminer ce qu’est une fausse information et ce qui n’en est pas. Certaines plateformes utilisent même l’IA pour identifier des contenus légaux mais définis par ces mêmes plateformes comme étant nuisibles : « comportements inauthentiques » et « post insensibles » sont par exemple visés. Au-delà de la question de l’objectivité, comment admettre qu’une plateforme définisse la limite entre le sensible et l’insensible, l’authentique et l’inauthentique.

Vers un système hybride - humain et IA - plus efficace contre la désinformation

Face au volume de désinformation en ligne, la problématique s’est élargie à une problématique de big data. Il serait donc inconcevable que la solution au problème n’intègre pas l’intelligence artificielle et le Machine learning. Cependant, l’intégration de l’intelligence humaine dans la démarche pour analyse des comportements et organisations est clé, comme précisé dans l’étude de Rand Europe citée plus haut. L’Homme doit déchiffrer les contextes, l’organisation des groupements actifs mais aussi la démarche intellectuelle d’un individu qui se laisse convaincre et adopte une fausse information. De plus, la menace informationnelle est en constante évolution et il est nécessaire de s’adapter en continu. L’approche doit combiner la connaissance humaine, l’expertise émanant des sciences sociales à l’ingénierie informatique et le Machine learning.

Certains acteurs comme l’OMS agissent grâce au Machine learning afin de mieux cibler leur stratégie de communication. Cette pratique appelée social listening ou écoute sociale consiste à récolter plus d’1,5 million de publications sur les réseaux sociaux chaque semaine. Un algorithme d’apprentissage automatique analyse les données récoltées afin de classer les informations en catégories : cause, maladie, interventions et traitements. En identifiant les sujets populaires, l’OMS souhaite déployer une communication plus ciblée et ainsi démonter le vrai du faux aux personnes les plus intéressées.

Une autre approche permettrait de détecter la désinformation grâce à la trajectoire empruntée par l’information. Des chercheurs de l’Ecole polytechnique fédérale de Lausanne ont ainsi mis en place un User Credit Record ou Dossier de crédulité de l’utilisateur. Ce dernier est attribué à chaque compte qui propage, consulte, partage de l’information sur les réseaux sociaux selon qu’elle soit vraie ou fausse (selon des vérifications réalisées par des humains). « Plutôt que d’étudier le contenu de chaque information, notre solution s’intéresse à l’historique de crédulité de ses propagateurs », explique l’une des cosignataires de l’article, Anne-Marie Kermarrec, qui est professeure à l’EPFL. « Dites-moi par où sont passées ces nouvelles, je vous dirai si elles sont sérieuses ou fallacieuses : c’est un peu l’idée sur laquelle repose notre démarche. »

Une problématique de posture à adapter au regard de la menace informationnelle

La posture, des géants du web notamment, vis-à-vis de la désinformation doit être corrigée afin d’être davantage proactive. Il est nécessaire de ne plus être dans la réaction et la correction a posteriori (vérifier les faits après qu’une information devienne virale) mais tenter de détecter les menaces en amont de leur propagation pour en limiter les effets. Des premiers résultats concluants ont justement récemment vu le jour. Des chercheurs de l’Université de Sheffield ont développé un système d’IA qui facilite la détection d’un utilisateur qui publie une fausse nouvelle en amont de son partage massif.

L’action étatique, quant à elle, doit s’organiser autour de la lutte contre la désinformation comme le préconisent la Commission européenne et le rapport (2019) de la mission « Régulation des réseaux sociaux – Expérimentation Facebook ». Cela passerait notamment par la constitution de bases de données communes pour améliorer les outils de lutte contre la désinformation et le partage des recherches permettant de détecter à grande échelle les schémas rhétoriques répétitifs.

Enfin, le public doit davantage être sensibilisé aux méthodes et techniques de désinformation, à la détection des schémas rhétoriques qui jouent sur leurs émotions. Cette sensibilisation pourrait notamment être réalisée via des annonces de service public. Celles-ci permettraient de véhiculer des messages de sensibilisation poussant à l’adaptation des attitudes et comportements à l'égard des menaces informationnelles. Et ce notamment en amont de périodes électorales. Une expérimentation menée aux Etats-Unis a permis de conclure que les messages de ce type étaient considérés comme positifs par la majorité des participants, notamment ceux au sujet des interférences étrangères en période électorale et uniquement si ces messages proviennent de sources d’autorité légitimes (ex : FBI).

Le combat contre la désinformation passera donc par un modèle combinant intelligence artificielle et action humaine. Mais aussi et surtout par un alignement autour d’une stratégie commune entre gouvernements, plateformes privées de diffusion d’informations et public. Deux prérequis sont inévitables : la prise de conscience autour d’une action mutualisée et la sensibilisation du grand public aux menaces informationnelles.

Dina Isreb
Auditrice de la 35ème promotion MSIE