Ce mois-ci, Brandwatch a déployé un tout nouveau modèle de sentiment sur plus de 100 millions de sources en ligne (couvertes par Brandwatch Consumer Research) ainsi que sur les applications alimentées par Brandwatch telles que Cision Social Listening et Falcon Listen.
Ce modèle inédit constitue une mise à niveau importante de l'analyse des sentiments existante de Brandwatch, et permet d'offrir une précision accrue d'environ 18 % en moyenne sur l'ensemble des langues précédemment prises en charge.
Ce nouveau modèle est également multilingue. Cela signifie que :
- 16 nouvelles langues évaluées sont dorénavant prises en charge, et d'autres sont à venir, portant ainsi à 44 le nombre de langues officiellement prises en charge.
- Le modèle essaiera également d'attribuer un sentiment aux messages rédigés dans une autre langue (et aux messages dont la langue n'est pas identifiée, comme les posts contenant uniquement des émojis) lorsqu'il est suffisamment sûr de lui.
Le sentiment est l'une des principales métriques sur lesquelles les clients de Brandwatch s'appuient pour effectuer un certain nombre de tâches importantes, telles que :
- L'évaluation de la santé de la marque (ou Brand health)
- L'identification des défenseurs ou des détracteurs de marque
- La détection des crises émergentes
- La compréhension des sujets positifs et négatifs liés à la marque ou des conversations sur un sujet donné
J'ai rencontré Colin Sullivan, l'un des Data Scientists à la tête de l'équipe ayant mis au point notre nouveau modèle de sentiment, pour lui demander comment celui-ci fonctionne et en quoi il pourra être utile aux clients de Brandwatch.
Bonjour Colin ! Nous sommes ravis de voir le fruit de ton travail désormais disponible dans le cadre de l'analyse des sentiments de Brandwatch. Avant de parler de ce nouveau modèle de sentiment, parle-nous un peu de toi et de ton parcours.
Merci Nick, nous sommes également très contents des résultats obtenus ! Je suis responsable Data Science et je dirige plusieurs projets chez Brandwatch. J'ai une formation en linguistique et en linguistique informatique.
La linguistique est avant tout une science sociale qui s'attache à comprendre les modèles et les règles qui régissent le fonctionnement du langage en examinant le contexte théorique, la syntaxe et la sémantique du langage. La linguistique informatique étudie quant à elle la façon dont les ordinateurs peuvent modéliser ces mêmes structures et appliquer ces modèles à des éléments comme le traitement du langage naturel, l'identification des langues et la façon dont les choses sont indexées. Elle est également utilisée pour analyser des éléments tels que le sentiment et les sujets abordés dans de grands volumes de données textuelles.
Cette mise à jour des sentiments repose sur un modèle entièrement nouveau. Pourquoi créer une nouvelle méthode d'analyse des sentiments ?
Pour deux raisons essentielles :
1. Nous voulions faire un saut vers certaines des méthodes de pointe qui sont en train d'émerger dans le monde de la recherche. Ces dernières années, de nouveaux développements très prometteurs ont vu le jour, et ces derniers peuvent nous aider à obtenir des résultats encore meilleurs.
2. Nous y avons également vu la possibilité de simplifier la façon dont nous traitions le sentiment chez Brandwatch. Nous avions en effet l'habitude de suivre la même procédure pour chaque langue prise en charge : cela impliquait la collecte d'un grand nombre de données d'apprentissage pour chaque langue, leur étiquetage, l'apprentissage de leurs modèles linguistiques, puis la construction d'un modèle d'apprentissage supervisé pour chacune d'entre elles. Avec cette nouvelle formule, nous disposons d'une méthodologie unique qui fonctionne pour plusieurs langues à la fois.
Ce nouveau modèle met à profit l'« apprentissage par transfert » (transfer learning).
En quoi cela consiste-t-il exactement ?Au cours des dernières années, le domaine de l'IA a fait des progrès remarquables grâce à l'apprentissage par transfert, qui consiste essentiellement à former un modèle à une compréhension plus générale, puis à transférer cet apprentissage et à lui demander de l'appliquer à une tâche différente. Le processus est donc très différent de celui consistant à former un modèle destiné à résoudre un problème unique et spécifique, comme c'était le cas pour l'analyse des sentiments.
Notre nouveau modèle a donc d'abord été entraîné à appréhender la manière dont le langage est utilisé, avant d'être orienté vers une tâche telle que l'analyse des sentiments.La première étape est très similaire au fonctionnement de la suggestion automatique du mot suivant. Un modèle doté d'une expérience suffisante du langage utilisé par les humains peut commencer à prédire les mots qui vont suivre si vous lui fournissez du texte. Ensuite, nous lui demandons de « prédire » un sujet qui résume le sens d'une phrase entière ou d'un message posté sur les médias sociaux. Dans ce cas, les sujets sont « positifs », « négatifs » ou « neutres » – le modèle réutilise toutes les informations de la première étape.
C'est, en fait, la façon dont votre cerveau fonctionne lorsque vous écoutez quelqu'un parler. Inconsciemment, vous essayez constamment de prévoir ce que cette personne va dire ensuite afin de mieux l'entendre et la comprendre.
L'un des principaux avantages de cette nouvelle approche est qu'elle rend le traitement d'un langage complexe ou nuancé plus fiable. Le nouveau modèle est ainsi capable de voir au-delà des fautes d'orthographe ou de l'argot.
Auparavant, les modèles d'apprentissage supervisé étaient limités à un ensemble défini de modèles connus pendant l'entraînement, ensemble qui était loin de représenter toutes les manières linguistiquement plausibles d'exprimer un concept. Les nouveaux modèles de pointe sont plus à même de réutiliser ce qu'ils savent déjà lorsqu'ils sont confrontés à des modèles inédits ou rares.
L'approche centrée sur l'apprentissage par transfert signifie que le modèle utilisera ce qu'il sait pour combler les lacunes. Par exemple, celui-ci peut décomposer les mots qu'il ne connaît pas en parties qui pourraient lui donner des indices (tout comme vous le feriez !).
Et cela fonctionne dans presque toutes les langues, car nous ne nous formons pas à une nouvelle langue à chaque fois. Cela signifie également qu'il peut prendre en charge un plus large éventail de dialectes régionaux et de messages au sein desquels quelqu'un passe d'une langue à l'autre.