2. Et qu’en est-il du rôle de l’IA en matière de social media intelligence ?
Nous avons eu une évolution importante avec l’arrivée de la veille par image. Pour d’autres applications, cela peine encore à arriver. On compte cependant certains champs investis par l’IA :
- Le champ de création des requêtes
- Le champ des corpus avec l’identification de logos pour récupérer des items
- Le champ d’analyse et le regroupement thématique comme Iris, la fonction d’analyse intelligente de Brandwatch
En dehors de ces initiatives intéressantes, j’ai un peu l’impression de revivre les champs de la détection de la tonalité (positif / neutre / négatif) avec les mêmes failles.
Premièrement, pour que l’intelligence artificielle fonctionne avec nos corpus, il faut qu’elle soit entraînée avec ces derniers. Or, on est loin de la masse critique nécessaire pour obtenir des résultats satisfaisants. Comme Antonio Casilli le dit bien, derrière l’IA, il y a souvent des travailleurs du clic payés à bas coût et qui ensemble permettent d’atteindre la taille critique de corpus. Dans le cas de social listenings, les données sont traitées par des profils à haute valeur ajoutée qui ne sont pas assez en nombre pour produire assez de données pour que l’IA soit suffisamment entraînée. De plus, comme ces profils appartiennent à des agences différentes et qu’il n’y a pas globalisation du traitement des corpus, j’ai du mal à imaginer que l’IA dispose d’assez de matière pour pouvoir traiter ces corpus.
De plus, la plupart des logiciels de veille sont mal préparés à pouvoir globaliser le travail de qualification des corpus. En effet, la plupart des logiciels proposent des dashboards statiques où il n’est pas possible de travailler la donnée. Ce faisant, alors que les logiciels de monitoring pourraient de par leurs clients opérer la centralisation du traitement des données pour ensuite enseigner ce traitement à une intelligence artificielle, aucun n’en est en mesure actuellement.
Celui qui est le plus ouvert sur le traitement de la donnée est d’ailleurs Brandwatch où il est possible de paramétrer de façon personnalisée les Dashboard et de qualifier manuellement chaque occurrence, mais la plupart des clients de logiciels ne se contentent pour le moment que de les utiliser comme une vitrine où s’amoncellent des chiffres sans que ceux-ci soient travaillés.
Pour résumer, nous n’avons, pour l’instant, pas assez de qualification de la donnée pour atteindre une masse critique, et il sera difficile d’obtenir cette masse critique si les dispositifs techniques des veilleurs restent les mêmes et si la sociologie de l’usage des communicants, qui considèrent les logiciels comme des dashboards « vitrines » plutôt que des outils de qualification de la donnée, reste pareille.
Deuxièmement, nous allons avoir le même souci que pour la tonalité, à savoir qu’il sera très difficile pour un logiciel d’avoir la même interprétation que l’humain. L’ironie n’est pas le seul souci lorsqu’il faut interpréter un contenu. Quel type de parties prenantes nous avons en face ? Quelles sont les thématiques ? Pour faire ce travail, un analyste cumule différents corpus, utilise différents savoirs, et il sera difficile pour une machine de copier ce comportement.
Troisièmement, nous allons avoir un souci de par la nature même des corpus qui constituent le social listening. Dans un monde où les API sont de plus en plus inaccessibles, les corpus sur lesquels nous travaillons sont de plus en plus reliés à Twitter. Or, ce sont donc des corpus de maximum 280 caractères ce qui limite grandement le champ possible des analyses. Comment réaliser des analyses sémantiques sur de si petits corpus ? Comment interpréter en quelques mots le sens d’un message et son caractère sémiotique ?
Tous ces questionnements expliquent pourquoi j’observe avec un certain intérêt le développement des techniques de machine learning.