6 juin 2016

On n'arrête pas le progrès

Siri, c’est fini: les chatbots, ces programmes qui seront vraiment capables d’avoir des conversations avec les êtres humains

De nombreuses grosses entreprises comme Facebook et Microsoft commencent à miser sur les "chatbots", des programmes informatiques susceptibles de mener des conversations orales ou écrites en temps réel. Ces programmes, dont le développement avance à pas de géants, sont cependant encore loin des standards de science-fiction, mais offrent une infinité de possibilités dans de nombreux domaines.

Christophe Benavent

Professeur à Paris Ouest, Christophe Benavent enseigne la stratégie et le marketing. Il dirige le Master Marketing opérationnel international.

Il est directeur du pôle digital de l'ObSoCo.

Il dirige l'Ecole doctorale Economie, Organisation et Société de Nanterre, ainsi que le Master Management des organisations et des politiques publiques.

Le dernier ouvrage de Christophe Benavent, Plateformes - Sites collaboratifs, marketplaces, réseaux sociaux : comment ils influencent nos Choix, est paru en mai 2016 (FYP editions).

Voir la bio »

Atlantico : De nombreuses grosses entreprises (Facebook, Microsoft, etc…) commencent à miser sur les "chatbots", des programmes informatiques susceptibles de mener des conversations orales ou écrites en temps réel. Comment cette technologie fonctionne-t-elle exactement, et en quoi constitue-t-elle une avancée par rapport aux systèmes actuels ?

Christophe Bénavent : Elles ne commencent pas que maintenant, mais le font depuis longtemps. Souvenons-nous de Clippy de Microsoft Office qui a été introduit avec la version 97! Ce qu'on appelle "chatbots" est étudié depuis des année sous le terme d'AVI (Agent virtuel interactif) ou d'agent conversationnel, et l'on trouve des centaines d'études à leur propos. Dans le domaine commercial, il y en a des centaines et chaque année depuis 2011, sur une idée de Thierry Spencer, les étudiants du Master Marketing de l'Université Paris Ouest décernent le prix du meilleur agent dans le domaine de la relation client, sous le titre de Miss et Mister. Cette année, c'est Thomas de Natixis qui a été récompensé.

Ils le font en testant chaque année les candidats selon un protocole particulier qui évalue leur performance relative. Trente-neuf candidats ont été évalués en 2016. Ces agents sont composés de deux éléments : un avatar et une "intelligence". L'avatar est ce qui donne une qualité sociale à l'agent conversationnel ; sa forme est un objet d'étude : doit-il être fortement anthropocentrique ? La réponse est non, il doit l'être suffisamment pour générer une familiarité, mais pas excessivement pour éviter un rejet ( c'est l'hypothèse classique de la Uncanny Valley en robotique). Sa forme n'échappe pas aux déterminismes sociaux, notamment les rôles et stéréotype de genre ; c'est ainsi que, dans ce domaine particulier, on leur donne de manière dominante un aspect et une personnalité féminine. Leur utilisation dépend de trois grands facteurs classiques : leur performance et leur utilité ; leur facilité d'utilisation qui est plus grande que des systèmes abstraits de recherche et de filtrage de l'information sur les sites web ; et enfin leur jouabilité (les consommateurs n'hésitent pas à les provoquer, les titiller, pour évaluer leur intelligence).

Nos propres travaux montrent que leur performance dépend d'un jugement d'humanité qui se constitue de trois facteurs : sont-il intelligents (au sens de Turing finalement) ? Sont-ils bienveillants ? Sont-ils attractifs ? A vrai dire, leur performance dépend de la nature de la tâche. Ils sont très bons pour orienter les utilisateurs au sein d’un site en fonction de questions simples, et sont, de ce point de vue, de bons substituts aux moteurs de recherche. Mais en réalité leur "intelligence" a jusqu'alors été assez limitée et leur capacité conversationnelle peu étendue. Cependant, les choses sont en train de changer, car les technologies qui constituent leur intelligence évoluent très rapidement. Aux méthodes d'intelligence artificielle fondées sur l'extraction de contenu sémantique (en réalité lexicale) et de moteurs d'inférences (des moteurs logiques qui dérivent de règles des réponses) s'ajoutent aujourd'hui des techniques issues d'un courant de l'IA, popularisées sous le terme de Deep Learning. Ces techniques ont une origine ancienne, celle des réseaux de neurones (dont le premier exemple est le perceptron proposé par Rosenblatt en 1957), populaires dans les années 1990, abandonnés ensuite, mais qui connaissent un regain d'intérêt depuis 2006-2007 avec les travaux de Geoffrey Hinton, de Yoshua Bengo, et de Yan le Cun.

Ces chercheurs ont trouvé des méthodes pour donner aux réseaux de neurones constitués de nombreuses couches - mais instables - la possibilité d'être stables, en faisant précéder leur apprentissage supervisé, par des phases d'apprentissage non supervisés partiels ( couche par couche). Depuis, une explosion de recherches est enregistrée, aboutissant à des propositions d'architectures nouvelles et complexes, ouvrant un champ nouveau pour résoudre des problèmes de reconnaissance d'objets dans les images fixes et vidéo, dans le traitement automatique du langage naturel, et même dans la composition musicale. Les chatbots sont un domaine particulier et spécifique d'application. On recommande au lecteur de suivre le cours de Yan Le Cun, qui dirige à Paris la recherche sur l'IA de Facebook, sur le site du Collège de France.

Ces technologies bénéficient, de plus, de l'accroissement des capacités de calculs des machines actuelles et surtout de masse de données considérables. Pensons au volume incroyable du corpus textuel constitué par Google en enregistrant nos recherches, et surtout en numérisant les bibliothèques du monde entier, à la gigantesque bibliothèque de photo de Facebook ou de Flickr. Ces corpus permettent d'entraîner des outils de machine-learning, prêts à apprendre les choses les plus rares, et donc à s'approcher d'un langage naturel. Voilà qui donne un nouvelle élan à des applications anciennes. Bref, il n'y a pas de révolution, ou de nouveauté, mais clairement ce qu'on peut qualifier de saut évolutif dans la capacité des machines à dialoguer avec les humains.

Dans quels aspects concrets de la vie de tous les jours les chatbots pourraient-ils être utiles ? Quelles applications ont déjà été imaginées ?

La première de ces applications est sans doute Siri, et dans son sillage, des produits tels qu' Echo d'Amazon. C'est l'univers des assistants personnels qui va être un enjeu majeur dans le développement des objets connectés. On pourra ainsi discuter de vive voix avec l'ensemble des appareils domestiques, des voitures, des services de conciergerie. L'enjeu me semble résider dans le fait que les machines obéiront ainsi à la voix plutôt qu'aux doigts, et pourront même avoir une autonomie de décision. C'est au fond le composant nécessaire pour que l'Internet des objets puisse fonctionner de manière satisfaisante.

C'est au passage ce qui justifie les investissements importants dans la voiture autonome qui ne risque pas, avant des décennies, d'envahir nos routes (pour des raisons sociales, juridiques et éthiques, mais pas du tout pour des questions technologiques) mais est un remarquable laboratoire pour mettre au point ces technologies : apprendre à distinguer un piéton d'un véhicule en temps réel, pouvoir échanger avec des bases cartographiques dynamiques (à la Waze) en temps réel pour décider un itinéraire, ajuster en temps réel la conduite aux conditions de circulation, gérer de manière autonome la maintenance...

Dans le domaine commercial, qui est ma spécialité, bien sur c'est un renouvellement des interfaces des sites de e-commerce, et plus profondément leurs extensions à des tâches aujourd'hui peu automatisables car peu standardisées : établir des devis pour rénover son habitat, générer des playlists personnelles pour les sites musicaux, améliorer et automatiser le coaching bancaire et financier, gérer un agenda. Toutes ces situations où le consommateur a des difficultés à formuler par le biais de menu et de boite de dialogues ce qu'il souhaite, et qu'il ne peut exprimer que dans un langage approximatif et évocateur.

Pourra-t-on réellement communiquer avec des machines de la même manière que l'on communique avec d'autres personnes grâce aux chatbots ? Quelles différences persisteront néanmoins ? Quelles sont les limites actuelles de ce procédé en termes de recherche, de faisabilité et de performance ?

Pour la plupart des conversations triviales ("passe-moi le sel", "quel temps va-t-il faire?") la réponse est oui. Quant à rêver d'un dialogue philosophique ou d'une simple conversation politique, c'est non. En l'état, même si ces technologies produisent des résultats spectaculaires, elles sont assez peu fiables. La reconnaissance d'objet dans une image, ce que fait Flickr pour taguer automatiquement nos albums photo, donne une bonne idée de la performance : les taux d'erreurs sont de 20% alors que le système est conçu pour attribuer une centaine de mots-clés (par exemple : "animal", "extérieur", "architecture" ....). En revanche, la reconnaissance de caractères aujourd'hui arrive à un taux d'erreur inférieur à 0,20% ! Au passage l'évaluation de la performance de ces systèmes est en soi un enjeu de recherche. On en a que des éléments partiels, les entreprises qui les emploient ayant tendance à fortement surestimer leur performances. Dans le domaine du langage, l'obstacle est celui de l’ambiguïté de nos énoncés (par exemple : "Nabila a blessé son ami avec un son couteau. A qui appartient le couteau?”) qui requiert des éléments de contexte, mais surtout celui du raisonnement. J'encourage à nouveau sur ce point à lire et à écouter Yan le Cun.

Un second type de limite est de type social. C'est ce qu'illustre la mésaventure de Tay qui en moins de 24h s'est transformé en agent conversationnel ultra-conservateur, sinon raciste. L'agent a appris à converser, mais sous une influence adversiale : un petit groupe d'activistes s'est amusé à lui apprendre des choses fausses, de la même manière que les spammeurs entraînent les anti-spams à ne plus reconnaître les spams par des techniques diverses dont une s'appelle l'offuscation, autrement dit en multipliant les leurres. C'est d'ailleurs le titre d'un ouvrage récent de Finn Brunton et Helen Nissenbaum, des chercheurs du MIT, qui en font une méthode de protestation et de protection de la vie privé contre les intrusions des algorithmes. On trouve ainsi des applications qui génèrent automatiquement des recherches sur Google, pour empêcher ce dernier d'apprendre nos goûts et nos intérêts ! La limite ici réside dans une notion importante : celle de la dépendance des données.

En principe, un algorithme doit, dans son fonctionnement, être indépendant des données qui y sont introduites. Le problème de ces techniques est que les paramètres de l'algorithme dépendent de ce qu'on y introduit ! Autrement dit, si l'agent, même intrinsèquement performant, est entraîné par la foule, dont le niveau de langue est généralement peu soutenu, il apprendra à "parler mal" , et s'il est nourri de lieux communs, ses réponses deviendront idiotes. La limite n'est pas dans la technologie mais dans la manière dont on va entraîner ces machines qui n'ont aucun accès au concepts, même si elles ont des capacités d'abstraction. L'entraînement, rappelons-le, est cette phase où l'on présente des épreuves à la machine lui indiquant des réponses justes. L'algorithme modifie au fur et à mesure ses paramètres jusqu'à donner de bons résultats. Le problème ici est de savoir qui définit ce qu'est une bonne réponse.

Cette bonne réponse est généralement une convention sociale, fruit d'une délibération. Un bonne exemple est celui d'une catégorie socio-professionnelle. Celles qu'emploient l'INSEE résultent d'un long dialogue entre chercheurs, statisticiens, sociologues, économistes, mais aussi représentant de la société civile. Dans le cas de l'application des techniques avancées de machine-learning (et en particulier du deep learning), qui va faire cet entraînement ? Un petit nombre d'individus au sein de grandes organisations? La masse des utilisateurs ? Aucune de ces solutions ne sont acceptables. On va devoir inventer des solutions intermédiaires, qui assurent que ce que les algorithmes apprennent, à défaut d'être vrai, soit au moins acceptable et légitime. C'est ce que demandent depuis peu d'années des chercheurs, souvent juristes, sous la notion de "redevabilité algorithmique". On lira par exemple l'excellent ouvrage de Frank Pasquale, The Black Box Society.

Propos recueillis par Thomas Gorriz

Le sujet vous intéresse ?

Mots-Clés

algorithme, calcul, Christophe Benavent, Bot, Deep Learning, programme informatique

Thématiques

High-tech Science