Une voix artificielle désormais capable de remplacer toutes les voix humaines : comment DeepMind révolutionne le passage de l'écrit à l'oral avec l’intelligence artificielle (et s’ouvre de vastes marchés potentiels)<!-- --> | Atlantico.fr
Atlantico, c'est qui, c'est quoi ?
Newsletter
Décryptages
Pépites
Dossiers
Rendez-vous
Atlantico-Light
Vidéos
Podcasts
High-tech
Une voix artificielle désormais capable de remplacer toutes les voix humaines : comment DeepMind révolutionne le passage de l'écrit à l'oral avec l’intelligence artificielle (et s’ouvre de vastes marchés potentiels)
©Flickr

Ultrasons

La société de recherche DeepMind, qui avait déjà fait des prouesses avec son robot jouant au "Jeu de Go" mieux que les humains, a une nouvelle fois montré l’étendue de son savoir-faire avec un modèle de génération sonore imbattable grâce à l'intelligence artificielle.

Christophe Benavent

Christophe Benavent

Professeur à Paris Ouest, Christophe Benavent enseigne la stratégie et le marketing. Il dirige le Master Marketing opérationnel international.

Il est directeur du pôle digital de l'ObSoCo.

Il dirige l'Ecole doctorale Economie, Organisation et Société de Nanterre, ainsi que le Master Management des organisations et des politiques publiques.

 

Le dernier ouvrage de Christophe Benavent, Plateformes - Sites collaboratifs, marketplaces, réseaux sociaux : comment ils influencent nos Choix, est paru en mai  2016 (FYP editions). 

 
Voir la bio »

Atlantico : En quoi la technologie de pointe développée par la société de recherche DeepMind est-elle plus avancée que les précédentes ?

Christophe Benavent : Elle s'inscrit dans le courant du #deeplearning, initié par Yann le Cun et quelques autres vers 2006, et très largement stimulé par les moteurs des grandes plateformes, comme Tensor flow pour Google.

Ces méthodes marquent un progrès important dans la capacité à identifier des objets, voire des actions dans les images, dans la reconnaissance vocale, la traduction, les agents conversationnels de nouvelle génération, et même la composition musicale. Elle se caractérise par une architecture de composants intelligents et comporte de nombreuses couches de réseaux de neurones dont d'autres modules qui filtrent et préparent les entrées.

Dans le cas de l'application de DeepMind, les concepteurs utilisent des modèles dits à "convolution causale" adaptés au traitement d'un signal sonore. Ces structures comportent des centaines de milliers de paramètres, et leur donnent des capacités de prédiction très importantes. Le modèle Wavenet qui est proposé permet ainsi de traiter l'information directement au niveau des représentations audio (un spectre de fréquence) plutôt que comme on le faisait avant, en associant des combinaisons de fragments d'enregistrement.

Concrètement, à quoi ce nouveau modèle de génération sonore va-t-il pouvoir servir ?

Le plus évident, c'est naturellement les applications de livres parlants et de vidéo-texte, ne serait-ce que pour les malvoyants, pour qui l'écran est rédhibitoire. On voit ensuite le vaste marché des centres d'appel et de relation client, ce qui permettrait d'automatiser une grande partie de la tâche et des gains de productivité considérables, sans compter l'ensemble des ATM et autres bornes interactives. Cela peut concerner les médias avec des speakers électroniques qui liront des bulletins météos et des informations lues par les machines.

Et puis il y a deux vastes marchés potentiels où l'interface fondamentale sera le son et la voix. Le premier, celui des automobiles et autres modes de transport autonomes, pourrait être le moyen de donner au passager un moyen de contrôle de l'intelligence artificielle qui le conduit (ne serait-ce que lui ordonner de s'arrêter). L'autre est plus proche de nous : c'est celui des interfaces telles que Echo d'Amazon, Siri de Apple, ou son analogue Everywhere chez Google. Ce type d'interface a vocation à s'enrichir, ne serait-ce que par la coordination des objets connectés au domicile (ordonner par son intermédiation la température souhaitée de la pièce). Et il y a encore bien d'autres marchés, c'est une question d'imagination.

Le point essentiel, c'est de comprendre que les interfaces audios représentent un champ encore inexploré. L'informatique d'aujourd'hui fonctionne au doigt et à l'oeil, celle du futur proche aura des lèvres et des oreilles. 

Comment les chercheurs s'y sont-il pris pour mettre au point ce nouveau modèle de génération sonore ?

Sur ce point, il vaut mieux les consulter directement (voir ici).

Les nouvelles générations de réseaux de neurones et de méthodes d'apprentissage voisines leur offrent un cadre général désormais solide et accessible par le biais de bibliothèques de programme. Il y a ensuite les savoir-faire spécifiques à chaque problème et les stratégies d'apprentissage qu'ils ont mis en œuvre. Les chercheurs de Deepmind ne sont pas les seuls à œuvrer dans le domaine, on voit fleurir les applications.

Les critiques présentent ce nouveau modèle de génération sonore comme une révolution. Y a-t-il cependant des points qui restent à améliorer selon vous ?

C'est une évolution forte. Sur le plan technique, l'innovation c'est le deep learning qui a déjà 10 ans d'âge. Aujourd'hui, il s'agit principalement de l'amélioration de fonctions déjà employées, mais la précision et l'adaptabilité que les nouvelles techniques proposent permettent de dépasser les marchés actuels et d'opérer à très grande échelle. Un système text-to-speach est un élément d'un ensemble vaste et intégré de solution d'intelligence artificielle pour la conversation que l'on aura avec les machines. Il ne s'agit pas seulement de lire à haute voix un texte, il faut aussi le produire le plus naturellement possible en fonction des réponses (c'est le rôle des chatbot, mais aussi comme le fait Dragon de convertir un signal sonore en texte).

L'enjeu est évidemment l'interactivité. Disons qu'aujourd'hui on peut imaginer que nous allons bientôt dialoguer en langage naturel avec les machines, non seulement par le biais de clavier, mais aussi de vive voix. On sera tenté naturellement de donner aux voix des machines un timbre particulier, un ton, un grain, une prosodie, bref une personnalité unique. Le plus fascinant, c'est que les machines vont prendre leur personnalité en nous analysant. 

Le sujet vous intéresse ?

À Lire Aussi

Pourquoi l’intelligence artificielle déployée par Google pour gagner contre un homme au jeu de GO pourra tout changer au moteur de recherche que nous utilisons tous (et au web tout entier)Quand notre intelligence ne sera plus qu'artificielle. La fin de l'homme ?L’intelligence artificielle, c’est plus fort que toi : après les robots de plus en plus humains, voilà comment les humains deviennent à leur tour de plus en plus robotiques

Mots-Clés

Thématiques

En raison de débordements, nous avons fait le choix de suspendre les commentaires des articles d'Atlantico.fr.

Mais n'hésitez pas à partager cet article avec vos proches par mail, messagerie, SMS ou sur les réseaux sociaux afin de continuer le débat !