26 septembre 2014

Les meilleurs lecteurs labiaux se trouvant parmi la population des personnes sourdes

©Reuters

Big Brother is reading you

Big Brother, c'est maintenant, épisode 4312 : la lecture sur les lèvres

Un système de lecture labiale automatique de plus en plus efficace est aujourd'hui disponible. Destiné aux personnes sourdes et malentendantes, il est tout à fait possible que les gouvernements et entreprises s'en emparent et ce, à des fins bien moins altruistes.

Vincent Gautrais et Denis Beautemps

Vincent Gautrais

Vincent Gautrais est professeur de droit à l'Université de Montréal et titulaire de la Chaire en droit de la sécurité et des affaires électroniques. Il travaille notamment sur les liens entre nouvelles technologies et respect de la vie privée.

Voir la bio »

Denis Beautemps

Denis Beautemps est responsable du département "Paroles et Cognition" (GIPSA-Lab) de l'Université Stendhal de Grenoble.

Voir la bio »

Atlantico : Les systèmes de lecture labiale automatique ont atteint un niveau de performance record. Sur quelle base un tel système fonctionne-t-il ?

Denis Beautemps :La lecture labiale dite communément "lecture sur les lèvres" est une compétence naturelle que possède tout à chacun, avec cependant une grande variabilité d’une personne à l’autre, les meilleurs lecteurs labiaux se trouvant parmi la population des personnes sourdes. C’est donc une compétence naturelle que l’on exploite dans la vie de tous les jours, plus ou moins consciemment, comme par exemple dans des situations de bruit ambiant important. Dans nos données de laboratoire, des personnes sans problème de surdité ont ainsi pu obtenir des scores d’une moyenne de 60% d’identification de syllabes dans le bruit à partir de l’information disponible aux lèvres. De nos jours, on estime en France 5 à 6 millions les personnes malentendantes ou sourdes profondes ou devenues sourdes. C’est d’autant plus vrai que l’âge de la population est vieillissant. Pour les personnes devenues sourdes progressivement, la lecture labiale est devenue petit à petit le moyen principal pour percevoir la parole. On comprend donc bien que la surdité devient aujoud’hui une question de santé publique et la lecture labiale une des entrées principales pour comprendre la parole. Mais du fait que des sons différents peuvent avoir des formes aux lèvres similaires (les sozies labiaux), il n’est pas possible de percevoir la parole de façon complète sans complément d’information, comme par exemple la connaissance du sujet dont il est question, ou l’apport auditif par une prothèse auditive ou un implant cochléaire ou bien un complément gestuel près du visage tel que le Cued Speech (inventé par Cornett dans les années 1970) pour les personnes qui savent utiliser ce système.

En parallèle de tout cela, avec l’apport des travaux de recherche en modélisation statistique et reconnaissance de la parole d’une part et des performances de plus en plus importantes des systèmes informatiques, la question de la traduction automatique et la reconnaissance automatique de la lecture labiale est devenue un enjeu de recherche. Ainsi les meilleurs systèmes permettent d’atteindre 76 % de reconnaissance de mots, ce qui vous le noterez dépasse déjà largement les performances des meilleurs lecteurs labiaux dans le cas de mots hors contexte. Ils s’appuient sur une étape d’apprentissage sur un vocabulaire de mots pour lesquels sont extraits des paramètres issus de la région d’intérêt des lèvres. Ces paramètres sont utilisés pour entrainer des modèles statistiques comme les modèles utilisés en "Machine Learning" tels que les HMMs (Hidden Markov Models). Il est alors ensuite possible de reconnaître des mots. Les performances supérieurs à 76% peuvent être obtenues par exemple en rajoutant des modèles de langage (qui modélisent le contexte de communication par exemple) ou qui intègrent des informations gestuelles comme ceux du Cued Speech par exemple. Au laboratoire GIPSA-lab, nous avons ainsi pu atteindre des performances de plus de 90% avec le Cued Speech. Performances comparables à la reconnaissance basée uniquement sur le son.

A l’image des logiciels de traduction automatique qui deviennent de plus en plus performants, la lecture labiale automatisée pourrait-elle devenir aussi performante que les personnes dont c’est la spécialité, voire dépasser ces dernières en efficacité ?

Denis Beautemps : Les meilleurs systèmes permettent d’atteindre 76% de reconnaissance de mots, performances que notre laboratoire GIPSA-lab a déjà atteintes dès 2010. Vous noterez que ce résultat dépasse déjà largement les performances de 43,6% rencontrées chez les meilleurs lecteurs labiaux dans le cas de mots comme cela est rapporté par la littérature (Auer & Bernstein, 2007 ; Bernstein et al., 2010). Les performances supérieures à 76% peuvent être obtenues en rajoutant des traitements supplémentaires pouvant faire appel à des modèles de langage (qui modélisent le contexte de communication) ou par le moyen de traitements supplémentaires qui intègrent des informations supplémentaires comme celles issues des geste du Cued Speech par exemple. Au laboratoire GIPSA-lab, nous avons ainsi pu atteindre des performances de 94,9% avec le Cued Speech (Heracleous, P., Beautemps, D. & Aboutabit, N., 2010). Performances comparables à la reconnaissance basée uniquement sur le son.

Conçue à l'origine pour les personnes sourdes et malentendantes, à quelles autres fins ce type de système peut-il être utilisé ?

Vincent Gautrais : Même si cette technique sera probablement utilisée principalement pour les personnes sourdes et malentendantes, il est tout à fait envisageable que nos gouvernements s’en emparent. Ils sont en effet assez gourmands des nouvelles technologies et n’hésitent pas à les utiliser pour surveiller les populations d’éventuels risques.

Concernant le système de lecture labiale automatique, on pourrait très bien imaginer une vidéo sur laquelle deux personnes (ou une si elle est au téléphone) seraient en train de discuter et correspondraient à un certain type de signalement. Les services de renseignement essaieraient alors de comprendre ce que se disent ces personnes et ce, pour des raisons sécuritaires. C’est d’ailleurs ce qui se fait déjà avec la reconnaissance faciale.

La lecture labiale automatique pourrait-elle être également utilisée à des fins commerciales, comme dans un supermarché où les entreprises essaieraient de comprendre ce que pensent les consommateurs de tel ou tel produit ?

A mon avis, on peut tout à fait faire confiance aux entreprises pour trouver une utilisation spécifique à cette technique. Si l’on prend l’exemple du supermarché, il y aurait clairement un intérêt marketing derrière. Mais cela ne constituerait pas pour autant une atteinte à la vie privée. Les marchands ont finalement besoin de savoir ce que veulent et pensent les consommateurs, le salaire qu’ils gagnent, leurs habitudes de vie, etc. L’identité du consommateur en soi n’est pas déterminante, à l’inverse des gouvernements.

Ceci étant dit, il y a une claire différence entre l’Amérique du Nord et l’Europe : le réflexe de l’atteinte à la vie privée est moins aigu dans le premier cas que dans le deuxième. Un travail est fait pour tenter d’harmoniser les règles d’atteinte à la vie privée au niveau internationale, mais ce n’est pas gagné, du fait de ces différences.

Comment pourrait-on s'en prémunir ? Quelles seraient les parades pour que l'on ne puisse pas tout connaître de nos conversations ?

Si les services de renseignement décident de l’utiliser, le potentiel de lutte du citoyen est passablement faible. D’autant plus que l’on n’est jamais au courant de l’utilisation de ce type de technique et cela ne se sait que bien des années après. Finalement, il n’y a que très peu de moyens de contrôler les contrôleurs, notamment publics et étatiques ! On accuse Facebook et Google de violer notre vie privée, mais on est dans une relative tolérance vis-à-vis du service public qui fiche énormément. L’utilisation de telle pratique est souvent justifiée par un discours politique basé sur la peur, le terrorisme étant désigné comme la première cause d’atteinte à la vie privée.

Concernant la recherche relative à ce type de techniques, des mesures ont-elles été mises en place au départ de l’étude pour évaluer les risques que les résultats peuvent entraîner ?

Dans les universités, il y a effectivement souvent un comité d’éthique qui vérifie que les recherches ne sont pas attentatoires à ces droits fondamentaux. Mais le caractère sérieux de ces démarches est très variable d’une université à l’autre, voire d’une culture à l’autre.

En l’occurrence, les questions de vie privée en Europe sont culturellement différentes de celles d’Amérique du Nord, où la tolérance y est plus forte. Pour prendre un exemple, c'est après la création de Google et Facebook que l’on s’est mis à réfléchir sur la possibilité d’une atteinte à la vie privée. Le fait d’analyser les risques au préalable est une approche qui tend cependant à se généraliser. Des comités d’éthique ont été mis en place pour contrôler la recherche dans le domaine des sciences humaines depuis très longtemps, et c’est depuis peu que les domaines des sciences pures, comme l’informatique, ont crée le leur.

Auparavant, analyser les risques potentiels était une source de tracas et de ralentissement. Aujourd’hui, il n’y a plus le choix.