Ne pourra-t-on un jour plus différencier une voix humaine d'une voix artificielle?

Depuis le 13 juin dernier, Amazon Echo est disponible en France. Motorisée par l'assistant Alexa, l'enceinte permet d'accéder à près de 200 applications vocales en français. Les assistants vocaux intelligents font beaucoup parler d’eux ces temps-ci et se démocratisent progressivement. Bientôt, la voix d’un ou une inconnu.e nous accompagnera chez nous, dans nos enceintes, dans nos écouteurs, sous la douche, en pliant nos chaussettes… bref, dans notre quotidien en général. On se souvient du film Her de Spike Jonze, où Théodore (Joaquin Phoenix) tombe amoureux de Samantha, une intelligence artificielle à la voix féminine (celle de Scarlett Johansson). La dernière fiction audio de Gimlet Media, Sandra, s’attaque aussi à la question de l’humanisation de ces voix et intelligences de synthèse. Et si la première étape vers une véritable IA capable de converser naturellement avec l’homme n’était autre que l’amélioration de la voix, qui sonnait très robotique jusque-là?

Aujourd’hui, de plus en plus de recherches ont précisément pour but d'«humaniser» les voix artificielles, pour qu’en fin de compte, on ne puisse plus différencier à l’oreille la voix d’une machine, de celle d’un humain. Et je dois dire que les avancées en la matière sont extrêmement troublantes.

Faites le test par vous-même en écoutant ce premier enregistrement, et le deuxième ensuite.
 

giphy confused.gif

Alors? Pas si simple de faire la différence. La voix 1 est humaine et c’est celle d’une employée de chez Google, la 2 ne l’est pas. Le projet a été dévoilé en décembre dernier. Cette voix de synthèse incroyablement proche de celle d’un être humain, c’est celle sur laquelle travaille la firme californienne sous un nom de programme aux allures de science-fiction: Tacotron 2.

Selon cet article de 01net, la spécificité de ce programme est qu’il repose sur deux réseaux neuronaux: un premier qui découpe le texte en séquences et les transforme en spectrogrammes, un second qui génère automatiquement les fichiers audio à partir de l’analyse de ces spectrogrammes. En d’autres termes, Tacotron 2 n’utilise pas une banque d’enregistrements variés de comédien.ne.s qu’il combinerait pour former des phrases, mais génèrerait une voix de synthèse à partir des formes d’ondes des spectrogrammes. Le programme aurait obtenu le score exceptionnel de 4,53 lors des calculs chargés de juger la qualité de la restitution sonore d’un codec audio. Pour vous faire une idée, la version humaine s’élève à 4,58.

giphy.gif

En plus de sonner étonnamment humaine, cette voix artificielle est capable de reproduire une multitude de dictions différentes. Comme le montre bien cet article de CNET (avec des enregistrements à l’appui), Tacotron 2 pourrait prononcer aisément des mots compliqués, faire varier le volume et le débit d’élocution, saurait faire la distinction entre les deux sens d’un même mot, et adapterait son intonation à la ponctuation et même à la typographie (les mots en majuscule sont davantage accentués)! Pour les plus curieux.ses d'entre vous, vous pouvez écouter de nombreux exemples ici.

Couplé aux programmes d’intelligence artificielle, Tacotron 2 a notamment permis à l’Assistant de Google de réaliser une prouesse technique au cours de la conférence I/O 2018 (du 8 au 10 mai): faire une réservation par téléphone sans que l’interlocuteur au bout du fil ne se rende compte qu’il s’agissait d’une machine. Comment? En imitant des onomatopées humaines comme les «hum...» et les «ah...», tout simplement!

À celles et ceux qui ont peur des dérives technologiques, de la robotique et de l’intelligence artificielle en particulier, rappelons simplement que cela n’a été possible que sur une courte durée, et que ce programme de voix et d’intelligence de synthèse a pour l’instant besoin d’un entraînement spécifique à chaque nouvel exercice. Mais le jour approche où la voix et le langage ne seront peut-être plus le propre de l’être humain...

D’ailleurs, Justine, de Entre, est un robot depuis le début, de même que toutes les personnes de Transfert. On ne vous l’avait pas dit?

giphy wink.gif


Elie Olivennes