Accessibilité Technologie

La synthèse vocale : un outil utile pour tous les utilisateurs

Par Moïse Akbaraly, le 17 janvier 2019 à 15:07

Que diriez-vous de donner de la voix à vos sites web, vos documents numériques ou vos applications mobiles ? Intéressant, même indispensable, n’est-ce pas ?

La synthèse de la parole est très utilisée dans le cadre de nombreux services type météo ou encore dans les gares - tout le monde connait Simone, la voix culte de la SNCF qui nous accueille et nous informe pendant notre voyage. Tout cela pour dire que la synthèse vocale fait partie de notre quotidien depuis longtemps.Testez le niveau d'accessibilité de votre site web. Ouverture dans une autre page, télécharger la checklist.

L’avènement de la voix se montre inéluctable ! En cette ère où l’intelligence artificielle bat son plein, difficile de ne pas évoquer la révolution des assistants numériques tels que Google Assistant, Alexa, Cortana, Siri entre autres.

Les voix de synthèse se démocratisent… et ce n’est pas les fans de Marvel qui diront le contraire : rappelez-vous la voix de Jarvis (dans Iron Man), le puissant système vocal servant de moyen de communication à Tony Stark pour interagir avec les autres Avengers.

Fin de la parenthèse, il est temps de plonger au cœur du sujet : la synthèse vocale en soi. Qu’est-ce que c’est ? Qui est concerné ? Comment fonctionne-t-elle ? Et quels sont les logiciels utilisant cette technologie ? Vous trouverez toutes les réponses au fil de votre lecture.

 

Synthétiseur vocal : définition, principe et fonctionnement

La synthèse vocale regroupe un ensemble d’outils permettant de produire automatiquement de la parole artificielle, le but étant de favoriser l’accessibilité. Les textes se transforment ainsi en paroles grâce à une voix synthétique intégrée dans le dispositif.

Avec le rythme auquel évoluent les innovations technologiques, de nombreuses solutions de synthèse vocale émergent. Cependant, la technique de la voix virtuelle pour lire un texte se révèle plus efficace.

Cette technologie fait la part belle à l’application Text-to-Speech (TTS) qui, contrairement aux logiciels Speech-to-Text (reconnaissance vocale automatique), transforme des contenus textuels en format audio. Mais les applications vont bien au-delà et concernent plus précisément des aides à la communication handicap, les outils d’enseignement assistés par ordinateur ou encore les jeux vidéos.

Pour répondre aux besoins du plus grand nombre, il ne s’agit pas seulement de produire une transcription phonétique ultra-sophistiquée. Pour les personnes ayant une déficience visuelle, on préférera plutôt une solution accessible afin de comprendre rapidement. A contrario, l’expressivité de la voix représente un atout de taille dans l’industrie du jouet.

Quoi qu’il en soit, force est de constater que les raisons sont légion pour avoir recours à la parole artificielle. 

Pourquoi utiliser la synthèse vocale phonétique pour lire un texte ?

En tout premier lieu, beaucoup d’utilisateurs assimilent plus vite en écoutant plutôt qu’en lisant. Puis, l’accessibilité comporte de nombreux enjeux au point que plusieurs pays occidentaux la considèrent comme une obligation légale.

La synthèse et la reconnaissance vocale favorisent l’accessibilité au plus grand nombre et permet une aide à la communication handicap. Une mesure conforme aux normes handicapés et aux règles de l’accessibilité numérique du World Wide Web Consortium (W3C).

infographie illustrant le W3C

Pour en savoir plus sur la technologie au service des handicapés, découvrez comment les nouvelles technologies permettent de pallier les déficiences.

Quelles sont les personnes particulièrement concernées par l'accessibilité numérique ?

La synthèse vocale touche avant tout un public éprouvant un réel besoin, à l’instar des handicapés visuels qui accèdent facilement aux contenus grâce au Text-to-Speech. En permettant de transcrire phonétiquement un texte, la voix virtuelle offre la possibilité aux non-voyants ou malvoyants de « lire » le document. En outre, toute personne ayant des difficultés de lecture est concernée.

Mais à bien considérer les choses, la parole artificielle s’adresse à tous et ne se résume pas à une technologie de synthèse vocale pour personne handicapée uniquement ; il est désormais possible de lire un texte sans devoir fixer l’écran et on ne peut pas rêver mieux. Ainsi, vous pouvez avoir accès au contenu de vos mails ou d’une page web tout simplement en le demandant. On retrouve notamment cette technologie dans le domaine des interfaces utilisateurs telles que les assistants vocaux, les jeux vidéos, l’internet des objets entre autres.

Testez le niveau d'accessibilité de votre site web. Ouverture dans une autre page, télécharger la checklist.

Champs d’application de la synthèse de la parole

Les champs d’application d'une voix artificielle, peuvent se décliner en 5 catégories :

Les unités de réponse vocale

Intégrées dans de petits dispositifs, les unités de réponse vocale génèrent seulement quelques phrases ou mots préenregistrés. On les retrouve dans des appareils vocaux, poupées ou voitures.

Les services d’annonces vocales

Ici, on peut distinguer une plus grande richesse lexicale. Par exemple, les services de météo se baseront sur les conditions climatiques alors que pour l’aviation, les informations géographiques doivent être connues.

Les services de réponse pour des systèmes de vente

Plus sophistiquée que les deux catégories précédentes, elle concerne surtout les commerces souhaitant fournir des informations par téléphone sur leurs produits. Bien que le vocabulaire soit connu, il devient plus grand avec la vaste gamme d’articles disponibles dans le catalogue.

Les dispositifs pour lire sans regarder l’écran

Cette technologie est idéale pour les déficients visuels ou les personnes dont leur situation ne leur permet pas de lire en regardant l’écran (en voiture par exemple). La synthèse à partir du texte rend possible la lecture à haute voix des contenus plus longs (journaux, livres numériques, mails) de façon spontanée.

Les services téléphoniques sans interlocuteur humain

La technologie avance à grands pas et on pense déjà à un système intelligent permettant de remplacer les opérateurs téléphoniques. Ainsi, on s’attend à obtenir les informations de la trame sans passer par un conseiller.

Comment faire parler une machine à partir d’un texte ?infographie illustrant la synthèse vocale

Comme nous l’avons mentionné antérieurement, les applications types Text-to-Speech (TTS) ou dites de vocalisation, n’ont rien à voir avec les unités de réponses vocales. Ces derniers fonctionnent à partir de phrases préenregistrées dans une base de données. Ils sont en effet plus complets et répondent mieux aux exigences accrues des utilisateurs ayant de réels besoins.

Concrètement, la création d’un logiciel TTS peut se décomposer en quatre étapes :

  • Identification et correction des « anomalies » dans le texte (sigles, chiffres, unités)
  • Restitution de la prononciation du texte - transcription du texte orthographique sous forme de texte phonétique
  • Structuration du texte - la prosodie du texte
  • Production de la parole de synthèse

Dans les logiciels Text-to-Speech, les phrases sont générées à partir de graphèmes et de phonèmes de langage. Pour cela, le moteur TTS utilise deux systèmes complémentaires : un front-end et un back-end. Pendant que le front-end assure la cohérence de la transcription phonétique et construit les textes en phrases, le back-end (synthétiseur), lui, se charge de la conversion en son.

Outre l’aspect fonctionnel de la technologie TTS, son intelligence ne cesse de surprendre. Le deep learning (ou apprentissage profond), type d’intelligence artificielle, vient apporter sa pierre à l’édifice en améliorant la qualité du synthétiseur vocal. La sonorité est nettement plus naturelle avec des caractéristiques (rythme, prononciation, inflexion) quasi identiques à la voix d’un orateur humain.

Les meilleurs logiciels et dispositifs de synthèse vocale

Logiciels et systèmes d’exploitation informatiques populaires

De nombreux logiciels Text-to-Speech existent, l’un des plus efficaces étant ReadSpeaker. D’autres sont disponibles sous forme d’appareils de synthèse vocale, comme le Quick Link Pen de WizCom Technologies, et permettent de scanner des textes avec un stylo, puis de les lire à voix haute.

En constatant ce marché en plein essor, les concepteurs de logiciels AT&T, Amazon Web Services et Google se sont mis au diapason et développent leurs propres outils de synthèse vocale.

Les systèmes d’exploitation informatiques font également appel au Text-to-Speech pour rendre leurs produits encore plus accessibles. À l’instar de Google Text-to-Speech, les applications sur système d’exploitation mobile permettent de lire du texte à haute voix. Une technologie qui, sans que l’on s’en rende compte, est utilisée sur des applications telles que Google Play Books pour lire des livres ou encore Google Traduction pour faciliter l’accès aux traductions.

Parmi les meilleurs logiciels de synthèse vocale gratuit, vous trouverez notamment des solutions de synthèse vocale en ligne mp3 comme TTSReader. Mais pour des besoins plus exigeants, autres qu’une simple transcription, il existe des dispositifs beaucoup plus complets que nous allons découvrir dans la foulée.

Les livres audios

Les livres audios fonctionnant sous DAISY sont conçus à la base pour les personnes ayant des difficultés à utiliser les supports imprimés ordinaires. Ainsi, un auditeur non-voyant dispose de plusieurs fonctions de navigation : passage à la page, au chapitre, à la phrase (suivante ou précédente). Les informations sont donc accessibles pour tous ceux qui ont du goût pour la lecture.

Un livre de texte DAISY informatisé présente l’avantage principal, en l’occurrence, de convertir le livre parlant au moyen d’une voix synthétisée. Audible, une société d’Amazon, propose ce service de livre audio en abonnement. Les utilisateurs jouissent d’une meilleure expérience de lecture et peuvent se laisser bercer par une voix claire et agréable avant de s’endormir.

PubliSpeak : une solution inédite pour donner de la voix à vos documents

PubliSpeak est une plate-forme intelligente qui, grâce au moteur de vocalisation de Readspeaker, offre de la voix à vos documents tout en lui donnant l’aspect d’un site internet. Ce qui fait sa différence avec un logiciel de communication handicap classique, c’est le surlignage des phrases au fil de la lecture. Ainsi, les seniors et les malvoyants peuvent accéder plus aisément au contenu.

Bien plus complet qu’un flip book et plus économique qu’un site web, cette solution exclusive se démarque complètement en intégrant une voix artificielle qui facilite la lecture et pallie les déficiences.

Alors, prêt à donner de la voix à vos documents avec un logiciel de synthèse vocale professionnel, complet, économique et accessible ?

Comment optimiser votre site web pour vos visiteurs et les moteurs de recherche ?  Testez le niveau l'accessibilité votre site web.  Ouverture dans une autre page. Téléchargez la checklist

Moïse Akbaraly

Moïse Akbaraly

Diplômé de l’ESC Rennes et de l’Open University, Moïse co-fonde Ipedis avec Jackir en 2006. Après une expérience à Londres dans la gestion d’actifs, Moïse reprend du service au sein d’Ipedis en 2012 pour diriger les équipes conseils et commerciales. Il accompagne au quotidien les clients pour améliorer l’accessibilité et faire bouger les lignes dans l’intérêt du plus grand nombre. Il réinvente la proposition de valeur pour ancrer l’accessibilité dans les enjeux d’aujourd’hui et demain. Co-fondateur et Directeur associé, il dirige les équipes Conseil, Marketing et Commerciale.

    La fresque de l'accessibilité numérique, découvrez notre atelier de sensibilisation

    Vous avez des projets d'accessibilité

    et vous souhaitez être accompagné ?

    Contactez Nos Experts