La reconnaissance vocale et la synthèse vocale | Secondaire

Fiche | Sciences et technologies

Dans cette fiche, tu en apprendras davantage sur la reconnaissance vocale et la synthèse vocale, le rôle de l’IA dans ces technologies et comment elles peuvent t’aider dans tes apprentissages.

La reconnaissance vocale et la synthèse vocale sont deux technologies qui permettent d’interagir avec les ordinateurs et les appareils.

  • La reconnaissance vocale, ou speech-to-text (STT) en anglais, transforme la voix humaine en texte écrit.
  • La synthèse vocale, ou text-to-speech (TTS) en anglais, transforme le texte écrit en voix artificielle.
Une adolescente utilise la fonctionnalité de reconnaissance vocale sur son cellulaire. Un adolescent utilise la fonctionnalité de synthèse vocale sur son ordinateur.
Exemple

Voici quelques exemples d’applications de ces technologies.

On peut retrouver des fonctionnalités de reconnaissance vocale dans les applications de rédaction et de prise de notes, dans les moteurs de recherche et les assistants virtuels ainsi que dans les vidéos qui offrent la génération de sous-titres automatiques. On peut retrouver des fonctionnalités de synthèse vocale dans les lecteurs d’écran et de pages web, dans les applications de navigation GPS, dans les jeux vidéos et dans les menus téléphoniques.

Quel est le rôle de l’IA dans ces technologies?

La plupart des technologies de reconnaissance vocale et de synthèse vocale utilisent l’intelligence artificielle (IA). On t’explique comment ça fonctionne.

Le fonctionnement de la reconnaissance vocale

  1. Une très grande quantité de données de texte et de voix humaines libres de droits sont sauvegardées dans des centres de données.
  2. Ces données sont utilisées pour entrainer l’IA à associer les sons à du texte écrit.
    Par exemple, l’IA apprend que le son « ch » dans le mot schéma et dans le mot changement ne s’écrit pas de la même façon. Plus l’IA a de données pour s’entrainer, plus elle devient précise.
  3. Une fois entrainée, l’IA suit un ensemble de règles qui lui permettent de faire des prédictions. C’est ce qu’on appelle des algorithmes.
  4. Quand tu utilises la reconnaissance vocale, elle capte ta voix, elle la soumet aux algorithmes, puis elle prédit le texte à écrire.
Un schéma du fonctionnement de la reconnaissance vocale intégrée à un moteur de recherche.

Le fonctionnement de la synthèse vocale

  1. Une très grande quantité de données de texte et de voix humaines libres de droits sont sauvegardées dans des centres de données.
  2. Ces données sont utilisées pour entrainer l’IA à associer le texte écrit à des sons.

    Par exemple, l’IA apprend que lorsqu’il y a une virgule, la voix artificielle doit faire une pause.
  3. Une fois entrainée, l’IA suit des algorithmes.
  4. Quand tu utilises la synthèse vocale, elle analyse le texte écrit à l’aide des algorithmes, puis elle prédit les sons à produire par la voix artificielle.
Un schéma du fonctionnement de la synthèse vocale intégrée à une page web.

Quelques questions en rafale

Quelles voix sont utilisées pour entrainer l’IA?

Quels outils d’Alloprof offrent la synthèse vocale?

Comment ces technologies peuvent t’aider?

Bien qu’elles soient pratiques pour tout le monde, la reconnaissance vocale et la synthèse vocale sont d’une grande aide pour les gens qui ont de la difficulté à écrire et à lire, et ce, pour toutes sortes de raisons. En voici quelques exemples.

  • Les troubles de la vue
    Ex. Une personne aveugle ou malvoyante peut utiliser la synthèse vocale pour écouter le contenu d’une page web.
  • Les troubles auditifs
    Ex.  Une personne sourde ou malentendante peut lire les sous-titres générés automatiquement dans une vidéo.
  • Les handicaps moteurs temporaires ou permanents
    Ex. Une personne avec une blessure à la main peut rédiger un texte grâce à la reconnaissance vocale.
  • L’apprentissage d’une nouvelle langue
    Ex. Deux personnes ne parlant pas la même langue peuvent communiquer grâce à des applications de traduction qui comprennent de la reconnaissance et de la synthèse vocale.
  • Les troubles d’apprentissage (ex. dyslexie, dysorthographie, dyspraxie)
    Ex. Grâce à la synthèse vocale, une personne peut écouter les mots au fur et à mesure qu’elle écrit. Ceci permet de détecter plus facilement les erreurs d’orthographe.
     
Des élèves du secondaire en classe. L’une des élèves a un ordinateur portable sur son pupitre.
Source : Xavier Lorenzo, Shutterstock.com

À l’école, des outils technologiques peuvent te permettre de réaliser et de démontrer tes apprentissages en réduisant les obstacles liés à une condition personnelle comme un trouble d’apprentissage.

Les logiciels utilisés à l’école les plus communs sont WordQ (reconnaissance et synthèse vocale) et Lexibar (synthèse vocale). Ces outils aident entre autres à :

  • augmenter la quantité de mots écrits;
  • décoder les mots;
  • écouter un texte à une vitesse qui permet de bien comprendre le sens.

En plus des fonctionnalités de reconnaissance et de synthèse vocale, ces outils utilisent d’autres technologies d’IA pour :

  • prédire les prochains mots d’une phrase;
  • détecter les erreurs d’orthographe.

Références