Bientôt, transposer la pensée en parole sera une réalité

Un système qui permet de traduire la pensée en paroles intelligibles a été mis au point par des neuro-ingénieurs américains.

C’est la première fois que des scientifiques réussissent à transposer clairement des signaux du cerveau directement en parole.

En analysant l’activité cérébrale d’une personne, cette technologie basée sur des synthétiseurs de la parole et sur l’intelligence artificielle reconstruit les mots qu’une personne entend avec une clarté inégalée.

Selon Nima Mesgarani de l’Université Columbia et ses collègues, cette percée marque une étape déterminante vers la création d’interfaces cerveau/ordinateur permettant aux personnes dont la capacité de parler est limitée ou inexistante de s’exprimer, notamment celles qui vivent avec les séquelles d’un AVC ou avec la sclérose latérale amyotrophique.

En outre, cette avancée pourrait aussi mener à de nouvelles façons pour les ordinateurs de communiquer directement avec le cerveau.

La voix, instrument central

« Notre voix nous aide à communiquer avec nos amis, notre famille et le monde qui nous entoure, c’est pourquoi en perdre l’usage à la suite d’une blessure ou d’une maladie est si terrible », explique Nima Mesgarani de l’Université Columbia.

« Notre étude représente un moyen de rétablir ce pouvoir. Nous montrons qu’avec la bonne technologie, les pensées peuvent être décodées et comprises par n’importe quel auditeur. » Nima Mesgarani

Le cerveau en observation

Dans les dernières décennies, les travaux de neuroscientifiques ont montré que certains modèles particuliers d’activité apparaissent dans le cerveau lorsqu’une personne s’exprime par la parole (ou s’imagine le faire).

D’autres signaux particuliers apparaissent aussi dans le cerveau lorsqu’une personne en écoute une autre.

Ces deux observations ont mené des chercheurs à vouloir enregistrer et décoder ces schémas dans l’objectif de percevoir les pensées dans le cerveau et de les traduire en paroles.

Un exploit difficile à réaliser

De précédents efforts menés par la présente équipe, mais aussi d’autres groupes de recherche, se sont concentrés sur des modèles informatiques simples qui analysaient des spectrogrammes, qui sont des représentations visuelles des fréquences sonores.

Mais cette approche n’a pas été un succès puisqu’elle n’a pas réussi à reproduire des sons intelligibles semblables à la parole.

À la suite de cet échec, l’équipe de Nima Mesgarani a abandonné le spectrogramme et s’est tournée vers un vocodeur, un algorithme informatique qui peut synthétiser la parole après avoir été formé à l’écoute de conversations humaines.

« C’est la même technologie utilisée par Amazon Echo et Apple Siri qui répond verbalement à nos questions », explique le Dr Mesgarani.

Leur nouvel objectif était d’apprendre à ce vocodeur à interpréter l’activité cérébrale d’un individu.

Pour cette étape cruciale, le Dr Nima Mesgarani s’est associé avec le neurochirurgien Ashesh Dinesh Mehta, un expert de l’épilepsie qui pratique régulièrement des chirurgies au cerveau.

« Nous avons demandé à des patients épileptiques en cours d’opération au cerveau d’écouter des phrases prononcées par des personnes différentes, pendant que nous mesurions leurs schémas d’activité cérébrale », explique le Dr Nima Mesgarani.

Ce sont ces schémas neuronaux qui ont servi à l’entraînement du vocodeur.

Les chercheurs ont ensuite demandé à ces mêmes personnes d’écouter des chiffres de 0 à 9 audibles à partir de haut-parleurs, tout en enregistrant leurs signaux cérébraux qui étaient ensuite transmis par le vocodeur.

Puis le son produit par le vocodeur en réponse à ces signaux a été analysé et nettoyé par des réseaux neuronaux, un type d’intelligence artificielle qui imite la structure des neurones du cerveau.

Le résultat fut l’émission d’une voix robotique récitant une séquence de chiffres.

Pour en vérifier l’exactitude, le Dr Mesgarani et son équipe ont demandé à des personnes d’écouter l’enregistrement et de rapporter ce qu’elles avaient entendu.

« Nous avons constaté que les gens pouvaient comprendre et répéter les sons dans 75 % du temps, ce qui est bien au-delà de toutes les tentatives précédentes. » Nima Mesgarani

L’amélioration de la compréhension est particulièrement claire lorsque l’on compare les nouveaux enregistrements aux tentatives antérieures, basées sur des spectrogrammes.

Vers la création d’un implant

La prochaine étape sera de tester des mots et des phrases plus complexes.

L’objectif final escompté serait de voir leur système s’intégrer dans un implant semblable à ceux que portent certains patients épileptiques, qui traduirait directement les pensées du porteur en mots. Un individu pourrait alors penser « j’ai besoin d’un verre d’eau » et le système transformerait les signaux cérébraux générés par cette pensée en parole synthétisée.

Le détail de cette étude est publié dans le journal scientifique nature.com .Cliquez ici pour lire en anglais