Dernières nouvelles

Snapmaker annonce sa première découpeuse laser dédiée, la Ray, en versions 20 W et 40 W

Réunion annuelle du SCC77 pour présenter les innovations industrielles dans les domaines de la beauté, des soins de la peau, de la technologie, de l'IA et plus encore

Jul 29, 2023

Exercices de machine à câble sans effort pour pimenter votre routine

Oct 15, 2023

Examen du graveur laser Glowforge Pro

Aug 31, 2023

Machine

Aug 26, 2023

Un nouvel implant cérébral aide une femme paralysée à parler à l’aide d’un avatar numérique

Jun 12, 2023

Les neuroprothèses de la parole émergentes peuvent offrir un moyen de communiquer aux personnes incapables de parler en raison d'une paralysie ou d'une maladie, mais un décodage rapide et performant n'a pas encore été démontré. Aujourd’hui, de nouveaux travaux transformateurs menés par des chercheurs de l’UCSF et de l’UC Berkeley montrent qu’un décodage plus naturel de la parole est possible grâce aux dernières avancées en matière d’intelligence artificielle.

Dirigés par le neurochirurgien de l'UCSF Edward Chang, les chercheurs ont développé un dispositif implantable alimenté par l'IA qui, pour la première fois, traduit les signaux cérébraux en parole et expressions faciales modulées. En conséquence, une femme qui a perdu la capacité de parler à cause d’un accident vasculaire cérébral a pu parler et transmettre ses émotions à l’aide d’un avatar numérique parlant. Les chercheurs décrivent leurs travaux dans une étude publiée aujourd'hui (mercredi 23 août) dans la revue Nature.

Co-auteur de l'étude Gopala Anumanchipalli, professeur adjoint et Ph.D. L'étudiant et co-auteur principal Kaylo Littlejohn, tous deux du département de génie électrique et d'informatique de l'UC Berkeley, a discuté de cette étude révolutionnaire avec Berkeley Engineering. Les questions et réponses suivantes ont été modifiées pour plus de longueur et de clarté.

Ceétude est révolutionnaire à bien des égards. Quel était votre rôle et qu’aviez-vous prévu de faire ?

Gopala Anumanchipalli, professeur adjoint de génie électrique et d'informatique. (Photo gracieuseté de Gopala Anumanchipalli)

Gopala : Il y a une histoire de dix ans derrière ce projet. Lorsque j'étais post-doctorant dans le laboratoire d'Edward Chang, nous avions pour mission à la fois de comprendre la fonction cérébrale qui sous-tend la production d'une parole fluide et également de traduire certaines de ces découvertes en neurosciences en solutions techniques pour ceux qui sont complètement paralysés et qui ont des difficultés de communication. Nous avons étudié les moyens de réaliser une synthèse vocale à partir d'enregistrements de l'activité cérébrale tout en travaillant avec des patients épileptiques. Mais ce sont par ailleurs des orateurs capables. Ce travail de preuve de principe a été publié dans Nature en 2019. Nous avions donc une sorte d’idée que nous pouvions lire le cerveau. Nous avons alors pensé que nous devrions essayer d'utiliser cela pour aider les personnes paralysées, ce qui était l'objet de l'essai clinique BRAVO [BCI Restoration of Arm and Voice].

Cet essai, qui utilisait un nouveau dispositif appelé neuroprothèse vocale, a été couronné de succès et a montré que nous pouvions décoder des mots complets à partir de l’activité cérébrale. Elle a été suivie d’une autre étude dans laquelle nous avons réussi à décoder plus de 1 000 mots pour créer une interface orthographique. Le participant pouvait prononcer n’importe quel mot de code de l’OTAN – comme Alpha, Bravo, Charlie – et le faire transcrire. Nous avons amélioré les modèles d'apprentissage automatique utilisés pour décoder la parole, en particulier en utilisant des décodeurs dotés de modèles phonétiques et linguistiques explicites qui passaient de ces mots de code en phrases fluides, comme la manière dont Siri reconnaîtrait votre voix.

Dans ce projet, nous avons cherché à augmenter le vocabulaire et la précision, mais surtout, nous avons cherché à aller au-delà du décodage de l’orthographe. Nous voulions passer directement à la langue parlée car c'est notre mode de communication et la manière la plus naturelle d'apprendre.

La motivation derrière l'avatar était d'aider le participant à se sentir incarné, à voir une ressemblance puis à contrôler cette ressemblance. C’est pourquoi nous avons voulu proposer une expérience de communication multimodale.

Comment avez-vous traduit les signaux cérébraux en parole et en expression ? Quels ont été les défis techniques que vous avez rencontrés en cours de route ?

Kaylo LIttlejohn, Ph.D. EECS. étudiant et co-auteur principal d’une étude révolutionnaire sur les neuroprothèses de la parole menée par l’UCSF et Berkeley Engineering. (Image tirée d'une vidéo de Pete Bell, UCSF)

Kaylo : Parce que les personnes paralysées ne peuvent pas parler, nous n’avons pas ce qu’elles essaient de dire comme vérité terrain sur laquelle nous appuyer. Nous avons donc incorporé une technique d’optimisation d’apprentissage automatique appelée perte CTC, qui nous a permis de cartographier les signaux cérébraux en unités discrètes, sans avoir besoin d’une « vérité terrain » audio. Nous avons ensuite synthétisé les unités discrètes prédites en parole. Les unités discrètes de parole codent des aspects tels que la hauteur et le ton, qui sont ensuite synthétisés pour créer un son plus proche de la parole naturelle. Ce sont ces inflexions et ces changements de cadence qui transmettent beaucoup de sens au discours au-delà des mots eux-mêmes.

Précédent: Les 12 meilleurs outils pour le visage de 2023｜par InStyle Suivant: Réunion annuelle du SCC77 pour présenter les innovations industrielles dans les domaines de la beauté, des soins de la peau, de la technologie, de l'IA et plus encore

Envoyer une demande

Envoyer