人与人交往中，说话表达是最基本的能力和方式，可世界上有很多人，却「有口难言」。
「失语症」中，由中风引起的最为常见。他们的声音无法传达，他们的诉求不为人所知，他们遭受着社交孤立，他们的沉默震耳欲聋。
每一个因中风而失语之人，无不渴望恢复完全、自然的交流能力，尽管目前全世界范围内瘫痪无法根治，但如今在 AI
加持下，丧失说话能力的瘫痪患者也可以重新恢复声音，并以丰富的表情、动作与人实时交流。

作者 | 铁塔
编辑 | 三羊
本文首发于 HyperAI 超神经微信公众平台~

茨威格曾言，「一个人生命中最大的幸运，莫过于在他的人生中途，即他年富力强的时候发现了自己的使命。」

而人最大的不幸是什么呢？

在小编看来，一个人生命中最大的不幸，莫过于在风华正茂的年纪，突然丧失所有语言和行动能力——一夕之间，梦想、事业、愿望统统化为泡影，生活被整个掀翻。

Ann 就是其中不幸的代表。

三十而立，中风失语

2005 年某天，一向身体倍儿棒的 Ann 突然出现头晕、吐字不清、四肢瘫痪和肌无力等症状，经诊断，她患上了脑干梗死（即我们日常所说的「中风」），伴有左椎动脉夹层和基底动脉闭塞。

这场毫无预兆的中风给 Ann 带来了名为「闭锁综合征」的副产品——罹患此病者，所有感官意识俱在，但无法调动身体任何一块肌肉，患者既不能活动，也不能自主说话，有的甚至无法呼吸。

正如「闭锁」字面所体现的，带领常人走遍千山万水的身体，成了封印患者灵魂的牢笼。

彼时， Ann 才 30 岁，结婚 2 年零 2 个月，女儿刚出生 13 个月，在加拿大一所高中当数学老师。「一夜之间，我的一切都被夺走了。」 Ann 后来借助设备，在电脑上缓慢地敲下了这句话。
在这里插入图片描述

参与研究的 Ann

经过多年的物理治疗， Ann 才可以呼吸、稍微转动头部、眨眨眼、说几句话，但仅此而已。

要知道，正常生活中，一般人的讲话语速在 160-200 字/分钟之间，而 2007 年来自美国亚利桑那大学心理学系的研究结果显示：男性平均每天要说 15,669 个单词，女性平均要说 16,215 个单词（平均一个单词对应 1.5-2 个汉字）。

在语言是人际交流主要手段的世界里，可以想见，表达受限的 Ann 有多少需求被堙灭在无声之中？伴随失语而失去的，不仅仅是生活质量，乃至人格和身份。 而全世界又有多少瘫痪失语者和 Ann 处于同样的境地？

瘫痪18年，重新开口

恢复完全、自然的交流能力，是每一个因瘫痪而失语之人的最大渴望。 在科技高度发达的今天，有没有办法借助技术的力量，将人际交流的能力还给患者？

有！

近期，来自美国加州大学旧金山分校和加州大学伯克利分校的研究团队利用 AI 开发出一种新的脑机技术，让失语 18 年的 Ann 重新「开口说话」，并基于数字化身产生生动的面部表情，帮助患者以符合正常人社交的速度和质量与他人实时交谈。
在这里插入图片描述

Ann 借助数字化身与人交谈

这是人类历史上首次从大脑信号中合成语音和面部表情的创举！

加州大学团队此前的研究表明，从瘫痪者的大脑活动中解码语言是可能的，但只能以文本的形式输出，而且速度和词汇量有限。

此番他们想更进一步：既能实现更快的大词汇量文本交流，又能恢复与说话相关的语音和面部动作。

基于机器学习与脑机接口技术，研究团队实现了以下成果，发表于 2023 年 8 月 23 日的《Nature》上：

► 对于文本，将受试者的脑信号以每分钟 78 个单词的速度解码为文本，平均单词错误率为 25%，比受试者当前使用的通信设备（14 个单词/分钟）快了 4 倍多；

►对于语音音频，将脑信号快速合成为可理解和个性化的声音，与受试者受伤前的声音一致；

►对于面部数字化身，实现了语音和非语音交流手势的虚拟面部运动控制。

论文链接：

https://www.nature.com/articles/s41586-023-06443-4

**你一定很好奇，这种划时代的奇迹怎么实现的？**接下来，咱们具体拆解一下这篇论文，看研究人员如何妙手回春。

1.底层逻辑：脑信号→语音+面部表情

人类大脑通过外周神经和肌肉组织实现信息输出，而语言能力由大脑皮质中的「语言中枢」所控制。

中风患者之所以失语，原因在于血液循环受阻，大脑语言区域因缺少氧气和重要营养物质而受损，导致一个或多个语言沟通机制无法正常运作，从而出现语言功能障碍。

对此，加州大学旧金山分校和伯克利分校的研究团队设计了一个「多模态语音神经假体」，使用大范围、高密度的皮质脑电图 (ECoG) 来解码分布在整个感觉皮层 (SMC) 发音声道表征的文本和视听语音输出，即从源头上捕捉大脑信号，通过技术手段将其「翻译」成对应的文本、语音甚至面部表情。
在这里插入图片描述