中风失语 18 年,AI + 脑机接口帮她「意念发声」

news2024/11/27 1:16:08

人与人交往中,说话表达是最基本的能力和方式,可世界上有很多人,却「有口难言」。
「失语症」中,由中风引起的最为常见。他们的声音无法传达,他们的诉求不为人所知,他们遭受着社交孤立,他们的沉默震耳欲聋。
每一个因中风而失语之人,无不渴望恢复完全、自然的交流能力,尽管目前全世界范围内瘫痪无法根治,但如今在 AI
加持下,丧失说话能力的瘫痪患者也可以重新恢复声音,并以丰富的表情、动作与人实时交流。

作者 | 铁塔
编辑 | 三羊
本文首发于 HyperAI 超神经微信公众平台~

茨威格曾言,「一个人生命中最大的幸运,莫过于在他的人生中途,即他年富力强的时候发现了自己的使命。」

而人最大的不幸是什么呢?

在小编看来,一个人生命中最大的不幸,莫过于在风华正茂的年纪,突然丧失所有语言和行动能力——一夕之间,梦想、事业、愿望统统化为泡影,生活被整个掀翻。

Ann 就是其中不幸的代表。

三十而立,中风失语

2005 年某天,一向身体倍儿棒的 Ann 突然出现头晕、吐字不清、四肢瘫痪和肌无力等症状,经诊断,她患上了脑干梗死(即我们日常所说的「中风」),伴有左椎动脉夹层和基底动脉闭塞。

这场毫无预兆的中风给 Ann 带来了名为「闭锁综合征」的副产品——罹患此病者,所有感官意识俱在,但无法调动身体任何一块肌肉,患者既不能活动,也不能自主说话,有的甚至无法呼吸。

正如「闭锁」字面所体现的,带领常人走遍千山万水的身体,成了封印患者灵魂的牢笼。

彼时, Ann 才 30 岁,结婚 2 年零 2 个月,女儿刚出生 13 个月,在加拿大一所高中当数学老师。「一夜之间,我的一切都被夺走了。」 Ann 后来借助设备,在电脑上缓慢地敲下了这句话。
在这里插入图片描述

参与研究的 Ann

经过多年的物理治疗, Ann 才可以呼吸、稍微转动头部、眨眨眼、说几句话,但仅此而已。

要知道,正常生活中,一般人的讲话语速在 160-200 字/分钟之间,而 2007 年来自美国亚利桑那大学心理学系的研究结果显示:男性平均每天要说 15,669 个单词,女性平均要说 16,215 个单词(平均一个单词对应 1.5-2 个汉字)。

在语言是人际交流主要手段的世界里,可以想见,表达受限的 Ann 有多少需求被堙灭在无声之中?伴随失语而失去的,不仅仅是生活质量,乃至人格和身份。 而全世界又有多少瘫痪失语者和 Ann 处于同样的境地?

瘫痪18年,重新开口

恢复完全、自然的交流能力,是每一个因瘫痪而失语之人的最大渴望。 在科技高度发达的今天,有没有办法借助技术的力量,将人际交流的能力还给患者?

有!

近期,来自美国加州大学旧金山分校和加州大学伯克利分校的研究团队利用 AI 开发出一种新的脑机技术,让失语 18 年的 Ann 重新「开口说话」,并基于数字化身产生生动的面部表情,帮助患者以符合正常人社交的速度和质量与他人实时交谈。
在这里插入图片描述

Ann 借助数字化身与人交谈

这是人类历史上首次从大脑信号中合成语音和面部表情的创举!

加州大学团队此前的研究表明,从瘫痪者的大脑活动中解码语言是可能的,但只能以文本的形式输出,而且速度和词汇量有限。

此番他们想更进一步:既能实现更快的大词汇量文本交流,又能恢复与说话相关的语音和面部动作。

基于机器学习与脑机接口技术,研究团队实现了以下成果,发表于 2023 年 8 月 23 日的《Nature》上:

► 对于文本,将受试者的脑信号以每分钟 78 个单词的速度解码为文本,平均单词错误率为 25%,比受试者当前使用的通信设备(14 个单词/分钟)快了 4 倍多;

►对于语音音频,将脑信号快速合成为可理解和个性化的声音,与受试者受伤前的声音一致;

►对于面部数字化身,实现了语音和非语音交流手势的虚拟面部运动控制。

论文链接:

https://www.nature.com/articles/s41586-023-06443-4

**你一定很好奇,这种划时代的奇迹怎么实现的?**接下来,咱们具体拆解一下这篇论文,看研究人员如何妙手回春。

1.底层逻辑:脑信号→语音+面部表情

人类大脑通过外周神经和肌肉组织实现信息输出,而语言能力由大脑皮质中的「语言中枢」所控制。

中风患者之所以失语,原因在于血液循环受阻,大脑语言区域因缺少氧气和重要营养物质而受损,导致一个或多个语言沟通机制无法正常运作,从而出现语言功能障碍。

对此,加州大学旧金山分校和伯克利分校的研究团队设计了一个「多模态语音神经假体」,使用大范围、高密度的皮质脑电图 (ECoG) 来解码分布在整个感觉皮层 (SMC) 发音声道表征的文本和视听语音输出,即从源头上捕捉大脑信号,通过技术手段将其「翻译」成对应的文本、语音甚至面部表情。
在这里插入图片描述

声道瘫痪患者的多模态语音解码

2.过程及实现:脑机接口 + AI 算法

首先是物理手段。

研究人员通过硬膜在 Ann 大脑左半球的脑顶表面植入了一个高密度脑电图阵列经皮底座连接器,覆盖与语言产生和语言感知相关的区域。

该阵列由 253 个圆盘状电极组成,用于拦截原本传送到 Ann 舌头、下巴、喉咙及脸部肌肉的大脑信号。一根电缆插入固定在 Ann 头上的端口,将电极与一组计算机相连。
在这里插入图片描述

电极阵列植入受试者大脑皮层表面的语言控制区

其次是算法构建。

为识别 Ann 独特的大脑语音信号,研究团队与她一起花费了几周时间来训练和评估深度学习模型。

研究人员基于 nltk Twitter 语料库和 Cornell 电影语料库创建了 1,024 个单词的通用句子集,指示 Ann 以自然语速无声说话。她一遍又一遍地从1,024 个单词的会话词汇中默念不同的短语,直到计算机识别出与这些声音相关的大脑活动模式。

值得注意的是,这个模型并非训练 AI 识别整个单词,而是创建了一个系统从「音素」中解码单词,如「Hello」包含四个音素:「HH」、「AH」、「L」和「OW」。

基于这种方法,计算机只需学习 39 个音素就能解读任何英语单词,既增进了准确性,又将速度提升了 3 倍。

注:音素是语言的最小声音单位,可描述语音的发音特征,包括发音部位、发音方式和声带振动等,如 an 的音素由 /ə/ 和 /n/ 组成。

这个音素解码的过程,类似婴儿学说话的过程。根据目前发展语言学界较为公认的观点,刚出生的婴儿就能分辨全世界语言中的 800 个音素。学龄前儿童可以不懂词句的写法与意思,但却能通过对音素的感知、区分和模仿来逐渐学会发音和理解语言。

最后是语音和面部表情合成。

基础已经打完,接下来是语音和面部表情的显化呈现,研究人员通过语音合成和数字化身来解决这个问题。

语音方面,研究人员开发了一种合成语音算法,使用了 Ann 中风前的声音录音,尽可能使数字化身的声音听起来像她。

面部表情上, Ann 的数字化身由 Speech Graphics 公司开发的软件创建而成,呈现为屏幕上的女性脸部动画。

研究人员定制了机器学习过程,使软件与 Ann 试图说话时大脑发出的信号相协调,从而表现出下巴张开和闭合、嘴唇突出和收缩、舌头上下运动,以及表达快乐、悲伤和惊讶的面部运动及手势。
在这里插入图片描述

Ann 正与研究人员一起进行算法训练

未来展望

加州大学旧金山分校神经外科主任、医学博士 Edward Chang 表示,「 我们的目标是恢复一种完整的、具体的沟通方式,这是我们与他人交谈最自然的方式……将可听到的语言与真人化身结合起来的目标,能让人类语言交流得到充分体现,而这远远不止语言。」

研究团队的下一步是创建一个无线版本,摆脱脑机接口的物理连接,使瘫痪的人们能利用这项技术自如地控制个人手机和电脑,而这将对他们的独立性和社会交往产生深远影响。

从手机上的语音助手、电子刷脸支付到工厂里的机械臂、生产线上的分拣机器人,AI 正在延伸人类的四肢与五官,并逐渐渗透到我们生产生活的方方面面。

科研人员关注瘫痪失语者这一特殊群体,利用AI的力量帮助其恢复自然的交流能力,有望促进患者与亲友之间的联络,扩大他们重新获得人际互动的机会,并最终提高患者的生活质量。

我们为这一成就感到振奋,期待更多 AI 造福人类的捷报传来。

参考链接:

[1] https://www.sciencedaily.com/releases/2023/08/230823122530.htm

[2] http://mrw.so/6nWwSB

本文首发于 HyperAI 超神经微信公众平台~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1008987.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

“混合”引擎为通用子模块提供动力,实现嵌入式I / O灵活性

现成的组件对于嵌入式开发工程师而言并不是什么新鲜事物。但是,实际上没有人期望一种“一刀切”的解决方案,尤其是在涉及复杂的I / O要求的情况下。 但是,基于流行的夹层卡格式的具有成本效益的现场可编程门阵列(FPGA&#xff09…

DALLE-2

扩散模型做图像生成使用clip预训练好的特征去做层级式的依托于文本的图像生成先生成小分辨率图像64*64然后利用一个模型上采样到256*256(迭代)先训练好一个clip模型,学习到图像文本对的关系 图像生成的模型 AEDAEVAEVQVAEDALL-E &#xff1…

Pycharm 配置python项目本地运行环境

1.打开Pycharm,打开Setting 2. 新建本地环境 3.如果报错如上图所示,请通过cmd来新建本地环境,具体步骤如下 在对应的代码路径下,通过virtualenv venv来创建虚拟路径 安装好之后,安装对应的依赖包即可 pip3 install -r ./require…

如何在windows环境下编译T

一, 安装MYSYS2 1. 去https://www.msys2.org下载 msys2-x86_64-xxxxx.exe; 2. 按照msys2.org主页提示的步骤安装; 3.安装完默认起来的是 UCRT的, 可以根据环境的需要选择, 我选择的 MSYS2 MINGW64 4. 搭建编译环境, 安装对应的软…

反常积分的概念与计算

目录 无穷区间上的反常积分 无界函数的反常积分 反常积分的敛散性 反常积分的计算 无穷区间上的反常积分 无穷区间上的反常积分(improper integral on infinite interval)是一种反常积分 设函数f(x)在(a,∞)上有定义,且f(x)在任意有限区间(a,A)(A>a)上可积&…

一生一芯15——jupyter notebook搭建与对应kernel的设置

本文参照 https://zhuanlan.zhihu.com/p/403183676?utm_id0 https://blog.csdn.net/moledyzhang/article/details/78850820 进入虚拟环境Chisel conda activate Chisel安装jupyter pip3 install jupyter查看内核 jupyter kernelspec list此处我已经安装好,否则…

大学生实习考勤打卡系统 微信小程序uniapp

本毕业设计的内容是设计实现一个学生实习考勤的打卡小程序。它是以 springboot框架,MYSQL为数据库开发平台,Tomcat网络信息服务作为应用服务器。学生实习考勤的打卡的功能已基本实现,主要包括学生、实习单位、实习打卡、考研申报、找工作申报…

AQS锁原理

文章目录 一、AQS是什么?二、AQS原理三、STATE:状态四、AQS共享资源的方式:独占式和共享式4.1 独占式实现4.1 共享式 总结 一、AQS是什么? AQS(Abstract Queued Synchronizer)是一个抽象的队列同步器&…

节距信号发生器(成缆变节距控制)

成缆机系统控制,请查看下面文章链接 ,这篇文章主要介绍节距信号发生器算法原理和代码,博途PLC信号发生器链接地址如下: PLC信号发生器(博途SCL)_RXXW_Dor的博客-CSDN博客信号发生器的应用请参看下面的博客文章,在演示滤波器的作用时,我们可能也会用到信号的叠加等。博途…

嵌入式学习笔记(29)轮询方式处理按键

X210开发板的按键接法 (1)查原理图,找到按键对应的GPIO:SW5:GPH0_2 SW6:GPH0_3 SW78910:GPH2_0123 (2)原理图上可看出:按下时是低电平,弹起时是高电平。 按键对应的GPIO模式设置 …

gcc/c++ 版本不一致问题导致的

1.问题 rk3566板子的系统是ubuntu20.04 focal, /etc/apt/source.list更换为阿里源 x86-67的pc主机系统的是ubuntu20.04 jammy /etc/apt/source.list 更换为清华源 按照rknpu2的开发教程Rockchip_Quick_Start_RKNN_SDK_V1.5.2_CN.pdf: 交叉编…

C语言--strcat函数

C语言–strcat函数 文章目录 C语言--strcat函数一、strcat函数是什么?二、使用示例二、模拟实现 一、strcat函数是什么? 作用是把源数据追加到目标空间 char * strcat ( char * destination, const char * source );源字符串必须以 ‘\0’ 结束。目标空…

SqlServer在尝试加载程序集 ID 65917 时 Microsoft .NET Framework 出错。服务器可能资源不足,或者不信任该程序集

问题:在尝试加载程序集 ID 65917 时 Microsoft .NET Framework 出错。服务器可能资源不足,或者不信任该程序集,因为它的 PERMISSION_SET 设置为 EXTERNAL_ACCESS 或 UNSAFE。 检查数据库属性:检查服务器是否信任该程序集 解决方法…

PMP考试是什么?适合哪些人学?

PMP,Project Management Professional的缩写,中文名为“项目管理专业人士资格认证”,是由美国项目管理协会(PMI)发起的,严格评估项目管理人员知识技能是否具有高品质的资格认证考试。 PMP是管理专门用于项…

【面试必刷TOP101】合并k个已排序的链表 判断链表中是否有环

目录 题目:合并k个已排序的链表_牛客题霸_牛客网 (nowcoder.com) 题目的接口: 解题思路: 代码: 过啦!!! 题目:判断链表中是否有环_牛客题霸_牛客网 (nowcoder.com) 题目的接口…

【JAVA】idea初步使用+JDK详细配置

1、官方下载idea 官网:Download IntelliJ IDEA – The Leading Java and Kotlin IDE (1)、下载教程 我下载没截屏,详细教程请看 原文:手把手教你JDKIDEA的安装和环境配置_idea配置jdk_快到锅里来呀的博客-CSDN博客 2、启动项目时候需要配置J…

OpenMMLab MMYOLO目标检测算法原理(二)

算法原理及YOLOV5实现 YOLOv5是一种面向实时工业应用的开源目标检测算法,受到了广泛的关注。YOLOv5之所以能火爆,并不仅仅是因为其优异的性能。它更多的是关于其库的整体实用性和稳健性。简而言之,YOLOv5的主要特点是: &#xff…

vue前后端分离单点登录,结合长token和短token进行登录

单点登录背景 在公司发展初期,公司拥有的系统不多,通常一个两个,每个系统都有自己的登录模块,运营人员每天用自己的账号登陆,很方便,但是,随着企业的发展,用到的系统随之增加&#x…

纯干货|AI辅助写论文的正确打开方式!

论文写作中可能遇到问题 1. 选题问题:是否无法确定研究方向和选择合适的题目? 2. 文献综述问题:是否困惑如何进行文献调研和综述? 3. 方法论问题:是否不知道该选择何种研究方法? 4. 数据处理问题&#…

复杂场景:民族工业如何做大,主数据管理助力这家标杆工业企业领跑全球

项目背景 大族激光成立于1999年,总部位于中国深圳。是一家从事工业激光加工设备与自动化等配套设备及其关键器件的研发、生产、销售的制造业企业,公司的产品广泛应用于工业制造、通信、医疗、电子、消费电子、光通讯等领域。经过多年的发展,大…