从功能性磁共振成像(fMRI)数据重建音频

news2025/1/11 23:54:38

      听觉是人类最重要的感官之一,它负责接收外部的听觉刺激,并将这些信息传递给大脑进行处理和理解。研究人员正致力于从神经科学和计算机科学两个领域探索人脑的听觉感知机制。一个关键目标是从人脑中解码神经信息,并重建原始的刺激。常见的大脑到音频的重建任务可以分为三类:大脑到声音的任务,用于重建环境中的所有自然声音;大脑到音乐的任务,用于音乐;以及大脑到语音的任务,用于人声,这些任务基于不同的刺激音频

     研究表明,在人耳的耳蜗和亚皮质结构中,声音被分解成类似频谱图的频率特定时间模式。进入大脑皮层后,人类听觉系统有两条从低级到高级的信息处理通路。初级听觉皮层对浅层或中级DNN特征更敏感,这些特征代表低级声学特征,而非初级听觉皮层对深层DNN特征更敏感,这些特征代表高级语义特征

    受到声学到语义流的启发,我们模拟了听觉处理路径的每个生理结构,并提出了一种相反的从粗到细的音频重建方法。我们使用非侵入性fMRI作为神经信号。首先,进行一个从粗到细的大脑解码过程。我们将fMRI数据解码到低维CLAP空间以获得粗粒度的语义特征,然后在这些语义特征的引导下,我们将fMRI数据解码到高维AudioMAE潜在空间以获得精细的声学特征。接下来,我们使用解码的精细神经特征作为条件,通过潜在扩散模型(LDM)重建mel频谱图,然后使用声码器恢复刺激波形。

1、方法

利用无创功能性磁共振成像(fMRI)数据,模拟听觉处理的逆路径,从而实现高质量的音频重建。

1.1 粗粒度语义解码

使用预训练的多模态模型 CLAP(对比语言-音频预训练),将 fMRI 数据解码到低维语义空间,提取粗粒度的语义特征。

CLAP 模型通过对比语言-音频预训练,将音频与自然语言描述对齐,从而提供丰富的语义信息。

1.2 细粒度声学解码

在语义特征的指导下,将 fMRI 数据进一步解码到 AudioMAE 模型的潜在空间,获取细粒度的声学特征。

AudioMAE 模型是一个自监督预训练模型,专注于重建掩码块,能够保留更多低层声学细节并更好地保留高层语义信息。

选择AudioMAE 模型的理由:

  • AudioMAE保留了更多的低级声学细节。
  • 与VAE相比,AudioMAE更好地保留了高级语义信息。
  • 在包含自然声音、人类和动物声音以及音乐的AudioSet上预训练,AudioMAE可以在通用音频领域中很好地工作。

1.3 音频重建

使用潜在扩散模型(LDM)作为生成模型,在细粒度声学特征的条件 下重建刺激音频的梅尔频谱图。

LDM 是一种强大的生成模型,能够在潜在空间中建模复杂的数据分布,并已被广泛应用于音频生成任务。

1.4 声码器

使用预训练的 HiFiGAN 声码器将重建的梅尔频谱图转换为波形,最终生成高质量的音频。

2、实验

2.1 实验设置

  • 粗粒度解码: 对于 Brain2Sound 和 Brain2Speech 数据集,仅使用听觉皮层(AC)区域的体素;对于 Brain2Music 数据集,使用整个大脑的体素。
  • 细粒度解码: 使用 4 层 Transformer 编码器和解码器,并使用预训练的 AudioMAE 模型初始化。
  • 音频重建: 使用预训练的 AudioLDM2 模型作为 LDM,并使用预训练的 HiFiGAN 声码器将梅尔频谱图转换为波形。

2.2 实验对比

  • 直接解码方法: 将 fMRI 信号直接解码到梅尔频谱图,包括线性回归、多层感知机、双向 LSTM 和 Transformer 编码器。
  • 细粒度解码方法: 将 fMRI 信号直接解码到 AudioMAE 模型的潜在空间,然后使用 LDM 重建音频。
  • 粗到细解码方法: 首先将 fMRI 信号解码到 CLAP 空间获取语义特征,然后在语义特征的指导下解码到 AudioMAE 潜在空间获取声学特征,最后使用 LDM 重建音频。

2.3 评估指标

2.3.1 高层次音频表示指标

  • FD (Fréchet Distance): 计算生成样本和目标样本在音频分类器 PANNs 提取的特征空间中的距离。
  • FAD (Fréchet Audio Distance): 类似于 FD,但使用 VGGish 模型提取特征。
  • KL (Kullback–Leibler divergence): 计算分类器 PANNs 的分类 logit 的 KL 散度,使用 Softmax 激活函数。
  • KL-S (Kullback–Leibler divergence): 计算分类器 PANNs 的分类 logit 的 KL 散度,使用 Sigmoid 激活函数。

2.3.2 低层次梅尔频谱图相似度指标

  • PCC (Pearson Correlation Coefficient): 计算重建音频和刺激音频梅尔频谱图的皮尔逊相关系数。
  • SSIM (Structural Similarity Index): 计算重建音频和刺激音频梅尔频谱图的结构相似性指数。

2.4 实验结果

  • 粗到细解码方法在重建音频的细节和语义方面均优于直接解码方法和细粒度解码方法。
  • 粗到细解码方法在 FD、FAD、KL 和 KL-S 等指标上取得了最先进的性能。
  • 提供语义提示可以有效提高重建音频的语义质量,尤其是在语义特征不佳的情况下。

2.5 数据集

Brain2Sound、Brain2Music和Brain2Speech一起被广泛用于验证粗到细的解码方法在单独的细粒度方法中的优越性。

  • Brain2Sound 数据集: 包含 5 个受试者聆听自然声音的 fMRI 信号,包括人声、动物、乐器和环境声音。
  • Brain2Music 数据集: 包含 5 个受试者聆听音乐片段的 fMRI 信号,包括 10 种音乐类型。
  • Brain2Speech 数据集: 包含 7 个受试者聆听语音片段的 fMRI 信号,包括不同性别的说话人。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1791779.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

用友BIP收入云:助力旅游行业实现高效收入自动化,驱动收入增长

在数字化浪潮的推动下,旅游行业正经历着前所未有的变革。从传统的线下服务模式到线上线下融合,再到如今的智能化、自动化管理,每一步都标志着旅游行业向更高效、更精准、更便捷的方向发展。其中,收入管理作为旅游企业运营的核心环…

机器学习:更多关于元学习

目录 Meta Learning vs Self-supervised Learning 自监督学习——找初始化的参数MAML 自动学出合适的参数 MAML:不断的学初始化参数MAML的初始化参数来自BERT MAML:找出来的初始化参数能在训练任务上表现的很好BERT:自监督目标是不同的下游任…

msvcp140.dll是什么dll文件?msvcp140.dll文件的丢失要怎么去修复?

msvcp140.dll是什么dll文件?一般会问出这种问题的人,都是遇到了msvcp140.dll丢失的情况了,这时候你的一些程序是打不开的,你需要修复好msvcp140.dll文件才可以正常的打开程序,今天我们就来了解一下msvcp140.dll这文件&…

KT1025A的双模蓝牙芯片,参考标准蓝牙天线,蓝牙距离短,会卡

一、问题简介 使用KT1025A的双模蓝牙芯片,为什么我参考BT201或者BT301,或者BT321F设计的蓝牙天线,蓝牙距离短,会卡等等,这个可能是什么原因,如何改善呢? 问题详细分析 首先看看客户的板子PCB…

opencv快速安装以及各种查看版本命令

安装opencv并查看其版本,直接通过一个可执行文件实现。 #!/bin/bashwget https://codeload.github.com/opencv/opencv/zip/3.4 -O opencv-3.4.zip && unzip opencv-3.4.zip && cd opencv-3.4 && \mkdir build && cd build &&a…

C++--DAY3

思维导图 设计一个Per类&#xff0c;类中包含私有成员:姓名、年龄、指针成员身高、体重&#xff0c;再设计一个Stu类&#xff0c;类中包含私有成员:成绩、Per类对象p1&#xff0c;设计这两个类的构造函数、析构函数。 #include <iostream>using namespace std; class …

【文档智能】符合人类阅读顺序的文档模型-LayoutReader原理及权重开源

引言 阅读顺序检测旨在捕获人类读者能够自然理解的单词序列。现有的OCR引擎通常按照从上到下、从左到右的方式排列识别到的文本行&#xff0c;但这并不适用于某些文档类型&#xff0c;如多栏模板、表格等。LayoutReader模型使用seq2seq模型捕获文本和布局信息&#xff0c;用于…

品牌营销的“必杀技”,一文带你看懂如何实现精准营销

你在遇到疑惑寻求解决方法时是否会优先想到“百度一下”&#xff1f;我们脑中的优先选择其实就是品牌将自身特点结合其目标用户信息采取精准营销从而完成的广告信息的成功投放。而精准营销&#xff0c;作为一种现代化的广告营销方式&#xff0c;已成为品牌营销的新趋势&#xf…

varchar 字段扩展问题

背景 近期接到一个产品需求&#xff0c;由于上游业务字段扩大了字段&#xff0c;下游的字段也得跟着调整扩大&#xff0c;这就涉及几十张大表&#xff0c;十几亿行数据的变更。 如果按照传统方式 onlie-ddl 借用第三方工具也得三四天分批跑&#xff0c;看了看MySQL官网&#…

0605_C++3

练习1&#xff1a; 设计一个Per类&#xff0c;类中包含私有成员:姓名、年龄、指针成员身高、体重&#xff0c;再设计一个Stu类&#xff0c;类中包含私有成员:成绩、Per类对象p1&#xff0c;设计这两个类的构造函数、析构函数 #include <iostream>using namespace std; …

重学java 65.IO流 缓冲流

I am not afraid tomorrow for I have seen yesterday and love today —— 24.6.5 一、字节缓冲流 1.字节缓冲流的意义 之前所写的FileOutputstream、FileInputstream、FileReader、Filewriter这都叫做基本流,其中FileInputstream和FieOutputstream的读写方法都是本地方法(方…

解锁ArrayBlockingQueue奥秘:深入源码的精彩之旅

1.简介 ArrayBlockingQueue 是 BlockingQueue 接口的一个实现类&#xff0c;它基于数组实现了一个有界阻塞队列。创建 ArrayBlockingQueue 实例时需要指定队列的容量&#xff0c;队列的大小是固定的&#xff0c;无法动态增长。 主要特点包括&#xff1a; 有界性&#xff1a;A…

AI大模型+产品经理:打造智能产品的黄金组合

前言 当我们谈论AI大模型与产品经理的结合&#xff0c;不仅仅是技术与创意的碰撞&#xff0c;更是对未来智能生活的期待。想象一下&#xff0c;当产品的灵魂被注入智能的血液&#xff0c;它们将成为我们生活中不可或缺的伙伴。 我们不仅仅是要探索AI大模型的深层技术&#xf…

泛微开发修炼之旅--07通过后端代码实现创建并发送待办、源码及示例

文章链接&#xff1a;泛微开发修炼之旅--07通过后端代码实现创建并发送待办、源码及示例

云原生架构案例分析_5.某体育用品公司云原生架构的业务中台构建

1.背景和挑战 某体育用品公司作为中国领先的体育用品企业之一&#xff0c;在2016年&#xff0c;某体育用品公司启动集团第三次战略升级&#xff0c;打造以消费者体验为核心的“3”&#xff08;“互联网”、“体育”和“产品”&#xff09;的战略目标&#xff0c;积极拥抱云计算…

告别拥堵:SpringBoot+消息队列打造你的专属交通指挥家!

随着5G和物联网技术的飞速发展&#xff0c;系统的智能化已成为不可逆转的趋势。带你一窥未来&#xff0c;探索如何通过SpringBoot和消息队列技术的结合&#xff0c;开启智能系统的新纪元。从事件驱动架构的实现&#xff0c;到异步消息处理的最佳实践&#xff0c;再到集成主流消…

iOS——类与对象底层探索

类和对象的本质 当我们使用OC创建一个testClass类并在main函数创建它的实例对象的时候&#xff0c;OC的底层到底是什么样的呢&#xff1f; 首先&#xff0c;我们要了解OC对象的底层结构&#xff0c;那么我们就得知道&#xff1a;OC本质底层实现转化其实都是C/C代码。 使用下面…

【scikit-learn010】sklearn算法模型清单实战及经验总结(已更新)

1.一直以来想写下基于scikit-learn训练AI算法的系列文章,作为较火的机器学习框架,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。 2.熟悉、梳理、总结下scikit-learn框架模型算法包相关技术点及经验。 3.欢迎批评指正,欢迎互三,跪谢一键…

【重磅丨教育设备】推动大规模设备更新和消费品以旧换新行动方案

近日&#xff0c;国务院印发《推动大规模设备更新和消费品以旧换新行动方案》&#xff08;以下简称《行动方案》&#xff09;。《行动方案》提出&#xff1a;实施设备更新行动。提升教育文旅医疗设备水平&#xff0c;推动符合条件的高校、职业院校&#xff08;含技工院校&#…

数据资产入表-数据治理-标签设计标准

前情提要&#xff1a;数据价值管理是指通过一系列管理策略和技术手段&#xff0c;帮助企业把庞大的、无序的、低价值的数据资源转变为高价值密度的数据资产的过程&#xff0c;即数据治理和价值变现。上一讲介绍了数据清洗标准设计的基本逻辑和思路。 上一讲介绍了其他的通用标…