【读论文】Seeing Beyond the Brain:MinD-Vis

news2024/11/26 19:35:11

Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding
CVPR 2023 基于稀疏掩膜的条件扩散模型视觉解码
在这里插入图片描述

背景

了解大脑活动并恢复编码信息是认知神经科学的关键目标,但由于脑信号的复杂潜在表征以及相关数据(fMRI-image)标注的稀缺,从大脑活动记录中重构出具有正确语义的高质量图片是一个充满挑战的问题。

主要贡献

提出MinD-Vis: Sparse Masked Brain Modeling with Double-Conditioned Latent Diffusion Model for Human Vision Decoding,该框架利用大规模表征学习模拟大脑中的稀疏编码(包括视觉皮层),此外,本文使用了更大的表征-数据空间比来提高已学习表征的信息容量。

  1. 提出Sparse-Coded Masked Brain Modeling(SC-MBM),它是在生物学指导下设计的有效视觉解码脑特征学习器;
  2. 增强双条件潜在扩散模型(latent diffusion model with double conditioning , DC-LDM),加强解码的一致性,并允许相同语义下的差异;
  3. 结合SC-MBM的表征能力与DC-LDM的生成能力,与之前的方法相比,MinD-Vis生成的图像更可信,语义信息保存更好;
  4. 对多个数据集执行定量和定性测试,包括以前未用于评估此任务的新数据集。

主要内容与方法

动机

  1. 功能磁共振成像(fMRI)测量脑血氧水平依赖性(BOLD)变化为3D体素,作为大脑活动潜在变化的代理。相邻体素通常具有相似的幅度,表明fMRI中存在空间冗余。
  2. fMRI数据是在刺激出现期间的平均数据。在视觉处理层次中,一个ROI通常被提取为体素的一维向量,而体素数量通常比像素数量少(ROI size < image size),这使得fMRI转换为image时有很大的维度差异。
  3. 由于实验条件和扫描仪设置的不同,来自不同数据集的fMRI数据可能有显著的域偏移;即使在相同的扫描条件下,由于个体差异,ROI大小和位置不匹配仍然存在。

本文方法概述

基于上述分析,本文提出MinD-Vis,包括两个阶段:

  1. Stage A:在把掩膜信号建模作为pretext task的大fMRI数据集中训练得到自编码器,从而学习fMRI表征,并将学到的表征作为Stage B图像生成过程的条件。
  2. Stage B:通过交叉注意(cross-attention)和时间步调节(time-step conditioning)进行条件合成,将Stage A中得到的fMRI编码器与LDM集成。在这个阶段,编码器使用配对注释与LDM中的交叉注意头进行联合微调。

在这里插入图片描述

Stage A: Sparse-Coded MBM (SC-MBM)

  1. 测量BOLD的fMRI是一种对神经元活动的间接和汇总的测量,可以通过功能网络进行分层分析,而由fMRI数据体素组成的功能网络在响应外部刺激时存在隐式相关性,通过恢复掩膜体素来学习这些隐含的相关性将使预训练模型对fMRI数据有深入的上下文理解。然后将矢量化的体素分成小块,然后使用步长等于小块大小的一维卷积层将小块转换成嵌入。
  2. 由于fMRI中存在空间冗余,即使屏蔽了很大一部分fMRI数据,仍然可以恢复fMRI数据。因此,在MinD-Vis的第一阶段,可以在不失去掩膜建模的学习能力的情况下,屏蔽了很大一部分fMRI块,以节省计算量。
  3. Masked Image Modeling (MIM)使用embedding-to-patch-size比约为1,使得表征大小与原始数据大小相似。本文使用了较大的比值,在较大的fMRI表征空间下显著增加了信息容量。这种设计也与大脑中信息的稀疏编码有关,被认为是表征感觉信息的一般策略。
  4. 本文还采用了非对称架构,编码器学习有效的fMRI表征,而解码器预测被掩膜的patch。因此,本文将解码器的尺寸减小,只要预训练收敛,在Stage B中丢弃解码器。

视觉编码与脑启发稀疏编码:
本文从视觉编码机制的角度阐述了SC-MBM学习视觉刺激表征的生物学基础。理论和实证研究表明,视觉刺激在初级视觉皮层中是稀疏编码的,大多数自然图像仅激活视觉皮层中的部分神经元。这种策略提高了信息传递效率,并在大脑中产生最小的冗余。因此,通过不同的成像方式,包括功能磁共振成像(fMRI),可以从初级视觉皮层收集的一小部分数据中重建自然场景的视觉信息。说明稀疏编码也可以成为计算机视觉中视觉编码的有效方法。
稀疏编码本质上是一种使用过完备基来表示数据的编码策略,通过更多局部性来生成更平滑的表征。
在SC-MBM中,fMRI数据被划分成小块以引入局部性约束。然后将每个patch编码成一个比原始数据空间大得多的高维向量空间,从而为fMRI表征创造了一个过完备的空间。SC-MBM模拟脑视觉编码,是一种生物学上有效的脑特征学习器,可用于fMRI解码。

Stage B: Double-Conditioned LDM (DC-LDM)

为了进一步从Stage A得到的抽象表征中解码视觉内容,并允许采样差异,本文将解码任务制定为一个条件合成问题,并使用预训练的LDM进行处理。

  1. LDM一般时对把输入放到矢量量化编码器得到的图像潜在空间进行操作,但本文简化将输入直接作为LDM潜在变量的表征。特别是给出fMRI数据z,旨在通过 q ( x t − 1 ∣ x t , z ) q(x_{t-1}|x_t, z) q(xt1xt,z)学习反向扩散过程;条件信息是通过基于注意力的UNet中的cross-attention heads进行应用,其中:
    在这里插入图片描述在这里插入图片描述
  2. 在对条件生成模型进行采样时,多样性和一致性是两个相反的目标。在许多图像生成任务中,跨模态(如标签到图像和文本到图像)的采样多样性非常重要。然而,fmri到图像的转换更多地依赖于生成一致性——来自相似大脑活动的解码图像预期应该是语义相似的。因此,特别是对于概率扩散模型,需要一个更强的条件调节机制来保证生成一致性,因此本文使用cross-attention conditioning与time steps conditioning相结合作为更强的条件调节机制。在时间步调节中,把另一个合适的维度映射加入到time step embedding,而其作为UNet的中间层就可以得到:
    在这里插入图片描述
    扩散概率模型的优化目标是:

在这里插入图片描述进而重新表述为双条件:
在这里插入图片描述

微调:
在用SC-MBM对fMRI编码器进行预训练后,通过双条件作用将其与预训练的LDM集成。通常,编码器的输出是平均的,或者添加一个cls token,为下游任务生成一个池化的一维特征向量。这种策略对于预测和分类等任务是有效的,在这些任务中,学习到的知识需要被提炼出来,产生可区分的特征;但是为了保留fMRI表征的稀疏性和信息容量,将池化成一维向量是不合适的,本文使用卷积层将编码器的输出汇集到一个潜在维度 R M × d γ \mathbb R^{M \times d_\gamma} RM×dγ中。

fMRI编码器、cross-attention heads、projection heads联合优化,其他部分固定。
cross-attention heads的微调是连接预训练条件反射空间和fMRI潜在空间的关键。通过fMRI图像对端到端进行微调,在此过程中,通过大容量的fMRI表征可以学习到fMRI与图像特征之间更清晰的联系。

实验

数据集

  1. Human Connectome Project (HCP) :通常用于神经科学研究,仅包含功能磁共振成像数据。
  2. Generic Object Decoding Dataset (GOD) :为fmri解码而设计的fmri图像配对数据集
  3. Brain, Object, Landscape Dataset (BOLD5000)

上游预训练数据集包括来自HCP和GOD的fMRI数据;
GOD中的配对在我们的主要分析中用于微调。GOD由来自200个不同类别的1250张不同的图像组成,其中1200张图像作为训练集,其余50张图像作为测试集。训练集和测试集没有重叠的类。本文研究使用BOLD5000数据集作为验证数据集。它由来自4916张不同图像的5254对fmri图像组成,其中113张用于测试。这是BOLD5000首次用于fMRI解码任务。

实现

patch size 16
embedding dimention 1024
encoder depth 24
mask ratio 0.75
使用ImageNet class-conditioned pre-trained LDM

评估方法

  1. N-way Classification Accuracy :使用n-way top-1和top-5准确率分类任务来评估结果的语义正确性,其中对于多次试验,在n−1个随机选择的类别加上正确的类别中计算top-1和top-5分类准确率。本文提出了一种更直接和可重复的方法,其中使用预训练的ImageNet1K分类器来确定生成图像的语义正确性,而不是手工制作的特征。
    在这里插入图片描述

  2. Frechet inception distance (FID) :一种评估图像生成质量的常用指标,由于GOD中可用的图像数量有限,FID在我们的实验中仅用作参考,这可能导致低估分布。

结果

在这里插入图片描述

实验过程中发现,在某些情况下观察到颜色不匹配,但色差保存得很好。这表明在额叶中,颜色类别信息是作为一个认知过程来处理的,而视觉皮层只识别颜色的差异。
在这里插入图片描述
本文方法生成了更多可信的细节,如水和波浪、保龄球上的绘图、马车的轮子等。

在这里插入图片描述
通过对相同的fMRI数据在不同的随机状态下进行多次解码,验证了方法的一致性。

在这里插入图片描述

为了证明SC-MBM学习了有用的表征,我们直接使用fmri图像对训练了两个模型,而没有使用SC-MBM预训练。第一个模型由一个未经训练的fMRI编码器组成,其结构与完整模型相同。第二个模型由一个深度仅为2的未经训练的fMRI编码器组成。

在这里插入图片描述
在LAION和OpenImages上(第3行和第4行)预训练的模型生成的图像在视觉上不那么有利和可信。这个结果令人惊讶,因为LAION和OpenImages都包含来自不同类别的不同图像。本文将其表现不佳的主要原因归因于其条件反射潜空间的复杂性。在训练对有限的情况下,类条件反射潜空间比文本条件反射模型和布局条件反射模型的潜空间更容易适应。

在这里插入图片描述
BOLD5000上的实验结果。

在这里插入图片描述

图中的河流和蓝天,可能反映了受试者在观看视觉刺激时脑海中想象的风景,并被他们的大脑活动所捕获。虚构图像的特征也可以从视觉皮层解码。

总结

局限性

目前MinD-Vis缺乏强大的像素级引导和解释分析,这限制了其像素级性能和对MBM学习的特征的生物学理解。

未来工作

与其他工作相似,本文MinD-Vis只关注使用视觉皮层的个人解码。但作为一个复杂的认知过程,人类视觉可能受到视觉皮层以外区域的影响。因此,未来的研究应扩展到跨学科的推广,并纳入其他大脑区域。

Conclusion

本文提出了一个两阶段的MinD-Vis框架,仅使用来自大脑记录的少数成对的fmri图像注释来解码视觉刺激。在Stage A中,采用了一种带有掩膜建模的fMRI预训练方法,从大规模未标记的fMRI数据集中学习可泛化的上下文知识;在Stage B中,使用具有双条件的潜在扩散模型从学习到的fMRI表征中生成可信的可见图像。本文在多个数据集上验证了MinD-Vis的解码结果,并表明与以前的方法相比,本文提出的模型生成了更可信和语义相似的图像,将最先进的技术向前推进了相当大的一步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/529302.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Nginx 配置 安全认证 反向代理 HDFS web 页面

Nginx 配置安全认证 反向代理 HDFS web 页面 这样做的目的是&#xff1a;相对安全一些&#xff0c;之前都是直接“裸奔”经常被攻击很讨厌 文章目录 1、下载 NGINX2、解压 NGINX3、编译 NGINX4、编译后&#xff0c;确认 NGINX 安装目录5、配置 NGINX 为系统服务6、安装 密码生…

企业直播时摄像机拍摄参考与取景框裁切参考(组图)

看了《2023中国企业直播应用标准》之后&#xff0c;内容摘要&#xff1a; 企业品质直播标准要素&#xff1a;直播视觉、直播运营、演播厅管理、直播合规以及主播能力。 直播视觉&#xff1a;影响用户的品牌的认知度和好感度直播视觉是直播的第一印象&#xff0c;也是传达企业…

热图 -- pheatmap or ggplot2

文章目录 brief数据准备 pheatmap实例最朴素的方式数据缩放取消聚类更改每个小方格的大小聚类以及聚类方式和参数修改热图呈现的颜色修改legend ggplot2实例ggplot2实例变式添加 group bar做成dotplot pheatmap 多图组合问题 brief 这里主要记录了pheatmap 以及 ggplot2实现热…

shell脚本5数组

文章目录 数组1 数组定义方法2 获取数组长度2.1 读取数组值2.2 数组切片2.3 数组替换2.4 数组删除2.5 追加数组元素 3 实验3.1 冒泡法3.2 直接选择法3.3 反排序法 数组 1 数组定义方法 数组名(value0 valuel value2 …) 数组名( [0]value [1]value [2]value …) 列表名“val…

秒杀的异步优化

在jvm以外的服务&#xff0c;不受jvm内存的限制 不仅仅做数据的存储&#xff0c;还保证了数据的安全&#xff0c;持久化 1.基于List结构模拟消息队列 优点&#xff1a; 利用Redis存储&#xff0c;不受JVM内存限制 基于Redis的持久化机制&#xff0c;数据安全性有保证 可以满…

MQTT搭建笔记

提示&#xff1a;记录mqtt服务搭建及访问教程 文章目录 前言一、MQTT是什么&#xff1f;二、使用步骤1.MQTT服务器搭建2.MQTT集成 总结 前言 一直想了解下mqtt&#xff0c;本人又懒&#xff0c;被动型学习&#xff0c;刚好项目需要&#xff0c;此篇记录下MQTT搭建过程及心得体…

MS5147/MS5148模数转换器可pin对pin兼容ADS1247/ADS1248

‎ADS1246、ADS1247 和 ADS1248 是高度集成的精密 24 位模数转换器 &#xff08;ADC&#xff09;。这些器件具有一个板载、低噪声、可编程增益放大器 &#xff08;PGA&#xff09;、一个带有单周期建立数字滤波器的精密三角积分 &#xff08;ΔΣ&#xff09; ADC 和一个内部振…

【原创】H7-TOOL的CANFD Trace操作说明,不需要目标板额外做任何代码, 支持在线和脱机玩法(2023-05-15)

【原创】H7-TOOL的CANFD Trace操作说明&#xff0c;不需要目标板额外做任何代码, 支持在线和脱机玩法&#xff08;2023-05-15&#xff09; 【当前支持功能】 1、LUA小程序控制&#xff0c;使用灵活。 2、采用SWD接口直接访问目标板芯片的CANFD外设寄存器和CANFD RAM区实现&…

【Linux】自动化构建工具--make/Makefile调试器--gdb的使用

目录 一、自动化构建工具--make/Makefile使用原理项目清理 二、调试器--gdb的使用使用 一、自动化构建工具–make/Makefile 使用 一个工程的源文件不计其数&#xff0c;其按类型、功能、模块分别放在若干个目录中&#xff0c;makefile定义了一系列的规则来指定&#xff0c;哪…

聊个简单的话题:如何分析性能需求?

目录 前言 需求评估分析 性能测试方案 前言 前几天还在北京出差时候&#xff0c;微信群有个同学问了一个问题&#xff0c;为什么800并发压测&#xff0c;服务器还没有报错&#xff1f;当时群里其他同学提了很多观点&#xff0c;比如&#xff1a; 并发不够&#xff0c;加并…

某医院Pad网络故障分析

分析背景 某医院为了加强信息安全管理&#xff0c;防止病人隐私信息泄露&#xff0c;采用部署“零信任”安全架构设计理念的企业移动安全支撑平台方案。 但在部署前期测试时&#xff0c;遇到了严重的性能问题。 在本次测试环境中&#xff0c;通过PAD访问患者转运业务&#x…

【深入浅出 Yarn 架构与实现】6-4 Container 生命周期源码分析

本文将深入探讨 AM 向 RM 申请并获得 Container 资源后&#xff0c;在 NM 节点上如何启动和清理 Container。将详细分析整个过程的源码实现。 一、Container 生命周期介绍 Container 的启动由 ApplicationMaster 通过调用 RPC 函数 ContainerManagementProtocol#startContain…

SWLLOE

前面讲过了workman&#xff0c;现在我们再了解另外一个swoole&#xff0c;首先我们要了解swoole是个啥&#xff1f;swoole其实是一个面向生产环境的 PHP 异步网络通信引擎&#xff0c;PHP Swoole 作为网络通信框架可以使 PHP 开发人员可以编写高性能的异步并发 TCP、UDP、Unix…

Edge浏览器使用ChatGPT,新手这里看(免费快捷)

前言&#xff1a; ChatGPT受到越来越多人的关注&#xff0c;ChatGPT好不好用&#xff0c;我觉得仁者见仁、智者见智吧&#xff0c;不过首先得先使用感受一下才好回答。多数人都想体验/使用ChatGPT一波&#xff0c;但目前付费和各种渠道满天飞&#xff0c;让人很苦恼&#xff0c…

越来越多企业出现网络安全问题,是什么原因导致的?

近年来网络安全问题层出不穷&#xff0c;信息泄露、网络钓鱼、黑客攻击等问题频繁发生。 尽管有证据表明在一些全球知名的企业组织中存在价值数十亿美元的网络安全漏洞&#xff0c;但企业仍然没有认真对待网络安全。大公司在寻找各种理由来减少其网络安全预算&#xff0c;从而…

操作系统学习笔记(二)

目录 你如何理解“临界”这个词&#xff1f; 那你如何理解在计算机领域下的“临界”这个词呢&#xff1f; 如何理解计算机领域中的“同步”这个词呢&#xff1f; 你如何理解critical这个单词&#xff1f; 单标志法&#xff1a; 双标志先检查法 双标志后检查法&#xff0…

Spring Cloud Gateway路由到Amazon S3签名失败处理

Spring Cloud Gateway路由到Amazon S3签名失败处理 背景 最近在预研统一存储网关&#xff0c;想到就是使用Spring Cloud Gateway作为网关的入口&#xff0c;再反向代理到S3对象存储服务器。 软件版本 网关&#xff1a;Spring Cloud Gateway 3.1.2 s3对象存储&#xff1a;m…

语音识别 | kaggle鸟叫识别新赛赛题解析

整理自kaggle平台 赛题题目&#xff1a; BirdCLEF 2023 kaggle - 鸟声识别大赛 赛题链接&#xff1a;https://www.kaggle.com/competitions/birdclef-2023 赛题背景 鸟类是生物多样性变化的极好指标&#xff0c;因为它们具有高度流动性并且具有多样化的栖息地要求。因此物种…

Jmeter和Postman那个工具更适合做接口测试?

软件测试行业做功能测试和接口测试的人相对比较多。在测试工作中&#xff0c;有高手&#xff0c;自然也会有小白&#xff0c;但有一点我们无法否认&#xff0c;就是每一个高手都是从小白开始的&#xff0c;所以今天我们就来谈谈一大部分人在做的接口测试&#xff0c;小白变高手…

推特运营的方法

推特是一个广泛使用的社交媒体平台&#xff0c;可以通过以下方法来运营和营销&#xff1a; 建立一个完整的个人或品牌资料&#xff1a;确保你的推特资料页面清晰、有吸引力&#xff0c;并包含关键信息&#xff0c;如个人简介、网站链接和联系方式。 确定目标受众&#xff1a;…