小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见

news2024/11/24 21:01:19

近些年,研究人员们对探索大脑如何解读视觉信息,并试图还原出原始图像一直孜孜不倦。去年一篇被 CVPR 录用的论文,通过扩散模型重建视觉影像,给出了非常炸裂的效果—— AI 不光通过脑电波知道你看到了什么,并且帮你画了出来。‭​​‌‌‭​‍

第一行:人眼所见画面,第二行:AI 重现的画面‭​​‌‌‭​‍

简而言之,AI 利用 fMRI 信号(全称为功能性核磁共振成像)+ Diffusion Model,就能一定程度上实现「读脑术」。‭​​‌‌‭​‍

‭​​‌‌‭​‍不过,如何有效提取并利用 fMRI 信号中隐含的语义和轮廓信息,仍然是业界的一个关键挑战。‭​​‌‌‭​‍

‭​​‌‌‭​‍在上月揭晓的 AAAI 2024 上,‭​​‌‌‭​‍小红书多模态团队‭​​‌‌‭​‍提出了一种新方法——‭​​‌‌‭​‍可控脑视觉扩散模型(Controllable Mind Visual Diffusion Model,CMVDM)‭​​‌‌‭​‍。‭​​‌‌‭​‍该模型能很好地将 fMRI 信号还原为与原始视觉刺激语义属性一致,空间结构对齐的高质量图片,可以使得生成的图像清晰度更高、也更接近人眼所见的原始图像。‭​​‌‌‭​‍

‭​​‌‌‭​‍具体来说,CMVDM 首先使用属性对齐和辅助网络,从 fMRI 数据中提取语义和轮廓信息。其次,引入一个控制模型并结合残差块,充分利用提取的信息进行图像合成,生成与原始视觉刺激在语义内容和轮廓特征上高度相似的高质量图像。‭​​‌‌‭​‍

‭​​‌‌‭​‍通过大量实验,小红书多模态团队证明了 CMVDM 在可视化质量和技术指标上都优于现有的最先进的方法(SOTA)。‭​​‌‌‭​‍此外,团队还发现大脑的高级视觉皮层(HVC) 主要关注视觉刺激的语义信息,而低级视觉皮层(LVC)则主要关注视觉刺激的结构信息。‭​​‌‌‭​‍

‭​​‌‌‭

理解人类大脑在观察视觉刺激(例如自然图像)时发生的认知过程,一直是神经科学家的主要关注点。客观的视觉刺激和主观的认知活动,都能在大脑的视觉皮层中引发复杂的神经信号传递,从而为更高层次的认知认知和决策过程奠定基础。随着功能性磁共振成像(fMRI)等技术的进步,人们已经能够以更高的精度和更细的粒度捕获实时的大脑活动信号,从而加速了神经科学研究的进程。然而,对于认知神经科学和下游应用(如脑机接口 BCI)来说,解读和重构这些复杂的信号仍然是一个巨大的挑战。‭​​‌‌‭​‍

‭​​‌‌‭​‍早期尝试在分析视觉任务的大脑活动时,主要关注将在人类受试者的大脑活动与观察到的自然图像相匹配,或者重构简单几何形状的视觉模式。这些探索证明了从大脑信号中获取感知图像的语义信息的可行性,然而它们对未见过的语义类别或复杂的重构任务的泛化能力较差。‭​​‌‌‭​‍

‭​​‌‌‭​‍ 

‭​​‌‌‭​‍近期研究在从大脑信号重构视觉刺激方面取得了重要进展。Roman Beliy、Guy Gaziv 等工作能够生成与原始视觉刺激形状相似的图像,但这些图像存在严重的扭曲和模糊问题。文献 IC-GAN, Mind-Vis 等研究采用了常用的生成模型,如生成对抗网络(GAN)或扩散模型,生成的高质量 RGB 图像在语义上与原始视觉刺激保持一致,条件是对应的 fMRI 信号。然而,如图所示,这些方法在位置一致性上存在问题。 总的来说,现有方法未能有效地利用 fMRI 信号中固有的语义和空间特征。‭​​‌‌‭​‍

‭​​‌‌‭​‍为了解决上述问题,我们提出了一种可控脑视觉扩散模型(CMVDM),该模型通过控制网络使扩散模型能够利用提取出可信的语义和轮廓信息,从而完成高度逼真的人类视觉重构。我们在两个数据集上进行了全面的实验来评估 CMVDM 的性能。与现有的方法相比,它在定性和定量结果上都达到了最先进的水平(SOTA),证明了 CMVDM 从 fMRI 信号中解码高质量和可控图像的有效性。‭​​‌‌‭​‍

‭​​‌‌‭

CMVDM 框架示意图‭​​‌‌‭​‍

具体来说,我们的方法可以被拆解为:‭​​‌‌‭​‍

  • ‭​​‌‌‭​‍我们首先对一个预训练的潜在扩散模型(Latent Diffusion Model,LDM)进行微调,使用语义对齐损失来提高性能,并预训练一个轮廓提取器来估计 fMRI 数据的准确语义和轮廓信息。‭​​‌‌‭​‍
  • 受 ControlNet 的启发,我们引入一个控制网络,该网络将轮廓信息作为条件输入到预训练的 LDM 中,以指导扩散过程生成所需的图像,这些图像在语义和轮廓信息方面都与原始视觉刺激相匹配。‭​​‌‌‭​‍
  • 此外,我们构建了一个残差模块来提供超出语义和轮廓的信息。‭​​‌‌‭​‍

2.1 预训练 LDM 调整以及语义信息提取‭​​‌‌‭​‍

我们引入在 HCP 数据集上预训练的 fMRI 信号特征提取器以及预训练的 LDM 网络,通过下述监督损失优化 fMRI 信号特征提取器以及 LDM 网络中的 cross attention 层,从而基本实现将脑电信号还原为视觉刺激。‭​​‌‌‭​‍

‭​​‌‌‭​‍ 

我们将上文从 fMRI 信号提取器中得到的特征定义为从 fMRI 信号中提取的语义信息。由于缺乏直接的语义监督,只凭上文提到的监督函数可能无法提供足够的语义信息。因此,我们设计了一个语义对齐损失来进一步增强语义信息和余弦相似度,如下所示。‭​​‌‌‭​‍

‭​​‌‌

核心思路是将从 fMRI 信号中提取出的语义信息与 CLIP 处理图片得到的特征进行对齐。可以参考「CMVDM 框架示意图」中的“Finetuning LDM”部分。‭​​‌‌‭​‍

‭​​‌‌‭​‍2.2  轮廓信息提取‭​​‌‌‭​‍

‭​​

‭​​‌‌‭

‭​​‌‌‭​‍可以参考「CMVDM 框架示意图」中的 “Silhouette Extraction” 部分。‭​​‌‌‭​‍

‭​​‌‌‭​‍2.3 控制网络训练‭​​‌‌‭​‍

在从 fMRI 信号中获取增强的语义信息和可靠的轮廓信息后,我们使用它们来控制生成的结果。受 ControlNet 的启发,我们设计了一个控制模型来控制生成图像的整体构成。具体来说,我们固定了 LDM 中去噪网络中的所有参数,并将去噪网络的 U-Net 编码器克隆到可训练的控制模块中。控制模块的输入包括噪声潜在代码、语义信息和轮廓信息。此外,为了弥补在属性提取中丢失的 fMRI 信息,我们采用了一个可训练的残差块来添加超出语义和轮廓的信息。推理过程和监督控制模型的训练损失表示为:‭​​‌‌‭​‍

‭​​‌‌‭​‍ 

‭​​‌‌‭​‍ 

‭​​‌‌‭​‍ 

‭​​‌‌‭

我们考虑在不同复杂度数据集上进行视觉信号重建测试,考虑的数据集有两个:Generic Objects Dataset (GOD)、BOLD5000 (Brain, Object, Landscape Dataset)。前者多为受试者对简单图片物体的脑电信号-图片对,后者则增加了场景复杂度和数据量。我们将 CMVDM 与四种 SOTA 方法进行比较:Beliy、Gaziv、IC-GAN、MinD-Vis。为评估模型的性能,在评价指标上我们考虑 N-way 分类准确度(Acc),皮尔森相关系数(PCC),结构相似性度量(SSIM)来评价生成图像的语义准确度和结构相似性。‭​​‌‌‭​‍

‭​​‌‌‭​‍3.1 指标对比结果‭​​‌‌‭​‍

如图所示,实验结果揭示了 CMVDM 总体上显著优于其他方法。与 IC-GAN、MinD-Vis 相比,尽管两者都产生了良好的结果,但 CMVDM 在 SSIM 方面显著优于它们。这表明 CMVDM 生成的图像在物体轮廓和图像结构方面与视觉刺激的相似度更高。Gaziv 在 SSIM 方面取得了显著的结果,但视觉结果表明,Gaziv 方法无法生成高保真度的图像。‭​​‌‌‭​‍

3.2 可视化对比结果‭​​‌‌‭​‍

  • GOD 上的可视化对比‭​​‌‌‭​‍

  • BOLD5000 对比结果‭​​‌‌‭​‍

3.3 实验分析‭​​‌‌‭​‍

本工作对提出的损失函数与引入的模块进行了消融实验,并结合不同视觉皮层的脑电信号进行实验对比与可视化验证,证明了所提出方法的有效性。‭​​‌‌‭​‍

  • ‭​​‌‌‭​‍消融实验指标分析‭​​‌‌‭​‍

消融实验表明,CMVDM 在引入了新的对齐损失与结构控制模块后实现了对原始刺激更高的语义准确度和结构相似性。‭​​‌‌‭​‍‭​​‌‌‭

  • 重建结果一致性可视化分析‭​​‌‌‭​‍

我们的方法相比于 MinD-Vis 在生成一致性上更佳,表现出了对生成图片结构的有效控制。‭​​‌‌‭​‍

  • 不同视觉皮层区域信号的重建分析‭​​‌‌‭​‍

V1,V2, V3 均属于低级视觉皮层 LVC 的主要组成区域,FFA,PPA,LOC 则属于高级视觉皮层 HVC 的主要组成区域,VC 代表全视觉皮层‭​​‌‌‭​‍

实验结果与可视化表明:LVC 在结构指标上(如 SSIM )表现优于 HVC,表明低级视觉皮层捕获视觉信息的结构等低级特征;HVC 在语义指标上(如 Acc )表现明显优于 LVC,表明高级视觉皮层用于处理更抽象的语义特征;借助全视觉皮层 VC 的信号,我们的方法可以有效重建出语义、结构与原始视觉刺激相近的高质量图像。‭​​‌‌‭​‍

我们提出了可控脑视觉扩散模型(CMVDM)。这项工作将脑电信号重建问题分解为特征提取和图像重建两个子任务。通过采取自监督与半监督方法,我们分别提取信号的语义和结构特征,并利用预训练扩散模型的丰富知识进行多条件视觉信号重建,实现了与原始视觉刺激语义匹配且结构相似的高质量图像生成。‭​​‌‌‭​‍

‭​​‌‌‭​‍更进一步,CMVDM 在脑电信号重建相关的数据集上取得了最先进成果(SOTA),展现了其在复杂场景视觉信号可控重建方面的良好泛化性,突出其在神经科学和计算机视觉交叉领域的创新性和实用性。本文提出的 Diffusion-based 生成方案可拓展至泛化的条件可控生成领域,为小红书发布端文生图新玩法提供更多方案。‭​​‌‌‭​‍

‭​​‌‌‭​‍论文地址:‭​​‌‌‭​‍https://arxiv.org/pdf/2305.10135.pdf‭​​‌‌‭​‍

  • 曾博涵

现为北京航空航天大学硕士研究生,小红书创作发布团队实习生,曾在 ECCV、CVPR、NeurIPS 等发表论文。主要研究方向为计算机视觉生成。

  • 李尚霖

现为北京航空航天大学硕士研究生,小红书创作发布团队实习生,曾在 AAAI 发表多篇论文。主要研究方向为计算机视觉生成、联邦学习等。

  • 莱戈(贾一亮)

小红书生态算法团队负责人。曾在 CVPR、ICCV、ECCV、TNNLS、TGRS 等会刊发表 10 余篇论文,曾获 YouTube-VOS 视频分割竞赛 Top-3 排名,曾获天池视觉分割大奖赛复赛第 1 名。主要研究方向:目标跟踪、视频分割、多模态分类/检索等。

  • 汤神(田不易)

小红书创作发布团队负责人。曾在 CVPR、ECCV、ICCV、TIFS、ACMMM 等会议与期刊发表近 20 篇论文。多次刷新 WiderFace 和 FDDB 国际榜单世界记录,ICCV Wider Challenge 人脸检测国际竞赛冠军,ICCV VOT 单目标跟踪冠军,CVPR UG2+ 亚军。

NLP 算法工程师-智能创作

岗位职责:

基于高质量的小红书内容生态,研发实用领先的 NLP 智能创作技术,技术栈包括关键词提取、情感分析、上下文理解、命名实体识别、词性标注、句法分析、机器翻译、文本摘要、问答系统等,广泛支持智能内容创作需求,创造小红书独有的产品用户价值。

任职资格:

1. 熟悉语言知识表示、多模态生成模型及 NLP 智能创作,在以下一个或多个领域有深入的研究及落地经验,包括但不限于:NLP 生成、文案创作、多轮对话、模型压缩等

2. 具有优秀的编程基础及动手能力、良好的工作习惯,丰富的业务落地实战经验,优秀的快速学习能力

3. 敢于应对实际挑战,有坚韧的品质、优秀的自驱能力,善于主动沟通表达和团队协作

4. 发表 ML/NLP 等顶会/期刊论文、取得权威竞赛 Top 名次、ACM 编程国际竞赛  Top 成绩者优先

欢迎感兴趣的同学发送简历至 REDtech@xiaohongshu.com,并抄送至 tangshen@xiaohongshu.com。

算法工程师-社区生态

岗位职责:

  • 职责包括但不限于图文、视频等多模态内容的分类、检索、去重等工作,旨在优化平台内容生态、提升内容质量和分发效率,提高用户体验;

  • 负责 CV 相关算法研发,包括但不限于:图像/视频分类、图像检测/分割、视频理解、人脸识别、OCR、自监督学习等;

  • 负责 NLP 相关算法研发,包括但不限于:文本分析、语义分析、事件提取、分类、聚类、情感、问答、关系抽取、知识图谱等;

  • 完成算法的快速实现以及大规模工业化部署,参与创新性算法的研究以及开发工作;提供系统解决方案,打造可复用的社区业务平台能力,提升社区核心服务稳定性; 有互联网内容生态相关技术从业经验者优先。

任职资格:

  • 计算机/电子信息/自动控制/软件工程/数学等相关专业,硕士及以上学历

  • 优秀的分析、解决问题能力,对新技术充满好奇,敢于挑战高难度,善于提出解决方案并快速验证;

  • 熟练掌握 PyTorch/TensorFlow 等深度学习框架中的至少一种;

  • 具备优秀的编程能力和经验,熟悉 Python、C/C++、Java 等编程语言,具有扎实的数据结构和算法功底;

  • 具备优秀的研究和创新能力,在 CVPR/ICCV/ECCV 与 ICML/ACL/EMNLP/KDD/AAAI 等计算机视觉 &自然语言处理 &机器学习领域国际顶会或顶刊上发表过论文或 workshop 获奖者优先; 在国际竞赛(如: ACM ICPC, Kaggle, KDD Cup 等)中获得过优异成绩者优先;

欢迎感兴趣的同学发送简历至 REDtech@xiaohongshu.com,并抄送至 laige@xiaohongshu.com。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1405767.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

强化学习13——Actor-Critic算法

Actor-Critic算法结合了策略梯度和值函数的优点,我们将其分为两部分,Actor(策略网络)和Critic(价值网络) Actor与环境交互,在Critic价值函数的指导下使用策略梯度学习好的策略Critic通过Actor与…

【BBuf的CUDA笔记】十三,OpenAI Triton 入门笔记一

0x0. 前言 2023年很多mlsys工作都是基于Triton来完成或者提供了Triton实现版本,比如现在令人熟知的FlashAttention,大模型推理框架lightllm,diffusion第三方加速库stable-fast等灯,以及很多mlsys的paper也开始使用Triton来实现比…

瑞_力扣LeetCode_104. 二叉树的最大深度

文章目录 题目 104. 二叉树的最大深度题解后序遍历 递归实现后序遍历 迭代实现层序遍历 题目 111. 二叉树的最小深度题解后序遍历层序遍历 题目 226. 翻转二叉树题解 🙊 前言:本文章为瑞_系列专栏之《刷题》的力扣LeetCode系列,主要以力扣Lee…

Pandas.Series.sum() 求和(累和) 详解 含代码 含测试数据集 随Pandas版本持续更新

关于Pandas版本: 本文基于 pandas2.2.0 编写。 关于本文内容更新: 随着pandas的stable版本更迭,本文持续更新,不断完善补充。 传送门: Pandas API参考目录 传送门: Pandas 版本更新及新特性 传送门&…

sqlmap使用教程(3)-探测注入漏洞

1、探测GET参数 以下为探测DVWA靶场low级别的sql注入,以下提交方式为GET,问号(?)将分隔URL和传输的数据,而参数之间以&相连。--auth-credadmin:password --auth-typebasic (DVWA靶场需要登录&#xf…

【GitHub项目推荐--微软开源的课程(Web开发课程/机器学习课程/物联网课程/数据科学课程)】【转载】

微软在 GitHub 开源了四大课程,面向计算机专业或者入门编程的同学。分别是 Web 开发课程、机器学习课程、物联网课程和数据分析课程。 四大课程在 GitHub 上共斩获 90K 的Star,每一课程包含 20 多小节,完成课程大约需要 12 周。每小节除了视…

《统计学习方法:李航》笔记 从原理到实现(基于python)-- 第1章 统计学习方法概论

文章目录 第1章 统计学习方法概论1.1 统计学习1.统计学习的特点2.统计学习的对象3.统计学习的目的4.统计学习的方法1.2.1 基本概念1.2.2 问题的形式化 1.3 统计学习三要素1.3.1 模型1.3.2 策略1.3.3 算法 1.4 模型评估与模型选择1…

【BIAI】Lecture 6 - Somatosensory systems

Lecture 6- Somatosensory systems 专业术语 somatosensory system 体感系统 Thermoreceptors 温度感受器 Photoreceptors 光感受器 Chemoreceptoprs 化学感受器 hairy skin 毛发皮肤 glabrous skin 光滑皮肤 sensory receptors 感觉受体 dermal 真皮的 epidermal 表皮的 axon…

Vue+Element(el-switch的使用)+springboot

目录 1、编写模板 2、发送请求 3、后端返数据 1.Controller类 2.interface接口(Service层接口) 3.Service(接口实现) 4.interface接口(Mapper层接口) 5.xml 6.效果 4、el-switch属性 1、编写模板 …

【工作】专业沟通,有效对齐信息(及时回应,做好汇报)

【工作】专业沟通,及时对齐信息 文章目录 一、读书笔记二、工作case三、前人case 一、读书笔记 1、书籍推荐: 两本值得学习的沟通方法书籍: 理论:《说话就是生产力》实践:《沟通的方法》 五本补充学习沟通方法的书…

Linux 强大的网络命令:nc命令操作方法

Netcat(或简称nc)是一个强大的网络工具,它在Linux系统中广泛使用,可用于创建各种网络连接。它被描述为"网络的瑞士军刀",因为它的功能非常灵活,可以在网络中执行多种任务。 在大多数Linux发行版中…

Python入门(一)

anaconda安装 官网:https://www.anaconda.com下载 jupyter lab 简介: 包含了Jupyter Notebook所有功能。 JupyterLab作为一种基于web的集成开发环境,你可以使用它编写notebook,操作终端,编辑markdown文本&#xf…

Android:JNI实战,理论详解、Java与Jni数据调用

一.概述 上一篇博文讲解了如何搭建一个可以加载和链接第三方库、编译C/C文件的Jni Demo App。 这篇博文在这个Jni Demo App的基础上,从实战出发详细讲解 Jni 开发语法。 接下来,先用一小节将Jni开发比较重要的理论知识点过一下,然后进行代…

== 和 equals:对象相等性比较的细微差别

和 equals:对象相等性比较的细微差别 既要脚踏实地于现实生活,又要不时跳出现实到理想的高台上张望一眼。在精神世界里建立起一套丰满的体系,引领我们不迷失不懈怠。待我们一觉醒来,跌落在现实中的时候,可以毫无怨言地…

Minio 判断对象是否存在

引 Minio数据模型 中描述了 MinIO 中什么是桶,什么是对象,也给出了操作桶和操作对象的API。 在 MinIO 中, 对象 中间前缀 对象名称 。如何判定对象是否存在呢? 分析 在 MinIO 中并没有提供判断对象是否存在的操作&#xff…

VS Code Json格式化插件-JSON formatter

🦪整个文件格式化 按快捷键Shift Alt F 🥪仅格式化选择内容 需要选择完整的json段落即:{} 或 [] 括起来的部分,再按快捷键Ctrl K F

激光雷达行业梳理1-概述、市场、技术路线

激光雷达作为现代精确测距和感知技术的关键组成部分,在近几年里取得了令人瞩目的发展。作为自动驾驶感知层面的重要一环,相较摄像头、毫米波雷达等其他传感器具有“ 精准、快速、高效作业”的巨大优势,已成为自动驾驶的主传感器之一&#xff…

芋道--如何自定义业务表单,配置对应的工作流程(详细步骤)

需求描述: 芋道的动态表单就不再介绍了,相对来讲比较简单,跟着官网文档就可以实现,本文将详细的介绍如何新建独立的业务表记录申请的信息,并设计对应的工作流。 这里表中的每一条记录,都将通过流程实例编号(process_instance_id )…

mysql-进阶篇

文章目录 存储引擎MySQL体系结构相关操作 存储引擎特点InnoDBInnoDB 逻辑存储结构 MyISAMMemory三个存储引擎之间的区别存储引擎的选择 索引1. 索引结构B-TreeB-Tree (多路平衡查找树)B-Tree演变过程 BTree与 B-Tree 的区别BTree演变过程 Hash 2.索引分类3.索引语法演示 4.SQL性…

946. 验证栈序列(力扣)

946. 验证栈序列 Problem: 946. 验证栈序列 文章目录 思路解题方法复杂度Code 思路 对栈的使用 解题方法 1.我们可以通过把pushed重新一个一个入我们自己创建的栈如果某次入栈碰到与poped第一个元素相同的那我们就对poped出栈处理(即跳过第一个元素);如此循环,直到我们的栈到最…