“我有一个大胆的想法”?Meta AI 新技术让你的思维图像一览无余!

news2024/12/18 21:17:14

图片

 夕小瑶科技说 原创
 作者 | 付奶茶

大家之前是否想象过未来的技术进步会带来读脑器,计算界面是否有可能越过触摸屏、键盘进入我们思维内部读取我们脑袋中所想。尽管当前我们社会尚未达到这一阶段,但我们确实逐渐接近这一愿景!

图片

不久前,Meta AI宣布了一项名为Image Decoder的深度学习应用,由FAIR-Paris与巴黎文理大学(PSL)巴黎高师(ENS)合作完成。该研究实现了一个重要的里程碑,即可以将人类大脑活动几乎实时地转化为高精度图像,展示观察者的视觉或思维内容。这一系统由图像编码器、大脑编码器、图像编码器组成,在Meta在4月份发布的自监督学习模型DINOv2[1]上训练,利用脑电信号(Magnetoencephalography, MEG)对人脑活动进行解码和可视化。

图片

图片

图片

这项工作是Meta长期研究计划的一部分,其最终目标是构建一个完全模拟人类学习和推理能力的AI系统。接下来让我们看看他们究竟是怎样做的吧!

论文题目:
《Brain decoding: Toward real-time reconstruction of visual perception》

论文链接:
https://ai.meta.com/static-resource/image-decoding

文章速览

在这里我们首先先介绍一下脑磁图(Magnetoencephalography,MEG)是什么~脑磁图被广泛用于脑功能检测技术,是对脑内神经电流发出的极其微弱的生物磁场信号的直接测量,并记录整个大脑的瞬态数据。通过计算机综合影象信息处理,将获得的信号转换成脑磁曲线图,等磁线图等。

图片

Image Decoder将机器学习和脑磁图(MEG)结合在一起。首先,分析标记过的数据,然后对新数据进行检查并尽量正确地标记。然后利用脑磁图在头部外侧测量记录大脑活动,使用仪器捕捉人类在思考时大脑磁场的微小变化。这样的做法可以在检索阶段从一组候选的图像中选择正确的图像,然后通过训练直接预测潜在的表示用来调整生成图像模型。

图片

▲MEG记录连续地与图像的深度表示对齐,然后可以在每个瞬间调节图像的生成。

大脑编码器

作者ConvNet架构进行了调整,标记为fθ,以学习从MEG窗口Xi ∈ RC×T到潜在图像表示zi ∈ R F的投影,针对每个输入进行单一潜在值的回归,并添加了一个时间聚合层和两个MLP头部1,用于从F′投影到目标潜在维度F。

图像编码器

图像编码器学习将 MEG 信号与这些构建出来的图像进行嵌入对齐。作者使用卷积神经网络架构去提取特征,在此基础之上,添加了时序聚合层,以减少维度,节约计算开销。

生成解码器

作者从预训练的嵌入图像中生成图像,使用了基于三个嵌入条件的潜扩散模型:CLIP-Vision(257 tokens × 768), CLIP-Text(77 tokens × 768)和变分自编码器潜AutoKL(4 × 64 × 64),集合这些以及大脑表征生成可信的图像。

训练目标

作者提出的pipeline有多个部分,因此采用多目标优化策略,并在图像检索中采用CLIP Loss。

图片

为了评估生成图像的质量,使用MSE Loss:

图片

最后采用凸组合方方式结合CLIP和MSE进行训练:

图片

实验分析

数据集

作者选择在THINGS-MEG数据集上测试方法的有效性,对四位参与者包括两名女性和两名男性,平均年龄23岁)产生的63,000个历史MEG数据进行训练。这些数据来源自患者观看来自12次对话中记录的22,448张不同的图片以及原始图库中200张重复的图片。以这种方式,研究员通过图像解码器可以观察被试者的脑活动看到他们正在想象的内容。

图片

▲THINGS-MEG1

机器学习是大脑表征的有效模型

作者采用线性岭回归模型(Linear Ridge regression models)来验证检索图像的性能。在实验结果中,所有图像的解码效果都明显高于随机猜测的检索性能,在监督学习和文本/图像对齐模型(如VGG和CLIP)产生了最高的检索分数。

图片

机器学习是拟合大脑反应过程的有效工具

作者将这些线性基线与相同任务上训练的深度卷积神经网络架构进行比较,即在给定MEG窗口的情况下检索匹配的图像。使用深度模型相对于线性基线实现了7倍的改进。多种类型的图像嵌入产生良好的检索性能,其中VGG-19(监督学习)、CLIP-Vision(文本/图像对齐)和DINOv2(自监督学习)的前5准确率分别为70.33 ± 2.80%,68.66 ± 2.84%和68.00 ± 2.86%。

图片

时序级图像检索

作者尝试了时间分辨的图像检索实验,尝试拟合大脑中是处理和识别图像的过程。首先对时间进行了切割(250毫秒长的滑动窗口),每次只看大脑处理图像的一小段时间。拟合大脑研究每一帧的视频。在图像未呈现之前,所有的模型表现都很差,就像是随机猜测一样。首次明显的峰值可以在0到250毫秒的窗口上观察到,随后在图像结束后出现第二个峰值,在图像消失后,它们的性能又迅速恢复到了随机猜测的水平。而论文中指出,DINOv2在图像消失后表现仍然表现出了特别好的检索性能。

图片

为了更好理解解码指标,作者构建了一个由原有测试集与3659张参与者未见过的额外图像合并而成的附加集,结果上来看,检索到的图像往往来自正确的类别,比如“演讲者(Speaker)”或“西兰花(brocoli)”,主要出现在前几个子窗口(t≤1秒)。

图片

从MEG信号中生成图像

虽然检索任务展现了令人鼓舞的效果,但是他要求真实的样本必须存在于检索集中,这限制了实践中使用的可能性。为了缓解这样的限制,作者训练了三个不同的脑模块,用于预测使用的三个嵌入来生成图像(图5)。

图片

生成的图像从评估结果中看相对不错,其中多个生成的图像与正确的实际类别相匹配。但是,生成的图像似乎包含有关真实图像的低级视觉信息 虽在最佳的情况下,系统根据MEG数据准确地检索、重建图像的准确率达到了70%,这比过去的方法提高了7倍数。从结果中可以看出,图像解码器虽然可以顺利地从潜在图像库中获取一些简单的图片,例如西兰花、毛毛虫等,但是对于更加复杂多样化的图像比如塔克斯、鳄梨酱料等成功率较低。

背后的伦理

然而,这种技术真的符合伦理标准吗?

图片

研究者们也意识到,这项技术突破的确带来了多个伦理问题。因为深入探查一个人的思维并将其可视化,是一种未被明确定义的新型侵入方式,这涉及到人类心理隐私的保护。

作者在这项技术在伦理隐私上的问题没能给出明确的回复,但是提到目前技术在处理一个人所看到过的具体物体和现实图像时表现最出色。而当个体被要求想象一幅未曾见过的图像时,解码器的准确性就会显著降低。简而言之,获得受试者的同意不仅是法律上的要求,更是脑解码技术实现的基本前提。

此外,作者称如果一个人的脑活动图像是在未经同意的情况下被解码,那么他们可以采用抗干扰来抵抗这种情况,但是,这的的确地需要具备足够的意识和反应速度来反应他们正在处于这样的情况。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1121930.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

DDR电源硬件设计要点

一、DDR电源简介 1. 电源 DDR的电源可以分为三类: a、主电源VDD和VDDQ,主电源的要求是VDDQ=VDD,VDDQ是给IO buffer供电的电源,VDD是给但是一般的使用中都是把VDDQ和VDD合成一个电源使用。 有的芯片还有VDDL,是给DLL供电的,也和VDD使用同一电源即可。电源设计时,需要考…

【PyTorch】深度学习实践 02 线性模型

深度学习的准备过程 准备数据集选择模型模型训练进行推理预测 问题 对某种产品花费 x 个工时,即可得到 y 收益,现有 x 和 y 的对应表格如下: x (hours) y(points)12243648 求花费4个工时可得…

回归预测 | MATLAB实现基于BP-Adaboost的BP神经网络结合AdaBoost多输入单输出回归预测

回归预测 | MATLAB实现基于BP-Adaboost的BP神经网络结合AdaBoost多输入单输出回归预测 目录 回归预测 | MATLAB实现基于BP-Adaboost的BP神经网络结合AdaBoost多输入单输出回归预测预测效果基本介绍模型描述程序设计参考资料 预测效果 基本介绍 1.MATLAB实现基于BP-Adaboost的BP…

C# 程序运行无法加载 C++ DLL“xxx.dll”: 找不到指定的模块 Exception from HRESULT: 0x8007007E

背景:由于公司需要集成期货公司的提供的DLL,在本地开发调试时运行正常,放到web服务器后运行提示找不到指定模块错误代码Exception from HRESULT: 0x8007007E 原因:可能是由于服务器的C:\Windows\SysWOW64系统文件夹下的模块有缺失。 排查 下载…

剑指Offer || 054.把二叉搜索树转换为累加树

题目 给定一个二叉搜索树,请将它的每个节点的值替换成树中大于或者等于该节点值的所有节点值之和。 提醒一下,二叉搜索树满足下列约束条件: 节点的左子树仅包含键 小于 节点键的节点。节点的右子树仅包含键 大于 节点键的节点。左右子树也…

【FISCO-BCOS】十八、使用docker部署区块链

目录 前言: docker: 一、安装docker docker部署区块链: 一、 搭建单群组4节点区块链 二、启动区块链 三、检查容器 四. 查看节点 前言: 关于FISCOBCOS部署区块链的方式,我们已经学习过了很多种,如多群组部…

Java代理

一、代理模式 代理模式定义:为其他对象提供一种代理以控制对这个对象的访问。 上面类图中有一个订单接口类(OrderService)、一个订单实现类(OrderServiceImpl),订单模块的业务相对复杂和重要,如果这时候要在方法执行前后加上日志&#xff0c…

三种字符串格式化方法(%、format、f-string)

一、使用 % name 第一帅 print(我是宇宙无敌天下%s % name) age 18 print(我是宇宙无敌天下%s,我今年%d岁%(name,age)) price 5.99print(白心火龙果单价是%.1f元一斤%price)二、使用 format 在字符串中,使用{ }进行占位,然后在字符串后…

关于编程生成的目标文件到底是怎么链接生成可执行文件的

以c/c程序为例,要想生成可执行文件,需要经过如下步骤: #mermaid-svg-u1JzuqIf7rGHTIIk {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-u1JzuqIf7rGHTIIk .error-icon{fill:#55222…

SLAM从入门到精通(rviz自定义形状)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 rviz作为很好的上位机调试工具,它本身可以显示很多的传感器数据。比如说lidar、map、tf、camera、点云这些,在rviz上面显示…

Stable Diffusion新玩法火了!给几个词就能生成动图,连动图人物的表情和动作都能随意控制

夕小瑶科技说 原创 作者 | 小戏 单说大模型 AI 的发展对人们想象力释放的助力,基于 Stable Diffusion 模型的方法首当其冲。透过文本描述到图像生成技术,大模型为我们的想象力打开了一个恢弘的梦幻世界。透过点滴文字,就有可能重现禁锢在我们…

【Java 进阶篇】深入浅出:Bootstrap 轮播图

在现代网页设计中,轮播图是一个常见的元素。它们可以用于展示图片、广告、新闻、产品或任何您希望吸引用户注意力的内容。要实现一个轮播图,您通常需要一些复杂的HTML、CSS和JavaScript代码,这对于初学者来说可能会感到困难。但幸运的是&…

HWUI源码剖析(二) - 终于讲清楚OpenGL渲染的MVP矩阵的来龙去脉

概述 研究android8.1 HWUI源码的过程中,发现OpenGL是绕不过的一个知识点,不理解OpenGL的绘制基础,必然无法很好的理解Hwui基本原理,同时熟悉OpenGL之后,HWUI也是一个非常优秀的OpenGL 2D渲染的代码,本文将介绍一下OpenGL绘制图形的重要原理,为学习HWUI源码扫清障碍,本…

04、Python 爬取免费小说思路

目录 Python 爬取免费小说思路代码解析爬取东西基本的四行代码:user-agent安装模块从 bs4 导入 BeautifulSoup ,查询某个标签开头的数据筛选遍历获取小说的章节名称每章小说的链接获取请求网址的响应获取小说的内容筛选内容整理内容爬取下载到指定文件夹完整代码:Python 爬取…

HTML+CSS+JS+Django 实现前后端分离的科学计算器、利率计算器(附全部代码在gitcode链接)

🧮前后端分离计算器 📚git仓库链接和代码规范链接💼PSP表格🎇成品展示🏆🏆科学计算器:1. 默认界面与页面切换2. 四则运算、取余、括号3. 清零Clear 回退Back4. 错误提示 Error5. 读取历史记录Hi…

2023年【化工自动化控制仪表】最新解析及化工自动化控制仪表作业考试题库

题库来源:安全生产模拟考试一点通公众号小程序 化工自动化控制仪表最新解析参考答案及化工自动化控制仪表考试试题解析是安全生产模拟考试一点通题库老师及化工自动化控制仪表操作证已考过的学员汇总,相对有效帮助化工自动化控制仪表作业考试题库学员顺…

Linux进程(四)--进程地址空间(一)

前言:在Linux中,每个正在运行的进程都有自己独立的虚拟地址空间,该虚拟地址空间是逻辑上的抽象,用于在进程间提供隔离和保护。它将进程的内存分配和访问从物理内存中分离出来,为每个进程提供了一个独立的地址空间。这究…

【试题036】赋值运算符小例题2

1.题目:设int a0,b0,m0,n0;,执行(mab)/(nab)后m和n的值分别? 2.代码分析: int main() {//设int a0,b0,m0,n0;,执行(mab)/(nab)后m和n的值分别int a 0,b 0,m 0,n 0,…

openCV的CUDA GPU 版本安装 (Ubuntu windows 通用)

需要做template match, 比较注重时间,因此opencv 的普通版本不适用。需要用GPU 的。 下载 git clone https://github.com/opencv/opencv.git git clone https://github.com/opencv/opencv_contrib.git确保准备好以下内容 1: visual studio &#xff0…

吉利银河L6顶配续航测试 记录 方便后续对比

智能模式 不设置保电(优先用电)强动能回收,7成道路开启了L2辅助驾驶。基本无急加速,急减速。 空调开了不到20min 驾驶总时长:3h 5min,平均车速:35Km/h 充电: 慢充到100% 胎压: 2…