微前沿 | 第1期:强可控视频生成;定制化样本检索器;用脑电重建视觉感知;大模型鲁棒性评测

news2024/11/24 12:25:03

欢迎阅读我们的新栏目——“微前沿”!

“微前沿”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉,同时也能找到先进实用的开源工具。

本期内容速览

01. 强可控视频生成模型 DragNUWA

02. LLM Retriever:通过定制化样本检索器来提高大语言模型的上下文学习效果

03. 解码大脑信号重建视觉感知图像

04. PromptBench:首个大语言模型提示鲁棒性的评测基准

arXiv精选

强可控视频生成模型 DragNUWA

research-focus-issue-1-1

论文链接:https://arxiv.org/abs/2308.08089

项目主页:https://www.microsoft.com/en-us/research/project/dragnuwa/

在人工智能与计算机图形学领域不断取得突破的今天,视频生成技术已成为领域内的研究焦点。尽管传统的视频生成模型,如 NUWA、Phenaki 和 Gen-2,在一定程度上实现了基于文本的视频生成,但在细粒度控制方面仍有不足。而在电影制作和短视频创作领域,导演和创作者对精细的运镜以及复杂且可控的角色动作都有着极高的要求,可是这些需求目前却难以通过现有的视频生成模型实现。

为此,微软亚洲研究院的研究团队研发了强可控视频生成模型 DragNUWA,革新了当前的视觉体验。受到 DragGAN 采用拖拽方式编辑图像的启发,DragNUWA 允许用户直接在图像中拖拽物体或背景,然后模型会自动将拖拽操作转化为合理的运镜或物体的运动,并生成相应的视频。通过融合文本、图像和轨迹三个关键控制因素,DragNUWA 在语义、空间和时间三个层面均实现了卓越的可控视频生成能力。

图1:DragNUWA的两种轨迹控制方式。拖拽背景可以生成各种镜头效果(左图),拖拽物体可以生成人物复杂轨迹(右图)。

图1:DragNUWA的两种轨迹控制方式。拖拽背景可以生成各种镜头效果(左图),拖拽物体可以生成人物复杂轨迹(右图)。

DragNUWA 支持三个关键控制输入:文本(p),图像(s)和轨迹(g)。为了解决当前仅有视频文本对数据的难题,DragNUWA 引入了轨迹采样器(Trajectory Sampler, TS)从开放领域视频的光流中提取轨迹。所提取的轨迹、初始帧图像和标注文本将通过多尺度融合器(Multiscale Fusion,MF)融入到 UNet 的每个 block。而为了解决轨迹稀疏的问题,DragNUWA 会通过自适应训练(Adaptive Training,AT)逐步从完整的光流切换到稀疏的轨迹,以确保视频生成的稳定性。

图2:DragNUWA 架构图

图2:DragNUWA 架构图

让我们想象一下,当你在欣赏一幅美丽的艺术作品时,通过 DragNUWA 的力量,它能够按照你的意愿展现出生动的画面;或者在拍摄一部动作片时,让主角在关键时刻“拥有”震撼人心的武艺。这些都将得益于 DragNUWA 强大的可控视频生成能力。DragNUWA 为包括导演、摄影师和视频创作者们在内的整个视觉作品领域打开了全新的可能性,可能在未来把视频生成技术带入一个全新的可控时代。

图3:DragNUWA 生成演示

图3:DragNUWA 生成演示

LLM Retriever:通过定制化样本检索器来提高大语言模型的上下文学习效果

research-focus-issue-1-5

论文链接:https://arxiv.org/pdf/2307.07164

项目链接:https://github.com/microsoft/LMOps

如今的大语言模型展现出了惊人的上下文学习能力:不需要对语言模型的参数进行微调,只需要摆放几个上下文样本,语言模型就可以学会执行这个任务。但相关研究表明,语言模型上下文学习的效果对于样本的选择非常敏感。因此,如何自动从样本池选择合适的样本就成为了一个重要的研究问题。

微软亚洲研究院的研究员们在针对这一问题的研究过程中发现,语言模型本身的反馈信号可以作为上下文样本选择的可靠依据。不同的样本对于语言模型输出正确答案的影响并不相同,那些能提高正确答案概率的样本可以被视为高质量的上下文样本。基于这一观察,研究员们利用语言模型的反馈信号来训练定制化的样本检索器 LLM Retriever,以提高上下文学习的效果。

图4:LLM Retriever 模型训练和推理流程

图4:LLM Retriever 模型训练和推理流程

具体来说,在训练阶段,首先用语言模型对每一个候选的上下文样本打分,能够使得正确答案概率最大的样本被视为正例,其它的被视为负例。然后利用这些自动标注的数据来训练一个奖励模型,以捕捉更加细粒度的监督信号,再对奖励模型进行知识蒸馏,得到一个高效的检索器 LLM Retriever。这一训练流程可以迭代进行,从而不断提高检索器的效果。

在推理阶段,根据训练得到的检索器,离线把样本池建成一个方便快速查找的索引。对于每条测试数据,在索引中查找最相似的若干个样本,然后送给大语言模型做上下文学习,输出最终的预测结果。在整个过程中,语言模型不进行任何参数微调。

实验结果表明,在包含30个数据集的评测基准上,LLM Retriever 能够检索出与测试数据具有相似模式的样本,从而显著提高各种任务的上下文学习效果,并且对于训练阶段没有见过的任务和语言模型也具备很好的泛化能力。LLM Retriever 是微软亚洲研究院自然语言计算组关于如何增强语言模型能力的研究的一部分,未来研究员们还将继续在这方面进行深入的探索。

“透视”大脑:解码大脑信号重建视觉感知图像

research-focus-issue-1-7

论文链接:https://arxiv.org/abs/2308.02510

是否有可能只根据非侵入式设备获取的大脑信号,就完全重建被试主体所看到的视觉内容?

近年来,得益于神经科学和人工智能的最新进展,科学家们已经能够记录视觉引发的大脑活动,并通过计算方法模拟人类的视觉认知能力。其中,有一种大脑活动电生理信号称为脑电(Electroencephalograph, EEG)信号。EEG 脑电信号是一种通过放置在人类头皮上的便携电极,可低成本记录大脑时间动态的电生理信号。这类脑电活动生理信号相比较磁共振成像等技术,具备低成本、采集方便的优点,但是,EEG 脑电信号采集会受到电极放置错误或身体运动的影响,进而导致数据中出现严重的伪迹,并且其信噪比较低,因此,使用脑电信号重建视觉感知仍然十分困难。

在这篇论文中,微软亚洲研究院的研究员提出了 NeuroImagen, 通过多级解码方式,可以从 EEG 信号中解码出不同粒度的样本语义信息和像素语义信息,最后通过输入已预训练的扩散模型可以重建视觉感知的图像。其中,样本级别的语义信息提供了观看图像中主要类别或者总体描述等粗粒度信息,这些信息可以比较准确地提取与解码;像素级别的语义信息则提供了观看图像的颜色、位置、形状等细粒度信息,这些信息较难以提取,但对重建图片的细节非常重要。

图5:NeuroImagen 多级解码大脑信号重建感知图像

图5:NeuroImagen 多级解码大脑信号重建感知图像

实验结果表明,NeuroImagen 在根据 EEG 信号重建视觉图像的语义准确度、图片质量、结构准确性等方面上均优于其它前沿的重建方法。这项研究初步验证了将人类视觉认知与复杂的脑电信号联系起来的可行性,进而有可能帮助那些因为神经系统受损而失去视觉功能的人恢复部分视觉能力。研究员们预期这些发现将推动人工智能、认知科学和神经科学之间的合作,探索人类视觉认知过程之谜。

开源工具

PromptBench: 首个大语言模型提示鲁棒性的评测基准

research-focus-issue-1-9

文章链接:https://arxiv.org/abs/2306.04528

代码链接:https://github.com/microsoft/promptbench

所有大模型评测的研究汇总:llm-eval.github.io

作为连接人类与大模型的桥梁,大模型对 “Prompt (提示词)“究竟有多敏感?同样的 prompt,可能写错个单词、写法不一样,都会出现不一样的结果。到底应该如何写合适的提示词?

为了尝试回答这些问题,微软亚洲研究院的研究员们构建了首个大语言模型提示鲁棒性的评测基准 PromptBench,以深入探究大模型在处理对抗提示(adversarial prompts)的鲁棒性。研究还利用 Attention “可视化分析”了对抗提示的输入关注分布,并且对不同模型产生的对抗提示进行了“迁移性分析”,最后对鲁棒提示和敏感提示的词频进行了分析,以帮助终端用户更好地写出 prompt。

研究得到了几个关键的结果。首先,“不同种类的攻击的有效性差距很大“,其中 word-level 的攻击最强,导致所有数据集的平均性能下降33%。字符级别的攻击排名第二,导致大部分数据集的性能下降20%。UL2 的鲁棒性明显优于其他模型,其次是 T5 和 ChatGPT,Vicuna 的鲁棒性最差。UL2、T5 和 ChatGPT 的鲁棒性在各个数据集中都有所不同,UL2 和 T5 在情感分类(SST-2)、大部分 NLI 任务以及阅读理解(SQuAD V2)的攻击中表现出较好的鲁棒性。少样本提示的鲁棒性在所有数据集上都要优于零样本提示。此外,虽然 Task-oriented 的提示在总体鲁棒性上稍微优于 Role-oriented 提示,但两者在不同的数据集和任务中各有优势。

图6:PromptBench 概览(左图),prompt 攻击示意图(右图)

图6:PromptBench 概览(左图),prompt 攻击示意图(右图)

研究员们还进行了可迁移性分析、词频分析等,以全面了解大模型对提示的对抗鲁棒性。最后研究员也提出了一些可能的应对策略:

1. 输入预处理:直接检测和处理可能的对抗样本,如检测错别字、无关的序列,并提高提示的清晰度和简洁度。

2. 在预训练中包含低质量数据:低质量数据可以作为可能的对抗样本,在预训练中包含低质量数据可能会对多样化的输入有更好的理解。

3. 探索改进微调方法:研究更佳的微调技术可能会提高鲁棒性。正如研究之前展示的一些情况,比如 T5 和 UL2 模型比 ChatGPT 的鲁棒性更好,这暗示了大规模监督微调的潜在优势。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/941934.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在线帮助中心也属于知识管理的一种吗?

在线帮助中心是企业或组织为了提供客户支持而建立的一个在线平台,它包含了各种类型的知识和信息,旨在帮助用户解决问题和获取相关的信息。从知识管理的角度来看,可以说在线帮助中心也属于知识管理的一种形式。下面将详细介绍在线帮助中心作为…

Element——table排序,上移下移功能。及按钮上一条下一条功能

需求&#xff1a;table排序&#xff0c;可操作排序上移下移功能。判断第一行上移禁用和最后一行下移禁用&#xff0c;排序根据后端返回的字段 <el-table:data"tableData"style"width: 100%"><el-table-column type"index" label"序…

Docker容器中的Postgresql备份脚本异常解决办法

本文基于K8S中Docker容器对postgres数据库进行备份的操作&#xff0c;编写好脚本后&#xff0c;手动执行脚本是正常的&#xff0c;但是crontab定时实行却报错&#xff0c;报错信息为kubectl command not found&#xff0c;提示没有找到kubectl指令。 本文主要介绍对该报错信息…

Mybatis 复杂结果映射(ResultMap) - 一对多关系映射

上一篇内容我们介绍了Mybatis结果映射&#xff0c;使用结果映射可以在数据库表中字段与类中字段不一致时解决数据映射的问题&#xff0c;本篇我们在上一篇的基础上深入了解结果映射&#xff0c;使用复杂的结果映射解决一对多关系中复杂的数据映射问题。 如果您对结果映射不太了…

长胜证券:看好未来市场情绪和景气度持续修复下的券商板块机遇

摘要 【长胜证券&#xff1a;看好未来商场心情和景气量继续修正下的券商板块机会】买卖佣钱的下调直接下降出资者买卖成本&#xff0c;有望激活商场、提振交投活泼度。一起&#xff0c;当时方针处于良性周期&#xff0c;估计活泼资本商场相关办法有望逐步落地&#xff0c;为券…

专业制造一体化ERP系统,专注于制造工厂生产管理信息化,可定制-亿发

制造业是国民经济的支柱产业&#xff0c;对于经济发展和竞争力至关重要。在数字化和智能化趋势的推动下&#xff0c;制造业正处于升级的关键时期。而ERP系统&#xff0c;即企业资源计划系统&#xff0c;能够将企业的各个业务环节整合起来&#xff0c;实现资源的有效管理和信息的…

No124.精选前端面试题,享受每天的挑战和学习

文章目录 vue中如何获取节点元素&#xff0c;如何获取单个节点&#xff0c;如何获取多个节点vue中的v-for和v-if哪个优先级高&#xff0c;vue2和vue3分开介绍&#xff0c;并说明会产生什么后果介绍一下ts比js的优势&#xff0c;以及在哪些场景用过ts的一些数据类型有什么区别&a…

c#在MVC Api(.net framework)当中使用Swagger,以及Demo下载

主要的步骤就是创建项目&#xff0c;通过nuget 添加Swashbuckle包&#xff0c;然后在SwaggerConfig当中进行相关的配置。 具体的步骤&#xff0c;可以参考下面的链接&#xff1a; https://www.cnblogs.com/94pm/p/8046580.htmlhttps://blog.csdn.net/xiaouncle/article/detail…

代码随想录算法训练营第五十一天|LeetCode503,42

目录 LeetCode 503.下一个更大元素II LeetCode 42.接雨水 LeetCode 503.下一个更大元素II 文章讲解&#xff1a;代码随想录 力扣题目&#xff1a;LeetCode 503.下一个更大元素II 代码如下&#xff08;Java&#xff09;: class Solution {public int[] nextGreaterElements(i…

JZ41数据流在的中位数

题目地址&#x1f4d0;&#xff1a;数据流中的中位数_牛客题霸_牛客网 题目回顾&#x1f4e7;&#xff1a; 解题思路&#x1f4d6;&#xff1a; 首先对于中位数&#xff0c;我们都知道&#xff0c;排序后如果是数组长度是奇数&#xff0c;中位数就是中间的值&#xff0c;也就是…

Camera摄像头PCB布局布线设计注意事项

摄像头&#xff08;Camera或Webcam&#xff09;又称为电脑相机、电脑眼、电子眼等&#xff0c;是一种视频输入设备&#xff0c;被广泛的运用于视频会议、远程医疗及实时监控等方面。摄像头可分为数字摄像头和模拟摄像头两大类&#xff1b; 图1 摄像图模组 摄像头PCB设计注意事项…

数字货币量化交易平台

数字货币量化交易平台是近年来金融科技领域迅速崛起的一种创新型交易方式。它通过应用数学模型和算法策略&#xff0c;实现对数字货币市场的自动交易和风险控制。然而&#xff0c;要在这个竞争激烈的领域中脱颖而出&#xff0c;一个数字货币量化交易平台需要具备足够的专业性&a…

大数据Flink实时计算技术

1、架构 2、应用场景 Flink 功能强大&#xff0c;支持开发和运行多种不同种类的应用程序。它的主要特性包括&#xff1a;批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。在启用高可用选项的情况下&#xff0c;它不存在单点失效问题。事实证明&#…

气传导耳机对耳朵有损害吗?2023热门气传导耳机推荐

​不会对耳朵有损害。无论是在健身房锻炼还是在旅途中&#xff0c;都很多人佩戴蓝牙耳机&#xff0c;蓝牙耳机类型也越来越多&#xff0c;目前气传导耳机领导了耳机的新时尚&#xff0c;它们最突出的优点就是佩戴方式&#xff0c;开放双耳&#xff0c;而气传导耳机采用空气传导…

Python使用 YOLO_NAS_S 模型进行目标检测并保存预测到的主体图片

一、前言&#xff1a; 使用 YOLO_NAS_S 模型进行目标检测&#xff0c;并保存预测到的主体图片 安装包&#xff1a; pip install super_gradients pip install omegaconf pip install hydra-core pip install boto3 pip install stringcase pip install typing-extensions pi…

nginx服务与调优(一)

一、nginx概述&#xff1a; 1.Nginx简介&#xff1a; Nginx是一个高性能的HTTP和反向代理服务器。是一款轻量级的高性能的web服务器/反向代理服务器/电子邮件&#xff08;IMAP/POP3&#xff09;代理服务器&#xff0c;单台物理服务器可支持30 000&#xff5e;50 000个并发请求…

混合App开发,还能用计算机之父的那套理论

随着移动互联网的蓬勃发展&#xff0c;传统的原生应用和Web应用逐渐融合&#xff0c;冯诺伊曼结构则为此提供了坚实的理论基础。通过将应用的核心逻辑和数据存储在云端&#xff0c;实现了应用的分离&#xff0c;不仅为开发者带来了更便捷的维护和更新方式&#xff0c;也为用户提…

亚马逊加购软件之添加购物车对亚马逊卖家有什么好处

亚马逊对卖家而言&#xff0c;购物车功能可以带来以下一些好处&#xff1a; 1、提高销售机会&#xff1a;当买家将商品添加到购物车中&#xff0c;这意味着他们对这些商品感兴趣并考虑购买。这为卖家提供了更多的销售机会&#xff0c;因为购物车中的商品可能会最终被购买。 2…

橙河:海外賺美金的项目有哪些?

大家好&#xff0c;我是橙河老师。现在呢&#xff0c;很多人去国外打工&#xff0c;大家在短视频上也经常能看到&#xff0c;他们在国外挣了几年钱&#xff0c;回来就能买车买房。 其实呢&#xff0c;他们在国外的工作&#xff0c;工资也就是几千块一个月&#xff0c;不过他们…

15-模型 - 一对多 多对多

一对多&#xff1a; 1. 在多的表里定义外键 db.ForeignKey(主键) 2. 增加字段 db.relationship 建立联系 ("关联表类名","反向引用名") from ext import db# 一 class User(db.Model):id db.Column(db.Integer, primary_keyTrue, autoincrementTrue)us…