我自己的原文哦~ https://blog.51cto.com/whaosoft/11519413
#斯坦福小镇
机器人版的「斯坦福小镇」来了,专为具身智能研究打造
首个专为各种机器人设计的模拟互动 3D 社会。
还记得斯坦福的 AI 小镇吗?这是斯坦福的 AI 研究者打造的一个虚拟环境。在这个小镇上,25 个 AI 智能体正常生活、工作、社交,甚至谈恋爱,每个智能体都有自己的个性和背景故事。智能体的行为和记忆通过大语言模型来驱动,这些模型能够存储和检索智能体的经历,并根据这些记忆来规划行动。
与之类似,最近,来自上海人工智能实验室 OpenRobotLab 等机构的一批研究者也打造了一个虚拟小镇。不过,生活在其中的是机器人和 NPC。
这个小镇包含 10 万个交互式场景和 89 种不同的场景类别,是首个专为各种机器人设计的模拟互动 3D 社会。
作者表示,他们设计这个环境是为了解决具身智能领域的数据稀缺问题。众所周知,由于收集真实世界数据的成本过高,在具身智能领域探索 scaling law 一直困难重重。因此,从仿真到真实(Sim2Real)的范式成了扩展具身模型学习的关键一步。
他们为机器人设计的这个虚拟环境名叫 GRUtopia,项目主要包括:
1、场景数据集 GRScenes。包含 10 万个交互式、精细注释的场景,可自由组合成城市规模的环境。与以往主要关注家庭的工作不同,GRScenes 涵盖了 89 种不同的场景类别,弥补了服务型环境的空白(一般机器人最初会部署在服务型环境中)。
2、GRResidents。这是一个大型语言模型(LLM)驱动的非玩家角色(NPC)系统,负责社交互动、任务生成和任务分配,从而模拟具身 AI 应用的社交场景。
3、基准 GRBench。支持各种机器人,但侧重于作为主要智能体的有腿机器人,并提出了涉及物体定位导航、社交定位导航和定位操纵的中等难度任务。
作者希望这项工作能缓解该领域高质量数据稀缺的问题,并为具身 AI 研究提供更全面的评估。
- 论文标题:GRUtopia: Dream General Robots in a City at Scale
- 论文地址:https://arxiv.org/pdf/2407.10943
- 项目地址:https://github.com/OpenRobotLab/GRUtopia
GRScenes:大规模的完全互动环境
要建立一个用于训练和评估具身智能体的平台,具有不同场景和物体资产的完全交互式环境是必不可少的。因此,作者收集了一个包含各种物体资产的大规模 3D 合成场景数据集,作为 GRUtopia 平台的基础。
多样、逼真的场景
由于开源 3D 场景数据的数量和类别有限,作者首先从设计师网站上收集了约 10 万个高质量的合成场景,从而获得多样化的场景原型。然后,他们对这些场景原型进行清理,并对其进行区域和物体级别的语义注释,最后将它们组合在一起,形成城镇,作为机器人的基本游乐场。
如图 2-(a) 所示,除了常见的家庭场景外,作者构建的数据集中还有 30% 的其他不同类别的场景,如餐厅、办公室、公共场所、酒店、娱乐等。作者从大规模数据集中初步筛选出 100 个带有精细注释的场景,用于开源基准测试。这 100 个场景包括 70 个家庭场景和 30 个商业场景,其中家庭场景由综合性常见区域和其他不同区域组成,商业场景涵盖医院、超市、餐厅、学校、图书馆和办公室等常见类型。
此外,作者还与几位专业设计师合作,按照人类的生活习惯来分配物体,使这些场景更加逼真,如图 1 所示,而这在以前的作品中通常是被忽略的。
具有部件(part)级注释的交互式物体
这些场景原本包含多个 3D 物体,但其中一些没有内部建模,因此无法训练机器人与这些物体进行交互。为了解决这个问题,作者与专业团队合作,对这些资产进行修改,并创建完整的物体,使它们能够以物理上可信的方式进行交互。此外,为了提供更全面的信息,使智能体能够与这些资产进行交互,作者在英伟达 Omniverse 中以 X 形式为所有物体的交互部件附加了细粒度部件标签。最后,100 个场景包含 96 个类别的 2956 个交互式物体和 22001 个非交互式物体,其分布情况如图 2-(b) 所示。
分层多模态注释
最后,为了实现具身智能体与环境以及 NPC 的多模态交互,还需要对这些场景和对象进行语言注释。与之前的多模态 3D 场景数据集只关注对象层面或对象间关系不同,作者还考虑了场景元素的不同粒度,如对象与区域的关系。鉴于缺乏区域标签,作者首先设计了一个用户界面,在场景鸟瞰图上用多边形注释区域,然后可以在语言注释中涉及对象 - 区域关系。对于每个对象,他们都会用渲染的多视图图像提示功能强大的 VLM(如 GPT-4v),以初始化注释,然后由人工进行检查。由此产生的语言注释为后续基准测试生成具身任务提供了基础。
GRResidents3D 环境中的生成式 NPC
在 GRUtopia 中,作者通过嵌入一些「居民」(即由 LLM 驱动的生成式 NPC)来赋予世界以社交能力,从而模拟城市环境中的社会互动。这个 NPC 系统被命名为 GRResidents。在 3D 场景中构建真实虚拟角色的主要挑战之一是整合 3D 感知能力。然而,虚拟角色可以轻松访问场景注释和模拟世界的内部状态,从而实现强大的感知能力。为此,作者设计了一个世界知识管理器(WKM),用于管理实时世界状态的动态知识,并通过一系列数据接口提供访问。借助 WKM,NPC 可以检索所需的知识,并通过参数化函数调用执行细粒度的对象 grounding,这构成了其感知能力的核心。
世界知识管理器(WKM)
WKM 的主要职责是持续管理虚拟环境知识,并向 NPC 提供高级场景知识。具体来说,WKM 分别从数据集和模拟器后台获取分层注释和场景知识,构建场景图作为场景表示,其中每个节点表示一个对象实例,边表示对象之间的空间关系。作者采用 Sr3D 中定义的空间关系作为关系空间。WKM 会在每个模拟步骤中保留该场景图。此外,WKM 还提供了三个核心数据接口,用于从场景图中提取知识:
1、find_diff (target, objects):比较目标对象与一组其他对象之间的差异;
2、get_info (object, type):根据所需的属性类型获取对象的知识;
3、filter (objects, condition)::根据条件过滤对象。
LLM 规划器
NPC 的决策模块是一个基于 LLM 的规划器,由三个部分组成(图 3):一个存储模块,用于存储 NPC 与其他智能体之间的聊天历史记录;一个 LLM 程序员,使用 WKM 的接口来查询场景知识;以及一个 LLM 发言器,用于消化聊天历史记录和查询到的知识,从而生成回复。当一个 NPC 收到一条信息时,它会首先将信息存储在内存中,然后将更新的历史记录转发给 LLM 程序员。然后,程序员会反复调用数据接口来查询必要的场景知识。最后,将知识和历史记录发送给 LLM 发言器,由其生成响应。
实验
作者进行了对象指代、语言 grounding 和以对象为中心的 QA 等方面的实验,以证明论文中的 NPC 能够生成对象说明,通过描述定位对象,以及为智能体提供对象信息。这些实验中的 NPC 后端 LLM 包括 GPT-4o、InternLM2-Chat-20B 和 Llama-3-70BInstruct。
如图 4 所示,在指代实验中,作者采用了 human-in-the-loop 评估。NPC 随机选择一个对象并对其进行描述,然后人类注释者根据描述选择一个对象。如果人类注释者能找到与描述相对应的正确对象,则指代成功。在 grounding 实验中,GPT-4o 扮演了人类注释者的角色,它提供了一个物体的描述,然后由 NPC 对其进行定位。如果 NPC 能够找到相应的物体,则 grounding 成功。
表 2 中的成功率(指代和 grounding)显示,不同 LLM 的准确率分别为 95.9%-100% 和 83.3%-93.2% ,这验证了我们的 NPC 框架在不同 LLM 中指代和接地的准确性。
在以对象为中心的 QA 实验中,作者评估了 NPC 在导航任务中通过回答问题向智能体提供对象级信息的能力。他们设计了一个 pipeline 来生成以对象为中心的导航情节,模拟真实世界的场景。在这些场景中,智能体向 NPC 提问以获取信息,并根据回答采取行动。给定智能体问题后,作者根据 NPC 的答案与真实答案之间的语义相似性对其进行评估。表 2(QA)中显示的总体得分表明,NPC 可以提供精确而有用的导航帮助。
GRBench:一个评估具身智能体的基准
GRBench 是评估机器人智能体能力的综合评估工具。为了评估机器人智能体处理日常任务的能力,GRBench 包括三个基准:物体定位导航、社交定位导航和定位操作。这些基准的难度逐渐增加,对机器人技能的要求也随之提高。
由于腿式机器人具有卓越的跨地形能力,作者优先考虑将其作为主要智能体。然而,在大规模场景中,要同时执行高级感知、规划和低级控制并取得令人满意的结果,对当前的算法来说具有挑战性。
GRBench 的最新进展证明了在仿真中针对单项技能训练高精度策略的可行性,受此启发,GRBench 的初始版本将重点放在高级任务上,并提供基于学习的控制策略作为 API,如行走和拾放。因此,他们的基准提供了更真实的物理环境,缩小了模拟与真实世界之间的差距。
下图是 GRBench 的一些任务示例。
下图是基准智能体的概览。grounding 模块 (a) 将原始感官数据处理成语义丰富的信息,记忆模块(b)存储行动观察历史等历史信息。决策模块(c)由 VLM 或 LLM 组成,根据(a)和(b)的信息做出行动决策,而行动模块(d)则执行输出的行动。环境模拟行动带来的物理变化,并产生感官数据。智能体可以选择向顾问 NPC 询问有关任务的进一步指示。
定量评估结果
作者在三个基准测试中对不同大型模型后端下的大型模型驱动智能体框架进行了比较分析。如表 4 所示,他们发现随机策略的性能接近于 0,这表明他们的任务并不简单。当使用相对较优的大型模型作为后端时,他们在所有三个基准测试中都观察到了明显更好的整体性能。值得一提的是,他们观察到 Qwen 在对话中的表现优于 GPT-4o(见表 5)。
此外,与直接使用多模态大模型进行决策相比,本文提出的智能体框架表现出明显的优越性。这表明,即使是目前最先进的多模态大型模型,在现实世界的具身任务中也缺乏强大的泛化能力。不过,本文的方法也有相当大的改进空间。这表明,当引入更接近真实世界的任务设置时,即使是像导航这样已经研究多年的任务,仍然远未完全解决。
定性评估结果
图 7 展示了 LLM 智能体在「社会定位导航」(Social Loco-Navigation)任务中执行的一个小片段,以说明智能体如何与 NPC 互动。该智能体最多可与 NPC 对话三次,以查询更多任务信息。在 t = 240 时,智能体导航到一把椅子前,询问 NPC 这把椅子是否是目标椅子。然后,NPC 提供有关目标的周边信息,以减少模糊性。在 NPC 的协助下,智能体通过类似人类行为的交互过程成功识别了目标椅子。这表明,本文中的 NPC 能够为研究人与机器人的互动和协作提供自然的社会互动。
#DataComp-LM(DCLM)
权重、代码、数据集全开源,性能超越Mistral-7B,苹果小模型来了
小模型成趋势?
本周,OpenAI 上线小模型 GPT-4o-mini,小模型赛道正式开卷。近期加入这一赛道的还有苹果。
最近,苹果公司作为 DataComp-LM(DCLM)项目的研究机构之一,在 Hugging Face 上发布了 DCLM-7B 开源模型。该模型性能已经超越了 Mistral-7B,并且正在逼近其他领先的开源模型,包括 Llama 3 和 Gemma。
- 论文链接:https://arxiv.org/pdf/2406.11794
- 项目链接:https://huggingface.co/apple/DCLM-7B
论文作者之一、苹果机器学习团队 Vaishaal Shankar 将 DCLM 模型描述为「真正开源的最佳模型」,因为 DCLM 不仅开源了模型权重,还开源了训练代码和预训练数据集。
研究介绍
大型语言模型(LLM)目前面临的一个评估挑战是缺乏受控比较。LLM 研究通常会比较采用不同架构、计算或超参数的模型,因此难以理清影响语言模型质量的因素。
基于此,研究团队提出了语言模型数据比较新基准 ——DCLM,这是语言模型训练数据整编(curation)的第一个基准,旨在让 LLM 通过设计高质量数据集来提高模型性能,特别是在多模态领域。
研究团队发现基于模型的过滤,即由机器学习 (ML) 模型从较大的数据集中自动过滤和选择高质量数据,可能是构建高质量训练集的关键。
DCLM 整体思路很简单:使用一个标准化的框架来进行实验,包括固定的模型架构、训练代码、超参数和评估,最终找出哪种数据整理策略最适合训练出高性能的模型。
使用 DCLM,研究团队构建了一个高质量数据集 DCLM-BASELINE,并用该数据集从头开始训练了一个 7B 参数模型 —— DCLM-7B。
DCLM-7B 模型的细节。
DCLM-7B 使用基于 OpenLM 框架的预训练方案,在 MMLU 基准上 5-shot 准确率达到 64%,可与 Mistral-7B-v0.3(63%)和 Llama 3 8B(66%)相媲美,并且在 53 个自然语言理解任务上的平均表现也可与 Mistral-7B-v0.3、Llama 3 8B 相媲美,而所需计算量仅为 Llama 3 8B 的 1/6。
以下是 DCLM-7B 在各种任务(部分)上的评估结果:
DCLM-7B 与其他同等大小模型比较结果如下表所示:
值得注意的是,大部分其他模型虽然开放权重但封闭数据。这就是 Vaishaal Shankar 将 DCLM 模型描述为「真正开源」的原因。
参考链接:https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/
#Awesome-LLM4Graph-Papers
港大黄超团队深度解析大模型在图机器学习领域的「未知边界」
本文的主要作者来自香港大学的数据智能实验室 (Data Intelligence Lab)。作者中,第一作者任旭滨和第二作者汤嘉斌都是香港大学数据科学院的一年级博士生,指导老师为 Data Intelligence Lab@HKU 的黄超教授。香港大学数据智能实验室致力于人工智能和数据挖掘的相关研究,涵盖大语言模型、图神经网络、信息检索、推荐系统、时空数据挖掘等领域。此前的工作包括了通用图大语言模型 GraphGPT,HiGPT;智慧城市大语言模型 UrbanGPT;可解释大语言模型推荐算法 XRec 等。
在信息爆炸的当今时代,我们如何从浩如烟海的数据中探寻深层次的联系呢?
对此,香港大学、圣母大学等机构的专家学者在图学习与大型语言模型领域的最新综述中,为我们揭示了答案。
图,作为描绘现实世界中各种关系的基础数据结构,其重要性不言而喻。以往的研究已证明,图神经网络在图相关的任务中取得了令人瞩目的成果。然而,随着图数据应用场景复杂度的不断提升,图机器学习的瓶颈问题也越发凸显。近期,大型语言模型在自然语言处理领域大放异彩,其出色的语言理解和总结能力备受瞩目。正因如此,将大语言模型与图学习技术相融合,以提升图学习任务的效能,已成为业界新的研究热点。
这篇综述针对当前图学习领域的关键技术挑战,如模型泛化能力、鲁棒性,以及复杂图数据的理解能力等,进行了深入分析,并展望了未来大模型技术在突破这些 "未知边界" 方面的潜力。
- 论文地址:https://arxiv.org/abs/2405.08011
- 项目地址:https://github.com/HKUDS/Awesome-LLM4Graph-Papers
- 港大数据智能实验室:https://sites.google.com/view/chaoh/home
该综述深入回顾了最新应用于图学习中的 LLMs,并提出了一种全新的分类方法,依据框架设计对现有技术进行了系统分类。其详尽剖析了四种不同的算法设计思路:一是以图神经网络为前缀,二是以大语言模型为前缀,三是大语言模型与图集成,四是仅使用大语言模型。针对每一类别,我们都着重介绍了其中的核心技术方法。此外,该综述还深入探讨了各种框架的优势及其局限性,并指明了未来研究的潜在方向。
香港大学数据智能实验室的黄超教授领导的研究团队,将在 KDD 2024 大会上深入探讨大模型在图学习领域所面临的 "未知边界"。
1 基本知识
在计算机科学领域,图(Graph)是一种重要的非线性数据结构,它由节点集(V)和边集(E)构成。每条边连接一对节点,并可能是有向的(具有明确的起点和终点)或无向的(不指定方向)。特别值得一提的是,文本属性图(Text-Attributed Graph, TAG)作为图的特殊形式,为每个节点分配了一个序列化的文本特征,如句子,这一特性在大型语言模型时代显得尤为关键。文本属性图可以规范地表示为由节点集 V、边集 E 和文本特征集 T 组成的三元组,即 G* = (V, E, T)。
图神经网络(Graph Neural Networks, GNNs)是针对图结构数据设计的深度学习框架。它通过聚合邻近节点的信息来更新节点的嵌入表示。具体来说,GNN 的每一层都会通过特定的函数来更新节点嵌入 h,该函数综合考虑当前节点的嵌入状态以及周边节点的嵌入信息,从而生成下一层的节点嵌入。
大型语言模型(Large Language Models, LLMs)是一种强大的回归模型。近期研究显示,包含数十亿参数的语言模型在解决多种自然语言任务时表现卓越,如翻译、摘要生成和指令执行,因而被称为大型语言模型。目前,大多数前沿的 LLMs 都基于采用查询 - 键 - 值(QKV)机制的 Transformer 块构建,该机制能高效地在词元序列中整合信息。根据注意力的应用方向和训练方式,语言模型可分为两大类型:
- 掩码语言建模(Masked Language Modeling, MLM)是一种广受欢迎的 LLMs 预训练目标。它涉及在序列中选择性地掩盖特定的词元,并训练模型依据周边上下文预测这些被掩盖的词元。为实现精准预测,模型会综合考虑被掩盖词元的前后文环境。
- 因果语言建模(Causal Language Modeling, CLM)是另一种主流的 LLMs 预训练目标。它要求模型根据序列中先前的词元预测下一个词元。在此过程中,模型仅依据当前词元之前的上下文来进行准确的预测。
2 图学习与大语言模型
在这篇综述文章中,作者依据模型的推理流程 —— 即图数据、文本数据的处理方式以及与大型语言模型(LLMs)的交互方式,提出了一种新的分类方法。具体而言,我们归纳了四种主要的模型架构设计类型,具体如下:
- GNNs as Prefix(GNNs 作为前缀):在此类别中,图神经网络(GNNs)作为首要组件,负责处理图数据,并为 LLMs 提供具有结构感知的标记(如节点级、边级或图级标记),以供后续推理使用。
- LLMs as Prefix(LLMs 作为前缀):在这一类别中,LLMs 首先处理附带文本信息的图数据,随后为图神经网络的训练提供节点嵌入或生成的标签。
- LLMs-Graphs Integration(LLMs 与图集成):该类别的方法致力于实现 LLMs 与图数据之间更为深入的整合,例如通过融合训练或与 GNNs 的对齐。此外,还构建了基于 LLM 的智能体(agent),以便与图信息进行交互。
- LLMs-Only(仅使用 LLMs):此类别设计了实用的提示技巧,将图结构化数据嵌入到词元序列中,从而便于 LLMs 进行推断。同时,部分方法还融合了多模态标记,进一步丰富了模型的处理能力。
2.1 GNNs as Prefix
在图神经网络(GNNs)作为前缀的方法体系中,GNNs 发挥着结构编码器的作用,显著提升了大型语言模型(LLMs)对图结构数据的解析能力,从而为多种下游任务带来益处。这些方法里,GNNs 主要作为编码器,负责将复杂的图数据转换为包含丰富结构信息的图 token 序列,这些序列随后被输入到 LLMs 中,与自然语言处理流程相契合。
这些方法大体上可分为两类:首先是节点级 Token 化,即将图结构中的每个节点单独输入到 LLM 中。这一做法的目的是使 LLM 能够深入理解细粒度的节点级结构信息,并准确辨别不同节点间的关联与差异。其次是图级 Token 化,它采用特定的池化技术将整个图压缩为固定长度的 token 序列,旨在捕捉图结构的整体高级语义。
对于节点级 Token 化而言,它特别适用于需要建模节点级别精细结构信息的图学习任务,如节点分类和链接预测。在这些任务中,模型需要能够区分不同节点间的细微语义差别。传统的图神经网络会根据相邻节点的信息为每个节点生成一个独特的表示,然后基于此进行下游的分类或预测。节点级 Token 化方法能够最大限度地保留每个节点的特有结构特征,对下游任务的执行大有裨益。
另一方面,图级 Token 化则是为了适应那些需要从节点数据中提炼全局信息的图级任务。在 GNN 作为前缀的框架下,通过各种池化操作,图级 Token 化能够将众多节点表示综合成一个统一的图表示,这样不仅能够捕获图的全局语义,还能进一步提升各类下游任务的执行效果。
2.2 LLMs as Prefix
大语言模型(LLMs)前缀法利用大型语言模型生成的丰富信息来优化图神经网络(GNNs)的训练过程。这些信息涵盖了文本内容、LLMs 产生的标签或嵌入等多种数据。根据这些信息的应用方式,相关技术可分为两大类:一是利用 LLMs 生成的嵌入来助力 GNNs 的训练;二是将 LLMs 生成的标签整合到 GNNs 的训练流程中。
在利用 LLMs 嵌入方面,GNNs 的推理过程涉及节点嵌入的传递与聚合。然而,初始节点嵌入的质量和多样性在不同领域中差异显著,例如推荐系统中的 ID 基础嵌入或引文网络中的词袋模型嵌入,可能缺乏清晰度和丰富性。这种嵌入质量的不足有时会限制 GNNs 的性能表现。此外,缺乏通用的节点嵌入设计也影响了 GNNs 在处理不同节点集时的泛化能力。幸运的是,通过借助大型语言模型在语言总结和建模方面的卓越能力,我们可以为 GNNs 生成富有意义和效果的嵌入,从而提升其训练效果。
在整合 LLMs 标签方面,另一种策略是将这些标签作为监督信号,以增强 GNNs 的训练效果。值得注意的是,这里的监督标签不仅限于传统的分类标签,还包括嵌入、图等多种形式。由 LLMs 生成的信息并不直接作为 GNNs 的输入数据,而是构成了更为精细的优化监督信号,从而帮助 GNNs 在各种图相关任务上取得更加卓越的性能。
2.3 LLMs-Graphs Intergration
该类方法进一步整合了大型语言模型与图数据,涵盖多样化的方法论,不仅提升了大型语言模型(LLMs)在图处理任务中的能力,同时也优化了图神经网络(GNNs)的参数学习。这些方法可被归纳为三种类型:一是 GNNs 与 LLMs 的融合,旨在实现模型间的深度整合与共同训练;二是 GNNs 与 LLMs 之间的对齐,专注于两种模型在表示或任务层面上的对齐;三是构建基于 LLMs 的自主智能体,以规划和执行图相关任务。
在 GNNs 与 LLMs 的融合方面,通常 GNNs 专注于处理结构化数据,而 LLMs 则擅长处理文本数据,这导致两者具有不同的特征空间。为了解决这一问题,并促进两种数据模态对 GNNs 和 LLMs 学习的共同增益,一些方法采用对比学习或期望最大化(EM)迭代训练等技术,以对齐两个模型的特征空间。这种做法提升了图和文本信息的建模精度,从而在各种任务中提高了性能。
关于 GNNs 与 LLMs 的对齐,尽管表示对齐实现了两个模型的共同优化和嵌入级别的对齐,但在推理阶段它们仍是独立的。为了实现 LLMs 和 GNNs 之间更紧密的集成,一些研究聚焦于设计更深层次的模块架构融合,例如将 LLMs 中的变换器层与 GNNs 中的图神经层相结合。通过共同训练 GNNs 和 LLMs,可以在图任务中为两个模块带来双向的增益。
最后,在基于 LLM 的图智能体方面,借助 LLMs 在指令理解和自我规划解决问题上的出色能力,新的研究方向是构建基于 LLMs 的自主智能体,以处理人类给出的或与研究相关的任务。通常情况下,这样的智能体包括记忆、感知和行动三个模块,形成观察、记忆回忆和行动的循环,用于解决特定任务。在图论领域,基于 LLMs 的智能体能够直接与图数据进行交互,执行如节点分类和链接预测等任务。
2.4 LLMs-Only
该综述在 LLMs-Only 的章节中详细阐述了直接将大型语言模型(LLMs)应用于各种以图为导向任务的情况,即所谓的 “仅 LLMs” 类别。这些方法的目标是让 LLMs 能够直接接受图结构信息,理解它,并结合这些信息对各种下游任务进行推理。这些方法主要可以分为两大类:i)无需微调的方法,旨在设计 LLMs 能够理解的提示,直接促使预训练的 LLMs 执行以图为导向的任务;ii)需要微调的方法,专注于将图转换为特定方式的序列,并通过微调方法对齐图 token 序列和自然语言 token 序列。
无需微调的方法:鉴于图数据独特的结构特性,出现了两个关键挑战:一是有效地用自然语言格式构建图;二是确定大型语言模型(LLMs)是否能够准确理解以语言形式表示的图结构。为了解决这些问题,一部分研究人员开发了无需调整的方法,在纯文本空间内对图进行建模和推理,从而探索预训练 LLMs 在增强结构理解方面的潜力。
需要微调的方法:由于使用纯文本表达图结构信息存在局限性,近期的主流方法是在将图输入到大型语言模型(LLMs)时,将图作为节点 token 序列与自然语言 token 序列对齐。与前述的 GNN 作为前缀的方法不同,需要调整的仅 LLM 方法放弃了图编码器,转而采用特定的文本描述来体现图结构,并且在提示中精心设计了 prompts,这在各种下游图相关任务中取得了有希望的表现。
3 未来的研究方向
该综述还讨论了大型语言模型在图领域的一些开放问题和潜在的未来研究方向:
多模态图与大型语言模型(LLMs)的融合。近期研究显示,大型语言模型在处理和理解图像、视频等多模态数据方面表现出非凡能力。这一进步为将 LLMs 与包含多种模态特征的多模态图数据相结合提供了新的契机。研发能够处理此类图数据的多模态 LLMs,将使我们在综合考虑文本、视觉、听觉等多种数据类型的基础上,对图结构进行更为精确和全面的推理。
提升效率与降低计算成本。目前,LLMs 的训练和推理阶段涉及的高昂计算成本已成为其发展的重大瓶颈,制约了它们处理包含数百万节点的大规模图数据的能力。当尝试将 LLMs 与图神经网络(GNNs)结合时,由于两种强大模型的融合,这一挑战变得更为严峻。因此,亟待发现并实施有效策略,以降低 LLMs 和 GNNs 的训练计算成本,这不仅有助于缓解当前面临的限制,还将进一步拓展 LLMs 在图相关任务中的应用范围,从而提升它们在数据科学领域的实用价值和影响力。
应对多样化的图任务。当前的研究方法主要集中在传统的图相关任务上,例如链接预测和节点分类。但考虑到 LLMs 的强大能力,我们有必要深入探索其在处理更为复杂和生成性任务方面的潜力,如图生成、图理解以及基于图的问题回答等。通过扩展基于 LLM 的方法以涵盖这些复杂任务,我们将为 LLMs 在不同领域的应用开辟无数新机遇。例如,在药物研发领域,LLMs 可以促进新分子结构的生成;在社交网络分析领域,它们可以提供对复杂关系模式的深入洞察;在知识图谱构建方面,LLMs 则有助于创建更加全面且上下文准确的知识库。
构建用户友好的图智能体。目前,大多数为图相关任务设计的基于 LLM 的智能体都是针对单一任务定制的。这些智能体通常采用单次运行模式,旨在一次性解决问题。然而,理想的基于 LLM 的智能体应具备用户友好性,并且能够动态地在图数据中搜索答案,以响应用户提出的多样化开放式问题。为实现这一目标,我们需要开发一个既灵活又稳健的智能体,它能够与用户进行迭代交互,并熟练应对图数据的复杂性,提供准确且相关的答案。这将要求智能体不仅具备高度的适应性,还需展现出强大的稳健性。
4 总结
该综述对图数据定制的大型语言模型(LLMs)进行了深入探讨,并提出了基于模型的推理框架设的分类方法,将不同的模型细致地划分为四种各具特色的框架设计。每一种设计都展现出其独特的优点与局限性。不仅如此,该综述还对这些特性展开了全面的讨论,深入挖掘了每一种框架在应对图数据处理任务时的潜力和挑战。此项调研工作旨在为那些热衷于探索并应用大型语言模型来解决图相关问题的研究人员提供参考资源,并且希望最终通过这项工作,推动对 LLMs 与图数据结合应用的更深层次理解,进一步催生该领域的技术创新和突破。
#agents
可「自主进化」的Agent?首个端到端智能体符号化训练框架开源了
本文主要作者来自波形智能、浙江大学、和北京航空航天大学。共同一作中,周王春澍是波形智能的联合创始人和 CTO,欧翌昕是浙江大学硕士二年级,丁盛为为北京航空航天大学四年级本科生。文章的通讯作者为周王春澍和姜昱辰,姜昱辰是波形智能的联合创始人和 CEO。
随着各类大模型 API 的迭代以及各类 AI Agent 框架的开源,基于大模型的智能体在学术界和工业界收获了广泛的关注、研究、和应用。
尽管基于大模型的智能体 (AI Agent) 在很多场景都取得了不错的效果,并且在一些场景下已经能够实际落地应用,AI Agent 的研究和开发的进展仍然局限于 “expert-centric”,或者说 “engineering-centric” 的范式中。也就是说,现在的 Agent 的创建和调优过程还是几乎完全依赖人类专家 (算法工程师) 的人力和经验来设计智能体的 promtps, tools,和 workflow。这样的过程费时费力,并且注定了无法使用海量数据对智能体的这些符号化元素进行学习和训练。而大部分智能体依赖于闭源的 API 调用,无法对大模型基座本身进行优化,即使使用开源大模型,对模型基座本身的优化也在大部分 AI 智能体的应用场景中受到资源、算力、稳定性等原因而无法实际进行。因此现在的智能体还处于 “专家系统” 的发展阶段。
众所周知,神经网络成为机器学习 / 人工智能的基础范式的重要原因正是因为可以高效地使用海量数据进行训练和优化,而不需要手工设计复杂的结构和学习算法。因此,来自波形智能的研究人员们认为,AI Agent 从以专家经验为核心 (expert-centric) 到以数据为核心 (data-centric) 的转变,将会是基于大模型的智能体的一个重要发展方向。
为了实现这个目标,来自波形智能的研究团队借鉴连接主义训练神经网络 (connectionist learning) 的基本方式,即反向传播和梯度下降,将 AI Agent 和神经网络进行类比,使用文本和大模型建模损失函数、梯度、和优化器,模拟反向传播和梯度下降算法,实现对 Agent 的端到端的符号化训练算法,构建了一套可以对 AI 智能体进行端到端训练的算法框架,代码已经开源在 GitHub。
- 论文地址:https://arxiv.org/pdf/2406.18532
- 代码仓库:https://github.com/aiwaves-cn/agents
具体来说,团队首先将基于大模型的智能体解构为三个主要元素,即 prompts, tools, 和 agent pipeline (workflow)。接着,框架中将一个 Agent 系统看作是一个 “符号化” 神经网络,将 Agent workflow 中的每一个 node 看作是网络中的一个 layer,而将每个节点中的 prompts 和 tools 看作是这个 layer 的 weights,智能体的 workflow/pipeline 则可以看作是网络的计算图。这样下来,智能体系统可以看作是一个权重从数字 / 张量空间变成离散符号空间 (文字,代码都是符号化的表示) 的神经网络,而这种网络的训练自然也就可以参考传统神经网络的优化方式,即反向传播和梯度下降。
图 1: Agent Symbolic Learning 框架示意图
要使传统的反向传播和梯度下降能够处理符号化的权重空间,agent symbolic learning 框架中通过文本和大模型 + 提示词的方式建模了损失,损失函数,反向传播的流程,梯度,以及基于梯度的优化器。具体来说,前向传播过程中,框架会将每一层的输入、权重、和输出都保存在计算图中。接下来,通过大模型 + 提示词的方式,在提示词中结合当前样本的输入,输出,和整体任务的描述,之后由大语言模型输出对当前样本任务完成情况的评价和总结。得到的文本形式的评价 / 总结,正如神经网络中的 loss 一样,用来衡量任务完成的好坏,研究团队将其称为 “文本形式的损失”,即 language-based loss。
之后,该研究通过大语言模型和精心设计的提示词工程,来生成智能体流程中对最后一个节点的 “反思”。反思中包括模型的输出应该怎样变化才能更符合要求,以及提示词和工具调用应该如何优化才能使输出朝这样的方向发生变化。这一内容和神经网络优化中梯度的作用刚好一致,都是包含了参数应该如何调整才能最小化整个模型的损失的信息,因此研究团队将这样的反思称作 “文本形式的梯度”,即 language-based gradient。
接下来要做的就是从后向前,得到每一层的梯度,这对于神经网络的优化至关重要。受到神经网络中基于链式法则的公式的反向传播的启发,波形智能的研究人员通过文本和大模型,用一套精心设计的 prompt 来模拟了传统神经网络优化的链式法则。具体来说,这套 prompts 让大模型基于上一层的梯度信息 (即对上一层执行任务的反思) 以及本层的输入、输出、以及权重 (这些输入和反向传播公式中的参数完全对应),输出对当前节点的 prompt/tool usage 的反思,即当前层的 language-based gradient。这样基于文本的反向传播的方案使得该研究能够得到一个包含多个节点和复杂 workflow 的智能体中每一节点 / 层的参数的梯度,也就可以直接优化每一个 prompt 和 tool 对整个智能体性能的作用,从而实现 end-to-end 的 joint optimization。
最后,得到了每组参数的 language-based gradient 之后,框架中使用基于大模型的 optimizer,使用精心设计的 prompt,以每一层的提示词和工具调用,以及基于文本的梯度作为输入,输出优化过后的 prompts 和 tools,从而实现对智能体参数的更新。
除此之外,框架中还支持了对网络结构,即 agent workflow 的优化。具体来说,框架中将 agent workflow 以特定的编程语言进行表示,这样就将智能体网络的 “计算图” 也处理成了符号化的权重。之后通过一个单独设计的基于大模型的优化器,以当前智能体的工作流和工作流中的各个节点的文本形式的梯度为输入来对智能体的工作流进行更新。这在神经网络中训练中可以类比自动网络结构搜索相关的研究。
图 2: Agent Symbolic Learning 算法流程
图 3 大模型评测任务上的实验结果
图 4 智能体级别评测任务的实验结果
波形智能的研究人员在大模型和智能体的一系列 benchmark 上对该算法进行了评估,如图 3 和图 4 所示,agent symbolic learning 相比 DSpy 和传统的没有学习能力的智能体框架相比,在各类任务上都有了明显的提升,在一些任务上甚至使用 GPT-3.5 也能和其他智能体框架使用 GPT-4 的表现类似。而简单的对智能体中每一个节点中的提示词使用局部的基于大语言模型的提示词自动优化算法 (AutoPE) 则无法取得很明显的效果。另外,如图 5 所示,该算法在创意写作任务中,从初始的只基于一个提示词进行写作的单节点智能体,自主进化到了支持写作 + 编辑的工作流,并且将写作节点的提示词进行了更新和优化。
图 5 Agent Symbolic Learning 框架学习效果展示 (以创意写作任务为例)
波形智能的研究团队介绍了 Agent Symbolic Learning 的两种应用场景。首先,该框架可以用于开发者或研究人员创建和调优智能体系统中。像神经网络的训练一样,开发者和研究人员可以对指定的任务收集(或者使用框架中提供的自动生成)大量的样本,之后使用该框架在大量数据上完成 “data-centric” 的智能体的训练和优化,在之后像普通智能体的部署一样,在产品生产环境中以静态的方式部署优化过后的智能体。
除此之外,该框架的另一个重要应用场景是支持能够在环境 / 交互中自主进化的 Agent。具体来说,因为该训练框架本身只需要调用大模型的能力而不需要复杂的基于 GPU 的训练和部署,因此一个 Agent 可以将该训练框架作为其自身可以调用的一个工具,通过在环境中探索或者和人类进行交互的过程中,不断收集新的训练样本,定期或者主动调用智能体训练的算法工具,对自身的 prompts, tools, 和 workflow 进行更新。波形智能在 AIWaves Agents 的开源代码库中也支持了这样的部署逻辑,实现了首个可以在被部署到实际产品和生产环境中之后,依然可以不断自主进化、自我迭代的智能体系统。
Agent Symbolic Learning 框架将 AI Agent 视作由复杂 workflow 中的 prompts 和 tools 连接而成的符号化 “神经网络”,通过基于自然语言模拟反向传播和梯度下降,使得基于大模型的智能体可以自主对自身的 “网络参数”,即 prompts 和 tools,以及 “网络结构”,即 agent workflow,进行优化,从而实现了能够高效利用大量数据和经验,进行 “data-centric learning” 的智能体框架,让能够持续自主进化的智能体系统变成了可能。目前,该框架已经在波形智能的多个产品和应用中发挥作用,解决了 Agent 人工优化和评测困难的问题。为了推进 “Data-centric Agent” 和 “Agent Learning” 的发展和研究,波形智能的研究团队也将算法的全部代码开源,期待智能体领域学术界和工业界一起探索更多更有趣的算法和应用。
#一文看尽occupancy
一文总结Occupancy技术,优秀paper综述。
照老样子先说为什么会写这篇文章,因为到目前我的分割大模型对实际部署的小模型并没有帮助。这让我有点郁闷,更郁闷的是后面蒸馏的环节目前也不是我在做。卡不够我的大的模型还在训,等训完想自己上手搞一搞蒸馏,我还就不信了学不好!所以这段时间就写一写看过的paper了,看Bev的时候occupancy相关的有些文章也顺便看了,写一写挺好的。
ok,那第一个,为什么自动驾驶感知都已经有bev了,然后又出来了occupancy Nerwork?
这是2022年特斯拉提出来的一个"技术?",但我记得昊哥有说过这个学术概念最早是他和一些大佬提出来的。occupancy和bev最主要的区别就是,bev是二维的呈现形式把所有的结果在高度上拍扁了,而occupancy则是三维的,空间上的。那他的好处显而易见,他可以表达存在在空中的东西以及空间中的状态 。拿一个场景来举例,比如大家在小区的车位上会有一个地锁。或者高速收费站停车场的抬杆,这个地锁或者杆子如果你从bev的视角去看由于没有高度信息地锁关闭和打开看起来是一样的。但如果是传统2D的检测或者occupancy这样可以看到3D空间的占用状态,这样的是可以检出来的。不管怎么说,occupancy相比原来的bounding box,细粒度更高,更加能够表达物体的细节了,这些细节则代表了更多的corner case可以被解决。
下面拿雷总的图来举个例子,该图来自2023年12月28日小米技术发布会
原本的占用网格像“我的世界”一样,使用一个一个的小立方体来代表物体,立方体越小,物体的分辨率就越高,越吃算力。小米这次出的超分矢量算法感觉怎么有点像场景补全,看起来输出的结果像是mesh拟合了物体,但没有很精细还是有很多空洞。这应该是做的语义场景补全当然这样并非首创,特斯拉在前段时间也有放出泊车视频,也是这样的形式但更加精细和连贯。
第二个,为什么这个文章叫“一文看尽occupancy”,当然我们不可能一文看尽,paper如滚滚长江东流水,一浪更比一浪强。主要是噱头,哈哈哈,有些地方如果有问题大家一定指出来发评论。
第三个在share paper之前还是说一些题外话,占用网格理论上可以说Bev的升级版,把占用网格切换到鸟瞰图的视角下就可以当bev来用。关于bev之前已经有写过文章讲
https://zhuanlan.zhihu.com/p/674854831
https//blog.csdn.net/weixin_46214675/article/details/135101143%3Fspm%3D1001.2014.3001.5502
大家感兴趣可以看一下。对于bev和occupancy,这两个东西并不是完全割裂的,许多bev检测的算法也都在支持occ task,比如我们之前介绍过的bevdet,方法叫BEVDet4D-Occ还是啥
再有就是Semantic Scene Completion 与 occupancy,因为占用网格之前都是一个一个带语义的小方块,所以有个任务和他很相似叫做语义场景补全在semantic kitti上有个task,他的真值是对激光雷达数据的逐点标注,把他体素化后就可以拿来做occupancy的预测。现在的占用网格真值大家一般也都是这样搞起来的,当然nuscenes也可以。但这两个task还是不太一样的,3D Semantic Scene Completion更关注于从稀疏的输入数据中恢复出完整的3D场景的几何和语义信息,而Occupancy则更侧重于通过体素网格来表示和理解3D空间的占用情况。
之前我也有想过和同学一起搞一下占用网格,但是太耗资源了根本搞不起来,能搞得起占用网格的都是大户人家(ps 这是重点!!!)。在自动驾驶里面小公司是根本搞不起的,大多数公司还在追bev的方案,其实跑通真正量产了的不多,占用网络应该是厂家下一个要追赶的技术点了。
My partial paper list
Vision-based occupancy :1. MonoScene: Monocular 3D Semantic Scene Completion [CVPR 2022]
https//arxiv.org/pdf/2112.00726.pdf
- 点评:单目来做3D语义场景补全很难的,再加上提出的时间在22年也算比较早了,也没有用transformer,自己设计了一些模块,是不错的工作!这篇文章后面有时间我会专门出一篇来细讲。当然作为经典工作肯定会是被后面出来的新工作各种摩擦。
对着上面的图通俗易懂的简单说一下,一个图像进来,过2D UNET,flosp(Features Line of Sight Projection),再过3d unet,3D UNET中间插入了一个3D CRP(3D Context Relation Prior)模块,然后做语义补全任务。
最核心的是FLOSP模块,如何将2D特征提升到3D? 其实就是从不同尺度下3D投影到2D,拿到多个尺度采样特征后混合相加完了给后面的3D Unet,就是这样。这个操作和lss一样后面我们也会见到。
剩下的3D Context Relation Prior也不细说,关系矩阵和超体素特征点乘也算是一种算注意力了,超体素是用来建模体素空间关系的。后面的Loss设计部分大家也可以看一看的。
2. Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction [CVPR 2023]
https//arxiv.org/pdf/2302.07817.pdf
- 点评:清华和鉴智的工作,说是首次证明基于视觉的方法在nuScenes LiDAR分割任务上实现了与基于lidar的方法相当的性能。当然也在semantic kitti上测了但没说。可惜的是跑起来太慢了,当然这也是所有occ算法的通病。不过有个点是,他们的工作也比较有连续性,截止到2023年12月29日在github看到他们在上个月发布了占用网格世界模型!紧跟时事。
- 基本流程:简单和大家说一下,就是voxel太慢太复杂,bev把voxel从上往下拍扁了,tpv用三视图来做
复杂的就不讲了,看paper里面的公式,1是体素表达xyz,2是bev表达xy,3 4 5 是三视图表达xy、zx、yz。S是sampling,V,B,T都是features。
整体流程:
至于网络特征怎么提取,transformer怎么做注意力大家可以看文章,后面有时间应该会对文章有更细致的讲解,核心思想就是我的特征是从三个视图拿到的加起来,然后去做prediction。就是这样。
然后给大家share一下对比结果:
3. SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [ICCV 2023]
https//arxiv.org/pdf/2303.09551.pdf
- 点评:清华天大和鉴智的工作,部分是原班人马,不过这次思路完全不一样了,不搞三视图了。由于是靠后一些出的文章,所以结果当然会比TPVFormer强很多。
- 基本流程:如下图多张图像经过backbone network((e.g. ResNet-101)后出来的是多尺度的特征图X,然后每个体征图分别过2D-3D Spatial Attention模块,将2D特征转为3D,再然后将上一层3D特征进行反卷积和本层特征相加拿到最终特征后,再做occupancy prediction,这里不同尺度的预测每一个都是有监督的。
- 总体流程讲完再简单说一下关键点
2D-3D Spatial Attention:就是把2d特征转到3d空间下的模块。首先3D体积查询定义为Q∈RC×H×W ×Z,这个Q就是3D reference point,然后对于每个Q,会根据给定的内外参将其对应的 3D 点投影到 2D 视图(就是虚线箭头部分)。然后只使用 3D 参考点命中的点,在这些投影的 2D 位置周围采样 2D 特征(怎么采样就是下面的DeformAttn,Qp查询是3D 参考点,P(qp,i )是2D采样,X是camera feature)。模块输出 F ∈ RC×H×W ×Z 是根据可变形注意机制的采样特征的加权和。公式化如下:
都看到这里了那就再说一下他这个bev-based cross-view attention是怎么个意思也很容易,大家都知道bev是没高度的,而XY是确定的,所以一般会在bev的Z轴上采样出几个固定的高度来,拿到坐标的XYZ之后再投影到图像上。
- 然后有趣的地方是:和 BEVFormer的时间交叉注意力有些异曲同工之妙,当然代码部分也是大同小异。
至于Multi-scale Occupancy Prediction这个部分上面其实已经说过了,下面就是公式化,Deconv就是反卷积拿来做上采样,这算个小知识点,大家不熟悉的可以了解一下。
总结说一下,上面提到的只是关键点,其实还有很多细节的部分是没有提到的!!!
4. OccFormer: Dual-path Transformer for Vision-based 3D Semantic Occupancy Prediction [ICCV 2023]
https//arxiv.org/pdf/2304.05316.pdf
- 点评:这篇就比较厉害了,全是鉴智的人,而且还挂了联合创始人兼CTO,按道理挂大佬名字的paper一般都不会太差,当然本身也没有太差毕竟也是ICCV2023。先上流程图
- 本文提出了 OccFormer,一种用于基于相机的 3D 语义占用预测的双路径变换器网络。为了有效地处理相机生成的 3D 体素特征,提出了双路径变换器块(Dual-path Transformer Encoder),它有效地捕获了具有局部和全局路径的细粒度细节和场景级布局。此外也是第一个使用掩码分类模型进行 3D 语义占用预测的人。鉴于固有的稀疏性和类不平衡,所提出的保留池和类引导采样显着提高了性能。OccFormer 在 SemanticKITTI 测试集上实现了语义场景补全的最先进的性能,在 nuScenes 测试集上实现了基于相机的 LiDAR 分割。好,先简单说一下上面的depth 和context乘起来这是[LSS的经典操作]
https//blog.csdn.net/weixin_46214675/article/details/135101143%3Fspm%3D1001.2014.3001.5501
下面的我们看重点看几个
- Dual-path Transformer Encoder
这里的局部细粒度细节和全局路径的场景级布局是怎么搞的呢?
local path 主要是提取细粒度语义结构。水平方向包含了最多的变化,所以用一个共享编码器,来并行处理所有 BEV 切片,同时保留大部分语义信息。具体来说,我们将高度维度合并到批次维度(batch dimension)中,并采用 windowed self-attention 作为局部特征提取器可以动态地关注具有适度计算的远程区域。(这里的窗口自注意力就是在一个固定范围内算自注意力,如果大家不了解注意力机制,这不行,这得了解,后面看什么时候我把去年做的transformer PPT放出来)global path 的目的是有效地捕捉场景级的语义布局 ,首先通过沿高度维度的平均池化来获得BEV特征,利用来自 local path 的相同的windowed self-attention 来处理相邻语义的BEV特征。由于发现 BEV 平面上的 global self-attention 会消耗过多的内存,因此采用ASPP来捕捉全局的语义。公式化输出如下
中间的Multi-Scale3DDeformableAttention就不说了,见过很多次了无非就是2D变3D用到三线性特征采样trilinear feature sampling。接下来说一下Transformer Occupancy Decoder ,就是transformer 的decoder,这一层特征加上上一层的特征,确实没啥好说的。至于里面提出的Preserve-Pooling就是个max-pooling也没啥特别只是用的比较好;Class-Guided Sampling就是添加类别权重的超参,看起来高大上罢了。
到这里就可以开始讲一讲 Interesting thing
这是在[Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction, CVPR 2023](
https//github.com/wzzheng/TPVFormer
),github官方的代码仓库贴出来的信息,一般来说后出来的paper效果都应该好一些,但大家看下面两个表格,上面的是前面讲过的surroundOcc(ICCV 2023),下面是我们这篇文章的OccFormer(iccv2023)。好像后面发出来occformer还要差一些,同时也没和自己的工作surroundOcc对比(不过应该那时候surroundOcc还没中所以)
5. OpenOccupancy: A Large Scale Benchmark for Surrounding Semantic Occupancy Perception
https//arxiv.org/pdf/2303.03991.pdf
- 点评:同样是一篇挂了大佬名字,也是今年iccv 2023的paper。也同样有鉴智和清华,当然也有来自中国科学院自动化研究所和中国科学院大学的。这篇就简单说一下,因为这篇主要不是做网络而是做Benchmark,而且最重要的是没什么好说的,这篇不是重点,下一篇才是重点,也是一篇我非常欣赏的工作。这篇讲的是
现有的相关基准缺乏城市场景的多样性,它们只评估前视图预测。为了对周围的感知算法进行全面基准测试,我们提出了OpenOpcupancy,这是第一个周围的语义占用感知基准。在 OpenOpcupancy 基准测试中,我们扩展了具有密集语义占用注释的大规模 nuScenes 数据集。
- 人员构成如下
- 和其他数据集的对比
(机器翻译如下:LiDAR 分支利用 3D 编码器提取体素化的 LiDAR 特征,相机分支使用 2D 编码器来学习环绕视图特征,然后将其转换为生成 3D 相机体素特征。在多模态分支中,自适应融合模块动态集成两种模态的特征。所有三个分支都利用 3D 解码器和占用头来产生语义占用。在占用率结果中,红色和紫色圆圈突出显示的区域表明多模态分支可以生成更完整和准确的预测(放大时效果更好))
- Cascade Occupancy Network以及可视化效果
- share别人的算法在自己的数据集上的效果,遥遥领先
下一篇!
6. VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion [CVPR 2023 Highlight]
https//arxiv.org/pdf/2302.12251.pdf
- 点评:nvidia出品还是有点东西的,这篇文章提出了一个一种新颖的将图像提升到一个补全 3D 体素化语义场景的两阶段框架,一种新的从图像深度生成可靠查询的基于二维卷积的query proposal network,一种新的Transformer,类似于掩码自动编码器(MAE)但它可以补全完整的3D场景表示。更重要的VoxFormer在SemanticKITTI上为基于相机的SSC拿到了SOTA,大家可以看一下结果先。其他工作也有和MonoScene的对比,涨点多少就不说了,并且人家在训练期间将 GPU 内存减少到不到 16GB,这才真是遥遥领先!occupancy不是谁都能搞最重要的就是显存不够,卡不够,搞轻量搞实时才是王道,现在的占用网络都太重了!
- 当然缺点也不是没有,受深度估计的影响,深度在远处的位置非常不可靠。解耦远程和短程SSC是增强远离自我车辆的SSC的潜在解决方案,这也是他们未来的工作。
- 下面就重点来看这个网络是怎么做的,之前在其他博客里面也有说过,好的paper只要图看懂了文章也就看懂了,我们从图看起,按图来简单讲一下(如果对着代码来讲那就是复杂讲一下了)
image序列过来后会先进行Depth Prediction,这里是直接利用现成的深度估计模型,如单眼深度或立体深度估计,直接预测每个图像像素(u, v)的深度Z(u, v)。之后,深度图 Z 将反投影到 3D 点云中,但由此产生的3D点云质量较低,特别是在远程区域。(因为地平线的深度非常不一致;只有少数像素决定了大区域的深度)。
Depth Prediction 下面有个Voxel Queries Q,预定义的体素查询为 3D 网格形可学习参数 ,Q ∈R h×w×z×d 其中 h × w × z 的空间分辨率低于输出分辨率 H × W × Z 。
接着Depth Prediction 和Voxel Queries Q被送到Depth-based Query Proposal。这里有一个点,为了获得好的Q,使用模型 Θocc 以较低空间分辨率预测占用图来帮助校正图像深度。具体来说,首先将合成点云转换为二值体素网格映射图M(in),如果至少占用一个点,每个体素被标记为1。然后我们可以通过 M(out) = Θocc(Min) 预测占用率,其中 M(out) ∈ {0, 1}h×w×z 的分辨率低于输入 M(in) ∈ {0, 1}H×W ×Z,因为较低的分辨率对深度误差更稳健并与体素查询的分辨率兼容。简单来说就是低分辨率更鲁棒。现在就可以来proposal Q了,Q是怎么出呢?!
Q从上面的低分辨率预测占用图来选,这样的话通过删除许多空白空间和保存计算和内存,再者通过减少错误 2D 到 3D 对应关系引起的歧义来简化注意力学习。
到这里就完成了第一个阶段的Class-Agnostic Query Proposal,接下来就是第二个阶段Class-Specific Segmentation.ResNet-50 backbone来 提取 2D features ,然后2D 的Feature作为k,v,有了第一阶段的Q,就可以做注意力了。Deformable Cross-Attention 老熟人了,2d 3d版本也都有了。
经过几层可变形交叉注意后,Q将被更新。然后我们再接着看就能看到Mask Token了,这就是类似于掩码自动编码器(MAE)的3D场景补全了。在前面虽然选择了一些体素查询来处理图像;剩余的体素将与另一个可学习的参数关联起来补全3D体素特征。为了简洁起见将这种可学习的参数命名为mask token,因为没被选择的Q,就类似于从Q中被屏蔽掉了。具体来说,每个mask token是一个可学习的向量,表示存在一个待预测的缺失体素,位置嵌入也被添加。MAE也是如此,重建mask掉的token。
输入的token有了,接下来就是算Deformbale Self-Attention,获得refined voxel features。
在往后就是上采样和全连接,输出预测结果。
- 部分实验对比
语义场景补全还是雷达比较强。主要特斯拉走纯视觉路线出的占用网格,大家也都跟着做视觉。国内感觉目前主流的贵的方案里面还是有用激光雷达,华为,理想,小鹏,小米等等。其实我知道的也不多,小公司信息比较闭塞。
7. OccupancyDETR: Making Semantic Scene Completion as Straightforward as Object Detection
https//arxiv.org/pdf/2309.08504.pdf
- 点评:先做检测然后占用,参数不多效果不错,显存占用还行,train用24G 3090,evaluation可以用16G 3080。其实挺好的,但这些新文章后面有空再细讲吧。
8.FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin
- 点评:2023年11月出的文章,前面讲monoscene的时候有讲到,到2023年12月31日没看到有中稿。
9.COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction
https//arxiv.org/pdf/2312.01919.pdf
- 点评:最近也有陆陆续续跟arxiv上有关占用网络的文章。这篇从指标看算是不错的,也是离现在比较近的paper,但是主要没开源所以不讲,当然并不排除后面开源的可能,这里也mark一下。
10. OctreeOcc: Efficient and Multi-Granularity Occupancy Prediction Using Octree Queries
https//arxiv.org/pdf/2312.03774.pdf
- 点评: 用八叉树来做occupancy,2023年12月份的文章,上海科技大学、上海AI LAB、港中文的工作。效果可以但没说开源。大家感兴趣的可以自己研读一下。
11. Fully Sparse 3D Panoptic Occupancy Prediction
https//arxiv.org/pdf/2312.17118.pdf
-点评:(12月29日挂arxiv还没看)SparseOcc demonstrates its efficacy on the Occ3D-nus dataset by achieving a mean Intersection over Union (mIoU) of 26.0, while maintaining a real-time inference speed of 25.4 FPS. By incorporating temporal modeling from the preceding 8 frames, SparseOcc further improves its performance, achieving 30.9 mIoU without whistles and bells. Code will be made available.
Stereo-based
抱歉这里把双目的语义补全单独列了出来,主要是单目可以当多目来用也还好,但双目输入来做占用网络就有些特别了,他要求是左右两个视图。而且上面也有说语义场景补全和占用网格的区别,所以可以简单看一下。
1. OccDepth: A Depth-Aware Method for 3D Semantic Scene Completion
https//arxiv.org/pdf/2302.13540.pdf
- 点评:旷世的工作,第一个提出stereo SSC method,叫OccDepth。并且还提出了一个修改过的TartanAir benchmark, 叫 SemanticTartanAir。先看一下网络大体长什么样子
输入左右两个视图的图像过2D U-Net编码成二维特征F2D,l, F2D,r∈RH×W ×C。然后将二维特征融合到三维体素中,通过立体软特征分配(stereo - sfa)模块学隐式深度信息。接下来,通过占用感知深度(OAD)模块将显式深度信息添加到3D特征中。
- Stereo Soft Feature Assignment Module 如下。通过计算左右二维特征之间的相关性得到的隐式深度信息被编码为三维特征的权重。
上面有三个方程,这三个方程就是Stereo Soft Feature Assignment Module的过程了。首先公式一中x是voxel的中心坐标,3D-2D投影表示为π(x),φx(M)是采样在坐标x处的特征映射M。直白的解释就是从图像特征中采样出对应的3D体素特征。当投影的2D点在图像之外时,3D特征将设置为0。
公式二是用来将从左右特征图中采样出的3D特征进行加权融合。其中 w 表示由 V3D,l 和 V3D,r 之间的相关性计算的权重。在文中用的是余弦相似度来衡量特征的相关性。可以和上面的图对应上。
公式三是为了扩大感受野,用的多尺度 2D 特征图,其中 S = {1, 2, 4, 8} 是一组下采样尺度。
- 接下来是Occupancy-Aware Depth Module,下面的图为了简单起见仅展示了单图像 的处理流程。
首先,单尺度图像特征F2d过来后,用一个NetD来预测多视图输入图像的深度特征 FD;然后使用 softmax 将FD变换为截锥体的深度分布GD,在然后利用摄像机标定矩阵P∈R3×4,将截锥深度分布GD转换为具有可微grid sampling过程的体素空间深度分布表达VD∈RX×Y ×Z。
公式中中 M 是用来平均左右两个输入之间重叠区域的体素像素的掩码,重叠区域的值为 0.5,其他值为 1.0,VD 可以表示为体素空间中的占用概率先验。然后乘起来拿到感知占用的体素特征Vocc。
2. StereoScene: BEV-Assisted Stereo Matching Empowers 3D Semantic Scene Completion
https//arxiv.org/pdf/2303.13959.pdf
- 点评:是一篇2023年3月份的文章,从github来看关注不多,截止到目前没中什么会议期刊,前面讲了那么多后面就不再细讲了,除非有特别不错的Paper。后面的paper更多是题外话了。
- 题外话一
在这篇paper对比的方法里提到了很多3D semantic scene completion的方法,有一些可能讲过有些没有,因为我们也不可能把所有的paper都看完,所以可以挑自己感兴趣的去看,一般文章里面都会有方法有做归纳总结,是基于什么什么的之类。
3. StereoVoxelNet: Real-Time Obstacle Detection Based on Occupancy Voxels from a Stereo Camera Using Deep Neural Networks
https//arxiv.org/pdf/2209.08459.pdf
- 点评:这是一篇与机器人相关的工作,利用深度神经网络直接从立体图像中检测占用率,很轻量。说用NVIDIA Jetson TX2可以跑到实时,但我在文章中并没有明确看到tx2运行帧率,到是有I7-12700K的。受到关注也不多
小车车长下面这样
这个东西大家看效果就知道,只有占用没有语义
CVPR 2023 3D Occupancy Prediction Challenge
这一类也比较特殊,属于没开源但实打实可以涨点的,可以学习一下技巧。
1. Scene as Occupancy
https//arxiv.org/pdf/2306.02851.pdf
- 点评:两个贡献,一个网络一个benchmark(OpenOcc provides surrounding camera views with the corresponding 3D occupancy and flow annotations.)这个上面也有出现过benchmark,baseline什么的,这个也没和大家细说。benchmark就是说,现在情况变了时代进步了社会发展了,原来的那些数据集或者说测试基准不能满足时代发展的需要了,所以我们要建立新的评价指标,所以我搞了个数据集,欢迎大家来用。那baseline就是说新的数据集和之前的不一样了,你们在原来数据集上验证的指标,得在我的数据集上再跑跑看,一看效果都不行啊(神经网络就是这样,泛化性还是不够强,有些网络在这个数据集上跑还可以换个就不行了得重新训,训完那个又不行了)。这样吧,我给个适配我数据集的简单的demo,相当于定个最低标准。
ok,benchmark就不说了,主要来看一下这个OccNet。
对于figure也是有原文解释的,大概的流程大家也能看出来,一个重建一个用途,篇幅有限所以只说重点Cascade Voxel Decoder。这个decoder是一个一个级联结构,用来逐步恢复体素特征中的高度信息。
从bev特征中重建出voxel是比较关键的,直接使用BEV特征或从透视图直接重构体素特征,会出现性能下降或效率下降,这一点在论文中给出了实验证明。所以将BEV特征(Bt∈RH×W ×CBEV)重构分解为N步,称为级联结构。这里 H 和 W 是 BEV 空间的 2D 空间形状,C 是特征维度,Z 是体素空间的期望高度。在输入的BEV特征和期望的级联体素特征之间,将不同高度的中间体素特征表示为
其中Zi和Ci分别在{1,N}和{CBEV,CVoxel}之间均匀分布。Bt−1和Bt两个时序上的bev特征通过前馈网络提升到V ' t−1,i和V ' t,i,经过第i个体素解码器,得到细化的V ' t,i,后面的步骤遵循相同的方案。每个体素解码器包括基于体素的时间自注意力(Voxel based Temporal Self-Attention)和基于体素的空间交叉注意力模块(Voxel-based Spatial Cross-Attention),并分别使用历史 V 't−1,i 和图像特征 Ft 细化 V 't,i。模型逐渐增加Zi,减少Ci,有效高效地学习最终的占用描述符Vt。就是说Z的高度是从C特征维度这里来的。而这里的时间自注意力和空间交叉注意力也见过是从前面bevformer那里来的,代码部分也是有继承bevformer。这里只是简单说一下,想要真的弄懂还是得一步一步去看代码。这里先简单说,后面如果我还有时间的话再写代码部分。
这里有个点,就是voxel的Z的高度从bev的C特征维度这里来的。基于这个做法在11月份的时候也有出一篇文章叫FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin,讲的就是这个故事,截止到2023年12月31日还没看到有中稿。大家知道有这种玩法就行了。
https//arxiv.org/pdf/2311.12058.pdf
2. Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous Driving
https//arxiv.org/pdf/2304.14365.pdf
- 点评: benchmark,讲数据集是怎么造的,然后跑一下基线模型和其他模型的对比
对比如下:
3. FB-OCC: 3D Occupancy Prediction based on Forward-Backward View Transformation
https//opendrivelab.com/e2ead/AD23Challenge/Track_3_NVOCC.pdf
- 点评:nvidia出品,确实做了不少工作,但个人觉得主要还是预训练做得好,毕竟不缺卡可以大力出奇迹,LSS+BEVformer说的很清楚了。有个好消息是,人家开源了。
https//github.com/NVlabs/FB-BEV
- 机器翻译如下
FB-OCC,是基于一个名为FB-BEV的3D物体检测方法。在这里,我们提供一个简短的介绍,以便更好地理解FB-OCC。相机只能3D感知模型的核心模块是视图转换模块。这个模块包括两个突出的视图转换:前向投影(由List-Splat-Shoot表示)和后向投影(由BEVFormer表示)。FB-BEV提供了一个统一的设计,利用这两种方法,提升了每种方法的优点,改善了感知结果,同时克服了它们的局限性。在FB-OCC的情况下,我们使用前向投影来生成初始的3D体素表示。然后,我们将3D体素表示压缩成一个扁平化的BEV特征图。BEV特征图被视为BEV空间内的查询,并参与图像编码器特征以获取密集的几何信息。然后将3D体素表示和优化的BEV表示的融合特征输入到后续的任务头中。在前向投影模块中,我们坚持LSS的原则,以考虑每个像素深度估计的不确定性。这使我们能够根据它们对应的深度值将图像特征投影到3D空间。与LSS不同,后者模拟BEV特征,我们直接模拟3D体素表示,以捕获3D空间中更详细的信息。此外,我们采用BEVDepth的方法,利用点云生成精确的深度地面真实值,这有助于监督我们的模型的深度预测,以提高准确性。LSS倾向于产生相对稀疏的3D表示。为了解决这个问题,我们引入了一个后向投影方法来优化这些稀疏的3D表示。考虑到计算负担,我们在这个阶段使用BEV表示,而不是3D体素表示。后向投影方法借鉴了BEVFormer。然而,与BEVFormer不同,后者使用随机初始化的参数作为BEV查询,我们将获得的3D体素表示压缩成BEV表示,从而融入更强的语义先验。此外,我们的后向投影方法在投影阶段利用深度分布,使得投影关系的建模更为精确。在获得3D体素表示和优化的BEV表示后,我们通过扩展BEV特征的过程将它们结合起来,得到最终的3D体素表示。
4. MiLO: Multi-task Learning with Localization Ambiguity Suppression for Occupancy Prediction
https//opendrivelab.com/e2ead/AD23Challenge/Track_3_42dot.pdf
- 点评:42dot.ai出品,Our baseline is BEVDet4D-Occ。说的也很清楚
5.UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering
https//arxiv.org/pdf/2306.09117.pdf
- 点评:小米和北大的工作,用nerf渲染的结果来做语义和深度的监督信号训occupancy,挺会玩。
- 题外话 在雷总的发布会上看到了embodied ai,emmmmmm,这说明了什么呢?大家感兴趣的可以讨论一下告诉我
6. Multi-Scale Occ: 4th Place Solution for CVPR 2023 3D Occupancy Prediction Challenge
https//opendrivelab.com/e2ead/AD23Challenge/Track_3_occ-heiheihei.pdf
- 点评:无
- 机器翻译如下
我们的方法的总体架构如图1所示。给定具有T个时间戳的N个相机图像,我们首先使用2D图像编码器提取M个尺度特征。然后将图像特征提升为3D体素特征,然后在每个尺度上独立地对过去帧进行长期时间特征聚合,以构建当前帧的多尺度3D表示。为了彻底融合多尺度3D特征,我们使用轻量级的3D UNet来集成局部和全局几何和语义信息。我们使用2个解耦的头在最大分辨率上分别执行占用和语义预测。在训练过程中使用多尺度监督来促进收敛。最后,应用模型集成、测试时间扩充和类阈值来进一步提高性能。
7. OccTransformer: Improving BEVFormer for 3D camera-only occupancy prediction
https//opendrivelab.com/e2ead/AD23Challenge/Track_3_occ_transformer.pdf
- 点评:结构简单,2D to 3D借鉴了bevformer。
#Agent-as-a-Judge
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
AI评估AI可靠吗?来自Meta、KAUST团队的最新研究中,提出了Agent-as-a-Judge框架,证实了智能体系统能够以类人的方式评估。它不仅减少97%成本和时间,还提供丰富的中间反馈。
AI智能体,能否像人类一样有效地评估其他AI智能体?
对于AI智能体来说,评估决策路径一直是棘手的问题。
已有的评估方法,要么只关注结果,要么要要过多的人工完成。
为了解决这一问题,田渊栋、Jürgen Schmidhuber带领的团队提出了「Agent-as-a-Judge」框架。
简言之,让智能体来评估智能体系统,让AI审AI。
它不仅可以减少97%的成本和时间,还能提供丰富的中间反馈。
这是「LLM-as-a-Judge」框架的有机延伸,通过融入智能体特性,能够为整个任务解决过程提供中间反馈。
论文地址:https://arxiv.org/abs/2410.10934v1
研究人员提出了DevAI基准,为全新框架提供概念验证测试平台。包含55个真实的AI开发任务,带有详细的手动注释。
通过对三个领先的智能体系统进行基准测试,发现它大大优于「LLM-as-a-Judge」框架。
总之,这项研究真正的变革之处在于:它提供了可靠的奖励信号,为可扩展的、自我改进的智能体系统铺平了道路。
「法官」智能体,击败大模型
现有评估方法,无法为智能体系统的中间任务解决阶段,提供足够的反馈。
另一方面,通过人工进行更好的评估,代价太大。
而智能体系统的思考方式,更像人类,通常是逐步完成,并且在内部经常使用类人的符号通信来解决问题。
因此,智能体也能够提供丰富的反馈,并关注完整的思考和行动轨迹。
「Agent-as-a-Judge」不仅保留了「LLM-as-a-Judge」成本效益,还具备智能体特性,使其在整个过程中提供中间反馈。
下图展示了,大模型、智能体、人类作为评判者的示意图。
DevAI:自动化AI开发数据集
另外,在代码生成领域,基准测试的发展也落后于智能体系统的快速进步。
比如,HumanEval仅关注算法问题,而MBPP则处理简单的编程任务,但这两者都没有反映出开发者面临的最实际的挑战。
作为一个改进,SWE-Bench基准确实引入了GitHub现实问题,提供一种全新评估的方法。
不过,它仍需要关注自动修复任务的开发过程。
为了解决当前代码生成基准测试中的上述问题,研究人员引入了DevAI:AI开发者数据集,其中包含55个由专家注释者创建的真实世界综合AI应用开发任务。
DevAI结构是这样的:智能体系统首先接收用户查询以开始开发,然后根据AI系统满足需求的程度来评估它,其中偏好作为可选的、较为柔性的标准。
图3展示了DevAI任务的一个例子。
DevAI中的任务规模相对较小,但涵盖了常用的关键开发技术。
如图2所示,任务被标记并覆盖了AI的多个关键领域:监督学习、强化学习、计算机视觉、自然语言处理、生成模型等。
每个任务都是,可能交给研究工程师的真实世界问题,并降低了在这个基准上评估方法的计算成本。
接下来,研究人员将领先的开源代码生成智能体框架,应用于DevAI中的任务:MetaGPT、GPT-Pilot、OpenHands。
他们让人类评判者、大模型评判者、以及智能体评判者框架,来评估其性能。
结果如表1所示,MetaGPT最具成本效益(1.19美元),而OpenHands是最昂贵的(6.38美元)。
从开发时间来看,OpenHands完成任务平均耗时362.41秒,而GPT-Pilot耗时最长,为1622.38秒。
平均而言,使用这三者之一对DevAI进行完整评估,大约需要210.65美元和14小时才能完成。
Human-as-a-Juge:DevAI手动评估
为了确定DevAI的实用有效性,并准确估计当前最先进的智能体系统实际代码生成能力,研究人员手动评估三个AI开发者基线在DevAI中的应用。
如表2所示,(I)和(D)代表独立性能与考虑任务依赖性的性能。
表示多个专家的进化,并且意味着评估使用白盒测试(允许访问生成的workspace、人类收集的轨迹和开源代码库)。
两种性能最好的方法(GPT-Pilot和OpenHands)可以满足大约29%的要求,但只有一项任务可以满足所有要求。
另外,在三位人类评估者之间,他们的个人评估存在大量分歧,说明了单一人类评估的不可靠性。
下图5总结了人类评估和共识评估的不匹配度。
𝗔𝗴𝗲𝗻𝘁-𝗮𝘀-𝗮-𝗝𝘂𝗱𝗴𝗲:智能体评估智能体
根据以往智能体设计的经验,并通过模仿人类评估过程,研究人员涉及了8个模块化交互组件,具体包括:
1 图像模块:构建一个图像,获取项目整个结构,包括文件、模块、依赖项,还可以将代码块分解为代码片段
2 定位模块:识别需求所引用的特定文件夹/文件
3 读取模块:超越了简单的文件解析,支持跨33种不同格式的多模态数据的读取和理解
4 搜索模块:提供了对代码的上下文理解,并且可以快速检索高度相关的代码片段,以及其背后细微差别
5 检索模块:从上下文中提取信息,识别轨迹中相关片段
6 查询模块:确定是否满足给定要求
7 记忆模块:存储历史判断信息,允许智能体基于过去记忆评估
8 规划模块:允许智能体根据当前状态和项目目标制定策略,并排序任务。
具体操作流程,如下图9所示。
下表3展示了,Agent-as-a-Judge在各项任务中始终优于 LLM-as-a-Judge,特别是在那些训在任务依赖关系的情况下。
评判开发者智能体,是一项类别不平衡的任务,满足要求的情况要比失败的情况少的多。
而判断转移和对齐率等指标可能会产生误导。比如,由于MetaGPT很少满足要求, LLM-as-a-Judge很容易将大多数情况识别为负面(在黑盒设置中达到84.15%)。
PR曲线通过平衡精确度和召回率,提供更清晰的性能衡量标准。
这表明,在某些情况 下,Agent-as-a-Judge几乎可以取代人类评估员。
最后,在消融研究中,研究人员分析了各种组件的添加,对Agent-as-a-Judge判断OpenHands性能的影响。
参考资料:
https://x.com/tydsh/status/1846538154129375412
#DriveDreamer4D
世界模型新突破!极佳科技提出DriveDreamer4D,首次利用世界模型增强4D驾驶场景重建效果
近日,极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出DriveDreamer4D,是首个利用世界模型增强 4D 驾驶场景重建效果的工作。DriveDreamer4D 可以大幅提升多种自动驾驶 4D 重建算法的效果,在 user study 实验中获得了超过 80% 的偏好投票,为走向空间智能和 4D 世界模型迈出了坚实的一步。
- 论文链接:https://arxiv.org/abs/2410.13571
- 项目主页:https://drivedreamer4d.github.io/
- 代码地址:https://github.com/GigaAI-research/DriveDreamer4D
闭环仿真技术是推动端到端自动驾驶系统发展的关键。目前的传感器仿真方法,如 NeRF 与 3DGS,主要依赖于训练数据分布,若训练数据不足,则这些方法在复杂驾驶操作(例如变道、加速或减速)的重建效果不佳。近来,自动驾驶世界模型(World Model)证明其可以生成丰富驾驶数据。在此背景下,本文提出了 DriveDreamer4D,是首个利用世界模型来提升自动驾驶场景 4D 重建质量的算法。
DriveDreamer4D 可以为驾驶场景提供丰富多样的视角(包括变道、加速和减速等)数据,以增加动态驾驶场景下的闭环仿真能力。
DriveDreamer4D 利用世界模型作为数据引擎,基于真实世界的驾驶数据合成新轨迹视频(例如变道场景)。如下图所示,DriveDreamer4D 不仅可以提升多种重建算法(PVG,S3Gaussian,Deformable-GS)的图像渲染质量,还可以提升驾驶前景(车辆)和背景(车道线)的时空一致性。
DriveDreamer4D 的总体结构框图如下所示,轨迹生成模块(NTGM)用于调整原始轨迹动作,如转向角度和速度,以生成新的轨迹。这些新轨迹为提取结构化信息(如车辆 3D 框和背景车道线细节)提供了全新的视角。随后,基于世界模型的视频生成能力,并利用更新轨迹后得到的结构化信息作为控制条件,可以合成新轨迹的视频。最后,原始轨迹视频与新轨迹视频相结合,进行 4DGS 模型的优化。
在实验中,如下第一列视频所示,可以看出多种传统算法(PVG, S3Gaussian,Deformable-GS )在变道场景下的车道线、天空、车辆都会模糊,甚至出现 “鬼影” 现象。而 DriveDreamer4D 可以提升多种重建算法在复杂变道场景下的视频渲染效果,不仅消除了 “鬼影”,而且提升了交通元素的渲染质量,车辆和车道线都更加清晰。
除了变道,在车辆变速场景下,传统算法(PVG,S3Gaussian,Deformable-GS)的表现能力也受到限制,如下第一列视频所示,这些算法在自车加速时,前方的车辆都出现了 “拖影” 现象。而经过 DriveDreamer4D 提升后,渲染的车辆的时空一致性更高。
在定量实验中,本文证明了 DriveDreamer4D 不仅可以提升多种重建算法 (PVG, S3Gaussian,Deformable-GS)的图像渲染质量 (如表 2),还可以提升车辆和车道线渲染的时空一致性(如表 1)。此外,本文还通过 user study(表 3)证明用户更加偏好 DriveDreamer4D 的渲染效果,获得了超过 80% 的投票率。
表 1 DriveDreamer4D 提升了车辆和车道线重建渲染的时空一致性
表 2 DriveDreamer4D 提升了图像重建渲染质量
表 3 User study 证明用户更加偏好 DriveDreamer4D 的渲染效果
本项 DriveDreamer4D 工作是极佳科技研究团队之前 DriveDreamer 和 DriveDreamer-2 工作的延续。
DriveDreamer 是首个面向真实驾驶场景的世界模型,可以根据不同的控制条件生成自动驾驶周视视频,有效提升了 BEV 感知的性能;DriveDreamer-2 在此基础上,引入大语言模型,可以生成用户自定义的驾驶数据,进一步提升了长尾和 corner case 场景下的数据生成能力。针对端到端自动驾驶和闭环仿真对于场景重建的迫切需求,DriveDreamer4D 利用 DriveDreamer 系列工作的能力,用以生成新轨迹视频(例如变道、加减速),从而大幅提升了多种 4DGS 算法的重建效果。
本篇论文的牵头完成单位为极佳科技,是一家空间智能公司,致力于将视频生成提升到 4D 世界模型,赋予 AI 大模型对于 4D 空间的理解、生成、常识和推理的能力,实现 4D 空间中的交互和行动,走向通用空间智能。通用空间智能对于影视游戏、元宇宙等虚拟空间的内容创作,以及自动驾驶、具身智能等物理空间的数据生成和认知推理能力,都有巨大的价值和作用。极佳科技是国内最早开始探索和布局世界模型和空间智能方向的公司,在物理空间和虚拟空间两方面都已取得显著的技术和商业进展,获得了行业广泛的认可。
#Long Term Memory
整合长期记忆,AI实现自我进化,探索大模型这一可能性
地球上最早的生命证据至少可以追溯到 35 亿年前,而直到大约 25 万到 40 万年前,智人才出现地球上。在这漫长的岁月中,生物不断地兴盛又覆灭,但整体趋势总是越来越复杂,其中最复杂的生物组件莫过于我们智人的大脑。这样的复杂性是我们的意识和智慧的来源。而这一切背后的机制是进化(evolution)。
到了现今的大模型时代,强大的基础模型已经展现出了强大的智能水平,能完成多种多样的任务。但它们也有个缺点,训练之后就基本定型了,难以随着用户的使用而演进。但毫无疑问,这项能力很重要。
近日,天桥脑科学研究院和普林斯顿大学等多所研究机构发布了一篇研究论文,详细阐述了长期记忆对 AI 自我进化的重要性,并且他们还提出了自己的实现框架 —— 基于多智能体的 Omne,其在 GAIA 基准上取得了第一名的成绩。
论文标题:Long Term Memory : The Foundation of AI Self-Evolution
论文地址:https://arxiv.org/pdf/2410.15665
首先,该团队将 LLM 的模型进化过程分成了三个主要阶段
- 阶段 1:在物理世界中积累认知。
- 阶段 2:在数字世界中构建基础模型。
- 阶段 3:模型自我进化,以实现更强大的智能。
现有的研究主要围绕着阶段 1 和 2,即如何构建更好的数据以及将其用于训练更强大的基础模型。目前人们有一个普遍的看法:在这种曲线拟合范式中,架构并不重要,关键的因素是数据集。但到了阶段 3,架构就会变得和数据一样重要。核心的难题是如何在统计模型的基础上有效表达少数个体的数据。该研究关注的核心是如何确保在统计模型内有效地表达个体数据。
实现模型自我进化的原理
模型的自我进化能力是模型长期适应和个性化的关键,而这又严重仰赖于有效的记忆机制。
在这一理解的基础上,该团队提出:长期记忆(LTM)能为模型的持续进化提供历史数据积累和经验学习能力。正如人类通过经验和记忆来完善认知和行为一样,LTM 也能让模型在处理长期、分散和个性化的数据时逐步提升推理和学习能力。
- 用 LTM 数据提升模型能力,使其能够自我进化
在传统 LLM 中,更新模型通常需要调整所有参数,而如果目的是处理个体数据,那这种操作明显不切实际。
一种更优的方法是仅更新局部参数,从而在无损模型全局稳定性的前提下,让模型适应稀疏、个性化的 LTM 数据。这种方法可解决当前模型中个体数据「被平均化」的问题,使个性化信息能够更全面地表达。使用上下文学习(ICL)的检索增强生成(RAG)和用于微调的低秩适应(LoRA)等技术都可被视为局部更新个体数据的方法。
该团队的做法是采用一种混合策略来整合 LTM 数据,从而在实际应用中达到让人满意的结果。但是,该团队也表示,这可能并非一种完美的解决方案,未来可能还会出现更好的方法。
- 组合 LTM 数据进行实时权重更新,从而实现自我进化
当前的 LLM 通常分为训练和推理两个阶段。在推理阶段,模型权重是冻结的,防止模型根据新输入进行调整和学习。这种固定的推理过程会限制模型的适应性,尤其是在处理个性化任务和实时学习方面。
受人脑更新机制的启发,该团队认为未来的 LLM 应该将推理和训练与 LTM 结合起来,使模型能够在接收到新信息时动态调整权重。这就类似于人类的持续学习能力。
此外,这种集成还可以帮助模型在面对复杂的推理任务时自我反思并纠正错误的推理路径,从而提高准确性和效率。
这种动态的自我调整能力将大大提升模型的个性化能力和长期进化潜力。通过长期记忆,模型不仅可以从短期记忆中学习,还可以从历史数据中提取有价值的见解,随着时间的推移能更深入地理解个人偏好和行为模式。这种理解可实现模型的个性化定制和动态调整,使模型能够更有效地进化。特别是在面对新的或极端的情况时,长期记忆使模型能够参考过去的经验,快速做出调整并自我进化,从而获得更大的灵活性和适应性。
长期记忆在模型自我进化中的实现路径
该团队首先将给出 AI 自我进化和 LTM 的定义,然后探索 LTM 在 AI 自我进化中的关键作用,之后会介绍如何使用 LTM 来实现 AI 自我进化。
他们做出了以下贡献:
- 给出了 AI 自我进化和 LTM 的定义;
- 提出了一个用于 LTM 的数据框架,包括数据收集、分析与合成;
- 提出了一个用于 LTM 的多智能体协作开发框架。
AI 自我进化的基础
这里简要给出 AI 自我进化的定义,详情请参阅原论文。
AI 自我进化是指 AI 模型使用个性化数据不断学习和优化,实现多智能体协作和认知方面的突破。该过程基于一个共享式内核架构,其中各个模型通过处理个性化经验和数据不断进化,从而提升自身推理能力和适应能力,最终实现在动态环境中的自主学习和持续进化。
要实现 AI 自我进化,需要:
- 多智能体协作机制
- 差异化的个性化模型
- 自我纠错和评估机制
- 长期记忆和学习能力
用于 AI 自我进化的 LTM
目前,LLM 主要通过两种记忆机制来管理信息:上下文存储器和基于压缩的参数存储器。虽然这些机制在短期任务中表现出色,但它们在支持长期自主学习和进化方面仍然存在不足。
正如人类使用 LTM 来塑造他们的行为和身份一样,人工智能系统也可以采用类似的方法根据「个人数据」定制其响应和行为。这里,「个人数据」不仅限于个人用户,还包括特定的机构和领域,允许模型根据更广泛的个人背景和需求调整其响应和行为。
作者深入探讨了 LTM 在 AI 自我进化中所发挥的关键作用,首先在 AI 自我进化的背景下定义了 LTM,并分析了当前 LLM 记忆机制的缺点。然后,作者讨论了通过从人类 LTM 特征中汲取灵感来增强人工智能模型的自我进化能力,旨在构建能持续学习和自我完善的人工智能系统。
该研究将 AI 自我进化中的 LTM 定义为:
LTM 是人工智能系统可以长期保留和利用的信息,使模型能够根据更广泛的背景调整其响应和行为。
这里,「个人数据」不仅限于个人用户,还包括特定的机构和领域,允许模型根据更广泛的个人背景和需求调整其反应和行为。
从数据积累的角度来看:模型和人类都与环境进行广泛的交互,为个性化提供基础数据。与人类相比,人工智能模型可以更有效地与环境交互,并且可以在纯虚拟的数字环境中执行这些交互和迭代。因此,通过设计适当的记忆细化策略,模型应该能够像人类一样积累长期记忆,甚至可能具有更高的效率和规模。
从模型更新的角度来看:人工智能擅长存储和调用海量数据,远远超过人类记忆规模。神经网络通过分布式参数管理这些数据,处理来自不同领域的输入。然而,这种存储相对刚性,缺乏实时更新的灵活性,通常需要重新训练才能实现更新。相比之下,人类的记忆力却非常强。
LTM 的构建策略
LTM 是对原始数据的有效组织和结构化,而不仅仅是表面上对原始数据进行分类和排序。相反,它是从记忆快速存储和检索以及信息高效利用的角度来设计和优化。通过建立相关信息之间的联系,有效处理数据并重新组织信息,智能体可以快速定位所需的记忆片段,从而提高响应速度和准确性。以下是几种主要的操作方法:
- 文本摘要
- 数据结构化
- 图表征
- 矢量化
- 模型参数化
如何利用 LTM 实现模型自我进化?
获得高质量的 LTM 数据后,下一个挑战是如何利用它来增强模型能力并实现模型的自我进化。在使用 LTM 数据以最大限度地提高其有效性和效率的过程中需要解决几个关键挑战,包括:
适应持续更新的 LTM 数据。随着用户 LTM 数据的不断积累,模型必须在学习新信息和保留先前获取的知识之间取得平衡。传统模型通常假设稳定的数据分布,但在实际场景中,新的 LTM 数据可能与早期模式显著背离,导致过拟合或灾难性遗忘等风险。有效处理这些变化对于适应动态 LTM 数据至关重要。
实时学习和高效反馈集成。由于 LTM 数据是动态积累的,模型必须快速适应用户行为的实时变化。新数据的快速集成对于智能助手等应用程序至关重要,其中无缝的用户交互是关键。此外,在完善基础模型时,应考虑隐式(例如点击次数或花费的时间)和显式的用户反馈。实时结合这两种类型的反馈使模型能够不断改进并满足个人用户的需求。
处理数据稀疏性和用户多样性。数据稀疏是持续更新的 LTM 系统中一个常见的问题,特别是对于交互历史有限或零星活动的用户来说,这使得训练模型变得困难。此外,用户多样性也会进一步增加复杂性,要求模型适应个体模式,同时仍然有效地推广到不同的用户组。
以清华大学团队的 Agent Hospital(智能体医院)作为案例,该团队展示了如何在这个模拟医疗场景中用 LTM 来提升模型的能力,其中包括医疗记录积累、医疗经验反思和基于 RAG 利用 LTM。详见原论文。
基于 LTM 实现模型自我进化的实践
获取 LTM 数据
为了提升模型保留和访问 LTM 数据的能力,该团队全面研究了各种方法,其中包括:
- 如何收集真实世界的 LTM 数据。
- 如何获取合成的 LTM 数据,其中包括用真实数据提升合成 LTM 数据的生成过程、使用思维链增强合成 LTM 数据的生成过程、生成训练数据和评估数据等多个方面。
- 如何使用 LTM 数据,该团队介绍了通过 SFT 和 RAG 使用 LTM、将 LTM 用于医疗领域的智能体自我评估、通过记忆系统来使用 LTM、通过实时权重更新来使用 LTM。
这其中包含一些实验评估和例证,详见原论文。这里我们来重点看看他们开发的基于 LTM 的多智能体框架。
基于 LTM 的多智能体框架
该团队提出一个基于 LTM 的多智能体框架 Omne。
Omne 是基于 AutoGen MultiAgent Framework 深度定制的开发框架,专门用于解决 LTM 在 AI 系统中的实际应用难题。
它扩展了一系列与记忆相关的基础设施,包括统一的记忆模型、多模态消息处理系统以及灵活的记忆存储和操作机制。Omne 的核心模块(Omne Core)如下图所示:
Omne 的核心目标是提供一套全面的解决方案,使 LTM 能够在实际工程项目中有效部署,从而增强 AI 系统的长期记忆能力和任务处理效率。
基于 Omne Core,该团队还构建了一个 Omne Assistant。
Omne Assistant 的设计目标是帮助开发聊天场景中的 AI 助手,其提供了一个现成的应用层框架。它包括 AI 助手所需的基本功能,使开发人员无需从头开始设计基础组件,就能快速构建功能齐全的聊天机器人。
Omne Assistant 带有一个 Simple Responder,这是一个通用的问答响应器,可以处理基本的用户聊天交互以实现即时通信。此外,该框架还提供了一个 Reactive Responder,它具有高级任务分析和规划功能,使其能够管理需要多步骤推理和任务编排的更复杂的用户请求。
借助这些内置组件,Omne Assistant 可让开发人员专注于实现自己的功能,从而更快地开发和部署配备长期记忆功能的 AI 助手应用。
在 GAIA 基准(包含 400 多个问答任务的通用 AI 助手测试集)上,该团队对 Omne 框架进行了评估。
为了探索 AI 的边界,他们在 Omne 框架中使用了当今最强大的 GPT-4o 和 o1-preview 模型,同时配备了 4 个工具:网络浏览、Bing 搜索引擎、基于 llamaparse 的文件读取器,一个使用 o1-preview 构建的逻辑专家。
基于这 2 个基础模型和 4 个工具,Omne 在测试集和验证集上分别取得了第一名(40.53%)和第二名(46.06%)的成绩。
值得注意的是,Omne 在最复杂、要求最高的 3 级问题上达到了 26.53% 的准确率。这证明了其通过利用强大的基础模型(尤其是具有强大推理和逻辑能力的模型)解决现实问题的潜力。
未来计划
该团队并不打算止步于此,他们已经制定了未来研究的计划,方向包括:
1. 如何更好地构建 LTM 数据?
2. 如何为 LTM 设计新的模型架构?
3. LTM 如何帮助用户提出更好的问题?
4. 如何将 LTM 与推理时间搜索相结合?
5. 如何在复杂场景中使用 LTM 实现智能体自我进化?
- 如何在多智能体场景中使用 LTM?
#VERIFIED
消除多对多问题,清华提出大规模细粒度视频片段标注新范式VERIFIED
陈厚伦,清华大学计算机系媒体所的二年级博士生,主要研究方向是多模态大模型与视频理解 ,在 NeurIPS 、ACM Multimedia 等顶级会议发表多篇论文,曾获国家奖学金、北京市优秀本科毕业生等。
视频内容的快速增长给视频检索技术,特别是细粒度视频片段检索(VCMR),带来了巨大挑战。VCMR 要求系统根据文本查询从视频库中精准定位视频中的匹配片段,需具备跨模态理解和细粒度视频理解能力。
然而,现有研究多局限于粗粒度理解,难以应对细粒度查询。为此,来自清华大学的研究者提出自动化视频 - 文本细粒度标注系统 VERIFIED,并基于此系统构建新的细粒度 VCMR 基准数据集(Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG),以推动细粒度视频理解的发展。
- 论文题目:VERIFIED: A Video Corpus Moment Retrieval Benchmark for Fine-Grained Video Understanding (NeurIPS 2024 Track on Datasets and Benchmarks)
- 论文链接:https://arxiv.org/pdf/2410.08593
- 主页链接:https://verified-neurips.github.io/
一、介绍
视频语料库时刻检索(VCMR)旨在根据文本查询从大量视频中精确定位特定片段。传统 VCMR 基准的视频标注多为粗粒度标注,视频与文本间存在多对多问题,无法支持细粒度视频检索的训练与评估(图 1 (a)),因此有必要为细粒度 VCMR 建立一个合适的 benchmark。为解决此问题,该研究提出了细粒度 VCMR 场景,使用更精细的文本查询消除数据集中的多对多现象(图 1 (b))。然而建立此类细粒度的 benchmark 有如下的挑战:
(1)人工标注细粒度信息成本高昂,是否可以利用大模型技术实现这一过程?
(2)研究证明大模型存在幻觉问题,如果利用大模型进行标注,如何设计一种方法保证标注数据的质量?
为此,该研究设计了自动细粒度视频标注系统 VERIFIED(图 1 (c)),通过大模型生成富含静态和动态信息的标注,并且基于微调 video foundation model 设计了一个高效的标注质量评估模块,基于此构建了 Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG 高质量细粒度 VCMR 基准,以推动细粒度 VCMR 研究发展。
图 1:a) 粗粒度 VCMR 中,因查询文本简单,存在许多潜在正匹配(绿色),但这些时刻未被标注,导致真实标注不合理。b) 该研究提出的具有挑战性的细粒度 VCMR 中,查询更细粒度,方法需要从部分匹配的候选项(粉色)中检索出最匹配的一个(绿色)。c) 该研究的 VERIFIED 生成了可靠细粒度标注,包括丰富静态(绿色)和动态细节(蓝色)。
二、VERIFIED 视频细粒度标注系统
图 2:VERIFIED 流程图。Statics Enhanced Captioning(A)和 Dynamics Enhanced Captioning(B),它们生成带有静态和动态细节的多个细粒度描述候选。此外,该研究设计了一个 Fine-Granularity Aware Noise Evaluator(C),该模块生成并选择被扰动的正负样本,通过难负样本增强的对比损失和匹配损失来微调 UMT。这个评估器对描述进行评分,以识别不准确描述。
图 2 展示了该研究的 VERIFIED 标注流程图。为了让大模型像人类那样对视频中的细粒度信息进行标注,该研究设计了 Statics Enhanced Captioning 和 Dynamics Enhanced Captioning 模块,分别对静态与动态细节进行描述。静态信息增强模块通过提取视频关键帧,分析前景和背景属性,生成多个静态细粒度描述,丰富视频的静态视觉信息。动态信息增强模块则根据视频的一个粗粒度标注,首先由 LLM 生成与视频动态内容相关的问题,使用视频问答系统(VQA)获取动态细节,进而生成多个动态细粒度标注,帮助模型更好地理解视频中的动作和变化。
为了保证数据标注的质量,该研究设计了一个细粒度感知的噪声评估模块,其目的在于从前面模块标注的数据中,筛选出可靠的细粒度标注,主要通过以下步骤进行:
(1)扰动文本生成:评估器首先从原始粗粒度标注中生成正向和负向的扰动文本。这些文本通过引入难例(挑战样本)与原始标注进行对比,以提高模型对细粒度差异的敏感度。
(2)筛选最优扰动:通过使用预训练模型(如 SentenceBERT),评估器从生成的扰动文本中挑选最合适的正向改写和最具挑战性的负向改写,保证生成的文本与原始标注的语义距离合理。
(3)损失函数:引入上述正向和负向的扰动文本,计算文本和视频间的对比损失和匹配损失。引入正向扰动文本是为了防止 LLM 生成文本的潜在的 bias,引入负向扰动文本作为困难负样本增强模型对细粒度信息的感知能力。
最后该研究用这个模块对标注数据进行打分,用来作为数据筛选的标准。该研究将 VERIFIED 系统应用于 Charades-STA、DiDeMo、ActivityNet Captions 数据集,对每个视频片段筛选分数最高的标注,得到新的 Charades-FIG、DiDeMo-FIG、ActivityNet-FIG 数据集,作为细粒度 VCMR 的 benchmark。
图 3 图 4 展示了该研究的标注中具有代表性的可视化样本。
图 3:(1-3)分别节选自 ActivityNet-FIG、Charades-FIG、DiDeMo-FIG 数据集,静态和动态的细粒度内容分别用绿色和蓝色标出,不准确的内容用红色标出。
图 4:(1) 本文构建的标注捕捉到了狗与训犬师之间的互动以及狗的运动轨迹。(2) 捕捉到了人物抛掷物体的细节,并传达了这个人多次抛掷的信息。(3) 读取了视觉内容中的文字信息,并正确表达了使用原料的顺序。
统计数据和用户实验还表明视频片段与标注文本之间的多对多现象得到了显著减少,标注细粒度和质量得到了用户的认可。
三、VCMR 实验
本文评估了 HERO、XML、ReLoCLNet、CONQUER、SQuiDNet 方法,分别在 Charades-FIG、DiDeMo-FIG、ActivityNet-FIG 上,对 VCMR(视频库片段检索)、VR(视频检索)、SVMR(单视频片段检索)任务进行了测评,对于片段检索指标,以 0.5/r10 为例,0.5/r10 表示召回的 top-10 个片段中与 ground truth 的 IoU 大于 0.5 的比例,结果如图 5、6 所示。不同模型在视频检索任务中的表现各异,两阶段方法(如 CONQUER、SQuiDNet)通常优于单阶段的方法,所以训练过程中应当避免将视频级别和片段级别的学习纠缠在一起,因为这可能会干扰模型对精确时刻定位的能力,进而影响整体性能,未来研究应该关注如何有效分离视频级别和片段级别的学习,并合理引入细粒度信息。
图 5:细粒度 VCMR、VR 实验结果
图 6:细粒度 SVMR 实验结果
为了说明该研究的细粒度训练数据对于提升模型的细粒度视频检索能力的意义,图 7 展示了 XML 在 Charades-FIG 上训练时,使用不同细粒度训练数据的预测结果可视化。当使用粗粒度数据进行训练时,真实值视频不在时刻排名列表的前 100 名内。排名靠前的预测主要集中在笔记本电脑上,而忽略了其他细节。使用该研究细粒度数据时,性能大大提升。它在排名第 5 位找到了目标时刻,后面的其他候选也与查询高度相关。这展示了细粒度 VCMR 场景中的挑战以及该研究的 VERIFIED 系统生成的标注数据在训练中的有效性。
图 7:XML 在 Charades-FIG 上使用不同细粒度训练数据的部分预测结果
四、结论
现有 VCMR 基准数据集以粗粒度为主,限制了模型对细粒度视频特征的学习。为此,该研究提出了 VERIFIED 自动标注系统,结合大语言模型和多模态大模型生成细粒度的静态和动态标注,并通过微调 UMT 作为数据评估模块提高标注可靠性。基于 VERIFIED 系统,该研究构建了新的细粒度 VCMR 数据集(Charades-FIG、DiDeMo-FIG、ActivityNet-FIG),评估了现有 VCMR 模型在细粒度场景上的表现,实验发现现有检索模型在处理细粒度信息时仍与现实需求存在较大差距。
参考工作
[1] Unmasked teacher: Towards training-efficient video foundation models
[2] Tall: Temporal activity localization via language query
[3] Localizing moments in video with natural language
[4] Dense-captioning events in videos