多模态大语言模型arxiv论文略读(二十六)

news2025/4/21 23:49:35

请添加图片描述

Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models

➡️ 论文标题:Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models
➡️ 论文作者:Xinpeng Ding, Jinahua Han, Hang Xu, Xiaodan Liang, Wei Zhang, Xiaomeng Li
➡️ 研究机构: Hong Kong University of Science and Technology (HKUST)、Huawei Noah’s Ark Lab、Sun Yat-Sen University
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在语言驱动的驾驶任务中展现出巨大潜力。然而,现有的研究和数据集通常仅涵盖有限的任务,并且往往忽略了多视角和时间信息,这些信息对于稳健的自动驾驶至关重要。为了弥补这些不足,研究团队提出了NuInstruct,这是一个包含91K多视角视频-问答对的新型数据集,涵盖了17个子任务,每个任务都需要综合信息(如时间、多视角、距离等),显著提高了任务的挑战性。
➡️ 研究动机:现有的语言驱动驾驶研究存在两个主要问题:(1)任务部分覆盖,即现有基准仅涵盖自动驾驶任务的一部分;(2)信息不完整,即现有方法在执行任务时使用的数据往往不完整,通常仅基于单视角图像,缺乏时间和多视角信息。为了解决这些问题,研究团队创建了NuInstruct数据集,并提出了BEV-InMLLM模型,以增强MLLMs在处理多视角、时间和空间信息方面的能力。
➡️ 方法简介:研究团队提出了一种基于SQL的方法,自动生成指令-响应对,构建了NuInstruct数据集。该数据集涵盖了感知、预测、风险评估和规划等任务,每个任务都需要综合信息。此外,研究团队还提出了BEV-InMLLM模型,通过注入鸟瞰图(BEV)表示,增强MLLMs在自动驾驶任务中的全景理解能力。
➡️ 实验设计:研究团队在NuInstruct数据集上进行了实验,评估了BEV-InMLLM模型在感知、预测、风险评估和规划等任务上的性能。实验结果表明,BEV-InMLLM模型在各种任务上显著优于现有的MLLMs,性能提升高达9%。此外,消融研究表明,MV-MLLM在多视角任务上表现出色,而BEV-InMLLM在大多数任务中都至关重要,突显了空间信息的重要性。

Exploring Boundary of GPT-4V on Marine Analysis: A Preliminary Case Study

➡️ 论文标题:Exploring Boundary of GPT-4V on Marine Analysis: A Preliminary Case Study
➡️ 论文作者:Ziqiang Zheng, Yiwei Chen, Jipeng Zhang, Tuan-Anh Vu, Huimin Zeng, Yue Him Wong Tim, Sai-Kit Yeung
➡️ 研究机构: The Hong Kong University of Science and Technology, University of Science and Technology of China, Shenzhen University
➡️ 问题背景:大型语言模型(LLMs)展示了处理各种查询的强大能力,作为通用助手。多模态大型语言模型(MLLMs)赋予LLMs感知视觉信号的能力。GPT-4V(视觉版)在学术和工业领域都表现出显著的影响力,成为新一代人工智能的焦点。然而,尽管GPT-4V取得了显著成功,但在特定领域分析(如海洋分析)中,需要特定领域的知识和专业知识,这方面的研究较少受到关注。
➡️ 研究动机:为了填补这一空白,研究团队进行了初步的全面案例研究,利用GPT-4V进行海洋分析。研究旨在系统评估GPT-4V在海洋研究中的表现,并为未来MLLMs的发展设定新的标准。研究发现,GPT-4V在生成的响应中仍远未满足海洋专业领域的要求。
➡️ 方法简介:研究团队构建了一系列定性测试样本,涵盖海洋分析的多个目的,并使用这些样本评估GPT-4V生成响应的质量。测试样本包括不可在线获取的图像和私人数据,结合手动设计的提示构建。评估方面包括感知、统计、特定领域问答、海洋文化理解、高级功能和提示工程。
➡️ 实验设计:实验数据来自不同来源,包括海洋生物学家的私人数据、YouTube视频的手动裁剪帧、GPT-4V API发布后的互联网图像、研究文章和书籍中的框架和流程图图像,以及公共数据集和新创建的图像。每个案例至少有10个测试样本,以确保研究的一致性和可靠性。实验设计了多种提示,以评估GPT-4V在不同任务中的表现,包括物体识别、细粒度物体识别、鲁棒性分析、物理世界知识理解等。评估指标包括准确率、专家标注的对比和人类判断的评分。

Object-Centric Instruction Augmentation for Robotic Manipulation

➡️ 论文标题:Object-Centric Instruction Augmentation for Robotic Manipulation
➡️ 论文作者:Junjie Wen, Yichen Zhu, Minjie Zhu, Jinming Li, Zhiyuan Xu, Zhengping Che, Chaomin Shen, Yaxin Peng, Dong Liu, Feifei Feng, Jian Tang
➡️ 研究机构: 东华师范大学计算机科学学院、美的集团、上海大学理学院数学系
➡️ 问题背景:在机器人操作任务中,理解物体的位置信息对于完成任务至关重要。尽管大型语言模型(LLM)在增强文本描述方面取得了显著进展,但这些模型主要关注于增强任务规划等文本描述,而对物体位置信息的处理相对较少。本文提出了一种新的框架,通过多模态大型语言模型(MLLM)将物体的位置信息融入自然语言指令中,以提高机器人操作任务的成功率。
➡️ 研究动机:现有的研究主要集中在通过LLM增强任务规划等文本描述,但对物体位置信息的处理不足。本文旨在通过引入物体位置信息,增强语言指令,从而提高机器人操作任务的泛化能力和成功率。
➡️ 方法简介:研究团队提出了Object-Centric Instruction Augmentation (OCI) 框架,该框架通过MLLM将物体的位置信息(包括绝对位置和相对位置)融入自然语言指令中。此外,还引入了一种特征重用机制,将MLLM的视觉-语言特征嵌入到策略网络中,以提高策略学习的效率和泛化能力。
➡️ 实验设计:研究团队在模拟环境和真实世界中进行了实验,包括Franka Kitchen基准测试中的多个任务,如滑动开门、打开柜子、打开灯光、转动炉灶旋钮和打开微波炉。实验设计了不同数量的演示(10次和25次),并通过消融研究验证了不同组件(如绝对位置、相对位置和特征重用机制)对模型性能的影响。
➡️ 实验结果:实验结果表明,OCI框架在所有子任务中均优于现有的方法,特别是在某些任务上表现出了显著的优势。消融研究进一步验证了物体位置信息和特征重用机制对模型性能的提升作用。

MLLM-Protector: Ensuring MLLM’s Safety without Hurting Performance

➡️ 论文标题:MLLM-Protector: Ensuring MLLM’s Safety without Hurting Performance
➡️ 论文作者:Renjie Pi, Tianyang Han, Jianshu Zhang, Yueqi Xie, Rui Pan, Qing Lian, Hanze Dong, Jipeng Zhang, Tong Zhang
➡️ 研究机构: The Hong Kong University of Science and Technology, University of Illinois at Urbana-Champaign, The Hong Kong Polytechnic University
➡️ 问题背景:多模态大语言模型(MLLMs)的部署带来了一个独特的漏洞:通过视觉输入进行恶意攻击的易感性。与仅基于文本的大语言模型(LLMs)相比,MLLMs增加了图像模态,但这些图像在安全对齐过程中未被充分考虑,导致MLLMs更容易产生有害响应。此外,MLLMs在有限的图像-文本对上进行微调,远少于广泛的文本预训练语料库,这使得MLLMs在安全微调过程中更容易遗忘其原始能力。
➡️ 研究动机:现有的研究和防御策略主要集中在文本输入的LLMs上,而针对MLLMs的防御策略仍不成熟。研究团队发现,图像可以作为“外语”诱导MLLMs生成有害内容,这可能导致严重的后果。因此,研究团队旨在通过引入MLLM-Protector来解决这一问题,以减轻恶意图像输入对MLLMs的影响,同时不损害模型的原始性能。
➡️ 方法简介:研究团队提出了MLLM-Protector,这是一种即插即用的策略,通过两个子任务来解决对齐任务:1)通过轻量级的有害检测器识别有害响应;2)通过解毒器将有害响应转换为无害响应。这种方法可以有效地检测和纠正有害内容,确保模型的安全性。
➡️ 实验设计:研究团队在多个数据集上进行了实验,包括多模态安全基准(MM-SafetyBench)。实验设计了不同的攻击场景(如非法活动、仇恨言论、恶意软件生成等),以评估MLLM-Protector在不同条件下的表现。实验结果表明,MLLM-Protector能够显著降低攻击成功率(ASR),尤其是在非法活动和仇恨言论等场景中,几乎完全防止了有害内容的生成。

Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models

➡️ 论文标题:Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models
➡️ 论文作者:Xin He, Longhui Wei, Lingxi Xie, Qi Tian
➡️ 研究机构: Huawei Inc.
➡️ 问题背景:多模态大型语言模型(MLLMs)在多种任务中展现了显著的贡献,但这些模型在视觉感知能力方面存在局限性,尤其是CLIP类编码器在提取视觉信息时面临信息丢失的问题。尽管这些编码器经过数十亿图像-文本对的预训练,但文本标题只能部分捕捉图像内容,导致模型在处理查询时的响应质量受限。
➡️ 研究动机:为了克服现有模型在视觉感知能力上的局限,研究团队提出了一种新的方法,通过整合多种视觉专家(Visual Experts)来增强MLLMs的视觉感知能力,旨在提供更全面和准确的视觉输入描述。
➡️ 方法简介:研究团队提出了一种名为Incorporating Visual Experts (IVE)的框架,通过引入多任务编码器和结构知识增强模块,来全面描述视觉输入。多任务编码器整合了语义信息编码器、低级信息编码器和文档相关信息编码器,以提供更丰富的视觉信息描述。结构知识增强模块则利用OCR工具和对象检测器提取图像中的结构化数据,作为硬提示与融合的潜在嵌入一起输入到大型语言模型中。
➡️ 实验设计:IVE框架在多个多模态任务中进行了实验,包括通用多模态对话场景和特定任务如DocVQA。实验结果表明,IVE在识别输入图像的内在内容方面表现出色,能够生成更准确的响应,显著提升了模型的视觉感知能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2339733.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java虚拟机(JVM)平台无关?相关?

计算机的概念模型 计算机实际上就是实现了一个图灵机模型。即,输入参数,根据程序计算,输出结果。图灵机模型如图。 Tape是输入数据,Program是针对这些数据进行计算的程序,中间横着的方块表示的是机器的状态。 目前使…

cloudstudio学习笔记之openwebui

代码获取 git clone 参考资料 openwebui官网 https://docs.openwebui.com/getting-started/advanced-topics/development 后端启动 cd backend pip install -r requirements.txt -U sh dev.sh后端启动成功后的界面 在cloudstudio提供的vscode弹出的提示中打开浏览器并在末…

7.QT-常用控件-QWidget|font|toolTip|focusPolicy|styleSheet(C++)

font API说明font()获取当前widget的字体信息.返回QFont对象.setFont(const QFont& font)设置当前widget的字体信息. 属性说明family字体家族.⽐如"楷体",“宋体”,"微软雅⿊"等.pointSize字体⼤⼩weight字体粗细.以数值⽅式表⽰粗细程度取值范围为[…

机器学习核心算法全解析:从基础到进阶的 18 大算法模型

在机器学习领域,算法模型是解决实际问题的核心工具。 不同的算法适用于不同的数据场景和任务需求,理解它们的原理与应用是掌握机器学习的关键。 以下将详细解析 18 个核心算法模型,涵盖监督学习、无监督学习、集成学习和深度学习等多个领域…

线性代数 | 知识点整理 Ref 1

注:本文为 “线性代数 | 知识点整理” 相关文章合辑。 因 csdn 篇幅合并超限分篇连载,本篇为 Ref 1。 略作重排,未整理去重。 图片清晰度限于引文原状。 如有内容异常,请看原文。 线性代数知识汇总 Arrow 于 2016-11-27 16:27:5…

【深度学习入门_NLP自然语言处理】序章

本部分开始深度学习第二大部分NLP章节学习,找了好多资料,终于明确NLP的学习目标了,介于工作之余学习综合考量,还是决定以视频学习为主后期自主实践为主吧。 分享一个总图,其实在定位的时候很迷茫,单各章节…

蓝桥杯 二进制问题 刷题笔记

8.二进制问题 - 蓝桥云课 存入N的二进制每一位作为基准数组 算出方案数 从高位往低位用dfs枚举每一位是放1还是放0 #include<iostream> #include<vector> #define ll long long using namespace std;ll dp[65][65]; ll num; ll k; vector<ll> vec;ll cal(l…

mapbox基础,加载视频到地图

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:mapbox 从入门到精通 文章目录 一、🍀前言1.1 ☘️mapboxgl.Map 地图对象1.2 ☘️mapboxgl.Map style属性1.3 ☘️raster 栅格图层 api二、🍀加载视频到…

RNN - 循环神经网络(实现)

写在前面 在RNN - 循环神经网络&#xff08;概念介绍&#xff09;中&#xff0c;介绍了一下 RNN 的相关概念&#xff0c;下面就基于概念对 RNN 进行两种实现。从零开始实现和简洁实现。 从 0 开始实现 首先导入必要的环境&#xff0c;使用 H.G.Wells 的时光机器数据集上训练…

【unity游戏开发入门到精通——UGUI】RectTransform矩形变换组件

注意&#xff1a;考虑到UGUI的内容比较多&#xff0c;我将UGUI的内容分开&#xff0c;并全部整合放在【unity游戏开发——UGUI】专栏里&#xff0c;感兴趣的小伙伴可以前往逐一查看学习。 文章目录 一、RectTransform组件介绍二、RectTransform组件参数1、Pivot 轴心点2、Ancho…

C语言复习笔记--字符函数和字符串函数(上)

在编程的过程中&#xff0c;我们经常要处理字符和字符串&#xff0c;为了⽅便操作字符和字符串&#xff0c;C语⾔标准库中提供了 ⼀系列库函数&#xff0c;接下来我们就学习⼀下这些函数。 首先来看下字符函数. 字符分类函数 C语⾔中有⼀系列的函数是专⻔做字符分类的&#xf…

Apipost,前端后端测试都在用的接口设计调试工具

大家好&#xff0c;我是袁庭新。给大家介绍一个后端、前端、测试都在用的接口测试工具——Apipost。Apipost主要分为5个大模块&#xff0c;贯穿一个API从设计到测试完成上线的研发全周期。 1.Apipost介绍 Apipost官方地址&#xff1a;https://www.apipost.cn。如下图所示。 A…

十倍开发效率 - IDEA 插件之RestfulBox - API

提高效率不是为了完成更多的任务&#xff0c;而是有充足的时间摸鱼。 快速体验 RestfulBox - API 是 IDEA 的插件&#xff0c;适合本地测试接口&#xff0c;完全不需要对项目进行任何以来。 接口管理&#xff1a;支持接口扫描、浏览、搜索、跳转、导入和导出。支持接口请求&a…

2025 年网络安全的挑战与机遇

2024 年是网络安全领域风云变幻的一年。从备受瞩目的勒索软件攻击所带来的影响&#xff0c;到人工智能工具日益商品化&#xff0c;挑战不断增加。 关键基础设施的漏洞变得极为明显&#xff0c;身份盗窃次数也达到了前所未有的程度。然而&#xff0c;在这一片混乱之中&#xff…

IP数据报

IP数据报组成 IP数据报&#xff08;IP Datagram&#xff09;是网络中传输数据的基本单位。 IP数据报头部 版本&#xff08;Version&#xff09; 4bit 告诉我们使用的是哪种IP协议。IPv4版本是“4”&#xff0c;IPv6版本是“6”。 头部长度&#xff08;IHL&#xff0c;Intern…

【Lua语言】Lua语言快速入门

初始Lua Lua是一种轻量小巧的脚本语言&#xff0c;他使用标准C语言编写并以源代码形式开放。这意味着Lua虚拟机可以很方便的嵌入别的程序中&#xff0c;从而为应用程序提供灵活的扩展和定制功能。同时&#xff0c;在目前脚本引擎中&#xff0c;Lua的运行速度占有绝对优势。 变…

Silverlight发展历程(微软2021年已经停止支持Silverlight 5)

文章目录 Microsoft Silverlight 发展历程引言起源与背景&#xff08;2006-2007&#xff09;互联网技术格局与微软的挑战WPF/E 项目的启动 Silverlight 1.0 的诞生&#xff08;2007&#xff09;正式命名与首次发布初步的市场定位 Silverlight 2.0&#xff1a;真正的突破&#x…

充电桩领域垂直行业大模型分布式推理与训练平台建设方案 - 慧知开源充电桩平台

没有任何广告&#xff01; 充电桩领域垂直行业大模型分布式推理与训练平台建设方案 一、平台定位与核心价值 行业首个垂直化AI平台 专为充电桩运营场景设计的分布式大模型训练与推理基础设施&#xff0c;实现"算力-算法-场景"三位一体闭环管理。 核心价值主张&am…

区块链交易自动化新时代:实战体验 Maestro 智能机器人

随着 DeFi 和链上交易生态的不断壮大&#xff0c;链上自动化工具的应用正逐渐从「量化机构」走向普通投资者和开发者。在过去的几个月中&#xff0c;我实测了一款基于 Telegram 的交易机器人 —— Maestro&#xff0c;它极大简化了链上套利、复制交易等流程&#xff0c;对我个人…

windows服务器及网络:论如何安装(虚拟机)

今天我要介绍的是&#xff1a;在Windows中对于安装系统&#xff08;虚拟机的步骤以及相关的安装事宜&#xff09;&#xff0c;事不宜迟&#xff0c;让我们来看看系统安装&#xff08;虚拟机&#xff09;是怎么操作的&#xff1a; 对现在来说&#xff0c;安装电脑系统已经是非常…