多模态大语言模型arxiv论文略读(二十九)

news2025/4/22 18:06:34

请添加图片描述

Temporal Insight Enhancement: Mitigating Temporal Hallucination in Multimodal Large Language Models

➡️ 论文标题:Temporal Insight Enhancement: Mitigating Temporal Hallucination in Multimodal Large Language Models
➡️ 论文作者:Li Sun, Liuan Wang, Jun Sun, Takayuki Okatani
➡️ 研究机构: 北京富士通研发中心、东北大学信息科学研究生院、理化学研究所AIP中心
➡️ 问题背景:多模态大型语言模型(MLLMs)在多媒体内容理解方面取得了显著进展,但处理视频输入时,特别是在事件级别上,会出现幻觉问题,即错误的感知或解释。这种幻觉问题在视频内容中尤为突出,尤其是在按需事件查询中。
➡️ 研究动机:现有研究主要集中在对象级别的幻觉问题上,而事件级别的幻觉问题尚未得到充分研究。本研究旨在解决MLLMs在处理视频输入时的事件级别幻觉问题,通过引入一种新的框架来提取和利用事件特定信息,以提高模型的响应质量。
➡️ 方法简介:研究团队提出了一种新颖的方法,通过将按需事件查询分解为标志性动作,并利用CLIP和BLIP2等模型预测事件发生的具体时间戳,来纠正MLLMs的事件时间幻觉。该方法无需额外训练,成本低且可解释性强。
➡️ 实验设计:研究在Charades-STA数据集上进行了实验,设计了两个任务来评估MLLMs在预测事件发生时间和事件顺序方面的表现。实验结果表明,该方法显著减少了时间幻觉,提高了事件相关问题的响应质量。

Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences

➡️ 论文标题:Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences
➡️ 论文作者:Xiyao Wang, Yuhang Zhou, Xiaoyu Liu, Hongjin Lu, Yuancheng Xu, Feihong He, Jaehong Yoon, Taixi Lu, Gedas Bertasius, Mohit Bansal, Huaxiu Yao, Furong Huang
➡️ 研究机构: University of Maryland, College Park、UNC-Chapel Hill, Chapel Hill
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)在处理各种视觉-语言任务方面表现出色。然而,现有的MLLM基准测试主要评估基于单个图像的静态信息的推理能力,而对图像序列的推理能力,即理解不断变化的世界的能力,研究较少。为了应对这一挑战,本文介绍了Mementos,一个新的基准测试,旨在评估MLLMs在图像序列上的推理能力。Mementos包含4,761个不同长度的图像序列,涵盖了日常生活、机器人任务和漫画风格的故事板等多种场景。
➡️ 研究动机:尽管现有的MLLMs在处理静态图像方面表现出色,但它们在处理图像序列时往往会出现幻觉(即生成不准确的描述),尤其是在描述动态信息时。为了更全面地评估MLLMs在图像序列上的推理能力,研究团队开发了Mementos基准测试,并通过GPT-4辅助的方法评估了九个最新的MLLMs,包括GPT-4V和Gemini。研究发现,这些模型在处理图像序列时存在显著的物体和行为幻觉,尤其是在机器人和漫画领域。
➡️ 方法简介:研究团队构建了Mementos基准测试,该基准测试包含4,761个图像序列,涵盖了日常生活、机器人任务和漫画风格的故事板。每个序列都配有人类标注的描述,详细说明了主要物体及其行为。为了评估MLLMs的推理能力,研究团队采用了一种GPT-4辅助的评估方法,通过提取AI生成和人类标注描述中的行为和物体关键词,并使用关键词匹配来评估模型的幻觉程度。此外,研究团队还构建了行为和物体同义词图,以确保评估的准确性和细致性。
➡️ 实验设计:研究团队在Mementos基准测试上评估了九个最新的MLLMs,包括黑盒模型和开源模型。实验设计了不同的输入方式(如组合输入和顺序输入),并评估了模型在不同领域(日常生活、机器人和漫画)的表现。实验结果表明,MLLMs在处理图像序列时存在显著的物体和行为幻觉,尤其是在机器人和漫画领域。研究团队还通过定量分析和案例研究,识别了影响MLLMs推理能力的三个关键因素:物体和行为幻觉的相互作用、共现行为的影响以及行为幻觉的累积效应。

MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning

➡️ 论文标题:MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning
➡️ 论文作者:Chenyu Wang, Weixin Luo, Qianyu Chen, Haonan Mai, Jindi Guo, Sixun Dong, Xiaohua, Xuan, Zhengxin Li, Lin Ma, Shenghua Gao
➡️ 研究机构: ShanghaiTech University、Meituan、UniDT、Shanghai Engineering Research Center of Intelligent Vision and Imaging、Shanghai Engineering Research Center of Energy Efficient and Custom AI IC
➡️ 问题背景:大型语言模型(LLMs)在自然语言理解和生成任务中展现了卓越的性能,这激发了将其作为构建代理系统中心控制器的探索。然而,当前的LLMs在工具使用能力上受限于单一文本查询,这可能导致对用户真实意图理解的模糊性。为了消除这种模糊性,LLMs需要能够感知视觉或听觉指令的信息,从而更准确地选择匹配的工具。
➡️ 研究动机:现有的研究和系统主要集中在通过文本输入来扩展LLMs的功能,但这种方法在处理模糊或复杂的用户指令时存在局限性。本研究旨在通过引入多模态输入,增强LLMs对工具使用的感知和选择能力,从而解决这一问题。研究团队开发了MLLM-Tool系统,该系统结合了开源的LLMs和多模态编码器,能够处理多模态输入指令,并正确选择匹配的工具。
➡️ 方法简介:研究团队构建了一个名为ToolMMBench的多模态输入基准数据集,该数据集包含从HuggingFace平台收集的多模态输入工具,以及每个指令的多个潜在选择。通过这个数据集,研究团队评估了MLLM-Tool在处理多模态输入和选择合适工具方面的能力。MLLM-Tool系统使用了ImageBind作为主要的多模态编码器,并结合了多种领先的LLMs,如Vicuna、Llama等,通过低秩适应(LoRA)技术对模型进行微调,以减少可学习参数的数量。
➡️ 实验设计:研究团队设计了多种评估指标,包括针对不同模糊类型、多选项支持和不同模态输入的测试子集。实验结果表明,MLLM-Tool在工具选择上的准确率达到了88.19%,证明了该方法的有效性。此外,研究团队还计划在未来扩展系统的输出,包括API参数、代码执行结果和链式思维(CoT)提示等,以支持多轮对话。

InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance

➡️ 论文标题:InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance
➡️ 论文作者:Pengyu Wang, Dong Zhang, Linyang Li, Chenkun Tan, Xinghao Wang, Ke Ren, Botian Jiang, Xipeng Qiu
➡️ 研究机构: Fudan University, Shanghai Key Laboratory of Intelligent Information Processing
➡️ 问题背景:大型语言模型(LLMs)在多种AI应用中变得至关重要,但它们在实际应用中需要与人类价值观和意图对齐。当前的对齐方法,如监督微调(SFT)和基于人类反馈的强化学习(RLHF),主要集中在训练时间对齐,这些方法通常复杂且资源消耗大。因此,研究团队开发了InferAligner,一种利用跨模型指导的推理时间对齐方法,旨在提高模型的安全性,同时保持下游任务的性能。
➡️ 研究动机:现有的训练时间对齐方法虽然效果显著,但实施复杂且资源消耗大。而现有的推理时间对齐方法虽然简单易用,但对齐效果较差,且显著影响模型在下游任务中的性能。为了克服这些挑战,研究团队提出了InferAligner,通过跨模型指导在推理阶段实现无害性对齐。
➡️ 方法简介:InferAligner通过从安全对齐的模型中提取安全引导向量(SSVs),并在目标模型的推理阶段使用这些向量来修改激活,从而引导模型对恶意输入提供无害响应。具体来说,InferAligner首先利用安全相关向量(SRVs)来判断输入意图是否无害,如果检测到有害意图,则通过添加SSVs来调整激活,引导模型安全响应。
➡️ 实验设计:研究团队在三个领域(金融、医疗和数学)的特定数据集上进行了实验,评估了InferAligner在这些领域模型中的表现。实验设计了不同的安全性和实用性评估指标,包括攻击成功率(ASR)和下游任务的准确性。实验结果表明,InferAligner在显著降低有害指令和越狱攻击的ASR的同时,几乎不影响下游任务的性能。此外,研究团队还构建了第一个多模态安全数据集MM-Harmful Bench,用于评估多模态模型的安全性。

LLMRA: Multi-modal Large Language Model based Restoration Assistant

➡️ 论文标题:LLMRA: Multi-modal Large Language Model based Restoration Assistant
➡️ 论文作者:Xiaoyu Jin, Yuan Shi, Bin Xia, Wenming Yang
➡️ 研究机构: 清华大学、香港中文大学
➡️ 问题背景:多模态大语言模型(MLLMs)因其广泛的知识和强大的感知生成能力,在多种任务中产生了显著影响。然而,将MLLMs应用于低级视觉任务(如图像恢复)仍然是一个开放的研究问题。本文提出了一种基于MLLMs的图像恢复框架,即多模态大语言模型恢复助手(LLMRA),以填补这一空白。
➡️ 研究动机:尽管MLLMs在高级视觉任务中表现出色,但它们在低级视觉任务中的应用仍有限。现有方法主要集中在处理特定类型的图像退化,且训练数据集通常只包含单一类型的退化,这限制了它们处理其他类型退化的能力。LLMRA旨在通过结合预训练的多模态大语言模型和视觉语言模型,生成包含退化信息的文本描述,并将其编码为上下文嵌入,以实现更准确和可调的图像恢复。
➡️ 方法简介:研究团队提出了一种系统的方法,通过构建LLMRA框架,利用预训练的多模态大语言模型生成退化图像的文本描述,并通过上下文增强模块(CEM)和基于退化上下文的Transformer网络(DC-former)将这些描述集成到恢复网络中。CEM负责增强文本特征,而DC-former则负责将退化信息从文本特征传播到恢复网络。
➡️ 实验设计:在三个公开数据集上进行了实验,包括图像去噪、去雨和低光图像增强任务。实验设计了不同的退化类型(如噪声、雨和低光照),以全面评估模型在不同条件下的表现。实验结果表明,LLMRA在各种图像恢复任务中均取得了最先进的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2340267.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

卷积神经网络(CNN)详解

文章目录 引言1.卷积神经网络(CNN)的诞生背景2.卷积神经网络(CNN)介绍2.1 什么是卷积神经网络?2.2 卷积神经网络(CNN)的基本特征2.2.1 局部感知(Local Connectivity)2.2.…

【SF顺丰】顺丰开放平台API对接(注册、API测试篇)

1.注册开发者账号 注册地址:顺丰企业账户中心 2.登录开发平台 登录地址:顺丰开放平台 3.开发者对接 点击开发者对接 4.创建开发对接应用 开发者应用中“新建应用”创建应用,最多创建应用限制数量5个 注意:需要先复制保存生产校验…

VisualSVN过期后的解决方法

作为一款不错的源代码管理软件,svn还是有很多公司使用的。在vs中使用svn,大家一般用的都是VisualSVN插件。在30天试用期过后,它就不能被免费使用了。下面给大家讲如何免费延长过期时间(自定义天数,可以设定一个很大的值…

DeepSeek智能时空数据分析(二):3秒对话式搞定“等时圈”绘制

序言:时空数据分析很有用,但是GIS/时空数据库技术门槛太高 时空数据分析在优化业务运营中至关重要,然而,三大挑战仍制约其发展:技术门槛高,需融合GIS理论、SQL开发与时空数据库等多领域知识;空…

STM32学习2

一、OLED 1.1 OLED介绍 OLED(Organic Light Emitting Diode):有机发光二极管 OLED显示屏:性能优异的新型显示屏,具有功耗低、相应速度快、宽视角、轻薄柔韧等特点 0.96寸OLED模块:小巧玲珑、占用接口少…

LabVIEW液压系统远程监控与故障诊断

开发了一种基于LabVIEW的远程液压系统监控解决方案,通过先进的数据采集与分析技术,有效提升工程机械的运作效率和故障响应速度。该系统结合现场硬件设备和远程监控软件,实现了液压系统状态的实时检测和故障诊断,极大地提升了维护效…

Idea中实用设置和插件

目录 一、Idea使用插件 1.Fitten Code智能提示 2.MyBatisCodeHelperPro 3.HighlightBracketPair‌ 4.Rainbow Brackets Lite 5.GitToolBox(存在付费) 6.MavenHelperPro 7.Search In Repository 8.VisualGC(存在付费) 9.vo2dto 10.Key Promoter X 11.CodeGlance…

Java写数据结构:栈

1.概念: 一种特殊的线性表,其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端称为栈顶,另一端称为栈底。栈中的数据元素遵守后进先出LIFO(Last In First Out)的原则。 压栈:栈的插…

机器学习-08-推荐算法-案例

总结 本系列是机器学习课程的系列课程,主要介绍机器学习中关联规则 参考 机器学习(三):Apriori算法(算法精讲) Apriori 算法 理论 重点 MovieLens:一个常用的电影推荐系统领域的数据集 23张图&#x…

LLM中的N-Gram、TF-IDF和Word embedding

文章目录 1. N-Gram和TF-IDF:通俗易懂的解析1.1 N-Gram:让AI学会"猜词"的技术1.1.1 基本概念1.1.2 工作原理1.1.3 常见类型1.1.4 应用场景1.1.5 优缺点 1.2 TF-IDF:衡量词语重要性的尺子1.2.1 基本概念1.2.2 计算公式1.2.3 为什么需…

Office文件内容提取 | 获取Word文件内容 |Javascript提取PDF文字内容 |PPT文档文字内容提取

关于Office系列文件文字内容的提取 本文主要通过接口的方式获取Office文件和PDF、OFD文件的文字内容。适用于需要获取Word、OFD、PDF、PPT等文件内容的提取实现。例如在线文字统计以及论文文字内容的提取。 一、提取Word及WPS文档的文字内容。 支持以下文件格式: …

HXBC编译相关错误

0、Keil MDK报错:Browse information of one or more files is not available----解决方法: 1、使用cubemax生成的工程中,某些引脚自定义了的,是在main.h中,要记得移植。 注意:cubemax生成的spi.c后,在移植的时候,注意hal_driver下面要对应增加hal_stm32H7xxxspi.c …

运维概述(linux 系统)

1、运维的基本概念 2、企业的运行模式 3、计算机硬件 运维概述 运维岗位的定义 在技术人员(写代码的)之间,一致对运维有一个开玩笑的认知:运维就是修电脑的、装网线的、背锅的岗位。 IT运维管理是指为了保障企业IT系统及网络…

C语言 数据结构 【堆】动态模拟实现,堆排序,TOP-K问题

引言 堆的各个接口的实现(以代码注释为主),实现堆排序,解决经典问题:TOP-K问题 一、堆的概念与结构 堆 具有以下性质 • 堆中某个结点的值总是不大于或不小于其父结点的值; • 堆总是一棵完全二叉树。 二…

模型加载常见问题

safetensors_rust.SafetensorError: Error while deserializing header: HeaderTooLarge 问题代码: model AutoModelForVision2Seq.from_pretrained( "/data-nvme/yang/Qwen2.5-VL-32B-Instruct", trust_remote_codeTrue, torch_dtypetorc…

PyTorch 深度学习实战(37):分布式训练(DP/DDP/Deepspeed)实战

在上一篇文章中,我们探讨了混合精度训练与梯度缩放技术。本文将深入介绍分布式训练的三种主流方法:Data Parallel (DP)、Distributed Data Parallel (DDP) 和 DeepSpeed,帮助您掌握大规模模型训练的关键技术。我们将使用PyTorch在CIFAR-10分类…

微信小程序通过mqtt控制esp32

目录 1.注册巴法云 2.设备连接mqtt 3.微信小程序 备注 本文esp32用的是MicroPython固件,MQTT服务用的是巴法云。 本文参考巴法云官方教程:https://bemfa.blog.csdn.net/article/details/115282152 1.注册巴法云 注册登陆并新建一个topic&#xff…

1.Vue3 - 创建Vue3工程

目录 一、 基于vue-cli 脚手架二、基于vite 推荐2.1 介绍2.2 创建项目2.3 文件介绍2.3.1 extensions.json2.3.2 脚手架的根目录2.3.3 主要文件 src2.3.3.1 main.js2.3.3.2 App.vue 组件2.3.3.3 conponents 2.3.4 env.d.ts2.3.5 index.html 入口文件2.3.6 package2.3.7 tsconfig…

AI编写的“黑科技风格、自动刷新”的看板页面

以下的 index.html 、 script.js 和 styles.css 文件&#xff0c;实现一个具有黑科技风格、自动刷新的能源管理系统实时监控看板。 html页面 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name&q…

11-DevOps-Jenkins Pipeline流水线作业

前面已经完成了&#xff0c;通过在Jenkins中创建自由风格的工程&#xff0c;在界面上的配置&#xff0c;完成了发布、构建的过程。 这种方式的缺点就是如果要在另一台机器上进行同样的配置&#xff0c;需要一项一项去填写&#xff0c;不方便迁移&#xff0c;操作比较麻烦。 解…