Temporal Insight Enhancement: Mitigating Temporal Hallucination in Multimodal Large Language Models
➡️ 论文标题:Temporal Insight Enhancement: Mitigating Temporal Hallucination in Multimodal Large Language Models
➡️ 论文作者:Li Sun, Liuan Wang, Jun Sun, Takayuki Okatani
➡️ 研究机构: 北京富士通研发中心、东北大学信息科学研究生院、理化学研究所AIP中心
➡️ 问题背景:多模态大型语言模型(MLLMs)在多媒体内容理解方面取得了显著进展,但处理视频输入时,特别是在事件级别上,会出现幻觉问题,即错误的感知或解释。这种幻觉问题在视频内容中尤为突出,尤其是在按需事件查询中。
➡️ 研究动机:现有研究主要集中在对象级别的幻觉问题上,而事件级别的幻觉问题尚未得到充分研究。本研究旨在解决MLLMs在处理视频输入时的事件级别幻觉问题,通过引入一种新的框架来提取和利用事件特定信息,以提高模型的响应质量。
➡️ 方法简介:研究团队提出了一种新颖的方法,通过将按需事件查询分解为标志性动作,并利用CLIP和BLIP2等模型预测事件发生的具体时间戳,来纠正MLLMs的事件时间幻觉。该方法无需额外训练,成本低且可解释性强。
➡️ 实验设计:研究在Charades-STA数据集上进行了实验,设计了两个任务来评估MLLMs在预测事件发生时间和事件顺序方面的表现。实验结果表明,该方法显著减少了时间幻觉,提高了事件相关问题的响应质量。
Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences
➡️ 论文标题:Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences
➡️ 论文作者:Xiyao Wang, Yuhang Zhou, Xiaoyu Liu, Hongjin Lu, Yuancheng Xu, Feihong He, Jaehong Yoon, Taixi Lu, Gedas Bertasius, Mohit Bansal, Huaxiu Yao, Furong Huang
➡️ 研究机构: University of Maryland, College Park、UNC-Chapel Hill, Chapel Hill
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)在处理各种视觉-语言任务方面表现出色。然而,现有的MLLM基准测试主要评估基于单个图像的静态信息的推理能力,而对图像序列的推理能力,即理解不断变化的世界的能力,研究较少。为了应对这一挑战,本文介绍了Mementos,一个新的基准测试,旨在评估MLLMs在图像序列上的推理能力。Mementos包含4,761个不同长度的图像序列,涵盖了日常生活、机器人任务和漫画风格的故事板等多种场景。
➡️ 研究动机:尽管现有的MLLMs在处理静态图像方面表现出色,但它们在处理图像序列时往往会出现幻觉(即生成不准确的描述),尤其是在描述动态信息时。为了更全面地评估MLLMs在图像序列上的推理能力,研究团队开发了Mementos基准测试,并通过GPT-4辅助的方法评估了九个最新的MLLMs,包括GPT-4V和Gemini。研究发现,这些模型在处理图像序列时存在显著的物体和行为幻觉,尤其是在机器人和漫画领域。
➡️ 方法简介:研究团队构建了Mementos基准测试,该基准测试包含4,761个图像序列,涵盖了日常生活、机器人任务和漫画风格的故事板。每个序列都配有人类标注的描述,详细说明了主要物体及其行为。为了评估MLLMs的推理能力,研究团队采用了一种GPT-4辅助的评估方法,通过提取AI生成和人类标注描述中的行为和物体关键词,并使用关键词匹配来评估模型的幻觉程度。此外,研究团队还构建了行为和物体同义词图,以确保评估的准确性和细致性。
➡️ 实验设计:研究团队在Mementos基准测试上评估了九个最新的MLLMs,包括黑盒模型和开源模型。实验设计了不同的输入方式(如组合输入和顺序输入),并评估了模型在不同领域(日常生活、机器人和漫画)的表现。实验结果表明,MLLMs在处理图像序列时存在显著的物体和行为幻觉,尤其是在机器人和漫画领域。研究团队还通过定量分析和案例研究,识别了影响MLLMs推理能力的三个关键因素:物体和行为幻觉的相互作用、共现行为的影响以及行为幻觉的累积效应。
MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning
➡️ 论文标题:MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning
➡️ 论文作者:Chenyu Wang, Weixin Luo, Qianyu Chen, Haonan Mai, Jindi Guo, Sixun Dong, Xiaohua, Xuan, Zhengxin Li, Lin Ma, Shenghua Gao
➡️ 研究机构: ShanghaiTech University、Meituan、UniDT、Shanghai Engineering Research Center of Intelligent Vision and Imaging、Shanghai Engineering Research Center of Energy Efficient and Custom AI IC
➡️ 问题背景:大型语言模型(LLMs)在自然语言理解和生成任务中展现了卓越的性能,这激发了将其作为构建代理系统中心控制器的探索。然而,当前的LLMs在工具使用能力上受限于单一文本查询,这可能导致对用户真实意图理解的模糊性。为了消除这种模糊性,LLMs需要能够感知视觉或听觉指令的信息,从而更准确地选择匹配的工具。
➡️ 研究动机:现有的研究和系统主要集中在通过文本输入来扩展LLMs的功能,但这种方法在处理模糊或复杂的用户指令时存在局限性。本研究旨在通过引入多模态输入,增强LLMs对工具使用的感知和选择能力,从而解决这一问题。研究团队开发了MLLM-Tool系统,该系统结合了开源的LLMs和多模态编码器,能够处理多模态输入指令,并正确选择匹配的工具。
➡️ 方法简介:研究团队构建了一个名为ToolMMBench的多模态输入基准数据集,该数据集包含从HuggingFace平台收集的多模态输入工具,以及每个指令的多个潜在选择。通过这个数据集,研究团队评估了MLLM-Tool在处理多模态输入和选择合适工具方面的能力。MLLM-Tool系统使用了ImageBind作为主要的多模态编码器,并结合了多种领先的LLMs,如Vicuna、Llama等,通过低秩适应(LoRA)技术对模型进行微调,以减少可学习参数的数量。
➡️ 实验设计:研究团队设计了多种评估指标,包括针对不同模糊类型、多选项支持和不同模态输入的测试子集。实验结果表明,MLLM-Tool在工具选择上的准确率达到了88.19%,证明了该方法的有效性。此外,研究团队还计划在未来扩展系统的输出,包括API参数、代码执行结果和链式思维(CoT)提示等,以支持多轮对话。
InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance
➡️ 论文标题:InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance
➡️ 论文作者:Pengyu Wang, Dong Zhang, Linyang Li, Chenkun Tan, Xinghao Wang, Ke Ren, Botian Jiang, Xipeng Qiu
➡️ 研究机构: Fudan University, Shanghai Key Laboratory of Intelligent Information Processing
➡️ 问题背景:大型语言模型(LLMs)在多种AI应用中变得至关重要,但它们在实际应用中需要与人类价值观和意图对齐。当前的对齐方法,如监督微调(SFT)和基于人类反馈的强化学习(RLHF),主要集中在训练时间对齐,这些方法通常复杂且资源消耗大。因此,研究团队开发了InferAligner,一种利用跨模型指导的推理时间对齐方法,旨在提高模型的安全性,同时保持下游任务的性能。
➡️ 研究动机:现有的训练时间对齐方法虽然效果显著,但实施复杂且资源消耗大。而现有的推理时间对齐方法虽然简单易用,但对齐效果较差,且显著影响模型在下游任务中的性能。为了克服这些挑战,研究团队提出了InferAligner,通过跨模型指导在推理阶段实现无害性对齐。
➡️ 方法简介:InferAligner通过从安全对齐的模型中提取安全引导向量(SSVs),并在目标模型的推理阶段使用这些向量来修改激活,从而引导模型对恶意输入提供无害响应。具体来说,InferAligner首先利用安全相关向量(SRVs)来判断输入意图是否无害,如果检测到有害意图,则通过添加SSVs来调整激活,引导模型安全响应。
➡️ 实验设计:研究团队在三个领域(金融、医疗和数学)的特定数据集上进行了实验,评估了InferAligner在这些领域模型中的表现。实验设计了不同的安全性和实用性评估指标,包括攻击成功率(ASR)和下游任务的准确性。实验结果表明,InferAligner在显著降低有害指令和越狱攻击的ASR的同时,几乎不影响下游任务的性能。此外,研究团队还构建了第一个多模态安全数据集MM-Harmful Bench,用于评估多模态模型的安全性。
LLMRA: Multi-modal Large Language Model based Restoration Assistant
➡️ 论文标题:LLMRA: Multi-modal Large Language Model based Restoration Assistant
➡️ 论文作者:Xiaoyu Jin, Yuan Shi, Bin Xia, Wenming Yang
➡️ 研究机构: 清华大学、香港中文大学
➡️ 问题背景:多模态大语言模型(MLLMs)因其广泛的知识和强大的感知生成能力,在多种任务中产生了显著影响。然而,将MLLMs应用于低级视觉任务(如图像恢复)仍然是一个开放的研究问题。本文提出了一种基于MLLMs的图像恢复框架,即多模态大语言模型恢复助手(LLMRA),以填补这一空白。
➡️ 研究动机:尽管MLLMs在高级视觉任务中表现出色,但它们在低级视觉任务中的应用仍有限。现有方法主要集中在处理特定类型的图像退化,且训练数据集通常只包含单一类型的退化,这限制了它们处理其他类型退化的能力。LLMRA旨在通过结合预训练的多模态大语言模型和视觉语言模型,生成包含退化信息的文本描述,并将其编码为上下文嵌入,以实现更准确和可调的图像恢复。
➡️ 方法简介:研究团队提出了一种系统的方法,通过构建LLMRA框架,利用预训练的多模态大语言模型生成退化图像的文本描述,并通过上下文增强模块(CEM)和基于退化上下文的Transformer网络(DC-former)将这些描述集成到恢复网络中。CEM负责增强文本特征,而DC-former则负责将退化信息从文本特征传播到恢复网络。
➡️ 实验设计:在三个公开数据集上进行了实验,包括图像去噪、去雨和低光图像增强任务。实验设计了不同的退化类型(如噪声、雨和低光照),以全面评估模型在不同条件下的表现。实验结果表明,LLMRA在各种图像恢复任务中均取得了最先进的性能。