多模态大语言模型arxiv论文略读（二十九）

请添加图片描述

Temporal Insight Enhancement: Mitigating Temporal Hallucination in Multimodal Large Language Models

➡️ 论文标题：Temporal Insight Enhancement: Mitigating Temporal Hallucination in Multimodal Large Language Models
➡️ 论文作者：Li Sun, Liuan Wang, Jun Sun, Takayuki Okatani
➡️ 研究机构: 北京富士通研发中心、东北大学信息科学研究生院、理化学研究所AIP中心
➡️ 问题背景：多模态大型语言模型（MLLMs）在多媒体内容理解方面取得了显著进展，但处理视频输入时，特别是在事件级别上，会出现幻觉问题，即错误的感知或解释。这种幻觉问题在视频内容中尤为突出，尤其是在按需事件查询中。
➡️ 研究动机：现有研究主要集中在对象级别的幻觉问题上，而事件级别的幻觉问题尚未得到充分研究。本研究旨在解决MLLMs在处理视频输入时的事件级别幻觉问题，通过引入一种新的框架来提取和利用事件特定信息，以提高模型的响应质量。
➡️ 方法简介：研究团队提出了一种新颖的方法，通过将按需事件查询分解为标志性动作，并利用CLIP和BLIP2等模型预测事件发生的具体时间戳，来纠正MLLMs的事件时间幻觉。该方法无需额外训练，成本低且可解释性强。
➡️ 实验设计：研究在Charades-STA数据集上进行了实验，设计了两个任务来评估MLLMs在预测事件发生时间和事件顺序方面的表现。实验结果表明，该方法显著减少了时间幻觉，提高了事件相关问题的响应质量。

Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences

➡️ 论文标题：Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences
➡️ 论文作者：Xiyao Wang, Yuhang Zhou, Xiaoyu Liu, Hongjin Lu, Yuancheng Xu, Feihong He, Jaehong Yoon, Taixi Lu, Gedas Bertasius, Mohit Bansal, Huaxiu Yao, Furong Huang
➡️ 研究机构: University of Maryland, College Park、UNC-Chapel Hill, Chapel Hill
➡️ 问题背景：多模态大型语言模型（Multimodal Large Language Models, MLLMs）在处理各种视觉-语言任务方面表现出色。然而，现有的MLLM基准测试主要评估基于单个图像的静态信息的推理能力，而对图像序列的推理能力，即理解不断变化的世界的能力，研究较少。为了应对这一挑战，本文介绍了Mementos，一个新的基准测试，旨在评估MLLMs在图像序列上的推理能力。Mementos包含4,761个不同长度的图像序列，涵盖了日常生活、机器人任务和漫画风格的故事板等多种场景。
➡️ 研究动机：尽管现有的MLLMs在处理静态图像方面表现出色，但它们在处理图像序列时往往会出现幻觉（即生成不准确的描述），尤其是在描述动态信息时。为了更全面地评估MLLMs在图像序列上的推理能力，研究团队开发了Mementos基准测试，并通过GPT-4辅助的方法评估了九个最新的MLLMs，包括GPT-4V和Gemini。研究发现，这些模型在处理图像序列时存在显著的物体和行为幻觉，尤其是在机器人和漫画领域。
➡️ 方法简介：研究团队构建了Mementos基准测试，该基准测试包含4,761个图像序列，涵盖了日常生活、机器人任务和漫画风格的故事板。每个序列都配有人类标注的描述，详细说明了主要物体及其行为。为了评估MLLMs的推理能力，研究团队采用了一种GPT-4辅助的评估方法，通过提取AI生成和人类标注描述中的行为和物体关键词，并使用关键词匹配来评估模型的幻觉程度。此外，研究团队还构建了行为和物体同义词图，以确保评估的准确性和细致性。
➡️ 实验设计：研究团队在Mementos基准测试上评估了九个最新的MLLMs，包括黑盒模型和开源模型。实验设计了不同的输入方式（如组合输入和顺序输入），并评估了模型在不同领域（日常生活、机器人和漫画）的表现。实验结果表明，MLLMs在处理图像序列时存在显著的物体和行为幻觉，尤其是在机器人和漫画领域。研究团队还通过定量分析和案例研究，识别了影响MLLMs推理能力的三个关键因素：物体和行为幻觉的相互作用、共现行为的影响以及行为幻觉的累积效应。

MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning

➡️ 论文标题：MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning
➡️ 论文作者：Chenyu Wang, Weixin Luo, Qianyu Chen, Haonan Mai, Jindi Guo, Sixun Dong, Xiaohua, Xuan, Zhengxin Li, Lin Ma, Shenghua Gao
➡️ 研究机构: ShanghaiTech University、Meituan、UniDT、Shanghai Engineering Research Center of Intelligent Vision and Imaging、Shanghai Engineering Research Center of Energy Efficient and Custom AI IC
➡️ 问题背景：大型语言模型（LLMs）在自然语言理解和生成任务中展现了卓越的性能，这激发了将其作为构建代理系统中心控制器的探索。然而，当前的LLMs在工具使用能力上受限于单一文本查询，这可能导致对用户真实意图理解的模糊性。为了消除这种模糊性，LLMs需要能够感知视觉或听觉指令的信息，从而更准确地选择匹配的工具。
➡️ 研究动机：现有的研究和系统主要集中在通过文本输入来扩展LLMs的功能，但这种方法在处理模糊或复杂的用户指令时存在局限性。本研究旨在通过引入多模态输入，增强LLMs对工具使用的感知和选择能力，从而解决这一问题。研究团队开发了MLLM-Tool系统，该系统结合了开源的LLMs和多模态编码器，能够处理多模态输入指令，并正确选择匹配的工具。
➡️ 方法简介：研究团队构建了一个名为ToolMMBench的多模态输入基准数据集，该数据集包含从HuggingFace平台收集的多模态输入工具，以及每个指令的多个潜在选择。通过这个数据集，研究团队评估了MLLM-Tool在处理多模态输入和选择合适工具方面的能力。MLLM-Tool系统使用了ImageBind作为主要的多模态编码器，并结合了多种领先的LLMs，如Vicuna、Llama等，通过低秩适应（LoRA）技术对模型进行微调，以减少可学习参数的数量。
➡️ 实验设计：研究团队设计了多种评估指标，包括针对不同模糊类型、多选项支持和不同模态输入的测试子集。实验结果表明，MLLM-Tool在工具选择上的准确率达到了88.19%，证明了该方法的有效性。此外，研究团队还计划在未来扩展系统的输出，包括API参数、代码执行结果和链式思维（CoT）提示等，以支持多轮对话。

InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance

➡️ 论文标题：InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance
➡️ 论文作者：Pengyu Wang, Dong Zhang, Linyang Li, Chenkun Tan, Xinghao Wang, Ke Ren, Botian Jiang, Xipeng Qiu
➡️ 研究机构: Fudan University, Shanghai Key Laboratory of Intelligent Information Processing
➡️ 问题背景：大型语言模型（LLMs）在多种AI应用中变得至关重要，但它们在实际应用中需要与人类价值观和意图对齐。当前的对齐方法，如监督微调（SFT）和基于人类反馈的强化学习（RLHF），主要集中在训练时间对齐，这些方法通常复杂且资源消耗大。因此，研究团队开发了InferAligner，一种利用跨模型指导的推理时间对齐方法，旨在提高模型的安全性，同时保持下游任务的性能。
➡️ 研究动机：现有的训练时间对齐方法虽然效果显著，但实施复杂且资源消耗大。而现有的推理时间对齐方法虽然简单易用，但对齐效果较差，且显著影响模型在下游任务中的性能。为了克服这些挑战，研究团队提出了InferAligner，通过跨模型指导在推理阶段实现无害性对齐。
➡️ 方法简介：InferAligner通过从安全对齐的模型中提取安全引导向量（SSVs），并在目标模型的推理阶段使用这些向量来修改激活，从而引导模型对恶意输入提供无害响应。具体来说，InferAligner首先利用安全相关向量（SRVs）来判断输入意图是否无害，如果检测到有害意图，则通过添加SSVs来调整激活，引导模型安全响应。
➡️ 实验设计：研究团队在三个领域（金融、医疗和数学）的特定数据集上进行了实验，评估了InferAligner在这些领域模型中的表现。实验设计了不同的安全性和实用性评估指标，包括攻击成功率（ASR）和下游任务的准确性。实验结果表明，InferAligner在显著降低有害指令和越狱攻击的ASR的同时，几乎不影响下游任务的性能。此外，研究团队还构建了第一个多模态安全数据集MM-Harmful Bench，用于评估多模态模型的安全性。

LLMRA: Multi-modal Large Language Model based Restoration Assistant

➡️ 论文标题：LLMRA: Multi-modal Large Language Model based Restoration Assistant
➡️ 论文作者：Xiaoyu Jin, Yuan Shi, Bin Xia, Wenming Yang
➡️ 研究机构: 清华大学、香港中文大学
➡️ 问题背景：多模态大语言模型（MLLMs）因其广泛的知识和强大的感知生成能力，在多种任务中产生了显著影响。然而，将MLLMs应用于低级视觉任务（如图像恢复）仍然是一个开放的研究问题。本文提出了一种基于MLLMs的图像恢复框架，即多模态大语言模型恢复助手（LLMRA），以填补这一空白。
➡️ 研究动机：尽管MLLMs在高级视觉任务中表现出色，但它们在低级视觉任务中的应用仍有限。现有方法主要集中在处理特定类型的图像退化，且训练数据集通常只包含单一类型的退化，这限制了它们处理其他类型退化的能力。LLMRA旨在通过结合预训练的多模态大语言模型和视觉语言模型，生成包含退化信息的文本描述，并将其编码为上下文嵌入，以实现更准确和可调的图像恢复。
➡️ 方法简介：研究团队提出了一种系统的方法，通过构建LLMRA框架，利用预训练的多模态大语言模型生成退化图像的文本描述，并通过上下文增强模块（CEM）和基于退化上下文的Transformer网络（DC-former）将这些描述集成到恢复网络中。CEM负责增强文本特征，而DC-former则负责将退化信息从文本特征传播到恢复网络。
➡️ 实验设计：在三个公开数据集上进行了实验，包括图像去噪、去雨和低光图像增强任务。实验设计了不同的退化类型（如噪声、雨和低光照），以全面评估模型在不同条件下的表现。实验结果表明，LLMRA在各种图像恢复任务中均取得了最先进的性能。