多模态大语言模型arxiv论文略读（十九）

请添加图片描述

MLLMs-Augmented Visual-Language Representation Learning

➡️ 论文标题：MLLMs-Augmented Visual-Language Representation Learning
➡️ 论文作者：Yanqing Liu, Kai Wang, Wenqi Shao, Ping Luo, Yu Qiao, Mike Zheng Shou, Kaipeng Zhang, Yang You
➡️ 研究机构: National University of Singapore、OpenGVLab (Shanghai AI Laboratory)、The University of Hong Kong
➡️ 问题背景：视觉-语言预训练在图像-文本检索、图像分类、视觉问答和图像标题生成等多模态任务中取得了显著成功，这主要归功于大规模图像-文本数据集的可用性。然而，这些数据集中存在大量噪声和不匹配的图像-文本对，严重影响了视觉-语言表示学习的效果。尽管有研究尝试通过预训练模型识别和移除不匹配的对，但这种方法会减少训练对的数量，从而影响模型性能。
➡️ 研究动机：现有的方法在移除不匹配的图像-文本对时，虽然减少了噪声，但也减少了训练数据量，导致性能下降。最近的研究表明，可以利用大型语言模型（LLMs）和多模态大型语言模型（MLLMs）来重写和增强图像标题，以提高数据质量，但这些方法引入了模型的固有偏差。因此，研究团队提出了一种利用多个MLLMs生成多样化标题的方法，旨在提高视觉-语言表示学习的性能，同时减少模型的固有偏差。
➡️ 方法简介：研究团队提出了一种利用多个MLLMs生成多样化标题的方法，通过“文本剪切”技术来控制生成标题的长度，减少模型幻觉和单调语言风格的影响。具体来说，团队首先使用多个MLLMs为每个图像生成多个标题，然后通过“文本剪切”技术将生成的标题长度调整为与原始标题相同，最后将原始标题和生成的标题一起用于标准的视觉-语言预训练。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括CC3M、CC12M和YFCC15M。实验评估了在零样本和微调设置下，使用CLIP和BLIP模型进行图像-文本检索和图像分类的性能。实验结果表明，该方法在零样本和微调设置下均显著提高了模型的性能，特别是在图像-文本检索任务中，零样本设置下的R@1指标提高了16.8%至46.1%。此外，该方法在图像分类任务中也取得了显著的性能提升，平均提高了13.4%。

CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation

➡️ 论文标题：CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation
➡️ 论文作者：Zineng Tang, Ziyi Yang, Mahmoud Khademi, Yang Liu, Chenguang Zhu, Mohit Bansal
➡️ 研究机构: UC Berkeley、Microsoft Azure AI、Zoom、UNC Chapel Hill
➡️ 问题背景：多模态生成领域近年来取得了显著进展，如从用户提供的提示生成高保真图像、视频、音频和音乐样本。然而，当前的多模态生成模型（MGM）在零样本细粒度和复杂用户控制、多轮指令跟随以及多模态输入理解方面仍面临挑战。这些问题限制了模型在特定任务上的表现，如通过“类比”设置复制或转移编辑效果，以及主题驱动的生成。
➡️ 研究动机：为了克服上述挑战，研究团队提出了CoDi-2，一个能够处理任意模态输入并生成任意模态输出的多模态大型语言模型（MLLM）。CoDi-2不仅能够理解复杂的多模态交错指令，还能在多轮对话中保持响应的一致性和忠实性，从而实现编辑、推理和组合任务等。
➡️ 方法简介：CoDi-2通过将所有模态映射到语言空间，并通过编码器和同步解码器将这些模态连接到大型语言模型（LLM），从而处理多模态输入。在生成过程中，MLLM自回归地预测输出模态的特征，这些特征随后被输入到（同步的）扩散模型中。这种端到端的任意模态生成框架使CoDi-2能够进行复杂的推理，理解并生成多种模态，支持多样化的任务，如模仿、编辑、组合创作等。
➡️ 实验设计：研究团队构建了一个大规模的生成数据集，涵盖了文本、视觉和音频的在上下文中的多模态指令。实验设计了多种任务，包括音频融合和编辑、图像生成与复杂组合、使用上下文示例、复杂推理以及理解和生成视频。这些任务在零样本和少样本提示设置下展示了强大的能力，证明了系统的适应性和在不同场景下的稳健性能。

Merlin:Empowering Multimodal LLMs with Foresight Minds

➡️ 论文标题：Merlin:Empowering Multimodal LLMs with Foresight Minds
➡️ 论文作者：En Yu, Liang Zhao, Yana Wei, Jinrong Yang, Dongming Wu, Lingyu Kong, Haoran Wei, Tiancai Wang, Zheng Ge, Xiangyu Zhang, Wenbing Tao
➡️ 研究机构: 华中科技大学、北京理工大学、中国科学院大学、上海科技大学、MEGVII Technology
➡️ 问题背景：现有的多模态大语言模型（Multimodal Large Language Models, MLLMs）在图像理解和逻辑推理方面表现出显著潜力，但它们在基于当前图像观察预测未来事件方面存在不足。即使提供了额外的观察，如多帧序列，这些模型仍然难以充分分析和推断特定目标的行为，如预测物体运动或交互。
➡️ 研究动机：为了弥补现有MLLMs在预测未来事件方面的不足，研究团队提出了一种新的方法，通过建模未来来赋予MLLMs“预见能力”。该方法旨在通过轨迹建模，使模型能够理解时空动态，并基于当前观察进行复杂的未来推理。
➡️ 方法简介：研究团队提出了两种训练方法：1) Foresight Pre-Training (FPT)，通过因果建模多帧图像中的轨迹，使模型能够从初始观察预测整个轨迹；2) Foresight Instruction-Tuning (FIT)，通过结合轨迹建模，使模型能够基于预测的轨迹进行未来事件的推理。这两种方法共同构建了一个统一的MLLM，称为Merlin，能够处理单张图像或多帧视频的输入，并进行复杂的未来推理。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括物体检测、物体跟踪、视觉关系理解等任务。实验设计了多种任务，如多帧图像的轨迹预测和未来事件的推理，以全面评估Merlin的性能。实验结果表明，Merlin在未来的推理和视觉理解任务中表现出色，显著超越了现有的基线模型。

RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback

➡️ 论文标题：RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback
➡️ 论文作者：Tianyu Yu, Yuan Yao, Haoye Zhang, Taiwen He, Yifeng Han, Ganqu Cui, Jinyi Hu, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun, Tat-Seng Chua
➡️ 研究机构: Tsinghua University、National University of Singapore
➡️ 问题背景：多模态大语言模型（MLLMs）在多模态理解、推理和交互方面展现了显著的能力。然而，这些模型普遍存在严重的幻觉问题，即生成与关联图像事实不符的文本，这使得MLLMs在现实世界中（尤其是在高风险应用中）不可信赖。
➡️ 研究动机：研究团队提出RLHF-V框架，通过从细粒度校正的人类反馈中对MLLMs的行为进行对齐，以增强模型的可信度。该框架旨在解决现有MLLMs行为与人类偏好不一致的问题，特别是减少模型生成的幻觉。
➡️ 方法简介：RLHF-V框架包括两个关键创新：（1）在数据层面，收集以细粒度段落级校正形式的人类反馈，直接纠正模型输出中的幻觉部分，提供清晰、密集和细粒度的人类偏好，以及最优响应。（2）在方法层面，提出密集直接偏好优化（DDPO），这是一种新的DPO变体，通过监督学习方式直接优化策略模型，以减少幻觉。
➡️ 实验设计：研究团队在五个基准数据集上进行了实验，评估了RLHF-V在减少幻觉和提高模型可信度方面的效果。实验结果表明，使用1.4k偏好数据，RLHF-V显著降低了基础MLLM的物体幻觉率34.8%，优于使用10k偏好数据训练的LLaVA-RLHF。此外，RLHF-V在防止由过度泛化引起的幻觉方面表现出比GPT-4V更好的鲁棒性。

CLAMP: Contrastive LAnguage Model Prompt-tuning

➡️ 论文标题：CLAMP: Contrastive LAnguage Model Prompt-tuning
➡️ 论文作者：Piotr Teterwak, Ximeng Sun, Bryan A. Plummer, Kate Saenko, Ser-Nam Lim
➡️ 研究机构: Boston University、University of Central Florida
➡️ 问题背景：大型语言模型（LLMs）在多种机器学习任务中展现出强大的通用接口能力。最近的研究通过少量的指令调优数据，将LLMs适应于视觉任务，如图像描述、视觉问答和视觉聊天。然而，这些多模态LLMs（mLLMs）在图像分类任务中的表现却远不如专门的模型，如CLIP。尽管LLMs拥有丰富的世界知识，但在零样本图像分类任务中的表现却令人失望。
➡️ 研究动机：研究团队旨在探索现代LLMs是否可以通过适应来执行基本的视觉任务，如图像分类。研究发现，生成式训练目标（如生成式描述和指令调优）不足以支持有效的分类任务。因此，研究团队提出了一种新的方法，通过对比学习目标对LLMs进行参数高效的微调，以增强其分类能力。
➡️ 方法简介：研究团队提出了Contrastive LAnguage Model Prompt-tuning (CLAMP)方法，通过使用对比学习目标对LLMs进行微调，以替代对比视觉-语言模型中的文本编码器。CLAMP通过学习输出注意力池化、只读提示和低秩更新（LoRA）来对LLM进行微调，从而在保持生成能力的同时提高分类性能。
➡️ 实验设计：研究团队在24个零样本图像分类数据集上进行了实验，包括细粒度数据集（如Stanford Cars和Aircraft）、自然但具有挑战性的数据集（如EuroSAT和ImageNet）以及合成数据（如Kitti）。实验结果表明，CLAMP在零样本分类任务上显著优于现有的mLLMs和对比视觉-语言模型（LiT），尤其是在概念覆盖率较低的数据集上。此外，CLAMP还保留了LLMs的生成能力，展示了其作为通用模型的潜力。