多模态大语言模型arxiv论文略读（七）

请添加图片描述

MLLM-DataEngine: An Iterative Refinement Approach for MLLM

➡️ 论文标题：MLLM-DataEngine: An Iterative Refinement Approach for MLLM
➡️ 论文作者：Zhiyuan Zhao, Linke Ouyang, Bin Wang, Siyuan Huang, Pan Zhang, Xiaoyi Dong, Jiaqi Wang, Conghui He
➡️ 研究机构: Shanghai AI Laboratory
➡️ 问题背景：多模态大语言模型（MLLMs）在指令数据集构建和基准测试方面取得了显著进展。然而，训练和评估的独立性使得当前的MLLMs难以在评估结果的指导下进一步提升能力，尤其是在人力成本相对较低的情况下。此外，现有的数据收集方法与基准测试分离，导致生成的数据针对性、质量和正确性不足。
➡️ 研究动机：为了解决上述问题，研究团队提出了MLLM-DataEngine，旨在通过数据生成、模型训练和评估的闭环系统，实现数据和模型性能的迭代提升。该系统能够根据评估结果生成针对性更强、质量更高、正确性更好的增量数据集，从而在少量人力参与的情况下，有效提升模型能力。
➡️ 方法简介：MLLM-DataEngine通过四个主要步骤实现其目标：1) 模型评估：识别模型的弱点并收集不良案例；2) 查询构建：使用自适应不良案例采样（ABS）模块选择合适的查询图像和上下文学习示例；3) 数据生成：利用GPT-4生成高质量的问答数据，并通过交互式提示优化（IPO）策略提高数据质量；4) 模型训练：根据最新生成的数据对模型进行微调，并循环回到模型评估阶段。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括MMBenchmark和A-OKVQA。实验设计了不同的微调策略（如仅微调投影层和LoRA微调），以评估生成数据对模型性能的影响。实验结果表明，MLLM-DataEngine能够显著提升模型性能和数据质量，尤其是在迭代过程中。

Enhancing Subtask Performance of Multi-modal Large Language Model

➡️ 论文标题：Enhancing Subtask Performance of Multi-modal Large Language Model
➡️ 论文作者：Yongqiang Zhao, Zhenyu Li, Feng Zhang, Xinhai Xu, Donghong Liu
➡️ 研究机构: Peking University、Academy of Military Science
➡️ 问题背景：多模态大型语言模型（MLLMs）通过大型语言模型（LLMs）的认知引擎处理和推断多模态数据，成为多模态理解研究和应用的重要推动力。现有的MLLMs通常通过LLMs将任务分解为多个子任务，使用单个预训练模型完成特定子任务，最后再通过LLMs整合所有子任务的结果以获得最终任务结果。然而，这种方法在实际应用中难以确保每个子任务的最佳结果，从而影响整体任务的性能。
➡️ 研究动机：为了提高MLLMs的子任务性能，研究团队提出了一种新方法，即利用多个预训练模型完成同一子任务，并通过LLMs选择最佳结果。这种方法旨在通过多模型的协同工作，提高子任务结果的准确性和可靠性，从而增强MLLMs的整体性能。
➡️ 方法简介：研究团队提出了一种系统的方法，包括任务规划、最佳子任务结果获取和响应生成三个部分。在任务规划阶段，模型从用户输入请求中识别子任务需求，并提取相关数据和上下文信息。在最佳子任务结果获取阶段，为每个子任务选择多个预训练模型并并行执行，通过LLMs分析和选择最佳结果。在响应生成阶段，模型整合所有子任务的最佳结果，生成最终响应。
➡️ 实验设计：研究团队在GPT-4标注数据集和人工标注数据集上进行了实验，评估了模型在单任务、顺序任务和图任务中的性能。实验结果表明，所提出的方法在所有任务中均显著优于现有的HuggingGPT模型，特别是在F1分数和编辑距离等指标上表现突出。

MultiWay-Adapater: Adapting large-scale multi-modal models for scalable image-text retrieval

➡️ 论文标题：MultiWay-Adapater: Adapting large-scale multi-modal models for scalable image-text retrieval
➡️ 论文作者：Zijun Long, George Killick, Richard McCreadie, Gerardo Aragon Camarasa
➡️ 研究机构: The University of Glasgow, Scotland, UK
➡️ 问题背景：随着多模态大语言模型（MLLMs）的规模不断增大，针对特定任务的模型适应变得越来越具有挑战性，主要原因是高计算和内存需求。传统的微调方法成本高昂，需要大量的任务特定训练。虽然存在一些高效的适应方法，但它们通常存在模态间对齐浅的问题，严重影响了模型的有效性。
➡️ 研究动机：现有的高效适应方法虽然减少了计算成本，但模态间对齐不足，导致模型在多模态任务中的表现不佳。为了克服这一问题，研究团队提出了一种新的框架——MultiWay-Adapter（MWA），旨在通过增强模态间对齐来提高模型的适应性和有效性。
➡️ 方法简介：MWA框架包含两个核心组件：新知识提取器（New Knowledge Extractor）和模态增强器（Alignment Enhancer）。新知识提取器用于从下游任务中提取新知识，而模态增强器则通过增强模态间的对齐来提高模型的性能。MWA通过仅微调新添加的模块，显著减少了计算资源的消耗。
➡️ 实验设计：研究团队在两个最先进的多模态大语言模型（BEiT-3 Base和BEiT-3 Large）上进行了实验，使用了两个广泛使用的图像-文本检索数据集（MSCOCO和Flickr30K）。实验设计了不同的参数设置，包括不同的中间维度和训练参数比例，以全面评估MWA在不同条件下的性能。实验结果表明，MWA不仅在微调性能上优于传统的全模型微调方法，而且在零样本性能上也表现出色，同时显著减少了计算时间和资源消耗。

Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness and Ethics

➡️ 论文标题：Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness and Ethics
➡️ 论文作者：Haoqin Tu, Bingchen Zhao, Chen Wei, Cihang Xie
➡️ 研究机构: University of Chinese Academy of Sciences、University of Edinburgh、Johns Hopkins University、UC Santa Cruz
➡️ 问题背景：多模态大型语言模型（MLLMs）在多种任务中展现了卓越的能力，尤其是在视觉-语言理解和生成任务中。然而，这些模型在纯自然语言处理（NLP）任务中的表现往往被低估，且未得到充分测试。研究发现，视觉指令调优（Visual Instruction Tuning, VIT）不仅能够提升模型的多模态能力，还能意外地增强模型在纯NLP任务中的真实性和伦理一致性。
➡️ 研究动机：尽管多模态模型在视觉任务中表现出色，但其在纯NLP任务中的表现和潜在改进尚未得到充分探索。本研究旨在通过视觉指令调优，探讨多模态训练如何影响大型语言模型（LLMs）在纯NLP任务中的表现，特别是真实性和伦理一致性。
➡️ 方法简介：研究团队采用了一种系统的方法，通过多模态数据集对LLMs进行调优，包括视觉-语言连接器的训练和LLMs的微调。实验中使用了80k的多模态数据集，这些数据集包含图像和文本对，用于评估模型在不同任务中的表现。
➡️ 实验设计：实验在多个基准数据集上进行，包括TruthfulQA和Ethics，以评估模型在真实性和伦理一致性方面的表现。实验设计了不同的调优方法（如全参数微调和LoRA微调），以及不同的数据类型（如对话、细节和推理数据），以全面评估视觉指令调优对模型性能的影响。结果表明，视觉指令调优不仅能够显著提升模型在真实性和伦理一致性方面的表现，而且在某些情况下还能保持或提升模型在标准NLP任务中的能力。

Are Multilingual LLMs Culturally-Diverse Reasoners? An Investigation into Multicultural Proverbs and Sayings

➡️ 论文标题：Are Multilingual LLMs Culturally-Diverse Reasoners? An Investigation into Multicultural Proverbs and Sayings
➡️ 论文作者：Chen Cecilia Liu, Fajri Koto, Timothy Baldwin, Iryna Gurevych
➡️ 研究机构: Ubiquitous Knowledge Processing Lab, Technical University of Darmstadt, Natural Language Processing Department, MBZUAI
➡️ 问题背景：大型语言模型（LLMs）在问答和推理任务中表现出色，但在情境推理中，不同文化背景下的期望可能有所不同。语言与文化紧密相连，因此多语言LLMs（mLLMs）应具备跨文化的推理能力。然而，现有研究对跨语言设置中的文化共同基础理解不足，且在现有LLM文献中被忽视。
➡️ 研究动机：研究团队旨在通过研究mLLMs在处理谚语和俗语时的表现，探讨这些模型是否嵌入了文化共同基础的知识，以及这种知识如何影响其推理性能。此外，研究还探讨了mLLMs是否能在需要理解文化共同基础的情境中进行推理，以及在跨文化推理中是否存在文化差距。
➡️ 方法简介：研究团队构建了MAPS（MulticulturAl Proverbs and Sayings）数据集，该数据集包含来自六种不同语言的谚语和俗语，以及在对话情境中使用这些谚语的推理任务。数据集还包括二元标签，指示谚语的使用是否具有隐喻性。通过这一数据集，研究团队评估了多种开源mLLMs在谚语记忆和推理方面的能力。
➡️ 实验设计：研究团队设计了一系列实验，使用MAPS数据集评估了多种开源mLLMs在谚语记忆和推理任务中的表现。实验包括零样本评估和少量样本评估，以探讨模型在不同语言和文化背景下的表现。此外，研究还通过机器翻译和人工适应翻译，评估了跨文化推理中的文化差距。