多模态大语言模型arxiv论文略读（二）

请添加图片描述

Identifying the Correlation Between Language Distance and Cross-Lingual Transfer in a Multilingual Representation Space

➡️ 论文标题：Identifying the Correlation Between Language Distance and Cross-Lingual Transfer in a Multilingual Representation Space
➡️ 论文作者：Fred Philippy, Siwen Guo, Shohreh Haddadan
➡️ 研究机构: Zortify Labs, Zortify S.A., SnT, University of Luxembourg
➡️ 问题背景：多语言语言模型（MLLMs）在跨语言迁移学习中表现出色，但其在不同语言表示空间中的影响以及这些影响如何与语言距离相关联，尚未得到充分研究。尽管最先进的MLLMs如mBERT和XLM-R旨在将文本投影到语言无关的嵌入空间，但实证研究表明，这些模型在所有层中编码了特定语言的信息，这导致了在共享的多语言表示空间中识别出不同的单语表示空间的可能性。
➡️ 研究动机：现有研究主要关注MLLMs在微调过程中的跨语言对齐，而较少关注微调对每个语言表示空间的绝对影响。本研究旨在通过分析语言特征对跨语言迁移性能的影响，以及这些特征与表示空间变化之间的关系，来填补这一研究空白。此外，研究还探讨了如何利用这些发现来增强对语言距离较远的语言的迁移性能。
➡️ 方法简介：研究团队使用12层的多语言BERT模型（bert-base-multilingual-cased），在XNLI数据集的15种语言上进行自然语言推理（NLI）任务的微调。通过计算微调前后不同目标语言样本的隐藏表示之间的相似性，使用中心化核对齐（CKA）方法来衡量表示空间的影响。此外，研究还使用了五种语言距离度量（句法、地理、库存、遗传和音系距离）来量化语言之间的距离。
➡️ 实验设计：实验设计包括三个部分：1) 测量微调对表示空间的影响；2) 分析表示空间影响与语言距离之间的相关性；3) 探索通过选择性冻结特定层来改善对语言距离较远的语言的迁移性能的可能性。实验结果表明，语言距离、表示空间影响和迁移性能之间存在显著的相关性，且这种相关性在模型的深层更为明显。通过选择性冻结特定层，可以减少对语言距离较远的语言的迁移性能差距。

LMEye: An Interactive Perception Network for Large Language Models

➡️ 论文标题：LMEye: An Interactive Perception Network for Large Language Models
➡️ 论文作者：Yunxin Li, Baotian Hu, Xinyu Chen, Lin Ma, Yong Xu, Min Zhang
➡️ 研究机构: Harbin Institute of Technology, Shenzhen、Meituan, Beijing
➡️ 问题背景：多模态大型语言模型（MLLMs）在多种多模态理解和生成任务中展现了卓越的能力。然而，训练一个从零开始的MLLM，如GPT-4，需要大量的资源。现有的方法通过将视觉信息映射到语言模型的表示空间，使大型语言模型（LLMs）能够处理多模态信息，但这些方法通常只进行一次视觉特征的转换，不考虑图像与人类输入查询之间的交互，导致LLMs可能无法获得足够的视觉信息来生成符合意图的响应。
➡️ 研究动机：为了使LLMs能够根据不同的用户指令请求所需的视觉信息，研究团队提出了LMEye，一个具有交互感知网络的人类眼睛模型。LMEye允许LLMs动态地与外部视觉信息进行交互，从而提高其在多模态任务中的性能，尤其是在零样本学习场景下。
➡️ 方法简介：LMEye主要由两个阶段组成：1）特征对齐阶段，通过一个简单的视觉映射网络提供图像的基本感知信息；2）请求基础的视觉信息交互模块（RVII），负责从LLMs获取请求，执行基于请求的视觉信息交互，并将交互后的视觉信息传输回LLMs。通过这种方式，LLMs能够理解人类查询，发送请求以获取额外所需的视觉信息，并基于交织的多模态信息生成响应。
➡️ 实验设计：研究团队在多个多模态基准数据集上进行了广泛的实验，包括MMBench和SEED-Bench，以评估LMEye在不同任务上的性能。实验结果表明，LMEye在使用较少参数的情况下，显著提高了零样本学习在各种多模态任务上的性能，尤其是在逻辑推理、属性推理和关系推理方面表现突出。

What Makes for Good Visual Tokenizers for Large Language Models?

➡️ 论文标题：What Makes for Good Visual Tokenizers for Large Language Models?
➡️ 论文作者：Guangzhi Wang, Yixiao Ge, Xiaohan Ding, Mohan Kankanhalli, Ying Shan
➡️ 研究机构: National University of Singapore, ARC Lab, Tencent PCG, Tencent AI Lab
➡️ 问题背景：大型语言模型（LLMs）在多种下游任务中表现出色，无需特定任务的微调。最近，基于强大的LLMs，研究者成功地将LLMs适应于视觉-语言任务，形成了强大的多模态LLMs（MLLMs）。然而，关于这些MLLMs的视觉理解能力，特别是视觉语义理解和细粒度视觉感知能力的全面评估尚未得到充分研究。
➡️ 研究动机：尽管CLIP在图像表示方面表现出色，但其是否是MLLMs的最佳视觉分词器尚未明确。为了探索这一点，研究团队创建了一个新的基准（GVTBench），旨在从视觉语义理解和细粒度视觉感知两个重要视角评估MLLMs的视觉理解能力。
➡️ 方法简介：研究团队通过比较不同预训练方法（包括全监督、弱监督和自监督）的视觉分词器，系统地评估了这些模型在GVTBench上的表现。研究发现，全监督和弱监督模型在语义表示能力上优于自监督模型，但随着预训练数据集的扩大，这种差距逐渐缩小。自监督模型在细粒度视觉感知方面表现更好，特别是区域级理解。此外，研究还发现，对视觉分词器进行联合调优会导致语义损失。
➡️ 实验设计：实验在多个数据集上进行，包括VQA、图像描述、对象计数和多类识别任务。实验设计了不同的因素，如视觉分词器的联合调优、不同的预训练策略等，以全面评估模型的视觉理解能力。研究团队还探讨了结合语义和区域监督的方法，但发现这些方法在细粒度视觉理解任务上的表现不佳，且会导致语义损失。基于这些发现，研究团队提出了一种新的视觉分词器（GVT），通过特征蒸馏方法在不使用掩码策略的情况下，保留了丰富的语义信息，同时增强了细粒度视觉感知能力。GVT在多个任务上表现出色，特别是在视觉问题回答和图像描述任务上。

How do languages influence each other? Studying cross-lingual data sharing during LM fine-tuning

➡️ 论文标题：How do languages influence each other? Studying cross-lingual data sharing during LM fine-tuning
➡️ 论文作者：Rochelle Choenni, Dan Garrette, Ekaterina Shutova
➡️ 研究机构: University of Amsterdam, Google Research
➡️ 问题背景：多语言模型（MLMs）通过联合训练多种语言的数据，使得每种语言的表示可以从其他语言的数据中受益。尽管这些模型在零样本跨语言迁移任务中表现出色，但它们在多大程度上以及在什么条件下依赖其他语言的数据仍不清楚。
➡️ 研究动机：为了回答上述问题，研究团队使用了TracIn（Pruthi et al., 2020），一种训练数据归因（TDA）方法，来识别对特定测试预测最有影响力的训练样本。这使得研究团队能够从数据依赖的角度分析MLMs的跨语言共享机制，从而为理解模型在推理时如何利用多语言数据提供了新的视角。
➡️ 方法简介：研究团队提出了一种系统的方法，通过使用TracIn方法，追踪训练样本对测试样本预测的影响。具体来说，研究团队计算了每个训练样本对测试样本预测的影响力分数，这些分数反映了如果在训练过程中排除某个训练样本，测试样本的损失会如何变化。通过这种方法，研究团队能够分析MLMs在不同任务和语言上的跨语言数据依赖性。
➡️ 实验设计：研究团队在三个多语言文本分类任务上进行了实验，包括自然语言推理（NLI）、同义句识别（Paraphrasing）和情感分析（Sentiment Analysis）。实验设计了不同的语言组合和任务设置，以评估模型在不同条件下的跨语言数据依赖性。研究团队还通过移除最具影响力的训练样本，定量测试了这些样本对模型预测置信度的影响，以验证影响力分数的有效性。

PathAsst: A Generative Foundation AI Assistant Towards Artificial General Intelligence of Pathology

➡️ 论文标题：PathAsst: A Generative Foundation AI Assistant Towards Artificial General Intelligence of Pathology
➡️ 论文作者：Yuxuan Sun, Chenglu Zhu, Sunyi Zheng, Kai Zhang, Lin Sun, Zhongyi Shui, Yunlong Zhang, Honglin Li, Lin Yang
➡️ 研究机构: Zhejiang University, Westlake University, The Ohio State University, Hangzhou City University
➡️ 问题背景：尽管大型语言模型（LLMs）和多模态技术的发展已经取得了显著进展，病理学领域在高质量数据收集和模型框架设计方面仍存在明显不足。这导致了病理学领域缺乏专门的多模态大型语言模型（MLLMs），限制了AI在病理学诊断和预测分析中的应用。
➡️ 研究动机：为了填补病理学领域在高质量数据和模型框架上的空白，研究团队开发了PathAsst，一个旨在通过AI技术革新病理学诊断和预测分析的多模态生成基础AI助手。PathAsst的开发涉及数据收集、CLIP模型适应和多模态生成能力的训练，旨在提高病理学图像的解释能力和诊断准确性。
➡️ 方法简介：研究团队首先从权威来源收集了超过207,000个高质量的病理图像-文本对，构建了PathCap数据集。接着，利用这些数据训练了专门用于病理学的CLIP模型（PathCLIP），以增强PathAsst在解释病理图像方面的能力。最后，通过整合PathCLIP和Vicuna-13B，并利用病理学特定的指令调优数据，进一步提升了PathAsst的多模态生成能力，使其能够与八个病理学特定的子模型协同工作，提高诊断效果。
➡️ 实验设计：研究团队在PathCap数据集上进行了实验，评估了PathAsst在不同任务中的表现，包括病理图像的解释、零样本分类和图像生成等。实验结果表明，PathAsst在病理学图像的解释和诊断方面具有显著的潜力。此外，研究团队还开源了数据集和工具包，以促进病理学数据的广泛收集和预处理。