模型融合新趋势！Transformer领域专家纷纷布局，高分成果轻松达成！

今天给大家分享一个能发A会且不卷的方向：模型融合！

光是ICLR2025的投稿，其增长就跃升至前30，可见热度很高！但相比其他领域，总量还不大，相对蓝海，创新空间很大。

其所以这么热门，是因为它能够通过结合多个模型的预测，来提高整体性能、减少过拟合风险！更为特别的是，在某些情况下，我们无需重新训练模型，只要利用已有的模型参数，就能进行融合，创建新的模型，从而节省大量的成本。最近Transformer作者，便通过自动化的模型融合策略，成功地创建了具有特定功能的新型基础模型，还实现了准确率飙升45.6%的效果。

An Empirical Study of Multimodal Model Merging

内容：文章探讨了通过插值或任务算术等技术将不同任务训练的多个模型融合成多任务解决方案的模型融合技术。研究者们将这一概念扩展到了多模态设置中，通过合并在不同模态上训练的变换器（transformers），旨在创建一个参数高效的模态不可知架构，该架构可以处理视觉、语言和跨模态变换器。文章通过全面实验，系统研究了影响模型合并后性能的关键因素，包括初始化、合并机制和模型架构，并提出了两个可以作为合并结果指标的权重合并距离度量方法。研究结果表明，通过模型合并可以有效训练出与从头开始预训练的模态不可知基线相匹配的性能，并且在各种任务上显著优于简单合并，例如在VQA上提高了3%，在COCO检索上提高了7%，在NLVR2上提高了25%，在Flickr30k上提高了14%，在ADE20k上提高了3%。

Training-FreePretrainedModelMerging

内容：文章介绍了一种名为MuDSC（Merging under Dual-Space Constraints）的创新模型融合框架，用于将多个单一任务模型合并成一个多任务模型，而无需额外的训练或微调。MuDSC通过在线性组合激活空间和权重空间的相似性矩阵来寻找更优的排列矩阵，实验结果表明，该方法能显著提升合并模型在多种任务和架构下的性能。此外，通过多任务损失景观的可视化，展示了MuDSC使得合并模型位于每个任务统一较低损失的重叠部分，从而在多任务场景中更好地平衡了不同任务的性能。

Evolutionary Optimization of Model Merging Recipes

内容：文章介绍了一种基于进化算法的模型融合方法，用于自动化创建具有特定功能的强大基础模型。这种方法能够在参数空间和数据流空间中进行优化，不仅提高了模型的效率和泛化能力，还能跨领域融合模型，例如创建具有数学推理能力的日语大型语言模型（LLM）和能够处理特定文化内容的日语视觉-语言模型（VLM）。实验结果表明，这些模型在多个基准测试上达到了最先进的性能，甚至超过了一些参数数量更多的模型。此外，文章还强调了这种方法在开源社区中的潜力，为替代传统的基于梯度训练的模型开发方法提供了新的可能性。

MODEL MERGING BY UNCERTAINTY-BASED GRADIENT MATCHING

内容：文章提出了一种新的模型融合方法，称为基于不确定性的梯度匹配（Model Merging by Uncertainty-Based Gradient Matching），用于改善通过加权平均参数融合多个模型时的性能。这种方法通过减少合并模型间的梯度不匹配来提高融合模型的准确性，并通过实验验证了其在大型语言模型和视觉变换器上的有效性，无论是在性能还是对超参数的鲁棒性方面都有一致的改进。文章还探讨了与其他模型融合方案（如算术平均、任务算术和Fisher加权平均）的隐含假设，并讨论了如何利用贝叶斯方法进一步改进模型融合。