合并模型带来的更好性能

news2025/1/10 16:25:11

研究背景与问题提出

在人工智能领域,当需要处理多个不同任务时,有多种方式来运用模型资源。其中,合并多个微调模型是一种成本效益相对较高的做法,相较于托管多个专门针对不同任务设计的模型,能节省一定成本。然而,以往的模型合并方式虽然能让模型在多个任务上获得一个相对较高的平均性能表现,但存在一个明显的弊端,就是在具体的单个任务上,其性能往往比不上那些专门针对该任务进行微调的单个模型,这限制了模型合并方法在实际应用中的效果,所以需要探索新的方法来解决这个问题。

“Localize-and-Stitch”方法的提出与原理

  • 与传统方法对比:之前在2022年关于“模型汤”的相关研究中,提出的模型合并思路是对同一个基础模型的多个微调版本的所有权重进行简单平均。而新提出的“Localize-and-Stitch”(定位与拼接)方法不同于此,它着重于选择性地保留与每个任务最相关的权重,以此来提升合并后模型在各任务上的性能。

  • 关键原理阐述

    • 不同的微调模型在执行各自任务时,可能会利用相同的权重部分去完成不同的功能,比如一个模型用某权重子集检测HTML代码,另一个却用其检测城市名称。如果只是单纯对这些对应权重取平均合并,就容易造成合并后的模型在这些涉及的任务上性能变差,出现次优性能的情况。

    • 不过,研究发现,在模型微调过程中,其实会产生很多冗余的权重集。也就是说,真正对维持一个微调模型在其特定任务上的性能起关键作用的,往往只是总参数里的一小部分(大概仅占1%左右),而且这些关键的小部分权重子集由于比较小,相互之间不太容易重叠。所以,基于这个特点,“Localize-and-Stitch”方法选择保留这些和任务紧密相关的权重,而不是像传统方法那样全部平均,以此来提高合并后模型的性能。

实验过程与操作步骤

  • 实验对象选取:研究人员选取了三个具有代表性的模型来开展实验,分别是RoBERTa-base(常用于自然语言处理任务的语言编码器)、GPT2 - XL(在语言生成等方面应用较广的模型)以及CLIP(在图像分类等视觉任务方面表现出色的模型)。

  • 针对不同模型的微调操作

    • RoBERTa-base:针对这个语言编码器创建了12个变体,并且让每个变体在GLUE(一个包含多种自然语言处理任务的基准数据集,像问答、情感分类等不同类型任务都涵盖在内)中的不同具体任务上进行微调,以此来得到不同的微调版本模型。

    • GPT2 - XL:下载了三个已经经过微调的版本,这三个版本分别是针对指令遵循、科学知识以及真实性判断这些不同任务进行过优化的,以此作为后续合并实验的基础。

    • CLIP:创建了8个变体,然后在不同的图像分类数据集上对每个变体进行微调,这些数据集涵盖了手写数字、各类汽车不同角度的照片以及像森林、牧场、水域、建筑物等不同场景的卫星图像等多样化的视觉数据,从而得到多个不同的针对视觉任务微调后的CLIP模型版本。

  • “Localize-and-Stitch”方法的具体操作流程

    • 权重分解与识别:第一步是在每个经过微调的模型中准确找出特定任务相关的权重。具体做法是把微调模型的权重拆解成两部分,一部分是原本的预训练权重,另一部分是经过微调产生的差异部分。

    • 关键差异筛选:接着,从这些差异部分里找出数量最少,但又能让模型在对应任务上性能达到最大化的那些差异权重,然后把其余没被选中的差异权重直接置零,相当于筛选出了对任务最关键的权重子集。

    • 权重合并处理:在处理好的这些权重中,如果非零的权重项(也就是前面筛选出的关键差异权重)之间不存在重叠情况,那就直接把这些差异权重添加到预训练权重中完成合并;但要是出现了极少数非零项重叠的特殊情况,那就只能像传统方法一样,对涉及重叠的微调模型的权重进行平均处理了。

实验结果呈现

  • RoBERTa-base方面:使用“Localize-and-Stitch”方法合并其微调版本后,在GLUE基准数据集上获得了75.9%的平均分数。作为对比,之前效果最好的RegMean方法只能达到73.9%的平均分数,不过需要注意的是,那些专门针对每个GLUE任务单独进行微调的模型平均能达到81.1%的分数,这说明“Localize-and-Stitch”方法虽然有进步,但还没超越单独微调模型的性能。

  • GPT2 - XL方面:用“Localize-and-Stitch”方法合并后的微调版本,在MMLU(衡量语言模型在多领域知识上的能力)、ARC(主要考察科学推理等能力)以及TruthfulQA(评估模型真实性相关表现)这几个综合评估指标上取得了36.7%的平均分数,而通过简单对对应权重取平均合并的版本只能达到34.4%的分数,同样,单独针对不同任务微调的模型平均能达到41.1%的分数。

  • CLIP方面:经过“Localize-and-Stitch”方法合并的CLIP微调版本,在八个不同的视觉任务上取得了79.9%的平均分数,使用另一种合并方法AdaMerging合并的版本能达到80.1%的分数,单独的微调模型平均则可以达到90.5%的分数。

研究局限与重要性说明

  • 局限方面:此次研究存在一个不足之处,那就是作者们并没有把“Localize-and-Stitch”方法和多任务学习进行对比。多任务学习是一种常见的、可替代模型合并的方案,它的特点是同时基于多个不同数据集的数据对模型开展训练,由于缺少和这种方法的比较,所以在那些多任务学习同样适用的实际场景中,很难全面且准确地判断“Localize-and-Stitch”方法到底具备多大的优势。

  • 重要性方面:和多任务学习相比,模型合并本身在计算资源利用方面更具效率,因为它不需要像多任务学习那样针对所有任务都去进行训练,就能一定程度上提升模型执行特定任务的能力。而新提出的“Localize-and-Stitch”方法更是进一步优化了模型合并这个过程,让合并后的模型能够获得更高的性能表现,对于推动人工智能模型在多任务处理场景下更高效应用有着积极意义。

总的来说,“Localize-and-Stitch”方法为解决模型合并中的性能问题提供了新的思路和有效途径,尽管存在一定研究局限,但对后续相关研究和实践应用有着重要的参考价值。

论文:Localize-and-Stitch: Efficient Model Merging via Sparse Task Arithmetic

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2274434.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

城市生命线安全综合监管平台

【落地产品,有需要可留言联系,支持项目合作或源码合作】 一、建设背景 以关于城市安全的重要论述为建设纲要,聚焦城市安全重点领域,围绕燃气爆炸、城市内涝、地下管线交互风险、第三方施工破坏、供水爆管、桥梁坍塌、道路塌陷七…

Flink系列知识讲解之:网络监控、指标与反压

Flink系列知识之:网络监控、指标与反压 在上一篇博文中,我们介绍了 Flink 网络协议栈从高层抽象到底层细节的工作原理。本篇博文是网络协议栈系列博文中的第二篇,在此基础上,我们将讨论如何监控网络相关指标,以识别吞…

生物医学信号处理--随机信号的数字特征

前言 概率密度函数完整地表现了随机变量和随机过程的统计性质。但是信号经处理后再求其概率密度函数往往较难,而且往往也并不需要完整地了解随机变量或过程的全部统计性质只要了解其某些特定方面即可。这时就可以引用几个数值来表示该变量或过程在这几方面的特征。…

计算机网络 (31)运输层协议概念

一、概述 从通信和信息处理的角度看,运输层向它上面的应用层提供通信服务,它属于面向通信部分的最高层,同时也是用户功能中的最低层。运输层的一个核心功能是提供从源端主机到目的端主机的可靠的、与实际使用的网络无关的信息传输。它向高层用…

深度学习张量的秩、轴和形状

深度学习张量的秩、轴和形状 秩、轴和形状是在深度学习中我们最关心的张量属性。 秩轴形状 秩、轴和形状是在深度学习中开始使用张量时我们最关心的三个属性。这些概念相互建立,从秩开始,然后是轴,最后构建到形状,所以请注意这…

积分与签到设计

积分 在交互系统中,可以通过看视频、发评论、点赞、签到等操作获取积分,获取的积分又可以参与排行榜、兑换优惠券等,提高用户使用系统的积极性,实现引流。这些功能在很多项目中都很常见,关于功能的实现我的思路如下。 …

vue实现虚拟列表滚动

<template> <div class"cont"> //box 视图区域Y轴滚动 滚动的是box盒子 滚动条显示的也是因为box<div class"box">//itemBox。 一个空白的盒子 计算高度为所有数据的高度 固定每一条数据高度为50px<div class"itemBox" :st…

IEC61850遥控-增强安全选控是什么?

摘要&#xff1a;遥控服务是IEC61850协议中非常重要的一项服务&#xff0c;其通常会被应用在电源开关、指示灯、档位调节等器件的操作。 遥控是一类比较特殊的操作&#xff0c;其通过远程方式操作指定的设备器件&#xff0c;在一些重要的场景中需要有严谨的机制来进行约束&…

【Uniapp-Vue3】创建自定义页面模板

大多数情况下我们都使用的是默认模板&#xff0c;但是默认模板是Vue2格式的&#xff0c;如果我们想要定义一个Vue3模板的页面就需要自定义。 一、我们先复制下面的模板代码&#xff08;可根据自身需要进行修改&#xff09;&#xff1a; <template><view class"…

如何操作github,gitee,gitcode三个git平台建立镜像仓库机制,这样便于维护项目只需要维护一个平台仓库地址的即可-优雅草央千澈

如何操作github&#xff0c;gitee&#xff0c;gitcode三个git平台建立镜像仓库机制&#xff0c;这样便于维护项目只需要维护一个平台仓库地址的即可-优雅草央千澈 问题背景 由于我司最早期19年使用的是gitee&#xff0c;因此大部分仓库都在gitee有几百个库的代码&#xff0c;…

QThread多线程详解

本文结构如下 文章目录 本文结构如下 1.概述2.开始多线程之旅2.1应该把耗时代码放在哪里&#xff1f;2.2再谈moveToThread() 3.启动线程前的准备工作3.1开多少个线程比较合适&#xff1f;3.2设置栈大小 4.启动线程/退出线程4.1启动线程4.2优雅的退出线程 5.操作运行中的线程5.1…

深度学习数据集有没有规范或指导意见,数据集的建立都需要做哪些研究工作?

一、数据集的核心原则是什么&#xff1f; 数据集的目标&#xff1a;它需要回答“你要解决什么问题&#xff1f;” 在构建数据集之前&#xff0c;最重要的不是去采集数据&#xff0c;而是明确目标&#xff1a; 你的模型是要做图像分类&#xff0c;还是目标检测&#xff1f;是要…

前端for循环遍历——foreach、map使用

title: 前端不同类型的for循环遍历——foreach、map date: 2025-01-04 11:02:17 tags: javascript 前端不同类型的for循环遍历 场景&#xff1a;很多时候后端发来的数据是不能够完全契合前端的需求的&#xff0c;比如你要一个数据对象中的值&#xff0c;但是这个值却作为了ke…

MR30分布式 IO 在物流分拣线的卓越应用

在当今物流行业高速发展的时代&#xff0c;物流分拣线的高效与精准运作至关重要&#xff0c;而其中对于货物点数较多情况下的有效控制更是一大关键环节。明达技术MR30分布式 IO 系统凭借其独特的优势&#xff0c;在物流分拣线中大放异彩&#xff0c;为实现精准的点数控制提供了…

5 分布式ID

这里讲一个比较常用的分布式防重复的ID生成策略&#xff0c;雪花算法 一个用户体量比较大的分布式系统必然伴随着分表分库&#xff0c;分机房部署&#xff0c;单体的部署方式肯定是承载不了这么大的体量。 雪花算法的结构说明 如下图所示: 雪花算法组成 从上图我们可以看…

Android wifi常见问题及分析

参考 Android Network/WiFi 那些事儿 前言 本文将讨论几个有意思的网络问题&#xff0c;同时介绍 Android 上常见WiFi 问题的分析思路。 网络基础Q & A 一. 网络分层缘由 分层想必大家很熟悉&#xff0c;是否想过为何需要这样分层&#xff1f; 网上大多都是介绍每一层…

音视频入门基础:MPEG2-PS专题(6)——FFmpeg源码中,获取PS流的视频信息的实现

音视频入门基础&#xff1a;MPEG2-PS专题系列文章&#xff1a; 音视频入门基础&#xff1a;MPEG2-PS专题&#xff08;1&#xff09;——MPEG2-PS官方文档下载 音视频入门基础&#xff1a;MPEG2-PS专题&#xff08;2&#xff09;——使用FFmpeg命令生成ps文件 音视频入门基础…

读书笔记:分布式系统原理介绍

写在前面 已经大概三个月左右没有更新博客了&#xff0c;哈哈哈哈&#xff1b; 此博客是笔者在对《分布式系统原理介绍》进行概述&#xff0c;对于整个分布式系统协议的理解基于一些量化的指标考虑了数据的分布副本协议&#xff08;中心化/去中心化&#xff09;进行了总结&…

Dexcap复现代码数据预处理全流程(四)——demo_clipping_3d.py

此脚本的主要功能是可视化点云数据文件&#xff08;.pcd 文件&#xff09;&#xff0c;并通过键盘交互选择演示数据的起始帧和结束帧&#xff0c;生成片段标记文件 (clip_marks.json) 主要流程包括&#xff1a; 用户指定数据目录&#xff1a;检查目录是否存在并处理标记文件 -…

MBM指尖六维力触觉传感器:高灵敏度、低漂移,精准掌控力学世界

MBM指尖六维力触觉传感器是一种专为机器人设计的高性能传感器。它通过集成三轴力和三轴力矩的感知能力&#xff0c;能够精准捕捉复杂的力学信息。传感器采用MEMS与应变体复合测量技术&#xff0c;具备数字输出功能&#xff0c;显著降低漂移并减少安装偏移的影响。其紧凑轻便的设…