(论文翻译)UFO: Unified Feature Optimization——UFO:统一特性优化

news2024/11/17 10:03:57

作者:
Teng Xi

论文总结:总结

Code: https://github.com/PaddlePaddle/VIMER/tree/main/UFO

摘要:

本文提出了一种新的统一特征优化(Unified Feature Optimization, UFO)范式,用于在现实世界和大规模场景下训练和部署深度模型,这需要多种人工智能功能的集合。UFO旨在通过对所有任务进行大规模的预训练,使每个任务受益。与现有的基础模型相比,UFO有两个重点,即模型尺寸相对较小和NO适应成本:1)UFO以多任务学习的方式将广泛的任务挤压成一个有调节的统一模型,并在转移到下游任务时进一步裁剪模型尺寸。2) UFO不强调转移到新奇的任务。相反,它的目标是使修剪的模型专门用于一个或多个已经看到的任务。为此,直接选择统一模型中的部分模块,完全不需要任何适配成本。有了这两个特点,UFO在保持大规模预训练优势的同时,为灵活部署提供了极大的便利。UFO的一个关键优点是,裁剪过程不仅减少了模型尺寸和推理消耗,而且甚至提高了某些任务的准确性。具体来说,UFO考虑了多任务训练,给统一模型带来了双重影响:一些密切相关的任务相互受益,而一些任务相互冲突。UFO通过一种新颖的网络架构搜索(NAS)方法来减少冲突并保持双方的利益。在广泛的深度表征学习任务(如人脸识别、人再识别、车辆再识别和产品检索)上的实验表明,从UFO中裁剪的模型比单任务训练的模型具有更高的准确性,但模型尺寸更小,验证了UFO的概念。此外,UFO还支持发布170亿参数的计算机视觉(CV)基础模型,这是业内最大的CV模型。

1简介

训练和部署是基于深度学习的人工智能(AI)应用的两个重要步骤。一个现实的AI系统通常包含多个任务。简单的训练和部署策略是针对每个单独的子任务训练各自的深度模型。假设一些子任务实际上是相关的,这种幼稚的策略浪费了它们的共同利益。基础模型是利用大规模多任务数据使单个任务受益的一种可行方法。根据[3],在本文中,我们将基础模型称为“在大规模的数据上训练的模型,可以适应广泛的下游任务”。但是,基础模型的部署有一定的负担,例如,它维持了庞大的基础模型规模,并且在转移到下游任务时需要额外的适应成本。

本文提出了一种新的训练与部署模式,即统一特征优化(UFO),以帮助下游任务进行大规模的多任务预训练。与foundation模型相比,UFO有两个不同的侧重点,即模型尺寸相对较小和NO适应成本。1)模型尺寸小。UFO并不使用巨大的网络。相反,它将广泛的任务压缩到一个中等大小的统一模型中,并进一步为下游应用程序削减模型大小,从而使推理更加有效。2)没有适应成本。UFO不强调转移到新奇的任务。相反,它的目标是使修剪模型专用于已经看到的子任务。无需微调或基于提示的学习,UFO直接从已经学习的统一模型中选择部分组件,因此完全不需要适应成本。

UFO具有模型尺寸小、适应成本低的优点,在保持大规模预训练优势的同时,为灵活部署提供了极大的便利。虽然没有适应成本的优势局限于已经看到的子任务,但它确实损害了现实的人工智能发展的巨大利益。例如,在智能城市原型中,如基于视觉的智能城市,系统需要人脸、车身和汽车的协同,以提供对城市状态的全面了解。此外,虽然UFO不强调转移到新颖的下游任务的模式,但它通过现有的基础模型技术与该模式兼容,这不是本文主要关注的问题。由于它们的正交优势,我们相信UFO和基础模型可以很好的合作,带来另一波的发展。

作为早期的探索,本文提出了UFO的概念,重点关注深度表示学习,如图1所示。深度表示学习是许多人工智能应用的基础,如人脸识别[2,24,7]、人/车再识别[19,19,18,22,17]和细粒度图像检索[26]。我们的UFO基于视觉转换器(ViT)[10]架构。UFO首先以多任务学习的方式对各种深度表示任务训练一个统一模型(即超级网络)。之后,UFO学会修剪超级网络,以获得一个专门的子任务子网。给予ViT骨干,修剪对象可以是变压器、注意头和FFN通道从粗粒度到细粒度的子块,如图1所示。此外,UFO在FFN路径层面整合了另一种修剪策略。在[12]之后,UFO在训练超级网络时并行使用多个FFN路径,并允许为下游任务修剪一些FFN路径。虽然这些裁剪策略很流行,但UFO是第一个将它们集成在一起的,因此提供了很大的裁剪灵活性。

UFO范例的概述。

UFO的一个重要优点是,裁剪过程不仅减少了模型尺寸和推理消耗,而且提高了对其专用子任务的精度。这是非常重要的,因为修剪模型(没有进一步的微调)通常会降低精度。为此,UFO认为多任务训练给超级网络带来了双重影响。一方面,有些任务相互联系紧密,互惠互利。另一方面,一些任务存在较大分歧,相互冲突。在裁剪过程中,UFO通过一种新颖的网络架构搜索(NAS)方法来减少冲突并保持双方的利益。具体来说,我们为UFO设计了一个搜索空间,它首先引入了FFN路径和超级网络。因此,我们提出了一种端到端的UFO训练策略,不同于以往的多阶段方法[4,20]。同时,我们还提出了一种新的UFO评估指标,该指标可以灵活地适应实际应用的任何要求。在广泛的深度表征学习任务上的实验表明,与单任务训练的对象相比,UFO在较小裁剪模型下获得更高的精度。它证实,虽然UFO获得了灵活部署的额外优势,但它保持了大规模预训练的好处。

本文的贡献归纳如下:

  • 我们提出了一种新的训练-部署模式,称为统一特征优化(UFO),以使下游任务受益与大规模的前训练。UFO强调了模型尺寸小和无适应成本的优势,这大大促进了灵活部署。
  • 我们提出了一种新颖的UFO裁剪过程,致力于通过NAS方法保持多任务统一模型的互利和消除相互冲突。
  • 提出了一种新的评价指标来衡量任务之间的相关性,为裁减过程提供了基础和有效的分析。
  • 我们在人脸、人、车辆和产品等10多个基准上进行实验。全面的分析和广泛的实验清楚地表明我们的UFO的有效性。

2 相关工作

智慧城市的发展对多个目标的优化提出了重要的要求,以提供各种现实世界问题的综合解决方案。随着模型和任务数量的整体增加,为特定的任务部署特定的模型需要大量的计算和推理成本,特别是部署在计算和功率资源可能有限的嵌入式传感器或设备上。解决这个问题的一种方法是开发基础模型,这是指从大规模的数据中训练出来的模型,能够适应广泛的下游任务。现有的作品试图从以下两个方面来克服这些挑战。

2.1训练策略

调整不同任务损失的权重是一种有效的方法。Kendall等人提出了一种原则性方法,通过考虑每个任务的同方差不确定性来调整多个损失函数的权值。动态任务优先级[14]通过自适应调整任务损失目标的混合权重,自动对难度较大的任务进行优先级排序。其他作品则采用基于梯度的方法来应对这一挑战。GradNorm[6]通过动态调整梯度大小,自动平衡深层多任务模型中不同任务损失的训练。Sener等人[37]明确地将多任务学习转化为基于梯度的多目标优化,总体目标是寻找Pareto最优解,以最小化所有任务损失。Suteu et al.[40]观察到,任务梯度之间角度的方差越小,模型的性能越好,因此,Suteu et al.[40]提出了一种改进近正交梯度的新型梯度正则化方法。为了避免不同损耗的梯度干扰,PCGrad[43]将一个任务的梯度投影到有冲突梯度的其他任务的梯度的法平面上。

与这些方法相比,我们的方法设计了一种新的模型结构,自适应地指定所有任务之间的关联或冲突,即使使用普通的训练策略也能获得竞争结果。

2.2模型结构

部分文献[11,34,29,13]采用了软参数共享的方式。它们允许每个任务有单独的模型和参数,但强制每个模型可以通过正则化器[11,34]或NAS search结构[13]访问其他模型中的信息。

其他研究[31,33,39,30]使用骨干参数的共享部分与特定任务模块,称为硬参数共享。深度关系网络[31]方法共享前5个卷积层,并为每个任务使用特定于任务的全连接层。Lu等人的[33]从一个瘦网络开始,并在训练阶段通过为任务创建新的分支来动态增长它。除了计算机视觉领域外,[39,30]在多个NLP任务中,对任务特定层使用共享编码器。

在这两种学习方式的基础上,Task-MOE[25]提出了一种将共享模块和特定于任务的模块相结合的多任务学习体系结构。具体来说,它共享自注意模块,并基于任务级路由器选择特定于任务的FFN模块。

所有这些工作都考虑通过鼓励单个任务之间的信息交互来增加组件,或者引入特定于任务的模块,但都没有减少模块的想法。相比之下,我们通过减少不兼容权值和保持互补权值从超网络中提取子网。与Task-MOE相似,我们的方法也采用任务级路由器来选择特定的ffn。然而,我们的方法为每个任务提取最合适的自我注意子权重,而task - moe在所有任务中共享完成的子权重。

3研究方法

UFO由两个步骤组成,即训练一个多任务超级网络,以及提取一个用于下游任务部署的专用子网络。在这种新的训练和部署模式下,UFO的目标是保持多任务训练前的互惠互利,消除不同任务之间的相互冲突。为此,我们采用了一种神经结构搜索(NAS)方法从超级网络中搜索子网。具体来说,我们在3.1节中介绍了UFO超级网的架构及其搜索空间。我们注意到,与针对单个任务的搜索空间不同,UFO搜索空间是为各种下游任务容纳多个子网络。考虑到UFO超级网的架构,章节3.2解释了如何以多任务学习的方式训练超级网在所有任务上。最后,3.3节详细介绍了学习基于NAS的子网络提取。它允许UFO通过架构预测直接提取相应的子网络,给定所需的下游任务(以及模型大小和推理速度)。

3.1 UFO超级网络的架构和搜索空间

如图1所示,我们将UFO超级网建立在视觉转换器(ViT)的基础上。由于子网络从超级网络中选择部分模块并继承在部署过程中相应的参数,超级网络为搜索和提取子网提供了较大的空间是很重要的。

现有的基于变压器的NAS通常提供三个搜索方向,即前馈网络(FFN)的弹性深度、弹性注意头和弹性扩展比[25]。在这些常用的搜索方向的基础上,我们引入了一种新的搜索方向,即灵活的FFN路径。也就是说,UFO结合了三个常用的搜索方向和一个新颖的搜索方向,提供了很大的搜索空间。因此,子网络可以减少视觉转换器的FFN路径、FFN权值、注意权值甚至整个子块。我们将在下面详细解释这些搜索方向。
参考论文总结

3.2 UFO超级网的多任务训练

在本小节中,我们将描述如何训练多任务超级网络。如3.1小节所示,UFO中的超级网与其他单任务超级网有很大的不同。因此,UFO的训练策略在子网络采样和数据采样两个方面也有所不同。

子网络抽样。 子网络抽样涉及到(ml, hl, dl, gl)的抽样。类似于权值纠缠机制[5],对于ml和gl的采样,arch a的公共部分的权值与超级网的权值共享。然而,由于超级网在现有的训练策略中没有ffnpath[5,20,41],因此共享的注意权值之间存在着严重的竞争。因此,他们的超级网络必须循序渐进地训练。在UFO中,ffn路径缓解了共同关注的竞争。因此,UFO可以以端到端的方式进行训练。
在这里插入图片描述
数据采样 [1]中现有的数据采样策略有五种。累积梯度策略是其中最有前途的一种策略。它在一个优化步骤中积累所有任务数据的梯度,可以在不同任务之间实现比其他方法更好的优化权衡,例如逐个任务和交替方法。受此思想的启发,我们提出了一种相似但又不同的批处理策略,称为异质批处理类型。具体来说,我们从T的所有任务中抽取一些数据,形成一个小批处理,其权重分别大致与任务数据集的大小成正比。然后,这些迷你批处理被连接成批处理数据,这些数据被提供给主干。然后,将获得的特征进行分离并送入|T|任务特定的头部网络,每个头部网络负责任务的输出。最后,计算共享变换骨干网的|T|任务的损耗,并将其累加起来,完成一个后退步得到梯度,用于更新共享参数。

3.3提取部署下游任务的子网络

在本小节中,我们将介绍如何根据实际应用的需要从超级网络中选择最优的专用模型。我们的目标是在flops和参数约束下找到a的最优架构a,使平均性能最大化。

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1113354.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python学习基础笔记七十六——Python装饰器2

装饰器,英文名字decorator。 我们开发Python代码的时候,经常碰到装饰器。 通常被装饰后的函数,会在原来的函数的基础上,增加一些功能。 通常装饰器本事也是一个函数,那么装饰器是怎么装饰另外一个函数的呢&#xff1f…

Unity 镜面反射

放置地板和模型 首先,让我们放置地板和将放置在其上的 3D 模型。这次,我使用 Plane 作为地板。从层次视图中选择“创建”→“3D 对象”→“平面”。我们还在地板上放置了 Unity-chan、Cube 和 Sphere。 接下来,创建地板的材质。在项目视图中…

安装 Dispatch 库

首先,我们需要安装 Dispatch 库。在命令行中运行以下命令来安装 Dispatch: $ sbt console然后,在 Scala 控制台中,导入所需的库: import dispatch._接下来,我们需要设置代理服务器。在 Dispatch 中&#…

个性联邦学习

Towards Personalized Federated Learning 一、背景二、解决策略 2.1 策略一.全局模型个性化2.2 策略二.学习个性化模型 三、具体方案 3.1 全局模型个性化 3.1.1 基于数据:减少客户端数据统计异构性3.1.2 基于模型:在学习一个强大的全局模型,…

014 - ARM64上的GIC-400(GICv2)

本章节涉及到的参考文档有三个: BCM2711 ARM Peripherals.pdfARM Generic Interrupt Controller Architecture Specification.pdf (简称gic_v2)CoreLink GIC-400 Generic Interrupt Controller Technical Reference Manual.pdf 1. GIC 发展历史 在早期的 ARM 系统…

睿趣科技:抖音小店新手运营攻略

随着短视频平台的兴起,抖音已经成为了一个炙手可热的营销工具。越来越多的商家选择在抖音上开设小店,以此来拓展自己的业务。那么,作为新手,如何运营好自己的抖音小店呢?本文将为您提供一些实用的建议。 首先,要明确自…

python实现图片与视频转换:将视频保存为图片,将批量图片保存为视频

1、将视频保存为图片 1.1 完整代码 # -*- coding: utf-8 -*- import cv2 import os cap cv2.VideoCapture(TestFiles/2.mp4) index 0 prop cv2.CAP_PROP_FRAME_COUNT total int(cap.get(prop)) # 获取视频总帧数 while(cap.isOpened()):# ret返回布尔值ret, frame cap.r…

竹云荣膺2023十大数字化转型创新企业

10月14日上午,“2023DTWORLD国际数字科技领袖峰会/ IDI Award 数创奖颁奖盛典”在深圳会展中心(福田)2号馆成功举办。本届峰会由深圳市科学技术协会等相关政府部门指导,由深圳市科技交流服务中心、深圳市人工智能行业协会、湾盟产…

医疗终端札记

文章目录 一、打印Windows 下打印 PDF打印 Word转换格式 一、打印 Windows 下打印 PDF 从 Windows 命令行打印 PDF AcroRd32.exe /t "C:\Path\To\Your\File.pdf" "PrinterName" # 其中,“C:\Path\To\Your\File.pdf”是您要打印的PDF文件的完…

嵌入式软件开发笔试面试

C语言部分: 1.gcc的四步编译过程 1.预处理 展开头文件,删除注释、空行等无用内容,替换宏定义。 gcc -E hello.c -o hello.i 2.编译 检查语法错误,如果有错则报错,没有错误则生成汇编文件。 gcc -S hello.i -o h…

在线录音工具分享,总有一款适合你!

“有人知道怎么在线录音吗?在网页上播放了一首民谣,觉得旋律很好听,但是不能下载,就想用录音的方式记录下来,可是完全不会操作,真的很急!有没有好心人教教我,谢谢!” 随…

衍射:经典波动行为

一、说明 在本页中,我将尝试引导您了解光背后的基础知识。光是粒子还是波? 衍射是与光传播偏差相关的现象的通用名称,与几何光学预测的偏差(即光的直线传播)有关,它揭示了光的性质波而不是微粒物质。 图1&a…

为T507-H开发板配置Samba服务,实现跨系统的文件共享——飞凌嵌入式

作为一款经典的国产芯,全志T507-H芯片被广泛应用于车载电子、电力、医疗、工业控制、物联网、智能终端等诸多领域当中,而在各种复杂的嵌入式Linux应用场景当中,“打通ARM板卡与Windows设备间的壁垒以实现跨平台的文件共享”是一项不能被忽视的…

IStoreOS结合内网穿透软件Cpolar实现公网远程访问

文章目录 前言1. ssh局域网登陆iStoreOS系统2. 安装Cpolar内 网穿透软件3. 测试公网远程链接4. 公网使用固定http地址远程访问iStoreOS webui界面 前言 iStoreOS系统是基于OpenWrt定制的软路由系统,提供了如轻nas,云盘,文件共享等众多网络服务…

21款奔驰EQC350升级原厂360全景影像 感受上帝视野

您是否经历过这种场面呢? 停车位,狭窄障碍停车困难 避免盲区,倒车盲区危及生命安全 狭窄路段,无法判断是否安全通过 视角盲区,小孩站在视野盲区看不到,Xjh15863 360度无缝3D全车可见,解决各…

最新《中国环境统计年鉴》2001-2022年-EXCEL面板数据

数据简介:本数据汇集全国31个省、直辖市环境方面的面板数据,涵盖自然状况、水环境、海洋环境、大气环境、固体废物、自然生态、土地利用、林业、自然灾害及突发事件、环境投资、城市环境、农村环境等11个一级指标,数百个二级、三级指标。通过…

照片后期编辑工具Lightroom Classic 2024 mac中文新增功能

Lightroom Classic 2024(lrC2024)是专为摄影爱好者和专业摄影师设计的软件,它提供了全面的照片编辑工具,可以精准调整照片的色彩、对比度和曝光等参数,以便定制后期处理效果。 在lrC2024中,用户体验得到了提…

【Mysql】Mysql中的B+树索引(六)

概述 从上一章节我们了解到InnoDB 的数据页都是由7个部分组成,然后各个数据页之间可以组成一个双向链表 ,而每个数据页中的记录会按照主键值从小到大的顺序组成一个单向链表 ,每个数据页都会为存储在它里边儿的记录生成一个页目录 &#xff…

随着Telegram的崛起,这些特性和运营方法你得知道~

截止至2023年6月,Telegram已成为除了WhatsApp之外全球苹果应用商店中用户下载量最多的社交网络应用,这个新兴的社媒平台正在逐渐扩大它的影响力。Telegram的崛起也意味着出现了新的商机,要怎么把握这个热门社媒来进行营销也成了各出海企业最关…

MapGIS 10.6 Pro新品发布!加速地理信息领域核心技术国产替代

10月18日,国产GIS软件厂商中地数码在深圳举办“时空筑基智绘九州”新品发布会,正式推出新一代全空间智能GIS升级之作——MapGIS 10.6 Pro。来自全国各地的地理信息产业专家学者汇聚一堂,共话地信科技自立自强,助推产业高质量发展。…