论文阅读:Dataset Quantization

news2025/1/25 4:32:24

摘要

最先进的深度神经网络使用大量(百万甚至数十亿)数据进行训练。昂贵的计算和内存成本使得在有限的硬件资源上训练它们变得困难,特别是对于最近流行的大型语言模型 (LLM) 和计算机视觉模型 (CV)。因此最近流行的数据集蒸馏方法得到发展,旨在通过梯度匹配合成小规模数据集来减少训练样本的数量。然而,由于梯度计算与特定的网络架构相结合,合成数据集是有偏差的,并且在用于训练unseen architectures时表现不佳。为了解决这些限制,我们提出了数据集量化 (DQ),这是一种将大规模数据集压缩成小子集的新框架,可用于训练任何神经网络架构。大量实验表明,DQ 能够生成压缩的小型数据集,用于训练unseen network architectures,以最大压缩比进行不降低模型性能的训练。据我们所知,DQ 是第一个能够成功提取大规模数据集的方法,例如具有最大的压缩比的 ImageNet-1k。值得注意的是,使用来自 ImageNet 的 60% 数据和来自 Alpaca 指令微调数据的 20% 数据,这些模型训练后用于视觉任务(包括分类、语义分割和目标检测)和语言任务(包括指令调优任务,如BBH和DROP)的性能几乎没有下降。
在这里插入图片描述

1 引言

深度神经网络在计算机视觉和自然语言处理等多个领域表现出了优越的性能。它们的性能在很大程度上取决于训练数据量。例如,最近在ImageNet-1K上最先进的模型需要 30 亿数据进行预训练。对于计算资源有限的研究人员来说,这很难负担得起。然而,大型数据集中的所有数据是否有利于训练?是否有可能在不降低训练性能的情况下删除一些冗余样本?在下游任务上使用较少数据的预训练模型的性能是什么?在本文中,我们进行了广泛的实验并对这些问题进行了详细的探索。为了解决第一个问题,最近提出了几个数据集蒸馏 (DD) 算法 [62, 60, 30, 61, 53, 4, 16, 52, 35],通过合成一组明显小于原始数据集的新数据集来减少训练数据集大小。使用新的合成数据集,训练成本显著降低,同时产生与在原始数据集上训练的模型相当的结果。
在这里插入图片描述

尽管取得了重大进展,但两个限制使得这些算法难以部署在工业环境中:

  1. 泛化能力差
  2. 对更大数据集的可扩展性低
    在本文中,我们旨在实现一种结合数据集蒸馏方法和corset方法优点的方法:一种统一的数据集压缩方法,它生成紧凑的数据集,可用于训练各种网络架构,同时保持所有数据保持率下最先进的训练性能。我们首先研究了在低数据率下coreset选择方法性能不佳背后的原因,我们发现它在于一次性选择策略,导致所选数据的多样性较低。
    因此,我们提出了一种新的pipeline来克服coreset算法的上述问题,并将其称为数据集量化(DQ)。具体来说,DQ 首先基于子模块收益递归地将整个数据集划分为一组不重叠的 bins,旨在最大化等式1中定义的多样性收益。然后,从所有 bin 中统一采样一小部分数据样本。通过这种方式,对所选样本进行了优化,以尽可能地覆盖整个数据间多样性最大化的数据集。
    我们的主要贡献总结如下:
  3. 我们提出了一种新的框架数据集量化 (DQ),将数据集压缩成一个小的紧凑数据集,可用于训练具有最先进压缩性能的看不见的网络架构的神经网络。
  4. 我们提出了一种可扩展且高效的数据集压缩算法,可用于大型数据集,例如 ImageNet-1K。使用数据集量化,我们能够从 ImageNet-1K 数据集中删除 40% 的数据和Alpaca 指令数据集中删除 80% 的数据,并训练出没有性能损失的模型 。
  5. 我们验证了使用压缩数据集训练的模型可用于下游任务。在 ImageNet-1K 上用 60% 的数据预训练的模型在 COCO 上实现了对象检测的性能,ADE20K上进行分割。

2 相关工作

在本节中,我们回顾了两种具有代表性的相关方法:数据集蒸馏和核心集选择。我们还介绍了这两种方法的局限性和分析。

2.1 数据集蒸馏

数据集蒸馏(DD)是第一个提出从大型数据集合成少量信息样本的方法。具体来说,它通过最小化在合成数据集上训练的模型的原始训练样本的损失来优化合成样本。然后,人们提出了一系列技术,如数据集凝聚(DC)[63]、DSA[60]和IDC[31]。这些方法建议匹配从原始数据和合成数据计算的损失梯度。CAFE [53] 和 DM [61] 引入了特征分布匹配策略来减少大梯度样本的潜在偏差。最近的工作 [4] 试图最小化原始样本和合成样本之间的训练轨迹的差异。

2.2 核心集选择

核心集选择已被积极探索用于压缩数据集,旨在从目标数据集中选择最具代表性的样本的子集。以往的方法提出了不同的选择标准:geometry-based [8, 1, 44, 46], uncertainty-based [10], error-based [50, 41], decision-boundary-based [18, 38], gradient-matching [39, 28], bilevel optimization [29] and submodularity-based methods[26]。其中,上下文多样性 (CD) [1]、Herding [57] 和 k-Center Greedy [44] 试图根据它们与剩余样本的相似性去除冗余样本。Cal [38] 和 Deepfool [18] 认为核心集应该根据它们的学习困难来选择。Craig [39] 和 GradMatch [28] 试图在网络上训练时找到与整个数据集具有相似梯度值的最佳核心集。Glister [29] 引入了一个验证集来最大化整个数据集的对数似然,其中涉及耗时的双层优化。FL[26]和Graph Cut (GC)[26]同时考虑多样性和信息。

2.3 局限性和分析

DD 方法很难应用于大型数据集或架构,例如 ImageNet-1K 或 ResNet 系列,这主要是由于以下限制:泛化性差、可扩展性差和大型数据集的高计算成本。
在这里插入图片描述

3 方法

如第 2 节所述,基于 DD 方法的合成数据集在训练看不见的网络架构方面表现不佳,因为匹配指标与所使用的网络相结合。因此,我们积极探索对模型架构不敏感的数据选择策略。在本节中,我们首先介绍核心集选择方法的预备知识,并从理论上分析其局限性。特别是,我们选择基于 GraphCut 的方法 [26] 为例。然后,我们详细介绍了我们提出的数据集量化 (DQ) 方法。

3.1 核心集选择方法的预备知识

基于核心集的算法解决了 DD 方法的局限性。然而,几乎所有的coreset选择方法只以一次性的方式从整个数据集中选择单个子集。我们凭经验观察到它不可避免地引入了严重的选择偏差——位于数据集分布高密度区域的样本比其他样本更频繁地被选择——并产生多样性有限的选择结果。我们为观察提供了更详细的理论分析。
核心集选择的理论分析。几乎所有的coreset选择方法都使用heuristic metric来选择样本,这很难避免在heuristic metric下选择一些具有相似性能的样本。GraphCut[26]是一种最新的方法,我们选择它作为分析核心集选择过程的示例。 D = ( x k , y k ) k = 1 M D={(x_k,y_k)}^M_{k=1} D=(xk,yk)k=1M表示M个标注样例。我们默认从 D 中选择 K 个样本以形成核心集。核心集初始化为 S 1 1 ← ∅ S^1_1\leftarrow\emptyset S11,并且更新为 S 1 k ← S 1 k − 1 ∪ x k S^k_1\leftarrow S^{k-1}_1\cup x_k S1kS1k1xk。请注意, S n S_n Sn表示第n个bin, S n k S_n^k Snk表示第n个bin的前k个样例,并且 x k x_k xk表示第k个样例。我们将特征提取器定义为 f (·),在 GraphCut 中,通过最大化特征空间中的子模块增益 P ( x k ) P(x_k) P(xk) 来选择样本,定义如下
在这里插入图片描述

其中 S 1 k − 1 S^{k-1}_1 S1k1表示所选样本集, D / S 1 k − 1 D/S^{k-1}_1 D/S1k1表示剩余样本集。GraphCut 旨在最大化 P ( x k ) P(x_k) P(xk):它期望最大化 x k x_k xk和所选集合之间的多样性,同时最小化 x k x_k xk和剩余集合之间的距离。因此, S 1 S_1 S1 有望成为覆盖原始分布的核心集,同时保持最大的多样性。不过,当K远小于M, C 1 ( x k ) C_1(x_k) C1(xk)的和值远小于 C 2 ( x k ) C_2(x_k) C2(xk) x k x_k xk和剩余集之间的距离在增益计算中采用了主导位置。因此,正如预期的那样,所选 K 个样本的多样性并不能保证,特别是当数据比率较低时。

3.2 DQ概述

基于上述观察和分析,我们提出了数据集量化(DQ),这是一种量化大规模数据集以进行无损训练的新框架,其中考虑了数据效率、可扩展性和计算成本。在本文中,我们首先通过最大化子模块增益将数据集划分为几个不重叠的 bin。
在这里插入图片描述

如图3,给定一个数据集 D,使用预定义大小 K 的 bin 从 D 递归采样小信息集 bin,产生一组小 bin [ S 1 , . . . , S n , . . . , S N ] [S_1,...,S_n,...,S_N] [S1,...,Sn,...,SN]其中 N = M/K。每个bin S n = ( x j ( n ) , y j ( n ) ) j = 1 K ⊂ D S_n = {(x^{(n)}_j,y^{(n)}_j)} ^K_{j=1} \subset D Sn=(xj(n),yj(n))j=1KD在递归选择过程中,受限于原始特征分布的数据间多样性和代表性。早期步骤生成的 bin 主要受与剩余集的距离的限制,而后期的 bin 受到数据间多样性的限制。为了更好地捕获完整数据集的分布,并从以上两个角度平衡影响,然后通过从这些bin中均匀采样集成核心集S *进行训练。最终,通过从图像中删除非信息patchs来进一步减轻存储负担,从而去除冗余信息。
数据集 bin 生成,每个 bin 通过最大化等式1中声称的子模块增益来选择。DQ 从 D 递归地选择 bin,其中第 n 个 bin 中的第 i 个样本的选择公式如下:
在这里插入图片描述

Bin采样:在生成具有各种特征的数据集 bin 后,为了获得多样化和信息丰富的子集,使用采样器 g(·,·) 从每个 bin 中采样某个部分并形成最终的紧凑集。该过程正式定义为
在这里插入图片描述

此外,我们通过将每个样本的冗余数据划分为patch来去除每个样本中的冗余数据。受 Masked Auto-Encoder (MAE) [20] 的启发,它仅使用其中的一些patch来恢复图像,我们删除了不太重要的patch,以减少每张图片用于描述的像素数量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1495098.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何构建用于物体和标志检测的自定义模型

让我们快速了解一下AWS的机器学习技术栈,它几乎提供了解决我们业务问题所需的所有机器学习方面的支持。 物体检测是什么? 物体检测是从图像或视频帧中检测特定类别实例的任务。我们的目标是在图像/视频帧中找出哪里有什么物体。它是其他依赖物体的任务…

Locust中wait_time中匿名函数使用方法浅析

前言 翻出之前做个压测项,看到locust中对等待时间的实现方式感到好奇,于是总结下来。 源代码实现 def between(min_wait, max_wait):"""Returns a function that will return a random number between min_wait and max_wait.Example:…

数据库:2024/3/6

作业1&#xff1a;使用C语言完成数据库的增删改 代码&#xff1a; #include <myhead.h>//定义添加员工信息函数 int Add_worker(sqlite3 *ppDb) {//准备sql语句printf("请输入要添加的员工信息:\n");//从终端获取员工信息char rbuf[128]"";fgets(r…

centos7安装maven离线安装

1、从官方网站下载maven文件包 官方下载网站&#xff1a;https://maven.apache.org/download.cgi 2、创建文件夹解压文件 将下载好的安装包&#xff0c;放到创建的目录下&#xff0c;并解压 a、创建/app/maven文件 mkdir /app/mavenb、解压文件 tar -zxvf apache-maven-…

AIOps常见问题

AIOps的自动化通常指什么&#xff1f; AIOps 平台的自动化一般包括以下几个方面&#xff1a; 数据收集和整合&#xff1a;AIOps 平台可以从多个 IT 基础架构组件、应用需求与性能监视工具以及服务工单系统等数据源中收集并整合运维数据&#xff0c;形成一个全面的数据平台。数…

FC-AE-1553 协议

FC-AE-1553 协议 MIL-STD-1553B总线协议总线结构字格式消息传输方式 FC协议FC协议栈拓扑结构服务类型帧/序列/交换FC帧格式 FC-AE-1553网络构成帧类型命令帧状态帧数据帧 Information UnitsNC1NC2NC3-4NC5-7NT1-7 传输模式1. NC-NT2. NT-NC3. NT-NT4. 无数据字的模式命令5. 带数…

C++ spfa判断负环

给定一个 n 个点 m 条边的有向图&#xff0c;图中可能存在重边和自环&#xff0c; 边权可能为负数。 请你判断图中是否存在负权回路。 输入格式 第一行包含整数 n 和 m 。 接下来 m 行每行包含三个整数 x,y,z &#xff0c;表示存在一条从点 x 到点 y 的有向边&#xff0c;边…

GEE 依照范围裁剪 下载Sentinel-2数据

0. GEE介绍 Google Earth Engine&#xff08;GEE&#xff09; 是由Google开发的一种云端平台&#xff0c;旨在提供强大的地理空间数据处理和分析工具。GEE集成了大量的遥感影像数据和地理空间数据集&#xff0c;以及高性能的计算资源&#xff0c;使用户能够在云端高效地进行大规…

Java基础概念 7-计算机中的数据存储

目录 Java基础概念 7-计算机中的数据存储 计算机的存储规则 进制 十进制:0123456789 二进制:01 常见的进制 不同进制在代码中的表现形式 计算机为什么用二进制存储数据? 进制之间的转换 任意进制转十进制 公式: 系数*基数的权次幂 相加 二进制转十进制** 八进制转…

UEFI Secure Boot

一、前言 在计算机世界&#xff0c;安全是一个永恒的话题。微软的Windows的安全性一直深受诟病&#xff0c;但随着操作系统层面的漏洞逐渐减少&#xff0c;黑客们盯上了BIOS固件。那如何保证从开机到进入操作系统这个过程中的安全呢&#xff1f;下图是Intel CPU的整个UEFI安全启…

Python绘图-9饼图(下)

9.6饼图添加阴影 9.6.1图像呈现 9.6.2绘图代码 # 导入相关库 import numpy as np # 导入numpy库&#xff0c;用于处理数组和数值计算 import matplotlib.pyplot as plt # 导入matplotlib的绘图模块&#xff0c;用于可视化 import matplotlib.patheffects as path_effects …

小程序管理平台:助力企业数字化转型

微信小程序生态近年来发展迅猛&#xff0c;已成为中国互联网不可忽视的力量。截至2023年6月&#xff0c;微信小程序数量已超过300万&#xff0c;同比增长25%&#xff0c;涵盖了电商、生活服务、教育、金融等众多行业。微信小程序内容生态已经日趋完善&#xff0c;并满足各领域用…

脾胃,胃肠中医笔记

目录 脾胃的功能思伤脾&#xff0c;脑力工作者过度思考会伤脾胃焦虑会导致脾胃受伤按摩肚子顺时针还是逆时针&#xff0c;顺时针促消化/逆时针促排便脾胃生病症状舌苔腹胀、滞气的原因为什么大便稀&#xff1f;湿气重的原因及解决方案自测湿气重的方法 治疗脾胃药物总结补中益气…

Java开发中遇到最难的问题,多线程面试题高并发

开篇介绍 个人背景&#xff1a; 不说太多废话&#xff0c;但起码要让你先对我有一个基本的了解。本人毕业于浙江某二本院校&#xff0c;算是科班出身&#xff0c;毕业后就进了一家外包公司做开发&#xff0c;当然不是阿里的外包&#xff0c;具体什么公司就不透露了&#xff0…

Java项目:39 springboot008房屋租赁系统

作者主页&#xff1a;源码空间codegym 简介&#xff1a;Java领域优质创作者、Java项目、学习资料、技术互助 文中获取源码 项目介绍 房屋租赁系统的设计基于现有的网络平台&#xff0c;主要有管理员、房东、用户三个角色 管理员可以在线查看系统已有的人中心、房屋类型管理、…

STM32FreeRTOS信号量(STM32cube高效开发)

一、信号量 &#xff08;一&#xff09;信号量概括 信号量是操作系统中重要的一部分&#xff0c;信号量是一种解决同步问题的机制&#xff0c;可以实现对共享资源的有序访问。 FreeRTOS 提供了多种信号量&#xff0c;按信号量的功能可分为二值信号量、计数型信号量、互斥信…

python文本分析与贝叶斯算法

一、python文本分析概念 文本分析中第一个概念是停用词&#xff0c;这种词有三个特点&#xff1a;&#xff08;1&#xff09;语料中大量出现&#xff1b;&#xff08;2&#xff09;没啥用&#xff1b;&#xff08;3&#xff09;留着没用。比如符号&#xff08;&#xff01;#&a…

2024年最全洗地机选购攻略盘点丨希亦、小米、云鲸、海尔洗地机哪款值得入手?

在现代家居清洁中&#xff0c;洗地机是不可或缺的得力助手&#xff0c;它融合了吸尘、拖地等多种功能。面对市场上琳琅满目的洗地机品牌和型号&#xff0c;选择一个可靠的品牌至关重要。优质的品牌能够提供高品质的产品&#xff0c;使您的清洁工作更加轻松高效。本文将向您推荐…

Android开发基础面试题,PDF超过6000页

前言 从毕业到现在面试也就那么几家公司&#xff0c;单前几次都比较顺利&#xff0c;在面到第三家时都给到了我offer&#xff01;前面两次找工作&#xff0c;没考虑到以后需要什么&#xff0c;自己的对未来的规划是什么&#xff0c;只要有份工作&#xff0c;工资符合自己的要求…

阿里云域名优惠口令2024年最新,com、cn和域名注册续费使用

2024年阿里云域名优惠口令&#xff0c;com域名续费优惠口令“com批量注册更享优惠”&#xff0c;cn域名续费优惠口令“cn注册多个价格更优”&#xff0c;cn域名注册优惠口令“互联网上的中国标识”&#xff0c;阿里云优惠口令是域名专属的优惠码&#xff0c;可用于域名注册、续…