论文解读:FREE LUNCH FOR FEW-SHOT LEARNING: DISTRIBUTION CALIBRATION

news2024/12/24 2:06:35

文章汇总

问题

学习到的模型很容易因为只有少数训练样本形成的有偏分布而变得过拟合。

动机

我们假设特征表示中的每个维度都遵循高斯分布,因此分布的均值和方差可以借鉴类似类的均值和方差,这些类的统计量可以通过足够数量的样本得到更好的估计。

(方法)别人的总结

详见参考文章中的评论区

首先利用backbone提取训练集所有类(基类)的特征,计算mean和var之后用在测试集(新类)中;利用的是基类中部分图像与新类中的部分图像语义相似时,mean和var也十分相似。然后利用基类的mean和var矫正测试集中support set图像的mean 和var。相当于是扩充了support set的数据量。

(方法)我的总结

首先正常对基类提特征,之后计算每个基类的mean和var;

对应每个新类,作者通过计算每个新类的特征空间与每个基类的特征均值之间的欧几里德距离,从支持集中选择与样本\tilde x的特征距离最近的前k个基类,拿他们的mean和var来标准化测试集中support set的图像。

摘要

从有限数量的样本中学习是具有挑战性的,因为学习到的模型很容易因为只有少数训练样本形成的有偏分布而变得过拟合。在本文中,我们通过从具有足够样本的类中转移统计量来校准这些少数样本类的分布。然后可以从校准分布中抽取足够数量的样本来扩展分类器的输入。我们假设特征表示中的每个维度都遵循高斯分布,因此分布的均值和方差可以借鉴类似类的均值和方差,这些类的统计量可以通过足够数量的样本得到更好的估计。我们的方法可以建立在现成的预训练特征提取器和分类模型之上,而不需要额外的参数。我们表明,使用从校准分布中采样的特征训练的简单逻辑回归分类器可以在三个数据集上优于最先进的精度(与次优相比,miniImageNet提高了5%)。这些生成的特征的可视化表明,我们的校准分布是一个准确的估计。该代码可在https://github.com/ShuoYang-1998/Few_Shot_Distribution_Calibration获得

介绍

由于收集和标注大量数据的成本很高,从有限的训练样本中学习越来越受到关注。研究人员已经开发出算法来提高用很少数据训练的模型的性能。Finn et al (2017);Snell等人(2017)以元学习的方式训练模型,这样模型就可以在只有少量训练样本的情况下快速适应任务。Hariharan & Girshick (2017);Wang等人(2018)尝试通过学习生成模型来综合数据或特征,以缓解数据不足的问题。Ren等人(2018)提出利用未标记数据并预测伪标签来提高少射学习的性能。

虽然大多数先前的工作都集中在开发更强大的模型上,但很少关注数据本身的属性。当数据数量增加时,自然可以更准确地揭示真实分布。经过广泛数据覆盖训练的模型在评估过程中可以很好地泛化。另一方面,当训练一个只有少量训练数据的模型时,通过最小化这些样本上的训练损失,模型倾向于在这些少数样本上过拟合。这些现象如图1所示。这种基于少数例子的偏差分布可能会损害模型的泛化能力,因为它远远不能反映在评估过程中对测试用例进行采样的真实分布

表1:北极狐与不同类别的类平均相似度(“mean sim”)和类方差相似度(“var sim”)。

在这里,我们考虑将这个偏置分布校准为更准确的真实分布近似值。通过这种方式,使用从校准分布中采样的输入训练的模型可以从更精确的分布中推广到更广泛的数据范围,而不仅仅是将自己拟合到那些少数样本中。我们没有校准原始数据空间的分布,而是尝试校准特征空间中的分布,特征空间的维数要低得多,并且更容易校准(Xian et al(2018))。我们假设特征向量的每个维度都服从高斯分布,并观察到相似的类通常具有相似的特征表示的均值和方差,如表1所示。因此,高斯分布的均值和方差可以在相似的类之间传递(Salakhutdinov等人(2012))。同时,当该类有足够的样本时,可以更准确地估计统计量。基于这些观察,我们重用来自超过1-shot类的统计数据,并根据它们的类相似性将它们转移到更好地估计少样本类的分布。根据估计的分布可以生成更多的样本,为训练分类模型提供了足够的监督

在实验中,我们证明了用我们的策略训练的简单逻辑回归分类器可以在三个数据集上达到最先进的精度。我们的分布校准策略可以与任何分类器和特征提取器配对,不需要额外的可学习参数。与仅使用5way1shot任务中给出的少量样本进行训练的基线相比,从校准分布中选择样本进行训练可以获得12%的精度增益。我们还可视化了校准分布,并表明它是可以更好地覆盖测试用例的基本事实的精确近似值。

2相关工作

3 主要方法

在本节中,我们将在3.1节中介绍少样本分类问题的定义,并在3.2节中详细介绍我们提出的方法。

3.1问题定义

3.2分布校准

正如3.1节所介绍的,基类有足够的数据量,而从新类中抽样的评估任务只有有限数量的标记样本。相对于基于少量样本的估计,基类的分布统计量可以得到更精确的估计,这是一个不适定问题。如表1所示,我们观察到,如果我们假设特征分布为高斯分布,则每个类的均值和方差与每个类的语义相似度相关。考虑到这一点,如果我们知道这两个类有多相似,就可以将统计信息从基类转移到新类。在接下来的章节中,我们将讨论如何在基类(3.2.1)的统计数据的帮助下,仅使用少量样本(3.2.2节)来校准类的分布估计。我们还将详细说明如何利用校准分布来提高少射学习的性能(第3.2.3节)。

请注意,我们的分布校准策略是在特征级别之上的,对任何特征提取器都是不可知的。因此,它可以构建在任何预训练的特征提取器之上,而无需进一步进行昂贵的微调。在我们的实验中,我们在之前的工作(Mangla et al .(2020))之后使用了预训练的WideResNet Zagoruyko & Komodakis(2016)。WideResNet被训练来对基类进行分类,以及一个自我监督的借口任务来学习适合图像理解任务的通用表示。关于训练特征提取器的更多细节,请参考他们的论文。

3.2.1基类统计信息

我们假设基类的特征分布是高斯分布。基类i的特征向量的均值被计算为s所有向量中每个维度的均值:

其中x_j是基类i中第j个样本的特征向量,n_i是基类i中样本的总数。由于特征向量x_j是多维的,我们使用协方差来更好地表示特征向量中任意一对元素之间的方差。第i类特征的协方差矩阵\sum_i计算为:

3.2.2校正新类的统计量

在这里,我们考虑一个从新类中抽样的N-way K-shot任务。

Tukey’s Ladder of Powers Transformation

为了使特征分布更接近高斯分布,我们首先使用Tukey's Ladder of Powers变换(Tukey(1977))对目标任务中的支持集和查询集的特征进行变换。Tukey's Ladder of Powers变换是一种幂变换,它可以减少分布的偏度,使分布更像高斯分布。Tukey的权力阶梯变换公式为:

其中λ是调节如何校正分布的超参数。通过设置λ为1,可以恢复原始特征。减小λ使分布减小正偏斜,反之亦然。

通过统计数据转移进行校准

使用第3.2.1节中介绍的基类的统计信息,我们将基类的统计信息转移到新类中,这些统计信息在足够的数据上得到了更准确的估计。迁移基于新类的特征空间与基类的特征均值之间的欧几里德距离,如式1所示。具体来说,我们从支持集中选择与样本\tilde x的特征距离最近的前k个基类:

其中,topk(·)是从输入距离集S_d中选择top元素的运算符。S_N存储相对于特征向量\tilde x最接近的k个基类。然后,通过最近基类的统计量校准分布的均值和协方差:

其中\alpha是一个超参数,它决定了从校准分布中采样的特征的分散程度。

对于超过1-shot的少样本学习,上述的分布校准过程需要进行多次,每次使用一个来自支持集的特征向量。这避免了由一个特定样本提供的偏差,并可能实现更多样化和更准确的分布估计。因此,为简单起见,我们将校准后的分布表示为一组统计量。对于一类y \in C_n,我们将统计量集记为
S_y=\{(u_1^{'},\sum\limits_1'),...,(u_K^{'},\sum\limits_K')\},其中u_i^{'},\sum\limits_i'分别是基于y类支持集中的第i个特征计算的校准均值和协方差。这里,集合的大小是N-way-K-shot任务的K值。

3.2.3如何利用校准后的分布?

使用目标任务中y类的一组校准统计量S_y,我们通过从校准的高斯分布中采样来生成一组标记为y的特征向量:

这里,每个类生成的特征总数被设置为一个超参数,并且它们在S_y中的每个校准分布中均匀分布。然后,生成的特征与原始支持集特征一起作为特定于任务的分类器的训练数据。

我们通过最小化其支持集S的特征和生成的特征D_y上的交叉熵损失来训练任务的分类器:

其中,\gamma^T是任务T的类集合。\tilde S表示由土耳其幂阶变换变换的特征组成的支持集,分类器模型用θ参数化。

4实验

在本节中,我们将回答以下问题:

与最先进的方法相比,我们的分布校准策略如何执行?

校准后的分布是什么样的?它是这门课的准确近似值吗?•

tukey的权力阶梯转换如何与功能代交互?

每一项对性能有多重要?

4.1实验设置

4.4.1数据集

我们在miniImageNet (Ravi & Larochelle(2017))、tieredImageNet (Ren等人(2018))和CUB (Welinder等人(2010))上评估了我们的分布校准策略。miniImageNet和tieredImageNet有一系列的类,包括各种动物和对象,而CUB是一个更细粒度的数据集,包括各种鸟类。具有不同粒度级别的数据集可能具有不同的特征空间分布。我们希望在所有三个数据集上展示我们策略的有效性和通用性。

miniImageNet来源于ILSVRC-12数据集(Russakovsky et al, 2014)。它包含100个不同的类,每个类有600个样本。图像大小为84 × 84 × 3。我们遵循先前作品中使用的拆分(Ravi & Larochelle, 2017),将数据集拆分为64个基本类,16个验证类和20个新类。

tieredImageNet是ILSVRC-12数据集(Russakovsky et al ., 2014)的更大子集,该数据集包含608个从分层类别结构中采样的类。每个类都属于从ImageNet的高级节点中采样的34个高级类别中的一个。每个类的平均图像数为1281。我们分别使用351,97和160个类进行训练、验证和测试。

CUB是一个细粒度的少量分类基准。它包含200种不同种类的鸟类,总共11,788张大小为84 × 84 × 3的图像。根据之前的工作(Chen等人,2019a),我们将数据集分为100个基本类,50个验证类和50个新类。

4.1.2评价指标

我们使用top-1精度作为评估指标来衡量我们的方法的性能。我们报告了miniImageNet, tieredImageNet和CUB的5way1shot和5way5shot设置的准确性。报告的结果是超过10,000个任务的平均分类精度。

4.1.3实现细节

对于特征提取器,我们使用WideResNet (Zagoruyko & Komodakis, 2016)在之前的工作(Mangla et al .(2020))之后进行训练。对于每个数据集,我们使用基类训练特征提取器,并使用新类测试性能。注意,特征表示是从特征提取器的倒数第二层(带有ReLU激活函数)提取的,因此这些值都是非负的,因此公式3中的Tukey 's Ladder of Powers变换的输入是有效的。在分布校准阶段,我们计算基类统计信息,并将其传递给每个数据集来校准新类分布。我们在默认设置下使用scikit-learn的LR和SVM实现(Pedregosa等人(2011))。我们对除α以外的所有数据集使用相同的超参数值。具体来说,是生成的特征的数量是750;K = 2 λ = 0:5。miniImageNet、tieredImageNet和CUB的α值分别为0.21、0.21和0.3。

4.2与最先进的比较

表2: 5way 1shot和5way 5shot在miniImageNet和CUB上的分类准确率(%),置信区间为95%。加粗的数字用最精确的方法有相交的置信区间。

表3:tieredImageNet上5way1shot和5way5shot的分类准确率(%)(Ren et al ., 2018)。加粗的数字用最精确的方法有相交的置信区间。

4.3生成样品的可视化

我们通过可视化从分布中采样的生成特征来显示校准分布的样子。在图2中,我们展示了t-SNE表示(van der Maaten & Hinton(2008))、生成的特征(b,c)以及查询集(d)。在校准分布的基础上,采样的特征形成高斯分布,更多的样本(c)可以更全面地表示分布。由于支持集中的示例数量有限,在本例中只有1个,因此来自查询集的示例通常覆盖更大的区域,并且与支持集不匹配。这种不匹配可以通过生成的特征在一定程度上修复,即(c)中生成的特征可以重叠查询集的区域。因此,使用这些生成的特征进行训练可以缓解仅从少量样本估计的分布与地面真值分布之间的不匹配

图2:分布估计的t-SNE可视化。不同的颜色代表不同的阶级。F表示支持集特征,图(d)中的x表示查询集特征,图(b)和图(c)中的N表示生成特征。

4.4分布校准的适用性

在不同主干网上应用分布校准

我们的分布校准策略对主干/特征提取器是不可知的。表5显示了在不同的特征提取器上应用分布校准时的一致性能提升,即四个卷积层(conv4),六个卷积层(conv6), resnet18, WRN28和WRN28用旋转损失训练。与使用不同基线训练的主干相比,分布校准的精度提高了约10%。

在其他基线上应用分布校准

各种各样的作品都可以从我们的分布校准策略生成的特征训练中受益。我们将分布校准策略应用于两种简单的少镜头分类算法,Baseline (Chen et al ., 2019a)和Baseline++ (Chen et al ., 2019a)。表6显示,我们的分布校准使两者的精度都提高了10%以上。

5结论与未来工作

提出了一种简单有效的少样本分类分布标定策略。没有复杂的生成模型、训练损失和额外的参数来学习,用我们的策略生成的特征训练的简单逻辑回归在miniImageNet上的性能比目前最先进的方法高出约5%。校正后的分布是可视化的,并证明了特征分布的准确估计。未来的工作将探索分布校准在更多问题设置上的适用性,例如多域少镜头分类,以及更多方法,例如基于度量的元学习算法。

参考资料

论文下载(ICLR 2021)

https://openreview.net/pdf?id=JWOiYxMG92s

代码地址

GitHub - ShuoYang-1998/Few_Shot_Distribution_Calibration: [ICLR2021 Oral] Free Lunch for Few-Shot Learning: Distribution Calibration

参考文章

ICLR Oral & T-PAMI 2021 |Free Lunch for Few-shot Learning: Distribution Calibration - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1601615.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PHP反序列化命令执行+PHP反序列化POP大链 +PHP反序列化基础

[题目信息]: 题目名称题目难度PHP反序列化命令执行1 [题目考点]: 反序列化命令执行,获取题目flag。[Flag格式]: SangFor{t5euvZ_OB8Jd_h2-}[环境部署]: docker-compose.yml文件或者docker tar原始文件。 docker-compose up …

ArcGIS三维景观分层显示

今天将向大家介绍的事在ArcGIS中如何创建多层三维显示。 地表为影像的 地表为地形晕渲的 在土壤分层、油气分层等都有着十分重要的应用。下面我们具体来看看实现过程 一、 准备数据及提取栅格范围 我们这次准备的数据是之前GIS100例-30讲的案例数据。《ArcGIS三维影像图剖面图…

【网站项目】学习资料销售平台 小程序

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

用c++写一个代码解析器需要向哪方面学习?

我以前在中小游戏公司工作的时候,其中一项比较琐碎的工作就是为游戏项目建库建表,主要是为了做数据分析。作为一个职能部门的打杂PHP,对游戏业务并没有什么发言权,但是每次建库建表,却是苦不堪言。 同时部门的基础设施…

EPP和EDR是什么,如何提高端点安全性

端点保护平台(EPP)和端点检测和响应(EDR)工具是两种常用于保护端点系统免受威胁的安全产品。EPP 是一种全面的安全解决方案,提供一系列功能来检测和防止对端点设备的威胁。同时,EDR专门用于实时监控、检测和…

CC254X 8051芯片手册介绍

1 8051CPU 8051是一种8位元的单芯片微控制器,属于MCS-51单芯片的一种,由英特尔(Intel)公司于1981年制造。Intel公司将MCS51的核心技术授权给了很多其它公司,所以有很多公司在做以8051为核心的单片机,如Atmel、飞利浦、深联华等公…

AI讲师大模型培训老师叶梓:大模型应用的方向探讨

大模型应用的关键方向及其落地案例可以从多个角度进行探讨,结合最新的研究和实际应用案例,我们可以更全面地理解这些技术如何推动社会和经济的发展。 Agent(数字代理): 方向说明:Agent方向的AI技术旨在创建能够独立执行任务、做出…

redis_watchDog机制

文章目录 介绍机制介绍任务开始任务释放 介绍 redis的watchDog机制实现了超时续约的功能,简单来说就是在获取锁成功以后,开启一个定时任务,这个任务每隔一段时间(relaseTime / 3),重置超时时间,避免的因业务阻塞导致锁…

比特币L2项目主网密集上线:新业态背后的挑战与机遇

随着加密货币行业的快速发展,比特币Layer 2(以下简称L2)项目的主网密集上线成为了近期的热点话题。这一潮流不仅是对比特币网络扩展的重要里程碑,也为新的商业模式和生态系统带来了无限可能。然而,随之而来的是各种挑战…

支付宝支付之SpringBoot整合支付宝入门

支付宝支付 对接流程 申请阿里支付官方企业账号配置应用签约产品获取RSAKey(非对称加密)必须获得两个加密串:一个公钥,一个密钥SDK功能开发业务对接支付回调支付组件 核心所需的参数 APPID商家私钥支付宝公钥支付回调地址网关…

实战纪实 | 学工平台平行越权

一.账号密码可爆破(无验证码) 1.学校学工平台用于请假跟每日上报健康信息,登录框如下: 2.经过测试发现这里不存在验证码验证,并且存在初始密码,可以尝试使用默认密码爆破账号: 3.经测试&#x…

【无标题】PHP-parse_str变量覆盖

[题目信息]: 题目名称题目难度PHP-parse_str变量覆盖1 [题目考点]: 变量覆盖指的是用我们自定义的参数值替换程序原有的变量值,一般变量覆盖漏洞需要结合程序的其它功能来实现完整的攻击。 经常导致变量覆盖漏洞场景有:$$&…

自动化测试Selenium(3)

目录 WebDriver相关API 打印信息 打印title 打印url 浏览器的操作 浏览器最大化 设置浏览器的宽,高 操作浏览器的前进, 后退, 刷新 控制浏览器滚动条 键盘事件 键盘单键用法 键盘组合按键用法 鼠标事件 WebDriver相关API 打印信息 打印title 即打印该网址的标题.…

护网行动 | 蓝队应急响应流程概述

了解蓝队应急响应的流程 应急响应通常是指为了应对各种意外事件发生前所做的准备,以及在意外事件发生后所采取的措施。 网络安全应急响应是指对已经发生或可能发送的安全事件进行监控、分析、协调、处理、保护资产安全。 网络安全应急响应主要是为了让人们对网络安全…

idea2023专业版安装破解+maven配置教程

前言 上一篇文章已经介绍了maven在Win10系统的安装配置教程。基于Win10的maven配置环境,本篇文章将介绍idea2023的安装破解教程及maven在idea2023的配置教程(同时会将maven在idea2023的配置教程内容补充至上一篇文章)。 一、idea2023下载安…

【学习】jemter中如何高效使用正则表达式

在Jemter的世界里,正则表达式无疑是一把锐利的剑,它可以帮助我们轻松地解决许多问题。在Jemter的性能测试过程中,我们常常需要提取响应中的某些数据,以便在后续的请求中使用。这时,正则表达式就派上用场了。通过学习如…

Linux进阶篇:Centos7搭建smb服务

Centos7搭建smb服务 1 smb介绍 Samba是在Linux和UNIX系统上实现SMB协议的一个免费软件,由服务器及客户端程序构成。SMB(Server Messages Block,信息服务块)是一种在局域网上共享文件和打印机的一种通信协议,它为局域…

C语言学习笔记之指针(二)

指针基础知识:C语言学习笔记之指针(一)-CSDN博客 目录 字符指针 代码分析 指针数组 数组指针 函数指针 代码分析(出自《C陷阱和缺陷》) 函数指针数组 指向函数指针数组的指针 回调函数 qsort() 字符指针 一…

内网隧道技术总结

隧道技术解决的是网络通信问题,因为在内网环境下,我们不同的内网主机管理员会进行不同的网络配置,我们就需要使用不同的方式去控制我们的内网主机。隧道技术是一个后渗透的过程,是可以是我们已经取得了一定的权限,在这…

元数据管理Atlas

文章目录 一、Atlas概述1、Atlas入门2、Atlas架构原理 二、Atlas安装1、安装环境准备1.1 安装Solr-7.7.31.2 Atlas2.1.0安装 2、Atlas配置2.1 Atlas集成Hbase2.2 Atlas集成Solr2.3 Atlas集成Kafka2.4 Atlas Server配置2.5 Kerberos相关配置2.6 Atlas集成Hive 3、Atlas启动 三、…