读论文:Learning to Compare: Relation Network for Few-Shot Learning

news2025/2/6 17:39:42
Abstract

我们提出了一个概念上简单、灵活且通用的少镜头学习框架,其中分类器必须学习识别每个只给出少量示例的新类。我们的方法称为关系网络(RN),从头到尾进行训练。在元学习过程中,它学习学习一个深度距离度量来比较插曲中的少量图像,每个图像都被设计用来模拟少数镜头设置。经过训练后,RN能够通过计算查询图像与每个新类的少数示例之间的关系分数来对新类的图像进行分类,而无需进一步更新网络。除了在少镜头学习上提供更好的性能外,我们的框架很容易扩展到零镜头学习。在五个基准上进行的大量实验表明,我们的简单方法为这两项任务提供了统一而有效的方法。

Introduction

具体来说,我们提出了一个双分支关系网络(RN),通过学习比较查询图像和少数镜头标记的样本图像来执行少数镜头识别。首先,嵌入模块生成查询和训练图像的表示。然后,这些嵌入由一个关系模块进行比较,该模块确定它们是否来自匹配的类别。定义一个受[39,36]启发的基于情节的策略,嵌入和关系模块是端到端的元学习,以支持少量学习。这可以看作是扩展了[39,36]的策略,包括一个可学习的非线性比较器,而不是一个固定的线性比较器。我们的方法优于先前的方法,同时更简单(没有rnn[39,32,29])和更快(没有微调[29,10])。我们提出的策略也直接推广到零次学习。在这种情况下,样本分支嵌入一个单镜头类别描述,而不是单个示例训练图像,关系模块学习比较查询图像和类别描述嵌入。

总的来说,我们的贡献是提供一个干净的框架,优雅地包含少量和零次学习。我们对四个基准的评估表明,它提供了令人信服的性能,同时比替代方案更简单、更快。

Related Work

单镜头或少镜头物体识别的研究已经有一段时间了。早期关于少镜头学习的工作往往涉及具有复杂迭代推理策略的生成模型[9,23]。随着基于判别的深度学习方法在多镜头数据集环境中的成功[22,15,35],人们对将这种深度学习方法推广到少镜头学习环境中的兴趣激增。许多这种方法使用元学习或从学习到学习的策略,从一组辅助任务(元学习,从学习到学习)中提取一些可转移的知识,然后帮助他们很好地学习目标少次问题,而不会遭受在将深度模型应用于稀疏数据问题时可能预期的过拟合。

Learning to fine-tune 

成功的MAML方法[10]旨在元学习一个初始条件(神经网络权重集),这有利于对少数镜头问题进行微调。这里的策略是搜索给定神经网络的权重配置,这样它就可以在几个梯度下降更新步骤内有效地对稀疏数据问题进行微调。许多不同的目标问题从一个多任务训练集中采样;然后对基本神经网络模型进行微调,以解决每个问题,并且在微调后成功解决每个目标问题,从而驱动基本模型中的更新-从而驱动易于微调初始条件的产生。少镜头优化方法[29]在元学习方面更进一步,不仅是一个良好的初始条件,而且是一个基于lstm的优化器,它被训练为特别有效的微调。然而,这两种方法都需要对目标问题进行微调。相比之下,我们的方法以完全前馈的方式解决目标问题,不需要更新模型,使其更方便于低延迟或低功耗应用。

RNN Memory Based

另一类方法利用带有记忆的循环神经网络[27,32]。

这里的思想通常是RNN迭代给定问题的示例,并在其隐藏的激活(或外部内存)中积累解决该问题所需的知识。新的例子可以被分类,例如通过将它们与存储在内存中的历史信息进行比较。所以“学习”单个目标问题可以发生在RNN展开的过程中,而“学习到学习”是指通过学习许多不同的问题来训练RNN的权重。尽管很吸引人,但这些架构在确保可靠地存储所有(可能是长期的)相关历史信息而不遗忘方面面临着问题。

在我们的方法中,我们避免了循环网络的复杂性,以及确保其内存充分性所涉及的问题。相反,我们的学习到学习方法完全由简单和快速前馈cnn定义。

Embedding and Metric Learning Approaches

以往的方法在学习目标少shot问题时具有一定的复杂性。另一类方法旨在学习一组投影函数,从目标问题中获取查询和样本图像,并以前馈方式对其进行分类[39,36,4]。一种方法是根据样本集[4]参数化前馈分类器的权重。这里的元学习是训练辅助参数化网络,学习如何根据少量样本集对给定的前馈分类问题进行参数化。基于度量学习的方法旨在学习一组投影函数,以便在嵌入中表示时,图像易于使用简单的最近邻或线性分类器识别[39,36,20]。在这种情况下,元学习的可迁移知识是投影函数,目标问题是一个简单的前馈计算。

与我们最相关的方法是[36]的原型网络和[20]的孪生网络。这些方法侧重于学习嵌入,转换数据,使其可以用固定的最近邻[36]或线性[20,36]分类器进行识别。相比之下,我们的框架进一步定义了一个关系分类器CNN,风格为[33,44,14](而[33]侧重于推理同一图像中两个对象之间的关系,这是为了解决不同的问题。)与[20,36]相比,这可以看作是提供了一个可学习的而不是固定的度量,或者是非线性的而不是线性的分类器。

与[20]相比,我们受益于从头开始的端到端方式的情景训练策略,与[32]相比,我们避免了集到集RNN嵌入样本集的复杂性,而简单地依赖于池化[33]。

Zero-Shot Learning

我们的方法是为少镜头学习而设计的,但是通过修改样本分支来输入单个类别描述而不是单个训练图像,优雅地将空间扩展到零镜头学习(ZSL)。当应用于ZSL时,我们的架构与学习对齐图像和类别嵌入的方法有关,并通过预测图像和类别嵌入对是否匹配来执行识别[11,3,43,46]。与之前基于度量的少镜头方法类似,大多数方法在结合图像和类别嵌入后,采用固定的人工定义的相似度量或线性分类器。相比之下,我们再次受益于更深层次的端到端架构,包括以我们学习的卷积关系网络形式学习的非线性度量;以及基于情景的训练策略。

Methodology

Problem Definition

我们考虑了少镜头分类器学习的任务。形式上,我们有三个数据集:训练集、支持集和测试集。支持集和测试集共享相同的标签空间,但训练集有自己的标签空间,该标签空间与支持集/测试集不相交。如果支持集包含针对C个唯一类的K个标记示例,则目标少射问题称为C-way K-shot。

仅使用支持集,原则上我们可以训练分类器为测试集中的每个样本x分配类标签y。然而,由于支持集中缺乏标记样本,这种分类器的性能通常不能令人满意。因此,我们的目标是在训练集上进行元学习,以提取可迁移的知识,使我们能够在支持集上进行更好的少镜头学习,从而更成功地对测试集进行分类。

利用训练集的一种有效方法是通过基于集的训练来模拟少镜头学习设置,如[39]中所提出的。在每次训练迭代中,随机从训练集中选取C类,每个C类中有K个标记样本,作为样本集S = {(xi, yi)}mi=1 (m = K × C),并从这些C类样本的剩余部分中选取一部分作为查询集Q = {(xj, yj)}nj=1,形成一个集。这个示例/查询集分割的目的是模拟在测试时将遇到的支持/测试集。如果需要,可以使用支持集对从样本/查询集训练的模型进行进一步的微调。在本工作中,我们采用了这种基于情节的训练策略。在我们的少数镜头实验(见4.1节)中,我们考虑了一次镜头(K = 1,图1)和五次镜头(K = 5)设置。我们还处理K = 0零次学习情况,如3.3节所述。

Model

 

实验

 Omnniglot实验效果

Mini-imagenet效果

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/102784.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RNA-seq 详细教程:时间点分析(14)

学习内容 了解如何使用 DESeq2 进行时间的分析LRT 使用 LRT 进行 Time course 分析尽管基因表达的静态测量很受欢迎,但生物过程的时程捕获对于反映其动态性质至关重要,特别是当模式复杂且不仅仅是上升或下降时。在处理此类数据时,似然比检验 …

doris入门后遇到的几个问题总结

文章目录1. Access denied for user anonymnull (using password: NO)2. timeout when waiting for send fragments RPC. Wait(sec): 5, host: xxx(ip)3. Failed to initialize JNI: Failed to find the library libjvm.so.4. 从mysql库导出的json文件大于100M时报错5. csv格式…

OA办公系统:颠覆企业办公模式,激活组织潜能打造新模式

企业的生命力在于生存,而想要在竞争日益激烈的市场环境下生存,就必须不断革新自己的内部条件,否则将会在发展的洪流中被社会所淘汰。如今社会的发展正在信息化世界中进行,企业搭建信息化平台是一条必经之道,而OA办公自…

太爽了!看酷开系统帮你沉浸式带娃!

现如今,OTT大屏涉及的线上内容与娱乐方式与日俱增,不仅常规的电视节目、网剧影视能够随心选择,还发展出以大屏为载体的短视频、健身、云游戏等丰富内容。在人们的居家生活走向常态化的当下,更长的开机使用时间自然对电视操作系统的…

codeforces:C. Another Array Problem【分类讨论 + 找规律】

目录题目截图题目分析ac code总结题目截图 题目分析 做cf题目别老想着套算法模版 找规律才是正道,这就是所谓的「思维」 n 2很简单 n > 4: # 肯定有一个最大值,不妨设它的位置在第三个或以后的x# 前两个值经过两次操作,都变为0# 第0…

Vue.js 目录结构

当我们初始化一个项目后目录结构是这样的: 目录解析 目录/文件说明build项目构建(webpack)相关代码config配置目录,包括端口号等。我们初学可以使用默认的。node_modulesnpm 加载的项目依赖模块src这里是我们要开发的目录,基本上要做的事情都…

# 关于“table“中更新传参回填form

关于"table"中更新传参回填form 一、id查询数据库回填form 使用阶段:Javaweb/ssm/Springboot出现场景:jsp页面(el表达式)、thymeleaf页面(thymeleaf表达式,具体使用方法请前往百度)…

Python成求职中最吃香的三大编程语言之一

程序员培训公司 CodinGame 发布的一份开发人员调查报告显示,在开发人员招聘中,拥有 JavaScript、Java 和 Python 三大编程语言技能的开发人员最受招聘经理欢迎。 该报告基于对全球近 15,000 名开发人员和人力资源专业人员的调查。报告显示,每…

【IO流】JAVA基础篇(一)

文章目录一、字节流和字符流的区别1、字节和字符换算关系2、字节、位、二进制之间的关系3、在64位的操作系统中,一个字等于多少字节?4、字节流和字符流区别二、InputStream1、FileInputStream2、FilterInputStream3、ObjectInputStream4、PipedInputStre…

玩客云刷ARMBIAN当服务器过程记录

玩客云的可玩性 1、可以刷成电视游戏盒子的双系统。也可以刷成单独的电视盒子和游戏盒子。不过因为内存有限放不了多少游戏。还是建议用外置SD卡存储游戏比较合适。 2、刷成Armbian linux系统(可以实现docker、可道云、甜糖等多种功能) 3、最后它还可…

jsp+ssm计算机毕业设计风景区管理系统【附源码】

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: JSPSSM mybatis Maven等等组成,B/S模式 Mave…

生物安全防护实验室建设要点SICOLAB

生物安全实验室(BiosafetyLaboratory),也称生物安全防护实验室(BiosafetyContainmentforLaboratories),是通过防护屏障和管理措施,能够避免或控制被操作的有害生物因子危害,达到生物…

磺丁基醚环糊精盐内水相/桂利嗪/EGF/吲哚美辛-环糊精/黄芩苷β-环糊精包合物脂质体制备

小编今天分享了磺丁基醚环糊精盐内水相/桂利嗪/EGF/吲哚美辛-环糊精/黄芩苷β-环糊精包合物脂质体的研究内容,和小编一起来看! 黄芩苷β-环糊精(β-CD)包合物脂质体: 采用薄膜-超声分散法制备黄芩苷-CD包合物脂质体,并测定脂质体的粒径分布,Zeta电位以及…

灿芯股份冲刺科创板上市:计划募资6亿元,中芯国际、小米为股东

12月19日,灿芯半导体(上海)股份有限公司(下称“灿芯股份”)在上海证券交易所递交招股书,准备在科创板上市。本次冲刺科创板上市,灿芯股份计划募资6亿元,海通证券为其保荐机构。 招股…

赫夫曼树 | 实战演练(二)

🎈 作者:Linux猿 🎈 简介:CSDN博客专家🏆,华为云享专家🏆,Linux、C/C、云计算、物联网、面试、刷题、算法尽管咨询我,关注我,有问题私聊! &…

高效空气过滤器检漏

广州特耐苏净化设备有限公司详细介绍:高效空气过滤器安装后的检漏 高效空气过滤器安装后的检漏是确认安装质量,检测高效空气过滤器送风口的整个面、过滤器的周边、过滤器外框和安装框架之间的密封处。检漏时,从过滤器的上风侧引入测试气溶胶…

北京理工大学汇编语言复习重点(可打印)

文章目录前言第一章:基础性能指标计算储存器原理第二章:微处理器管理模式CPU工作模式实模式保护模式虚拟8086模式(V86模式)寄存器概述GDTR(Global Descriptor Table Registr)全局描述符表寄存器LDTRIDTRTR内…

神仙级python入门教程(非常详细),从零基础入门到精通,从看这篇开始!

前言 一.初聊Python【文末有惊喜福利】 1.为什么要学习Python? 在学习Python之前,你不要担心自己没基础或“脑子笨”,我始终认为,只要你想学并为之努力,就能学好,就能用Python去做很多事情。在这个喧嚣的…

云服务大变局:出海成新角斗场

配图来自Canva可画 根据Canalys的最新统计,2022年第三季度,中国大陆的云基础设施服务支出同比增长8%,达到78亿美元,占全球云支出的12%。自2022年一季度以来,年增长率已经连续三个季度放缓,并首次跌破了10%…

FFMPEG详解(完整版)

一、认识FFMPEG FFMPEG堪称自由软件中最完备的一套多媒体支持库,它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器,堪称多媒体业界的瑞士军刀。因此,对于从事多媒体技术开发的工程师来说,深入研究FFMP…