Prototypical Networks for Few-shot Learning

news2025/1/14 1:00:53

摘要

我们为零样本分类问题提出了一个原型网络。在这里分类器必须能够被泛化到新类别(在训练集中不可见),每个新类只给出少量示例。
原型网络能够学习一个度量空间,通过计算每个类别的原型表示距离实现分类。与少样本学习近几年的研究方法相比:它们反应了一种更简单的归纳误差,在这种有限数据的情况下是有溢的,并取得了出色的效果,我们提供的分析表明,与最近涉及复杂架构选择和元学习的方法相比。一些简单的设计决策能够产生实质性的改进,进一步将原型网络扩展到零样本学习,并实现最先进得效果在 t h e C U − B i r d s d a t a s e the CU-Birds datase theCUBirdsdatase数据集上。

介绍

零样本学习是一个任务:分类器能够很好到泛化到训练集中没有的类别。(训练集的每个类都有少量的示例),最近的方法,新数据上的预训练模型能够导致严重的过拟合。这些问题是十分困难的,已经证明显示:人类有能力去执行: o n e − s h o t c l a s s i f i c a t i o n one-shot classification oneshotclassification,(每个新类别仅有一个单独样本给出),加上高度的准确率。

科普

  • one-shot classification (从一个类中学习一个二分类器

介绍(后接上文)

在零样本研究当中,两个近年来的方法已经做出了极大的进步,

  • Vinyals et al :提出了一个匹配网络(matching networks),在支持集的可学习嵌入上使用一个注意力机制,去预测查询集。匹配网络可以解释为将带有权重的最近邻分类器应用在一个嵌入空间中。显著地,模型能够利用样本 m i n i − b a t c h e s mini-batches minibatches, 在训练集上的多次迭代

  • 设计的每轮迭代都能够最小化零样本任务,通过下采样分类也有数据点。使用迭代能够使得训练问题在测试环境中,更加稳定,能够提高泛化性能。

  • 关键点:matching networks、 an attention mechanism、the support set、the query set、a weighted nearest-neighbor classifier、sampled mini-batches、subsampling classes、
    data points、

  • Ravi and Larochelle
    利用迭代训练思想进一步和提出了少样本学习的元学习的方法
    这些方法涉及到训练一个LSTM,去产生更新的分类器,给一个迭代,因此,其将会在测试集上取得更好的泛化性能
    而不是在单一个模型上多次迭代,LSTM元学习器为每次迭代学习一个训练一个自定义模型

通过解决过拟合来处理零样本学习的问题,因此,数据是非常有限的,我们工作的假定是分类器有一个简单的归纳偏差,我们的方法,原型网络是基于这种思想,每个类别单一的原型表示points cluster存在一个嵌入
为了解决这些,我们使用神经网络学习一个非线性映射将输入映射进嵌入空间。利用一个类原型:嵌入空间中支持集的平均值。查询点找到最近类原型来进行分类。
我们按照相同的方法去处理零样本学习,因此,每个类别都使用更高级别描述的元数据,而不是一个简单的标签示例,因此,将元学习嵌入到共享空间为了服务每个类的原型
在这里插入图片描述
在零样本场景中,分类可以被执行**,通过依据嵌入查询点发现最近类原型**。
在这篇论文中,我们计算类原型网络通过零样本和少样本集合。在单个样本集中我们阐述匹配网络
matching networks)和(the one-shot setting
在模型中,使用 t h e u n d e r l y i n g d i s t a n c e f u n c t i o n the underlying distance function theunderlyingdistancefunction
特别地,我们将原型网络相关到聚类,为了验证使用类均值作为原型的正当性。Bregman 散度来计算距离原型,
比如:欧氏距离
富有经验的发现,距离的选取是至关重要的,因为欧氏距离可以极大优于余弦函数距离( c o s i n e , s i m i l a r i t y cosine,similarity cosine,similarity
在一些基准任务上,我们实现了一些顶级的效果。原型网络比近年来的元学习算法更假简单和更加有效,使其称为零样本和少样本学习方法更加的受欢迎。

原型网络

Notation

在零样本分类中,我们
*我们给予一个 N l a b e l e d e x a m p l e s N labeled examples Nlabeledexamples的支持集。
{ ( x 1 , y 1 ) , . . . , ( x N , y N ) {(x_1, y_1), . . . ,(x_N , y_N )} (x1,y1),...,(xN,yN)}
x i ∈ R D x_i \in R^D xiRD 是例子中的D维特征向量$ the D-dimensional feature vector$
y i y_i yi ∈ \in { 1 , ⋯   , K 1,\cdots,K 1,,K} 与特征向量相同维度的标签空间。
S k S_k Sk 表示有标签集合中的 c l a s s , k class,k classk

模型

原型网络计算一个 a n M − d i m e n s i o n a l r e p r e s e n t a t i o n an M-dimensional representation anMdimensionalrepresentation
原型: c k ∈ R M c_k \in R^{M} ckRM

  • 每个类通过一个嵌入函数:
    f ϕ : R D → R M f_{\phi}:R^{D}\rightarrow R^{M} fϕRDRM 加上学习参数 ϕ \phi ϕ
  • 每个类的原型都是嵌入支持点的均值向量,该支持点归属于其类别。
  • 类原型
    c K = 1 ∣ S K ∣ ∑ ( x i , y i ) ∈ S k f ϕ ( x i ) c_K = \frac{1}{|S_K|}\sum_{(x_i,y_i) \in S_k}f_{\phi}(x_i) cK=SK1(xi,yi)Skfϕ(xi)
  • 给出一个距离函数 d : R M × R M d:R^{M} \times R^{M} d:RM×RM → [ 0 , ∞ ) \rightarrow [0,\infty) [0,)
    原型网络为查询点 x x x产生一个分布类,在嵌入空间中,基于 S o f t m a x Softmax Softmax函数的原型,在嵌入空间中。

在这里插入图片描述
通过最小化负对数似然概率来进行学习过程:
J ( ϕ ) = − l o g p ϕ ( y = k ∣ x ) J(\phi) = -logp_{\phi}(y = k|x) J(ϕ)=logpϕ(y=kx)
真实类别 k l kl kl,验证 S G D SGD SGD.
通过随机的从训练集中选择一系列类,完成迭代过程。
选择一系列支持集的示例.和一系列查询点示例

  • query points
  • the support points
    使用以下算法1,来最小化 J ( ϕ ) J(\phi) J(ϕ)

算法思想:随机采样+最小化损失函数

在这里插入图片描述

原型网络作为混合密度估计

距离函数的特定类,被定义为: r e g u l a r B r e g m a n d i v e r g e n c e s regular Bregman divergences regularBregmandivergences,
原型网络算法可以实现相等的效果与支持集上的混合密度估计加一个指数分布簇
$ mixture density estimation on the support set $,
a n , e x p o n e n t i a l , f a m i l y , d e n s i t y an, exponential,family,density an,exponential,family,density
正则的Bregman度量可以定义为:
在这里插入图片描述
ϕ \phi ϕ严格的凸二次可微函数
B r e g m a n Bregman Bregman度量的例子包括:均方欧氏距离和马哈顿距离
在这里插入图片描述
原型计算能够被观看到在支持集上的硬聚类
Prototype computation can be viewed in terms of hard clustering on the support set, with one cluster per class and each support point assigned to its corresponding class cluster. It has been shown [4] for Bregman divergences that the cluster representative achieving minimal distance to its assigned points is the cluster mean. Thus the prototype computation in Equation (1) yields optimal cluster representatives given the support set labels when a Bregman divergence is used.

在这里插入图片描述
在这里插入图片描述

可解释线性模型

在这里插入图片描述

与匹配网络相比较

Matchine networks:

  • a weighted nearest neighbor classifier given the support set

prototypical networks

  • produce a linear classifier when squared Euclidean distance is used

  • ordinary gradient descent methods

决策选择

  • Distance metric
    • squared Euclidean distance
  • Episode composition
    在这里插入图片描述

零样本学习

在这里插入图片描述
c k = g ϑ ( v k ) c_k = g_ϑ(v_k) ck=gϑ(vk)
原数据向量和查询点来自不同的输入域。
(the meta-data vector and querypoint)

实验

  • 训练方式:a,SGD,with Adam

miniImageNet Few-shot Classification

  • ILSVRC-12 dataset
  • 在这里插入图片描述

基准模型

  • two non-fine-tuned variants of matching networks
  • the Meta-Learner LSTM 和 FCE

CUB Zero-shot Classification

  • the Caltech-UCSD Birds (CUB) 200-2011 dataset
    在这里插入图片描述
  • Early stopping (早停法)

相关工作

在这里插入图片描述

  • the variational autoencoder [(变体自编码)

结论

  • the simplicity and effectiveness of prototypical networks makes it a promising approach for few-shot learning

概览

原型网络大致搞明白啦,明天学会将其运用在代码框架上,并将其研究一番。
全部都将其搞定都行啦的回事与打算。会将这个原型网络用于代码学习与研究上。
会自己仔细斟酌透彻,仔细研究一番。全部都将其搞定都行啦的回事与打算。

明天自己把代码跑一波

一个广义零样本的基本模型方法就搞懂啦。

总结

大致理解以下,然后自己慢慢的开始搞代码,都行啦的样子与打算。
大致了解一波,公式推断原理,然后慢慢的开始搞起来都行啦的回事与打算。

  • 数据集的概览,先进行观察数据集,运行代码的时候,在自己运行各种数据集及其他的样子与打算。
  • 重点学得深入后会自己推导公式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/62638.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

华为机试 - 完全二叉树非叶子部分后序遍历

目录 题目描述 输入描述 输出描述 用例 题目解析 算法源码 题目描述 给定一个以顺序储存结构存储整数值的完全二叉树序列(最多1000个整数),请找出此完全二叉树的所有非叶子节点部分,然后采用后序遍历方式将此部分树&#x…

AOP事务管理(下)

Transactional注解可以设置参数。 readOnly:true只读事务,false读写事务,增删改要设为false,查询设为true。 timeout:设置超时时间单位秒,在多长时间之内事务没有提交成功就自动回滚,-1表示不设置超 时时间。 rollbac…

熬夜也要肝完的阿里内部面试官手册,吃透直接拿下大厂心仪 offer

前言 蓦然回首自己做开发已经十年了,这十年中我获得了很多,技术能力、培训、出国、大公司的经历,还有很多很好的朋友。但再仔细一想,这十年中我至少浪费了五年时间,这五年可以足够让自己成长为一个优秀的程序员&#…

ASP.NET通用版权限管理系统源码分享

ASP.NET通用版权限管理系统源码 源码分享!需要源码学习可私信我。 主要功能有:权限管理、角色管理、部门管理、用户管理、公司管理、模块管理、系统设置。 一、 权限管理 以关键字(Key)的方式来定义系统的权限,使系统…

(附源码)springboot农田灌溉设备管理系统 毕业设计 260931

题 目 springboot 农田灌溉设备管理系统 目 录 摘要 1 1 绪论 1 1.1选题的目的和意义 1 1.2研究现状 1 1.3系统开发技术的特色 1 1.4论文结构与章节安排 1 2 农田灌溉设备管理系统 系统分析 3 2.1 可行性分析 3 2.2 系统流程分析 3 2.2.1数据增加流程 3 2.3.2数据修改流程…

强的离谱!阿里人用五个模块讲明白了SpringCloud,已开源!

微服务 作为一名Java程序员如果你对微服务不了解,就会在学习或者使用的过程中觉得有点“晕”。微服务是一种面向服务的软件架构模式! 我们常说,架构设计的核心是满足降本增效。该怎么理解? 举个例子,微服务架构之所…

简单学校网页设计作业 静态HTML校园博客主页 DW大学网站模板下载 大学生简单我的学校网页作品代码 个人网页制作 学生个人网页设计作业

🎉精彩专栏推荐 💭文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业: 【📚毕设项目精品实战案例 (10…

[附源码]计算机毕业设计JAVA疫苗接种管理系统

[附源码]计算机毕业设计JAVA疫苗接种管理系统 项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybati…

AIGC的一些材料

概念和前景 先看亚马逊AWS给AIGC的定义。 AIGC 是什么_亚马逊云科技 AIGC 解决方案 它有多个模态分支,但大同小异。 Diffusion预训练成本降低6.5倍,微调硬件成本降低7倍!Colossal-AI完整开源方案低成本加速AIGC产业落地 背景 1.01亿美元融资…

Java项目:SSM电器商城系统

作者主页:源码空间站2022 简介:Java领域优质创作者、Java项目、学习资料、技术互助 文末获取源码 项目介绍 本项目分为前后台,前台为普通用户登录,后台为管理员登录; 管理员角色包含以下功能: 管理员登录…

低功耗局域网通信硬件之lora——sx1262-sx1276硬件设计开发

1.lora简介 LoRa是semtech公司开发的一种低功耗局域网无线标准,其名称“LoRa”是远距离无线电(Long Range Radio),它最大特点就是在同样的功耗条件下比其他无线方式传播的距离更远,实现了低功耗和远距离的统一&#x…

浅谈ES标准的演变

ECMAScript从1997年第一版诞生依赖,经过无数人的“踩坑”和“填坑”,到现在,ES12呼之欲出。那么我们不妨讨论一下ES的发展历程,看它如何统一江湖,看它“曲折”而又令人期待的发展之路。 最近分析typescript&#xff0c…

双机互备是什么意思?双机互备就是双机热备吗?

看到不少小伙伴在问,双机互备是什么意思?双机互备就是双机热备吗?今天我们就来一起简单了解了解吧! 双机互备是什么意思?双机互备就是双机热备吗? 双机互备是指在双机热备的基础上,两个相对独…

【AI数学】余弦相似性(含python实现)

Cosine Similarity,即余弦相似度,又叫余弦相似性。是一个中学数学的概念,即用两个向量之间的夹角余弦值代表这两个向量之间的相似度。 Cosine Similarity虽然简单,但广泛应用在AI模型中,比如CLIP计算图像embedding和文…

【KCP】UDP可靠性传输

1 如何做到可靠性传输 ◼ ACK机制 ◼ 重传机制 ◼ 序号机制 3 2 1 -》2 3 1 ◼ 重排机制 2 3 1 ->3 2 1 ◼ 窗口机制 Tcp不用我们管 可靠性udp 5种机制都需要用户层处理 2 UDP与TCP,我们如何选择 3 UDP如何可靠,KCP协议在哪些方面有优势 以10%-20%…

Java人事管理系统oa人力人事办公(含源码+论文+答辩PPT等)

项目功能简介: 该项目采用技术JSP、Struts2、MyBatis、dwr、Tomcat服务器、MySQL数据库、项目含有源码、配套开发软件、软件安装教程、项目发布教程以及代码讲解教程 【项目使用技术:】Struts2MyBatisdwrjqueryjscss等技术 【技术特色】 文件上传: Strut…

Android依赖注入与Hilt的使用

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 基础知识 一、依赖注入是什么? 二.如果依赖注入这么简单,为什么需要专门开发一个框架? 三.安卓的依赖注入框架Dagger与Hilt 四.…

[附源码]计算机毕业设计基于Springboot甜品购物网站

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

如何恢复文件夹隐藏文件?超实用的2种技巧来了

案例:电脑中毒,文件夹数据自动隐藏,现在全都找不到了怎么办?——在日常办公使用电脑过程当中,总会遇到这样那样的问题,比如文件夹数据隐藏问题,当我们需要这些数据时如何恢复正常呢?…

java计算机毕业设计ssm图书馆管理系统z3z90(附源码、数据库)

java计算机毕业设计ssm图书馆管理系统z3z90(附源码、数据库) 项目运行 环境配置: Jdk1.8 Tomcat8.5 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)…