HCSC: Hierarchical Contrastive Selective Coding

news2024/9/20 0:58:17
       原型对比学习:图像表征与聚类中心之间的交互,可以简单总结为在表征空间中最大化图像特征与其所属的聚类中心的相似度。
       分层语义结构 自然存在于图像数据集中,其中几个语义相关的图像簇可以进一步集成到一个更大的簇中,具有更粗粒度的语义。用图像表示捕获这样的结构可以极大地促进对各种下游任务的语义理解。现有的对比表示学习方法缺乏如此重要的模型能力。此外,这些方法中使用的负样本对不能保证在语义上是不同的,这可能会进一步妨碍学习图像表示的结构正确性。
       在这个框架中,一组层次原型被构建并动态更新,以表示隐空间中数据背后的层次语义结构。该方案旨在 选择具有相似语义的更多样化的正对和具有真正不同语义的更精确的负对
       在过去的几年里,自监督图像表示学习取得了长足的进步,其中基于解决信息难题的传统方法 [12, 16, 33, 34, 49] 明显被对比学习方法 [6-8, 19,36]超越。
       现有的对比方法主要可以分为两类,实例对比学习[7 SimCLR,19 MoCo,36 CPC]和原型对比学习[6 SwAV,27]。
       1.实例对比 旨在隐空间中 将相似的实例映射到附近,同时 将不同的实例映射到相距较远,这保证了不同图像表示之间的合理局部结构。
       2.原型对比 旨在获得 聚集在相应聚类中心周围的 紧凑图像表示,它捕获了一些可以由单个聚类层次结构表示的基本语义结构。
       然而,在对可能始终 拥有多个语义层次结构 的大规模图像数据集进行建模时,这些方法在表示能力上落后。学习包含图1这种分层语义结构的图像表示可以极大地促进对各种下游任务的语义理解。
       此外,现有的对比方法 通常通过对某些噪声分布进行穷举采样来构造负对,并且 所有采样的负对均不经选择地使用。不能保证 以这种方式 获得的负样本对拥有真正不同的语义。因此,一些语义相似的样本可能会被这些方法错误地嵌入相距很远的地方,从而影响学习图像表示的质量。
       在HCSC框架中,我们建议使用 分层原型 捕获数据底层的分层语义结构,分层原型是隐空间中的一组 树结构的 表征的嵌入。在训练过程中,这些原型会 动态更新 以适应当前的图像表示。在这种分层语义结构的指导下,我们寻求 通过 选择语义正确的高质量正负对 来改进实例和原型对比学习。
       创新点:
       1.提出通过 动态维护分层原型 来表示图像表示的分层语义结构;
       2.提出了一种新颖的对比学习框架,分层对比选择性编码(HCSC),它通过 选择语义正确的正负对 来改进传统的实例和原型对比学习。
       ·解决puzzles的前置任务:不能保证为不同的下游任务获得有区别的特征表示。
       ·实例对比学习:试图在隐空间将相似的实例嵌入到附近,而将相异的实例嵌入相距很远的地方。标准的实例对比方法[7,19,42]通过最大化相关实例之间的互信息来实现这一目标,即使用 InfoNCE 损失进行优化。然而,这些方法 并不了解整个数据集的全局语义
               标准 InfoNCE 损失 [36] 以最大化该正对之间的相似性并最小化一些随机采样的负对之间的相似性。
       ·原型对比学习:通过利用 图像簇的原型 表示来明确地利用语义结构。然而,所有这些方法都表示单一层次的语义簇,这忽略了图像数据集自然具有层次语义的重要事实。
               每个正对 由一个实例及其关联的语义原型组成,负对 由实例与不相关的语义原型配对形成。以这种对构造的方式,给定一个正对 (z, c),ProtoNCE 损失。
       我们寻求学习 具有多个语义层次结构 的图像表示。DeeperCluster [5] 通过分层预测聚类分配在这个方向上进行了尝试。相比之下,我们的方法利用 对比选择性编码 来更准确地发现数据的语义层次结构。
       给定 N 个未标记图像的集合 X = {x1, x2, ···, xN},我们的目标是为每个 xn ∈ X 学习一个低维向量 zn ∈ Rδ。除了图像表示Z 之外,我们还 维护一组 层次原型 C  来表征数据底层的层次语义结构,
       受这些限制的启发,我们提出了一种新颖的对比学习框架,称为分层对比选择性编码(HCSC)。简而言之,我们用分层原型表示数据的语义结构,并在训练过程中动态更新这些原型(第 4.2 节)。基于这种分层语义表示,我们寻求通过选择适合语义结构的更好的正负对(第 4.3 和 4.4 节)来促进传统的实例和原型对比学习,并且我们的总体目标结合了两种学习方式(第 4.5 节) .我们的方法的图形总结如图 2 所示。
       与只能捕获单个语义层次结构或几个独立层次结构的先前方法 [6, 27] 相比,我们的方法能够捕获各种语义集群之间的层次关系。我们通过一种简单而有效的 分层 K-means 算法来实现这一点,该算法以 自下而上 的方式执行。
       分层 K-means 算法 :伪代码如Alg.1所示。首先,图像编码器提取数据集中所有图像的特征表示,并对这些图像表示进行K-means聚类,得到第一层次的原型。之后,通过迭代地将 K-means 聚类应用于下面的层次结构原型,得到每个更高层次结构的原型。
       由于图像表示会随着训练过程而更新,因此还需要对分层原型进行维护方案,以确保它们是隐空间中的表征性嵌入。为了平衡精度和效率,我们在每个 epoch 开始之前执行分层 K-means 算法,以根据当前图像表示更新分层原型。
       1.实例对比选择性编码:通过数据增强很容易获得相似(即正)的实例对,而不同(即负)实例对的定义是重要的。以前的方法通过在数据集上均匀采样或从去偏数据分布中采样来得出负样本。但是,他们不能保证生成的负样本相对于query样本具有完全不同的语义。为了克服这个缺点,我们的 目标 是 选择更精确的负样本,这些样本具有与query真正无关的语义。
       对于特定的query图像 x,我们 不是不加选择地 将其与队列中的所有负候选 N 进行对比,而是通过对每个负候选执行 伯努利采样 来选择真正的负样本进行对比。
       2. 原型对比选择性编码:旨在在隐空间中获得 紧凑的 图像表示,其中每个图像都紧密嵌入在其相关的聚类中心周围。给定一个query样本,之前的工作将其与单个原型池进行比较,他们将其最相似的原型视为其正样本,将所有其他原型视为负样本。然而,该方案 忽略了不同簇之间的语义相关性,并且可能 过度惩罚一些语义相关的簇。为了减轻这种过度惩罚,我们寻求选择在语义上远离query的更精确的负簇。
               
                       顶层时使用所有的负样本 N L ,因为顶层的语义簇共享很少的语义相关性,因此可以安全地被视为彼此的负样本。
       “实例对比学习利用 局部实例级结构,原型对比学习 在隐空间中构建 全局语义结构。
       负样本对的选择策略:证明了实例和原型 两个对选择方案的互补性。
       实例和原型两种对比损失是互补的。
       如图 6 所示,我们发现 更多的语义层次(3 或 4 个层次)明显有利于模型在线性分类上的性能。
       说明了使用 丰富的原型 来充分捕获数据背后的语义集群的重要性。
       Conclusion:在这个框架中,数据底层的层次语义结构由 层次原型 捕获。在这些原型上,设计了一种新颖的对选择 pair selection 方案,以更好地选择正负对进行对比学习。
               当前 HCSC 方法的 主要限制 是在预训练期间发现的 分层原型在下游任务中被丢弃。然而,这些原型包含丰富的语义信息,它们应该以某种方式有利于下游应用的语义理解。因此,我们未来的工作将主要集中在通过 充分利用分层原型 来提高模型在下游任务上的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/13517.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Tomcat多实例部署

文章目录一、Tomcat多实例的操作步骤1、关闭防火墙,将安装 Tomcat 所需软件包传到/opt目录下2、安装JDK3、安装 tomcat4、配置 tomcat 环境变量5、修改 tomcat2 中的 server.xml 文件,要求各 tomcat 实例配置不能有重复的端口号6、修改各 tomcat 实例中的…

openpnp软件的使用 - 配置自动电动飞达

文章目录openpnp软件的使用 - 配置自动电动飞达概述笔记新建执行器(电动飞达类型)新建电动飞达的料站配置飞达的x,y位置配置飞达移动到料表面时的高度测试这个Z高度, 是否能让吸嘴取得元件?设置元件料封装使用的吸嘴.试试开始贴片贴片后的元件位置目测备注ENDopenpnp软件的使用…

实操小微风控报告中的地址信息的清洗与照面和司法数据使用

在中小微企业的大数据风控体系中,工商数据与司法数据是最基本也是最常见的两类信息维度,在企业大数据体系的应用场景中扮演着重要角色。由于企业工商与司法数据的多部分内容属于社会公开化信息,因此在行业市场内也是非常容易获取的&#xff0…

详解:看似遥不可及的元宇宙

导语:元宇宙是人们娱乐、生活乃至工作的虚拟时空。Roblox 这款游戏,展示了元宇宙的诸多特征。核心是数字创造、数字资产、数字交易、数字货币和数字消费,尤其是在用户体验方面,达到了真假难辨、虚实混同的境界。 大约再过15 年,互联网就可能会发生一次重大的变革。正如从…

技术 | 终端安全 | 服务器并不像您想象的那么安全

在从1到10的评分中,现状方法对服务器安全的有效性如何? 从理论上讲,应该是10分。保护服务器免受外界影响的途径(分段、防火墙、漏洞修补、安全解决方案等)是众所周知的。 然而,现实生活的结果显示出与理论的巨大差距。从红十字会…

【前端】Ajax-form表单与模板引擎

目录 一、form表单的基本使用 1.1什么是表单 1.2表单的组成部分 1.3form标签属性 1.4表单的同步提交及缺点 1.4.1什么是表单的同步提交 1.4.2表单同步提交的缺点 1.4.3如何解决表单同步提交的缺点 二、通过Ajax提交表单数据 2.1监听表单提交事件 2.2阻止表单默认提交…

(超级详细1秒钟秒懂)华为网络初级工程师知识总结(一)

文章目录一,人机交互的工作模式二,OSI参考模型---OSI/RM三,常见的网络协议端口号四,网络层的地址查询,转发。五,ARP协议的转发原理六,TCP/IP协议的封装和解封装及跨层封装一,人机交互…

预编码ZF,MMSE,THP准则线性预编码误码率仿真

目录 1.算法概述 2.仿真效果预览 3.核心MATLAB代码预览 4.完整MATLAB程序 1.算法概述 恒定包络( Constant Enve-lope,CE) 预编码; 该算法规定,每根天线上的发射功率被限定为一个与信道条件和信号符号均无关的常数,各根天线均…

Nacos下载和安装步骤

1. 下载安装包 1.1. Nacos官网 :https://nacos.io/zh-cn/hub 打开官网,点击前往Github 1. Nacos官网 1.2. 打开Nacos Github主页,点击Release,点击tags,可以看到所有的版本,选择自己需要的版本下载 Nacos Github主页 …

线性代数 --- 投影Projection 四(投影有什么用?Why projection)

笔者在本系列的开篇就说过,我在学习投影的过程中,有很长的一段时间都是把重点放在了,如何计算投影本身,也就是背公式。 现在我发现(尤其是明白了投影即分量之后),学习投影的主要目的&#xff0c…

IB数学AA/AI应该如何选择?IB数学AA HL有多难?

IB课程即国际文凭组织IBO,是为全球学生开设从幼儿园到大学预科的课程,为3-19岁的学生提供智力、情感、个人发展、社会技能等方面的教育,使其获得学习,工作以及生存于世的各项能力。 IB课程难在哪? IB课程不像AP、A-lev…

读书笔记-学习GNU Emacs-1

学习本书目的: emacs的学习一直是陆陆续续看博客和上手实践,这次想通过阅读"学习GNU Emacs"这本书好好系统的再复习下emacs。 ps:读技术书应该是带着一定的目的去读的,最简单的目的可能就是为了学好某一项技术或者复习下某一项技术…

基于Java+JSP+MySQL共享单车管理系统的设计与实现-计算机毕业设计

项目介绍 随着时代的发展,我国的国民经济一直在稳步的提升,共享单车的是用来一直在不断的攀升,为了能够更加方便快捷的管理共享单车,需要开发一套利用计算机进行管理的JSP共享单车管理系统。 本项目利用软件工程原理&#xff0c…

最新出炉!开源 API 网关的性能对比:APISIX 3.0 和 Kong 3.0

背景 云原生时代下,企业逐渐向云上迁移,越来越多的应用和服务都在进行容器化改造,服务之间的流量也开始爆发性的增长。为了能高效地管理这些规模庞大的 API,API 网关开始在技术领域大展身手。 用户除了需要 API 网关提供请求代理…

springcloud集成Seata AT 模式

注意: 1.seata版本1.4.1 2.使用db配置,mysql 3.nacos版本2.2.3.RELEASE 4.spring-boot-starter-parent版本2.3.1.RELEASE 版本匹配很关键,否则报奇奇怪怪的错!!!! seata库必要的表 -- -------…

微服务拆分技巧

微服务架构整体思路 常见场景实施建议 拆分方式基础设施要求服务拆分落地方式从0开始构建业务系统按业务拆分微服务搭建完善基础设施,按照微服务基础设施优先级逐步落地一步到位单体架构微服务化按业务拆分微服务,先从非核心业务开始拆分搭建完善基础设…

【python初学者日记】用PIL批量给HEIC格式的照片,添加拍摄日期、拍摄地点的水印戳

【python初学者日记】用PIL批量给HEIC格式的照片,添加拍摄日期、拍摄地点的水印戳问题合集1、读取 HEIC 格式照片的拍摄信息2、将已知坐标转码成具体省市地址的文字信息3、将文字添加到HEIC格式的照片上问题解决一、问题分析二、代码实现最近在整理手机相册&#xf…

网站SEO优化有哪些要点?

1、网站关键词优化 对于网站关键词,每一个站长朋友应该很熟悉了,所谓的关键词就是对网站的一种简单而又综合性的描述,网站关键词分析也叫做关键词定位。seo教程认为网站关键词分析是进行SEO优化的最重要的一环。关键词分析首先要做的就是根据…

Go语言入门【6】切片

切片 在go语言中,切片是对数组的抽象,数组在声明时指定了长度之后就不可再进行改变,在特定场景下数组就不适用,所以就有了切片类型,切片就是“动态数组”,和数组相比,切片的长度是不固定的&…

mybatis逆向工程的实现

在本地创建一个test数据库,并在test数据库中创建一个student表;表中的数据如下: 创建表: DROP TABLE IF EXISTS student; CREATE TABLE student ( studentID int NOT NULL AUTO_INCREMENT, StudnetName varchar(20) CHARACTER SET…