论文创新及观点2

news2025/1/9 0:40:04

题目

Zero-Shot Visual Recognition using Semantics-Preserving Adversarial Embedding Networks

摘要

基于visual-semantic embedding,的ZSL方法存在信息损失(semantic loss),的问题,在训练过程中,如果某些语义信息对分类的区分性不大,则会被丢弃,但是这些信息往往对识别unseen class很重要,
为了避免semantic loss,我们提出Semantic-Preserving Adversial Embedding Network(SP-AEN), 通过引入visual-to-semantic space embedder,将语义空间分解成两个子空间,分别进行分类和重构任务,(可以认为两个互相冲突的任务),通过对这两个子空间进行对抗学习,SP-AEN,可以将语义信息从重构子空间迁移到判别子空间。从而改进对unseen class的识别效果,与先前的方法相比,SP-AEN不仅可以提升识别效果,还能生成图像,验证了语义信息保留的有效性。
Note:该方法仍然是visual-semantic embedding方法。

Motivation

基于visual semantic embedding,的ZSL方法的语义迁移能力,受限于semantic loss问题,训练阶段,丢弃低方差信息,(判别信息较少)对分类有利,但是由于seen class 和unseen class 之间的语义差异,这些信息在测试时,对于unseen class ,往往具有较强的判别性,这将导致对不可见类别的语义信息的损失。主要原因是虽然class embedding具有丰富的语义信息,但其只是语义空间中的一个点,图像映射(将视觉空间映射到语义空间)就会坍塌这一点。
可以利用重构(由某个图像得到的语义向量能够映射回这个图像)来保留语义信息,那么其中任意两个语义向量,(由两个图像映射得到)需要保留足够的语义信息才能将其分离开,(这样就能避免了映射坍塌到一点),否则不能重构,然而分类和重构本质上是两个相互冲突的任务:重构希望能够保留图像的细节信息,而分类则抑制无关信息,下面的例子具体说明:
在这里插入图片描述
在这里插入图片描述
为了解决这个冲突,提出新的Visual semantic embedding框架,SP-AEN。如果2,引入了一个新的映射, Visual-to-semantc space embedder.
F : V → S F: V \rightarrow S F:VS和判别器 D D D来区分 F ( x ) F(x) F(x) E ( x ) E(x) E(x)
引入 F , D F,D F,D来帮助 E E E保留语义信息。

语义迁移

基于映射 E E E发生了semantic loss,可以利用 F F F 从其他类别 E ( x ) E(x) E(x)
中弥补信息,而且判别器 D D D,会使得 F ( x ) F(x) F(x) E ( x ) E(x) E(x)趋于相同分布,从而从 F ( x ) F(x) F(x)迁移语义到 E ( x ) E(x) E(x)中,例如, E ( b i r d ) E(bird) E(bird)丢失了spotty属性信息,可以通过 E ( l e a p a r d ) E(leapard) E(leapard)补偿,因为spotty是leapard类别中具有强判别能力的属性,会被保留。

分离和分类重构任务

重构由 F , G F,G F,G来实现,分类由 E E E实现,
这样,约束 G ( E ( x ) ) ≈ x , G ( E ( x ’ ) ) ≈ x ’ G(E(x)) ≈ x , G(E(x’)) ≈ x’ G(E(x))x,G(E(x))x 就被 G ( F ( x ) ) ≈ x , G ( F ( x ’ ) ) ≈ x ’ G(F(x)) ≈ x , G(F(x’)) ≈ x’ G(F(x))x,G(F(x))x,替代, F ( x ) 、 F ( x ‘ ) F(x)、F(x‘) F(x)F(x)不需要很接近,( x 、 x ’ x、x’ xx,来两个相似的类别,分类任务要求 E ( x ) , E ( x ‘ ) E(x),E(x‘) E(x),E(x)接近,导致重构效果不好),从而解决分类和重构的冲突,此外 G ( F ( x ) ) G(F(x)) G(F(x))还能用来生成图像,验证了语义信息被更好的保留

Method

在这里插入图片描述

Classfication

利用基于最大间隔的排序损失来实现分类:
在这里插入图片描述

Reconstruction

利用 256 × 256 × 3 256 \times 256 \times 3 256×256×3的原始RGB图像,进行图像重构,因为使用CNN网络提取的图像特征本质上也是语义空间,也会存在语义信息损失.
在这里插入图片描述

Adversial

F ( x ) F(x) F(x)具有丰富的语义信息,我们希望可以将 F ( x ) F(x) F(x)的语义迁移到 E ( x ’ ) E(x’) E(x)中,所以,利用判别器 D D D,将 F ( x ) F(x) F(x)视为真, E ( x ’ ) E(x’) E(x)视为假,
在这里插入图片描述
Note:Note:最小化 L a d v Ladv Ladv容易引起 m o d e c o l l a p s e mode collapse modecollapse问题。当 x 、 x ’ x、x’ xx相似的图像(通常是同一类别),损失函数 L a d v Ladv Ladv会被 ∥ F ( x ) − E ( x ’ ) ∥ ≈ 0 ∥F(x)− E(x’)∥ ≈ 0 F(x)E(x)0主导,这将导致不能在类别之间迁移语义信息。这里,利用 W G A N WGAN WGAN,有助于梯度限制和训练稳定性

Full objective

在这里插入图片描述
在这里插入图片描述
可以将 F F F看作encoder,G看作 D e c o d e r Decoder Decoder,那么 F ( x ) F(x) F(x)可以看作 b o t t l e n e c k l a y e r bottleneck layer bottlenecklayer,要其能够匹配 E ( x ) E(x) E(x)的分布,这样SP-AEN是由监督的对抗式自编码器,那么SP-AEN能够被修改以适应别的ZSL框架,比如半监督的 S P − A E N SP-AEN SPAEN(在 F ( x ) F(x) F(x)施加额外的对抗损失函数来匹配一个先验分布)。

  • Visual-to-semantci E E E
  • semantic-to-Visual G G G
  • an independent visual-to-semantic F F F
  • an adversarial-style discriminator D D D
  • the semantic embedding E ( x ) E(x) E(x)

技术操作

  • visual-semantic embedding
  • semantic loss
  • Adversarial Embedding Network
  • visual-to-semantic space embedder
  • Classifcaiion 和Reconstruction.
  • Adversial
  • 判别器D
  • 语义迁移
  • 视觉空间和语义空间
  • 最大间隔排序损失
  • 对抗自动编码器
  • photo-realistic reconstruction
  • Semantic autoencoder
  • all the class embeddings
  • a flexible plug-and-play
  • end-to-end fine-tune fashion
  • the ranking based classification loss
  • GAN
  • a large-margin based ranking loss function
  • MSRA random initializer
  • grid search
  • harmonic mean

创新

为了语义损失问题,我们提出来一个新颖的零样本方法嵌入架构 S P − A E N SP-AEN SPAEN 去保存语义信息。

  • 对抗学习来实现语义迁移。: the two independent semantic embeding.

未来工作

  • 开发模型一般找一个基准模型,借鉴原有名词:eg:半监督、对抗、监督等名词进行修改与调试模型。
  • incorporating(合并)generative models into SP-AEN, so as to hallucinating photo realistic images for unseen or even synthesized classes
  • developing new ZSL frameworks such as semi-supervised SP-AEN by imposing a prior semantic space

后续

  • 开发一个新的框架去学习与掌握

开发模型思路

  • 半监督
  • 生成式模型
  • 对抗训练
  • 元学习框架
    后续继续补充。
  • 后续在继续将各种model全部都将其搞完整,慢慢的将其全部都搞定都行啦的理由与打算。后者在将相关技术大致了解一波。本篇论文算结束。

问题

  • 如何保留语义信息
  • 分类—重构——对抗——最终目标
  • domain adaptation
  • Domain Shift and Hubness.
  • r data augmentation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/148020.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

「项目管理」如何做好研发FO角色?

角色定位 FO (Feature Owner),项目某一阶段/版本迭代生命周期的总负责人。基于从需求发起、研发接入、上线等项目过程阶段,可以根据职责本位不同来推荐具体项目成员、干系人担任FO角色,前端、 客户端 、服务端、测试、…

Spring事务和事务传播机制

⭐️前言⭐️ 事务是作为一名后端程序员,必须去要了解清楚的东西,因为它决定了程序的正常运行以及与程序运行效率之间的权衡,这篇文章我们就来了解一下Spring事务和事务传播机制。 🍉欢迎点赞 👍 收藏 ⭐留言评论 &am…

【阶段三】Python机器学习08篇:机器学习项目实战:决策树分类模型

本篇的思维导图: 决策树模型简介 决策树模型的基本原理是通过对一系列问题进行if/else的推导,最终实现相关决策。 下图所示为一个典型的决策树模型——员工离职预测模型的简单演示。该决策树首先判断员工满意度是否小于5,若答案为“是”,则认为该员工会离…

07、ThingsBoard本地打镜像上传到harbor

1、Harbor是什么? Harbor是为企业用户设计的容器镜像仓库开源项目,包括了权限管理(RBAC)、LDAP、审计、安全漏洞扫描、镜像验真、管理界面、自我注册、HA等企业必需的功能,同时针对中国用户的特点,设计镜像复制和中文支持等功能。 2、安装Harbor 2.1、下载地址 Tags g…

【看表情包学Linux】探讨项目构建问题 | Makefile | 依赖关系与依赖方法 | 伪目标 PHONY

🤣 爆笑教程 👉 《看表情包学Linux》👈 猛戳订阅 🔥 💭 写在前面:本章我们要学习的是 makefile。会不会写 makefile,从一个侧面说明一个人是否具备完成大型工程的能力。一个工程中的源文件不计…

学计算机专业的你后悔了吗?

先说结论:不后悔。当年高考的时候,老师和我们说,将来环境、船舶、园林专业肯定特别吃香,填志愿的时候记得都选上。现在来看,这几个专业妥妥的天坑专业,前段时候还认识一个船舶专业的博士报培训班转计算机&a…

【GNN】图基本知识代码、nxworkx包的基本使用

一个写得很好的博客: 图或网络中的中心性:点度中心性、中介中心性、接近中心性、特征向量中心性、PageRank 特征向量中心性(eigenvector centrality) 特征向量中心性的基本思想是,一个节点的中心性是相邻节点中心性的函…

Kali Linux渗透测试小实践——Metasploit与后门木马

一、环境和工具准备 1.Metasploit Metasploit是一款开源的安全漏洞检测工具,可以帮助安全和IT专业人士识别安全性问题,验证漏洞的缓解措施,并管理专家驱动的安全性进行评估,提供真正的安全风险情报。这些功能包括智能开发&#…

MySQL常用基础 - 小白必看

MySQL数据库基本操作 一、DDL 概念:是一个数据定义语言 该语言部分包括: 1、对数据库的常用操作 创建数据库: 1、create database 数据库名 (直接删除) 2、create database if not exists 数据库名 (判断数据库是否存在&…

Allegro174版本新功能介绍之去掉拷贝自动偏移功能

Allegro174版本新功能介绍之去掉拷贝自动偏移功能 Allegro升级到了174版本的时候,在用拷贝功能的时候,不管怎么拷贝都会出现偏差,即便是拷贝坐标的方式,如下图 那是因为174新增了一个自动粘贴的功能,按照下面的步骤可以去除自动粘贴的功能,具体操作如下 选择Setup选择Use…

1.《计算机组成原理》之初识计算机系统

一、基本内容:基本部件的结构和组织方式。基本运算的操作原理。基本部件和单元的设计思想。二、特色:计算机组成的一般原理,不以具体机型为依托。采用自顶向下的方式、层层细化。三、补充:一、基本内容:1.这门课讲什么…

【JavaScript】JavaScript中的时间函数

JavaScript中的时间函数 关于JavaScript里面时间的函数: 方法描述Date()返回当日的日期和时间。getDate()从Date对象返回一个月中的某一天(1 ~ 31)。getDay()从Date对象返回一周中的某一天(0 ~ 6)。getMonth()从Date…

LeetCode 热题HOT100-两数之和(C语言)

LeetCode 热题HOT100-两数之和(C语言) 作为一名程序语言的学习者,刷力扣我想是必要经历的一条路,所以我也在这里分享刷题后所得知识,也可以帮助更多人理解题意。 给定一个整数数组 nums 和一个整数目标值 target&#…

Zynq PS之UART调试

在创建应用工程时,选择Hello World模板即可,以XCZU21DR开发。 硬件原理图如下: Vivado中添加&配置IP 添加Zynq UltraScale MPSoc IP。 UART设置 DDR配置 硬件设计中选择的DDR4型号是MT40A2G8VA-062E IT,DDR配置如下图&…

6、SySeVR复现——Data preprocess(下)

紧接着上篇SySeVR复现——Data preprocess(上)5、SySeVR复现——Data preprocess(上)_sliver呀的博客-CSDN博客 目录 5、训练Word2vec模型 6、token向量化且划分数据集 7、固定每一个切片的长度 5、训练Word2vec模型 对应crea…

Jetpack Compose中使用Notification

发送通知相关的主要有两个关键的类 NotificationCompat.Builder 和 NotificationManagerCompat 为方便使用,首先定义一个扩展工具类来管理通知 const val MAIN_CHANNEL_ID "MainChannel ID" const val MAIN_CHANNEL "MainChannel"fun Contex…

人工智能导论实验——前馈神经网络

实验目的通过实验了解全连接神经网络的结构,应用全连接网络处理分类和回归任务。实验任务1)初级实验:①手写体图像识别实验;②FashionMnist图像分类实验;③汽车里程数预测实验。2)中级实验:①鸢…

数据集划分和交叉验证

机器学习实践中,为防止模型出现过拟合问题,需要预先将数据划分为训练集和测试集,训练集用来建模,训练模型,测试集用来提前测试模型的实际预测能力,这期间就会出现不同的数据集划分和模型评价方法&#xff0…

Linux常用命令——alias命令

Linux命令查询工具 alias 用来设置指令的别名 补充说明 alias命令用来设置指令的别名。我们可以使用该命令可以将一些较长的命令进行简化。使用alias时,用户必须使用单引号将原来的命令引起来,防止特殊字符导致错误。 alias命令的作用只局限于该次登入…

EventLoop与宏任务和微任务

1、JavaScript 是单线程的语言 JavaScript 是一门单线程执行的编程语言。也就是说,同一时间只能做一件事情。 单线程执行任务队列的问题:如果前一个任务非常耗时,则后续的任务就不得不一直等待,从而导致程序假死的问题。 2、同步…