3D点云广义零样本分类的递归循环对比生成网络笔记

1 Title

2 Conclusion

This work aims to facilitate research on 3D point cloud generalized zero-shot learning. Different from previous works, we focus on synthesizing the more high-level discriminative point cloud features. To this end, we design a representation enhancement strategy to generate the features. which can be leveraged to enlarge the inter-class distances and narrow the intra-class gaps. By applying the contrastive representations to the generative model in a recursive-loop form, it can provide the self-guidance for the generator recurrently, which can help yield more discriminative features and train a better classifier

3 Good Sentences

1、However, collecting such training data labels is laborious and time-costly. Besides, we are living in a dynamic world that the new class objects are incremental. Therefore, the aforementioned approaches that can only predict on a set of pre-defined categories will inevitably hinder their real-world applications.(The movitation of Zero-Shot Learning)
2、It simply trains the network by utilizing a bilinear function to associate with semantic attributes and is not designed specifically for 3D point cloud data and thus, yielding unsatisfactory results.（The shortcomings of related works and how this method to improve ）
3、Different from it, our method can better distinguish the inter-class and intra-class distances based on the proposed contrastive recursive-loop learning features within a batch. Moreover, the contrastive learning features of the same batch samples are self-provided to the generator recurrently for the next iteration to yield more discriminative features.(The creativity of this mothed)

广义零样本学习（GZSL）旨在通过传递语义知识并仅利用可见类数据进行训练来识别可见和不可见类别中的对象。然而，人们对其在 3D 点云零样本学习中的有用性知之甚少。这项工作旨在促进 3D 点云广义零样本学习的研究。本文专注于合成更高级别的判别性点云特征，进而设计了一种表示增强策略来生成特征。具体来说，提出了一种带有递归循环的对比生成网络，称为 CGRL，它可以用来扩大类间距离并缩小类内差距。通过以递归循环形式将对比表示应用于生成模型，它可以循环地为生成器提供自我指导，这有助于产生更多判别性特征并训练更好的分类器。

介绍：为了解决传统分类中的缺点，零样本学习(ZSL)被提出来转移未见类的语义知识，仅利用已见类数据进行训练，测试集仅包含未见类。而在最近提出的广义零样本学习(GZSL)中，测试集由来自可见类和未见类的测试样本组成。
最近，2D图像领域的一些开创性工作致力于使用生成对抗网络(GAN)来解决 GZSL 中的问题，其目的是合成假的未见类别实例，并将它们与已见类别中的真实特征实例一起使用在完全监督的环境中训练零样本分类器。
然而，3D点云数据缺乏大规模且高质量的预训练数据集。因此，2D 特征可以很好地单独聚类，而 3D 点云特征则很紧凑。基于这些较差的聚类 3D 特征，之前的工作没有考虑 2D 图像域中的特征距离，不适合 3D 点云广义零样本学习。
因此，本文设计了一种循环形式的表示增强策略来生成点云特征。具体来说，我们提出了一种带有递归循环的对比生成网络，称为 CGRL，它可以用来扩大类间距离并缩小类内差距。具体来说，对于真实输入的3D点云特征，构建正对（即随机选择的正例 p 与查询 q 具有相同的类标签）和负对(即反例的类标签n与q类标签不同)，使正例更接近，同时负例更远离，从而逐点增强提取的特征编码器(PointNet)。对于合成的特征，使其尽可能接近其对应的真实特征，同时远离其他类。然后，以递归循环形式将自引导对比学习表示注入生成器中，以细化合成特征。这样，生成特征就可以更具辨别力。如下图所示。

相关工作：
1、图像零样本学习(ZSL)
2、对比学习(Contrastive learning)
3、3D点云零样本学习(3D point cloud zero-shot learning)

所提方法：
1、问题定义：在广义零样本学习中，把训练集的源类M（可见类）定义为 $y^s$ ，目标类N（不可见类）定义为 $y^u$ ，M和N不相交，即 $y^s\cap y^u=\phi$ ，把源类对象记作 $X^S=\left \{ \left ( x_i^s,y_i^s \right ),y_i^s\in Y^S \right \}^M_i$ ，其中 $x_i$ 是对象的视觉样本， $y_i$ 是标签，对于不可见类，没有标签。可见类和不可见类的语义属性信息都可以表示为 $A^S:\left ( a_i^s \right )^M_{i=1}$ 和 $A^U:\left ( a_i^u \right )^M_{i=1}$ ， $a_i^s,a_i^u\in R^Q$ , 在GZSL设置下，目标是学习更通用的模型 $f_{GZSL}:X\rightarrow y^U\cup y^S$ ，本文关注归纳学习，其中只有可见类才能用于训练。
2、生成框架：
本文所提出的递归循环对比生成网络 (CGRL) 基于GAN，由一个生成器G和一个判别器D组成。D旨在从生成的对象中精确识别真实对象，G试图通过生成容易被误认为真实的对象来欺骗鉴别器。
该网络首先将3D点云对象训练数据输入点编码器，它将视觉样本x映射到嵌入空间中，对象的属性和噪声z相结合，由生成器G进行建模，生成虚假特征 $\hat{x}$ 。判别器D来识别生成的虚假特征和真实的视觉特征，本文进一步引入了对比学习编码器E，E的作用是扩大类间距离，同时缩小类内差距。对于每个批量操作，将对比嵌入表示集成到递归循环中的特征生成模型中，以增强合成特征。以下是CGRL的一些细节内容：
给定可见类的训练数据，特征生成方法学习条件生成器G 以生成以高斯噪声 $z$ ~N(0, $I$ )和语义属性a为条件的样本 $\hat{x}=G(z,a^s)$ 。判别器D与生成器G同时训练，以区别真实样本 $x$ 和生成的样本 $\hat{x}$ 。G的目标是合成接近嵌入空间中真实特征的特征。一旦生成器G学会生成真实对象的CNN特征，那G也可

以生成不可见类的 $\hat{x}$ 。
        可以通过优化以下对抗目标来学习特征生成器网络和鉴别器网络：其中，判别器D是一个多层感知器，D的最后一层的函数时sigmoid。
        为了进一步保证GAN训练的稳定性，以缓解坍缩模式，增强目标特征的真实性或虚假程度，本文将GAN损失扩展为其中，λ是惩罚系数， $\bar{x}$ 是从 $x$ 和 $\hat{x}$ 的连线上随机采样的，β~(0,1)。上式中的权重惩罚保证判别器D的梯度沿真假对之间的直线具有单位范数。
3、对比递归循环特征：
               传统的实例嵌入方法的目标是，如果嵌入空间中的特征相似，则将它们拉近，否则将它们推远。为了实现这一目标，对比学习通过最大化相似对相对于不同对的相似性来学习获得表示。给定查询q，相应的正样本 $k^+$ ，以及其他K个负样本 $\left \{ k^- \right \}_i^K$ ，InfoNCE将对比损失定义为如下所示：其中，其中 $\tau$ 是温度超参数，用于缩放距离分布，并余弦相似度作为度量来计算正对或负对之间的距离：。
        具体来说，在本文中，给定一批输入训练数据，考虑三种构建正负对的方法。

1、交叉对(C-P):生成器G学习语义属性以生成合成特征（假特征），尽管判别器D使得合成特征与真实特征相似，本文还尝试对合成特征与其他类别的真实样本之间的关系进行建模。因此，提出了对比学习编码器 $E_{ctr}$ 来进一步将特征映射到嵌入空间。具体来说，给定一个查询合成特征 $q_{(fake)}$ ,希望他能接近其对应的真实样本特征 $k^+_{real}$ ,同时远离其他真实的K类样本 $\left \{ k^- _{(real)}\right \}^K_i$ ,可以通过最小化以下函数来实现此目标：

2、合成对(S-P)：除了上述内容，还考虑了合成特征本身之间的距离，以限制它们在训练过程中更具辨别力。具体来说，给定一个查询合成特征 $q_{(fake)}$ ，其正样本可以是 $k^+_{fake}$ ，负样本可以是 $k^-_{fake}$

3、实数对(R-P):真实的样本特征并没有很好地聚类。为此，本文还尝试对真实样本特征本身之间的关系进行建模
递归循环特征嵌入：通过优化对比学习特征，认为对比学习编码器 $E_{ctr}$ 能够将真实样本特征和合成特征嵌入到判别空间中。假设 $E_{ctr}^{L}$ 和 $G^L$ 表示表示同一批样本的第L个循环综合特征和对比学习表示，则给出递归循环特征注入范式如：其中， $\eta$ 控制特征调制。
下面的算法总结了整个过程：

该方法可以根据批次内提出的对比递归循环学习特征更好地区分类间和类内距离。此外，同一批样本的对比学习特征会循环地自我提供给生成器，以供下一次迭代产生更具区分性的特征。
最后，使用具有对比细化嵌入的生成框架以端到端的方式训练模型其中， $\gamma _1,\gamma _2$ 是控制权重的参数。

广义零样本分类(Generalized zero-shot classification)
一旦模型被训练为能够为可见类生成视觉特征，则首先由特征生成器G在嵌入空间中生成不可见类特征特征 $\hat{x}^u=G(z,a^u)$ 代表不可见的类。然后，将广义零样本学习转化为监督学习问题，具体来说，可以训练一个softmax分类器，并对生成的不可见类 $\hat{x}$ 和真实的可见类 $x$ 进行分类，可以表示为其中，θ是训练参数， $n_b$ 是当前训练批次中的样本数。