Explicit View-labels Matter:A Multifacet Complementarity Study of Multi-view Clustering
TPAMI 2024
论文链接
代码链接
0.论文摘要
摘要-一致性和互补性是促进多视图聚类(MVC)的两个关键因素。最近,随着流行的对比学习的引入,视图的一致性学习在MVC中得到了进一步的增强,导致了有希望的性能。然而,相比之下,除了在特征方面之外,互补性没有得到足够的关注,在特征方面,通常采用Hilbert Schmidt独立性准则项或独立编码器-解码器网络来捕获视图特定的信息。这促使我们在保持视图一致性的同时,从特征、视图标签和对比等多个方面全面重新考虑视图的互补性学习。我们从经验上发现,所有的方面都有助于互补学习,尤其是视图-标签方面,这通常被现有的方法所忽略。在此基础上,自然开发了一个简单而有效的用于多视图聚类的多方面互补学习框架(MCMVC),该框架融合了多方面互补信息,特别是显式嵌入了视图标签信息。据我们所知,这是第一次明确地使用视图标签来指导视图的互补性学习。与SOTA基线相比,MCMVC实现了显著的改进,例如,就三个评估指标而言,在Caltech101-20上的完整和不完整MVC设置中,平均利润率分别超过5.00%和7.00%。
1.引言
随着各种数据收集器的部署,多视图数据在许多现实世界的应用中是常见的[1]。例如,图像可以通过不同的特征如HOG和GIST来描述,而视觉、文本和超链接信息可以结合起来更好地描述网页。为了有效地集成信息并提供跨所有视图的兼容解决方案,多视图学习最近受到越来越多的关注,从而产生了许多多视图学习任务。在这些任务中,由于缺乏标签指导,多视图聚类(MVC)尤其具有挑战性[2],它旨在整合多个视图,以发现底层数据结构。
迄今为止,已经提出了许多MVC方法[3],[4]。早期的工作更侧重于多视图的一致性学习,即最大化视图之间的一致性。例如,Kumar等[5]通过引入协正则化技术,迫使每个视图的相似矩阵尽可能相似。刘等人[6]通过联合非负矩阵分解寻求多视图的协同分解。Collins等[7]在谱聚类框架下学习一种公共表示,而Gao等[8]学习一种共享的聚类结构,以确保视图之间的一致性。正如一些理论结果[9]所示,不同视图的特定信息,即视图互补性,也可以作为有益的补充有利于MVC性能。因此,在过去的几年里,已经发展了几种综合考虑一致性和互补性的MVC方法[10]、[11]、[12]、[13]。比如王等人[10]同时利用表示排他性和指标一致性,而Luo等人[11]采用共享一致表示和一组特定表示来描述多视图自表示属性。
尽管一致性和互补性的加持使上述这些方法能够取得相当大的结果,但它们仍然受到浅层和线性嵌入函数的使用的极大限制,这些函数难以捕捉复杂数据的非线性性质[14]。为了解决这个问题,由于深度神经网络(DNNs)具有出色的非线性特征变换能力,已经进行了一些尝试,将其引入MVC[15]、[16]、[17]、[18]。由于DNNs强大的特征/表示捕获能力,基于DNNs的MVC方法在MVC性能上取得了新的基准,并逐渐成为该社区的流行趋势。特别是,最近的工作[19],[20]将流行的对比学习技术[21],[22]引入深度MVC,进一步增强了视图的一致性学习,并建立了当前的SOTA性能。
虽然上述方法从不同程度上提高了MVC性能,但大多数方法主要集中在视图的一致性学习上,而互补性研究相对单一,仅限于特征方面(即尽可能保持样本的整体信息),其中通常使用Hilbert Schmidt独立性准则(HSIC)项[2]或独立编码器-解码器网络[17]、[18]、[19]、[20]来实现视图的互补性学习。这促使我们重新考虑MVC中的互补性学习。考虑到基于DNNs的MVC方法是目前流行的MVC方法,我们接下来主要依靠这类模型来开展我们的研究。
互补性指出,数据的每个视图都可能包含一些其他视图不具备的知识。在典型的基于DNNs的MVC方法中,通常对每个视图采用具有独立编码器-解码器网络的重建损失捕获特定于视图的信息。然而,仅仅依靠无监督的重建损失加上每个视图数据的独立编码器解码器网络似乎很难确保视图特定表示的充分性。事实上,视图标签,即视图身份,似乎也应该被用来学习视图特定的表示作为现成的视图方面监督信号。奇怪的是,尽管MVC研究已经有很长的历史,但据我们所知,目前还没有相关的工作明确地将它们用于特定于视图的表示学习。现有的为每个视图采用独立的编码器解码器网络的工作实际上可以被视为隐含地利用了视图标签。因此,一个自然的问题是:显式使用视图标签是否更好?在本文中,我们的答案是肯定的!
此外,互补性本质上是为了确保学习到的表征的多样性[2]。从这个角度来看,我们似乎不应该仅仅局限于特定视图表示的学习,而应该更进一步,通过利用各种可用的信息,致力于视图的多样化表示的学习,以实现多方面的互补学习!例如,在特征方面,除了重建损失之外,我们还可以利用方差损失[23],这已被证明有利于学习的表示。此外,SOTA深度MVC方法[19]只考虑了簇级对比度,以保证视图之间的一致性。事实上,还可以添加实例级对比以进一步使学习的表示多样化。因此,在本文中,我们首次对多视图聚类进行了多方面的互补性研究。具体而言,我们的贡献可以突出如下:
•据我们所知,这是第一个从多个方面综合考虑MVC中的视图互补性学习的工作,包括特征方面、视图-标签方面和对比度方面,其中我们经验地发现所有方面都有助于视图的互补性学习,尤其是视图-标签方面,这通常被现有工作忽略或从未明确关注过。
•基于这样的发现,开发了一个简单而有效的用于多视图聚类的多面互补学习框架(MCMVC),它融合了多方面互补信息,特别是显式地嵌入视图标签信息,同时保持视图一致性。这是第一次明确使用视图标签来指导该社区中视图的互补性学习。
•在完整和不完整MVC设置下具有双视图以及完整MVC设置下具有两个以上视图的数据集上进行的大量实验,全面展示了我们提出的框架的优势,这反过来进一步支持了我们的上述发现。
2.相关工作
如前所述,在一致性和互补性原则的指导下,已经开发了许多方法[24]。考虑到本文更多地关注视图的互补学习,我们在这里主要回顾了与视图互补学习相关的研究。关于其他MVC作品,请参考最新的两篇调查论文[25]、[26]。此外,我们还简要回顾了相关的研究课题,即对比学习。
2.1 MVC互补性研究
在过去的几年里,研究人员在MVC的互补性研究方面做了很多努力,其中开发了一些有效的策略来挖掘视图的互补性表示。其中,一个典型的方案是利用Hilbert Schmidt独立性准则(HSIC)作为多样性项。例如,Cao等人[2]利用HSIC恢复了多个子空间表示的关系。李等人[27]采用HSIC通过强制其接近多个视图来学习灵活的多视图潜在表示,而Wang等人[28]试图通过采用HSIC来构建信息完整性感知相似性表示,以最大化其对潜在空间的依赖性。此外,罗等人[11]共同考虑了视图的一致性和特异性,其中他们使用共享的一致表示和一组特定表示来公式化多视图自表示属性。王等人[10]引入了一个位置感知排他性术语来利用来自不同视图的互补表示,同时还采用了一个一致性术语来使它们进一步具有一个共同的指标。然而,上述这些方法难以用它们的浅或线性嵌入函数捕捉复杂多视图数据的非线性性质,从而限制了它们的性能。为了解决这个问题,最近的许多工作集中在基于深度表示学习的MVC(基于DNNs的MVC)上,其中通常采用每个视图的独立编码器-解码器网络的重建损失来学习特定于视图的表示[18]、[29]、[30]、[31]、[32]、[33]、[34]、[35]、[36]、[37]、[38]、[39]。例如,Bai等[29]设计了增强型语义嵌入器,以学习和改进从高维文档空间到具有互补语义信息的低维特征空间的语义映射。徐等人[18]采用多个自动编码器网络的协同训练方案来挖掘视图的互补和一致信息。杨等人[30]也采用了与[18]类似的机制,同时他们额外引入了异构图学习模块来自适应地融合潜在表示,该模块可以学习每个样本不同视图的特定权重。Wu等[39]提出了一种自加权对比融合框架,其中一致性目标与重建目标有效分离。更多作品,我们建议读者参考相关调查[4]、[25]、[26]、[40]。
虽然这些方法在挖掘视图互补性信息方面取得了不同程度的性能提升,但它们获得的视图互补性信息的丰富性仍然显得相对单一,它们只是在特征方面尽可能地维护了来自不同视图的样本的整体信息。事实上,视图的互补性信息可以反映在不限于特征小方面的多个小方面处。然而,据我们所知,目前很少有作品全面关注视图的互补性学习。因此,本文试图在这个方向上迈出第一步,探索MVC的多方面互补性研究,包括特征方面、视图标签方面和对比度方面,特别是迄今为止从未被明确关注或忽视的视图标签方面。因此,我们的工作实际上弥补了现有多视图学习社区的一个不足。
2.2 对比学习
作为一种新颖的自监督学习(SSL)范式,对比学习[21],[22]在无监督表征学习领域取得了巨大成功。例如,在某些设置中,它学习的表示可以优于有监督的预训练对应物。其核心思想是最大化由输入相同图像的不同增强视图的编码器产生的嵌入特征之间的一致性,其本质是实现原始视图数据与其增强视图数据之间的一致性[41],[42]。不同的对比策略发展出了不同的对比学习方法。例如,在实例级,MoCo[21]和SimCLR[22]分别采用动量更新机制和大批量来保持足够的负样本对,而BYOL[43]和SimSiam[44]放弃了负样本对,而是引入了预测模块和停止梯度技巧来实现良好的表示。在聚类级别,SwAV[45]强制了为同一图像的不同增强(或视图)产生的聚类分配之间的一致性。有关更多方法,我们请读者参考[46]。
3.方法
3.1 多方面互补性研究
如前所述,互补的本质是使学习到的表征多样化。因此,我们接下来进行多方面的互补性研究,包括特征方面、视图标签方面和对比度方面。为了清楚起见,我们首先详细说明每个方面,然后进行具体的实验研究。
在不失一般性的情况下,我们遵循[19],以双视图数据为例。设 m m m为数据大小, x t v x_t^v xtv表示第 v v v个视图的第 t t t个样本, f ( v ) f^{(v)} f(v)和 g ( v ) g^{(v)} g(v)分别表示第 v v v个视图的编码器和解码器,具有相应的网络参数 θ v θ^v θv和 φ v φ^v φv。然后,第 v v v视图中的第 t t t个样本的嵌入表示 z t v z_t^v ztv可以由 z t v = f ( v ) ( x t v ) z_t^v = f^{(v)}(x_t^v) ztv=f(v)(xtv)给出。
3.1.1 多方面互补性及其损失
特征方面。这个方面是指尽可能地维护样本的整体信息。在这方面,我们在这里考虑两种损失(不限于这些),一种是在大多数现有的基于DNNs的MVC方法中常用的重建损失,定义如下
另一个是方差损失,它也可以使学习到的表示多样化[23]。设 B 1 = [ z 1 1 , . . . , z t 1 ] \mathbf{B}^1 = [z^1_1, ..., z^1_t ] B1=[z11,...,zt1]和 B 2 = [ z 1 2 , . . . , z t 2 ] \mathbf{B}^2 = [z^2_1, ..., z^2_t ] B2=[z12,...,zt2]分别表示从视图1和视图2编码的 d d d维向量的批次。 b j v b_j^v bjv代表由 B v \mathbf{B}^v Bv中所有向量中维数 j j j的每个值组成的向量。那么我们有以下方差损失
其中 S S S是由 S ( b , ϵ ) = V a r ( b + ϵ ) S(b, \epsilon) = \sqrt{Var(b + \epsilon)} S(b,ϵ)=Var(b+ϵ), γ γ γ定义的正则化标准偏差是一个常数,固定为[23]推荐的1, ϵ \epsilon ϵ是一个防止数值不稳定性的小标量。
视图标签方面。视图标签作为现成的监督信号,指示视图的身份。我们认为这种监督有利于提取视图特定的表示。然而,据我们所知,在这个社区中还没有专门研究它们的效用的工作。即使是基于深度自动编码器的MVC方法[18], [19], [20]也只是采用独立的编码器-解码器网络,每个视图都有无监督的重建损失,这意味着视图标签的隐式利用。与这些方法不同的是,本文对视图标识(即视图标签)进行显式编码,并相应引入了视图标签预测损失项:
其中 ς t ∈ { 0 , 1 } ς_t ∈ \{0, 1\} ςt∈{0,1}指示数据 z t v z^v_t ztv来自视图1或视图2, h h h表示视图标签预测器。换句话说,本文试图调查:1)视图标签是不可或缺的吗?2)显式使用视图标签是否更好?
对比方面。最新的工作[19]引入了流行的对比学习,以实现视图之间更好的一致性。具体来说,作者提出了一种交叉视图对比损失
其中
I
I
I表示互信息,
H
H
H表示信息熵,
α
α
α是加权参数,固定为[19]推荐的9。为了公式化
I
(
z
t
1
,
z
t
2
)
I(z^1_t , z^2_t)
I(zt1,zt2),[19]将
z
t
1
z^1_t
zt1和
z
t
2
z^2_t
zt2的每个元素视为一个过聚类类概率,从而实现了给定样本的聚类级对比。与文献[19]不同的是,除了簇级对比度外,本文还考虑了实例级对比度
L
i
n
s
L_{ins}
Lins。有两种常用的实例级对比损失,一种是MSE损失[23]
另一个是信息损失[46]
其中
s
i
m
(
u
,
v
)
=
u
T
v
/
‖
u
‖‖
v
‖
sim(u, v) = u^Tv/‖u‖‖v‖
sim(u,v)=uTv/‖u‖‖v‖表示余弦相似性,
τ
τ
τ表示温度参数。
请注意,本文中的簇级和实例级对比学习实际上起着双重作用。一是相互配合,进一步增强视图之间的一致性。其次,它们还相互补充,实现了更广泛意义上的互补学习,使所学表征进一步多样化。
3.1.2 双视图的互补性研究
在本节中,在不失一般性的情况下,我们专门为完整MVC环境中的多方面互补性研究设计了调查实验(即,每个数据点都有完整的视图),并定量和定性分析了每个方面对MVC性能的影响。具体来说,我们以 L c l u + L r e c L_{clu} + L_{rec} Lclu+Lrec的损失组合为基线,采用文献[19]中的主干网络来实施调查。
对于定量分析,我们以Caltech101-20为例,采用了三种广泛使用的聚类指标,包括准确度(ACC)、归一化互信息(NMI)和调整兰德指数(ARI)。考虑到
L
m
s
e
L_{mse}
Lmse和
L
i
n
f
o
L_{info}
Linfo都可以实现实例级的对比,我们在这里简单地让
L
i
n
s
=
L
m
s
e
L_{ins} = L_{mse}
Lins=Lmse,我们运行模型5次,并将它们的平均值作为最终结果。表1报告了结果。
表1:Caltech101-20多方面互补性研究的定量分析。在表中,“
√
\surd
√”表示该项目出现在总损失中。最佳结果(%)以粗体表示
如表1所示,与基线相比,可以看出,无论是额外引入对比度方面 L i n s L_{ins} Lins还是特征方面 L v a r L_{var} Lvar,在ACC方面都可以不同程度地提高相应的性能。然而,这些收益相当有限,即使两者一起引入。但是当我们显式嵌入视图标签信息时,即将 L c l a L_{cla} Lcla添加到基线,MVC性能显著提高,例如ACC(+12.22%)、NMI(+4.25%)和ARI(+22.74%)。此外,我们还对 L c l u + L c l a L_{clu} + L_{cla} Lclu+Lcla进行了一项独立实验,其显著超过了基线(隐含地使用视图标签),以及ACC(70.80%对55.12%)、NMI(70.61%对66.36%)和ARI(80.09%对54.09%)。所有这些都充分证明了视图标签的重要性,表明显式使用它们比像Baseline那样隐式使用它们更有优势,这也为3.1节中提出的两个问题提供了肯定的答案。
此外,引入 L c l a L_{cla} Lcla后,无论添加 L i n s L_{ins} Lins还是 L v a r L_{var} Lvar,MVC性能都可以进一步显著提升。特别地,当所有这些共同有助于总目标函数时,性能达到最优。这进一步证明了视图标签的重要性,同时表明所有方面都有利于互补学习。此外,一个有趣的现象是,当单独或同时添加 L i n s L_{ins} Lins和 L v a r L_{var} Lvar时,性能增益并不显著。然而,一旦引入 L c l a L_{cla} Lcla,性能通常可以显著提高,这似乎表明当 L c l a L_{cla} Lcla与 L i n s L_{ins} Lins、 L v a r L_{var} Lvar或两者一起工作时,会产生一些有趣的反应,这值得未来进一步研究。
对于定性分析,我们以噪声MNIST为例,并使用不同互补方面的损失组合来显示其t-sne可视化。图1(a-d)分别示出了使用簇级损失 L c l u L_{clu} Lclu、对比度方面损失(即, L c l u L_{clu} Lclu和 L i n s L_{ins} Lins)、对比度和特征方面损失(即, L c l u L_{clu} Lclu、 L i n s L_{ins} Lins、 L r e c L_{rec} Lrec和 L v a r L_{var} Lvar)以及所有三个方面损失。我们可以发现,随着每个损失项的逐项添加,学习到的表示在规则形状上变得更加紧凑,而聚类的区分度越来越高,重叠更少。此外,这种视觉演示也符合NMI不断提高的性能。这再次证明了这三个方面的有效性。
图1:关于噪声MNIST的多方面互补性研究的定性分析。
3.1.3 更多视图的互补性调查
为了进一步验证上述结论,我们还在4.1小节中详述的Caltech-5V上进行了实验,它拥有5种视图,包括WM、CENTRIST、LBP、GIST和HOG。当面对三个或更多视图时,对比方面的损失项(等式(4),等式(5)或等式(6))和视图标签方面(等式(3))需要一些调整,因为它们目前只适合双视图数据。
具有更多视图(≥3)的对比方面。我们在这里遵循[20],并引入累积的多视图对比损失。具体地,对于实例级对比度,将特征MLP堆叠在嵌入表示 { z v } v = 1 V \{z^v\}^V_{v=1} {zv}v=1V上以获得实例级对比度特征 { H v } v = 1 V \{\mathbf{H}^v\}^V_{v=1} {Hv}v=1V,其中 h t v ∈ R H \mathbf{h}^v_t ∈ \mathbb{R}^H htv∈RH,并且特征MLP是由 F ( { z v } v = 1 V ; W H ) F(\{z^v\}^V_{v=1}; \mathbf{W}_H ) F({zv}v=1V;WH)表示的单层线性MLP。与[20]类似,我们采用NT-Xent loss[22],InfoNCE loss的一种变体,来实现实例级对比:
那么累积的多视图实例级对比损失可以公式化为:
对于聚类级对比,聚类MLP,即
F
(
{
z
v
}
v
=
1
V
;
W
Q
)
F(\{z^v\}^V_{v=1}; \mathbf{W}_Q )
F({zv}v=1V;WQ),堆叠在嵌入表示
{
z
v
}
v
=
1
V
\{z^v\}^V_{v=1}
{zv}v=1V上,其最后一层被设置为Softmax操作以输出概率,例如,
q
i
j
v
q^v_{ij}
qijv表示第
i
i
i个样本属于第
v
v
v个视图中的第
j
j
j个聚类的概率。因此,我们可以获得所有视图
{
Q
v
∈
R
m
×
K
}
v
=
1
V
\{\mathbf{Q}^v ∈ \mathbb{R}^{m×K} \}^V_{v=1}
{Qv∈Rm×K}v=1V的样本的聚类分配。与实例级对比类似,簇级对比可以表述为
因此,我们具有以下累积的多视图聚类级对比度损失
其中
u
t
v
=
1
m
∑
s
=
1
m
u
s
t
v
u^v_t = \frac{1}{m} ∑^m_{s=1}u^v_{st}
utv=m1∑s=1mustv。等式(8)的第一部分旨在学习所有视图的聚类一致性,而其第二部分是正则化项[40],用于避免所有样本被分配到单个聚类中。有关更多细节,我们请读者参考[20]。
具有更多视图(≥3)的视图标签方面。至于这个方面,当面对更多的视图时,我们只需要将二进制交叉熵损失替换为它的多类版本,如下所示:
其中,
ς
t
ς_t
ςt指示数据
z
t
v
z^v_t
ztv来自哪个视图。
为了便于实验研究,我们在这里采用[20]中的主干网络架构,同时损失组合和其他设置与3.1.2小节相同。表2报告了结果。如表2所示,与基线相比,无论是额外引入特征方面 L v a r L_{var} Lvar、对比度方面Lins还是视图标签方面 L c l a L_{cla} Lcla,MVC性能在三个评估指标方面都持续显著提高,尤其是后两者。此外,在引入 L c l a L_{cla} Lcla后,无论添加 L i n s L_{ins} Lins(ACC+5.05%,NMI+3.27%,ARI+5.35%)或 L v a r L_{var} Lvar(在ACC中+3.37% ,在NMI中+1.32%,在ARI中+2.64%)。),MVC性能都可以进一步显著提高。特别地,当所有这些共同有助于总目标函数时,性能达到最优。此外,我们还对 L c l u + L c l a L_{clu} + L_{cla} Lclu+Lcla进行了一项独立实验,其显著超过基线(隐含使用视图标签),以及ACC(71.90%对64.77%)、NMI(65.61%对56.99%)和ARI(57.54%对47.11%)。所有这些再次证明了视图标签的不可或缺性,同时显示了这三个方面对于互补学习视图的有效性。
表2:Caltech-5V上多方面互补性研究的定量分析。在表中,“X”表示该术语出现在总损失中。最佳结果(%)以粗体表示
3.2 多方面互补学习框架
在上述研究的基础上,提出了一个简单、全面、有效的MVC多方面互补学习框架(MCMVC)。在保持视图一致性的同时,MCMVC从特征方面、视图-标签方面和对比方面实现了视图的互补性学习,尤其是显式地嵌入了视图-标签信息。图2示出了所提出的MCMVC的概述。我们注意到,MCMVC是一个概念框架,对应于相关方面的损失项不限于本文中列出的损失项。其实,凡是能起到相应作用的损失项,都可以推荐结合手头任务的要求使用。此外,MCMVC的部署非常灵活,并且可以使用现有方法中的任何主干网络架构来实现。特别是,视图标签预测模块与几乎所有当前的深度MVC方法正交,并且具有即插即用的特性,这意味着它可以轻松地进一步增强现有方法的性能。
3.2.1 具有双视图的MCMVC
对于双视图情况,我们采用最新的双视图MVC工作[19]中使用的主干网络架构来实现MCMVC,并具有
基于不同的实例级对比损失,进一步开发了两个版本的MCMVC,即用于MSE损失的MCMVC-M和用于信息损失的MCMVC-I。
注意,与[19]相比,虽然引入了几个额外的损失,但MCMVC中的网络参数规模几乎没有变化,除了 L c l a L_{cla} Lcla的实现引入了一个基于嵌入表示 z z z的额外线性预测器,其中引入的训练参数可以忽略不计。此外,对于缺少一些数据点视图的不完整MVC设置,我们还引入了类似[19]的双重预测损失。但与[19]需要一个预训练过程来稳定这种损失的训练不同,我们的实现根本不需要这样的过程。
3.2.2 具有更多视图的MCMVC(≥3)
当面对三个或更多视图时,我们采用最新MVC工作[20]中使用的主干网络架构,并具有
该主干网络分阶段训练,其中我们首先使用特征方面损失预训练主干网络,然后联合使用对比方面和视图标签方面损失来保留网络。有趣的是,这样的训练过程减少了我们对用于平衡不同损失的权重参数的需求。事实上,我们只引入了两个权重参数,即分别用于
L
v
a
r
L_{var}
Lvar和
L
m
c
l
a
L_{mcla}
Lmcla的
μ
1
μ_1
μ1和
μ
2
μ_2
μ2。
此外,受[20]的启发,我们还在MCMVC的基础上引入了一个额外的聚类分配增强模块,并最终开发了MCMVC+学习框架。聚类分配增强模块利用来自实例级对比特征的聚类信息来进一步增强由聚类MLP获得的聚类分配,这将在下一部分中详细介绍。
簇分配增强(CE)。具体地,将Kmeans技术应用于实例级对比度特征 { H v } v = 1 V \{\mathbf{H}^v\}^V_{v=1} {Hv}v=1V,以获得每个视图的聚类信息。对于第 v v v个视图,设 { c k v } k = 1 K ∈ R H \{c^v_k \}^K_{k=1} ∈ \mathbb{R}^H {ckv}k=1K∈RH表示 k k k个簇质心,我们有
所有样本
p
v
∈
R
m
p^v ∈ \mathbb{R}^m
pv∈Rm的聚类赋值可以通过下式获得
设
l
v
∈
R
m
l^v ∈ \mathbb{R}^m
lv∈Rm表示由聚类MLP获得的聚类赋值,其中
l
i
v
=
a
r
g
m
a
x
j
q
i
j
v
l^v_i = argmax_jq^v_{ij}
liv=argmaxjqijv。注意,由
p
v
p^v
pv和
l
v
l^v
lv表示的簇彼此不对应。为了实现它们之间的一致对应,我们可以采用以下最大匹配公式
其中
A
v
∈
{
0
,
1
}
K
×
K
\mathbf{A}^v ∈ \{0, 1\}^{K×K}
Av∈{0,1}K×K表示布尔矩阵,
U
v
∈
R
K
×
K
\mathbf{U}^v ∈ \mathbb{R}^{K×K}
Uv∈RK×K表示代价矩阵。
U
v
=
m
a
x
i
\mathbf{U}^v = max i
Uv=maxi,
j
u
~
i
j
v
−
U
~
v
j\widetilde{u}^v_{ij} − \widetilde{U}^v
ju
ijv−U
v 和
u
~
i
j
v
=
∑
t
=
1
m
1
[
l
t
v
=
i
]
1
[
p
t
v
=
j
]
\widetilde{u}^v_{ij} = ∑^m_{t=1} \mathbb{1}[l^v_t = i]\mathbb{1}[p^v_t = j]
u
ijv=∑t=1m1[ltv=i]1[ptv=j],其中
1
\mathbb{1}
1是指示函数公式(14)的解,可以通过匈牙利算法[47]获得。
p
^
i
v
∈
{
0
,
1
}
K
\widehat{p}^v_i ∈ \{0, 1\}^K
p
iv∈{0,1}K表示第
i
i
i个样本的修改的聚类分配,其可用于通过以下损失函数进一步增强由聚类MLP获得的聚类分配
其中 P ^ v = [ p ^ 1 v , p ^ 2 v , . . . , p ^ m v ] ∈ R m × K \widehat{\mathbf{P}}^v = [ \widehat{\mathbf{p}}^v_1, \widehat{\mathbf{p}}^v_2, ..., \widehat{\mathbf{p}}^v_m] ∈ \mathbb{R}^{m×K} P v=[p 1v,p 2v,...,p mv]∈Rm×K。最后,第 i i i个样本的聚类赋值为:
综上所述,MCMVC+的整个优化过程总结在算法1中。乍一看,算法1似乎与[20]中的算法高度相似,但请注意,部分优化步骤(步骤1和步骤2)的损失项并不相同。
4.实验
4.1 数据集
对于双视图实验,我们遵循[19]并使用以下广泛使用的数据集:
•Caltech101-20[63]:具有来自20个类别的2386幅图像,并且使用HOG和GIST特征的视图。
•LandUse-21[64]:拥有21个类别的2100张卫星图像,使用了PHOG和LBP要素的视图。
•Scene-15[65]:由来自15个类别的4485幅图像组成,PHOG和GIST特征用作两个视图
•噪声MNIST[50]:是MNIST的多视图版本,其中原始MNIST图像用作视图1,而随机选择的具有高斯噪声的类内图像用作视图2。像[19]一样,我们在这里使用噪声MNIST的20k子集,包括10k验证图像和10k测试图像。
对于具有两个以上视图的实验,我们遵循[20]并使用以下广泛使用的数据集:
•Columbia Consumer Video(CCV)[66]:包含属于20个类别的6773个样本,并提供了三种手工制作的词袋表示视图,包括STIP、SIFT和MFCC。
•Fashion[67]包含10种时尚产品(如T恤、连衣裙等)。遵循[68],我们将不同的三种风格视为一个产品的三种视图。
•Caltech[69]:拥有来自7个类别的1400个样本,具有5个视图特征(即,WM、CENTRIST、LBP、GIST、HOG)。在此基础上,我们建立了四个数据集,用于根据视图数量进行评估,如[68]。具体来说,Caltech-2V包含WM和CENTRIST;Caltech-3V包含WM、CENTRIST和LBP;Caltech-4V包含WM、CENTRIST、LBP和GIST;Caltech-5V包含WM、CENTRIST、LBP、GIST和HOG。
4.2 实验设置
为了全面评估所提出的多面互补学习框架,我们分别在双视图和两个以上视图的基准数据集上进行了实验。采用四个广泛使用的指标,即聚类精度(ACC)、归一化互信息(NMI)、调整后的兰德指数(ARI)和纯度(PUR)来评估聚类的有效性。我们在PyTorch 1.6.0中实现了我们的方法(包括MCMVC-M(I)和MCMVC+),并在带有NVIDIA 2080Ti GPU的标准Ubuntu-16.04操作系统上进行了所有实验。我们的代码已发布以供参考和进一步验证。接下来,我们详细介绍这两种实验的实验设置。
4.2.1 双视图实验设置
根据[19],我们在Caltech101-20、LandUse-21、Scene-15和Noisy MNIST下进行了完整和不完整的MVC设置的双视图实验。对于不完整的情况,我们将缺失率定义为 η = ( n − m ) / n η = (n − m)/n η=(n−m)/n,其中 m m m和 n n n分别表示完整样本和整个数据集的数量。对于每个数据集,我们运行模型5次,并将其平均值作为最终结果。同时,使用ACC、NMI和ARI聚类度量。
训练详情。我们方法的主干网络(包括MCMVC-M和MCMVC-I)采用[19]中的网络架构,编码器的维数设置为 E − 1024 − 1024 − 1024 − D E − 1024 − 1024 − 1024 − D E−1024−1024−1024−D,其中 E E E是原始数据的维数, D D D是潜在空间的维数。使用具有默认参数的Adam优化器来训练我们的模型。批量大小设置为256,而Caltech101-20的初始学习速率设置为 1 e − 4 1e^{-4} 1e−4,其他三个数据集的初始学习速率设置为 1 e − 3 1e^{-3} 1e−3。
对于参数 λ 1 , λ 2 , λ 3 , λ 4 λ_1, λ_2, λ_3,λ_4 λ1,λ2,λ3,λ4,我们遵循MVC社区[19]、[70]、[71]中的常见做法,采用基于评估度量的网格搜索来确定这些超参数。对于MCMVC-M,在完整MVC设置中,所有数据集的参数 λ 2 , λ 4 λ_2, λ_4 λ2,λ4分别设置为0.1和0.2。对于Caltech101-20,我们设置 λ 1 = 0.2 λ_1 = 0.2 λ1=0.2和 λ 3 = 0.2 λ_3 = 0.2 λ3=0.2,并训练500个epoch。对于LandUse21,我们分别将 λ 1 λ_1 λ1和 λ 3 λ_3 λ3固定为0.5和0.2,并将训练epoch设置为1000。对于Scene-15,我们设 λ 1 = 0.1 λ_1 = 0.1 λ1=0.1, λ 3 = 0.3 λ_3 = 0.3 λ3=0.3,训练epoch为400。对于噪声MNIST, λ 1 λ_1 λ1被设置为0.1, λ 3 λ_3 λ3被设置为0.3,并且训练epoch被设置为650。在不完整的MVC设置中,我们遵循[19]并引入双重预测损失来解决视图缺失问题,定义如下
其中
G
(
j
)
(
⋅
)
G^{(j)}(·)
G(j)(⋅)表示将视图j的嵌入表示
z
j
z^j
zj映射到视图
i
i
i的嵌入表示
z
i
z^i
zi的参数化模型。更多详情请参阅[19]。我们将
L
p
r
e
L_{pre}
Lpre的权重参数设置为[19]推荐的0.2,并保持完整设置中使用的参数,只需稍微修改
λ
1
λ_1
λ1和
λ
3
λ_3
λ3和训练epoch。对于Caltech101-20,除了将训练epoch修改为1000之外,我们保持与完整设置中相同的设置。对于LandUse21,我们设置
λ
1
=
1.1
λ_1=1.1
λ1=1.1,
λ
3
=
1.1
λ_3=1.1
λ3=1.1,训练epoch为400。对于Scene-15,我们将
λ
1
λ_1
λ1设置为0.2,
λ
3
λ_3
λ3设置为0.1,训练epoch设置为500。对于噪声MNIST,
λ
1
λ_1
λ1和
λ
3
λ_3
λ3分别固定为0.3和0.4,训练epoch为300。
对于MCMVC-I,在完整的MVC设置中,类似于MCMVC-M中的完整设置,除了我们固定 λ 1 = 0.1 λ_1=0.1 λ1=0.1之外,我们仍然保持大部分设置。仍然 λ 3 λ_3 λ3和训练epoch随不同的数据集而变化。对于Caltech101-20,我们使用 λ 3 = 0.2 λ_3=0.2 λ3=0.2,并将训练epoch设置为500。对于LandUse21,我们将 λ 3 λ_3 λ3固定为1.0,同时将训练epoch设置为700。对于Scene15,我们使用 λ 3 = 0.7 λ_3=0.7 λ3=0.7,而模型被训练300个epoch。对于噪声MNIST, λ 3 λ_3 λ3也被设置为1.0,并且训练epoch被设置为500。至于不完全MVC设置,类似于MCMVC-M中的不完全设置,我们只是稍微修改了 λ 3 λ_3 λ3和训练epoch。对于Caltech101-20,我们使用 λ 3 = 0.3 λ_3=0.3 λ3=0.3,并将训练epoch设置为1000。对于LandUse21,我们设置 λ 3 = 0.7 λ_3=0.7 λ3=0.7,训练epoch为700。对于Scene-15,我们设置 λ 3 = 0.5 λ_3=0.5 λ3=0.5,训练epoch为500。对于噪声MNIST, λ 3 λ_3 λ3固定为1.0,训练epoch为200。
4.2.2 两个以上视图的实验设置
遵循[20],我们在完整的MVC设置中对CCV、Fashion和Caltech-2V, 3V, 4V, 5V进行了两个以上视图的实验。对于每个数据集,我们运行模型10次,并将它们的平均值作为最终结果。同时,使用ACC、NMI和PUR聚类度量。
训练详情。我们的MCMVC+主干网络采用[20]中的网络架构,编码器的维数设置为 E − 2000 − 2000 − 500 − 500 − D E-2000−2000−500−500−D E−2000−2000−500−500−D,其中 E E E是原始数据的维数, D D D是潜在数据的维数空间。使用具有默认参数的Adam优化器来训练我们的模型。批量大小设置为256,而初始学习速率对于CCV设置为 5 e − 4 5e^{−4} 5e−4,对于Fashion设置为 1 e − 4 1e^{−4} 1e−4,对于Caltech-2V、3V、4V、5V设置为 3 e − 4 3e^{−4} 3e−4。对于Caltech-2V、3V和4V,对比训练过程的epoch分别设置为70、80和70,而其他参数(如温度参数 τ 1 τ_1 τ1、 τ 2 τ_2 τ2等。)设置为[20]推荐的默认参数。至于等式(11)中的权重参数 μ 1 μ_1 μ1和 μ 2 μ_2 μ2。我们还采用网格搜索方案,并将CCV设置为 μ 1 = 0.001 μ_1 = 0.001 μ1=0.001, μ 2 = 0.2 μ_2 = 0.2 μ2=0.2;对于Fashion, μ 1 = 0.1 μ_1 = 0.1 μ1=0.1, μ 2 = 0.4 μ_2 = 0.4 μ2=0.4;对于Caltech-2V, μ 1 = 0.1 μ_1 = 0.1 μ1=0.1, μ 2 = 0.02 μ_2 = 0.02 μ2=0.02;对于Caltech-3V, μ 1 = 0.01 μ_1 = 0.01 μ1=0.01, μ 2 = 0.2 μ_2 = 0.2 μ2=0.2;对于Caltech-4V, μ 1 = 0.1 μ_1 = 0.1 μ1=0.1, μ 2 = 0.4 μ_2 = 0.4 μ2=0.4;对于Caltech5V, μ 1 = 0.02 μ_1 = 0.02 μ1=0.02, μ 2 = 0.03 μ_2 = 0.03 μ2=0.03。
4.3 双视图数据集的结果
4.3.1 与最先进技术的比较
在双视图数据集上,我们在完整和不完整MVC设置下进行了比较。
在完整的设置中,我们将MCMVC与18种流行的MVC方法进行了比较,包括DCCA[48]、PVC[49]、DCCAE[50]、IMG[51]、BMVC[52]、AE2-Nets[15]、UEAF[53]、PIC[54]、DAIMC[55]、EERIMVC[56]、COMPLETER[19]、DSIMVC[58]、DIMVC[59]、DCP[60]、ProImp[61]、ICMVC[62]、SiMVC[57]和CoMVC[57]。为了公平的比较,我们采用与[19]相同的实验设置,以便我们在这里直接与他们从[19]和[72]复制的上述方法的发表结果进行比较。至于SiMVC和CoMVC,我们使用推荐的网络结构和参数自行实现。表3报告了结果。
表3:在完全MVC设置下,双视图对数据集的聚类性能比较。“-”表示相应的方法不提供它们的结果或它们不实验的数据集。粗体表示最佳结果(%),下划线表示第二好结果(%)。
如表3所示,通过多方面互补学习,MCMVC在所有四个数据集上显著优于这些领先基线。与流行的基线COMPLETER相比,我们的MCMVC-M实现了显著的改善,平均利润率分别超过2.40%、1.00%和2.90%,而对于我们的MCMVC-I,ACC的利润率甚至提高到3.20%、1.70%和4.00%。特别是,MCMVC-I在ARI方面比Caltech101-20提高了8.85%。此外,MCMVC-I还在大多数基准测试中赢得了最新的基线ICMVC。
在不完全设置中,我们也采用与[19]相同的实验设置进行公平比较,其中缺失率 η η η设置为0.5。我们将MCMVC与DCCAE、PVC、IMG、BMVC、AE2Nets、UEAF、DAIMC、PIC、EERIMVC、COMPLETER、DSIMVC、DCP、ProImp和ICMVC进行了比较。我们在这里直接与他们从[19]和[62]复制的发表结果进行比较。表4报告了结果。
表4:在不完全MVC设置下,双视图数据集的聚类性能比较。“-”表示相应的方法不提供它们的结果或它们不实验的数据集。粗体表示最佳结果(%),下划线表示第二好结果(%)。
如表4所示,MCMVC在大多数数据集上也实现了显著的改进。例如,MCMVC-M在ACC、NMI和ARI方面的平均优势分别为3.30%、1.60%和4.60%,而MCMVC-I也有类似的显著性能增益。特别是,MCMVC-M和MCMVCI在ARI方面都比Caltech101-20实现了10%以上的性能增益。
评论。值得注意的是,我们的MCMVC在Caltech101-20上的不完整设置中的ACC和ARI性能出人意料地略好于完整的对应物,这可能有点令人困惑。我们推测,通过考虑多方面互补学习,我们的模型捕获了更丰富的互补信息,同时保持了视图之间的一致性。当这些信息被用于恢复丢失的视图时,在某些情况下,新恢复的视图的好处可能比直接收集的原始视图更多,这进一步证明了我们MCMVC的优势。
4.3.2 参数敏感性分析
在这一部分中,我们评估了MCMVC(使用MCMVCM)对Caltech101-20上超参数的敏感性。在双视图情况下,我们发现 L r e c L_{rec} Lrec和 L c l a L_{cla} Lcla的权重参数 λ 2 λ_2 λ2和 λ 4 λ_4 λ4分别在 [ 0.1 : 0.1 : 2 ] [0.1 : 0.1 : 2] [0.1:0.1:2]范围内非常不敏感。因此,我们这里只对参数 λ 1 λ_1 λ1和 λ 3 λ_3 λ3进行灵敏度实验。我们在 { 0.01 , 0.1 , 1 , 10 , 100 } \{0.01, 0.1, 1, 10, 100\} {0.01,0.1,1,10,100}的范围内改变它们的值。如图3所示,我们的模型对 λ 1 λ_1 λ1和 λ 3 λ_3 λ3的选择也相对不敏感。当 λ 3 λ_3 λ3大于10时,MCMVC的性能迅速下降,而结果为当 λ 3 λ_3 λ3小于1时,仍然令人鼓舞。尽管如此,仔细选择这些超参数将导致更好的性能。
图3:Caltech101-20上的参数敏感性分析。
4.3.3 收敛性分析
在这一部分中,我们通过记录MCMVC(使用MCMVC-M)的性能指标(ACC、NMI、ARI)及其在Caltech101-20上随epoch增加的损失来分析MCMVC的收敛性。如图4所示,对于前300个时期,损失显著降低,而性能迅速增加。之后,它们变得相对稳定。
图4:Caltech101-20上MCMVC随epoch增加的聚类性能。x轴表示训练时期,左右y轴分别表示聚类性能和相应的损失值。
4.4 具有两个以上视图的数据集的结果
4.4.1 与最先进技术的比较
当数据集的视图数量超过两个时,我们开发了MCMVC+方法,并将其与13种经典和领先的MVC方法进行了比较,包括RMSL[73]、MVCLFA[28]、COMIC[74]、IMVTSC-MVI[76]、CDIMC-net[75]、EAMC[14]、SiMVC[57]、CoMVC[57]、MFLVC[20]、FastMICE[70]、SDMVC[32]、AECoDDC[77]和CSOT[78]。为了公平的比较,我们采用与[20]相同的实验设置,以便我们在这里直接与他们在[20]和[78]中发表的前13种方法的结果进行比较。此外,为了进一步验证视图标签的重要性,我们还开发了一个增强版本MFLVC,即MFLVC+,它额外引入了视图标签预测损失 L m c l a L_{mcla} Lmcla。注意, L m c l a L_{mcla} Lmcla的实现只是添加了一个基于嵌入表示 z z z的线性预测器,其中引入的训练参数可以忽略不计。表5和表6报告了结果。
表5:在完全MVC设置下,具有两个以上视图的数据集的聚类性能比较。粗体表示最佳结果,下划线表示次佳结果。
表6:在完全MVC设置下,具有两个以上视图的数据集的聚类性能比较。粗体表示最佳结果,下划线表示次佳结果。
从表5和表6中,我们可以发现:(1)视图标签预测的引入赋予了原始MFLVC更强大的能力,其中MFLVC+在所有数据集的所有指标方面都击败了MFLVC,例如,在ACC中平均差距为1.87%,在NMI中平均差距为1.70%,在PUR中平均差距为1.88%,这再次充分表明了视图标签的重要性。(2)在MFLVC+的基础上,进一步增加方差损失项,即我们的MCMVC+,进一步提高了性能。例如,在ACC方面,MCMVC+在CCV上赢了MFLVC+1.1%,在Caltech-2V上赢了1.3%,在Caltech-3V上赢了2.6%,在Caltech-4V上赢了1.8%,在Caltch-5V上赢了0.5%,这也再次证明了这三个方面的有效性。(3)特别是,与SOTA基线相比,我们的MCMVC+至少在所有基准上实现了可比的性能。
4.4.2 大规模ALOI-100实验
为了进一步展示我们的学习框架的优势,我们还遵循[71]中的大规模设置,引入了更大的数据集ALOI-100(4个视图,100个类,10800个样本)。
在[71]之后,CGD[79]、LMVSC[80]、SMVSC[81]、CDMGC[82]、OPMC[83]和E2OMVC[71]被用作比较基线。表7报告了结果。如表7所示,我们的框架在三个评估指标方面取得了显著的领先地位。
表7:大规模ALOI-100上的聚类性能。粗体表示最佳结果(%)。其他方法(除了我们的方法)的结果复制自[71]
4.4.3 参数敏感性分析
在这一部分中,我们评估了MCMVC+对Caltech-5V上超参数 μ 1 μ_1 μ1和 μ 2 μ_2 μ2的敏感性。我们在 { 0.001 , 0.01 , 0.02 , 0.1 , 0.2 } \{0.001, 0.01, 0.02, 0.1, 0.2\} {0.001,0.01,0.02,0.1,0.2}的范围内改变它们的值。如图5所示,我们的模型对 μ 1 μ_1 μ1和 μ 2 μ_2 μ2的选择相对不敏感。尽管如此,仔细选择这些超参数将导致更好的性能。
图5:Caltech-5V上的参数敏感性分析。
4.4.4 聚类分配增强的影响
在这一部分中,我们评估了聚类分配增强对性能的影响,表8报告了结果。如表8所示,聚类分配增强的引入确实进一步提高了模型的性能。在几乎所有数据集上,带CE模块的MCMVC+在所有指标上都优于不带CE模块的MCMVC+,但Caltech-3V除外,在那里它是可比的,例如,ACC为0.686对0.690,NMI为0.604对0.606,PUR为0.697对0.701。
表8:聚类分配增强(CE)上的聚类性能比较。粗体表示最佳结果。
5.结论
本文从特征方面、视图标签方面和对比度方面探索了MVC的多面互补性研究,其中我们发现所有三个方面共同有助于视图的互补性学习,尤其是视图标签方面通常被忽略或从未被现有工作明确关注。基于我们的这些发现,我们提出了用于多视图聚类的多方面互补学习框架。具体来说,我们分别为具有双视图和两个以上视图的数据集开发了MCMVC-M(I)和MCMVC+。它们在所有数据集上的出色表现也反过来支持了我们的结论。需要特别强调的是,我们新颖的视图标签方面与所有现有MVC方法中的所有方面正交,这意味着它也可以提高它们的性能。
6.引用文献
- [1] A. Blum and T. Mitchell, “Combining labeled and unlabeled data with co-training,” in Proceedings of the eleventh annual conference on Computational learning theory, 1998, pp. 92–100.
- [2] X. Cao, C. Zhang, H. Fu, S. Liu, and H. Zhang, “Diversity-induced multi-view subspace clustering,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 586–594.
- [3] J. Zhao, X. Xie, X. Xu, and S. Sun, “Multi-view learning overview: Recent progress and new challenges,” Information Fusion, vol. 38, pp. 43–54, 2017.
- [4] Y. Li, M. Yang, and Z. Zhang, “A survey of multi-view representation learning,” IEEE transactions on knowledge and data engineering, vol. 31, no. 10, pp. 1863–1883, 2018.
- [5] A. Kumar, P. Rai, and H. Daume, “Co-regularized multi-view spectral clustering,” Advances in neural information processing systems, vol. 24, pp. 1413–1421, 2011.
- [6] J. Liu, C. Wang, J. Gao, and J. Han, “Multi-view clustering via joint nonnegative matrix factorization,” in Proceedings of the 2013 SIAM international conference on data mining. SIAM, 2013, pp. 252–260.
- [7] M. D. Collins, J. Liu, J. Xu, L. Mukherjee, and V. Singh, “Spectral clustering with a convex regularizer on millions of images,” in European Conference on Computer Vision. Springer, 2014, pp. 282–298.
- [8] H. Gao, F. Nie, X. Li, and H. Huang, “Multi-view subspace clustering,” in Proceedings of the IEEE international conference on computer vision, 2015, pp. 4238–4246.
- [9] W. Wang and Z.-H. Zhou, “Analyzing co-training style algorithms,” in European conference on machine learning. Springer, 2007, pp. 454465.
- [10] X. Wang, X. Guo, Z. Lei, C. Zhang, and S. Z. Li, “Exclusivityconsistency regularized multi-view subspace clustering,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 923–931.
- [11] S. Luo, C. Zhang, W. Zhang, and X. Cao, “Consistent and specific multiview subspace clustering,” in Thirty-second AAAI conference on artificial intelligence, 2018.
- [12] Z. Li, C. Tang, J. Chen, C. Wan, W. Yan, and X. Liu, “Diversity and consistency learning guided spectral embedding for multi-view clustering,” Neurocomputing, vol. 370, pp. 128–139, 2019.
- [13] X. Si, Q. Yin, X. Zhao, and L. Yao, “Consistent and diverse multi-view subspace clustering with structure constraint,” Pattern Recognition, vol. 121, p. 108196, 2022.
- [14] R. Zhou and Y.-D. Shen, “End-to-end adversarial-attention network for multi-modal clustering,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 14 619–14 628.
- [15] C. Zhang, Y. Liu, and H. Fu, “Ae2-nets: Autoencoder in autoencoder networks,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 2577–2585.
- [16] Z. Huang, J. T. Zhou, X. Peng, C. Zhang, H. Zhu, and J. Lv, “Multi-view spectral clustering network.” in IJCAI, 2019, pp. 2563–2569.
- [17] P. Zhu, B. Hui, C. Zhang, D. Du, L. Wen, and Q. Hu, “Multi-view deep subspace clustering networks,” arXiv preprint arXiv:1908.01978, 2019.
- [18] J. Xu, Y. Ren, G. Li, L. Pan, C. Zhu, and Z. Xu, “Deep embedded multiview clustering with collaborative training,” Information Sciences, vol. 573, pp. 279–290, 2021.
- [19] Y. Lin, Y. Gou, Z. Liu, B. Li, J. Lv, and X. Peng, “Completer: Incomplete multi-view clustering via contrastive prediction,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 11 174–11 183.
- [20] J. Xu, H. Tang, Y. Ren, L. Peng, X. Zhu, and L. He, “Multi-level feature learning for contrastive multi-view clustering,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 16 051–16 060.
- [21] K. He, H. Fan, Y. Wu, S. Xie, and R. Girshick, “Momentum contrast for unsupervised visual representation learning,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 9729–9738.
- [22] T. Chen, S. Kornblith, M. Norouzi, and G. Hinton, “A simple framework for contrastive learning of visual representations,” in International conference on machine learning. PMLR, 2020, pp. 1597–1607.
- [23] A. Bardes, J. Ponce, and Y. LeCun, “Vicreg: Variance-invariancecovariance regularization for self-supervised learning,” arXiv preprint arXiv:2105.04906, 2021.
- [24] C. Xu, D. Tao, and C. Xu, “A survey on multi-view learning,” arXiv preprint arXiv:1304.5634, 2013.
- [25] Y. Ren, J. Pu, Z. Yang, J. Xu, G. Li, X. Pu, S. Y. Philip, and L. He, “Deep clustering: A comprehensive survey,” IEEE Transactions on Neural Networks and Learning Systems, 2024.
- [26] U. Fang, M. Li, J. Li, L. Gao, T. Jia, and Y. Zhang, “A comprehensive survey on multi-view clustering,” IEEE Transactions on Knowledge and Data Engineering, vol. 35, no. 12, pp. 12 350–12 368, 2023.
- [27] R. Li, C. Zhang, Q. Hu, P. Zhu, and Z. Wang, “Flexible multi-view representation learning for subspace clustering.” in IJCAI, 2019, pp. 2916–2922.
- [28] S. Wang, X. Liu, E. Zhu, C. Tang, J. Liu, J. Hu, J. Xia, and J. Yin, “Multiview clustering via late fusion alignment maximization.” in IJCAI, 2019, pp. 3778–3784.
- [29] R. Bai, R. Huang, Y. Chen, and Y. Qin, “Deep multi-view document clustering with enhanced semantic embedding,” Information Sciences, vol. 564, pp. 273–287, 2021.
- [30] X. Yang, C. Deng, Z. Dang, and D. Tao, “Deep multiview collaborative clustering,” IEEE Transactions on Neural Networks and Learning Systems, vol. 34, no. 1, pp. 516–526, 2023.
- [31] J. Xu, Y. Ren, X. Shi, H. T. Shen, and X. Zhu, “Untie: Clustering analysis with disentanglement in multi-view information fusion,” Information Fusion, vol. 100, p. 101937, 2023.
- [32] J. Xu, Y. Ren, H. Tang, Z. Yang, L. Pan, Y. Yang, X. Pu, S. Y. Philip, and L. He, “Self-supervised discriminative feature learning for deep multi-view clustering,” IEEE Transactions on Knowledge and Data Engineering, vol. 35, no. 7, pp. 7470–7482, 2023.
- [33] X. Chen, J. Xu, Y. Ren, X. Pu, C. Zhu, X. Zhu, Z. Hao, and L. He, “Federated deep multi-view clustering with global self-supervision,” in Proceedings of the 31st ACM International Conference on Multimedia, 2023, pp. 3498–3506.
- [34] C. Cui, Y. Ren, J. Pu, X. Pu, and L. He, “Deep multi-view subspace clustering with anchor graph,” arXiv preprint arXiv:2305.06939, 2023.
- [35] Y. Ren, X. Chen, J. Xu, J. Pu, Y. Huang, X. Pu, C. Zhu, X. Zhu, Z. Hao, and L. He, “A novel federated multi-view clustering method for unaligned and incomplete data fusion,” Information Fusion, vol. 108, p. 102357, 2024.
- [36] J. Pu, C. Cui, X. Chen, Y. Ren, X. Pu, Z. Hao, S. Y. Philip, and L. He, “Adaptive feature imputation with latent graph for deep incomplete multiview clustering,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, no. 13, 2024, pp. 14 633–14 641.
- [37] Z. Wen, Y. Ling, Y. Ren, T. Wu, J. Chen, X. Pu, Z. Hao, and L. He, “Homophily-related: Adaptive hybrid graph filter for multi-view graph clustering,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, no. 14, 2024, pp. 15 841–15 849.
- [38] C. Cui, Y. Ren, J. Pu, J. Li, X. Pu, T. Wu, Y. Shi, and L. He, “A novel approach for effective multi-view clustering with informationtheoretic perspective,” Advances in Neural Information Processing Systems, vol. 36, 2024.
- [39] S. Wu, Y. Zheng, Y. Ren, J. He, X. Pu, S. Huang, Z. Hao, and L. He, “Self-weighted contrastive fusion for deep multi-view clustering,” IEEE Transactions on Multimedia, 2024.
- [40] M.-S. Chen, J.-Q. Lin, X.-L. Li, B.-Y. Liu, C.-D. Wang, D. Huang, and J.-H. Lai, “Representation learning in multi-view clustering: A literature review,” Data Science and Engineering, vol. 7, no. 3, pp. 225–241, 2022.
- [41] T. Wang and P. Isola, “Understanding contrastive representation learning through alignment and uniformity on the hypersphere,” in International Conference on Machine Learning. PMLR, 2020, pp. 9929–9939.
- [42] S. Chen and C. Geng, “A comprehensive perspective of contrastive selfsupervised learning,” Frontiers of Computer Science, vol. 15, no. 4, pp. 1–3, 2021.
- [43] J.-B. Grill, F. Strub, F. Altch ́ e, C. Tallec, P. Richemond, E. Buchatskaya, C. Doersch, B. Avila Pires, Z. Guo, M. Gheshlaghi Azar et al., “Bootstrap your own latent-a new approach to self-supervised learning,” Advances in Neural Information Processing Systems, vol. 33, pp. 21 271–21 284, 2020.
- [44] X. Chen and K. He, “Exploring simple siamese representation learning,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 15 750–15 758.
- [45] M. Caron, I. Misra, J. Mairal, P. Goyal, P. Bojanowski, and A. Joulin, “Unsupervised learning of visual features by contrasting cluster assignments,” Advances in Neural Information Processing Systems, vol. 33, pp. 9912–9924, 2020.
- [46] X. Liu, F. Zhang, Z. Hou, L. Mian, Z. Wang, J. Zhang, and J. Tang, “Self-supervised learning: Generative or contrastive,” IEEE Transactions on Knowledge and Data Engineering, 2021.
- [47] R. Jonker and T. Volgenant, “Improving the hungarian assignment algorithm,” Operations Research Letters, vol. 5, no. 4, pp. 171–175, 1986.
- [48] G. Andrew, R. Arora, J. Bilmes, and K. Livescu, “Deep canonical correlation analysis,” in International conference on machine learning. PMLR, 2013, pp. 1247–1255.
- [49] S.-Y. Li, Y. Jiang, and Z.-H. Zhou, “Partial multi-view clustering,” in Proceedings of the AAAI conference on artificial intelligence, vol. 28, no. 1, 2014.
- [50] W. Wang, R. Arora, K. Livescu, and J. Bilmes, “On deep multiview representation learning,” in International conference on machine learning. PMLR, 2015, pp. 1083–1092.
- [51] H. Zhao, H. Liu, and Y. Fu, “Incomplete multi-modal visual data grouping.” in IJCAI, 2016, pp. 2392–2398.
- [52] Z. Zhang, L. Liu, F. Shen, H. T. Shen, and L. Shao, “Binary multiview clustering,” IEEE transactions on pattern analysis and machine intelligence, vol. 41, no. 7, pp. 1774–1782, 2018.
- [53] J. Wen, Z. Zhang, Y. Xu, B. Zhang, L. Fei, and H. Liu, “Unified embedding alignment with missing views inferring for incomplete multiview clustering,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 33, no. 01, 2019, pp. 5393–5400.
- [54] H. Wang, L. Zong, B. Liu, Y. Yang, and W. Zhou, “Spectral perturbation meets incomplete multi-view data,” in IJCAI, 2019, pp. 3677–3683.
- [55] M. Hu and S. Chen, “Doubly aligned incomplete multi-view clustering,” pp. 2262–2268, 2018.
- [56] X. Liu, M. Li, C. Tang, J. Xia, J. Xiong, L. Liu, M. Kloft, and E. Zhu, “Efficient and effective regularized incomplete multi-view clustering,” IEEE transactions on pattern analysis and machine intelligence, 2020.
- [57] D. J. Trosten, S. Lokse, R. Jenssen, and M. Kampffmeyer, “Reconsidering representation alignment for multi-view clustering,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 1255–1265.
- [58] H. Tang and Y. Liu, “Deep safe incomplete multi-view clustering: Theorem and algorithm,” in International Conference on Machine Learning. PMLR, 2022, pp. 21 090–21 110.
- [59] J. Xu, C. Li, Y. Ren, L. Peng, Y. Mo, X. Shi, and X. Zhu, “Deep incomplete multi-view clustering via mining cluster complementarity,” in Proceedings of the AAAI conference on artificial intelligence, vol. 36, no. 8, 2022, pp. 8761–8769.
- [60] Y. Lin, Y. Gou, X. Liu, J. Bai, J. Lv, and X. Peng, “Dual contrastive prediction for incomplete multi-view representation learning,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 45, no. 4, pp. 4447–4461, 2022.
- [61] H. Li, Y. Li, M. Yang, P. Hu, D. Peng, and X. Peng, “Incomplete multi-view clustering via prototype-based imputation,” arXiv preprint arXiv:2301.11045, 2023.
- [62] G. Chao, Y. Jiang, and D. Chu, “Incomplete contrastive multi-view clustering with high-confidence guiding,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, no. 10, 2024, pp. 11 22111 229.
- [63] Y. Li, F. Nie, H. Huang, and J. Huang, “Large-scale multi-view spectral clustering via bipartite graph,” in Twenty-ninth AAAI conference on artificial intelligence, 2015.
- [64] Y. Yang and S. Newsam, “Bag-of-visual-words and spatial extensions for land-use classification,” in Proceedings of the 18th SIGSPATIAL international conference on advances in geographic information systems, 2010, pp. 270–279.
- [65] L. Fei-Fei and P. Perona, “A bayesian hierarchical model for learning natural scene categories,” in 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05), vol. 2. IEEE, 2005, pp. 524–531.
- [66] Y.-G. Jiang, G. Ye, S.-F. Chang, D. Ellis, and A. C. Loui, “Consumer video understanding: A benchmark database and an evaluation of human and machine performance,” in Proceedings of the 1st ACM International Conference on Multimedia Retrieval, 2011, pp. 1–8.
- [67] H. Xiao, K. Rasul, and R. Vollgraf, “Fashion-mnist: a novel image dataset for benchmarking machine learning algorithms,” arXiv preprint arXiv:1708.07747, 2017.
- [68] J. Xu, Y. Ren, H. Tang, X. Pu, X. Zhu, M. Zeng, and L. He, “Multivae: Learning disentangled view-common and view-peculiar visual representations for multi-view clustering,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp. 9234–9243.
- [69] L. Fei-Fei, R. Fergus, and P. Perona, “Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories,” in 2004 conference on computer vision and pattern recognition workshop. IEEE, 2004, pp. 178–178.
- [70] D. Huang, C.-D. Wang, and J.-H. Lai, “Fast multi-view clustering via ensembles: Towards scalability, superiority, and simplicity,” IEEE Transactions on Knowledge and Data Engineering, vol. 35, no. 11, pp. 11 388–11 402, 2023.
- [71] J. Wang, C. Tang, Z. Wan, W. Zhang, K. Sun, and A. Y. Zomaya, “Efficient and effective one-step multiview clustering,” IEEE Transactions on Neural Networks and Learning Systems, vol. 35, no. 9, pp. 12 22412 235, 2024.
- [72] Y. Lu, Y. Lin, M. Yang, D. Peng, P. Hu, and X. Peng, “Decoupled contrastive multi-view clustering with high-order random walks,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, no. 13, 2024, pp. 14 193–14 201.
- [73] R. Li, C. Zhang, H. Fu, X. Peng, T. Zhou, and Q. Hu, “Reciprocal multilayer subspace learning for multi-view clustering,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019, pp. 8172–8180.
- [74] X. Peng, Z. Huang, J. Lv, H. Zhu, and J. T. Zhou, “Comic: Multi-view clustering without parameter selection,” in International conference on machine learning. PMLR, 2019, pp. 5092–5101.
- [75] J. Wen, Z. Zhang, Y. Xu, L. Zhang Bob, Fei, and G.-S. Xie, “Cdimcnet: Cognitive deep incomplete multi-view clustering network,” in IJCAI, 2020, pp. 3230–3236.
- [76] J. Wen, Z. Zhang, Z. Zhang, L. Zhu, L. Fei, B. Zhang, and Y. Xu, “Unified tensor framework for incomplete multi-view clustering and missingview inferring,” in Proceedings of the AAAI conference on artificial intelligence, vol. 35, no. 11, 2021, pp. 10 273–10 281.
- [77] T. Daniel, L. Sigurd, J. Robert, and K. Michael, “On the effects of selfsupervision and contrastive alignment in deep multi-view clustering,” in IEEE/CVF Conf. on Computer Vision and Pattern Recognition (CVPR), 2023, pp. 23 976–23 985.
- [78] Q. Zhang, L. Zhang, R. Song, R. Cong, Y. Liu, and W. Zhang, “Learning common semantics via optimal transport for contrastive multi-view clustering,” IEEE Transactions on Image Processing, 2024.
- [79] C. Tang, X. Liu, X. Zhu, E. Zhu, Z. Luo, L. Wang, and W. Gao, “Cgd: Multi-view clustering via cross-view graph diffusion,” in Proceedings of the AAAI conference on artificial intelligence, vol. 34, no. 04, 2020, pp. 5924–5931.
- [80] Z. Kang, W. Zhou, Z. Zhao, J. Shao, M. Han, and Z. Xu, “Large-scale multi-view subspace clustering in linear time,” in Proceedings of the AAAI conference on artificial intelligence, vol. 34, no. 04, 2020, pp. 4412–4419.
- [81] M. Sun, P. Zhang, S. Wang, S. Zhou, W. Tu, X. Liu, E. Zhu, and C. Wang, “Scalable multi-view subspace clustering with unified anchors,” in Proceedings of the 29th ACM international conference on multimedia, 2021, pp. 3528–3536.
- [82] S. Huang, I. W. Tsang, Z. Xu, and J. Lv, “Measuring diversity in graph learning: A unified framework for structured multi-view clustering,” IEEE Transactions on Knowledge and Data Engineering, vol. 34, no. 12, pp. 5869–5883, 2022.
- [83] J. Liu, X. Liu, Y. Yang, L. Liu, S. Wang, W. Liang, and J. Shi, “One-pass multi-view clustering for large-scale data,” in Proceedings of the IEEE/CVF international conference on computer vision, 2021, pp. 12 344–12 353.