论文阅读:Unsupervised Manifold Linearizing and Clustering

news2025/1/20 10:58:14

Author: Tianjiao Ding, Shengbang Tong, Kwan Ho Ryan Chan, Xili Dai, Yi Ma, Benjamin D. Haeffele

Abstract

在本文中,我们建议同时执行聚类并通过最大编码率降低来学习子空间联合表示。 对合成和现实数据集的实验表明,所提出的方法实现了与最先进的替代方法相当的聚类精度,同时更具可扩展性和学习几何意义的表示。

1. Introduction

  1. 我们建议同时对数据进行聚类并通过MCR 2 ^2 2 学习正交子空间并集表示,此时假定数据位于流形并集。 这是通过公式 (4) 实现的,该公式优化了表示和受最先进的子空间聚类结果启发的双随机成员公式。
  2. 我们给出了membership的参数化(图 2)。 此外,由于问题 (4) 是高度非凸的,我们给出了一个关于如何初始化变量和优化它的元算法(算法 1)。
  3. 我们在仿真和 CIFAR10 上进行实验,以证明所提出方法的一些理想特性。 我们进一步在 CIFAR100-20、CIFAR100-100 和 Tiny-ImageNet200 等具有大量类和不平衡类的数据集上进行实验,表明所提出的方法实现了最先进的性能。

1.1 与NMCE的区别

最近的NMCE也提出了我们研究的同一问题的解决方案,即对数据进行聚类并学习正交子空间表示的并集。特别地,NMCE在表示和成员矩阵上优化MCR2。在本文中,我们采用了类似的公式,使用双随机矩阵对点对affinity进行建模。除了有不同的概念公式和算法外,我们的公式在初始化方面更稳定,自然适用于分层聚类。

2. Problem Formulation

在这里,我们的方法基于MCR 2 ^2 2的原理,该原理旨在当给定membership y y y时的有监督情况下学习理想表示。然后,我们讨论了同时进行聚类和学习表示的挑战,并提出了我们的聚类目标来解决该问题。

2.1. Supervised Manifold Linearizing via MCR 2 ^2 2

令为 f θ : R D → S d − 1 f_\theta:\mathbb R^D\rightarrow \mathbb S^{d-1} fθ:RDSd1为由神经网络重参数化的featurizer,输出的特征为 Z θ : = [ z 1 , . . . , z n ] = [ f θ ( x 1 ) , . . . , f θ ( x n ) ] ∈ R d × n Z_\theta:=[z_1,...,z_n]=[f_\theta(x_1),...,f_\theta(x_n)]\in\mathbb R^{d\times n} Zθ:=[z1,...,zn]=[fθ(x1),...,fθ(xn)]Rd×n,MCR 2 ^2 2优化以下目标得到理想的表示:

max ⁡ θ R ( Z θ ; ϵ ) − R c ( Z θ , Π ; ϵ ) s . t .   Z θ ∈ S \max_\theta R(Z_\theta;\epsilon)-R_c(Z_\theta,\Pi;\epsilon)\quad s.t. \ Z_\theta\in\mathcal S θmaxR(Zθ;ϵ)Rc(Zθ,Π;ϵ)s.t. ZθS
R ( Z θ ; ϵ ) = log ⁡ det ⁡ ( I − d n ϵ 2 Z θ Z θ ⊤ ) R_(Z_\theta;\epsilon)=\log\det(I-\frac{d}{n\epsilon^2}Z_\theta Z_\theta^\top) R(Zθ;ϵ)=logdet(Inϵ2dZθZθ)
R c ( Z θ , Π ; ϵ ) = ∑ j = 1 k ⟨ Π j , 1 ⟩ n log ⁡ det ⁡ ( I + d ⟨ Π j , 1 ⟩ ϵ Z θ D i a g ( Π j ) Z θ ⊤ ) R_c(Z_\theta ,\Pi ;\epsilon)=\sum_{j=1}^k\frac{\langle\Pi_j,\textbf 1\rangle}{n}\log\det\left(I+\frac{d}{\langle\Pi_j,\textbf 1\rangle\epsilon}Z_\theta \mathrm{Diag}(\Pi_j)Z_\theta^\top \right) Rc(Zθ,Π;ϵ)=j=1knΠj,1logdet(I+Πj,1ϵdZθDiag(Πj)Zθ)

其中 S \mathcal S S表示被normalization layer进行 ℓ 2 \ell_2 2规范化空间。 Π ∈ R n × k \Pi\in\R^{n\times k} ΠRn×k为成员矩阵, Π j \Pi_j Πj为其第j列,因此 ⟨ Π j , 1 ⟩ \langle\Pi_j,\textbf 1\rangle Πj,1表示属于第j类的数据点数目, ϵ \epsilon ϵ为精度超参。

当正确的 Π \Pi Π给定时,优化MCR 2 ^2 2目标可以得到每个类簇均匀分布于一个子空间中(类内丰富)且不同类簇之间正交(类间可区分)。

2.2. Unsupervised Manifold Linearizing and Clustering via MCR 2 ^2 2

在这里,我们考虑将MCR 2 ^2 2用于无监督的情况。因此需要同时优化 θ \theta θ Π \Pi Π。然而,这通常是组合优化问题:其复杂性在呈 n n n k k k的指数级增长,并且不允许的平滑和渐进变化。此外,第二个挑战是鸡和蛋的问题:如果已经有了理想的表示,那么可以应用现有的子空间聚类方法来估计membership;同样,如果已经有membership,那么求解MCR 2 ^2 2将得到理想的表示。

双随机子空间聚类

在子空间聚类中,人们通常不会直接学习隶属关系的 n × k n\times k n×k矩阵。 相反,我们首先学习表示点对之间相似性的affinity矩阵,然后对学习到的内容应用谱聚类以获得最终聚类。 此外,对affinity进行双随机约束,抑制的错误连接以获得最先进的经验性能。受此启发,我们的约束写为:
Ω = { Π ∈ R n × n : Π ≥ 0 , Π 1 = Π ⊤ 1 } \Omega = \{\Pi\in\R^{n\times n}:\Pi\geq0,\Pi\textbf 1=\Pi^\top\textbf 1\} Ω={ΠRn×n:Π0,Π1=Π1}
然而,仅此约束不足以实现强大的聚类性能:仅考虑关于 $\Pi$ 的优化,并注意目标关于$\Pi$是强凸的。 由于我们最大化关于凸约束的凸函数,最优的 Π \Pi Π将位于 Ω \Omega Ω的极值点,对于双随机矩阵是置换矩阵。 这对于聚类来说并不理想,因为它意味着每个点都被分配到它自己独特的类,并且没有动机将点合并到更大的类簇中。 为了解决这个问题,我们添加 ℓ 2 \ell_2 2正则化鼓励 Π \Pi Π偏向均匀矩阵 1 n 1 1 ⊤ \frac{1}{n}\bf 11^\top n111,通过调整正则化项的权重我们还可以调整 Π \Pi Π的稀疏度。 这得到了我们最终提出的MLC:
在这里插入图片描述
Π θ \Pi_\theta Πθ现在同样由神经网络重参数化。我们首先展示该优化目标的几个优点:

  1. 参数化为神经网络使用固定的参数,每个mini-batch仅需占用batch size的内存和计算复杂度,而维护自由变量需要占用 n × n n\times n n×n的内存。
  2. 与NMCE相比,NMCE直接参数化membership,即对该矩阵 Π n × k \Pi_{n\times k} Πn×k建模。 Π n × k \Pi_{n\times k} Πn×k的初始化是任意的,与初始化表示中的结构无关, Π n × k \Pi_{n\times k} Πn×k的错误初始化可能导致来自不同真实簇的特征被压缩,因此NMCE不得不分开训练并需要三个阶段。 另一方面,可以使用来自自监督初始化特征 Z的结构确定地初始化双重随机membership。此外,有趣的是,我们的优化目标允许解释将每个点与其相邻点线性化。

2.3 Algorithms

在这里插入图片描述

参数化 Z θ Z_\theta Zθ

我们附加了一些具有非线性的仿射层作为表示头,以转换为 R d \R^{d} Rd的输出,然后是一个normalization层以满足 Π ∈ S d − 1 \Pi\in \mathcal S_{d-1} ΠSd1约束。

参数化 Π θ \Pi_\theta Πθ

在子空间聚类中,给定数据 X 的 Π \Pi Π通常采用 g ( X ) ⊤ g ( X ) g(X)^\top g(X) g(X)g(X) 的形式, g g g为某种线性变换。例如在内积核函数中, g = I g=I g=I ;最小二乘回归中 g = ( I + λ X ⊤ X ) − 1 / 2 g=(I+\lambda X^\top X)^{-1/2} g=(I+λXX)1/2。 这促使我们通过神经网络对 g g g进行参数化,并将 C θ ⊤ C θ ∈ R n × n C_\theta^\top C_\theta\in\R^{n\times n} CθCθRn×n 作为membership,其中 C θ = g ( X ) C_\theta=g(X) Cθ=g(X)就是图中的cluster head。 然而,这样的 n × n n\times n n×n矩阵通常不是双随机的,因此我们使用了Sinkhorn投影层以获得最终结果 P Ω , η ( C θ ⊤ C θ ) ∈ Ω P_{\Omega,\eta}\left(C_\theta^\top C_\theta\right)\in\Omega PΩ,η(CθCθ)Ω

[1] A unified framework for implicit sinkhorn differentiation. In IEEE/CVF Conference on Computer Vision and Pattern Recognition 2022.
[2] Transformers with doubly stochastic attention. In International Conference on Artificial Intelligence and Statistics, Oct. 2021.

初始化 Z θ Z_\theta Zθ:通过自监督表示学习

正确初始化 Z Z Z Π \Pi Π对收敛到良好的局部最优非常重要。 另一方面,随机初始化的特征通常远非理想, 因此我们采用和NMCE一样的自监督策略,即要求增广样本之间相互接近:
在这里插入图片描述

初始化 Π θ \Pi_\theta Πθ

在上述自监督特征初始化之后, Z Z Z已经有了一些我们可以利用的结构。因此,我们建议将 Π θ \Pi_\theta Πθ初始化为 P Ω , η ( Z θ ⊤ Z θ ) ∈ Ω P_{\Omega,\eta}\left(Z_\theta^\top Z_\theta\right)\in\Omega PΩ,η(ZθZθ)Ω,这很容易通过在前者的自监督初始化后将 Z θ Z_\theta Zθ的参数从复制到Cluster head C θ C_\theta Cθ来实现。

最终的算法1:
在这里插入图片描述

所以MLC的cluster head不像NMCE那样能直接展示所属关系,而需要谱聚类这样不稳定不可微的方法。不过NMCE的cluster head也有自己的问题,比如merge acc和标准acc差距过大。

2.4 与子空间聚类的比较

为了证明MLC对样本进行聚类和流形线性化的能力,我们在CIFAR10上进行了实验。子空间聚类方法主要依赖于数据接近线性子空间并集的假设,而许多真实世界的数据集可能无法满足这一假设。为了证明这一点,我们还将所提出的方法与子空间聚类方法进行了比较。将子空间聚类直接应用于CIFAR10的自监督特征将产生较低的聚类精度。相反,MLC能够实现高的聚类精度,并且产生正交子空间表示的并集,在该并集上,子空间聚类方法也可以实现高精度。

3 Experiments

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/434688.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

limit、排序、分组单表查询(三)MySQL数据库(头歌实践教学平台)

文章目的初衷是希望学习笔记分享给更多的伙伴,并无盈利目的,尊重版权,如有侵犯,请官方工作人员联系博主谢谢。 目录 第1关:对查询结果进行排序 任务描述 相关知识 对查询结果排序 指定排序方向 编程要求 第2关&a…

浏览器架构和事件循环

浏览器架构 早期浏览器【单进程多线程】 Page Thread 页面渲染,负责执行js,plugin,drawNetWork Thread 网络请求其余线程 file, storage缺点:只要其中一个线程崩溃,页面就会崩溃。 现代浏览器架构 多进程的浏览器,浏览器的每一个…

几种常见的激活函数

文章目录 常见的激活函数介绍Sigmoid函数ReLU函数LeakyReLU函数Tanh函数Softmax函数总结 常见的激活函数介绍 激活函数是神经网络中的重要组成部分,它决定了神经元的输出。在神经网络的前向传播中,输入数据被传递给神经元,经过加权和和激活函…

Unity自动化打包(1)

一 安装Jenkins https://www.jenkins.io/download/ 官网 1) 使用 brew 安装 2) 安装完成后一般都会遇到问题 我用的是jenkins-lts 稳定版 解决办法 删除掉对应的文件夹 1 rm -rf /usr/local/Homebrew/Library/Taps/homebrew/homebrew-services 2…

kafka延时队列内部应用简介

kafka延时队列_悠然予夏的博客-CSDN博客 两个follower副本都已经拉取到了leader副本的最新位置,此时又向leader副本发送拉取请求,而leader副本并没有新的消息写入,那么此时leader副本该如何处理呢?可以直接返回空的拉取结…

[ 高并发]Java高并发编程系列第二篇--线程同步

并发,听起来高大上的一个词汇,在身处于互联网潮的社会大趋势下,高并发赋予了更多的传奇色彩.首先,我们可以看到很多招聘中,会提到有高并发项目者优先.高并发,意味着,你的前雇主,有很大的业务层面的需求,而且也能怎么你在整个项目中的一个处理逻辑的能力体现.那么,你真的知道什么…

ThreadLocal 内存泄露的原因及处理方式

1、ThreadLocal 使用原理 ThreadLocal的主要用途是实现线程间变量的隔离,表面上他们使用的是同一个ThreadLocal, 但是实际上使用的值value却是自己独有的一份。用一图直接表示threadlocal 的使用方式。 从图中我们可以当线程使用threadlocal 时&#xf…

CRC校验原理及其使用

目录 何为CRC 为什么需要校验 为什么是CRC CRC的缺点 目录 何为CRC 为什么需要校验 为什么是CRC CRC的缺点 如何进行CRC校验 校验标准式是什么玩意? 常见的CRC校验 CRC校验计算过程 CRC校验代码参考 代码解读 生成CRC8校验表的代码 CRC检验网站 如何…

GEE:使用 VCT(Vegetation Change Tracker)算法森林进行时序变化检测分析

作者: _养乐多_ 本文将介绍一段 Google Earth Engine 的代码,该代码用于进行时序变化检测分析,即使用 VCT(Vegetation Change Tracker)算法对某一地区的多年影像进行分析,得出每一年的变化程度,并输出一个 VCT 矩阵,同时还可根据矩阵得到每一年的变化遥感图。可以分析…

时下热门话题:ChatGPT能否取代人类?

时下热门话题:ChatGPT能否取代人类? 2022年11月底,人工智能对话聊天机器人ChatGPT推出,迅速在社交媒体上走红,短短5天,注册用户数就超过100万。2023年1月末,ChatGPT的月活用户已突破1亿&#x…

迭代器设计模式(Iterator Design Pattern)[论点:概念、组成角色、相关图示、示例代码、框架中的运用、适用场景]

概念 迭代器设计模式(Iterator Design Pattern)是一种行为型设计模式,它提供了一种方法来顺序访问一个聚合对象(如集合)的元素,而不需要暴露该对象的底层表示。迭代器模式可以帮助我们在不关心底层数据结构…

红酒分类案例中使用分箱处理

红酒分类案例中使用分箱处理 描述 在建立分类模型时,通常需要对连续特征进行离散化(Discretization)处理 ,特征离散化后,模型更加稳定,降低了过拟合风险。离散化也叫分箱(binning),是指把连续的特征值划分为离散的特…

Binder Driver 初探从驱动层角度来看

1:驱动概述 1.1基本简介 Binder 驱动是 Android 专用的,但底层的驱动架构与Linux 驱动一样。binder 驱动在以 misc 设备进行注册,作为虚拟字符设备,没有直接操作硬件,只是对设备内存的处理。主要是驱动设备的初始化(b…

如何刻录光盘文件

常识补充刻录机简介光盘刻录机是一种数据写入设备,利用激光将数据写到空光盘上从而实现数据的储存。其写入过程可以看做普通光驱读取光盘的逆过程。基本原理刻入数据时,利用高功率的激光束反射到盘片,使盘片上发生变化,模拟出二进…

计算机网络常见协议

文章目录 计算机网络TCP/IP协议TCP协议的三次握手和四次挥手TCP连接建立过程TCP连接断开过程为什么要三次握手?为什么要四次挥手? UDP协议HTTP协议 计算机网络 学习计算机网络,来记录一下。 TCP/IP协议 TCP/IP协议是Internet最基本的协议、…

报错-crontab -e 定时任务执行失败排查

使用 crontab -e 定时启动 jar 包服务失败,排查过程如下: 1、查看 crontab 服务 crontab -l陈列出了待执行任务列表,crontab 正常。 2、检查脚本 单独执行脚本没有问题,脚本内容为检查线程,杀死线程,重…

Python每日一练(20230419)

目录 1. N皇后 II 🌟🌟🌟 2. 迷宫问题(递归) 🌟🌟🌟 3. 体操比赛成绩统计 ※ 🌟 每日一练刷题专栏 🌟 Golang每日一练 专栏 Python每日一练 专栏 C/C每日一练 专栏 Java每…

分布式ID的生成方法

问题的提出 如今随着互联网的发展,数据的量级也是呈指数的增长,从GB到TB到PB.对数据的各种操作也是愈 加的困难,如何解决这个问题呢?此时就需要做数据库集群,为了提高查询性能将一一个数据库的数据分散 到不同的数据库中存储&am…

JVM垃圾回收与调优

文章目录 1、如何判断对象可以回收1.1、 引用计数法1.2、可达性分析法1.3、五种引用类型1.3.1 、强引用1.3.2 、软、弱引用1.3.3 、虚引用、终结器引用1.3.4、 终结器引用1.3.5 、总结 2. 垃圾清除算法2.1、标记清除2.2 、标记整理2.3、 复制 3. 分代垃圾回收3.1 、新生代、老年…

Excel技能之时间,士别三日让boss刮目相看

爱因斯坦说:“复利是世界第八大奇迹。”复利离不开时间,你也离不开时间。时间是如此重要,对每个人都是公平的。 曾经的你,看日历,数手指才能算清楚日期,不懂时间函数,太烦躁了。以下用真实的使…