论文阅读:Dual-disentangled Deep Multiple Clustering

news2025/1/10 21:33:24

目录

摘要

引言

模型

实验

数据集

实验结果

结论


摘要

多重聚类近年来引起了广泛关注,因为它能够从不同的角度揭示数据的多种潜在结构。大多数多重聚类方法通常先通过控制特征之间的差异性来提取特征表示,然后使用传统的聚类方法(如 k-means)实现最终的多重聚类结果。然而,所学习的特征表示往往与实现明显聚类的最终目标相关性较弱。此外,这些特征通常不是专门为聚类目的而明确学习的。

为此,本文提出了一种新颖的双重解耦深度多重聚类方法(Dual-Disentangled Deep Multiple Clustering,简称 DDMC),通过学习解耦表示来解决上述问题。具体而言,DDMC 基于变分期望最大化(Variational Expectation-Maximization, EM)框架实现。在 E 步骤中,解耦学习模块利用粗粒度和细粒度的解耦表示,从数据中提取更加多样化的潜在因子。在 M 步骤中,聚类分配模块采用聚类目标函数增强聚类输出的效果。

我们的大量实验表明,DDMC 在七个常用任务中均显著优于当前最先进的方法。

引言

聚类是一种基于相似性对数据点进行分组的技术,由于大量无标签数据的日益普及,该领域得到了广泛研究。传统方法如 k-means、谱聚类和高斯混合模型依赖通用的手工特征,但这些特征并不总是适合特定任务。近年来,利用深度神经网络(DNN)的深度聚类算法显著提升了性能。然而,大多数算法仅生成单一的数据划分,而多重聚类算法旨在为不同应用生成多个划分,从而展现从数据集中发现多个不同聚类的能力(如图1所示)。

现有的多重聚类方法大致分为浅层模型和深度模型。对于浅层模型,COALA 基于已建立的聚类将对象作为约束以生成替代聚类;其他方法则依赖不同的特征子空间,例如,Hu 等人通过最大化不同特征子空间中的拉普拉斯特征值间隔发现多个聚类。近期研究中,研究人员开始使用深度学习生成多重聚类,例如,ENRC 结合自编码器和聚类目标函数生成替代聚类;iMClusts 利用深度自编码器的表示能力和多头注意力生成多个聚类;AugDMC 则通过数据增强学习用于多重聚类的不同表示。

尽管深度多重聚类方法取得了显著成果,但仍面临两大挑战。首先,学习到的表示与生成明显不同的聚类目标相关性较弱。这是因为聚类的多样性通常通过限制表示之间的重叠来间接实现,但这并不能确保特征表示的差异性与聚类多样性直接相关,可能导致冗余聚类。其次,大多数现有方法仅将学习到的表示输入传统聚类算法(如 k-means)以获得多个聚类,然而这些表示通常是在未考虑聚类目标的情况下学习的,从而削弱了最终的聚类结果。尽管一些方法(如 ENRC)试图优化聚类性能,但仍未取得令人满意的结果。

幸运的是,解耦表示学习致力于学习分离和揭示数据中潜在因子的因子化表示,可以有效支持多重聚类的多样性学习。例如,在图1中,数据对象至少具有两个不同的潜在因子(形状和颜色)。解耦表示学习能够将这些因子分离并编码为表示空间中独立且不同的潜在变量,从而使形状/颜色的潜在变量仅随着对象形状/颜色的变化而变化,而相对于其他因子保持不变。尽管解耦表示学习已取得显著成功,但目前尚无研究将其用于实现多重聚类。

然而,将解耦表示学习应用于多重聚类并非易事。首先,解耦表示学习尽管成功,但最初并非为多重聚类设计。因此,设计一个专门用于多重聚类的解耦表示学习框架至关重要。其次,需要确保聚类目标的有效性。现有的深度多重聚类方法主要强调在聚类级别捕获特征,而忽视了每个聚类内部的聚类级别有效性。

为此,本文提出了一种新颖的双重解耦深度多重聚类(Dual-Disentangled Deep Multiple Clustering,DDMC)方法,能够通过端到端的方法同时确保聚类级别和聚类内部级别的性能。具体而言,我们的解耦学习模块利用粗粒度和细粒度的解耦表示来学习更加多样的解耦表示,同时,我们的聚类分配模块旨在提升方法在聚类内部级别性能方面的有效性。我们将方法构建为变分期望最大化(EM)框架。在 E 步骤中,我们通过解码独特的解耦表示来揭示潜在的多重聚类,同时固定聚类分配组件。在 M 步骤中,利用 E 步骤中获得的解耦表示进行聚类分配学习。

本文的贡献可总结如下:

  • 提出了一种新颖的双重解耦深度多重聚类方法(DDMC),首次将解耦学习引入多重聚类。
  • 方法基于变分 EM 框架实现。在 E 步骤中,学习解耦表示以实现多重聚类;在 M 步骤中,优化聚类分配以增强聚类内部级别的性能。
  • 在七个常用任务上进行了广泛实验,结果证明了 DDMC 的优越性。

模型

为了同时学习用于不同聚类的表示并实现良好的聚类级别性能,我们在变分 EM 框架内结合了解耦表示学习和聚类分配学习,如图2所示。具体来说,给定一张图像 xi∈{xi},解耦多重聚类的目标是得到 K 个不同的图像表示 {zi1,…,ziK},通过实现粗粒度和细粒度的解耦来描述图像的各种特征。通过这种方式,这些图像可以被划分为 M 个不同的聚类,每个聚类反映原始图像的一个独特方面,其中 K 可以大于 M。这是因为现实世界中的数据可能包含的方面数量多于所需的聚类数量,而需要将所有方面解耦以获得所需的表示。

一张图像可能包含多个不同的方面,每个方面可以对应一个聚类视角。为了有效地揭示这些潜在特征,我们致力于通过数据增强实现粗粒度解耦。通过采用多种增强方法生成变体图像,每个变体图像反映原始图像的一个不同特征,从而突显其固有的多样性。

实验

数据集

实验结果

结论

在本文中,我们提出了一种新颖的双解耦深度多重聚类方法(DDMC),利用解耦表示实现多重聚类。DDMC通过粗粒度和细粒度解耦表示揭示并分离数据中的潜在因子。此外,它还引入了聚类分配模块,以进一步增强多重聚类在聚类级别性能上的有效性和鲁棒性。我们将该方法表述为一种变分期望最大化(Expectation-Maximization,EM)框架,并推导了细粒度解耦的证据下界(Evidence Lower Bound, ELBO)。

在七个基准数据集上的大量实验表明,DDMC在多重聚类性能以及每个单独聚类性能方面均达到了当前最先进水平。未来工作中,我们计划将该方法扩展到更复杂的数据类型和场景,例如多模态数据。此外,与基线方法相比,尽管性能得到了提升,所提方法的计算成本较高,因此提高效率将是另一个值得研究的方向。


模型的具体代码将在实验复现博文中详细描述。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2248573.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SQL 复杂查询

目录 复杂查询 一、目的和要求 二、实验内容 (1)查询出所有水果产品的类别及详情。 查询出编号为“00000001”的消费者用户的姓名及其所下订单。(分别采用子查询和连接方式实现) 查询出每个订单的消费者姓名及联系方式。 在…

thread_id_key != 0x7777(`fibers` 包与 Node.js 16 及以上版本存在兼容性问题)

文章目录 fibers4.0.3 与 node-v16.13.2-win-x64 的兼容性1. Node.js 版本兼容性2. 特定包版本 (fibers4.0.3)3. 解决方案和替代方案 结论解决方案 运行yarn serve 启动项目,就会弹出上述错误。 fibers4.0.3 与 node-v16.13.2-win-x64 的兼容性 要判断 fibers4.0.3…

数据结构 (6)栈的应用举例

1. 递归调用 递归函数在执行时,会将每一层的函数调用信息(包括局部变量、参数和返回地址)存储在栈中。当递归函数返回时,这些信息会从栈中弹出,以便恢复之前的执行状态。栈的后进先出(LIFO)特性…

网络安全在数字时代保护库存数据中的作用

如今,通过软件管理库存已成为一种标准做法。企业使用数字工具来跟踪库存水平、管理供应链和规划财务。 然而,技术的便利性也带来了网络威胁的风险。黑客将库存数据视为有价值的目标。保护这些数据不仅重要,而且必不可少。 了解网络安全及其…

php常用伪协议整理

前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 本文整理php常见的伪协议 php伪协议介绍 直观点,就是php可以识别的协议。 类似于我们访问网站的http协议,我们用浏览器访问我们自己本地文件的file协议等。 php可以识别这些协议&#xf…

【软件入门】Git快速入门

Git快速入门 文章目录 Git快速入门0.前言1.安装和配置2.新建版本库2.1.本地创建2.2.云端下载 3.版本管理3.1.添加和提交文件3.2.回退版本3.2.1.soft模式3.2.2.mixed模式3.2.3.hard模式3.2.4.使用场景 3.3.查看版本差异3.4.忽略文件 4.云端配置4.1.Github4.1.1.SSH配置4.1.2.关联…

【SpringBoot】28 API接口防刷(Redis + 拦截器)

Gitee仓库 https://gitee.com/Lin_DH/system 介绍 常用的 API 安全措施包括:防火墙、验证码、鉴权、IP限制、数据加密、限流、监控、网关等,以确保接口的安全性。 常见措施 1)防火墙 防火墙是网络安全中最基本的安全设备之一&#xff0c…

零基础学安全--shell脚本学习(1)脚本创建执行及变量使用

目录 学习连接 什么是shell shell的分类 查看当前系统支持shell 学习前提 开始学习 第一种执行脚本方法 ​编辑 第二种执行脚本方法 第三种执行脚本方法 变量声明和定义 ​编辑 查看变量 删除变量 学习连接 声明! 学习视频来自B站up主 **泷羽sec** 有兴趣…

基于FPGA的FM调制(载波频率、频偏、峰值、DAC输出)-带仿真文件-上板验证正确

基于FPGA的FM调制-带仿真文件-上板验证正确 前言一、FM调制储备知识载波频率频偏峰值个人理解 二、代码分析1.模块分析2.波形分析 总结 前言 FM、AM等调制是学习FPGA信号处理一个比较好的小项目,通过学习FM调制过程熟悉信号处理的一个简单流程,进而熟悉…

“AI玩手机”原理揭秘:大模型驱动的移动端GUI智能体

作者|郭源 前言 在后LLM时代,随着大语言模型和多模态大模型技术的日益成熟,AI技术的实际应用及其社会价值愈发受到重视。AI智能体(AI Agent)技术通过集成行为规划、记忆存储、工具调用等机制,为大模型装上…

路由策略与路由控制实验

AR1、AR2、AR3在互联接口、Loopback0接口上激活OSPF。AR3、AR4属于IS-IS Area 49.0001,这两者都是Level-1路由器,AR3、AR4的系统ID采用0000.0000.000x格式,其中x为设备编号 AR1上存在三个业务网段A、B、C(分别用Loopback1、2、3接…

uniapp开发微信小程序笔记8-uniapp使用vant框架

前言:其实用uni-app开发微信小程序的首选不应该是vant,因为vant没有专门给uni-app设置专栏,可以看到目前Vant 官方提供了 Vue 2 版本、Vue 3 版本和微信小程序版本,并由社区团队维护 React 版本和支付宝小程序版本。 但是vant的优…

Qt-系统相关(1)事件文件

Qt事件 事件介绍 事件是应⽤程序内部或者外部产⽣的事情或者动作的统称。在 Qt 中使⽤⼀个对象来表⽰⼀个事件。所有的 Qt 事件均继承于抽象类 QEvent。事件是由系统或者 Qt 平台本⾝在不同的时刻发出的。当⽤⼾按下⿏标、敲下键盘,或者是窗⼝需要重新绘制的时候&a…

HarmonyOS4+NEXT星河版入门与项目实战(20)------状态管理@ObjectLink @Observed

文章目录 1、用法图解2、案例实现1、任务类改造2、参数改造变量3、完整代码4、运行效果4、总结1、用法图解 2、案例实现 上一节的案例中,一直有一个功能没有生效,就是任务完成后对应的任务行变灰,任务字体出现中划线删除的效果。而该功能一直不生效的原因就是要改变的数据值…

【小白学机器学习36】关于独立概率,联合概率,交叉概率,交叉概率和,总概率等 概念辨析的例子

目录 1 先说结论 2 联合概率 3 边缘概率 4 (行/列)边缘概率的和 总概率1 5 条件概率 5.1 条件概率的除法公式 5.2 条件概率和联合概率区别 1 先说结论 关于独立概率,联合概率,交叉概率,交叉概率和,总概率 类型含义 …

TCP IP协议和网络安全

传输层的两个协议: 可靠传输 TCP 分段传输 建立对话(消耗系统资源) 丢失重传netstat -n 不可靠传输 UDP 一个数据包就能表达完整的意思或屏幕广播 应用层协议(默认端口): httpTCP80 网页 ftpTCP21验证用户身…

redmi 12c 刷机

刷机历程 一个多月前网购了redmi 12c这款手机, 价格只有550,用来搞机再适合不过了, 拆快递后就开始倒腾,网上有人说需要等7天才能解锁,我绑定了账号过了几天又忍不住倒腾,最后发现这块手机不用等7天解锁成功了,开始我为了获取root权限, 刷入了很火的magisk,但是某一天仍然发现/…

分布式在线评测系统

OnlineJudge 前言所用技术开发环境 1. 需求分析2. 项目宏观结构3. compile_server服务设计3.1 compiler服务设计3.2 runner服务设计3.3 compile_run3.4 compile_server.cpp 4. oj_server服务设计4.1 model设计4.2 view设计4.3 control设计4.3.1 获取题目列表功能4.3.2 获取单个…

政安晨【零基础玩转各类开源AI项目】探索Cursor-AI Coder的应用实例

目录 Cusor的主要特点 Cusor实操 政安晨的个人主页:政安晨 欢迎 👍点赞✍评论⭐收藏 希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正! Cursor 是 Visual Studio Code 的一个分支。这使我们能够…

第三届航空航天与控制工程国际 (ICoACE 2024)

重要信息 会议官网:www.icoace.com 线下召开:2024年11月29日-12月1日 会议地点:陕西西安理工大学金花校区 (西安市金花南路5号) 大会简介 2024年第三届航空航天与控制工程国际学术会议(ICoACE 2024&a…