机器学习算法:UMAP 深入理解

news2025/1/11 18:40:33

导读

降维是机器学习从业者可视化和理解大型高维数据集的常用方法。最广泛使用的可视化技术之一是 t-SNE,但它的性能受到数据集规模的影响,并且正确使用它可能需要一定学习成本。

UMAP 是 McInnes 等人开发的新算法。与t-SNE相比,它具有许多优势,最显着的是提高了计算速度并更好地保留了数据的全局结构。在本文中,我们将了解UMAP背后的理论,以便更好地了解该算法的工作原理、如何正确有效地使用它,以及与t-SNE进行比较,它的性能如何。

UMAP projection

那么,UMAP带来了什么?最重要的是,UMAP速度很快,在数据集大小和维度方面都可以很好地扩展。例如,UMAP可以在不到 3 分钟的时间内降维 784 维、70,000 点的 MNIST 数据集,而 scikit-learnt-SNE需要 45 分钟。此外,UMAP倾向于更好地保留数据的全局结构。这可以归因于UMAP强大的理论基础,使得算法能够更好地在强调局部结构与全局结构之间取得平衡。

1. UMAP vs t-SNE

在深入探讨UMAP背后的理论之前,让我们看一下它在现实世界的高维数据上的表现。下面的图片显示了使用UMAPt-SNE将 784 维 Fashion MNIST 数据集的子集降维到 3 维上的情况。请注意每个不同类别的聚类程度(局部结构),而相似的类别(例如凉鞋、运动鞋和踝靴)倾向于聚集(全局结构)。

Dimensionality reduction

虽然这两种算法都表现出强大的局部聚类,并将相似的类别聚集在一起,但UMAP 更清楚地将这些相似类别的组彼此分开。值得注意的是,计算时间,UMAP需要 4 分钟,而多核t-SNE需要 27 分钟。

2. 理论

UMAP的核心与t-SNE非常相似,两者都使用图形布局(graph layout)算法在低维空间中排列数据。简单来说,UMAP首先构建数据的高维图表示,然后优化低维图以使其在结构上尽可能相似。虽然UMAP用于构建高维图的数学是复杂的,但背后的想法是非常简单的。

为了构建初始的高维图,UMAP构建了一个叫做fuzzy simplicial complex的东西。这实际上只是加权图的表示,边权重表示两个点连接的可能性。为了确定连通性,UMAP从每个点向外扩展一个半径,当这些半径重叠时连接点。这个半径的选择很关键:太小会导致小而孤立的集群,太大会将所有东西全连接在一起。UMAP根据到每个点的第 n 个最近邻点的距离在本地选择半径来克服这个困难。UMAP然后通过随着半径的增长降低连接的可能性来使图形fuzzy。最后,通过规定每个点必须至少连接到其最近的邻居,UMAP确保局部结构与全局结构保持平衡。

radius

一旦构建了高维图,UMAP就会优化低维模拟的布局,使其尽可能相似。这个过程与t-SNE基本相同,但使用了一些技巧来加速该过程。

有效使用UMAP的关键在于理解初始高维图的构造。尽管该过程背后的想法非常直观,但该算法依赖于一些高级数学来为该图实际表示数据的程度提供强有力的理论保证。有兴趣的读者可以在:深入了解UMAP理论。

3. 参数

通过理解UMAP背后的理论后,理解算法的参数变得容易得多,尤其是与t-SNE中的perplexity参数相比。我们将考虑两个最常用的参数:n_neighborsmin_dist,它们有效地用于控制最终降维结果中局部和全局结构之间的平衡。

parameters

  • n_neighbors

最重要的参数是n_neighbors,用于构造初始高维图的近似最近邻的数量。它有效地控制UMAP如何平衡局部结构与全局结构 :较小的值将通过限制在分析高维数据时考虑的相邻点的数量来推动UMAP更多地关注局部结构,而较大的值将推动UMAP代表全局结构,同时失去了细节。

  • min_dist

我们将研究的第二个参数是 min_dist,即低维空间中点之间的最小距离。此参数控制UMAP将点聚集在一起的紧密程度,较低的值会导致嵌入更紧密。较大的 min_dist值将使UMAP将点更松散地打包在一起,而是专注于保留广泛的拓扑结构。

下面的可视化,探索了UMAP参数对 3D 数据的 2D 投影的影响。通过更改 n_neighborsmin_dist参数,您可以探索它们对生成投影的影响。

dimensions

虽然UMAP的大多数应用都涉及高维数据的投影,但 3D 的投影可以作为一个有用的类比来理解UMAP如何根据其参数优先考虑全局结构和局部结构。随着n_neighbors的增加,UMAP在构建高维数据的图表示时连接的相邻点越来越多,从而导致更准确地反映数据的全局结构的投影。在非常低的值下,任何全局结构的信息都几乎完全丢失。随着min_dist参数的增加,UMAP倾向于“散开”投影点,导致数据的聚类减少,对全局结构的重视程度降低。

4. UMAP vs t-SNE 2.0

t-SNE相比,UMAP的输出最大的区别在于局部结构和全局结构之间的平衡,UMAP 通常更擅长在最终投影中保留全局结构。这意味着簇间的关系可能比 t-SNE更有意义。重要的是,因为UMAPt-SNE在投影到低维时都必然会扭曲数据的高维形状,所以任何给定的轴或较低维度的距离仍然不能用 PCA 等技术直接解释。

comparison

回到 3D 猛犸象的例子,我们可以很容易地看到两种算法输出之间的一些巨大差异。对于较低的perplexity参数值,t-SNE倾向于“展开”投影数据,而很少保留全局结构。相比之下,UMAP倾向于将高维结构的相邻部分在低维中组合在一起,这反映了全局结构。注意,使用t-SNE需要极高的perplexity(~1000)才能开始看到全局结构,并且在如此大的perplexity值下,计算时间显著延长。同样值得注意的是,每次运行的t-SNE投影差异很大,不同的高维数据被投影到不同的位置。虽然UMAP也是一种随机算法,但令人惊讶的是,每次运行和使用不同参数时,生成的投影是十分相似的。

值得注意的是,t-SNEUMAP在早期图中的玩具示例上的表现非常相似,除了下面的示例例外。有趣的是,UMAP无法分离两个嵌套集群,尤其是在高维时。

toy datasets

该算法未能处理这种包含的情况可能是由于UMAP在初始图形构造中使用的是局部距离。由于高维点之间的距离往往非常相似(维度灾难),UMAP似乎将内部集群的外部点与外部集群的外部点连接起来。这实际上将两个集群混合在一起。

5. 理解

虽然UMAP提供了许多优于t-SNE的优势,但它绝不是灵丹妙药,阅读和理解其结果需要小心谨慎。

  1. 超参数真的很重要

选择好的超参数并不容易,并且取决于数据和目标。这是UMAP速度的一大优势所在,通过使用各种超参数多次运行UMAP,您可以更好地了解投影如何受其参数影响。

  1. 簇大小没有任何意义

就像在t-SNE中一样,簇相对于彼此的大小本质上是没有意义的。这是因为UMAP使用局部距离概念来构建其高维图形表示。

  1. 集群之间的距离可能没有任何意义

同样,集群之间的距离可能毫无意义。虽然确实在UMAP中更好地保留了集群的全局位置,但它们之间的距离没有意义。同样,这是由于在构建图形时使用了局部距离。

  1. 随机噪声并不总是看起来随机

尤其是在n_neighbors值较低时,可以观察到虚假聚类。

  1. 需要多次可视化结果

由于UMAP算法是随机的,因此使用相同超参数的不同运行可能会产生不同的结果。此外,由于超参数的选择非常重要,因此使用各种超参数多次运行投影可能非常有用。

总结

UMAP是数据科学家武器库中非常强大的工具,与t-SNE相比具有许多优势。虽然UMAPt-SNE 的输出有些相似,但速度的提高、全局结构的更好保存和更易于理解的参数使UMAP成为可视化高维数据的更有效工具。最后,重要的是要记住,没有任何降维技术是完美的,UMAP也不例外。然而,通过建立对算法工作原理的直观理解以及如何调整其参数,我们可以更有效地使用这个强大的工具来可视化和理解大型高维数据集。

本文由mdnice多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/621559.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

4090 深度学习性能实测

测试结果 测试平台: 显卡:影驰金属大师4090 cpu:i7 12700k 测试方法 李沐老师micro-benchmarkings B站视频 测试 1.矩阵计算速度 transformer的核心操作是矩阵乘法,通过测试矩阵计算的tflops可以得到硬件的计算上限。 ma…

操作系统实验一到实验九合集(哈工大李治军)

操作系统实验 作者寄语 操作系统实验的学习是一个循序渐进的过程,初次看linux-0.11中的代码,看着满屏的汇编语言,确实头疼。但通过学习赵炯博士的Linux内核0.11完全注释,结合着王爽老师的汇编语言一书,我逐渐理解每段…

jmeter压测数据库

1.查询数据库对应的URL可点击jmeter操作指南书的图表,找到对应的数据库url即可 2.为避免在连接数据库时会报编码/时区上的错误,可以在URL后面添加两个参数 ?useUnicode true //反正乱码 &characterEncodingUTF-8 //国际编码 &serverTimezoneUT…

非常全面的数字人解决方案(含源码)

github TheRamU/Fay: 语音互动,直播自动带货 虚拟数字人 (github.com) gitee fay: 这是一个数字人项目,包含python内核及ue数字人模型,可以用于做数字助理及自动直播,又或者作为你的应用入口也很帅 (gitee.com) 2022.10.27 补…

I/O框架知识

I/0框架 什么是流&#xff1f; 概念&#xff1a;内存与存储设备之间传输数据的通道 流的分类 按方向&#xff08;重点&#xff09; 输入流: 将<存储设备>的内容读入到<内存>中&#xff0c; 输出流&#xff1a;将<内存>中的内容写入到<存储设备>中 …

socket编程之connect()

5 connect() connect&#xff08;&#xff09; 系统调用将文件描述符 sockfd 引用的套接字连接到 addr 指定的地址。 2.1 包含头文件 #include <sys/types.h> #include <sys/socket.h>2.2 函数主体 int connect(int sockfd, const struct sockaddr *ad…

chatgpt赋能python:Python平铺图片的SEO优化

Python平铺图片的SEO优化 在网站设计中&#xff0c;图片是一个重要的元素。但是&#xff0c;使用大量的图片会导致网站加载速度变慢&#xff0c;从而影响用户的体验。为了解决这个问题&#xff0c;我们可以使用平铺图片&#xff0c;这样可以减小图片的大小&#xff0c;提高网站…

腾讯云国际版注册流程详解

作为国内三大云厂商之一的腾讯云&#xff0c;相信很多人都不会陌生&#xff0c;我们使用的微信、QQ等都是依托于腾讯云的服务器&#xff0c;实力自然是不容小觑&#xff0c;而腾讯云近年来也是在海外市场不断布局&#xff0c;影响力显著增长&#xff0c;不管是个人建站还是企业…

【Java】Java核心要点总结:58

文章目录 1. java中 怎么确保一个集合不能被修改2. 队列和栈是什么 有什么区别3. Java8开始的ConcurrentHashMap为什么舍弃了分段锁4. ConcurrentHashMap 和 Hashtable有什么区别5. ReadWriteLock和StampeLock 1. java中 怎么确保一个集合不能被修改 Java 中可以使用 Collectio…

【项目】树莓派发出WIFI热点

本文主要记录树莓派4B如何设置发出WIFI热点 我们都知道要实现多机通信&#xff0c;就需要让主机和从机同处于一个网络中&#xff0c;而处于同一个网络通常有两种方式&#xff1a; 由主机&#xff08;树莓派&#xff09;发出WIFI&#xff0c;而从机&#xff08;笔记本&#xf…

数据结构与算法之二叉树的先序、中序以及后序遍历

什么是遍历 遍历&#xff1a;按照某种次序把所有结点 都访问一遍 层次遍历&#xff1a;基于树的层次特性确定的次序规则 先/中/后序遍历&#xff1a;基于树的递归特性确定的次序规则 二叉树的遍历 二叉树的递归特性&#xff1a; 要么就是个空二叉树要么就是有“根节点左子树…

chatgpt赋能python:Python小游戏教程:打造属于自己的游戏

Python小游戏教程&#xff1a;打造属于自己的游戏 Python小游戏是一个非常有趣的项目&#xff0c;不仅可以锻炼编程基本功&#xff0c;还可以开发出自己独特的小游戏&#xff0c;提高自己在编程领域的实践能力。下面&#xff0c;我会带领大家逐步学习如何用Python打造属于自己…

SpringBoot整合Ip2region获取IP地址和定位

1.Ip2region的介绍 1.1.Ip2region 是什么 ip2region v2.0 - 是一个离线IP地址定位库和IP定位数据管理框架&#xff0c;10微秒级别的查询效率&#xff0c;提供了众多主流编程语言的 xdb 数据生成和查询客户端实现 。 1.2.Ip2region 特性 1.2.1 标准化的数据格式 每个 ip 数…

记录解决Android Studio下载gradle超时问题

大三学生&#xff0c;2023年3月19号晚&#xff0c;首次下载Android Studio2022版本并新建项目&#xff0c;发现在下载gradle总是连接超时&#xff0c;舍友则没有这个问题&#xff0c;用的是同一个安装包。 查阅文献太多&#xff0c;忘记都有哪些了&#xff0c;就不列出来了&…

MySQL 课后习题解析与笔记——学生选课数据库相关操作

文章目录 &#x1f4cb;前言&#x1f3af;题目解析1️⃣创建数据库2️⃣创建表&#x1f4d1;Student 表&#x1f4d1;Course 表&#x1f4d1;SC 表 &#x1f3af;完整答案&#x1f4dd;最后 &#x1f4cb;前言 这篇文章记录一下帮助粉丝朋友一起学习解决的 MySQL 课后习题&…

5款AI应用让你全面感受人工智能的魅力

“ AI 的出现就像燃气机和蒸汽机一样&#xff0c;极大地提高了生产力。” chatGPT ChatGPT 是由 OpenAI 公司开发的一种大型语言模型。 OpenAI 公司成立于 2015年&#xff0c;早期马斯克是该公司的创始人之一。 自 2018 年推出 GTP-1 以来&#xff0c;OpenAI 已经推出了 GPT-…

Power BI Visuals - Candlestick (K线图) 介绍文档

注&#xff1a;本文最初发布于 d-bi.gitee.io &#xff08;2020年4月&#xff09;, 2023年6月迁移至CSDN 注:本文将简要介绍新的Power BI可视化–Candlestick的使用方法 简介 Candlestick是由本人(Davis ZHANG)使用R语言开发的Power BI可视化, 它将在数日之后(取决于审核的进…

chatgpt赋能python:Python平均值:让你的数据更有说服力

Python平均值&#xff1a;让你的数据更有说服力 作为一个有10年Python编程经验的工程师&#xff0c;我非常熟悉Python程序的各种应用。其中&#xff0c;计算平均值是数据分析中最常用的计算方法之一&#xff0c;而Python作为一种广泛应用的语言&#xff0c;也可以轻松地处理平…

k8s网络模型

前言 通过《Linux网络原理》我们已据备了一定的理论知识。k8s是怎么构建网络模型的呢&#xff1f; 基础知识 交换机和路由器都是网络中常见的设备&#xff0c;它们在网络通信中扮演不同的角色。 交换机&#xff08;Switch&#xff09;是一种用于构建局域网&#xff08;LAN&a…

11 - 守护进程深度分析

---- 整理自狄泰软件唐佐林老师课程 查看所有文章链接&#xff1a;&#xff08;更新中&#xff09;Linux系统编程训练营 - 目录 文章目录 1. 会话与终端的关联1.1 思考1.2 新会话关联控制终端的方法1.3 一些相关推论1.4 一些想法1.5 编程实验&#xff1a;会话与终端 2. 守护进程…