几何深度学习 - 利用几何先验知识的深度学习

news2024/10/7 9:21:43

深度学习很难。 虽然通用逼近定理表明足够复杂的神经网络原则上可以逼近“任何东西”,但不能保证我们可以找到好的模型。

尽管如此,通过明智地选择模型架构,深度学习取得了巨大进步。 这些模型架构对归纳偏差进行编码,为模型提供帮助。 最强大的归纳偏差之一是利用几何概念,从而产生了几何深度学习领域。

几何深度学习(geometric deep learning)这个术语最早是由该领域的先驱 Michael Bronstein 创造的(有关许多最新深度学习研究的有趣见解以及该领域的广泛概述,请参阅他的帖子)。 在这篇文章中,我们没有深入技术细节,而是对几何深度学习进行了非常简短的介绍。 我们主要遵循 Bronstein 及其同事最近出版的优秀著作 ,但提供了我们自己的独特见解,并专注于高级概念而不是技术细节。

在这里插入图片描述

推荐:用 NSDT设计器 快速搭建可编程3D场景。

1、几何先验

从根本上说,几何深度学习涉及将对数据的几何理解编码为深度学习模型中的归纳偏差,以助其一臂之力。

我们对世界的几何理解通常通过三种类型的几何先验进行编码:

  • 对称性和不变性
  • 稳定
  • 多尺度表示

最常见的几何先验之一是将对称性和不变性编码为不同类型的变换。 在物理学中,对称性通常由物理系统在变换下的不变性来表示。 如果我们知道现实世界表现出某些对称性,那么将这些对称性直接编码到我们的深度学习模型中是有意义的。 这样我们就可以给模型一个很大的帮助,这样就不必学习对称性,但在某种意义上已经知道了。 在我们之前的文章What Einstein Can Teach Us About Machine Learning中进一步阐述了在深度学习中利用对称性。

作为编码对称性和不变性的一个例子,传统的卷积神经网络 (CNN) 表现出所谓的平移等变性,如下图猫脸所示。 考虑模型的特征空间(右侧)。 如果相机或猫移动,即在图像中平移,则特征空间中的内容应该更相似,即也平移。 此属性称为平移等变性,在某种意义上确保只需要学习一次模式(猫的脸)。 不必在所有可能的位置学习模式,通过在模型本身中编码平移等方差,我们确保可以在所有位置识别模式。

上图给出平移等方差的说明。 给定一张图像(左上),计算特征图(通过𝒜)(右上)然后平移(𝒯)特征图(右下)相当于先平移图像(左下)然后计算特征图 (右下角)。

在这里插入图片描述

另一个常见的几何先验是保证表示空间的稳定性。 我们可以将数据实例之间的差异视为由于将一个数据实例映射到另一个数据实例的某种失真。 例如,对于分类问题,较小的失真是导致类内变化的原因,而较大的失真可以将数据实例从一个类映射到另一个类。 两个数据实例之间的失真大小然后捕获一个数据实例与另一个数据实例的“接近”或相似程度。 为了使表示空间表现良好并支持有效的深度学习,我们应该保留数据实例之间的相似性度量。 为了保持表示空间中的相似性,特征映射必须表现出稳定性。

作为一个代表性的例子,考虑手写数字的分类。 原始图像空间及其表示空间如下图所示。 小的扭曲将一个 6 映射到另一个,捕获手绘 6 的不同实例之间的类内变化。在代表性空间中,这些数据实例应该保持接近。 然而,较大的失真可以将 6 映射为 8,从而捕获类间变化。 同样,在表示空间中应该保留相似性度量,因此表示空间中的 6s 和 8s 之间应该有更大的分离。 需要特征映射的稳定性以确保保留此类距离以促进有效学习。
在这里插入图片描述

上图为映射到表示空间的稳定性说明。 小的失真是类内变化的原因,而大的失真是类间变化的原因。 需要映射的稳定性来确保数据实例之间的相似性度量,即它们之间的失真大小,保留在表示空间中,以促进有效学习。参考文献 。

第三种常见的几何先验是对数据的多尺度、分层表示进行编码。 在数据实例中,许多数据不是独立的,而是以复杂的方式相互关联。 以图像为例。 每个图像像素不是独立的,而是附近的像素通常是相关的并且非常相似。 根据内容结构,“附近”的不同概念也是可能的。 因此,可以通过捕获大量数据的多尺度、分层性质来构建有效的表示空间。
在这里插入图片描述

以标准的二维图像为例,如下图所示的城堡图像。 下图显示了图像的多尺度、分层表示,左上角是原始图像的低分辨率版本,然后是在图表的其他面板中捕获的不同分辨率的剩余图像内容。 这提供了更有效的底层图像表示,事实上,这是支持 JPEG-2000 图像压缩的技术。 可以利用类似的多尺度、分层表示来为学习提供有效的表示空间。

上图为图像的多尺度、分层表示。 原始图像的低分辨率版本显示在左上角,然后在图表的其他面板中捕获不同分辨率的剩余图像内容。 可以利用类似的表示来为学习提供有效的表示空间。

我们已经涵盖了几何深度学习中利用的三种主要类型的几何先验。 虽然这些提供了几何学习的基本概念,但它们可以应用于许多不同的设置。

2、几何深度学习的类别

在 Bronstein 的新书中,几何深度学习被分为四个基本类别,如下图所示。
在这里插入图片描述

Bronstein 谈到 5G(扩展了 Max Welling [1] 首次引入的 4G 分类):Grid、Group、Graph、Geodesics & Gauges。 由于这最后两个 G 密切相关,我们只考虑四个不同的类别,即 4G。

Grid分类捕获定期采样或网格化的数据,例如 2D 图像。 这些数据可能通常是经典深度学习的产物。 然而,也可以从几何角度解释许多经典的深度学习模型(例如 CNN 及其平移等方差,如上所述)。

Group分类涵盖具有全局对称性的同质空间。 这个类别的典型例子是球体(在我们之前的文章中有更详细的介绍)。 球形数据出现在 myrad 应用程序中,不仅在直接在球体上获取数据时(例如在地球上空或通过捕捉全景照片和视频的 360° 相机),而且在考虑球形对称性时(例如在分子化学或磁学中 共振成像)。 虽然球体是最常见的组设置,但也可以考虑其他组及其相应的对称性。

Graph分类涵盖可由具有节点和边的计算图表示的数据。 网络非常适合这种表示,因此图深度学习在社交网络的研究中得到了广泛的应用。 几何深度学习的图形方法提供了极大的灵活性,因为很多数据都可以用图形表示。 然而,这种灵活性可能伴随着特异性的丧失和所提供的优势。 例如,Group设置通常可以用图形方法来考虑,但在这种情况下,人们会失去组的基础知识,否则可以利用这些知识。

最后的Geodesics & Gauges分类涉及对更复杂形状的深度学习,例如更通用的流形管和 3D 网格。 这种方法在计算机视觉和图形学中有很大的用处,例如,人们可以在其中使用 3D 模型及其变形进行深度学习。

3、几何深度学习的构建块

如上所述,虽然有许多不同类别的几何深度学习,以及可以利用的不同类型的几何先验,但所有几何深度学习方法本质上都采用以下基本基础构建块的不同化身。
在这里插入图片描述

深度学习架构通常由多个层组成,这些层组合在一起形成整体模型架构。 然后经常重复层的组合。 几何深度学习模型通常包括以下类型的层。

  • 线性等变层:几何深度学习模型的核心组成部分是线性层,例如卷积,它们与某些对称变换是等变的。 需要为所考虑的几何类别构造线性变换本身,例如 球体和图形上的卷积是困难的,尽管通常有很多类比。
  • 非线性等变层:为确保深度学习模型具有足够的表示能力,它们必须表现出非线性(否则它们只能表示简单的线性映射)。 必须引入非线性层来实现这一点,同时还要保持等方差。 以等变方式引入非线性的规范方法是通过逐点非线性激活函数(例如 ReLU)来实现,尽管有时会考虑专门针对底层几何形状定制的其他形式的非线性 [3]。
  • 局部平均:大多数几何深度学习模型还包括一种局部平均形式,例如 CNN 中的最大池化层。 此类操作在某些尺度上施加局部不变性,确保稳定性并通过堆叠多个层块来实现多尺度、分层表示。
  • 全局平均:为了在几何深度学习模型中施加全局不变性,通常使用全局平均层,例如 CNN 中的全局池化层。

几何深度学习模型的典型示例是用于 2D 平面图像的传统 CNN。 虽然许多人可能认为这是一个经典的深度学习模型,但它可以从几何角度进行解释。 事实上,CNN 如此成功的关键原因之一是其架构中编码的几何特性。 下图概述了一个典型的 CNN 架构VGG-16,其中很明显包含了上面讨论的许多几何深度学习层,层块重复以提供分层的、多尺度的表示空间。

在这里插入图片描述

4、未来展望

深度学习现在对于标准类型的数据很常见,例如结构化数据、顺序数据和图像数据。 然而,为了将深度学习的应用扩展到其他更复杂的——几何数据集,这些数据的几何结构必须在深度学习模型中进行编码,从而产生了几何深度学习领域。

几何深度学习是一个热门且发展迅速的领域,已经取得了很大进展。 然而,许多未解决的问题仍然存在,不仅在模型本身,而且在可扩展性和实际应用方面。 我们将在接下来的文章中解决这些问题,展示解决这些问题对于为大量新应用程序释放深度学习的巨大潜力至关重要。


原文链接:几何深度学习 — BimAnt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/512617.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

makefile 条件判断语句

文章目录 前言一、条件判断语句的语法说明二、ifeq / ifneq三、ifdef / ifndef代码讲解: 四、经典示例总结 前言 一、条件判断语句的语法说明 makefile 中支持条件判断语句。 可以根据条件的值决定 make 的执行。可以 比较 两个不同变量或者变量和常量值。 条件判…

物理环境与网络通信安全

物理环境与网络通信安全 物理和环境安全环境安全设施安全-安全区域与边界防护传输安全 OSI七层模型ISO/OSI七层模型结构OSI模型特点OSI安全体系结构 TCP/IP协议安全TCP/IP协议结构网络接口层网络互联层核心协议-IP协议传输层协议-TCP(传输控制协议)传输层…

AMB300系列母线槽红外测温解决方案南沙XX养殖项目案例分享

安科瑞 耿敏花 一、 行业背景 随着当今社会的发展和用电量的急剧上升,现代化工程设施和装备的涌现,封闭式母线即母线槽因方便、节能、载流量大、机械强度高 、安装灵活、寿命长等特点,逐渐取代传统电缆,广泛应用于室内变压…

Window下载Android源码

Android 10源码下载 想要研究Android 源码的同学可以用此方法进行下载。源码从清华大学开源软件镜像站(https://mirrors.tuna.tsinghua.edu.cn/help/AOSP/)下载。 使用Linux的同学直接参照清华镜像站提供的使用帮助(https://mirrors.tuna.tsinghua.edu…

面试题:react、 vue中的key有什么作用? (key的内部原理)

面试题:react、 vue中的key有什么作用? (key的内部原理) 1.虚拟DOM中key的作用: key是虚拟DOM对象的标识,当状态中的数据发生变化时,Vue会根据【新数据】生成【新的虚拟DON】,随后Vue进行【新虚拟DOM】与【旧虚拟DOM】的差异比较&#xff0…

如何用ChatGPT做内容营销方案和选题计划,同时生产和优化内容?

该场景对应的关键词库(31个): 内容营销、目标、主题、类型、选题计划、素材、推广策略、优化方案、渠道、目标受众、竞争对手、行业背景、转化率、品牌知名度、客户参与度、销售、发布频率、选题阶段、生产阶段、推广阶段、预算分配、人群特征…

Python+Yolov5舰船侦测识别

程序示例精选 PythonYolov5舰船侦测识别 如需安装运行环境或远程调试&#xff0c;见文章底部个人QQ名片&#xff0c;由专业技术人员远程协助&#xff01; 前言 这篇博客针对<<PythonYolov5舰船侦测识别>>编写代码&#xff0c;代码整洁&#xff0c;规则&#xff0c…

电子招投标采购系统源码-适合于招标代理、政府采购、企业采购、工程交易等业务的企业

招投标管理系统-适合于招标代理、政府采购、企业采购、工程交易等业务的企业 招投标管理系统是一个用于内部业务项目管理的应用平台。以项目为主线&#xff0c;从项目立项&#xff0c;资格预审&#xff0c;标书编制审核&#xff0c;招标公告&#xff0c;项目开标&#xff0c;项…

效率提升一倍,MES管理系统打造车间数字化“筋骨”

在企业生产车间管理中&#xff0c; MES系统可以实时了解现场的生产状态、任务完成情况、物料需求、质量情况等&#xff0c;从而提高企业的生产效率&#xff0c;帮助企业快速响应市场变化&#xff0c;提高产品质量&#xff0c;降低成本。 MES系统是车间制造执行系统的简称…

软考A计划-重点考点-专题十(算法分析与设计)

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例 &#x1f449;关于作者 专注于Android/Unity和各种游戏开发技巧&#xff0c;以及各种资源分享&am…

Golang每日一练(leetDay0062) BST迭代器、地下城游戏

目录 173. 二叉搜索树迭代器 Binary Search Tree Iterator &#x1f31f;&#x1f31f; 174. 地下城游戏 Dungeon Game &#x1f31f;&#x1f31f;&#x1f31f; &#x1f31f; 每日一练刷题专栏 &#x1f31f; Golang每日一练 专栏 Python每日一练 专栏 C/C每日一练 …

全景丨0基础学习VR全景制作,平台篇第21章:热点功能-电话

大家好&#xff0c;欢迎观看蛙色VR官方——后台使用系列课程&#xff01; 功能说明 应用场景 热点&#xff0c;指在全景作品中添加各种类型图标的按钮&#xff0c;引导用户通过按钮产生更多的交互&#xff0c;增加用户的多元化体验。 电话热点&#xff0c;即手机端点击热点后可…

sentinel参数配置详细说明

使用的是sentinel-dashboard来配置 流控规则 阈值类型 QPS 当每秒并发数大于配置&#xff0c;则进行限流并发数线程数 当执行的线程数大于配置&#xff0c;则进行限流 单机阈值 配置的具体值 流控模式 直接 默认项&#xff0c;就是在资源名配置的路径进行生效 关联&#…

量子启发生成AI!Zapata Computing联合宝马、MIT优化车辆生产

​ &#xff08;图片来源&#xff1a;网络&#xff09; Zapata Computing是一家量子软件开发公司&#xff0c;致力于为企业构建量子就绪应用解决方案&#xff0c;以解决最复杂的计算问题。5月4日&#xff0c;Zapata Computing宣布发表一篇论文&#xff0c;详细介绍了他们联合宝…

Nevron Open Vision for .NET 2022.3 Crack

Nevron Open Vision for .NET 适用于 Blazor、WPF、WinForms 和 Xamarin.Mac 的领先用户界面组件 Nevron Open Vision for .NET 是一套高级 UI 组件&#xff0c;可帮助您从单个代码库开发功能丰富的 Web &#xff08;Blazor WebAssembly&#xff09; 和桌面 &#xff08;WinFor…

C++ MFC调用JS代码获取返回值

C有时候会需要调用JS代码&#xff0c;这对于C来说或者对于国内来说一直是比较蛋疼的问题&#xff0c;主要是资料少&#xff0c;微软提供了一个COM组件&#xff0c;里面包含有JS引擎&#xff0c;这个组件就是&#xff1a;msscript.dll。 此文件在C:\Windows\SysWOW64目录下&…

【TA100】6 PC手机图形API介绍

1 电脑的工作原理: 电脑是由各种不同的硬件组成&#xff0c;由驱动软件驱使硬件进行工作。所有的软件工程师都会直接或者间接的使用到驱动。定义:是一个图形库&#xff0c;用于渲染2D、3D矢量图形的跨语言、跨平台的应用程序编程接口 (API)。针对GPU。应用端:即我们自己的程序端…

MySql -- JDBC编程

1.Java的数据库编程&#xff1a;JDBC JDBC&#xff0c;即Java Database Connectivity&#xff0c;java数据库连接。是一种用于执行SQL语句的Java API&#xff0c;它是Java中的数据库连接规范。这个API由 java.sql.*,javax.sql.* 包中的一些类和接口组成&#xff0c;它为Java开…

Flutter性能分析工具使用

使用前提 flutter常用的性能分析工具&#xff0c;这些工具都集成在android studio中&#xff0c;基本能满足我们的需求了。在下面介绍的几个工具中&#xff0c;Flutter Performance和Flutter Inspector都能够直接在debug模式下使用&#xff0c;但是DevTools只能在profile模式下…

铁路中的警冲标

1、警冲标的定义 警冲标是用来指示机车车辆停车时&#xff0c;不准向道岔方向或线路交叉点方向越过&#xff0c;以防止停留在该线上的机车车辆与邻线上的机车车辆发生侧面冲突的标志。另外&#xff0c;在出站道岔上&#xff0c;警冲标用来确定站界标位置。 2、警冲标怎么设置 …