双边性:构建神经网络的新方法

news2024/11/24 15:58:25

正如承诺的那样,这是最近我遇到的最有趣的想法之一的第二部分。如果你错过了,请务必观看本系列的第一部分 - 神经科学家对改进神经网络的看法 - 我们讨论了双边性的生物学基础以及我们大脑的不对称性质如何带来更高的性能。

在这篇文章中,我将介绍一些人工智能研究,这些研究对这个想法有很大的希望。如果你们中有人正在寻找下一篇研究论文/项目 - 这可能是一个不错的选择。无论我的意见如何 - 我相信解决神经网络中的双边性将真正改变人工智能领域的游戏规则。

NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割

1、为什么双边性会改变现状

在我开始分析研究之前,我想花点时间谈谈我为什么如此重视双边性(bilaterality)。当然,它可能适用于生物系统,但我们希望通过为我们的 ANN 实施类似的想法来实现什么?

为了回答这个问题,让我们退一步来看看神经网络的架构对学习结果有多大的影响。简单地说,每个模型/架构决策都会对我们的系统施加一定的归纳偏差。通过选择实现某个激活函数、模型配置等,你隐式地选择优先考虑数据/域的一个方面而不是另一个方面。因此,直观地说,不同的架构设置会导致不同的结果,这是有道理的。

我可以在这里结束这一部分 - 但那有什么乐趣呢?我不得不阅读了不少论文,如果我必须阅读,你也必须阅读 ❤。所以让我们回顾一下展示架构决策的研究,以及它们如何影响模型对数据的内部表示。

让我们从很小的地方开始 - 当谈到视觉转换器与 CNN 时,我们看到它们的不同操作导致输入数据的客观不同表示。注意力机制允许 Transformers 保持“图像的全局视图”,从而使它们能够提取与 ConvNets 非常不同的特征。请记住,CNN 使用内核来提取特征,这限制了它们找到局部特征的方法。注意力允许 Transformers 绕过这一点。

在图像分类基准上分析 ViTs 和 CNN 的内部表示结构,我们发现两种架构之间存在显着差异,例如 ViT 在所有层上具有更统一的表示。我们探索了这些差异是如何产生的,发现了自我注意力所起的关键作用,它能够实现全局信息的早期聚合,而 ViT 残差连接则可以将特征从较低层传播到较高层。

上面的引文摘自非常有趣的《视觉变换器是否像卷积神经网络那样看?》。它很有趣,我稍后会对此论文进行分析。重要的是下面的引文,也来自这篇论文。

...证明访问更多全局信息也会导致与 ResNet 较低层的局部接受场计算出的特征在数量上不同的特征

这超出了图像任务的范围。不久前,我们试图回答 Transformers 是否适用于时间序列预测任务(哈哈,不)。Transformer 架构的缺陷之一是它们的注意力机制,它在数据排序中引入了置换不变性(不利于 TSF)。

更重要的是,Transformer 架构的主要工作能力来自其多头自注意力机制,它具有提取长序列中成对元素之间的语义相关性的卓越能力(例如,文本中的单词或图像中的 2D 块),并且该过程是置换不变的,即无论顺序如何。然而,对于时间序列分析,我们主要感兴趣的是建模连续点集之间的时间动态,其中顺序本身通常起着最关键的作用。

对于那些特别有自虐倾向的人来说,《论深度学习模型的对称性及其内部表征》这篇论文是一篇关于这一概念的好文章。数学是精神病学的,但结论相对简单——

我们的研究表明,网络的对称性会传播到该网络的数据表示的对称性中

希望这足以让你相信架构可以直接影响模型感知数据的方式。因此,像双边性这样强大的想法值得探索。通过将某种互补风格的网络集成到同一个网络中,我们可能能够创建一种超越任何一种结构限制的架构。

说完这些,现在让我们来谈谈本期的主角——双边性论文以及我们如何扩展它。

我一直想重读雷·库兹韦尔 (Ray Kurzweil) 的《如何创造思维》一书,从中我学到的一点就是统计学在人工智能中的作用。如果每个连续的结果都会覆盖过去的结果,我可以想象偏见的结论会在几代人中积累多少。应用双边架构来保留先前知识的权重似乎是一种很好的对冲方法。

上面是对本文第 1 部分的评论。感谢 Daniel Kurland 的精彩分享。

2、如何将双边性应用于神经网络

《双侧大脑深度学习与半球特化》的作者在将双边性应用于神经网络方面做了大量工作。让我们来看看他们的方法和结果。

首先要理解的是他们的设置。所提出的架构基于 ResNet-9 模型,该模型因其在分类和简单性方面的良好性能而被选中。为了模拟两个半球,我们使用了两个不同的 ResNet 模型(我知道这很令人震惊)。为了进行实验,我们比较了以下模型(第一个是双边模型,其余的是基线)-

  • 具有特化的双边性- 我们用不同的目标训练模型,“左半球在特定类别上进行训练,右半球在一般类别上进行训练”。这是什么意思?一般类别是:海洋生物,而特定类别是:企鹅、海豹、鲨鱼等。这类似于我们的大脑,右半球模拟一般性,左半球更具体。
  • 无专业化的双边性——“为了更好地理解专业化的作用,我们将双边模型与没有专业化的等效网络进行了比较。我们训练了整个网络(两个半球和头部),而没有首先明确地在各个半球中诱导专业化。”
  • 单腔网络——双边性使模型拥有更多的计算资源。为了解释这一点,作者还使用了两个更大的单一模型,其中两个头部分别用于一般和特定类别。更具体地说,他们使用了“预定义的 18 层和 34 层 ResNet 架构。18 层网络的可训练参数数量与双边网络大致相同,而 34 层网络的可训练参数数量大约是其两倍。”
  • 集成模型——你可能知道,集成模型是机器学习中性能的秘诀。而这种双边模型是一种集成。因此,与其他集成进行比较也很重要,以便更清楚地了解专业化与其他因素的影响。为了理解差异化专业化和传统集成之间的区别,我们比较了两个不同的模型,一个是 2 模型集成,一个是 5 模型集成。为了构建集成,我们使用了一种常见的方法,即训练 10 个单腔 ResNet-9 模型,并选择前 k 个(k 分别为 2 和 5)。集成在训练和推理中的输出是模型的平均输出。

这些模型必须相互竞争才能确定谁是王者。对于喜欢视觉效果的人来说,可以在下面看到一般架构。

我喜欢他们模拟专业化的方法,因为它相当简单和优雅。未来的扩展可能是使用不同的架构,一个具有更密集的局部连接,另一个具有更宽的连接(可能使用跳过连接)。要真正改变,我们需要调整梯度下降的单向性,朝着在多个方向上调整权重的协议发展。这并非易事,但它将是未来探索的绝佳途径。

为了查看从两个专门模型中提取的特征之间的差异,作者使用了两种技术。首先,他们利用梯度相机(Grad-Cam)可视化。我们知道双侧网络和各个半球利用卷积层的编码特征来预测类标签。为了了解提取的特征如何有助于分类,我们使用 Grad-Cam 库可视化了模型预测类别时卷积层上的平均梯度流。梯度热图突出显示了两个半球和整个网络(两个头部的平均值)的焦点区域。你可以在下面看到 grad-cam 可视化效果。

这是通过计算相同标签图像特征的余弦相似度得分来补充的。它们应该具有相似的特征,因此测量网络不同部分的特征相似度应该很有启发性。以下是特征的可视化-

图 10:场景 1 的余弦相似度分布:双边网络是正确的,左半球和右半球是错误的。许多对(相同标签)在左右半球具有不同的(值更接近 0)特征,这可以从靠近原点的点的密度中看出。连接的特征也不相似,但双边网络提高了许多点的相似度。每个点都是一对具有相同标签的图像。x 轴表示左半球的相似度,y 轴表示右半球的相似度。颜色表示组合表示中的相似度。此外,左半球和右半球的单变量边际分布以双变量分布上方和侧面的直方图显示。

有了这些设置,让我们进入正题。这种架构与竞争对手相比表现如何?这就是事情变得令人兴奋的地方。

Grad-Cam 图像显示,左半球提取的局部特征比右半球多。不同的学习目标使它们能够捕捉环境的不同方面。总体而言,特征集大于一个具有一个目标的网络。有趣的是,即使左半球明确地针对特定的类别标签进行训练,它提取的特征对一般类别也很有帮助。右半球的情况正好相反……

总之,专业化创造了更高的特征多样性。网络主管以任务相关的方式有选择地对左半球和右半球实施一种加权注意力,从而改善整体类别预测。

为什么双腔结构有帮助?

3、专业化和双边性真的能提高神经网络的性能吗?

简而言之 - 是的。看看专业化架构与竞争对手的比较。一定要控制好你的荷尔蒙,因为这些结果看起来真的很漂亮 -

唯一具有可比性能的竞争对手是 5 模型组合 - 但成本要高得多。

我非常希望看到这如何扩展到对抗性学习和检测等相关任务中。也许这将是后续论文的一部分。鉴于这些结果,我认为我们有一个相当有力的概念证明。

最后,让我们谈谈可以扩展这个想法的一些方法。

4、未来的双边性

如前所述,未来探索最有希望的途径之一是创建一个更细致入微的权重更新机制,反映我们的神经元和连接一起激发的更复杂方式。作者还提出了几项极好的建议(基于神经科学)——“复制循环连接、半球之间更复杂的生物启发相互作用、模仿半球之间已知的基质差异(如拓扑差异)、资源分配(见图 1)和在无监督的情况下诱导专业化的实验。”

作者还提到了如何利用这种专业化来开发物理机器人,因为它可能与运动技能有关。右半球可以是一个通才,可以在初学者时执行不熟悉的任务,而左半球则随着时间的推移成为专家。代理将能够接受新任务,而不会对它们感到无能为力。目前,持续强化学习领域并不专注于避免表现不佳,而是最大限度地提高最佳表现。然而,在现实生活中,代理必须避免自己和周围人的死亡和严重伤害(也适用于物理机器人和虚拟人工智能代理)。

最后,双边主义融入更多架构将是一件令人着迷的事情,看看这个想法如何很好地扩展到不同的挑战和领域。


原文链接:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1942034.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

<数据集>AffectNet表情识别数据集<目标检测>

数据集格式:VOCYOLO格式 图片数量:29752张 标注数量(xml文件个数):29752 标注数量(txt文件个数):29752 标注类别数:7 标注类别名称:[anger,contempt,disgust,fear,happy,neutral,sad,surprise] 序号类…

如何使用大语言模型绘制专业图表

过去的一年里,我相信大部分人都已经看到了大语言模型(后文简称LLM)所具备的自然语言理解和文本生成的能力,还有很多人将其应用于日常工作中,比如文案写作、资料查询、代码生成……今天我要向大家介绍LLM的一种新使用方式——绘图。这里说的绘…

HydraRPC: RPC in the CXL Era——论文阅读

ATC 2024 Paper CXL论文阅读笔记整理 问题 远程过程调用(RPC)是分布式系统中的一项基本技术,它允许函数在远程服务器上通过本地调用执行来促进网络通信,隐藏底层通信过程的复杂性简化了客户端/服务器交互[15]。RPC已成为数据中心…

Transformer-Bert---散装知识点---mlm,nsp

本文记录的是笔者在了解了transformer结构后嗑bert中记录的一些散装知识点,有时间就会整理收录,希望最后能把transformer一个系列都完整的更新进去。 1.自监督学习 bert与原始的transformer不同,bert是使用大量无标签的数据进行预训…

Spring 整合MongoDB xml解析

beans引用 xmlns:mongo"http://www.springframework.org/schema/data/mongo"xsi:schemaLocation"http://www.springframework.org/schema/data/mongo http://www.springframework.org/schema/data/mongo/spring-mongo.xsd " 具体…

学习使用Sklearn【LDA】线性判别分析,对iris数据分类!

数据集、代码均来自kaggle。地址:https://www.kaggle.com/datasets/himanshunakrani/iris-dataset?resourcedownload 🚀 揭示线性分类器的力量:线性判别分析的探索 欢迎来到线性分类器的世界和线性判别分析(LDA)的迷人领域!🌟在本笔记本中…

在服务器调用api操作rabbitmq

不同的rabbitmq版本可能api不同,仅做参考,RabbitMQ 3.7.18。同时,我基本没看官方api文档,根据rabbitmq客户端控制台调用接口参数来决定需要什么参数。例如: 1、添加用户 curl -u 用户名:密码 -H “Content-Type: a…

[亲测可用]俄罗斯方块H5-网页小游戏源码-HTML源码

本站的HTML模板资源:所见文章图片即所得,搭建和修改教程请看这篇文章:https://yizhi2024.top/8017.html

Maven 的模块化开发示例

Maven 的模块化开发是一种非常有效的软件开发方式,它允许你将一个大型的项目分割成多个更小、更易于管理的模块(modules)。每个模块都可以独立地构建、测试和运行,这不仅提高了开发效率,也便于团队协作和项目的维护。以…

华为云.云日志服务LTS及其基本使用

云计算 云日志服务LTS及其基本使用 - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite:http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this article:https://blog.csdn.net/qq_28550…

如何给7Z分卷文件设置密码?简单几步给文件加上安全锁

在压缩7Z文件的时候,如果文件比较大,很多小伙伴都会把文件压缩成7Z分卷文件,那想要保护7Z分卷文件,要如何设置密码呢?不清楚的小伙伴,一起来看看吧! 我们可以使用7-Zip解压缩文件,在…

安全的备忘录工具有哪些 安全好用的备忘录

在这个数字化的时代,我们的生活中充斥着各种各样的信息,从工作计划到个人琐事,从账号密码到重要日期,这些信息都需要我们牢记。然而,人的记忆毕竟有限,于是,备忘录工具成为了我们日常生活中不可…

easyExcel和poi的版本对应

easypoi3.0.5对应的poi版本_easypoi和poi版本对应-CSDN博客 https://github.com/alibaba/easyexcel/blob/v3.2.0/pom.xml 解决 java.lang.NoClassDefFoundError: org/apache/poi/POIXMLTypeLoader 报错-CSDN博客 参考这个文档解决的- 引入最佳版本是3.15版本 java.lang.NoClas…

将Excel或CSV文件导入MySQL

数据库信息 版本:mysql-5.7.22 字符集如下 一、将 Excel 文件导入 MySQL,此时 MySQL 中不存在该表。 在数据库中,右键-导入向导

windows下mysql开启慢sql监控

上代码 #开启慢sql监控 SET GLOBAL slow_query_log ON; #设置慢sql日志存储路径 示例 SET GLOBAL slow_query_log_file D:\\javaTools\\mysql-8.0.32-winx64\\mysql-8.0.32-winx64\\slowSql\\slowSql.log; #超时时间 SET GLOBAL long_query_time 10; #查看是否开启慢查询 …

RabbitMQ的学习和模拟实现|GTest测试框架的介绍和简单使用

GTest 项目仓库:https://github.com/ffengc/HareMQ GTest GTest是什么我们需要学习的GTest功能宏断言事件机制 全局测试套件独立测试套件 GTest是什么 GTest是一个跨平台的 C单元测试框架,由google公司发布。gtest是为了在不同平台上为编写C单元测…

数学建模学习(112):FAHP模糊层次分析法

文章目录 一、FAHP方法由来二、模糊层次分析法原理2.1 AHP缺陷2.2 模糊集理论2.3 模糊层次分析法(FAHP)三、模糊层次分析法步骤3.1 问题定义与层次结构建立3.2 构造模糊判断矩阵3.2.1 计算模糊判断矩阵的列和向量3.2.2 计算模糊综合向量3.2.3 计算模糊权重向量3.3 解模糊数3.…

【Python】NumPy简要教程

文章目录 一、简介二、 ndarray 对象三、矩阵拼接四、数值运算4.1 数值选取4.2 单个数组的运算4.21 NumPy定义的常量4.22 单数组运算 4.3 数组之间的运算4.31 常见运算🟢4.32 广播机制:Broadcasting 五、数值类型、类型转换六、文件I/O 一、简介 NumPy …

56 网络层

本节重点 理解网络层的作用,深入理解IP协议的基本原理 对整个TCP/IP协议有系统的理解 对TCP/IP协议体系下的其他重要协议和技术有一定的了解 目录 前置认识ip协议基本概念协议头格式网段划分特殊的ip地址ip地址的数量限制私有ip和公有ip路由路由表生成算法 在复杂…

2024全网最全面及最新且最为详细的网络安全技巧 七之 XSS漏洞典例分析EXP以及 如何防御和修复(2)———— 作者:LJS

目录 8.5 Exploiting XSS with 20 characters limitation(蓝色为翻译)​编辑 Unicode compatibility 20 length limitation problem Taking advantage Next steps 8.6 Intigriti XSS 系列挑战 Writeups 8.6.1 xss challenge 1220 题目概述 思路分析 POC a.有交互 b.无交互 …