Kolmogorov-Arnold——代替 MLP以提高模型的代表性和性能

news2024/9/25 22:53:15

前言

论文地址:https://arxiv.org/abs/2409.10594
源码地址:https://github.com/Adamdad/kat.git
传统的变压器模型使用多层感知器(MLP)来混合通道间的信息,而本文则使用了科尔莫哥罗德网络(KAN),从而提高了模型的表现力和性能。

KAT 在大规模图像识别任务以及物体检测和语义分割等视觉任务中表现尤为出色;KAN 擅长高效逼近数学函数,理论上有可能以比 MLP 更少的参数为复杂函数建模。然而,将 KAN 集成到变换器中面临着一些技术挑战。

三个具体挑战是

  • 基函数问题:KAN 中使用的标准 B-样条函数未针对现代 GPU 进行优化,难以进行并行计算,从而导致计算速度缓慢的问题。
  • 参数和计算效率低下:面临的挑战是,KANs 的计算成本非常高,因为它们需要为每对输入输出使用单独的函数。
  • 权重初始化问题:与 MLP 不同,KAN 权重的初始化有一个可学习的激活函数,这就要求特别小心地进行初始化,以便收敛。

为了克服这些挑战,KAT 推出了三种解决方案

  • 有理基函数:使用有理函数代替 B 样条函数,计算效率高,适合现代 GPU。
  • 组 KAN:每组神经元共享激活权重,以减少计算负荷,同时保持性能。
  • 方差保持初始化:权重的初始化可保持各层激活的方差,从而确保稳定的学习。

因此,KAT 比传统的基于 MLP 的变压器具有更好的性能。

模型架构

本文提出的 Kolmogorov-Arnold 变换器(KAT)用 Kolmogorov-Arnold 网络(KAN)取代了传统变换器中使用的 MLP(多层感知器)。它是一种新的架构,通过引入以下功能提高了模型的表达能力和性能

KAT 的一个主要特点是采用了多项创新设计,将 KAN 有效地集成到变换器中。具体来说,为了提高 KAN 层的计算效率,它使用了有理函数,而不是传统的 B-样条函数,后者是在 CUDA 上实现的。这就提高了 GPU 的计算速度,使训练更复杂函数的速度可与传统 MLP 相媲美。

此外,为了减少 KAN 层的计算负荷,还采用了 "组 KAN "方法,即多个边缘共享激活函数的权重。这提高了模型的可扩展性,即使是大型模型也能高效运行。此外,权重的初始化设计还能使各层之间的激活方差保持一致。这种设计提高了训练的稳定性,并能更有效地训练模型。

与传统的变换器模型相比,KAT 实现了更高的准确率,尤其是在 ImageNet-1K 数据集的图像分类任务中,KAT-B 模型以 82.3% 的准确率比 ViT 模型高出 3.1%。这些改进使 KAT 成为一种优于基于 MLP 的简单变换器的新方法。

试验

KAT 针对三大视觉任务(图像分类、物体检测和语义分割)进行了实验,并对每项任务的性能进行了评估。

首先,在图像分类方面,我们使用 ImageNet-1K 数据集来比较 KAT 与其他模型(如 ViT、DeiT 等)的性能。KAT 采用了一种名为 GR-KAN 的新型通道混合器,其性能优于传统的 MLP。例如,KAT-S 模型的准确率达到 81.2%,比传统的 DeiT-S 模型高出 2.4%。此外,KAT 的扩展版本 KAT-B 比 ViT-B 模型的准确率高出约 3.1%,显示出 KAT 在模型大小相同的情况下的优越性。

接下来,在物体检测任务中,使用 MS-COCO2017 数据集将 KAT 纳入 Mask R-CNN,以测量物体检测和实例分割的准确性。在该实验中,KAT 的表现再次优于传统的 ViTDet,尤其是对于较小的模型,APbox 提高了 3.0 个百分点。这证明 KAT 在物体检测方面也能提供高效、准确的结果。

最后,语义分割实验使用 ADE20K 数据集测试了 KAT 的性能。在这项任务中,KAT 被用作 UperNet 的骨干,并与其他传统模型进行了比较:KAT-S 与 DeiT-S 相比,mIoU 提高了约 2.4%,在实现更高精度的同时,由于模型较小,性能损失最小。

这些实验结果证实,与传统的 Transformer 架构相比,KAT 具有更好的表达能力和性能。KAT 的计算效率也特别高,与传统方法相比,通过 CUDA 优化,KAT 的计算速度更快。这样的设计表明,KAT 是各种视觉任务的有力选择。

总结

本文的结论表明,Kolmogorov-Arnold 变换器(KAT)是传统的基于 MLP 变换器的一种有前途的替代方案。(KAT 有效地利用了 Kolmogorov-Arnold 网络(KAN)的特性,在视觉任务中表现出色。KAT 有效地利用了 Kolmogorov-Arnold 网络(KAN)的特性,在视觉任务中表现出色。与传统的变换器架构相比,KAT 在保持计算效率的同时提高了准确性。

此外,KAT 在理论和实践上都有超越 MLP 的潜力,预计在未来的研究中会有更多的应用可能性。特别是其灵活的表达能力和通过使用有理函数实现的学习稳定性,为未来的发展提供了途径,有望扩展到视觉以外的任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2165029.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微信第三方开发平台接入公众号整体技术方案

1.1 公众号简介 官网地址:微信公众平台 微信公众号 就像是你在微信里的一个“官方小号”,专门用来发布内容、和粉丝互动。用户可以关注你的公众号,收到你发布的消息,就像朋友圈那样。公众号还能提供很多实用功能,比如…

在 React 中模拟输入

需求 与 Bug 项目的 C# 桌面端使用 CefSharp 内嵌了一个三方网站,在外部实现了一个登录控件,外部登录后希望内嵌的三方网站自动登录,实现代码如下: browser.ExecuteScriptAsync($"document.getElementsByName(username)[0]…

s3c2440——ADC模数转换器,Linux驱动编程——u-boot

一、ADC 模拟:连续;数字:离散。 模拟信号一般指连续变化的电压值。转换的步骤:采样、量化。 ADC中soc电压转为数字信号的方法:逐次逼近法。 分辨率:nbit;表示一个电压比较器比较10次&#xf…

CoreDNS实现跨集群service解析实践

CoreDNS实现跨集群service解析实践 背景介绍使用条件实现方案 CoreDNS是一款使用Go语言实现的专为云原生应用而生的DNS服务器。本文介绍CoreDNS在特定实际场景下的一种进阶使用实践,也许能为其他也在使用CoreDNS做服务发现的同学提供一些启发和思考。 背景介绍 在…

三星推出990 EVO Plus固态硬盘,支持PCIe 4.0性能出色

容量高达4TB,提供增强的性能和能效。性能卓越,随机读写速度分别为为 1,050K IOPS 和 1,400K IOPS。 韩国——2024年9月25日—三星电子于今天宣布推出990 EVO Plus固态硬盘,为其固态硬盘产品线再添新成员。990 EVO Plus 支持 PCIe 4.0和最新的…

Icarus翼星求生教你使用服务器开服

1、购买后登录服务器(百度莱卡云游戏面板) 登录面板的信息在绿色的登陆面板按键下方,不是你的莱卡云账号 进入控制面板后会出现正在安装的界面,大约10分钟左右就能安装完成 2、创建端口 点击目录上的网络,再次页面下点…

kali-linux-2023.4 安装与配置

kali官网 作者:程序那点事儿 日期:2024/01/15 21:34 进入kali官网,点到下载页面 选择安装方式(本次私用虚拟机安装)。裸机安装是指,先要安装虚拟机(例如:CentOS7&#xff09…

【算法】贪心+堆排序实现大根堆及标准库容器类的融合使用

📢博客主页:https://blog.csdn.net/2301_779549673 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正! 📢本文由 JohnKi 原创,首发于 CSDN🙉 📢未来很长&#…

centos7安装Redis单机版

一、检查是否有GCC环境 gcc --version # 提示-bash: gcc: 未找到命令 说明没有gcc环境# 安装gcc环境 yum install gcc# 如果yum源报错 # 1.检查网络是否正常 ping www.baidu.com # 2.备份当前的yum源 mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo…

IntraWeb制作汉堡菜单

IntraWeb开发web网站时如何制作手机页面? delphi源代码:示例两列布局带顶部汉堡菜单(兼容电脑与手机) 功能:交互式网页,两列布局,顶部汉堡菜单,点击汉堡图标关闭左侧栏,…

【NLP】基于“检测器-纠错器”中文文本纠错框架

前言 许多方法将中文拼写纠正(检测和纠正给定中文句子中的错误字符)视为序列标注任务,并在句子对上进行微调。一些方法使用错误检测器作为初步任务,然后将检测结果用于辅助后续的错误纠正过程。然而,现有方法在使用检…

RIFormer:保持你的视觉主干有效但移除令牌混合器

摘要 https://arxiv.org/pdf/2304.05659 本文研究了如何在去除其基本构建块中的标记混合器(token mixers)的同时保持视觉主干的有效性。标记混合器作为视觉变换器(Vision Transformers, ViTs)的自注意力机制,旨在实现…

java项目之新闻稿件管理系统(源码+文档)

项目简介 新闻稿件管理系统实现了以下功能: 新闻稿件管理系统的主要使用者管理员功能有个人中心,用户管理,记者管理,审批员管理,新闻分类管理,新闻信息管理,系统管理等。记者发布新闻信息&…

uniapp 整合 OpenLayer3

安装openLayer插件 命令行&#xff1a;npm install ol 安装sass插件 命令行&#xff1a;npm install -D sass 使用方法&#xff1a; *** *** <style scoped lang"scss"> </style> 安装ElementPlus 命令行&#xff1a;npm install element-plus -…

汽车零部件开发流程关键阶段

目录 1、定点阶段 1.1、定点前的准备工作 1.2、定点决策过程 1.3、定点后的工作交接 2、A样阶段&#xff1a;设计验证与基本功能实现 2.1、样件制作&#xff1a;从设计图纸到实物转化 2.2、功能测试&#xff1a;初步验证与性能评估 2.3、评估与优化&#xff1a;A样阶段…

Java数据库连接jdbc

Java数据库连接jdbc 导入java包 1、根目录&#xff0c;新建一个lib目录&#xff08;Dire&#xff09; 2、将jar包放入lib目录下 3、File -> Project Structure&#xff08;项目结构&#xff09; 4、Libraries-> ->java->找到项目的lib目录 5、Apply->OK使用JD…

下载2001年版英特尔开发手册与使用网易有道词典

本专栏的任务&#xff0c;是翻译2001年版英特尔开发手册的第3卷。上一节&#xff0c;我写了开篇语。本节&#xff0c;我是打算将这个版本的英特尔开发手册的下载方式公布出来。使得大家可以将其下载回去。如果你看的块的话&#xff0c;你可以自行翻译与学习。 一. 下载英特…

数据结构const char *INSTNAME[]

代码片段解析 #include <cstring> #include <fstream> #include <sstream> #include <string>const char *INSTNAME[]{"lui", "auipc", "jal", "jalr", "beq", "bne", "blt…

从理论到实践:解锁《数字化专业知识体系》助力企业数字化转型的落地之道

全面解码数字化转型——从理论构想到实践落地 在全球数字化浪潮的推动下&#xff0c;企业正面临前所未有的变革压力。虽然数字化转型的概念已经深入人心&#xff0c;但将其从战略蓝图转化为实际成果的过程仍充满挑战。《数字化专业知识体系》&#xff08;《Towards a Digital …

双目视觉路线,为什么一直没有存在感

“在大疆之前没有人做双目&#xff0c;现在基本上主流的都是单目加多传感器融合&#xff0c;推给车企的时候就会经历一个更长的过程。”一位前大疆车载员工曾这样向雷峰网《新智驾》表示。 双目视觉方案在车载上的应用起起伏伏&#xff0c;从早期的高端车型专属&#xff0c;到…