每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
人工神经网络——受生物大脑启发的算法——是现代人工智能的核心,无论是聊天机器人还是图像生成器都依赖于它们。然而,由于其众多神经元,神经网络常常成为黑箱,用户难以理解其内部运作。
研究人员现在创造了一种从根本上新的神经网络方式,在某些方面超越了传统系统。据称,这些新网络不仅更具解释性,而且更准确,即使规模更小。其开发者表示,这种学习简洁表示物理数据的新方法可能帮助科学家发现新的自然法则。
“看到有新的架构出现,真是太好了。”
——约翰霍普金斯大学布莱斯·梅纳德
过去十多年里,工程师们主要通过反复试验来调整神经网络设计。约翰霍普金斯大学的物理学家布莱斯·梅纳德研究神经网络的运行方式,但并未参与这项新工作,该研究于四月在arXiv上发布。“看到有新的架构出现,真是太好了,”他说,尤其是一种从基本原理设计的架构。
可以将神经网络比作神经元(或节点)和突触(或连接那些节点的链接)。在传统神经网络(称为多层感知机,MLP)中,每个突触学习一个权重——一个确定两个神经元之间连接强度的数字。神经元按层排列,一个层的神经元从前一层的神经元接受输入信号,并根据突触连接的强度加权。然后,每个神经元对其输入总和应用一个简单函数,称为激活函数。
在新的架构中,突触扮演更复杂的角色。它们不仅学习两个神经元之间连接的强度,还学习这种连接的完整性质——从输入到输出的映射函数。与传统架构中神经元使用的激活函数不同,这个函数可能更复杂——实际上是一个“样条”或多个函数的组合——并且在每个实例中不同。另一方面,神经元变得更简单——它们只是对所有前置突触的输出求和。这些新网络称为Kolmogorov-Arnold网络(KAN),以研究函数如何组合的两位数学家命名。其理念是,KAN在学习表示数据时提供更大的灵活性,同时使用更少的学习参数。
“这就像一种外星生命,从不同角度看待事物,但对人类来说也容易理解。”
——麻省理工学院的刘子明
研究人员在相对简单的科学任务上测试了他们的KANs。在一些实验中,他们采用简单的物理定律,例如两个相对论速度物体相遇的速度。他们使用这些方程生成输入-输出数据点,然后对每个物理函数,训练一个网络并测试其余数据。他们发现,增加KANs的规模比增加MLPs的规模更快地提高其性能。在求解偏微分方程时,一个KAN比拥有100倍参数的MLP准确100倍。
在另一实验中,他们训练网络根据拓扑结的其他属性预测其标记属性。一个MLP使用约300,000个参数达到了78%的测试准确率,而一个KAN使用仅约200个参数达到了81.6%的测试准确率。
此外,研究人员可以直观地绘制KANs的图,查看激活函数的形状以及每个连接的重要性。他们可以手动或自动修剪弱连接,并用更简单的函数(如正弦或指数函数)替换一些激活函数。然后,他们可以将整个KAN简洁地总结为一个直观的单行函数(包括所有组件激活函数),在某些情况下完全重构生成数据集的物理函数。
“未来,我们希望它能成为日常科学研究的有用工具,”麻省理工学院的计算机科学家、该论文的第一作者刘子明说。“给我们一个我们不知道如何解释的数据集,我们把它交给KAN,它可以为你生成一些假设。你只需盯着大脑(KAN图)看,如果你愿意,还可以对其进行手术。”你可能会得到一个简洁的函数。“这就像一种外星生命,从不同角度看待事物,但对人类来说也容易理解。”
已经有几十篇论文引用了KAN预印本。“我一看到它就觉得非常激动,”阿根廷圣安德烈斯大学的计算机科学本科生亚历山大·博德纳说。在一周内,他和三名同学将KAN与卷积神经网络(CNN)结合,这是一种处理图像的流行架构。他们测试了他们的卷积KANs在分类手写数字或衣物上的能力。最好的卷积KANs在参数使用量减少约60%的情况下,与传统CNN的性能大致相当(两者在数字分类上均达到99%的准确率,在衣物分类上均达到90%)。尽管这些数据集相对简单,但博德纳表示,其他拥有更多计算能力的团队已经开始扩展这些网络。其他人将KAN与在大规模语言模型中流行的Transformer架构结合。
KANs的一个缺点是每个参数的训练时间更长——部分原因是它们无法利用GPU。但它们需要更少的参数。刘子明指出,即使KANs无法取代用于处理图像和语言的巨型CNN和Transformer,训练时间在许多物理问题的小规模下也不会成为问题。他正在研究专家如何将其先验知识插入KANs——例如通过手动选择激活函数——并使用简单界面轻松从中提取知识。未来,他说,KANs可能帮助物理学家发现高温超导体或控制核聚变的方法。