清华、北大、中科大、UMA、MSU五位博士生畅聊深度学习理论

news2024/12/27 12:31:45

点击蓝字

49cd9de4f8f9ff53ea2b15d2a1cb92ab.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

e4b42a3bd4ad36f41b6d485db7d47470.gif

伴随着深度学习的蓬勃发展,进入人们视线的好像都是算法或AlphaGo等应用层面的东西。但是在理论上,深度学习似乎却没有很出圈的相关理论。因此,部分人也在批评深度学习是缺乏理论的。我们也希望能通过本次的探讨,进一步明确深度学习在研究什么,同时分享各自对于深度学习理论的一些想法。

2022年10月20日,由国际信息中心主办,AI TIME承办的全球博士思辨“深度学习需要什么样的理论”,特别邀请了来自中科大-微软亚研院联培博士生王博涵、北京大学博士生张博航、密歇根安娜堡分校博士生马鉴昊、清华大学交叉信息研究院博士生滕佳烨、密歇根州立大学博士生毛海涛,与大家一起聊一聊深度学习需要什么样的理论。以下内容为嘉宾的聊天实录。

1

什么样的理论才是好的理论?

滕佳烨:最核心的一点是好的理论一定是符合实际的,即使理论中推导出的一些东西可能不严格满足要求。好的理论应该能去掉其中不重要的部分而保留重要的部分,最终给人们呈现出较好的结果。

王博涵:理论首先应该可以对现实进行好的建模,其次则是输出的结果应该能够指导一些事件。在做理论研究时,深度学习神经网络是一个非常复杂的东西,我们很难将每个东西都弄得很清楚。比如,在审阅理论类型文章的时候,我会先去判断这篇文章是否解决了一个问题;如果问题能够解决,并且结果可以在某种程度上达到我的预期,我就会认为这是个不错的工作。

张博航:针对好的理论要素方面,理论主要有几个目的,如对为什么能够生效提供好的解释。另外一点,理论毕竟是从数学层面研究问题的,因此需要具有较好的抽象性。对于是否是一个好的理论,不仅要看其是否general,还要看它的假设是否合理。好的理论还应去除掉那些不是很重要的繁文缛节,保留其核心部分。无论是优化还是泛化,深度学习中的大多数理论都是提供一种上界或下界的分析。那么好的理论就需要能够同时给出上界和下界并保证二者足够的接近。

马鉴昊:如今深度学习应用到的模型都是非常复杂的,无论是网络结构还是参数数量,更包括一些实际处理的问题。这也就会发展出一种复杂的理论使得解释的现象更加接近于现实。同时,为了发展一个复杂的理论,需要我们有更复杂的数学工具来支撑我们的理论。然而,即便部分理论极为复杂,但也会被认为是与实际情况不匹配的。如果相对简单的模型在某个特定方向上反映的结果比较符合实际生活中观察到的现象,那么这个理论也是有价值的。

张博航:以一篇鲁棒性领域的paper为例,文中提到的理论比较符合自己心中好的理论标准。首先,它是一个非常general的理论。大家都知道,神经网络可以拟合任意一个dataset,而且有些理论也表明需要的参数量和数据的个数相同即可进行拟合。然而这篇文章中提到的鲁棒性拟合指的是即便输入的数据点发生扰动,结果仍然能够具有鲁棒性。其general的特性是能够适应任何一种网络的。其结论同样令人印象深刻,大家最终也发现模型的量确实是非常大的。

王博涵:之前读到的一篇paper介绍的是正则领域非常重要的一件工作。该工作可以将一些全连接网络如CNN等都囊括进去,而且其提出了一个数学模型,叫做深度齐次网络。这个网络包含了很多东西,可以看成是提取了多种网络的特性。

马鉴昊:想分享的一篇paper做的是优化,其本身并不是偏理论的paper,但最大的贡献在于质疑了传统优化中的一些基本假设,并且从传统优化的角度来分析梯度下降。该paper提出步长不应设置过大,尤其是在局部函数值变换过大的情况下。在步长给定的时候,梯度下降跑出来的轨迹会逐渐趋向于一些区域,即步长会决定跑到的区域。这篇paper最大的价值可以认为是挖了一个坑,但同时也是优化领域比较出圈的工作。

毛海涛:比较推荐的一篇paper并不是纯理论,其作者在文中针对全局信息给出了一个具象化的概念,并用数学的方式去解释什么是全局信息。论文发现其实并不需要去建模self-intention层,只需要去建模全局信息就会取得很好的效果。这也相当于对什么是全局信息给定了一个参考,能够将原来的模型通过数学的方式进行抽象来更好地指导相关工作。

滕佳烨:自己要分享的generalization方向paper同样是挖了一个坑。论文讲的是给定一个下界,使得很多传统技术需要先绕过文中列举的反例,才能证明自己的技术是好用的。虽然是挖坑的工作,不过却能给我们带来很多想法上的创新。

2

理论和实践的关系应该是什么样的?

滕佳烨:在很多学科中,理论和实践都是密不可分的。但是深度学习领域有些不一样,理论和实践是交替上升的。实践进展飞速,理论倒是有些落后了。

毛海涛:理论和实践是缺一不可的。举个例子,实践能力就像是CPU,CPU越快就可能导致迭代的越快,自然效果也会更好。理论像是内存,如果研究领域较小,则CPU比较重要;研究领域过大,内存就会爆掉。周围的人也会对研究理论的想法不屑一顾,部分人认为对于机器学习最重要的还是算力的提升。算力提高了,很多问题也就迎刃而解了。但是理论更大的作用,在于为我们找出更好的道路。

张博航:对于理论指导实践这个问题,我觉得之所以很多人觉得当前的实践大幅领先理论,在于深度学习的实践过于复杂且很难抽象。如果我们考虑深度学习刚发展起来的那段时间,还是有一些理论影响到了深度学习的发展,如表达能力——两层神经网络可以拟合所有连续函数。另外,即使是其他领域,如优化领域其中的很多方法也都是先有理论才有的实践。说这些也是为了说明深度学习中的理论也不是完全和实践脱离的,很多工作依然是先有的理论,后有的实践应用。

毛海涛:很多观点说,越难的应用会带来更多的理论,因为我们需要应用来提高模型的表达能力。

马鉴昊:之前的科学领域都是理论领先于实践的,其他领域也大多如此。先是摸着石头过河,再总结出一套理论来指导实践。只不过目前大家对深度学习的关注比较多,因此相关争论也很多。没有理论指导的话,也会衍生出一些问题。如果我们的理论足够general,我们也会有足够的底气相信最终可以生效。针对算力才是王道的说法,问题在于算力是很昂贵且对环境不友好的。如果我们能找到一个比较简单或者对算力需求较小的模型,我会偏向于这个小模型。

滕佳烨:经验有时也是会骗人的,我们如果总是依赖经验也难免会犯错。我最初接触到的深度学习理论是图优化,尤其是在完成第一份相关作业的时候一直在调学习率,找到正确结果后瞬间就发现结果会变得非常好,自然而然也就产生了兴趣。有些事情比如我们知道不能在训练集上做测试,都是理论告诉我们的——在训练集上做测试会出问题。

王博涵:之前大家看深度神经网络,会认为这是一个黑盒子。而理论就是将这个黑盒子白盒化的过程。如今的理论还处在向实践提问的过程,这样看来一些很小的观点同样也是一个理论。大家刚刚谈了很多理论到实践,我们也可以说一下从实践到理论。实践到理论并不是指实践为理论开辟了很多问题,我们在做这些东西的时候也是一种多次去验证理论是否正确的过程。通过大规模的实验,也是可以帮助我们确定理论上哪里是能够走通的,这也是我认为深度学习有趣的地方。

3

理论中现在比较有前景的方向有哪些?

王博涵:比较有前景的方向大概可以分为几类,比如对所有神经网络在理论上可以分为三类:泛化、优化和逼近能力。现在的问题在于泛化能力的优势比较难解释,而一个有前景的方向就是将优化和泛化结合起来。其他的新兴方向,如GNN的优化和泛化也可能会有一些新的问题出现。这方面的理论同样存在很多有价值和有趣的内容。另外,如果是数学专业的研究者,用神经网络去做一些微分方程相关的工作虽然没有那么理论,但同样是一项很有意义的工作。

毛海涛:GNN兴起的原因在于图是一种相当general的形式,可以帮助我们研究所有问题。

张博航:一些比较有前景的方向是那些可以处理结构化数据的网络,比如输入是一个集合或者点云,甚至还可以设计一些关于表格的神经网络。这里的难点在于对称性的保持,我觉得这个领域是很重要的,而且也是十分有趣的。这个领域还需要用到比传统深度学习更高层面的一些工具来研究,如群论、抽象代数等等。给我的感觉是这个领域和我之前认识的深度学习领域完全不一样,用到的工具甚至已经不是我们常用的那套数学工具了。

马鉴昊:比较有意思的方向是优化领域。目前优化领域有个非常火的方向是怎样用深度学习的方法来学习一个优化器。之前我们说深度学习是一个非凸优化,在给定优化目标的同时,用深度学习的方法来学习一个优化器就可以极大的缩小优化时间。不过在我的认知里,这个方向目前只在case by case的小规模问题上效果较好。

滕佳烨:目前在做的泛化方向可以说是非常之难,困难点在于训练集和训练参数之间存在一个dependency,这个dependency却非常难处理。这也是大家仍旧在努力做的一个方向,同时也在努力将深度学习的元素加入到泛化之中。泛化领域同样十分受人关注,很多领域都可以基于泛化领域的结论进行之后的推理。然而,泛化领域毕竟已经研究了这么多年,可挖掘的点也没有那么多了。大家如果想选择这个领域还是要谨慎。刚刚听到他人对于工具的介绍,我也有思考泛化是否可以将一些新的工具引入进来,最终得到一些新的结果,这也是之后我要考虑的。

毛海涛:有人说一个模型很难在所有地方都取得很好的效果,总有个优劣之分。但是现在的一些OOD泛化都不会强调自己是在什么OOD场景下做泛化。大多数都是自己构建一个数据集,比如image的背景或颜色换了,就统称为OOD。我们都不知道OOD算法能在什么场景之下起到作用,这个gap也值得后续的探索。

4

给startup哪些建议?

滕佳烨:第一就是不要急着去发论文。理论上的研究很依赖平时的积累,需要一步一步的打好基本盘。不妨先去关注一个问题,慢慢地吃透这个问题。理论如果没有一个宏观想法,就很难去入手。这都需要我们一步一步的去积累,形成对问题的看法。当然,这也需要我们去看一些好的论文。最后是需要放平心态,毕竟理论这个领域就是很难发表论文的,不必急着出成果,而是要先把脚步放慢下来。

王博涵:理论确实是一个比较难的领域。对于新人,有些必要的知识都是需要先行了解的,如分析学、概率学等知识。无论去做什么领域的理论,都避不开这些基础知识。而如果有些对特定领域感兴趣的新人,可以先去看一下该领域学者用到的技术进行积累。我也建议新人多和高年级的同学聊一聊,可能也会发现他们的想法有所不同,对于自己也是个很好的补充。

马鉴昊:对于深度学习的理论,这其实是个很有迷惑性的名字。虽然名字是理论,但是要解释的是深度学习,和纯数学等领域还是很不一样的。这里是需要时不时跑一些小实验的,一方面的因为我们想要解释实际生活中的一些现象,另一方面也是深度学习本身还是一个比较复杂的学科,还是会有很多因素影响到最后的现象。

张博航:想要入坑最好的方法其实是多看几篇较好的文章,然后从那些文章的topic入手。我顺着那篇paper先看了证明,再想了下是否可以接着往下做。我认为最好的方法是先确定一个问题,将与问题相关的paper都读了,证明也看了,就会对相关技术有一个大致的了解。这样一来,目前积累的理论对于解决这个问题也就够用了。用到哪些,就去学相关的理论是一个比较好的方式。

毛海涛:建议最好先确保最基础的数学知识过关,如线性代数等。从应用转向理论,关键在于不要被理论工作的繁多内容吓退。

针对平时研究复杂理论遇到障碍卡住的经历,大家也都分享了各自的应对方法。

滕佳烨:如果能确定问题的困难点在哪里且能通过技术绕过去的话,是可以找周围的人请教一下。如果不知道问题的困难点,可能需要从头到尾梳理一下前面的内容。

马鉴昊:实在被一个问题卡住的话,不妨同时并行几个项目。这个问题卡住了,我们可以去继续其他问题的研究。这样也不会因为总是卡在一个问题上而感到烦闷。

张博航:曾经试过一种有效的方式,当我们卡住的时候就去举几个反例。如果还是证不出来,那么意味着这可能是正确的。而反例举不出来可能就是因为这里卡住了,那么我证明的时候把这部分用上,可能就会涌现新的思路。

本期的全球博士思辨“深度学习需要什么样的理论”吸引了约2.4万专业领域观众观看,线上观众也沉浸在这场深度学习理论的思辨中,未来也期待更多的青年学者在深度学习领域大放异彩。

往期精彩文章推荐

bc6b823ff3e89329b2327c98a6588491.jpeg

记得关注我们呀!每天都有新知识!

 关于国际科技信息中心 

 国际科技信息中心由市科创委统筹,清华大学深圳国际研究生院牵头,超 算中心、市科技图书馆、深圳清华研究院合作共建而成。中心立足深圳,面向世界,充分发挥深圳创新活跃、高新技术发达优势,致力于打造涵盖基础设施、科技文献、科学数据、情报信息、高端智库、智能服务等体系的“科技超脑”数智平台,赋能粤港澳大湾区科研与产业,加速科技创新,有力支撑粤港澳大湾区国际科技创新中心和综合性国家科学中心建设。

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了800多位海内外讲者,举办了逾400场活动,超400万人次观看。

1079726cdb5887b722910ff4aa2f6316.png

我知道你

在看

~

6fcd921b81486ed186ae82711577a5e5.gif

点击 阅读原文 查看回放!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/62290.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

易基因课程回顾|表观遗传学和表观育种在品种改良中的应用研究

大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。 传统作物育种包括杂交、选择所需性状的遗传变异,导致遗传基础缩窄和遗传多样性缺失,从而阻碍作物改良。表型性状受遗传学和表观遗传学影响,利用表观遗传…

简单个人网页设计作业 静态HTML个人主题网页作业 DW个人网站模板下载 大学生简单个人网页作品代码 个人网页制作 学生个人网页Dreamweaver设计作业

🎉精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业…

Spring框架(十二):实现日志功能通过SpringBean后处理器

实现日志功能通过SpringBean后处理器引子需求分析实现Log功能Spring Bean的后置处理器引子 痛定思痛,主要问题出现在自己雀氏不熟悉框架底层、一些面试题,以及sql的一些情况淡忘了。 本章节的开始是对于过去的重新回顾,当然,我也…

技术分享 | 使用 Zabbix + Grafana 搭建服务器监控系统

搭建 Linux 服务器监控的目的是防止以下现象:自己有一台阿里云服务器内存是 2g 的 , 多开一些软件就会把内存和 CPU 使用率弄的很高,最终导致服务器卡死。 所以基于这个痛点,想知道当前的 CPU 和内存是多少。阿里云 ECS 控制台中也提供对服务…

【自适应滤波】基于FxLMS的样条自适应滤波算法分析(Matlab代码实现)

👨‍🎓个人主页:研学社的博客 💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜…

DockerCompose安装、使用及微服务部署实操

1 什么是DockerCompose DockerCompose是基于Compose文件帮助我们快速的部署分布式应用。 解决容器需手动一个个创建和运行的问题! Compose文件本质上是一个文本文件,其通过指令定义集群中的每个容器如何运行。 我们可以将其看做是将多个docker run命令…

RTLinux的介绍

RTLinux RTLinux是由美国新墨西哥州的fsmlabs(finite state machine labs, 有限状态机实验室)公司开发的、利用linux开发的面向实时和嵌入式应用的操作系统。在rtlinux宣言中,这样描述rtlinux : rtlinux is the hard realtime variant of linux that mak…

基于LLVM的AFL分析

简介 Fuzzing是指通过构造测试输入,对软件进行大量测试来发现软件中的漏洞的一种模糊测试方法。当前大多数远程代码执行和特权提升等比较严重的漏洞都是使用Fuzzing技术挖掘的,Fuzzing技术被证明是当前鉴别软件安全问题方面最强大测试技术。 然而Fuzzin…

Linux Shell 脚本的10个高频面试问答

Linux 的浩瀚无垠,使人总能每次都提交与众不同的内容。这些内容不仅对他们的职业生涯很有用,同时也让他们增长知识。在此,我们就尝试这么去做,至于能取得多大的成功,就由我们的读者朋友们来判断吧。 在此,…

CopyOnWriteArrayList真的线程安全吗?

前几天刷博客时,无意中看到一篇名为《CopyOnWriteArrayList真的完全线程安全吗》博客。心中不禁泛起疑问,它就是线程安全的啊,难道还有啥特殊情况? 我们知道CopyOnWrite的核心思想正如其名:写时复制。在对数据有修改操…

只要背着电脑,他可以去任何地方

12月是微软全球开发者月,MSDN 微软开发者社区将在此期间推出特别专栏《技术狂旅》,解读这些技术狂热爱好者的个人经历,循着他们的人生旅程看到我们自己的影子,希望能带给你一些启发或激励,一起探寻自身更多的可能性。 …

Android三种数据存储的方式

文章目录Android数据存储技术持久化技术文件存储将数据存储到文件当中示例_将数据存储到文件当中示例_从文件当中读取数据SharedPreferences存储将数据存储到SharedPreferences1.Context类中getSharedPreferences()方法2.Activity类中的getSharedPreferences()方法往SharedPref…

html+css鼠标悬停发光按钮![HTML鼠标悬停的代码]使用HTML + CSS实现鼠标悬停的一些奇幻效果!

源码如下: <!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title></title> <style> *{ /* 初始化 清除页面元素得内外边距 */ paddin…

【HTML期末作业】大学生抗疫感动专题网页设计作业 抗疫最美逆行者网页 致敬疫情感动人物网页设计制作

&#x1f389;精彩专栏推荐 &#x1f4ad;文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 &#x1f482; 作者主页: 【主页——&#x1f680;获取更多优质源码】 &#x1f393; web前端期末大作业&#xff1a; 【&#x1f4da;毕设项目精品实战案例 (10…

LIN总线入门

文章目录 前言一、LIN简介1.1 什么是LIN&#xff1f;1.2 为什么要LIN总线1.3 LIN的发展历史1.4 LIN子网1.5 LIN节点1.6 LIN总线特点 二、LIN的协议层2.1 帧结构2.1.1 同步间隔段(Break Field)2.1.2 同步段(Sync Byte Field)2.1.3 受保护 ID 段(Protected Identifier Field)2.1.…

SpringBoot3.x中spring.factories功能被移除的解决方案

背景笔者所在项目组在搭建一个全新项目的时候选用了SpringBoot3.x&#xff0c;项目中应用了很多SpringBoot2.x时代相关的第三方组件例如baomidou出品的mybatis-plus、dynamic-datasource等。在配置好相关依赖、最小启动类和配置之后&#xff0c;发现项目无法启动。于是根据启动…

万字大章_标题、段落、链接、图像等_HTML入门必备基础

万字大章_HTML入门必备基础HTML篇_第四章、HTML基础一、标题二、段落三、链接3.1文本超链接3.2锚点链接3.3功能性链接四、图像4.1 图像标签&#xff08;<img>&#xff09;和源属性&#xff08;Src&#xff09;4.2 alt属性4.3title属性4.4、设置图像4.4.1设置图像的宽度和…

awk命令的使用

1、获取根分区剩余大小 先用df -h命令查看磁盘&#xff0c;确定我们需要获取字段的位置 再使用awk命令获取此字段 df -hdf -h | awk NR6 {print $4}2、获取当前机器ip地址 ifconfig | awk NR2 {print $2}3、统计出apache的access.log中访问量最多的5个IP 使用awk {print $…

Flink CDC-2.3版本概述

问题导读&#xff1a;1、Flink CDC 2.3 版本有哪些重大改进和核心特性&#xff1f; 2、Flink CDC 2.3 版本中MySQL CDC 连接器有哪些优化&#xff1f; 3、Flink CDC 2.4 版本有哪些规划&#xff1f;01 Flink CDC 简介Flink CDC [1] 是基于数据库的日志 CDC 技术&#xff0c;实现…

HTML5期末大作业:基于HTML+CSS+JavaScript校园文化企业网站模板【学生网页设计作业源码】

&#x1f389;精彩专栏推荐 &#x1f4ad;文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 &#x1f482; 作者主页: 【主页——&#x1f680;获取更多优质源码】 &#x1f393; web前端期末大作业&#xff1a; 【&#x1f4da;毕设项目精品实战案例 (10…