清华、北大、中科大、UMA、MSU五位博士生畅聊深度学习理论

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

伴随着深度学习的蓬勃发展，进入人们视线的好像都是算法或AlphaGo等应用层面的东西。但是在理论上，深度学习似乎却没有很出圈的相关理论。因此，部分人也在批评深度学习是缺乏理论的。我们也希望能通过本次的探讨，进一步明确深度学习在研究什么，同时分享各自对于深度学习理论的一些想法。

2022年10月20日，由国际信息中心主办，AI TIME承办的全球博士思辨“深度学习需要什么样的理论”，特别邀请了来自中科大-微软亚研院联培博士生王博涵、北京大学博士生张博航、密歇根安娜堡分校博士生马鉴昊、清华大学交叉信息研究院博士生滕佳烨、密歇根州立大学博士生毛海涛，与大家一起聊一聊深度学习需要什么样的理论。以下内容为嘉宾的聊天实录。

什么样的理论才是好的理论？

滕佳烨：最核心的一点是好的理论一定是符合实际的，即使理论中推导出的一些东西可能不严格满足要求。好的理论应该能去掉其中不重要的部分而保留重要的部分，最终给人们呈现出较好的结果。

王博涵：理论首先应该可以对现实进行好的建模，其次则是输出的结果应该能够指导一些事件。在做理论研究时，深度学习神经网络是一个非常复杂的东西，我们很难将每个东西都弄得很清楚。比如，在审阅理论类型文章的时候，我会先去判断这篇文章是否解决了一个问题；如果问题能够解决，并且结果可以在某种程度上达到我的预期，我就会认为这是个不错的工作。

张博航：针对好的理论要素方面，理论主要有几个目的，如对为什么能够生效提供好的解释。另外一点，理论毕竟是从数学层面研究问题的，因此需要具有较好的抽象性。对于是否是一个好的理论，不仅要看其是否general，还要看它的假设是否合理。好的理论还应去除掉那些不是很重要的繁文缛节，保留其核心部分。无论是优化还是泛化，深度学习中的大多数理论都是提供一种上界或下界的分析。那么好的理论就需要能够同时给出上界和下界并保证二者足够的接近。

马鉴昊：如今深度学习应用到的模型都是非常复杂的，无论是网络结构还是参数数量，更包括一些实际处理的问题。这也就会发展出一种复杂的理论使得解释的现象更加接近于现实。同时，为了发展一个复杂的理论，需要我们有更复杂的数学工具来支撑我们的理论。然而，即便部分理论极为复杂，但也会被认为是与实际情况不匹配的。如果相对简单的模型在某个特定方向上反映的结果比较符合实际生活中观察到的现象，那么这个理论也是有价值的。

张博航：以一篇鲁棒性领域的paper为例，文中提到的理论比较符合自己心中好的理论标准。首先，它是一个非常general的理论。大家都知道，神经网络可以拟合任意一个dataset，而且有些理论也表明需要的参数量和数据的个数相同即可进行拟合。然而这篇文章中提到的鲁棒性拟合指的是即便输入的数据点发生扰动，结果仍然能够具有鲁棒性。其general的特性是能够适应任何一种网络的。其结论同样令人印象深刻，大家最终也发现模型的量确实是非常大的。

王博涵：之前读到的一篇paper介绍的是正则领域非常重要的一件工作。该工作可以将一些全连接网络如CNN等都囊括进去，而且其提出了一个数学模型，叫做深度齐次网络。这个网络包含了很多东西，可以看成是提取了多种网络的特性。

马鉴昊：想分享的一篇paper做的是优化，其本身并不是偏理论的paper，但最大的贡献在于质疑了传统优化中的一些基本假设，并且从传统优化的角度来分析梯度下降。该paper提出步长不应设置过大，尤其是在局部函数值变换过大的情况下。在步长给定的时候，梯度下降跑出来的轨迹会逐渐趋向于一些区域，即步长会决定跑到的区域。这篇paper最大的价值可以认为是挖了一个坑，但同时也是优化领域比较出圈的工作。

毛海涛：比较推荐的一篇paper并不是纯理论，其作者在文中针对全局信息给出了一个具象化的概念，并用数学的方式去解释什么是全局信息。论文发现其实并不需要去建模self-intention层，只需要去建模全局信息就会取得很好的效果。这也相当于对什么是全局信息给定了一个参考，能够将原来的模型通过数学的方式进行抽象来更好地指导相关工作。

滕佳烨：自己要分享的generalization方向paper同样是挖了一个坑。论文讲的是给定一个下界，使得很多传统技术需要先绕过文中列举的反例，才能证明自己的技术是好用的。虽然是挖坑的工作，不过却能给我们带来很多想法上的创新。

理论和实践的关系应该是什么样的?

滕佳烨：在很多学科中，理论和实践都是密不可分的。但是深度学习领域有些不一样，理论和实践是交替上升的。实践进展飞速，理论倒是有些落后了。

毛海涛：理论和实践是缺一不可的。举个例子，实践能力就像是CPU，CPU越快就可能导致迭代的越快，自然效果也会更好。理论像是内存，如果研究领域较小，则CPU比较重要；研究领域过大，内存就会爆掉。周围的人也会对研究理论的想法不屑一顾，部分人认为对于机器学习最重要的还是算力的提升。算力提高了，很多问题也就迎刃而解了。但是理论更大的作用，在于为我们找出更好的道路。

张博航：对于理论指导实践这个问题，我觉得之所以很多人觉得当前的实践大幅领先理论，在于深度学习的实践过于复杂且很难抽象。如果我们考虑深度学习刚发展起来的那段时间，还是有一些理论影响到了深度学习的发展，如表达能力——两层神经网络可以拟合所有连续函数。另外，即使是其他领域，如优化领域其中的很多方法也都是先有理论才有的实践。说这些也是为了说明深度学习中的理论也不是完全和实践脱离的，很多工作依然是先有的理论，后有的实践应用。

毛海涛：很多观点说，越难的应用会带来更多的理论，因为我们需要应用来提高模型的表达能力。

马鉴昊：之前的科学领域都是理论领先于实践的，其他领域也大多如此。先是摸着石头过河，再总结出一套理论来指导实践。只不过目前大家对深度学习的关注比较多，因此相关争论也很多。没有理论指导的话，也会衍生出一些问题。如果我们的理论足够general，我们也会有足够的底气相信最终可以生效。针对算力才是王道的说法，问题在于算力是很昂贵且对环境不友好的。如果我们能找到一个比较简单或者对算力需求较小的模型，我会偏向于这个小模型。

滕佳烨：经验有时也是会骗人的，我们如果总是依赖经验也难免会犯错。我最初接触到的深度学习理论是图优化，尤其是在完成第一份相关作业的时候一直在调学习率，找到正确结果后瞬间就发现结果会变得非常好，自然而然也就产生了兴趣。有些事情比如我们知道不能在训练集上做测试，都是理论告诉我们的——在训练集上做测试会出问题。

王博涵：之前大家看深度神经网络，会认为这是一个黑盒子。而理论就是将这个黑盒子白盒化的过程。如今的理论还处在向实践提问的过程，这样看来一些很小的观点同样也是一个理论。大家刚刚谈了很多理论到实践，我们也可以说一下从实践到理论。实践到理论并不是指实践为理论开辟了很多问题，我们在做这些东西的时候也是一种多次去验证理论是否正确的过程。通过大规模的实验，也是可以帮助我们确定理论上哪里是能够走通的，这也是我认为深度学习有趣的地方。

理论中现在比较有前景的方向有哪些？

王博涵：比较有前景的方向大概可以分为几类，比如对所有神经网络在理论上可以分为三类：泛化、优化和逼近能力。现在的问题在于泛化能力的优势比较难解释，而一个有前景的方向就是将优化和泛化结合起来。其他的新兴方向，如GNN的优化和泛化也可能会有一些新的问题出现。这方面的理论同样存在很多有价值和有趣的内容。另外，如果是数学专业的研究者，用神经网络去做一些微分方程相关的工作虽然没有那么理论，但同样是一项很有意义的工作。

毛海涛：GNN兴起的原因在于图是一种相当general的形式，可以帮助我们研究所有问题。

张博航：一些比较有前景的方向是那些可以处理结构化数据的网络，比如输入是一个集合或者点云，甚至还可以设计一些关于表格的神经网络。这里的难点在于对称性的保持，我觉得这个领域是很重要的，而且也是十分有趣的。这个领域还需要用到比传统深度学习更高层面的一些工具来研究，如群论、抽象代数等等。给我的感觉是这个领域和我之前认识的深度学习领域完全不一样，用到的工具甚至已经不是我们常用的那套数学工具了。

马鉴昊：比较有意思的方向是优化领域。目前优化领域有个非常火的方向是怎样用深度学习的方法来学习一个优化器。之前我们说深度学习是一个非凸优化，在给定优化目标的同时，用深度学习的方法来学习一个优化器就可以极大的缩小优化时间。不过在我的认知里，这个方向目前只在case by case的小规模问题上效果较好。

滕佳烨：目前在做的泛化方向可以说是非常之难，困难点在于训练集和训练参数之间存在一个dependency，这个dependency却非常难处理。这也是大家仍旧在努力做的一个方向，同时也在努力将深度学习的元素加入到泛化之中。泛化领域同样十分受人关注，很多领域都可以基于泛化领域的结论进行之后的推理。然而，泛化领域毕竟已经研究了这么多年，可挖掘的点也没有那么多了。大家如果想选择这个领域还是要谨慎。刚刚听到他人对于工具的介绍，我也有思考泛化是否可以将一些新的工具引入进来，最终得到一些新的结果，这也是之后我要考虑的。

毛海涛：有人说一个模型很难在所有地方都取得很好的效果，总有个优劣之分。但是现在的一些OOD泛化都不会强调自己是在什么OOD场景下做泛化。大多数都是自己构建一个数据集，比如image的背景或颜色换了，就统称为OOD。我们都不知道OOD算法能在什么场景之下起到作用，这个gap也值得后续的探索。

给startup哪些建议？

滕佳烨：第一就是不要急着去发论文。理论上的研究很依赖平时的积累，需要一步一步的打好基本盘。不妨先去关注一个问题，慢慢地吃透这个问题。理论如果没有一个宏观想法，就很难去入手。这都需要我们一步一步的去积累，形成对问题的看法。当然，这也需要我们去看一些好的论文。最后是需要放平心态，毕竟理论这个领域就是很难发表论文的，不必急着出成果，而是要先把脚步放慢下来。

王博涵：理论确实是一个比较难的领域。对于新人，有些必要的知识都是需要先行了解的，如分析学、概率学等知识。无论去做什么领域的理论，都避不开这些基础知识。而如果有些对特定领域感兴趣的新人，可以先去看一下该领域学者用到的技术进行积累。我也建议新人多和高年级的同学聊一聊，可能也会发现他们的想法有所不同，对于自己也是个很好的补充。

马鉴昊：对于深度学习的理论，这其实是个很有迷惑性的名字。虽然名字是理论，但是要解释的是深度学习，和纯数学等领域还是很不一样的。这里是需要时不时跑一些小实验的，一方面的因为我们想要解释实际生活中的一些现象，另一方面也是深度学习本身还是一个比较复杂的学科，还是会有很多因素影响到最后的现象。

张博航：想要入坑最好的方法其实是多看几篇较好的文章，然后从那些文章的topic入手。我顺着那篇paper先看了证明，再想了下是否可以接着往下做。我认为最好的方法是先确定一个问题，将与问题相关的paper都读了，证明也看了，就会对相关技术有一个大致的了解。这样一来，目前积累的理论对于解决这个问题也就够用了。用到哪些，就去学相关的理论是一个比较好的方式。

毛海涛：建议最好先确保最基础的数学知识过关，如线性代数等。从应用转向理论，关键在于不要被理论工作的繁多内容吓退。

针对平时研究复杂理论遇到障碍卡住的经历，大家也都分享了各自的应对方法。

滕佳烨：如果能确定问题的困难点在哪里且能通过技术绕过去的话，是可以找周围的人请教一下。如果不知道问题的困难点，可能需要从头到尾梳理一下前面的内容。

马鉴昊：实在被一个问题卡住的话，不妨同时并行几个项目。这个问题卡住了，我们可以去继续其他问题的研究。这样也不会因为总是卡在一个问题上而感到烦闷。

张博航：曾经试过一种有效的方式，当我们卡住的时候就去举几个反例。如果还是证不出来，那么意味着这可能是正确的。而反例举不出来可能就是因为这里卡住了，那么我证明的时候把这部分用上，可能就会涌现新的思路。

本期的全球博士思辨“深度学习需要什么样的理论”吸引了约2.4万专业领域观众观看，线上观众也沉浸在这场深度学习理论的思辨中，未来也期待更多的青年学者在深度学习领域大放异彩。

往期精彩文章推荐

记得关注我们呀！每天都有新知识！

关于国际科技信息中心

国际科技信息中心由市科创委统筹，清华大学深圳国际研究生院牵头，超算中心、市科技图书馆、深圳清华研究院合作共建而成。中心立足深圳，面向世界，充分发挥深圳创新活跃、高新技术发达优势，致力于打造涵盖基础设施、科技文献、科学数据、情报信息、高端智库、智能服务等体系的“科技超脑”数智平台，赋能粤港澳大湾区科研与产业，加速科技创新，有力支撑粤港澳大湾区国际科技创新中心和综合性国家科学中心建设。

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了800多位海内外讲者，举办了逾400场活动，超400万人次观看。