文 | 智商掉了一地

2018 年图灵奖获得者、AI 先驱、深度学习三巨头之一、对抗生成网络 GAN、标志性的银灰卷发和浓眉，如果还没猜到的话，当你看到这个封面，一定就会意识到自己在学习的路上，已经或间接或直接地拜读过大佬的著作了。

看到花书的封面，和前面的关键词，也许你会意识到，他就是——Yoshua Bengio。

从下面这个记录可以看出，他的著作在谷歌学术上的引用量也是一骑绝尘。

就在这两天的 NeurIPS 2022 New in ML Workshop 上，Yoshua Bengio 做了一个 Live Talk，介绍了自己从本科毕业开始，一直到现在的人生之路。

链接:
https://nehzux.github.io/NewInML2022NeurIPS/assets/YoshuaBengio-NewInML-NeurIPS-28nov2022.pdf

接下来，就是Bengio在大会上亲口讲述“自己一生”的故事。

从最初本科毕业时的“广度优先搜索”，了解到 Hinton 的连接主义，到探索人脑、初代语言模型、注意力机制等等，以及度过人工智能寒冬，再到现在探索抽象、生成流网络、Ai4Science、HLAI(人类级别智能)、意识先验、System-2、因果推断、元学习、模块化等重要且新颖的领域。Yoshua Bengio 回顾了自己的科研生涯，他说“Staying Humble”。

爱上一个研究方向

一开始，Yoshua 讲述了“他是如何爱上一个研究方向”。

1985 - 1986 年，他刚读完本科，思索自己下一步要做什么，阅读了大量不同领域的论文，将视线聚焦于神经网络研究，尤其是 Geoff Hinton 和 David Rumelhart 等其他早期连接主义者的论文。
1986 - 1988 年，Yoshua 进一步阅读玻尔兹曼机，实现音素分类，完成了关于语音识别的玻尔兹曼机的硕士论文，而后当了解到反向传播时，对它感到兴奋，并开始使用它，在之后参加了 1988 年连接主义的暑期学校，遇到了许多其他充满热情的研究生和研究人员们。
1988-1991 年，Yoshua 完成了关于神经网络(RNNs 和 ConvNets)和 HMM 混合的博士论文。

神经网络与人工智能

随后，Yoshua 阐述了自己的工作中对于神经网络与 AI 的理解。从一个令人兴奋的先验知识出发，他指出，通过学习，智能（机器、人类或动物）的产生是有一些原则的，这些原则非常简单，可以被简洁地描述出来，类似于物理定律，也就是说，我们的智能不只是一堆技巧和知识的结果，而是获取知识的一般机制。

他还辨析了传统 AI 和机器学习的要点，提到了人工智能的机器学习方法：

经典的 AI 一般是基于规则、基于符号的：其知识由人类提供，但直觉知识是不可传播的，机器只做推理工作，没有很强的学习和适应能力，对不确定性的处理能力不足。
而机器学习则试图解决这些问题：在很大程度上取得了成功，但更高层次的（有意识的）认知尚未实现。

而后 Yoshua 从维度诅咒和分布式表示（指数级优势）这两个细节出发，强调了促使 ML 向 AI 转变的五个关键因素：

海量&海量的数据；
非常灵活的模型；
足够的算力；
计算效率推断；
强大的先验知识，可以打破“维度诅咒”，实现对新情况的强泛化。

他还提到了脑启发（Brain-inspired），以及如下特性：

大量简单自适应计算单元的协同作用；
关注分布式表示（如单词表示）；
视智能为结合的产物（近似优化器、初始架构/参数化）；
端到端学习

长期依赖和梯度下降

紧接着，Yoshua 回顾了机器学习 101 课程的要点：

函数族；
可调参数；
从未知数据中抽样的例子产生分布；
对经过训练的函数所产生的误差的度量；
近似最小化算法搜索最佳参数选择，迭代减少平均训练误差

又引出了他们自己 1994 年的工作 "Learning Long-Term Dependencies with Gradient Descent is Difficult" ，并强调了他的经验：负面结果可能非常重要，它教会了我们一些东西，推动了许多下游研究，比如 2014 年关于自注意力机制的工作。

接下来他展开介绍了这项工作：

如何存储 1 bit？在某些维度上有多个引力盆地的动力学

如果动力系统在某些维度上有多个吸引域，则状态的某些子空间可以存储 1 bit 或多个 bit 信息。

在有界噪声存在的情况下稳健地存储 1 bit：

光谱半径 > 1，噪声可以踢出吸引子的状态（不稳定）；
而当半径 < 1时就不是这样了（收缩→稳定）。

可靠地存储→消失的梯度

可靠地存储比特信息需要谱半径 < 1
谱半径 < 1的 T 个矩阵的乘积是一个矩阵，其谱半径在 T 上以指数速度收敛于 0。
如果 Jacobian 矩阵的谱半径 < 1 →传播梯度消失

为什么它会损害基于梯度的学习？

与短期依赖关系相比，长期依赖关系得到的权重是指数级小的(以 T 为单位)。

当谱半径 < 1时，时间差越长，谱半径越小。

深度学习：学习内部表征

深度学习并不像其他机器学习方法：

没有中间表示（线性）
或固定的（通常是非常高维的）中间表示（支持向量机、内核机）

那么什么是好的表征形式呢？——使其他或下游任务更容易。

语言模型 LM

于是 Yoshua 又回顾了他们 2003 年的经典工作《A Neural Probabilistic Language Model》，这是首次用神经网络来解决语言模型的问题，也为后来深度学习在解决语言模型问题甚至很多别的 NLP 问题时，奠定了坚实的基础（比如之后 word2vec 的提出）。

每个词由一个分布式连续值代码向量表示=嵌入；
跨n-gram（单词元组）共享；
泛化到语义上与训练序列相似的单词序列

为什么要设置多层（multiple layer）？——世界是可构成的

具有不断增加的抽象级别的表示层次；
每个阶段都是一种可训练的特征变换。
图像识别：像素→边缘→文本→主题→零件→物体；
文本：文字→单词→词组→从句→句子→故事；
语音：样本→谱带→声音→……→电话→音素→单。词

随着深度学习的不断发展，不止 NLP 领域，语音和图像也迈出了重要一步：

▲2010-2012 年:语音识别领域取得突破

▲ImageNet 在 2012 年取得突破

但其实 1996-2012 年也是神经网络的寒冬：

AI 研究失去了达到人类智能水平的雄心
关注“更简单”(更容易分析)的机器学习
很难说服研究生进行神经网络的研究

这需要坚持下去，但也要处理一些棘手的问题：

遵循直觉
但尝试通过实验或数学方法验证
理清思路以澄清问题，提出“为什么”问题，试着去理解
支持小组的重要性（CIFAR计划）

生成对抗网络 GAN

自 2010 年以来，Yoshua 关于生成式深度学习的论文，尤其是和 Ian Goodfellow 共同研究的生成性对抗网络（GAN），这篇经典之作更是引发了计算机视觉和图形学领域的深刻革命。

GAN 以其优越的性能，在短短两年时间里，迅速成为人工智能的一大研究热点，也将多个数据集的结果刷至新高。

Attention 机制的“革命”

对一个输入序列或图像，通过设置权重或每个输入位置的概率，正如 MLP 中所产生的那样，运用到每一个位置。Attention 在在翻译、语音、图像、视频和存储中的应用非常广泛，也具有以下的特点/优点：

一次只关注一个或几个元素；
根据具体情况，了解该让哪参与进来；
能对无序set操作；
是 NLP 中的 SOTA，为 Transformer 的提出奠定基础；
在 RNN 中绕过学习长期依赖的问题！！

强化学习

深度强化学习在 2016 年初露头角，取得巨大突破：

AlphaGo 以 4-1 击败世界冠军李世石；
人工智能和围棋专家没有预料到；
将深度学习与强化学习相结合。

深度学习的生物学突破

除了在计算机领域的成就以外，深度学习也在生物学领域取得重要突破，英国《Nature》杂志在 2021 年发表了一项结构生物学最新研究，人工智能公司 DeepMind 的神经网络 Alphafold 2 ，利用注意力图神经网络，预测的蛋白质结构能达到原子水平的准确度，这也为生命科学领域带来革命性影响。