如今人工智能系统使用的大多数架构都是专业的。2D 残差网络可能是处理图像的一个很好的选择,但它最多只能用于其他类型的数据,比如自动驾驶汽车中使用的激光雷达信号或机器人中使用的 torques。此外,标准架构在设计时通常只考虑一项任务,这常常导致工程师竭尽全力去重塑、扭曲或修改他们的输入和输出,希望标准架构能够学会正确地处理他们的问题。处理不止一种数据,比如组成视频的声音和图像,就更加复杂了,通常涉及由许多不同部分构建的复杂的手工调节系统,即使是简单的任务。Perceiver/Perceiver IO 希望构建能够解决使用多种输入和输出类型的问题的系统,因此开始探索一种更通用和通用的架构,可以处理所有类型的数据。
在ICML 2021 上发表的 Perceiver: General Perception with Iterative Attention,是一种通用架构,可以处理包括图像、点云、音频、视频及其组合在内的数据。虽然感知器可以处理多种输入数据,但它仅限于具有简单输出的任务,如分类。Perceiver IO: A General Architecture for Structured Inputs & Outputs,是 Perceiver 架构的一个更通用的版本。Perceiver IO 可以从许多不同的输入产生各种各样的输出,使其适用于现实世界的领域,如语言、视觉和多模态理解,以及具有挑战性的游戏,如星际争霸II。为了帮助研究人员和整个机器学习社区,源代码已经开放。
Perceiver 构建在 Transformer 之上,Transformer 是一种使用称为“注意力”的操作将输入映射到输出的体系结构。通过比较输入的所有元素,transformer 根据输入之间的关系和任务来处理输入。注意力是简单而广泛适用的,但 Transformer 使用注意力的方式会随着输入数量的增加而迅速变得昂贵。这意味着 Transformer 可以很好地处理最多只有几千个元素的输入,但常见的数据形式,如图像、视频和书籍,可以很容易地包含数百万个元素。使用最初的 Perceiver,解决了通才架构的一个主要问题:在不引入领域特定假设的情况下,将 Transformer 的注意力操作扩展到非常大的输入。Perceiver 通过使用注意力首先将输入编码到一个小的潜在数组中来实现这一点。然后,这个潜在的数组可以以独立于输入大小的成本进一步处理,使感知器的内存和计算需求随着输入变大而优雅地增长,即使对于特别深的模型也是如此。
这种“优雅的增长”使感知器Perceiver 前所未有的通用性水平——它在基于图像、3D点云、音频和图像的基准测试上与特定领域的模型竞争。但由于最初的 Perceiver 每次输入只产生一个输出,所以它不像研究人员所需要的那样多功能。Perceiver IO 通过使用注意力不仅对潜在数组进行编码,而且还从中进行解码,从而解决了这个问题,这给了网络很大的灵活性。Perceiver IO现在可以扩展到大型和多样化的输入和输出,甚至可以同时处理许多任务或数据类型。这为各种各样的应用程序打开了大门,比如从文本的每个字符理解文本的含义,跟踪图像中所有点的运动,处理组成视频的声音、图像和标签,甚至玩游戏,所有这些都使用比替代方案更简单的单一架构。
Figure 1. The Perceiver IO architecture maps input arrays to output arrays by means of a small latent array, which lets it scale gracefully even for very large inputs and outputs. Perceiver IO uses a global attention mechanism that generalizes across many different kinds of data.
Figure 2. Perceiver IO produces state-of-the-art results on the challenging task of optical flow estimation, or tracking the motion of all pixels in an image. The colour of each pixel shows the direction and speed of motion estimated by Perceiver IO, as indicated in the legend above.
Building architectures that can handle the world’s data (deepmind.com)