回顾2022，那些令人印象深刻的AI突破

文 | 付奶茶

2022年是令人印象深刻的一年。

在这一年中，我们目睹了许多前所未有的AI模型的出现，这些模型不断刷新着人类对AI力量的认知。关于这一年中最好的工作，每个人都有自己不同的看法。在这篇文章中，我们跟随Alan D. Thompson在回顾这神奇的一年，并由他来告诉我们我们这一年中给他最深刻印象的工作是什么。

文章标题《Integrated AI: The sky is inﬁnite》源自于作者在2022年年中对AI发展的一次报道中的一句话：

"天空比我们想象的更大，在大规模语言模型的发展历程中，我们见证了AI的快速扩展，一切变得更加美好。
2022年下半年，请你睁大眼睛，人类将经历人工智能的革命，天空的浩瀚将被展现出来。"

现在回看过去，事实证明Alan D. Thompson的预期是正确的。直到2022年下半年，大规模语言模型呈现出爆炸式增长。不仅在任务的表现上有了巨大的飞跃，还有许多令人眼目一新的工作出现，同时大规模语言模型的商业化落地也在以惊人的速度前进。

Best of 2022

在这篇博客文章的开头，作者列举了他心目中2022年最优秀的五项研究工作。这些工作代表了当年在AI领域取得的最大进展，并且展示了AI的潜力和持久的影响力。作者对这五项工作的选择是基于他个人的经验和观察，并不一定代表全面的研究界共识。

具有插入文本能力的text-davinci-003
Pathways的第一个作品PaLM
ai作图的Midjourney v4
规模最大的文生图模型Parti
人工智能聊天软件艾默生。

AI模型带来的商业价值

2022年下半年，数十家公司在短短几个月内实现了数十亿美元的估值，这在商业上是一个巨大的成功。

除了我们熟知的OpenAI、DeepMind、HuggingFace等，还有被Spotify收购的Sonantic等公司也值得关注。数字背后，显然还有更多的投资者和更广的商业应用场景。

例如，DeepMind以Chinchilla预训练语言模型为基础创造Dramatron，这一模型被用来协助共同创作剧场或电影剧本。由Dramatron生成的剧本已被改编成戏剧，并在2022年8月在北美最大的艺穗节上由真人表演。这表明，"AI写剧本"从幻想变成了现实，并且大规模语言模型已经走向了更为广阔的应用舞台。

文生图模型的商业化应用

文本转图像模型的商业化速度非常快。全球最大的玩具制造商之一美泰（芭比娃娃之父）已在DALLE-2的协助下发布了风火轮系列。通过将文本转图像模型生成的设计应用到公司的概念中。美泰的产品设计总监解释说，使用文本转图像模型可以提高创意的质量和丰富度，并且可以从模型中得到之前从未想到过的组合。

在2022年11月，德国啤酒制造商Brauquadrat10使用最近发布的Midjourney v4为他们的酸啤酒系列制作包装。他们只提供了几个简单的提示——"覆盆子，蓝绿色背景，飞溅，多汁"，但最终得到的设计令人惊讶。Midjourney v4的能力使得Brauquadrat10能够在短时间内得到高质量的包装设计，并且这种方法对他们的商业成功产生了重要的贡献。

同月，Stability.ai宣布，其最大的开源文本转图像模型Stable Diffusion已获得超过20万软件开发人员的许可。这表明文本转图像技术在软件开发领域的应用正在迅速扩展。

此外，Adobe也正在将文本转图像模型嵌入到当前的应用软件中，包括Photoshop和AutoCAD，并计划在2023年发布正式版本。例如，在Photoshop中圈定的区域块中输入文本，就可以生成对应描述的图块，展示了文本转图像技术在实际应用中的能力。

一幅图胜过千言万语

在过去的两年中，虽然预训练语言模型已经取得了惊人的成就，但是它们并不像视觉图片和视频那样直观。文本转图像模型很好地“可视化”了人工智能的力量，它们能在几秒内生成出来的图像让人惊叹。

下面的表格列出了这一年出现的文本转图像模型，每一个模型都代表了数百万或数十亿个文本图像对，以及数十亿美元的潜在收益：

开源征途携手前进

在过去的一年中，AI模型的开源工作也在不断发展。

俄罗斯的谷歌公司Yandex发布了一个100B参数的模型，能够同时分析英语和俄语。中国向全球开放了GLM-130B模型和WeLM模型。

在美国，亚马逊承诺开放他们最新的Alexa 20B模型。Meta也向公众开放了GAL 120B模型，但因为被恶意的行为故意输入辱骂性的提示，而被迫将界面隐藏。

AI进入企业化应用

大规模语言模型逐渐渗透在企业级的应用中，例如英语到SQL语句的转换器。以下是一些已经公开商用GPT-3的企业：

硬件上的探索

AI已经证明其能够优化流程和效率，甚至产生未知的协同效应。谷歌利用AI设计了TPU芯片，而NVIDIA在H100 Hopper芯片上也有所借鉴。使用AI帮助设计GPUs，NVIDIA的实验结果表明AI不仅能学习设计电路，而且设计更精细且效率更高。

关于数据的爆炸消息

在2022年3月，DeepMind的Jordan Hoffmann和其他研究人员发表了一篇关于Chinchilla的文章，在文章中，他们指出人们原来一直在使用约9%的数据量来训练模型，这个发现震惊了AI界。

我行我素，岂管他哉

“The dogs bark, and the caravan moves on”
虽然狗吠声音不止，但是商队一直前进。

在当前的AI发展中，虽然有许多批评的声音，但是科学家们并没有停止前进的脚步。现在的情况就像洪流无法阻挡，伦理争论就像石头在流动的水中，无法阻挡技术前进的步伐。在过去的历史中，没有任何争论能够阻挡技术的发展。

AI领域的发展不仅仅是技术的前进，还包含着巨大的道德责任。我们目前还有数以亿计的人正在遭受疾病和贫困的困扰，因此解决这些问题比起解决伦理和政策上的质疑更为重要。

模型智商的进化

大规模语言模型在测试任务中的表现优于人类，如谷歌4月发布的PaLM和随后的Minerva等。这些模型在最新的基准测试中表现出色，甚至在从未训练过的数学问题中也表现出惊人的能力。例如，使用谷歌的Minerva模型在波兰国家数学测试中也取得了惊奇的表现：

在选定的问题子集中，谷歌的Pathways30的表现惊人，其在测试任务中的表现优于人类：

在2022年5月的波兰国家数学考试中，Minerva 540B的成绩比学生平均分高出14%。
在2019年英国国家数学考试中，Minerva 540B的成绩比学生平均分高出79%左右。
PaLM 540B和其他模型在SuperGLUE测试上的表现集皆超过了人类。
Flan-PaLM 540B在MMLU基准上实现了平均人类性能的两倍。

大规模语言模型的成长已经超过人类智力的进化速度。

即将到来的2023

在这里作者列举了他在2023最期待的工作：

1. DeepMind Gato2

Gato是一个多模态、多任务、多具身的通才智能体，它的出现是一个未预见的创新。DeepMind的首席执行官Demis Hassabis透露，公司正在为AGI培养下一代通用智能体。

2. Google Pathways扩展

Pathways的模型家族的扩展速度是非常惊人的，正在扩展以覆盖更多的语言。Jeﬀ Dean表示未来将支持1000种最终用的语言，为全球数十亿边缘的国度的人带来更大的包容性。pathways的扩展是一项多年的计划。已经取得了有意义的进展，前路已经清晰可见。

3. OpenAI GPT-4

GPT-3的后续研究预计将极大地影响人工智能领域的发展。

4. Text-to-video模型

在22年下半年我们看到了一些文本转视频的模型，期待更高分辨率和帧率的模型出现。

征途的中点

在2022年初，OpenAI的首席科学家预测：

“在未来，很明显，科学的唯一目的是建立AGI”。

而我们现在在某种意义上正处于这个未来之路的中点。

在过去的几个月中，我们看到了数十亿美元的投资、十几个新的文本转图像模型的出现，以及AI领域的快速发展。虽然AI正在蓬勃发展，但是我们的社会并没有从其带来的优化中受益，我们还有很多可以被AI优化的问题：

手动驾驶

按照数据的显示，在每24秒就有一个人在驾驶中死亡，而每秒钟又会有两人严重受伤。

无用教育

当前的教育模式浪费了大量的时间，大概在11000个小时(以及额外的课下时间，几千个小时的学习市场)，仅仅是用来学习如何记住已发生的事实、解决问题和创造事物。

笼子里一样的职场

大多数成年人几乎清醒的时间都在为工作效力，然而他们的生产力和效率达不到当前AI的50%，也达不到未来AGI的1%。

不劳而获

CEO与同公司最低工资员工之间的薪酬的差距是670:1，这意味着CEO平均每获得1万美元的薪酬，就能获得670万美元的薪酬。

摄入与身体之间的关系

用 AI 来分析身体健康问题可能有助于解决全球 32% 的死亡是由心脏病引起的问题，相较于当前大多数基于人为、研究和推测的饮食模式，这是一种更具有效率的做法。

黑盒的人际关系。

大多数成年人在处理人际关系时没有受过科学训练，其中有一半以上的人在经历心理健康问题。

而AI明明已经准备好为这些问题提供一个有益的解决方案

总结

2022年是AI的一年，Alan D. Thompson总结了其中的亮点。这一年标志着AI全面爆发，我们看到了AI在许多领域的快速发展和令人惊叹的进展。随着更多人关注和从事AI领域，我们期待在2023年看到更多的新模型。

过去一年的工作表明，我们可能已经看到了通用人工智能（AGI）的辉煌前景。AGI一直是AI领域的指导性愿景，而现在的模型似乎已经具备了推理能力、想象能力和记忆能力等，但从真正的AGI到通过AI看世界的新方式，前路的天空也是无限的。

与此同时2022年也是背负更多希望的一年，我们能够更清晰地看到AI背后的潜力是无限的，可是其对人类世界改变的速度着实有些缓慢。我们坚定地相信AI的愿景是改善地球上每一个人的生活，期待着在未来看到AI在真实应用中的更多落地，使AI在帮助人类的愿景下飞翔得更高。

卖萌屋作者：付奶茶

新媒体交叉学科在读Phd,卖萌屋十级粉丝修炼上任小编,目前深耕多模态,希望可以和大家一起认真科研,快乐生活!

作品推荐

1.在斯坦福，做 Manning 的 phd 要有多强?

2.史上最大多模态图文数据集发布!

3.MSRA-万字综述直击多模态文档理解

4.ICLR’22 最佳脑洞奖提名：《GPT 如何进行布朗运动?》

5.大模型时代，我们真的不再需要分词了吗

6.Batch size 没必要设为2的次方！？