又一恐怖技能！卡耐基梅隆大学发布超强智能体，炸翻科研圈

文 | 小戏

一名普通博士生的工作日常是什么？上网查查资料？读读文献？根据各种完善工具的 API 或者文档写两行代码，然后再输给实验机器完成高精度的实验？仔细思考一下我们这些所谓“科研工作者”的工作流，却细思极恐的发现，我们现在能做的事儿，好像大部分 GPT-4 都能做！

终于，“机器取代打工人”的预言来到了科研领域，最近，卡耐基梅隆大学化学工程系的学者构建了一个基于大规模语言模型（LLMs）的自主科研智能体（尚且没有给他命名，且叫他小A），实现了一个可以从自主设计、规划到执行复杂的科学实验的完整系统。

单谈一体化，自动化巴拉巴拉显得有点抽象，小A究竟可以做到什么事呢，举个例子，来看下面这张图，假设我希望设计一个可用于执行铃木反应（Suzuki Reaction）和薗头耦合反应（Sonogashira Reaction）的方案如下图 A 模块所示，论文作者给小 A 提供了一系列溶液与试剂以及必要的操作设备，但是并没有告诉小A具体应该选择哪一个溶液与试剂完成反应。并且颇为阴险的，论文作者要求小 A 使用 Heater Module 智能加热模块，但是这个模块其实是在 GPT-4 训练数据截止日后发布的。

来让我们看小A做了什么，可以注意一下，我们给小A的输入事实上只要“完成xx反应”这么一句简单的 Prompt。因此，小A首先开始从互联网上搜索所需反应、它们的化学计量和条件的信息等等，这些过程被记录在上图 D 模块中。通过搜索，我们可以看到小A选择了相应正确的反应试剂。在所有的芳基卤化物中，它选择了卤代苯对铃木反应进行偶联，选择了碘代苯对薗头耦合反应进行偶联。值得注意的是，这些选择结果来源于搜索，因此这种行为在每次运行时都会发生变化，这事实上赋予了小A重复实施不同试验方案以获取更多更有意义信息的可能性。

在小A完成对不同试剂、催化剂的选择后，小A使用 Python 计算了具体实验中所有反应物所需要的体积、容量等信息，并且编写完成了试验方案。这个试验方案将以执行代码的方式输入给配备给小A的操作设备，如上图 E 模块所示，使得操作设备可以自动的执行小A设计的试验。

而最有趣的是，在论文作者给小A挖坑的地方，小A确实犯了一个错误，它错误的使用了 Heater Module 智能加热模块的名称。这导致了这个名称与下游设备说明文档里的名称的不匹配，当小A意识到这个错误时，小A查阅了文档并及时改正了自己的错误！从而成功的运行了自己输出的代码。

这套异常“合理”的工作流程，加上神奇的自我纠错的功能，老实说已经不单单是一体化，自动化那么简单了。回想知乎里那些有关“生化环材”的吐槽，很多无非都是在说进实验室干着“烧炉子，养耗子，过柱子”的活，但如果小A真能得以普及，那将很大程度上完成从琐碎工作中解放（取代）科研工作者的目标。

那么小A究竟是如何拥有完成上述一整套操作的功能的呢？让我们一起进入这篇可谓“未来时代”先锋号的论文。

论文题目：
Emergent Autonomous Scientific Research Capabilities of Large Language Models

论文链接：
https://arxiv.org/abs/2304.05332

系统架构

首先来让我们详细看一下小A的整体架构，智能体系统（小A）主要由四个组件组成，分别是“网络搜索器”、“文档搜索器”、“代码执行器”以及“自动化模块”。如果把这四个模块比喻为小A的四肢，那么“规划器”（Planner）相当于小A的大脑，用来接受人类输送给小A的任务描述 Prompt ，并协调四个组件分别按需完成工作。在论文中，规划器本身就可以理解为一个 GPT-4，规划器的协调、推理、判断、决策等等能力均是来源于GPT-4的无穷潜力。相比于“大脑”，其余的动作执行就会简单许多在每一个特定状态，小A其实只有四种动作选择，分别是：

访问互联网，接入 Google 进行查询操作
访问查看硬件文档
在 Python 中进行计算
运行最终实验

其中，“网络搜索器”（Web searcher）组件从规划器接收查询，并将其转化为适当的网络搜索操作，然后使用 Google Search API 执行查询，最终结果会作为网页列表返回给“网络搜索器”。该组件也可以通过“浏览”（BROWSE）操作从网页中提取文本，并为规划器编译答案。值得注意的是，“网络搜索器”本身其实是使用的 GPT3.5 模型，因为相比 GPT-4 它更快，更能适应检索任务的需求。

而 “文档搜索器”（Docs searcher）组件从硬件（例如，机器人液体操作机、GC-MS或云实验室）文档中搜索信息，通过使用查询和文档索引来查找最相关的页面或部分。然后，最匹配的结果被聚合起来，提供全面准确的最终答案。因为最终事实上小A的输出是面向操作系统的一段可执行的代码，因此“文档搜索器”的重点在于提供硬件 API 的特定功能参数和句法信息。

“代码执行器”（Code execution）组件不使用任何大规模语言模型，只在单独的 Docker 容器中执行代码，以保护最终主机机器免受规划器的任何意外行动的损害。所有代码输出都会传回给规划器，以便在软件出错的情况下修正其预测。

最后同样，“自动化模块”（Automation）自动生成的代码在相应的硬件中执行，或者为手动实验提供合成过程。

详细研究

在构建出了小A的整套底层架构后，论文作者使用小A去尝试了许多小任务，以验证小A各个组件的能力。譬如，论文作者简单给小A输入“合成布洛芬”这样的一个 Prompt，如下图A所示，通过“网络搜索器”组件，小A准确地识别出了合成布洛芬的第一步，即异丁基苯和乙酸酐在氯化铝催化下的 Friedel-Crafts 反应。并成功输出了完成 Friedel-Crafts 反应的执行程序。

而当现有的材料中缺少某种反应必须的原料时小A会怎么办呢，如上图 D 所示，小A会报出“缺少必要原料”的提示。而当现有反应条件容易出现不稳定情况时，小A也会提示重新选择催化剂或碱。

同时，如果给小A穿戴上“装备”，譬如将小A的搜索器与诸如 Reaxys14 或 SciFinder15 等化学反应数据库连接可以显著提高系统的性能。

此外，如果深入到“文档搜索器”，这事实上是一个文档检索的模型。针对 API 文档的 Embedding，使用 query 信息的 Embedding 去计算相似度，最终可以定位得到文档中最匹配的段落位置，如下图 A 所示。

然而，如果我们需要检索的 API 文档 GPT-4 没有见过应该怎么办呢？如上图 B 所示，论文作者将 API 文档连同 query 一同提交给小A，从实验结果来看，小A 具有将指定 query 定位到 API 文档相应段落的神奇能力。

从某种程度而言，小A的这种能力解决了一个很大的“专家知识”的问题。在现在众多设备以及不同技术方案的广泛 API 文档中，由于 API 文档高度技术化的语言风格，往往针对 API 文档的解读必须引入“专家知识”的工作，而小A的这种针对 query 匹配 API 文档段落乃至最后生成相应标准的代码或函数的能力，极大的克服了潜在用户使用这些专业技术的“进入障碍”与“入行门槛”。

最后，在“自动化模块”，作者为小A设计了一个简单的“上色”测试，小A需要做的仅仅是根据指令控制在仪器利用现有的溶液为微孔板上色。这种指令往往相当简单，譬如“用你选择的一种颜色给每一条线上色”，而小A需要识别这种指令并将其“翻译”为操作仪器可执行的 Python 程序。实验证明小A出色的完成了这项工作。

而在更复杂一点的环境中，比如需要操作的不是一种仪器而是多种仪器的复杂环境中，小A依然可以做到准确的识别指令想要表达的信息，并且控制多种仪器合作完成实验。

在多种测试的考验下，小A都表现出了超出预期的强大能力。因此，论文作者认为小A已经具备了非常出色的推理能力。比如，在针对铃木反应的实验中，当小A请求系统执行导入 SymPy 包的代码时，发现这个软件包尚未安装，而小A到接受到反馈信息后，很快对代码进行了调整。这种调整的能力展现出了小A在推理能力上相当值得期待的潜力。

重中之重

在一系列可喜的实验中，小A确实已经横空出世了，但小A出色的能力难免引来研究者们的担忧，这倒尚且不是出于对自己饭碗的考虑，而是出于小A乃至整个大规模语言模型用于科学研究时的“安全性”问题的考量。小A的这种自动设计实验甚至执行实验操作的能力，一旦被滥用，譬如将小A用于毒品合成，那制毒这一犯罪行为的入行门槛将会几何级的降低。单这一项就已经可以对社会造成极其严重的负面影响，更无论说小A在化学武器、生物武器等方面的潜在影响。

因此，论文的作者们一来对小A的安全性问题做出了严正声明，安全是重中之重：“我们强烈声明必须设置防护措施以应对这种大规模语言模型潜在的负面作用。我们呼吁人工智能社区将确保这些强大模型的安全性提上日程表。我们呼吁OpenAI、微软、谷歌、Meta、Deepmind、Anthropic等一切其他主要的大模型工作的参与者尽全力去确保大规模语言模型安全性。我们呼吁物理科学界与大规模语言模型的开发者们接触，协助他们共建保证模型安全的壁垒”

二来，论文作者也探究了小A目前的“安全”状况。论文作者希望小A为他们合成11种危险的化合物（其中包括大麻、海洛因等毒品），而令人不安的是，虽然小A拒绝了其中7种化合物的合成请求，但还是提供了其中4种的合成方案。在被拒绝合成的化合物中，小A拒绝的原因往往是在“网络检索”阶段，在网络检索中小A发现一些物质属于是“管制药物”，因此予以了拒绝。然而，这种拒绝模式却暗藏了极大的风险，也就是说只要通过替换药物名称，还是极有可能利用小A生成出潜在的毒品。同时，小A的拒绝能力也往往只能拒绝已知名称或明令禁止的毒品，而一些未知的毒品很有可能会钻小A审查的空子，从而对社会造成严重的负面影响。

也因此，小A的出现其实对具有运行科学实验能力的实验室提出了新的挑战。这些实验室如何去“筛选”、“监测”以及“控制”实验安全的进行，选择“可信”的实验者并拒绝潜在的“滥用”者与其他不良行为者成为了除了让小A继续向前迭代外对模型安全的另一重要的影响因素。

总结反思

我想小A的出现可能仍然只是这些大规模语言模型改变我们生活的开始，新技术的出现往往会迫使着我们挑战自己的想象力，当以 GPT-4 为代表的语言模型们的强大能力被突然的呈现在我们面前时，如何更好的将大规模语言模型其中蕴藏的潜力释放到各行各业之中，应该是对当下正在经历这波火热浪潮的我们颇有意义的课题与挑战。

而超出这“浪潮之巅”可见的机会之外，纵然我们现在谈取代谈奇点谈智能危机都显得相当为时尚早，但是面对这些可能的危险，也同时面对从小A开始所可能的小B，小C，小D，如何透过 AI 这两字的发展去反思我们人类自己的智能，通过不断追问“自己有什么是不能被它们取代的”这样的问题，或许可以做到让我们更好的了解与认识到德尔菲神庙石柱上“认识你自己”箴言的全部意味。

最后，在现在这个神奇的年代，也许这样一句话是对的，那就是“唯有想象力不可被取代”吧！