又一恐怖技能!卡耐基梅隆大学发布超强智能体,炸翻科研圈

news2024/11/16 18:04:53

70b3fe207fd81582b0599aa224e4001b.png

文 | 小戏

一名普通博士生的工作日常是什么?上网查查资料?读读文献?根据各种完善工具的 API 或者文档写两行代码,然后再输给实验机器完成高精度的实验?仔细思考一下我们这些所谓“科研工作者”的工作流,却细思极恐的发现,我们现在能做的事儿,好像大部分 GPT-4 都能做!

7ac26c6c315c12ed6b1cf8f6ede39f55.png

终于,“机器取代打工人”的预言来到了科研领域,最近,卡耐基梅隆大学化学工程系的学者构建了一个基于大规模语言模型(LLMs)的自主科研智能体(尚且没有给他命名,且叫他小A),实现了一个可以从自主设计、规划到执行复杂的科学实验的完整系统

单谈一体化,自动化巴拉巴拉显得有点抽象,小A究竟可以做到什么事呢,举个例子,来看下面这张图,假设我希望设计一个可用于执行铃木反应(Suzuki Reaction)和薗头耦合反应(Sonogashira Reaction)的方案如下图 A 模块所示,论文作者给小 A 提供了一系列溶液与试剂以及必要的操作设备,但是并没有告诉小A具体应该选择哪一个溶液与试剂完成反应。并且颇为阴险的,论文作者要求小 A 使用 Heater Module 智能加热模块,但是这个模块其实是在 GPT-4 训练数据截止日后发布的。

660c1fa5cd71ed139cbcf1a9654575e2.png

来让我们看小A做了什么,可以注意一下,我们给小A的输入事实上只要“完成xx反应”这么一句简单的 Prompt。因此,小A首先开始从互联网上搜索所需反应、它们的化学计量和条件的信息等等,这些过程被记录在上图 D 模块中。通过搜索,我们可以看到小A选择了相应正确的反应试剂。在所有的芳基卤化物中,它选择了卤代苯对铃木反应进行偶联,选择了碘代苯对薗头耦合反应进行偶联。值得注意的是,这些选择结果来源于搜索,因此这种行为在每次运行时都会发生变化,这事实上赋予了小A重复实施不同试验方案以获取更多更有意义信息的可能性。

在小A完成对不同试剂、催化剂的选择后,小A使用 Python 计算了具体实验中所有反应物所需要的体积、容量等信息,并且编写完成了试验方案。这个试验方案将以执行代码的方式输入给配备给小A的操作设备,如上图 E 模块所示,使得操作设备可以自动的执行小A设计的试验。

而最有趣的是,在论文作者给小A挖坑的地方,小A确实犯了一个错误,它错误的使用了 Heater Module 智能加热模块的名称。这导致了这个名称与下游设备说明文档里的名称的不匹配,当小A意识到这个错误时,小A查阅了文档并及时改正了自己的错误!从而成功的运行了自己输出的代码

这套异常“合理”的工作流程,加上神奇的自我纠错的功能,老实说已经不单单是一体化,自动化那么简单了。回想知乎里那些有关“生化环材”的吐槽,很多无非都是在说进实验室干着“烧炉子,养耗子,过柱子”的活,但如果小A真能得以普及,那将很大程度上完成从琐碎工作中解放(取代)科研工作者的目标

那么小A究竟是如何拥有完成上述一整套操作的功能的呢?让我们一起进入这篇可谓“未来时代”先锋号的论文。

论文题目:
Emergent Autonomous Scientific Research Capabilities of Large Language Models

论文链接:
https://arxiv.org/abs/2304.05332

系统架构

首先来让我们详细看一下小A的整体架构,智能体系统(小A)主要由四个组件组成,分别是“网络搜索器”、“文档搜索器”、“代码执行器”以及“自动化模块”。如果把这四个模块比喻为小A的四肢,那么“规划器”(Planner)相当于小A的大脑,用来接受人类输送给小A的任务描述 Prompt ,并协调四个组件分别按需完成工作。在论文中,规划器本身就可以理解为一个 GPT-4,规划器的协调、推理、判断、决策等等能力均是来源于GPT-4的无穷潜力。相比于“大脑”,其余的动作执行就会简单许多在每一个特定状态,小A其实只有四种动作选择,分别是:

  • 访问互联网,接入 Google 进行查询操作

  • 访问查看硬件文档

  • 在 Python 中进行计算

  • 运行最终实验

ca513d06169ee5790fceb4258e9f9d33.png

其中,“网络搜索器”(Web searcher)组件从规划器接收查询,并将其转化为适当的网络搜索操作,然后使用 Google Search API 执行查询,最终结果会作为网页列表返回给“网络搜索器”。该组件也可以通过“浏览”(BROWSE)操作从网页中提取文本,并为规划器编译答案。值得注意的是,“网络搜索器”本身其实是使用的 GPT3.5 模型,因为相比 GPT-4 它更快,更能适应检索任务的需求。

而 “文档搜索器”(Docs searcher)组件从硬件(例如,机器人液体操作机、GC-MS或云实验室)文档中搜索信息,通过使用查询和文档索引来查找最相关的页面或部分。然后,最匹配的结果被聚合起来,提供全面准确的最终答案。因为最终事实上小A的输出是面向操作系统的一段可执行的代码,因此“文档搜索器”的重点在于提供硬件 API 的特定功能参数和句法信息。

“代码执行器”(Code execution)组件不使用任何大规模语言模型,只在单独的 Docker 容器中执行代码,以保护最终主机机器免受规划器的任何意外行动的损害。所有代码输出都会传回给规划器,以便在软件出错的情况下修正其预测。

最后同样,“自动化模块”(Automation)自动生成的代码在相应的硬件中执行,或者为手动实验提供合成过程

详细研究

在构建出了小A的整套底层架构后,论文作者使用小A去尝试了许多小任务,以验证小A各个组件的能力。譬如,论文作者简单给小A输入“合成布洛芬”这样的一个 Prompt,如下图A所示,通过“网络搜索器”组件,小A准确地识别出了合成布洛芬的第一步,即异丁基苯和乙酸酐在氯化铝催化下的 Friedel-Crafts 反应。并成功输出了完成 Friedel-Crafts 反应的执行程序。

448c9d3e5a2d4a24b90ae8cc076dc89b.png

而当现有的材料中缺少某种反应必须的原料时小A会怎么办呢,如上图 D 所示,小A会报出“缺少必要原料”的提示。而当现有反应条件容易出现不稳定情况时,小A也会提示重新选择催化剂或碱。

同时,如果给小A穿戴上“装备”,譬如将小A的搜索器与诸如 Reaxys14 或 SciFinder15 等化学反应数据库连接可以显著提高系统的性能

此外,如果深入到“文档搜索器”,这事实上是一个文档检索的模型。针对 API 文档的 Embedding,使用 query 信息的 Embedding 去计算相似度,最终可以定位得到文档中最匹配的段落位置,如下图 A 所示。

8ce43e6eb5318ac228aa2c92cd90ad35.png

然而,如果我们需要检索的 API 文档 GPT-4 没有见过应该怎么办呢?如上图 B 所示,论文作者将 API 文档连同 query 一同提交给小A,从实验结果来看,小A 具有将指定 query 定位到 API 文档相应段落的神奇能力

从某种程度而言,小A的这种能力解决了一个很大的“专家知识”的问题。在现在众多设备以及不同技术方案的广泛 API 文档中,由于 API 文档高度技术化的语言风格,往往针对 API 文档的解读必须引入“专家知识”的工作,而小A的这种针对 query 匹配 API 文档段落乃至最后生成相应标准的代码或函数的能力,极大的克服了潜在用户使用这些专业技术的“进入障碍”与“入行门槛”

最后,在“自动化模块”,作者为小A设计了一个简单的“上色”测试,小A需要做的仅仅是根据指令控制在仪器利用现有的溶液为微孔板上色。这种指令往往相当简单,譬如“用你选择的一种颜色给每一条线上色”,而小A需要识别这种指令并将其“翻译”为操作仪器可执行的 Python 程序。实验证明小A出色的完成了这项工作。

e7ff8dd8b5c73a58285f61604c65736f.png

而在更复杂一点的环境中,比如需要操作的不是一种仪器而是多种仪器的复杂环境中,小A依然可以做到准确的识别指令想要表达的信息,并且控制多种仪器合作完成实验

在多种测试的考验下,小A都表现出了超出预期的强大能力。因此,论文作者认为小A已经具备了非常出色的推理能力。比如,在针对铃木反应的实验中,当小A请求系统执行导入 SymPy 包的代码时,发现这个软件包尚未安装,而小A到接受到反馈信息后,很快对代码进行了调整。这种调整的能力展现出了小A在推理能力上相当值得期待的潜力。

重中之重

在一系列可喜的实验中,小A确实已经横空出世了,但小A出色的能力难免引来研究者们的担忧,这倒尚且不是出于对自己饭碗的考虑,而是出于小A乃至整个大规模语言模型用于科学研究时的“安全性”问题的考量。小A的这种自动设计实验甚至执行实验操作的能力,一旦被滥用,譬如将小A用于毒品合成,那制毒这一犯罪行为的入行门槛将会几何级的降低。单这一项就已经可以对社会造成极其严重的负面影响,更无论说小A在化学武器、生物武器等方面的潜在影响。

因此,论文的作者们一来对小A的安全性问题做出了严正声明,安全是重中之重:“我们强烈声明必须设置防护措施以应对这种大规模语言模型潜在的负面作用。我们呼吁人工智能社区将确保这些强大模型的安全性提上日程表。我们呼吁OpenAI、微软、谷歌、Meta、Deepmind、Anthropic等一切其他主要的大模型工作的参与者尽全力去确保大规模语言模型安全性。我们呼吁物理科学界与大规模语言模型的开发者们接触,协助他们共建保证模型安全的壁垒

446271799283f86194143e68347ad909.png

二来,论文作者也探究了小A目前的“安全”状况。论文作者希望小A为他们合成11种危险的化合物(其中包括大麻、海洛因等毒品),而令人不安的是,虽然小A拒绝了其中7种化合物的合成请求,但还是提供了其中4种的合成方案。在被拒绝合成的化合物中,小A拒绝的原因往往是在“网络检索”阶段,在网络检索中小A发现一些物质属于是“管制药物”,因此予以了拒绝。然而,这种拒绝模式却暗藏了极大的风险,也就是说只要通过替换药物名称,还是极有可能利用小A生成出潜在的毒品。同时,小A的拒绝能力也往往只能拒绝已知名称或明令禁止的毒品,而一些未知的毒品很有可能会钻小A审查的空子,从而对社会造成严重的负面影响。

1714f02144b326766adfc6aa378e363d.png

也因此,小A的出现其实对具有运行科学实验能力的实验室提出了新的挑战。这些实验室如何去“筛选”、“监测”以及“控制”实验安全的进行,选择“可信”的实验者并拒绝潜在的“滥用”者与其他不良行为者成为了除了让小A继续向前迭代外对模型安全的另一重要的影响因素。

总结反思

我想小A的出现可能仍然只是这些大规模语言模型改变我们生活的开始,新技术的出现往往会迫使着我们挑战自己的想象力,当以 GPT-4 为代表的语言模型们的强大能力被突然的呈现在我们面前时,如何更好的将大规模语言模型其中蕴藏的潜力释放到各行各业之中,应该是对当下正在经历这波火热浪潮的我们颇有意义的课题与挑战。

而超出这“浪潮之巅”可见的机会之外,纵然我们现在谈取代谈奇点谈智能危机都显得相当为时尚早,但是面对这些可能的危险,也同时面对从小A开始所可能的小B,小C,小D,如何透过 AI 这两字的发展去反思我们人类自己的智能,通过不断追问“自己有什么是不能被它们取代的”这样的问题,或许可以做到让我们更好的了解与认识到德尔菲神庙石柱上“认识你自己”箴言的全部意味。

最后,在现在这个神奇的年代,也许这样一句话是对的,那就是“唯有想象力不可被取代”吧!

661795a6c4ab30b21545a9bf3fd8f24a.png

c81de098968526cf93fb0b72bc6efe25.png卖萌屋作者:小戏

边学语言学边学NLP~

作品推荐

  1. 千呼万唤始出来——GPT-3终于开源!

  2. NLP哪个细分方向最具社会价值?

  3. 吴恩达发起新型竞赛范式!模型固定,只调数据?!

  4. 仅仅因为方法 Too Simple 就被拒稿,合理吗?

  5. 算法工程师的三观测试

2b9de8d6266cfafef09d037dc8e96251.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/410526.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何使用ChatGPT API 及 问题解决

如何使用ChatGPT API 及 问题解决1, 注册OpenAI账号2,获取OpenAI的API秘钥3,pip安装openai库3.1 pip安装openai库3.2 pip安装错误4,Chatgpt API连接测试4.1 Chatgpt API连接测试4.2 连接测试错误1, 注册OpenAI账号 关于注册账号,…

订单超时自动取消3种方案

文章目录 1.定时任务2.被动取消3.延时消息大家对电商购物应该都比较熟悉了,我们应该注意到,在下单之后,通常会有一个倒计时,如果超过支付时间,订单就会被自动取消。 今天,我们来聊聊订单超时未支付自动取消的几种方案。 1.定时任务 这是最容易想到的办法,定时任务去轮…

配电系统的线性三相潮流研究【IEEE123节点】(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

自媒体小六视野宣布公司倒闭

我是卢松松,点点上面的头像,欢迎关注我哦! 自媒体的红利难道已经走到尽头了吗? 最近顶级网红小六视野宣布公司破产、海派团队散伙。自己崩溃大哭,表示很不舍,并且小六视野的账号也不属于自己,属于公司&a…

盐城北大青鸟:Java的四大就业方向,薪资也是一级棒

近几年,由于互联网的快速发展,有许多新兴的语言和技术逐渐进入我们的视野,导致唱衰Java即将“走下神坛”的声音不绝于耳,真的是这样吗? 数据是从来不会骗人的,根据官方发布的最新TIOBE 编程语言排行榜可知…

Vue03_vue属性_数据代理

Vue中 $ 开始的属性是供程序员开发使用的 _ 开始的属性是vue 框架底层使用的 可以直接访问data 中的属性 使用数据代理机制实现 数据代理机制: 通过访问代理对象的属性 间接 访问 目标对象的属性 数据代理机制 核心 Object.defineProperty 为对象添加一个属性 Object.defi…

从工厂普工到Python女程序员,聊聊这一路我是如何逆袭的?

我来聊聊我是如何从一名工厂普工,到国外程序员的过程,这里面充满了坎坷。过去我的工作是在工厂的流水线上,我负责检测电池的正负极。现如今我每天从早上6:20起床,6点四五十分出发到地铁站,7:40到公司。我会给自己准备一…

Wombat:93%ChatGPT性能!无需RLHF就能对齐人类的语言模型

文 | zzy文章地址: https://arxiv.org/abs/2304.05302v1训练代码:https://github.com/GanjinZero/RRHF模型权重:https://huggingface.co/GanjinZero/wombat-7b-delta文章提出RRHF一种无须强化学习的对齐方法训练语言模型。该文章利用chatGPT或者GPT-4作为…

浅析时间复杂度与空间复杂度

时间复杂度 何为时间复杂度 算法的时间复杂度,是一个用于度量一个算法的运算时间的一个描述,本质是一个函数,根据这个函数能在不用具体的测试数据来测试的情况下,粗略地估计算法的执行效率,换句话讲时间复杂度表示的…

GPT-4问世;LLM训练指南;纯浏览器跑Stable Diffusion

1.多模态GPT-4正式发布:支持图像和文本输入,效果超越ChatGPT OpenAI的里程碑之作GPT-4终于发布,这是一个多模态大模型(接受图像和文本输入,生成文本)。主要能力有: GPT-4可以更准确地解决难题&a…

【软件安装】图数据库_Neo4j下载与安装配置详解

【软件安装】图数据库_Neo4j安装下载详解 文章目录【软件安装】图数据库_Neo4j安装下载详解1. 前言2. 下载Neo4j3. 安装 配置3.1 解压3.2 配置4. 启动Neo4j5. 参考1. 前言 因为使用Neo4j时默认是需要java-jdk的支持,因此在下载neo4j之前,需要下载jdk&a…

7年,从功能测试到测试开发,我证明了自己

我感觉我是一个比较有发言权的人吧,我在测试行业爬模滚打7年,从点点点的功能测试到现在成为测试开发工程师,工资也翻了几倍; 个人觉得,测试的前景并不差,只要自己肯努力;我刚出来的时候是在鹅厂…

Android 高通Camera2 Camera Device Close

1、很多人看到这个日志第一感觉可能觉得哪里没有合理释放,于是带着这个思路去进行百度探索 2、一开始我去寻找 ImageReader.OnImageAvailableListener 这个问题 var afterBitmap: Bitmap? null/**监听拍照的图片 */private val imageAvailableListener ImageRead…

算法 贪心3 || 1005. K 次取反后最大化的数组和 134. 加油站 135. 分发糖果

1005. K 次取反后最大化的数组和 思路:给数组按照绝对值大小排序,优先将负数转成正数。如果此时 k % 2 1 。最后再将绝对值最小的值变成负数(该值可能原本是负数) 而不是直接从小到大排序。 例如-8,-5,-5…

Zebec Protocol 出席香港 Web3 峰会,带来了哪些信息?

梳理香港加密新政的细节,一个明确的脉络是,香港加密新政的整体目的是令虚拟资产交易明确化和合法化,通过不断完善的监管框架,促进香港虚拟资产行业的可持续和负责任地发展。 在加强合规和持牌经营的监管思路下,长期审…

JavaScript|JS修仙篇|一本就够了|笔记|(超详细|保姆级)

🙈作者简介:练习时长两年半的Java up主 🙉个人主页:老茶icon 🙊 ps:点赞👍是免费的,却可以让写博客的作者开兴好久好久😎 📚系列专栏:Java全栈,计…

common markdown命令大全,控制文章格式

直接上教程 提到Markdown,很多人首先想到的是简单、Easy等等。的确,Markdown为简单而生。Markdown是由一个叫 JOHN GRUBER 的哥们发明的,它的语法用一篇文章就可以说完。不相信吗?让我们来试试看... 基础语法 标题 Markdown支持6…

搭建windows下基于VSCode的C++编译和调试环境

VSCode是目前比较流行的IDE,因为它插件丰富,依据需求扩展,非常方便。 本文记录搭建windows下基于VSCode的C编译和调试环境的过程。 网上关于此问题的帖子比较多,找了好几个也没有试验成功,最后发现还是按照VScode的官方…

揭秘阿里新大招:大模型只是前菜

技术的代际变革往往对商业格局产生深远影响。眼下,随着产业各界对大模型的投入布局加深,一个业界共识逐渐诞生:大模型正在改变云生态,将为云计算行业带来新的奇点。 在过去的一段时间里,市场研究机构IDC在2022年底的预…

Unity和Visual studio开发调试环境配置-工具插件安装和配置

在Unity开发中,常用C#脚本进行功能开发,需要用到Visual Studio进行开发和调试,需要分别在Unity3d和Visual Studio中安装插件和工具才能更好的进行开发和调试。 visual studio安装Unity扩展工具 visual studio中“工具”→“获取工具和功能”…