覆盖 7 百万问答数据,上海 AI Lab 发布 ChemLLM,专业能力比肩 GPT-4

news2024/12/23 17:55:32

随着人工智能技术的飞速发展,大语言模型 (LLMs) 凭借其强大的自然语言处理能力,在生命科学、海洋学、材料化学等科学研究中被广泛应用。虽然,LLMs 在分子特性预测、分子生成和实验方案设计等化学相关任务上表现良好,但在处理各种化学下游任务时表现欠佳。

究其原因,直接将化学知识集成到语言模型中,主要面临三大挑战: 首先,大多数化学信息和知识存储在结构化数据库中,直接使用这些数据训练 LLMs 可能会损害模型处理自然语言的能力,使得模型的对话和逻辑推理能力发生退化;其次,在化学信息学中,分子用特殊符号表示,如 SMILES。然而这类数据往往不符合自然语言的规范,因此常规的语言模型难以正确理解和生成这种符号;最后,化学数据和任务种类繁多,设计一个灵活并能泛化到多种化学任务上的训练流程十分困难。

针对于此,上海人工智能实验室发布了化学大语言模型 ChemLLM。ChemLLM 擅长通过流畅的对话交互执行化学学科的各种任务,在核心任务上的性能与 GPT-4 相当,并在一般场景中表现出了与类似规模的 LLM 相媲美的性能。 ChemLLM 为化学研究的探索开辟了新的道路,并且研究团队将结构化化学知识融入对话系统的方法,为开发各科学领域的 LLM 树立了新的标准。

相关研究以「ChemLLM: A Chemical Large Language Model」为题,已发表于 arXiv,成果已开源,并提供免费商用。目前 HyperAI超神经官网 (hyper.ai) 已上线「一键部署化学大模型 ChemLLM-7B-chat」,分步教程详见文末~

研究亮点:

  • 创建并开源大规模化学数据集 ChemData 以及 ChemPref-10K 的中英文版本数据集、C- MHChem 数据集、 ChemBench4K 化学能力评测基准数据集

  • 创建并开源包含 4,100 道选择题、9 项特定任务的大规模化学基准测试 ChemBench

  • 通过定量、定性的评估测试,ChemLLM 表现出良好的化学专业性和多功能性

在这里插入图片描述

论文地址:
https://arxiv.org/abs/2402.06852

化学大模型 ChemLLM-7B-chat 教程已在 hyper.ai 上线,点击链接一键部署:
https://go.hyper.ai/r31KV

ChemData 化学任务数据集下载地址:
https://go.hyper.ai/zMJEl

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s

ChemData 数据集: 涵盖 700 万条问答数据的大规模化学数据集

研究人员从众多在线资源库中收集了包括 PubChem、ChEMBL、ChEBI、ZINC 等在内的化学数据,并在此基础上创建了一个用于微调 ChemLLM 的大规模数据集 ChemData。

ChemData 数据集利用基于模板的指令构建方法,将结构化的化学数据转换为适合训练 LLM 的自然对话形式。该数据集包含 700 万条用于指令微调的问答数据,涵盖了广泛的化学领域知识,并且该问答数据类别与分子、反应和其他与化学相关的任务类别一致。

其中,与分子相关的任务包括名称转换 (Name Conversion)、Caption2Mol、Mol2Caption 和分子性质预测 (Molecular Property Prediction), 主要目的是调整语言模型对化学分子的感知。

与反应相关的任务涉及化学反应的各个方面, 包括逆合成 (Retrosynthesis)、产物预测 (Product Prediction)、产量预测 (Yield Prediction)、温度预测 (Temperature Prediction) 和溶剂预测 (Solvent Prediction)。除可明确分类的数据外,所有其他数据都归入特定类型的任务,从而增强 ChemLLM 对整个化学空间的理解。下图展示了这三类任务所包含数据分别占的比重。

在这里插入图片描述

ChemData 数据集构成占比

ChemLLM 模型架构:以 InternLM2-Base-7B 为基底,进行两个阶段的指令微调

化学大语言模型 ChemLLM 是在 InternLM2-Base-7B 模型训练基础上,通过两个阶段的指令微调方法训练得到的,不仅实现了多种化学能力,还保留了完整的自然语言能力。

如下图所示,在第一阶段,研究团队使用 Multi-Corpus(一个从 Hugging Face 收集的包含 170 万个问答对的综合语料库),提升了模型的通用语言能力,并将第一阶段获得的模型命名为 InternLM2-Chat-7B 。

在这里插入图片描述

ChemLLM 两个阶段的指令微调流程示意图

在第二阶段,研究团队使用 ChemData 和 Multi-Corpus 的混合数据集对模型进行微调,其中 ChemData 用于增强模型的化学知识,而 Multi-Corpus 用于保留模型的通用能力。经过两个阶段的指令微调训练,提高了 ChemLLM 在化学领域的通用性。

ChemBench 基准测试:减少语言模型输出风格对评估结果的影响

现有的化学大模型基准测试多以问答形式呈现,并使用 BLEU 和 ROUGE 作为评估标准。然而,这类评估容易受到语言模型输出风格的影响,不适合强调科学事实正确性的场景。

基于此,研究团队构建了与当前主流评估集 MMLU、C-Eval 相类似的化学基准测试 ChemBench。ChemBench 包括 9 项关于化学分子和反应的任务,并且与 ChemData 数据集中的任务相同。 除此之外,ChemBench 还包含 4,100 道选择题,每道题对应一个正确答案,旨在最大程度地减少语言模型输出风格对评估结果的影响。

值得一提的是,该基准测试已经在 OpenCompass 开源项目上线。下图展示了 ChemBench 基准测试 9 项任务的分布情况。

在这里插入图片描述

ChemBench 基准测试 9 项任务分布情况

研究结果:ChemLLM 模型化学专业能力与 GPT-4 相当,明显优于类似规模的一般 LLMs

研究团队从定量与定性两个维度,对化学大语言模型 ChemLLM 的性能进行评估。 定量评估包括化学能力和通用能力评估,定性评估主要通过与化学相关 NLP(自然语言处理)任务中的表现进行评估。

在化学能力评估中, ChemBench 作为评估核心化学能力的基准,通过 9 项不同任务测试该模型的专业性。如下图所示,ChemLLM 明显优于类似规模的一般大语言模型 (LLMs),全面超越了 GPT-3.5。与 InternLM2-Chat-7B 相比,ChemLLM 在化学方面的能力有了显著提高,说明第二阶段的化学能力训练具有显著效果。与 GPT-4 相比,ChemLLM 在 9 项任务中有 6 项得分比 GPT-4 高。

在这里插入图片描述

ChemLLM 化学性能评估得分

在通用能力评估中, 研究团队使用 MMLU、C-Eval、GSM8K、C-MHChem 4 个数据集对 ChemLLM 进行评估。其中,MMLU 是一个涵盖 STEM(科学、技术、工程和数学)、人文和社会科学等跨学科科目的基准测试,对跨学科知识进行广泛评估;C-Eval 是一个全面的中文基准测试,涵盖多个学科并分为 4 个难度等级;GSM8K 是一个用于测试语言模型数学能力的基准测试,要求通过 2-8 步的基本数学运算来解决问题;C-MHChem 是一个用于评估模型基本化学概念的数据集,主要涉及初高中化学测试。

如下图所示,在英文的 MMLU 和中文的 C-Eval 基准测试中,ChemLLM 的准确率分别为 65.6 和 64.1,说明它在更广泛的学科和多语言场景中表现出色。

在 GSM8K 数据集测试中,ChemLLM 的准确率达到 67.2,结果表明在化学数据上进行微调,在一定程度上增强了模型的推理能力。

在 C-MHChem 数据集测试中,ChemLLM 准确率为 76.4,超过了 GPT-4,展示了 ChemLLM 在中国初高中考试中的能力。

在这里插入图片描述

ChemLLM 通用性能评估得分

在定性评估中, 研究团队通过化学诗歌创作、文本提取、化学文献翻译、伦理回答等与化学相关的 NLP(自然语言处理) 任务对 ChemLLM 进行评估。结果显示,ChemLLM 在各种 NLP 任务中都能够对化学知识进行更深入地理解和创造性运用。下图列举了 ChemLLM 在部分 NLP 任务上的表现:

在这里插入图片描述

ChemLLM 化学诗歌创作

在这里插入图片描述

ChemLLM 化学信息提取

以上研究结果显示,ChemLLM 能够通过实时对话处理各种化学任务,其化学能力与 GPT-4 相当,并在其他领域表现出色。

目前,ChemLLM 已经完成新一轮升级,ChemLLM-1.5 接入 RAG 功能,不仅支持对化学文献进行深度挖掘和理解以及联网搜索,而且支持与 ChemLLM 直接对话探讨文章内容。 ChemLLM 的发展为科学领域的 LLMs 树立了先例,进一步加速了 AI 时代化学研究的进程。

HyperAI超神经官网 (hyper.ai) 已经上线了「一键部署化学大模型 ChemLLM-7B-chat」, 以下是分步教程与效果展示,快跟着小编一起探索吧~

一键部署化学大模型 ChemLLM-7B-chat

Demo 运行

  1. 登录 hyper.ai,在「教程」页面,选择「一键部署浦科化学大模型 ChemLLM-7B-chat Demo」,点击「在线运行此教程」。

在这里插入图片描述

在这里插入图片描述

  1. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

在这里插入图片描述

  1. 点击右下角「下一步:选择算力」。

在这里插入图片描述

  1. 页面跳转后,选择「NVIDIA GeForce RTX 4090」,点击「下一步:审核」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

HyperAI超神经专属邀请链接(直接复制到浏览器打开):
https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej

在这里插入图片描述

  1. 点击「继续执行」,等待分配资源,首次克隆需等待 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至「一键部署浦科化学大模型 ChemLLM-7B-chat Demo」的页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。

若超过 10 分钟仍处于「正在分配资源」状态,可尝试停止并重启容器;若重启仍无法解决,请在官网联系平台客服。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

效果预览

以药物研发中的伦理困境问题进行测试

在这里插入图片描述

参考资料:
1. https://mp.weixin.qq.com/s/C_aFYbzLlQySmTDarWWRkA
2. https://mp.weixin.qq.com/s/b9T9LxAkv4gnJMfBs2AW5Q

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2103876.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IDEA莫名奇妙自动选择光标所在行 -罪魁祸首居然是钉钉

请看受害者视角 作为开发者,工作时基本都会运行钉钉吧。最近,钉钉更新了AI功能,但不知道是不是开发团队平时不使用IDE,竟然让这个AI功能影响到了其他软件,简直让人无语。不仅仅是IDEA受影响,就连WebStorm也…

<C++> AVLTree

目录 1. AVL概念 2. AVL树节点的定义 3. AVL树的插入 4. AVL树的旋转 5. AVL树的验证 6. AVL树的删除 7. AVL树的性能 暴力搜索、二分搜索、二叉搜索树、二叉平衡搜索树(AVL、红黑树)、多叉平衡搜索树(B树)、哈希表 1. AVL概念 二…

RAG 实践- Ollama+RagFlow 部署本地知识库

前言 本文我们介绍另一种实现方式:利用 OllamaRagFlow 来实现,其中 Ollama 中使用的模型仍然是Qwen2 我们再来回顾一下 RAG 常见的应用架构 RagFlow的安装和部署 前置条件 CPU > 4 核RAM > 16 GBDisk > 50 GBDocker > 24.0.0 & Dock…

迅为RK3568 开发板赋能数字广告,推动智能化使用北京迅为RK3568核心板作为广告机主控

广告机作为一种高效且灵活的宣传工具,正逐步成为商场、车站、机场等各类公共场所的标配。广告机通过数字化的方式展示广告内容和提供实时信息更新,有效地提升了广告和信息的覆盖率。 如何设计一款广告机,根据广告机的需求和工作环境&#x…

2024年住宅代理市场概况:趋势与选择指南

在数字化时代,网络安全和数据保护越来越受到重视。尤其在网络环境中,真实的IP地址成为保护个人信息安全和数据安全的重要抓手。住宅代理作为一种有效的解决方案,在这个领域扮演了关键角色。本文将探讨2024年住宅代理市场的概况,分…

【CTF Web】BUUCTF Upload-Labs-Linux Pass-03 Writeup(文件上传+PHP+特殊可解析扩展名绕过)

Upload-Labs-Linux 1 点击部署靶机。 简介 upload-labs是一个使用php语言编写的,专门收集渗透测试和CTF中遇到的各种上传漏洞的靶场。旨在帮助大家对上传漏洞有一个全面的了解。目前一共20关,每一关都包含着不同上传方式。 注意 1.每一关没有固定的…

数据库:笔记01绪论

基本概念 数据(Data) 描述事物的符号记录称为数据,并且可以数字化存入计算机。 数据的含义称为数据的语义,数据与其语义是不可分的。 数据库(DataBase,DB) 存放数据的仓库 数据库数据具有永久存储、有…

【大模型测评】2024大语言模型综合能力测评报告(免费下载)

前言 2024年大语言模型综合能力测评报告揭示了全球大模型市场的爆发式增长,特别是在算法架构、数据处理和应用场景上的显著进步。 从2017年的诞生阶段到2023年的爆发期,大模型技术经历了从Transformer神经网络架构的奠基到多模态理解与内容生成能力的飞…

笔试,牛客.kotori和n皇后​,牛客.AOE还是单体

目录 牛客.kotori和n皇后​编辑 牛客.AOE还是单体 牛客.kotori和n皇后 想起来,我之前还写过n皇后的题,但是这个我开始只能想到暴力解法 判断是不是斜对角线,联想yxb和y-xb,假如在一条线上,那么他们的x和y会对应成比例&#xff0c…

iscntrl函数讲解 <ctype.h>头文件函数

目录 1.头文件 2.iscntrl函数 1.头文件 以上这些函数都属于头文件<ctype.h>中的函数,其中包括iscntrl函数 #include<ctype.h> 2.iscntrl函数 简述&#xff1a;iscntrl 函数用来判断字符是否为控制字符&#xff0c;控制字符为ASCII值在0x00到0x7f之间 控制字符主…

在 Facebook 上投放广告需要多少钱?

Facebook 拥有 23.2 亿的月活跃用户&#xff0c;用户体量非常庞大&#xff0c;你的目标群体出现在社交媒体平台上的可能性非常高&#xff0c;所以企业会选择在Facebook 上投放广告。很多朋友想入局&#xff0c;但总是在思考Facebook 推广到底要花多少钱才能有效&#xff1f;如果…

Unknown command: “create-react-app“

在创建react项目时出现报错" Unknown command: "create-react-app" " 解决方法&#xff1a; 配置全局变量&#xff0c;" win r " 打开cmd窗口&#xff0c;输入下列命令&#xff0c;回车等待结束即可&#xff1a; npx create-react-app my-pro…

中国电子学会Python3级等级考试202403客观题解析4

二、判断题 26、十六进制 3C 转换成八进制为 74。&#xff08; &#xff09; A 正确 B 错误 答案&#xff1a;A 使用“填空法”&#xff0c;先将3C转换为十进制&#xff0c;之后再使用“填空法”或“除8法”将十进制数转换为八进制。 知识扩展&#xff1a;其它进制&#…

边缘智能网关 P1600:智慧城市的创新引擎

智慧城市&#xff08;Smart City&#xff09;是以发展更科学、管理更高效、生活更美好为目标&#xff0c;以信息技术和通信技术为支撑&#xff0c;通过透明、充分的信息获取&#xff0c;广泛、安全的信息传递和有效、科学的信息处理&#xff0c;提高城市运行效率&#xff0c;改…

Shell脚本快速入门(Linux篇)

1.Shell介绍 Shell 是一个 C 语言编写的脚本语言&#xff0c;它是用户与 Linux 的桥梁&#xff0c;用户输入命令交给 Shell 处理&#xff0c;Shell 将相应的操作传递给内核&#xff08;Kernel&#xff09;&#xff0c;内核把处理的结果输出给用户。 Shell 是指一种应用程序&am…

用亚马逊AI代码开发助手Amazon Q Developer开发小游戏(中篇)

快用人工智能帮程序员写代码、开发游戏&#xff01;今天小李哥就来介绍亚马逊推出的国际前沿人工智能AI代码开发助手Amazon Q Developer。目前该代码助手在Hugging Face代码生成权威测试集SWE-bench中排名第一&#xff0c;可以根据我们的需求生成整个代码项目&#xff0c;并可以…

(待更)数据结构与算法:字符串和KMP算法原理(附有leetcode344、541、151、459题解)

字符串交换相关 leetcode344.反转字符串 注意&#xff1a;这里的s是str数组 class Solution(object):def reverseString(self, s):""":type s: List[str]:rtype: None Do not return anything, modify s in-place instead."""n len(s)i 0j …

【C++】容器list常用接口详解

目录 一.基本介绍 二.list的使用 1.构造函数 2.迭代器 3.遍历方式 4.容量相关操作 5.增删改查 三.list迭代器失效问题 四.算法库函数和list关系 一.基本介绍 list是一个带头双向循环链表由于是链表&#xff0c;物理空间不连续&#xff0c;不支持随机访问数据&#xff0…

《机器学习》周志华-CH6(支持向量机)

6.1间隔与支持向量 给定训练样本 D { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } , y i ∈ { − 1 , 1 } D\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\},y_i\in\{-1,1\} D{(x1​,y1​),(x2​,y2​),...,(xm​,ym​)},yi​∈{−1,1}分类学习最基本的想法是基于训练集…

SQL优化神器 SQLAdvisor

简介 SQLAdvisor是一款开源的SQL优化工具&#xff0c;由美团点评公司的技术工程部DBA团队开发与维护。作为一个分析SQL语句并提出索引优化建议的工具&#xff0c;它基于MySQL原生词法解析&#xff0c;结合SQL中的where条件、字段选择度、聚合条件、多表Join关系等&#xff0c;…