中山大学李华山、王彪课题组开发 SEN 机器学习模型,高精度预测材料性能

news2024/12/27 2:46:31
内容一览:了解全局晶体对称性并分析等变信息,对于预测材料性能至关重要,但现有的、基于卷积网络的算法尚且无法完全实现这些需求。针对于此,中山大学的李华山、王彪课题组,开发了一款名为 SEN 的机器学习模型,准确感知了固有晶体对称性和材料结构团簇之间的相互作用。
关键词:材料性能预测 深度学习 MP 数据库

作者 | 李宝珠

编辑 | 三羊

晶体对称性对于研究材料的物理性质、理解晶体结构、设计新材料以及进行 X 射线衍射等实验具有关键作用。了解晶体对称性有助于简化分析,更好地理解材料属性,并提高材料性能的计算效率。更重要的是,晶体对称性还可以直接影响材料的电荷分布、光学性质、磁性质等物理特性。

近年来,基于统计机制的机器学习已经得到了广泛应用,而从机器学习的角度来看,晶体对称性可以看作是材料的不变性与等变形,但目前现有的、基于高级图网络的晶体材料机器学习算法很难编码复杂的材料不变性和等变性。

此外,堆叠式胶囊自编码器 (Stacked Capsule Autoencoder,SCAE) 虽然也可以直接从原始数据中提取空间对称性特征,但传统的胶囊模型仍无法分析复杂材料系统结构-性能之间的关系。

针对以上挑战,中山大学李华山、王彪课题组开发了一套名为 SEN(symmetry-enhanced equivariance network,对称增强等变网络 )的机器学习模型,克服了基于卷积的算法在高对称空间群中性能不佳的问题,并在所有空间群中实现了高精度的材料性能预测。目前,相关成果已经发表于「Nature Communications」。

相关成果已经发表于「Nature Communications」

获取论文:

https://www.nature.com/articles/s41467-023-40756-2

01 数据集:MP 数据库中的 6,027 个晶体材料

研究人员基于化学环境的概念和图模型的表示方法提取了晶体材料的特征,以目标原子截断半径内的周围原子和键来定义其化学环境,并从用于材料分析的开源 Python 数据库——Materials Project 中提取了每个原子周围的原子类型、原子连接性和键长。

据悉,本研究中用于预测带隙和形成能的数据集来自 Materials Project 数据库,带隙和形成能的数据集分别包含 6,027 (按 8:1:1 的比例分为训练集、验证集和测试集)和 30,000 种材料。这两个数据集由 64 个元素组成,涵盖了周期表内除惰性气体组、镧系元素、锕系元素和放射性元素外的元素。

研究人员通过密度泛函理论(DFT)计算,对 Materials Project 数据库中的 6,027 个晶体材料组成的数据集进行了预测,并基于预测结论对 SEN 模型的性能进行了检验。

本研究中使用的晶体对称性和化学环境数据可从 Zenodo 数据库中获取。

访问链接:

https://doi.org/10.5281/zenodo.8142678

02 模型架构:3 个模块统一训练

如下图所示,SEN 模型采用了复杂的深度学习架构,包含特征提取 (FE)、对称性感知 (SP) 和属性预测 (PP) 模块。

SEN 架构由特征提取、对称感知和属性预测模块组成

在本次研究中,研究团队通过对 3 个模块的统一训练,实现了对多种材料特性的准确预测,并通过 SEN 模型描述了原子之间的相互作用。

首先,特征提取模块感知输入的原子和化学键数据,输入数据包括了靶材料原始单元中 N 原子和 M 键的信息。最后,通过高通量筛选过程,构建了包括化学计量、晶体结构、原子信息和键信息的材料数据集。

以材料数据集作为 SEN 模型的唯一输入数据,研究人员基于结构数据和化学计量数据,同时计算出了原子化学环境向量 VmA,以及元素权重向量 VmE。

经多层感知器激活后,元素权重向量被转换为相应原子的概率向量。研究人员进而通过原子化学环境向量和元素权重向量之间的 element-wise operation,更新了所有原子级别的相关性,从而能通过 LSTM-attention 层获得了材料的化学环境矩阵。

其次,该研究创新性地将胶囊机制 (capsule mechanism) 应用于材料属性预测,通过基于胶囊机制设计的对称性感知模块,将材料化学环境转换为由对称算子、卷积材料化学环境和存在值组成的材料胶囊,以感知并保留晶体对称性。进而,通过在材料的化学环境矩阵上进行对称运算,可以将不同的对称图案推广到晶体胶囊中。

最后,在属性预测方面,SEN 模型通过基于 MLP 的映射函数预测目标材料性质。

03 SEN 模型高精度预测材料属性

结论一:SEN 模型准确感知原子相互作用信息

为了验证特征提取模块的有效性,研究人员训练了 SEN 预测晶体材料带隙的能力,直到平均绝对误差 (MAE) 低于 0.15 eV,然后分析了特征提取模块产生的化学环境中间数据。

基于原子的化学环境相关性分析

具体而言,研究人员提取了 Y4Cu2O7 的原胞中每个原子的化学环境矩阵。计算了原子矩阵之间的 Pearson 系数,生成了上图所示的相关性分析图。与不同元素组的原子相比,同一元素组内的原子之间的 Pearson 系数要大得多,因此可以清楚地区分出 Y4Cu2O7 中的 3 个元素组。

通过 SEN 模型学习了六种材料的原子相关性

如上图所示,SEN 模型已经学习并编码了原子相互作用信息,并成功地检测到了杂化现象,这对于电子性质的预测具有重要意义。

结论二:SEN 模型预测性能优于 MegNet

为了研究在 SEN 模型中从化学环境到材料性质的映射,研究人员从 MP 数据库中选择了五种材料——Be(6)Ni(2)、 Sr(4)Ge(2)S(8)、 Li(2)V(2)F(12)、 CsAsF(6)、 BaB(2)F(8),其带隙分别为 0 eV、 3.25 eV、 4.86 eV、 7.24 eV 及 10.12 eV。

观察得知,带隙与材料化学环境的 PDF(概率密度函数)之间存在强相关性,即随着带隙的增大,PDF 逐渐扩散。整个数据集从材料化学环境到带隙的投影如下图所示,6,027 个晶体材料均匀分布在主特征空间,而带隙的变化在整个空间上是连续、单调的。

6027 种材料的 2D t-SNE 图,圆的颜色表示带隙值

为了验证机器学习模型所学习的特征-属性关系符合基本物理原理,研究人员生成了 Ca-O-X 材料的化学环境 2D t-SNE 图,并调查了各种材料特征(成分、点群、自旋极化等),最终发现,材料带隙取决于复杂的材料特征,不能简单地由任一关键因素来预测。

尽管如此,SEN 模型在带隙预测方面还是取得了显著的提升。在对测试数据集中的材料带隙进行预测时,SEN 模型的均方误差 (MAE) 为 0.25 eV,与具有 MLP、DenseNet、TFN、SE(3) 和 EGNN 模块的模型在测试数据集上获得的 MAE 相比,有显著改进。

不同对称度晶体材料性能的预测

如上图 d 所示,研究人员对比检验了 SEN 模型和 MegNet21 模型(通用材料网络模型)对不同晶体系统的预测质量,进一步揭示了对称感知对材料性能预测的显著影响。从误差分布图来看,SEN 模型的预测性能在所有晶体系统中均优于 MegNet。

此外,SEN 模型通过感知全晶体对称性,大幅降低了有效特征维数。这一特征清除过程减轻了过拟合问题,并加强了从材料特征到属性的映射。

论文显示,SEN 模型预测带隙和形成能的平均绝对误差分别比常见机器学习模型低约 22.9% 和 38.3%。

04 AI 推动材料产业变革发展

长久以来,新材料的设计、研发以及材料性能的改革是牵引科技进步的拉力之一,在电子、能源、医疗、航空航天等诸多领域发挥着重要作用。但传统的材料研发过程往往需要大量实验来不断修正性能,提高可行性,这一过程漫长且需要耗费极大的人力、财力。

而随着 AI 的加速应用,AI for Science 得到了越来越多的关注,其与材料的结合也成为了越来越多学者、企业的探索新方向。一方面,AI 可以分析大量数据,并进行模拟预测,从而加速新材料的发现与性能优化;另一方面,材料学科也成为了机器学习、自然语言处理、高性能计算等 AI 关键技术的重要落脚点。

可以说,AI 正在润物细无声地改变着新材料的设计与应用。未来,随着更强大的 AI 模型持续迭代,加之数据共享之下材料数据库的更新扩充,AI 势必将进一步推动新材料的诞生。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1292861.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Textual Inversion

参考博客1:https://www.bilibili.com/read/cv25430752/

新版IDEA中,module模块无法被识别,类全部变成咖啡杯无法被识

新版IDEA中,module模块无法被识别,类全部变成咖啡杯无法被识 如下图: 解决方法:java的Directory文件没有被设置为根目录,解决方法如下: 这是方法之一,还有很多的原因 可能的原因: …

androidstudio设置内存

androidstudio一直 scanning files to index,需要去设置内存: 操作如下:

【无线网络技术】——无线个域网(学习笔记)

📖 前言:手机、PC机、电视等消费类产品非常普及,人们希望有一种短距离、低成本、小功耗的无线通信方式,实现不同功能单一设备的互联,提供小范围内设备的自组网机制,并通过一定的安全接口完成自组小网与广域…

Spring AOP从入门到精通

目录 1. AOP的演化过程 1. 代理模式 2. 动态代理 2.1 JDK动态代理 2.2 Cglib动态代理 3. Spring模式 3.1 ProxyFactory 3.2 ProxyFactoryBean 3.3 AbstractAutoProxyCreator 2. Spring AOP抽象 1. 核心术语 1.1 连接点(JoinPoint) 1.2 切点(Pointcut) 1.3 增强(Ad…

交易历史记录20231207 记录

昨日回顾&#xff1a; select top 10000 * from dbo.全部&#xff21;股20231207_ALL where 连板天 >1 and DDE大单净量>0 and DDE散户数量<0 and RSI> 80 and 五指标共振>0 and 涨停基因>20 and CONVERT(datetime,最后涨停时间,120) <CONVERT(d…

Linux 线程——信号量

题目&#xff1a;编写代码实现编写一个程序&#xff0c;开启三个线程&#xff0c;这三个线程的ID分别是A,B,C,每个线程将自己的ID在屏幕上打印10遍&#xff0c;要求输出必须按照ABC的顺序显示&#xff0c;如&#xff1a;ABCABCABC... 思路&#xff1a;创建三个ID分别为ABC的线程…

【Mac】brew提示arch -arm64 brew以及uname返回x86_64的问题

背景 使用MacBook 14 M1 Pro两年了&#xff0c;自从使用了第三方Shell工具WindTerm后&#xff0c;使用brew时会提示我使用arch -arm64 brew安装&#xff0c;一开始没太在意&#xff0c;直到今天朋友问我uname -a返回的是什么架构&#xff0c;我才惊讶的发现竟然返回的是x86_64…

Linux篇:进程间通信

一、进程间通信原理&#xff1a; 1、通信是有成本的&#xff1a;两个或者多个进程&#xff0c;实现数据层面的交互&#xff0c;因为进程独立性的存在&#xff0c;导致进程通信的成本比较高。 2、进程间通信的方式&#xff1a; ①基本数据 ②发送命令 ③某种协同 ④通知 .....…

2.HTML进阶

第2章-HTML进阶 Objective(本课目标) 了解表格标签的使用掌握列表标签的使用掌握表单标签的使用 1. 表格 table(会使用) 表格作用&#xff1a; 存在即是合理的。 表格的现在还是较为常用的一种标签&#xff0c;但不是用来布局&#xff0c;常见显示、展示表格式数据。 因为它…

Motion Plan之轨迹生成笔记 (2)

Motion Plan之搜索算法笔记 Motion Plan之基于采样的路径规划算法笔记 Motion Plan之带动力学约束路径搜索 什么是基于优化的轨迹生成 Optimization-Based Trajectory Planning&#xff08;基于优化的轨迹规划&#xff09;是一种常用的方法&#xff0c;用于生成自动化系统&am…

【Flutter】vs2022上开发flutter

在vs上开发flutter&#xff0c;结果扩展仓库上没办法找到Dart&#xff0c;Flutter。 在 这 搜索Dart时也无法找到插件。 最后发现是安装工具出错了 安装了 开发需要的是

电商类直播介绍

电商直播是一种购物方式&#xff0c;通过直播技术向消费者展示商品&#xff0c;并引导其进行购买。在法律上&#xff0c;电商直播属于商业广告活动&#xff0c;主播需要根据具体行为承担“广告代言人"“广告发布者"或“广告主"的责任。 电商直播的特点在于其更…

网络机房的功能有哪些?

网络机房的功能主要包括&#xff1a; 信息存储和管理&#xff1a;机房作为信息系统的核心&#xff0c;需要提供可靠的存储和管理能力&#xff0c;包括服务器、存储设备、备份系统等硬件设备&#xff0c;以及数据备份、数据迁移、容灾等管理方法和技术。网络连接和通信&#xf…

字符串经典基础面试题

关卡名 字符串经典基础面试题 我会了✔️ 内容 1.理解字符串反转的处理方法 ✔️ 2.熟练掌握回文串的判断方法 ✔️ 3.掌握字符串中搜索第一个唯一字符的方法 ✔️ 4.掌握判断是否互为字符串重排的处理技巧 ✔️ 1 反转的问题 我们知道反转是链表的一个重要考点&#xf…

03_W5500TCP_Client

上一节我们完成了W5500网络的初始化过程&#xff0c;这节我们进行TCP通信&#xff0c;w5500作为TCP客户端与电脑端的TCP_Server进行通信。 目录 1.TCP通信流程图&#xff1a; tcp的三次握手&#xff1a; tcp四次挥手&#xff1a; 2.代码分析&#xff1a; 3.测试&#xff1a…

Mysql综合案例练习<1>

MySql综合案例练习<1> 题目一题目二题目三题目四题目五题目六题目七题目八题目九题目十题目十一题目十二题目十三题目十四题目十五题目十六题目十七题目十八题目十九 题目一 创建数据库test01_library 创建表 books&#xff0c;表结构如下&#xff1a; CREATE DATABASE …

Linux操作系统 3.Linux用户和权限

一、认知root用户&#xff08;超级管理员&#xff09; Windows、MacOS、Linux均采用多用户的管理模式进行权限管理 在Linux系统中&#xff0c;拥有最大权限的账户名为&#xff1a;root&#xff08;超级管理员&#xff09; 之前我们一直使用的是普通的用户 root用户拥有最大的系…

【STM32F103】USART通用同步异步收发器

串行通信 通信分为串行通信和并行通信&#xff0c;区别如下&#xff0c;同样是发送0101的数据&#xff1a; 可以看的出来&#xff0c;串行通信的优点是消耗的数据线会小一些。 而并行通信的优点是传输的速度快。 通常我们会选择使用串行通信来进行设备间的通信&#xff0c;这…

参考信号速度变化存在跳跃时容易发生不稳定的阻抗调节

问题描述 当参考信号速度存在跳跃变化时&#xff0c;阻抗调节系统容易发生不稳定。这是因为阻抗调节系统需要根据参考信号的速度来调整其输出阻抗&#xff0c;以匹配负载阻抗&#xff0c;从而保持系统的稳定性。 当参考信号速度突然变化时&#xff0c;阻抗调节系统可能无法及…