编者荐语:
面对纳米材料等大体系时,电荷补丁法可以计算几千甚至上万原子, 但是电荷补丁法作为非自洽计算,不能给出原子受力,也不能用来弛豫原子坐标。面对摩尔条纹或线性位错等问题,我们需要弛豫原子的坐标,为解决这些问题,龙讯旷腾推出LS3DF线性标度法。
以下文章来源于计算机科学技术学报JCST ,作者JCST
JCST于2024年第1期出版一篇关于在国产超算上实现大规模第一性原理计算的研究论文。该论文提出了一种可大规模扩展且高效的第一性原理计算软件LS3DF的实现,使其能够在曙光超级计算机上处理高达1000万个硅原子的系统,并达到34.8 PFLOPS的峰值性能。本篇论文由来自中国科学院计算技术研究所、中国科学院大学、中国科学院半导体研究所、盐城工学院和华为技术有限公司多位作者共同撰写。
论文信息
标题:10-Million Atoms Simulation of First-Principle Package LS3DF on Sugon Supercomputer
作者:Yu-Jin Yan (严昱瑾), Hai-Bo Li (李海波), Tong Zhao (赵曈), Lin-Wang Wang (汪林望), Lin Shi (石林), Tao Liu (刘涛), Guang-Ming Tan (谭光明), Wei-Le Jia (贾伟乐), Ning-Hui Sun (孙凝晖)
单位:中国科学院计算技术研究所;中国科学院大学;华为技术有限公司;中国科学院半导体研究所;盐城工学院
关键词:深度计算单元,电子结构,高性能计算,线性标度三维分块算法(LS3DF),曙光超级计算机
引用信息:Yan YJ, Li HB, Zhao T et al. 10-million atoms simulation of first-principle package LS3DF on Sugon supercomputer. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY 39(1): 45−62 Jan. 2024. DOI: 10.1007/s11390-023-3011-6
研究动机
随着摩尔定律的推进,半导体器件的尺寸缩小至纳米级别。在这种尺度下,量子效应对半导体器件仿真中的影响变得至关重要,因此带来了大规模电子结构计算的挑战。当前电子结构计算主要依赖密度泛函理论,但该方法在处理大规模系统时面临着高昂的计算成本。
为应对这一问题,本研究在国产曙光超级计算机上实现了一种大规模、高效的线性标度三维分块算法(LS3DF)。该文通过对算法和系统层面的优化,成功在一千万原子体系的模拟中表现出极佳的可扩展性和良好的计算效率,为仿真模拟下一代半导体器件提供关键支持。
研究方法
本研究通过一系列算法级和系统级优化方法,成功实现了LS3DF方法的高效率和大规模应用。
在算法层面,对原有的共轭梯度迭代算法进行了优化,改进了迭代方向,从而加快了算法的收敛速度。此外,还采纳了混合精度的计算策略以缩短计算时间,同时通过理论分析保证了算法准确性的不受影响。
在系统层面,引入粗粒度并行处理方法,针对原先算法的细粒度划分导致大量通信代价的问题,如图1所示,通过改变算法的划分粒度以减少数据传输所需的时间。如图2所展示的,本文通过实施多流三维快速傅里叶变换方法,可更充分利用曙光深度计算单元的计算资源。此外,本文还采取了其它系统优化措施,例如核融合和冗余计算移除,进一步提高异构计算机的计算效率。
通过以上两个层面的优化策略,LS3DF方法能够有效处理高达1000万个硅原子的复杂系统,并在峰值性能上取得显著提升。这项工作对于未来在更大规模超级计算机上实现整个半导体器件的电子结构模拟工作具有深远的意义。
图1. LS3DF方法的细粒度并行与粗粒度并行
图2. 多流三维快速傅里叶变换方法
实验和结果
本研究首先对LS3DF算法在小规模体系上的效率进行了测试,并在图3中展示了结果。经过优化的LS3DF算法在效率上比原始异构版本累计提高了3.1倍。
同时,本文在大规模体系上进行了算法的扩展性测试。图4展示强扩展性结果:当计算一百万原子体系的节点从400个增加到3200个时,并行效率仍能维持在81%。图5则展示了弱扩展性结果:当计算原子体系规模从8000增至1000万(计算节点相应从3增加至3800)时,算法的扩展效率达到了98.72%,并实现了峰值性能的21.2%(34.8 PFLOPS)。
图3. 8000个硅原子系统的逐步优化及其相应的加速效果
图4. 一百万硅原子系统的强扩展性
图5. AB_CG算法的弱扩展性结果
结论和展望
本文专注于大规模线性标度三维分块算法LS3DF的高效实现,成功将电子结构计算的规模扩展至千万原子级别,与当前半导体器件的规模相匹配。文章中提出的优化策略同样适用于未来的E级计算机,这为未来半导体器件的全面模拟计算提供了重要的技术基础。
作者简介
严昱瑾,中国科学院计算技术研究所,博士生,研究方向包括高性能计算、大规模并行计算和第一性原理计算。
李海波,华为技术有限公司与中国科学院计算技术研究所联合培养博士后,研究方向包括数值线性代数、计算逆问题和机器学习。
赵曈,中国科学院计算技术研究所,特别助理研究员,研究方向包括人工智能基础理论、高性能计算和博弈论。
汪林望,中国科学院半导体研究所,首席科学家,研究方向包括开发“ab initio”电子结构计算方法,并将其应用于材料设计和发现。
石林,盐城工学院,副教授,研究方向包括第一原理计算和 III-V 半导体。
刘涛,中国科学院计算技术研究所,工程师,研究方向包括高性能计算、机器 学习和人工智能的科学应用。
谭光明,中国科学院计算技术研究所,研究员,研究方向包括并行算法设计与分析、并行编程与优化、计算机体系结构、生物信息学和大数据。
贾伟乐,中国科学院计算技术研究所,研究员,研究方向包括高性能计算、人工智能和大规模并行计算。
孙凝晖,中国科学院计算技术研究所,研究员,中国工程院院士,研究方向包括并行处理架构、分布式操作系统、性能评估和文件系统。