DP还能这么跑？基于非冯·诺依曼架构的DP高速计算

Original 刘杰深度势能 2022-09-11

收录于合集 #DP应用案例 29个

长期以来，在“速度”和“精度”这两个核心指标上，分子动力学（molecular dynamics,MD）存在“鱼与熊掌不可兼得”的问题——经典分子动力学（classical molecular dynamics, CMD）速度快，但精度低，难以满足高精度计算要求；第一性原理分子动力学（ab-initio molecular dynamics, AIMD）精度高，但速度慢，难以计算大系统。

近年来，DP团队提出了基于深度学习势的分子动力学（DeePMD），在保持AIMD级别精度前提下，大幅提升了计算速度。然而，DeePMD的计算速度虽然比AIMD快多个数量级，但仍比CMD慢2个数量级左右。研发出兼具高精度、高速度的MD方法，一直是DP社区（乃至整个MD学术界）追求的目标。

近日，湖南大学刘杰教授课题组提出了基于新型非冯·诺依曼架构的分子动力学（non von-Neumann molecular dynamics, NVNMD），同时实现了AIMD级别的高精度、CMD级别的高速度——实现了“鱼与熊掌可以兼得”。该成果以“Accurate and efficient molecular dynamics based on machine learning and non von Neumann architecture”发表在了npj Computational Materials（第一作者为莫平辉，通讯作者为刘杰）¹，训练代码和计算服务均已公开发布，目前免费提供给大家使用²’³。

下面，我们一起来看看，“鱼与熊掌兼得”是怎么实现的吧。

问题根源——冯·诺依曼架构和“存储墙”瓶颈

自1946年发明至今，冯·诺依曼架构一直占据统治地位，是手机、台式机、笔记本、计算服务器、超级计算中心的底层基础架构。目前，需要运行MD计算（包括DeePMD计算）时，使用冯·诺依曼（von Neumann, vN）架构计算机是几乎所有研究人员的唯一选择，这已成为一种“固有范式”（paradigm）。

遗憾的是，冯·诺依曼架构中，计算单元（例如CPU/GPU）和存储单元（例如内存）是互相独立的（即“存算分离”），导致计算总耗时和总功耗的绝大部分（>90%）消耗于存储单元、计算单元之间的频繁数据搬运，俗称“存储墙（memory wall）”和“功耗墙（power wall）”瓶颈。这严重制约了MD计算性能的提升。

解决方案——新型非冯·诺依曼架构的NVNMD

为解决该问题，湖南大学研究团队自主研制了基于新型非冯·诺依曼芯片架构的MD计算系统“NVNMD”。NVNMD的核心计算模块中，存储单元和计算单元紧密融为一体（即“存算一体”），避免了频繁的数据搬运，极大缓解了MD计算中的“存储墙”和“功耗墙”瓶颈。因此，相较部署于GPU的DeePMD，将计算速度提升了约1-2个数量级；将计算功耗降低了2-3个数量级。

在算法层面，为实现从传统CPU/GPU向新型非冯·诺依曼芯片架构的“范式转移 (paradigm shift) ”，湖南大学研究团队对DeePMD进行了若干修改和创新：（1）用整数等离散数据类型，取代了浮点数等连续数据类型；（2）用移位等运算，取代了乘法等运算；（3）用离散神经网络，取代了连续神经网络；（4）用逼近近似，取代了三角函数求解；等。这些修改和创新旨在使用新型非冯·诺依曼架构下有限的硬件资源，实现尽可能高的片内并行度，以实现高速MD计算。

技术细节——NVNMD系统架构

如图 1所示，NVNMD由冯·诺依曼架构的主处理器MPU（如CPU/GPU），非冯·诺依曼架构的从处理器SPU（如FPGA/ASIC），以及高速传输接口HTI（如PCIe）三部分组成。其中，MD的绝大部分计算量在SPU中完成；MPU主要负责调度和协调。

▲图1 · NVNMD系统架构

每一步MD计算包含两部分：第①部分，计算高维势能面，包括能量、受力以及维里的预测；第②部分，其他操作，包括构建相邻列表，牛顿力学积分等。第①部分计算功能单一、计算量大；第②部分计算功能复杂、计算量小。因此，在功能划分上，速度快但不灵活的SPU用来执行第①部分计算；速度慢但计算灵活的MPU用来执行第②部分计算；HTI则被用来保证MPU和SPU之间高速通信。

为了进一步提升计算性能，NVNMD系统中采用了多项高速硬件技术：

MPU中的多个计算核心以流水线方式调用SPU进行DP模型推理，使得SPU计算效率最大化。
SPU利用存内计算和流水线计算技术，使得DP模型保存在片内存储器，免除在每步MD读取模型数据；并且前一步的计算结果直接作为下一步计算的输入，消除了处理器与片外存储器之间的频繁的数据传输，大大加快计算速度，降低计算能耗。
HTI保证MPU和SPU之间的高带宽数据传输，使得两者的通信不会成为新的性能瓶颈。

性能分析——NVNMD的速度、精度、功耗

为了检验NVNMD方法的性能，湖南大学研究团队使用CPU（Intel i7-10700K）和FPGA（Xilinx xcvu9p）硬件来实现图 1中描述的计算机系统。CPU和FPGA间使用PCIe 3.0×16作为通信接口。在训练阶段，DP模型使用CPU/GPU硬件进行训练。在推理阶段，CPU运行LAMMPS软件进行分子动力学仿真，并通过自定义的用户接口调用FPGA进行势能面的推理。为全面评估实例性能，从精度，速度以及能效3个方面，进行了定量测试。

如图 2所示，在精度和速度的综合比较中，NVNMD不但具有DeePMD等机器学习分子动力学（machine learning MD, MLMD）级别的高精度，而且具有CMD级别的高速度。

▲ 图2 · 三种MD方法在精度和速度上的对比

如图 3a所示，使用NVNMD运行GeTe的分子动力学，复现了GeTe的整个相变过程（晶体相→液相→无定形相→晶体相）⁶。如图 4所示，其无定形相的径向分布函数，角度分布函数以及配位数与DeePMD和AIMD结果基本一致。

如图 3b所示，使用NVNMD运行Li₁₀Ge₂SP₁₂的分子动力学，得到的500K下的Li原子的均方位移（mean square displacement，MSD）为2.03×10⁻¹⁰m²s⁻¹，与文献值⁷（约2.00×10⁻¹⁰m²s⁻¹）基本一致。

▲ 图3 · (a) GeTe相变过程 (b) Li₁₀Ge₂PS₁₂中Li原子的均方位移

▲ 图4 · 无定形相GeTe的MD轨迹结构性质对比，包括径向分布函数（左），角度分布函数（中），和配位数（右）

利用非冯·诺依曼架构的优势，NVNMD不仅可以大幅提升计算速度，还可以大幅降低计算能耗。如表 1所示，NVNMD在保持高速度、高精度的同时，可将能效提升2-3个数量级。

▼ 表1 · MD计算的能效对比。T，P，和η分别表示计算速度，功耗，以及能效。

更多资源——代码和论文链接

想尝试NVNMD的朋友们，欢迎点击原文链接进行报名，因为资源有限，我们会尽快向您提供测试账号。同时您可以通过以下链接下载训练代码（https://github.com/LiuGroupHNU/nvnmd）来训练模型，之后通过提供的账号登录服务器（http://nvnmd.picp.vip/），上传DP模型和lammps输入脚本来进行测试。上述资源都是免费开放的。NVNMD的训练代码会在近期合并到DeePMD的GitHub账号。

希望了解NVNMD更多细节的朋友，欢迎点击论文（全文可免费下载）链接：https://www.nature.com/articles/s41524-022-00773-z

参考文献

[1] Mo, P. et al. Accurate and efficientmolecular dynamics based on machine learning and non von Neumann architecture. NpjComput. Mater. 8, 1–15 (2022).

[2] Liu, J. & Mo, P. The training andtesting code for NVNMD. https://github.com/LiuGroupHNU/nvnmd (2021).

[3] Liu, J. & Mo, P. The server website ofNVNMD. http://nvnmd.picp.vip/ (2021).

[4] Zhang, L. et al. End-to-end SymmetryPreserving Inter-atomic Potential Energy Model for Finite and Extended Systems.Adv. Neural Inf. Process. Syst. 2018-Decem, 4436–4446 (2018).

[5] Wang, H., Zhang, L., Han, J. & E, W.DeePMD-kit: A deep learning package for many-body potential energyrepresentation and molecular dynamics. Comput. Phys. Commun. 228,178–184 (2018).

[6] Shi, M., Li, J., Tao, M., Zhang, X. &Liu, J. Artificial intelligence model for efficient simulation of monatomicphase change material antimony. Mater. Sci. Semicond. Process. 136,106146 (2021).

[7] Huang, J. et al. Deep potentialgeneration scheme and simulation protocol for the Li 10 GeP 2 S 12 -typesuperionic conductors. J. Chem. Phys. 154, 094703 (2021).

[8] Jia, W. et al. Pushing the Limit ofMolecular Dynamics with Ab Initio Accuracy to 100 Million Atoms with MachineLearning. in SC20: International Conference for High Performance Computing,Networking, Storage and Analysis 1–14 (IEEE, 2020).doi:10.1109/SC41405.2020.00009.

上下滑动查看更多

- End -

（如需转载图文请与公众号后台联系）

DP还能这么跑

DP还能干这个？DP在含能材料热解反应中的应用
DP用于TCAD中构建半导体掺杂原子迁移模型
DP还能干这个？深度势能描述氘的超固体相
DP还能干这个？DP模拟揭示盐溶液的微观结构

- 欢迎扫码关注深度势能公众号/社区B站账号 -

👇 点击“阅读原文”跳转进入NVNMD系统试用报名

一把短刀，怎么就让他连捅18人？！

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

这一刻，快乐被具象化了

海南省拟任干部人选公

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

DP还能这么跑？基于非冯·诺依曼架构的DP高速计算

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

这一刻，快乐被具象化了

海南省拟任干部人选公

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

生成图片，分享到微信朋友圈

DP还能这么跑？基于非冯·诺依曼架构的DP高速计算

您可能也对以下帖子感兴趣