图灵量子实现38倍提速量子AI药物设计

光子盒 2023-03-04

收录于合集 #企业风云 491个

来源：图灵量子

将量子计算和人工智能技术相结合，图灵量子在AI制药领域实现重大技术突破，推出一系列量子AI应用模块，其中 QuOmics（基因组学）、QuChem（药物分子结构设计）、QuDocking（药物虚拟筛选）、QuSynthesis（化学分子逆合成）等四大模块，已实现不同程度的量子算法增强，另有QuProtein（蛋白结构预测）和QuDynamics（分子动力学模拟）的功能模块正在开发中。

量子计算作为一种全新的计算范式，它工作在算法逻辑的后端。人工智能作为一种连接现实世界数据的计算工具，它一般工作在应用逻辑的前端。经典计算下的人工智能与量子计算下的人工智能之别，如同动车与高铁。

在大规模通用量子计算机制成之前，量子AI以及混合算法研究仍将以在CPU/GPU上运行为主。图灵量子借助张量网络技术，通过张量的缩并，实现38倍提速量子AI药物设计。随着模拟量子比特的增加，加速倍数会进一步提升。从而使得通用量子计算机还未普世应用的前提下，也能立即使用量子计算工具解决实际问题。

量子算法极大地改善了经典生成模型，用于基因组学和药物分子的结构设计，使算法收敛的稳定性显著提升。此外，在老药新用的场景中，量子算法的引入，显著提升分子结构生成的有效性。同时，量子和经典算法的结果表现出很强的互补性，对随机抽取样本处理的无效率降低近6倍，多样性提升214%。

随着深度学习的兴起发展，越来越多的科研难题在AI的帮助下得以解决，同时产生了巨大的智能算力需求，英伟达对AI算法在其GPU上运行效率的优化，使得AI自然地与GPU联系起来，然而后摩尔时代的到来，终将面临如CPU一样的，由半导体制程工艺带来的瓶颈。图灵量子开发的光子、光量子芯片致力于在未来接力GPU，为后摩尔时代提供智能算力支持。

所以量子计算与人工智能天然互补，量子计算为人工智能带来算法的「逻辑与算力」的提升，而人工智能拓宽了量子计算的应用场景。在诸多应用场景中，AI制药是代表性的、技术创新驱动的新型行业。新药研发的各个环节都消耗大量人力物力和时间成本，这其中包括结构预测、药物虚筛、逆合成以及药物代谢等多个环节。AlphaFlod是近年来最具代表性的蛋白质深度学习预测模型，它对于药物研发起到重要作用。同时，也展示了这些算法模型对智能算力的依赖，在逐年爆发式地增长。为了使量子计算成熟后产生的无穷算力，能够满足生物医药行业的智能算力需求，「图灵量子」已经在量子计算的数值模拟平台上，进行了大规模的量子启发、经典量子混合算法开发和应用案例的实现。量子AI与制药的结合，蕴含巨大社会经济价值，但实现行业落地仍然需多方长期的技术研发投入。目前，「图灵量子」实现的早期案例中，也不乏若干量子AI带来增强的迹象。

随着计算机辅助药物设计（CADD）向着人工智能驱动药物设计（AIDD）的转变，制药行业的各个环节都体现出对智能算力的需求。在量子算力助力新药研发的实践中，量子AI的解决方案和软件工具的形成是必不可少的。不论是借助人工智能还是量子算法，实现一款药物分子从头设计、到进入临床，最终获批使用，都非一日之功。图灵量子在AIDD中的探索，仍然是起步阶段：目前，已初步推出 QuOmics、QuChem、QuDocking、QuSynthesis 四大模块，分别实现了基因序列预测、药物分子生成、互作结合能预测、分子逆合成等功能；同时用于蛋白质结构QuProtein和分子模拟QuDynamics，正处于开发阶段。

应用模块一 QuOmics: 有助于预测高危新冠病毒毒株变异风险

截止至2022年2月9日：全球累计新冠确诊病例超过4亿。新冠病毒是具有较高突变频率的RNA病毒，突变频率大概在百万分之三。在人体内，每个病毒平均每小时可以复制出1000份新个体。微小的概率叠加上大规模感染人群，和长时间的新冠流行，使得病毒变异无时无刻不在发生。如何用监测到的变异毒株测序结构，预测和穷尽冠状病毒的所有变异可能，对人类的生命健康和全球社会经济都有重要意义。

在图灵量子的加持下，上海交大金贤敏团队牵头与某三甲医院、南开大学、帝国理工大学、卡耐基梅隆大学科研人员合作，采用基于风格混合的量子生成对抗网络模型，来进行新冠病毒变异结构预测。生成RNA结构与新冠病毒样本间的保真度均值超过95%，预测结果也显示了良好的生物学意义。在算法设计上，量子神经网络保持了同经典算法逻辑上的高度一致性。这来自于量子启发式的模糊卷积，和量子渐进训练模块的开发。同时量子线路支持的判别器模型，也极大地改善了GAN收敛不稳定的顽疾。在多个损失函数上，都以远小于经典算法的迭代次数完成了算法收敛。该工作已在arxiv上发表预印版。

通过多方合作，图灵量子不但促进了冠状病毒的学术研究，同时，自主完成了对研发中量子算法应用技术的知识产权保护。冠状病毒相关的量子算法研发的意义，不止体现在学术科研中，更有益于流行病的实际防控。大众心理上总是习惯性地认为「防不如治」，而冠状病毒入侵地球已经远不止三次，每次都严重威胁人类生命安全和社会经济的发展。二十一世纪以来的SARS、中东呼吸综合征（MERS）等，都是冠状病毒家族中的成员，为了使新冠病毒流行毒株数据，能够用于更多高风险的，动物携带人畜共患冠状病毒的防控，这就需要更高效和更准确的模型，从现有的病毒序列数据中，预测潜在变异可能性，促进针对高危毒株的疫苗和药物的预研。图灵量子也在持续更新预测模型机制，使其能够成为保护每个普通人的警示灯。（详情可参考论文预印版 [1]）

图1 冠状病毒的量子算法原理及优势图

[1]论文预印版: https://arxiv.org/abs/2203.03556

应用模块二 QuChem: 基因药物分子设计多样性提升214%

近70年来，药物的发现一直遵循 Eroom 定律（Eroom’s Law），即随着时间的推移，同样的研发投入带来的有效成果逐渐减少。如花费10亿美元进行研发，每9年获批的项目就会减少一半以上的数量。据行业研究统计，新药研发往往需要研发人员投入10年以上、17亿美元左右的时间和金钱成本。但这样惊人的数字背后，新药成功获批投入使用的概率仅仅在10%以下。新药研发成本越发高昂。这就使得如何在获批药物分子上进行重新设计，来用于新的病症治疗至关重要。

如果一种药物分子，能够阻断某种疾病相关的基因表达过程，它将能够作为治疗该病症的基因靶向药物。图灵量子采用癌症基因表达数据集和QuSAAE，进行了老药新用的探索。该量子算法能够在量子编码器、量子解码器和量子判别器的协同工作下，提取输入分子结构中的结构片段，并识别其是否与特定基因片段结合，来阻断表达过程，从而标记出与疾病治疗无关的分子基团，用于药物的重新设计。

该量子算法的「输入」是初始药物和基因表达数据，「输出」是全新的基因靶向药物分子[2]。在充分的数据支持下，该量子算法能够赋能药厂的药物研发，既可满足在QPU上运行的条件，也可在现有的CPU/GPU平台上高效运行。新的药物分子基于进一步的验证，有可能以更低的成本进行大规模生产，惠及更多老百姓。

在以下药物分子结构设计的应用中，图灵量子分别实现了38倍提速量子AI算法在CPU/GPU上的模拟运行、对随机抽取样本处理的无效率降低近6倍，整个分子结构生成上的多样性提升214%。

1）药物分子以及基因表达水平数据

为了实现老药新用的QuSAAE，需要两类数据：药物分子数据和基因表达数据。LINCS L1000 数据由L1000方法获得，该方法相比RNA 测序技术具有更低成本的特征。在每一次实验中，测量978个基因的转录组（基因表达产物），然后借助数学模型来估计人类其余的两万个基因的转录组。LINCS L1000 数据完整的体现了，当细胞暴露在各种微扰介质下基因表达的变化，包括药物分子对基因表达变化的影响。目前有22412种不同的微扰介质（包含20413个小分子化合物：药物分子、苗头化合物等），这些微扰介质被应用在56种不同的细胞环境中，其中包括人类原代细胞系和人类癌症细胞系。

[2]source: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5990023/

2）基因药物设计算法流程

图 2.1 量子监督对抗自编码网络（Quantum Supervised Adversarial Autoencoder, QuSAAE）

如图 2.1 所示，该算法的主体框架是一个变分自编码器，经过学习自编码器能够重构药物分子。该功能的实现分为两步：第一步，通过编码器对输入的药物分子 x，进行压缩和特征提取，形成一个矢量 z；第二步，将该矢量z输入解码器，输出 x′。模型的训练目的，是最大限度的还原出输入的药物分子，即 |x−x′|=0 。在自编码器的基础上，加入一个判别器，它的作用是使矢量 z 满足某种特定的分布，从而使z 空间和 x 空间的映射更加自然。

为了能够重构药物分子，模型学习到的矢量 z 必定至少包含两种信息：（1）与基因表达变化相关的信息，（2）其他信息。如果我们将与基因表达变化相关的信息输入给解码器，那么理论上，模型就可以将全部的计算资源分配到学习这些信息上。因此矢量 z 将只包含与基因表达变化无关的信息。

3）张量网络加速量子算法（过程演示）

图 2.2 QuSAAE 算法在张量网络加速引擎支持下的加速效果

如图 2.2所展示，以QuSAAE算法为例，对张量网络的量子算法加速进行了分析。结果显示，随着模拟量子比特数的增加，张量网络技术对量子线路的加速效果也显著提升。在11比特的量子判别器线路中，模型的运行效率显著提升38倍以上。上述方法有效地支撑了，现阶段对量子AI算法应用产业化落地的探索，并可大规模地缩减新药研发大型AI模型的训练和运行成本。

4）量子算法增强生成模型的训练稳定性

图 2.3 经典、量子监督对抗自编码网络判别器损失函数

量子算法和经典算法的比较，通过QuSAAE 算法的判别器损失函数在图2.3中给出了分析结果，红色线条为QuSAAE（量子监督对抗自编码网络）判别器结果，白色线条为SAAE（经典监督对抗自编码网络）判别器训练结果。这里采用了二值交叉熵损失函数，该损失函数给出了理论上的收敛值为0.693。具体来讲，在200 epoch之前，QuSAAE的损失值从远大于理论值快速收敛至理论值附近，在600 epoch之后，算法已经能够以小于0.001的波动，稳定在理论值上。而在图2.3的子图中显示，经典算法SAAE直到1200 epoch后，损失值仍然远离理论值，并且表现出极度不稳定的震荡。

5）量子算法与经典算法高效协同

图 2.4 QuSAAE与SAAE模型生成分子的成功率对比

通过在随机挑选的50个药物分子样本上，引入基因表达水平变化数据评估算法模型，进行结构设计有效性的统计水平。结果显示，经典算法有16个样本无法处理，量子算法有11个样本，综合结果显示仅有3个样本无法处理。由此可见，量子模型生成分子的有效率提高了10%；同时结合经典算法与量子算法的生成结果，使得无法处理的数据比值下降近6倍，量子算法与经典算法表现出很强的互补性。对随机选取的分子结构，分别采取量子算法和经典算法对它们进行处理。

参考文献：

Yu-Xin Jin, Jun-Jie Hu, Qi Li, Zhi-Cheng Luo, Fang-Yan Zhang, Hao Tang, Kun Qian, Xian-Min Jin. Quantum Deep Learning for Mutant COVID-19 Strain Prediction. Preprint arXiv:2203.03556 (2022).

Rim Shayakhmetov et al., Molecular Generation for Desired Transcriptome Changes With Adversarial Autoencoders, Frontiers in Pharmacology 11 2020, https://doi.org/10.3389/fphar.2020.00269

—End—

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

有的人走了，却永远活着

圈内疯传某谣言

不要放过这些人渣

“辣条二哥”直追卫龙，麻辣王子工厂遇洪受关注

图灵量子实现38倍提速量子AI药物设计

您可能也对以下帖子感兴趣

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

有的人走了，却永远活着

圈内疯传某谣言

不要放过这些人渣

“辣条二哥”直追卫龙，麻辣王子工厂遇洪受关注

生成图片，分享到微信朋友圈

图灵量子实现38倍提速量子AI药物设计

您可能也对以下帖子感兴趣