查看原文
其他

图灵量子实现38倍提速量子AI药物设计

光子盒 2023-03-04
来源:图灵量子

将量子计算和人工智能技术相结合,图灵量子在AI制药领域实现重大技术突破,推出一系列量子AI应用模块,其中 QuOmics(基因组学)、QuChem(药物分子结构设计)、QuDocking(药物虚拟筛选)、QuSynthesis(化学分子逆合成)等四大模块,已实现不同程度的量子算法增强,另有QuProtein(蛋白结构预测)和QuDynamics(分子动力学模拟)的功能模块正在开发中。
 
量子计算作为一种全新的计算范式,它工作在算法逻辑的后端。人工智能作为一种连接现实世界数据的计算工具,它一般工作在应用逻辑的前端。经典计算下的人工智能与量子计算下的人工智能之别,如同动车与高铁。
 
在大规模通用量子计算机制成之前,量子AI以及混合算法研究仍将以在CPU/GPU上运行为主。图灵量子借助张量网络技术,通过张量的缩并,实现38倍提速量子AI药物设计。随着模拟量子比特的增加,加速倍数会进一步提升。从而使得通用量子计算机还未普世应用的前提下,也能立即使用量子计算工具解决实际问题。
 
量子算法极大地改善了经典生成模型,用于基因组学和药物分子的结构设计,使算法收敛的稳定性显著提升。此外,在老药新用的场景中,量子算法的引入,显著提升分子结构生成的有效性。同时,量子和经典算法的结果表现出很强的互补性,对随机抽取样本处理的无效率降低近6倍,多样性提升214%。
 

随着深度学习的兴起发展,越来越多的科研难题在AI的帮助下得以解决,同时产生了巨大的智能算力需求,英伟达对AI算法在其GPU上运行效率的优化,使得AI自然地与GPU联系起来,然而后摩尔时代的到来,终将面临如CPU一样的,由半导体制程工艺带来的瓶颈。图灵量子开发的光子、光量子芯片致力于在未来接力GPU,为后摩尔时代提供智能算力支持。
 
所以量子计算与人工智能天然互补,量子计算为人工智能带来算法的「逻辑与算力」的提升,而人工智能拓宽了量子计算的应用场景。在诸多应用场景中,AI制药是代表性的、技术创新驱动的新型行业。新药研发的各个环节都消耗大量人力物力和时间成本,这其中包括结构预测、药物虚筛、逆合成以及药物代谢等多个环节。AlphaFlod是近年来最具代表性的蛋白质深度学习预测模型,它对于药物研发起到重要作用。同时,也展示了这些算法模型对智能算力的依赖,在逐年爆发式地增长。为了使量子计算成熟后产生的无穷算力,能够满足生物医药行业的智能算力需求,「图灵量子」已经在量子计算的数值模拟平台上,进行了大规模的量子启发、经典量子混合算法开发和应用案例的实现。量子AI与制药的结合,蕴含巨大社会经济价值,但实现行业落地仍然需多方长期的技术研发投入。目前,「图灵量子」实现的早期案例中,也不乏若干量子AI带来增强的迹象。


随着计算机辅助药物设计(CADD)向着人工智能驱动药物设计(AIDD)的转变,制药行业的各个环节都体现出对智能算力的需求。在量子算力助力新药研发的实践中,量子AI的解决方案和软件工具的形成是必不可少的。不论是借助人工智能还是量子算法,实现一款药物分子从头设计、到进入临床,最终获批使用,都非一日之功。图灵量子在AIDD中的探索,仍然是起步阶段:目前,已初步推出 QuOmics、QuChem、QuDocking、QuSynthesis 四大模块,分别实现了基因序列预测、药物分子生成、互作结合能预测、分子逆合成等功能;同时用于蛋白质结构QuProtein和分子模拟QuDynamics,正处于开发阶段。


应用模块一 QuOmics: 有助于预测高危新冠病毒毒株变异风险
 
截止至2022年2月9日:全球累计新冠确诊病例超过4亿。新冠病毒是具有较高突变频率的RNA病毒,突变频率大概在百万分之三。在人体内,每个病毒平均每小时可以复制出1000份新个体。微小的概率叠加上大规模感染人群,和长时间的新冠流行,使得病毒变异无时无刻不在发生。如何用监测到的变异毒株测序结构,预测和穷尽冠状病毒的所有变异可能,对人类的生命健康和全球社会经济都有重要意义。
 
在图灵量子的加持下,上海交大金贤敏团队牵头与某三甲医院、南开大学、帝国理工大学、卡耐基梅隆大学科研人员合作,采用基于风格混合的量子生成对抗网络模型,来进行新冠病毒变异结构预测。生成RNA结构与新冠病毒样本间的保真度均值超过95%,预测结果也显示了良好的生物学意义。在算法设计上,量子神经网络保持了同经典算法逻辑上的高度一致性。这来自于量子启发式的模糊卷积,和量子渐进训练模块的开发。同时量子线路支持的判别器模型,也极大地改善了GAN收敛不稳定的顽疾。在多个损失函数上,都以远小于经典算法的迭代次数完成了算法收敛。该工作已在arxiv上发表预印版。
 
通过多方合作,图灵量子不但促进了冠状病毒的学术研究,同时,自主完成了对研发中量子算法应用技术的知识产权保护。冠状病毒相关的量子算法研发的意义,不止体现在学术科研中,更有益于流行病的实际防控。大众心理上总是习惯性地认为「防不如治」,而冠状病毒入侵地球已经远不止三次,每次都严重威胁人类生命安全和社会经济的发展。二十一世纪以来的SARS、中东呼吸综合征(MERS)等,都是冠状病毒家族中的成员,为了使新冠病毒流行毒株数据,能够用于更多高风险的,动物携带人畜共患冠状病毒的防控,这就需要更高效和更准确的模型,从现有的病毒序列数据中,预测潜在变异可能性,促进针对高危毒株的疫苗和药物的预研。图灵量子也在持续更新预测模型机制,使其能够成为保护每个普通人的警示灯。(详情可参考论文预印版 [1])

图1 冠状病毒的量子算法原理及优势图
 
[1]论文预印版: https://arxiv.org/abs/2203.03556
 
应用模块二 QuChem: 基因药物分子设计多样性提升214%
 
近70年来,药物的发现一直遵循 Eroom 定律(Eroom’s Law),即随着时间的推移, 同样的研发投入带来的有效成果逐渐减少。如花费10亿美元进行研发,每9年获批的项目就会减少一半以上的数量。据行业研究统计,新药研发往往需要研发人员投入10年以上、17亿美元左右的时间和金钱成本。但这样惊人的数字背后,新药成功获批投入使用的概率仅仅在10%以下。新药研发成本越发高昂。这就使得如何在获批药物分子上进行重新设计,来用于新的病症治疗至关重要。
 
如果一种药物分子,能够阻断某种疾病相关的基因表达过程,它将能够作为治疗该病症的基因靶向药物。图灵量子采用癌症基因表达数据集和QuSAAE,进行了老药新用的探索。该量子算法能够在量子编码器、量子解码器和量子判别器的协同工作下,提取输入分子结构中的结构片段,并识别其是否与特定基因片段结合,来阻断表达过程,从而标记出与疾病治疗无关的分子基团,用于药物的重新设计。
 
该量子算法的「输入」是初始药物和基因表达数据,「输出」是全新的基因靶向药物分子[2]。 在充分的数据支持下,该量子算法能够赋能药厂的药物研发,既可满足在QPU上运行的条件,也可在现有的CPU/GPU平台上高效运行。新的药物分子基于进一步的验证,有可能以更低的成本进行大规模生产,惠及更多老百姓。
 
在以下药物分子结构设计的应用中,图灵量子分别实现了38倍提速量子AI算法在CPU/GPU上的模拟运行、对随机抽取样本处理的无效率降低近6倍,整个分子结构生成上的多样性提升214%。
 
1)药物分子以及基因表达水平数据
 
为了实现老药新用的QuSAAE,需要两类数据:药物分子数据和基因表达数据。LINCS L1000 数据由L1000方法获得,该方法相比RNA 测序技术具有更低成本的特征。在每一次实验中,测量978个基因的转录组(基因表达产物),然后借助数学模型来估计人类其余的两万个基因的转录组。LINCS L1000 数据完整的体现了,当细胞暴露在各种微扰介质下基因表达的变化,包括药物分子对基因表达变化的影响。目前有22412种不同的微扰介质(包含20413个小分子化合物:药物分子、苗头化合物等),这些微扰介质被应用在56种不同的细胞环境中,其中包括人类原代细胞系和人类癌症细胞系。
 
[2]source: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5990023/
 
2)基因药物设计算法流程
   
图 2.1 量子监督对抗自编码网络(Quantum Supervised Adversarial Autoencoder, QuSAAE)
 
如图 2.1 所示,该算法的主体框架是一个变分自编码器,经过学习自编码器能够重构药物分子。该功能的实现分为两步:第一步,通过编码器对输入的药物分子 x, 进行压缩和特征提取,形成一个矢量  z;第二步,将该矢量z输入解码器,输出 x′。模型的训练目的,是最大限度的还原出输入的药物分子,即 |x−x′|=0 。在自编码器的基础上,加入一个判别器,它的作用是使矢量 z 满足某种特定的分布,从而使z 空间和 x 空间的映射更加自然。
 
为了能够重构药物分子,模型学习到的矢量 z 必定至少包含两种信息:(1)与基因表达变化相关的信息,(2)其他信息。如果我们将与基因表达变化相关的信息输入给解码器,那么理论上,模型就可以将全部的计算资源分配到学习这些信息上。因此矢量 z 将只包含与基因表达变化无关的信息。
 
3)张量网络加速量子算法(过程演示)

图 2.2 QuSAAE 算法在张量网络加速引擎支持下的加速效果
 
如图 2.2所展示,以QuSAAE算法为例,对张量网络的量子算法加速进行了分析。结果显示,随着模拟量子比特数的增加,张量网络技术对量子线路的加速效果也显著提升。在11比特的量子判别器线路中,模型的运行效率显著提升38倍以上。上述方法有效地支撑了,现阶段对量子AI算法应用产业化落地的探索,并可大规模地缩减新药研发大型AI模型的训练和运行成本。  
 
4)量子算法增强生成模型的训练稳定性

图 2.3 经典、量子监督对抗自编码网络判别器损失函数
 
量子算法和经典算法的比较,通过QuSAAE 算法的判别器损失函数在图2.3中给出了分析结果,红色线条为QuSAAE(量子监督对抗自编码网络)判别器结果,白色线条为SAAE(经典监督对抗自编码网络)判别器训练结果。这里采用了二值交叉熵损失函数,该损失函数给出了理论上的收敛值为0.693。具体来讲,在200 epoch之前,QuSAAE的损失值从远大于理论值快速收敛至理论值附近,在600 epoch之后,算法已经能够以小于0.001的波动,稳定在理论值上。而在图2.3的子图中显示,经典算法SAAE直到1200 epoch后,损失值仍然远离理论值,并且表现出极度不稳定的震荡。
 
5)量子算法与经典算法高效协同

图 2.4 QuSAAE与SAAE模型生成分子的成功率对比
 
通过在随机挑选的50个药物分子样本上,引入基因表达水平变化数据评估算法模型,进行结构设计有效性的统计水平。结果显示,经典算法有16个样本无法处理,量子算法有11个样本,综合结果显示仅有3个样本无法处理。由此可见,量子模型生成分子的有效率提高了10%;同时结合经典算法与量子算法的生成结果,使得无法处理的数据比值下降近6倍,量子算法与经典算法表现出很强的互补性。对随机选取的分子结构,分别采取量子算法和经典算法对它们进行处理。
 
参考文献:
Yu-Xin Jin, Jun-Jie Hu, Qi Li, Zhi-Cheng Luo, Fang-Yan Zhang, Hao Tang, Kun Qian, Xian-Min Jin. Quantum Deep Learning for Mutant COVID-19 Strain Prediction. Preprint arXiv:2203.03556 (2022).
 
Rim Shayakhmetov et al., Molecular Generation for Desired Transcriptome Changes With Adversarial Autoencoders, Frontiers in Pharmacology 11 2020, https://doi.org/10.3389/fphar.2020.00269
 
—End—

相关阅读:
成立不到一年,图灵量子完成第三轮融资,累计超5亿元
图灵量子发布商用科研级专用光量子计算机产品系列
图灵量子首款专用光量子计算模拟软件FeynmanPAQS试商用
图灵量子完成数亿元PreA轮融资 君联资本领投
图灵量子全球招聘

#诚邀共建国内首个量子垂直招聘平台#

光子盒将为中国境内的研究机构和企业提供一个免费的垂直招聘信息发布渠道,欢迎有需求的机构或企业直接联系光子盒。(微信:Hordcore)

你可能会错过:

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存