“一键生成”大分子药物，可能吗？| Healthcare View

晶泰科技红杉汇 2023-04-26

作为大型预训练语言模型，ChatGPT会根据你的提问，将自己“学习”的结果以人类语言文本输出作答。那么，我们是否可以模仿其原理，以生物大分子作为遗传密码撰写的语句，使用自然语言处理（简称NLP）技术对蛋白质的序列信息进行编译，构建蛋白质语言模型，进而一键生成符合要求的蛋白药物呢？

这并不是天方夜谭，而是红杉中国医疗成员企业晶泰科技正在努力的“黑科技”之一。或许用不了多久，生物版的ChatGPT将推动生物制药行业发生翻天覆地的变化。

我们离“生物版ChatGPT”有多远？

既然ChatGPT能够一键生成全新的语句，我们是否可以模仿其原理，做一款“生物界的ChatGPT”呢？实际上，生物大分子也可以看成用遗传密码撰写的语句，特别是蛋白质，与自然语言存在高度的相似性，这促使人们探索用自然语言处理（简称NLP）技术对蛋白质的序列信息进行编译，构建蛋白质语言模型，为打造“生物版ChatGPT”奠定了基础。

ChatGPT生成的语句可以“以假乱真”，让用户以为对话框的另一端是人类。同理，“生物版ChatGPT”生成的蛋白质也必须“以假乱真”，和经过数百万年进化的天然蛋白质除了“长得像”（拥有典型的二级结构）之外，还必须在实验中表现出天然蛋白质应有的特性（可表达、在溶液中稳定存在、能够行使一定的生物学功能等）。那么，我们离这样的“生物版ChatGPT”有多远？

去年12月，Meta AI利用其基于2.5亿条天然蛋白质序列搭建的预训练语言模型，生成了228条蛋白质序列。经湿实验验证，其中152条（67%）序列能够进行可溶性表达，且蛋白序列的新颖性极佳，证明了该预训练语言模型能够学习到蛋白质深层次“语法”和结构的信息，并具有泛化生成新颖蛋白质的能力[1]。

几乎是同一时间，Salesforce Research在Nature Biotechnology发布了利用ProGen模型进行蛋白质生成的工作。ProGen同样是一个生成蛋白质的语言模型，不同的是加入了蛋白质的属性标签，以实现特定类别蛋白质序列的可控生成。湿实验结果显示，该模型生成的具备特定属性的蛋白序列多样性强，与天然序列的相似度可以低至31%，同时表达率与天然序列接近（72%），并且通过语言模型生成的酶能够展现出与天然酶相似的活性[2]。

这些突破性的工作层出不穷，无一不预示着“生物版ChatGPT”即将来临。而作为产业落地应用最直接的场景，大分子药物，特别是抗体等蛋白类药物的研发能否从中受益，是各位从业者普遍关心的问题。从这个角度讲，上述工作还有一定差距，一是没有满足常规的以靶点为对象的药物设计理念，二是没有纳入对多种成药性目标（如免疫原性、理化性质）的考量。也就是说，上述技术可以一键生成接近“天然”、可以正常折叠表达的蛋白，并使其符合某种宽泛要求（如具备溶菌酶活性），但这些AI生成的蛋白还不足以成药。

“生物版ChatGPT”能

一键生成大分子药物吗？

晶泰科技作为AI药物研发的先行者，在充分理解大分子药物研发流程的基础上，自主开发了大分子药物De novo设计平台XuperNovo®，该平台包含了一系列大分子药物从头设计策略，其中一款策略在内部被称为“ProteinGPT”，其技术路线与ChatGPT相似，可以一键生成符合要求的蛋白药物。

目前，ProteinGPT已经正式应用在晶泰科技的各类大分子药物项目中，下面展示3个真实应用案例：

1：根据给定的靶点一键生成Binder蛋白

注：上图将ProteinGPT的使用过程用ChatGPT的风格进行了展现，除序列信息为示例外，实际交互过程和实验结果均来自内部真实项目，下同

实验人员随后对上述15条蛋白进行了表达和测试，其中9条（60%）表达成功，而这9条全部可以结合靶点X，部分湿实验结果如下：

根据给定的靶点一键生成Binder蛋白的湿实验结果

可见，ProteinGPT以60%的成功率完成了上述binder生成任务。考虑到任务的难度——首先需要生成可正常折叠表达的蛋白，其次还需要结合特定的靶点和表位——这一表现堪称惊艳。

应用2：根据指定要求一键生成抗体文库

实验人员随后从ProteinGPT生成的文库中随机选取了26条，其中25条得到表达（表达成功率96.1%）。随后，加入了3条前人发现的具有良好性质的人源VHH抗体作为阳参，对这28条抗体进行了测试。湿实验结果如下：

28条序列的表达量数据（灰色是阳性参照序列，绿色是AI生成序列，下同）

28条序列的疏水性数据

28条序列的Humanness Score

可见，ProteinGPT生成的AI序列：

√ 表达成功率96.1%，大幅超过行业平均水平；

√ 59.6mg/L的平均表达量大幅超过阳参序列37.1mg/L的平均表达量；

√ 80%的AI生成序列与阳参序列的HIC保留时间相当，疏水性满足成药要求；

√ 免疫原性在行业通用的评估算法下大幅优于阳参序列。

考虑到这些AI序列都是机器生成的自然界不存在的蛋白序列（天然的人源VHH抗体不存在），这些抗体能够通过初步的成药性评估已属不易，未来的成药潜力值得期待，晶泰也正在构建该文库的过程中，未来将用该文库赋能双抗、纳米抗体药物开发。

应用3：对性质欠佳的抗体进行改造，一键生成优化后的抗体

实验人员随后对这10条序列进行了表达和测试，湿实验果如下：

针对热稳定性的序列生成的湿实验结果（灰色是待改造序列，绿色是AI生成序列，下同）

上述序列的表达量湿实验结果

可见，ProteinGPT生成的序列中有9条（90%）实现了热稳定性的提升，其中有4条实现了“Tm提升到72℃”的目标。在表达量方面，10条序列中有7条优于原序列。最终，项目人员选择了热稳定性和表达量均得到提升的抗体继续推进下游开发。

ProteinGPT“一键成药”背后的秘密

ChatGPT之所以智能，是因为其同时利用了海量的无标记文本数据（自监督预训练）和规模略小、但质量较高的标记数据（基于人类反馈的强化学习，RLHF），并在训练方式和模型架构上做了诸多创新。同理，在训练ProteinGPT的过程中，晶泰也使用了无标记的蛋白质序列数据（约2.8亿条）+抗体序列数据（包括公开数据集中的数十亿条+晶泰内部积累的抗体NGS数据），但这些仅仅解决了预训练的部分，高质量的标记数据，特别是与蛋白药物相关的标记数据是非常有限的，以抗体可开发性数据为例，常用的公开数据只有137条，构成了训练蛋白药物AI模型的最大瓶颈。

为了有效解决数据量短缺和数据质量不一的问题，晶泰科技率先提出“智能计算、自动化实验、专家经验三位一体”的创新思路，搭建了国内规模最大的“干湿融合”的大分子药物研发团队，包括近百名科学家和工程师。

其中，湿实验平台既可以通过杂交瘤、展示文库、Single B Cell等传统方式完成抗体药物从靶点到PCC的全流程研发，又可以通过高通量的实验平台为AI产生大量训练数据；计算团队除了AIDD外，还包括生信和CADD团队，可以通过NGS4AI、MD4AI等方式为AI贡献更多的训练数据。

最后，作为国内最早投身AI药物研发的企业，晶泰已经积累了超过8年的经验，在内部形成了AI算法向产业转化的一套最佳实践，在很短时间内为ProteinGPT找到了最佳的落地应用场景。

ProteinGPT的模型架构

自去年以来，晶泰科技内部的自动化能力开始走进公众视野，成为放大其AI数据优势的关键。除了将自动化运用于化学合成、晶型研究外，晶泰也在大分子药物方向部署了高通量的抗体筛选平台（如下图所示）。相较于传统的人工筛选，该平台的筛选通量可提高1~2个数量级，能够为内部AI模型贡献更大规模、更高质量的训练数据。

目前，晶泰在大分子领域的多个AI算法均已达到SOTA水平（State of the Art，AI术语，指在公开测试集上取得全球最佳表现），而内部人员将其中相当一部分归功于晶泰在内部生成数据上的优势。Automation4AI，正日渐成为打造“生物版ChatGPT”的重要引擎。

小结与展望

ChatGPT的成功并非一蹴而就，OpenAI自2018年开始研发GPT模型到2022年11月正式上线，历时四年半的时间。GPT模型从1.0版本迭代到3.5版本（如今已到GPT-4），成为全球预训练大语言模型的霸主，而加入少量人工标记数据、采用基于人工反馈的强化学习后，ChatGPT横空出世，实现了更为精准、自然的文本生成，将人们对AI的惊喜和期待又带上了一个台阶。

在上述技术发展的同时，生物界的GPT们也在默默汲取着来自NLP领域的营养，并在生物相关的应用上开辟出了一片天地。从早期专注于预训练大语言模型，到近两年加入更多的标记数据、完成更加定向的生成任务，生物版GPT也经历了相同的演化路径，并在药物研发这一重要领域获得了可喜的突破。

展望未来，要获得更加通用、好用的DrugGPT、AntibodyGPT、mRNAGPT等模型，我们还需要更多领域相关（domain-specific）的数据积累和算法创新。同时，由于相关方向跨学科的性质，我们需要把生物学家、化学家、AI科学家和软硬件工程师放置在一个屋檐下，通过快速的迭代试错，找到行业痛点和技术能力的交集，让AI技术尽早造福人类生命健康。

参考文献：

[1] Verkuil R, Kabeli O, Du Y, et al. Language models generalize beyond natural proteins[J]. bioRxiv, 2022: 2022.12. 21.521521.

[2] Madani A, Krause B, Greene E R, et al. Large language models generate functional protein sequences across diverse families[J]. Nature Biotechnology, 2023: 1-8.

互动小调研

一路走来，红杉汇拥有无数对内容有高要求的读者。为了能在未来给大家带来更有价值、更高质量的推文，我们将不定时向读者们征集阅读反馈与建议，欢迎大家踊跃发言，感谢你们的帮助！

推荐阅读

壹

最后5天，YUE 02期报名即将截止

贰

留住老客户，你需要为他们的利益“代言” | 红杉汇内参

叁

高效能CEO的新身份：首席情绪官 | 红杉Library

肆

20+企业云见面｜红杉联合校招虚拟双选会

伍