查看原文
其他

忘了ChatGPT吧,大语言模型的下一个风口在这

智药局 智药局 2024-04-14


GPT出现以来,各行各业都掀起了大模型的热潮,生命科学也不例外。


很多业内人士也在问:基于AI的生命大模型未来到底会成长为什么?有多大的用处?


在Serafim Batzoglou看来,我们距离建立生物分子信息(从 DNA 到基因表达到蛋白质)的精确计算机模型只有几年的时间,这些模型可以与实验准确性相媲美,并可用于医学和药物发现。


Serafim Batzoglou是生物信息学的资深人士,他曾经是Illumina计算基因组学副总裁,DNAnexus 的联合创始人、斯坦福大学计算机科学教授,如今担任Seer临床数据库的首席数据官。


他不仅加入了人类基因组计划,在illumina期间也参与研发了SpliceAI 和 PrimateAI-3D等著名算法,揭示基因与疾病的关联。


图:Serafim Batzoglou


本篇文章Serafim讨论大语言模型(LLM)如何与分子生物学相融合,推动医学领域的发展,以及当下的前沿研究和展望。


大语言模型


要理解分子生物学中的语言模型,首先得理解大型语言模型 (LLM) 。


LLM是一种神经网络,它能够通过检查大量文本数据来生成反映人类语言的文本。


它使用自监督学习或半监督学习在大量未标记文本上进行训练。这个过程允许LLM识别文本中的模式、关系和上下文,使其能够响应查询、生成新颖的内容,甚至制定预测。


LLM于2018年左右出现,在各种任务中表现良好。这使自然语言处理研究的重点从以前为特定任务训练专门监督模型的范式转移开。


语言模型根据迭代可以分为词元模型、CNN(卷积神经网络)、LSTM(长短期记忆网络)、注意力机制和大型语言模型 (LLM),其发展见证了每新一代都拥有增强的建模能力。


而真正让语言模型获得巨大突破的,还是由Transformer 架构带来的BERT 和 GPT 系列。


GPT 是一种生成模型,在涉及文本生成的任务中特别强大,例如写论文、生成诗歌或完成句子。如今最新的GPT-4被称赞为有通用智能的潜力。


遗传的中心法则


中心法则是分子生物学最基础的理论之一。


人类或任何其他生物体的生物学轨迹,从胚胎发育到整个生命周期,是遗传学与环境之间的复杂相互作用:个体的DNA与个体所接触的环境之间的对话。

图:基因型-表型-环境


分子生物学的中心法描述了生物体内遗传信息的流动。这种遗传信息的来源是我们的DNA,它的精确复制品存在于我们身体每个细胞的细胞核中。


基因组中大约有20,000个基因,这些基因是负责蛋白质合成的DNA片段。大约1%的基因组编码蛋白质,而其余的包括控制基因表达的区域,基因内不编码蛋白质的区域。


图:分子生物学的中心法则

而在这个过程中,很有可能会引发基因的变异,DNA变异解释了我们所有特征的遗传性,包括对健康和疾病的遗传贡献。


这些新变体中的大多数是良性的,要么对表型没有影响,较小的部分可能是有害的,特别是如果它们损害功能区域,这可能是蛋白质编码、调节,甚至与染色质结构有关。


重要的是,发生在基因重要部分的突变往往会使个体变得不那么健康,因此,DNA区域越保守的部分更有可能在功能上很重要,而保守程度越低的部分更有可能耐受突变。

尽管已经被滥用了,但还是得提到生物学正在进行的范式转变。


传统上,生物学一直是假设驱动的:研究人员识别模式,制定假设,设计实验或研究来测试这些假设,并根据结果调整他们的理论。


这种方法正逐渐被数据驱动的建模方法所取代。在这种新兴范式中,研究人员从无假设的大规模数据生成开始,然后训练LLM等模型或将数据合并到现有的LLM中。


一旦LLM能够准确地对系统进行建模,接近实验重复之间看到的保真度,研究人员就可以询问LLM以提取有关系统的见解并辨别潜在的生物学原理。


这种转变将越来越明显,并允许以远远超出人类能力对生物分子系统进行准确建模。


分子生物学中的语言模型


在过去的几年里,分子生物学中心法则的每一步建模都取得了显著进展。虽然人们尚未将分子生物学完全转变为计算科学,目前的势头表明,只有大量的额外数据和进一步的发展才能实现这一愿景。


Serafim Batzoglou认为,通用人工智能(AGI),即使达到小型哺乳动物的水平,仍然遥不可及。此外,组合学、离散算法和数学推理并不是LLM的强项。


然而,分子生物学建模不需要 AGI:它不需要高层次的规划、代理或目标,只对组合学和算法推理有有限的需求。相反,分子生物学需要LLM擅长的东西:学习复杂、嘈杂的序列数据的统计特性,以便从有损表示中最好地预测此类数据。


为了说明这一点,可以了解深度学习在分子生物学中心法则中不同阶段的突破。


预测基因结构


根据分子生物学的基本原理,DNA 的主要功能是编码转录并翻译成蛋白质的基因。每个基因翻译成蛋白质的具体片段是由剪接机制决定的;这些片段对于基因组中的绝大多数基因都有很好的注释。


然而,突变会破坏剪接的精确边界,即剪接位点。破坏剪接的罕见突变会显著影响最终的蛋白质功能,因为它们通常会产生完全不同的蛋白质序列。


它们约占罕见遗传病的 10%。因此,预测剪接位点和推导基因结构是一项基本的计算任务,对诊断遗传疾病具有重要意义。


关于剪接位点预测的文献和方法非常广泛。然而直到 2018 年左右,这个问题仍然是一个重大挑战,最佳方法的准确率约为 30%,这一水平不足以预测基因诊断等应用。

图 :SpliceAI 模型

2019 年,Illumina AI 实验室推出了 SpliceAI工具。SpliceAI 不使用transformer技术,也不充当语言模型;相反,它采用早期的语言建模技术,其中语言是 DNA 序列。

它是一个深度残差 CNN,接受人类基因组的 10,000 个核苷酸窗口作为输入,并预测内含子-外显子边界的确切位置,SpliceAI 在整个人类基因组中取得了 0.98 的得分,而之前的最好成绩为 0.23。

因此,它可以用于辅助基因诊断:给定患有遗传病的患者,例如患有儿科疾病的患者,可以编译该个体在父母中不存在的所有变异,并且可以将每个变异输入到 SpliceAI 中,以询问它是否可能改变附近基因的剪接,从而破坏基因的功能。

迄今为止,它已经在英国基因组 100,000 基因组计划的背景下解决了数百个以前未解决的罕见未诊断儿科疾病病例。

预测蛋白质结构


分子生物学的中心法则讲述了 DNA 中的信息如何产生蛋白质的故事,蛋白质是生命的基本组成部分。

长期以来蛋白质结构预测被视为分子生物学的圣杯。蛋白质结构的黄金标准是来自 X 射线晶体学的实验数据,由于生产高质量蛋白质晶体的困难以及推导蛋白质结构所需的复杂数据处理,获得这些数据具有挑战性。

图 :CASP 蛋白质结构预测竞赛的准确性结果

从本质上讲,由于深度学习,分子生物学曾经的圣杯现在已经接近解决问题。无论以何种标准衡量,AlphaFold 2 都代表了一项重大的科学进步。

图 :AlphaFold 的架构 

自 AlphaFold 诞生以来,深度学习在蛋白质结构预测、建模和设计中的应用取得了惊人的进展。例如ESMFold是一种用于蛋白质结构预测的语言模型,可在不损失准确性的情况下预测加速60倍。ProteinGenerator 同时生成满足任何给定序列和结构特性的蛋白质序列及其伴随结构。

一个关键的结论是,尽管几十年来对第一原理(包括蛋白质结构能量最小化和蛋白质动力学建模)的研究未能产生准确的结构预测,但蛋白质实际折叠方式的复杂分子信息存在于数据中,LLM有能力学习它。

预测蛋白质变异的影响


任何两个个体的基因组中都有超过 400 万个位置德差异,其中超过 20,000 个此类变异位于蛋白质编码区域内。

大多数遗传变异是良性的,并且对人类观察到的表型多样性有显着贡献。然而,这种遗传多样性的一小部分是有害的并且会导致遗传疾病。了解遗传变异的影响并将其分类为良性或有害,可直接应用于遗传疾病的诊断、药物开发的基因靶点识别以及疾病分子机制的理解。

遗憾的是,绝大多数变异都是“意义不确定的变异”(VUS),它们对疾病的影响尚不清楚。注释此类变异是人类遗传学中一个尚未解决的关键问题。

图 :灵长类系统发育

然而,可以通过观察蛋白质序列和结构中倾向于容忍变异的模式,以及倾向于不容忍变异的模式。通过学习区分这两类蛋白质位置,我们可以获得将蛋白质变异注释为可能良性和可能致病的能力。

研究人员确定了灵长类动物中 430 万种常见蛋白质变体的目录,相应的蛋白质也存在于人类中。然后,他们构建了一个变压器,可以学习区分人类蛋白质的良性变异和致病性变异,该变压器名为 PrimateAI-3D,是由同一实验室开发的先前深度学习工具 PrimateAI的新版本。


PrimateAI-3D 可应用于罕见疾病的诊断,它可以优先考虑可能有害的变异,并过滤掉可能的良性变异。另一个应用是发现与复杂疾病相关的基因他们还将 PrimateAI-3D 集成到英国生物银行(UK Biobank)的罕见变异负荷测试中,并确定了有前途的新型候选药物靶点。

基因调控建模

如前所述,基因调控的复杂过程包含许多相互作用的分子成分:DNA 染色质结构、DNA 包裹的组蛋白内的化学变化、转录因子与启动子和增强子的连接、涉及启动子、增强子、结合转录因子的 3D DNA 结构的建立以及 RNA 聚合酶。

理论上,基因附近的精确 DNA 序列携带了该机器在正确的时间、以正确的数量、在适当的细胞类型中被触发所需的所有信息。实际上,仅从 DNA 序列预测基因表达是一项艰巨的任务。然而,语言模型最近在这一领域取得了重大进展。

在过去的二十年中,基因组研究人员付出了巨大的努力来产生适当类型的大规模分子数据以了解基因调控。

总的来说,ENCODE、modENCODE、Roadmap Epigenomics、Human Cell Atlas 等多年国际项目已经收集了数千个此类数据。反过来,每个实验都有整个人类或模型生物基因组的数万到数十万个数据点。此类数据已从众多个体的数百个人类和小鼠细胞系中获得。

语言模型的谱系最终形成了基于 Transformer 的 Enformer 工具,它可以接受基因附近的 DNA 序列作为输入,并输出基因组中任何基因的该基因的细胞类型特异性表达水平。

图 :Enformer 和早期系统 Basenji2 的预测与实验结果的比较。

Enformer 在仅根据序列预测基因表达方面表现相当不错。随着数据生成速度的加快,我们可以合理地预期,未来将拥有能够以实验水平的精度仅根据序列预测基因表达的大语言模型,从而建立能够准确、全面地描述分子生物学中心法则中涉及的复杂分子机制的模型。

基础模型

基础模型是大型深度学习架构,例如 OpenAI 的基于 Transformer 的 GPT 模型。

研究人员和从业人员可以针对特定任务微调这些预先训练的模型,从而为各种下游应用提供高性能系统。分子生物学中已经开始出现一些基础模型。

在这里,将简要介绍两个刚刚在 biorXiv 中作为预印本出现的模型。

scGPT是专为单细胞转录组学、染色质可及性和蛋白质丰度而设计的基础模型。该模型使用来自 1000 万个人类细胞的单细胞数据进行训练。每个细胞包含大约 20,000 个人类基因中一小部分的表达值。该模型学习这个大细胞×基因矩阵的嵌入,这提供了对潜在细胞状态和活跃生物途径的洞察。

经过训练后,scGPT 可以针对众多下游任务进行微调:批量校正、细胞注释(其中基本事实是注释的不同细胞类型的集合)、扰动预测(在给定的一组基因受到实验扰动后预测细胞状态)、多组学(其中每一层、转录组、染色质、蛋白质组被视为不同的语言)、生物途径的预测等等。

图 :scGPT 概述

Nucleotide Transformer是一个专注于原始 DNA 序列的基础模型。这些序列被标记化为每个包含六个字符的词(长度为 6 的 k-mers),并使用 BERT 方法进行训练。训练数据包括参考人类基因组、3200 个额外的多样化人类基因组(以捕获人类基因组学的变异)和 850 个其他物种的基因组。

该模型能够应用于 18 项下游任务,包括启动子预测、剪接位点供体和受体预测、组蛋白修饰等。

LLM就够了

破译生物分子密码与基因组的关系,并不需要用到通用人工智能。将两者相联系,大语言模型已经足以满足这一愿望。

以下是我们不要求人工智能执行的一些任务:

并不要求它生成新内容,相反我们要求它学习现有生物系统的复杂统计特性。

并不要求它以目标导向的方式驾驭复杂的环境、维持内部状态、形成目标和子目标,或者通过与环境的交互来学习。

并不要求它解决数学问题或发展深层的反事实推理。然而,我们确实期望它能够学习一步因果关系:如果发生某种突变,特定的基因就会发生改变。

通过简单的一步因果关系,可以探索 DNA 变异、蛋白质丰度和表型之间的相关性,以及越来越普遍的大规模扰动实验,LLM将有效地模拟细胞状态。这种连接从一端的基因组延伸到另一端的表型。

总之,今天的大语言模型已经足够先进来模拟分子生物学。然而,障碍不再是深度学习方法,而是深度学习方法论,更大的阻碍是数据。

幸运的是,数据变得越来越便宜而且越来越丰富。DNA 测序技术的进步已将人类基因组测序的成本从第一个基因组的 30 亿美元降低到几年前的大约 1000 美元,现在又降至今天的 200 美元。

图:人类基因组测序的成本

同样的成本降低适用于所有使用 DNA 测序作为主要读数的分子测定。这包括量化基因表达、染色质结构、组蛋白修饰、转录因子结合的测定,以及过去 10-20 年来开发的数百种其他巧妙的测定。

单细胞技术以及蛋白质组学、代谢组学、脂质组学和其他组学分析的进一步创新,可以对 DNA 和人类生理学之间的各个分子层进行越来越详细和有效的测量。

图:英国生物银行

整合与实现

那么,如何将所有这些整合在一起呢?

数据计划的一种关键类型是将一大群志愿者参与者聚集在一起,深入探索他们的组学数据、表型和健康记录。

英国生物银行项目 (UKB)就是一个典型的例子,一个大型生物银行、生物医学数据库和研究资源,包含来自 50 万英国参与者的综合遗传和健康信息。

参与者的生物样本是在广泛同意的情况下收集的,并且正在不断生成大量数据。几乎所有参与者的外显子组都已发布,整个基因组也将随之发布。此外,还提供各种类型的数据,包括 COVID-19 抗体数据、代谢组学、端粒、成像、基因型、临床测量、初级保健、疼痛问卷等。

癌症尤其是一种基因组疾病,许多公司正在构建有关癌症患者和癌症样本的丰富基因组信息以及其他临床信息。

但值得一提的是 Tempus,一家基于人工智能的精准医疗公司,拥有庞大且不断增长的癌症临床和分子数据库;Foundation Medicine,一家分子信息公司,提供全面的基因组分析分析,以识别患者癌症的分子改变,并将其与相关的靶向治疗、免疫疗法和临床试验相匹配等。

除了这些队列计划之外,还有许多其他大规模数据计划。ENCODE 项目是一个包含数百种人类细胞系和各种分子数量的庞大功能基因组数据集,已生成有关基因表达、染色质可及性、转录因子结合、组蛋白标记、DNA 甲基化等的数据。

大预言模型非常适合整合这些数据。展望未来,我们可以设想一个集成所有此类数据集的庞大语言模型。

那么,这样一个模型的架构和训练会是什么样子呢?可以尝试将其拼凑起来:

  • 基因组中的基因,包括重要的变体,如所得蛋白质的不同亚型,都被标记

  • 不同类型的细胞和组织被标记

  • 人类表型,例如疾病状态、临床适应症和对药物治疗的依从性,也被标记

  • DNA 序列在固定长度的核苷酸水平上进行标记

  • 基因组中的位置信息将基因与核苷酸含量联系起来

  • 蛋白质序列使用氨基酸字母表进行标记

  • 来自人类细胞图谱和其他单细胞数据集的数据以类似于 GPT 的自回归方式或类似于 BERT 的屏蔽语言模型来训练 LLM,突出显示细胞类型特定和细胞状态特定的基因途径

  • ENCODE 和类似的数据教导LLM以细胞类型特定的方式关联不同的分子信息层,如原始 DNA 序列及其变体、基因表达、甲基化、组蛋白修饰、染色质可及性等。每一层都是一种独特的“语言”,具有不同的丰富性和词汇量,提供独特的信息。LLM学习这些语言之间的翻译。

  • PrimateAI-3D 的灵长类基因组学计划和其他物种测序工作等项目指导LLM了解人类基因组突变的潜在良性或有害影响

  • 包括蛋白质变体在内的整个蛋白质组富含蛋白质 3D 结构信息,这些信息要么是通过实验获得的,要么是通过 AlphaFold、RoseTTAfold 和其他结构预测方法预测的。

  • 来自英国生物银行 (UKB) 和其他队列的数据集使LLM能够将基因组变异信息和其他分子数据与人类健康信息相关联

  • LLM利用参与者的完整临床记录来了解常见做法及其效果,并将其与所有数据集中的其他“语言”联系起来。

  • LLM利用基础生物学、遗传学、分子科学和临床实践方面的大量现有文献,包括所有已知的基因和表型关联。


开发这样的语言模型提出了重大挑战,这与 GPTs不同。它需要技术创新来表示和集成各个信息层,并扩大模型处理的token数量。这种语言模型的潜在应用是巨大的。

临床诊断
它可以利用所有可用的患者信息,包括他们的基因组、其他测量值、整个临床病史和家庭健康信息,帮助医生做出精确的诊断,即使是针对罕见的情况。它对于诊断罕见疾病和癌症亚型特别有用。

药物开发
语言模型可以帮助识别不同临床适应症的有希望的基因和通路靶标、可能对某些药物产生反应的个体以及不太可能受益的个体,从而提高临床试验的成功率。它还可以帮助药物分子开发和药物再利用。

基础分子生物学

分子信息的每一层都将以类似于语言翻译的方式连接到其他层,并且语言模型将探索提供强大预测能力的特征。该模型可用于识别训练数据中的“差距”,以细胞类型或分子层的形式,甚至是具有特定遗传背景或疾病迹象的个体,这些差距是根据其他数据预测的置信度较低的。


当然在开发这些技术时,必须考虑潜在风险,包括与患者隐私和临床实践相关的风险。患者隐私仍然是一个重大问题。对于语言模型来说尤其如此,因为根据模型的容量,原则上可以通过提示检索用于训练模型的参与者的数据,其中包括部分数据或针对特定患者的其他信息。

那么,全面实施语言模型来连接遗传学、分子生物学和人类健康的障碍是什么?

主要障碍是数据可用性。需要加速功能基因组数据的生成,例如来自 ENCODE 和人类细胞图谱的数据。幸运的是,生成此类数据的成本正在迅速下降。

同时,必须生成并公开多组学队列和临床数据。此过程需要参与者的同意,并考虑到合法的隐私问题。

然而,除了不可剥夺的隐私权之外,还有一项同样重要的参与者数据透明度权利:许多人希望通过共享数据做出贡献。对于患有罕见遗传病和癌症的患者来说尤其如此,他们希望通过为疾病研究和治疗开发做出贡献来帮助其他患者。

结论

分子生物学并不是一套简洁的概念和明确的原理,而是经过亿万年的试验和错误而汇集的数万亿个小事实的集合。

人类生物学家擅长讲故事,将事实放入有助于直觉和实验计划的描述和故事中。

然而,使生物学成为一门计算科学需要将大量数据采集和具有适当能力的计算模型相结合,以从数据中提取数万亿个生物事实。

随着LLM和数据采集步伐的加快,我们确实距离建立主要生物分子信息高速公路的精确计算机预测模型以连接我们的 DNA、细胞生物学和健康还有几年的时间。

可以合理地预期,在未来 5-10 年里,生物医学诊断、药物发现、跨健康领域的公司和倡议将把这些模型应用于人类健康和医学领域,产生巨大影响。

我们还可能见证开放基础模型的发展,这些模型集成了从基因组一直到医疗信息的数据。这些模型将极大地加速研究和创新,并促进精准医疗。

(由于篇幅限制,文章进行编辑与删减)

参考链接:
https://towardsdatascience.com/large-language-models-in-molecular-biology-9eb6b65d8a30

—The End—

推荐阅读
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存