打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
大型语言模型在分子生物学领域的应用
userphoto

2023.07.11 韩国

关注

今天为大家介绍的是来自Serafim Batzoglou的一篇博客。

我们是否能够解读分子生物学的语言?在这里,作者认为我们距离在计算机模拟中准确模拟生物分子信息高速公路——从DNA到基因表达再到蛋白质——只有几年的时间,这将与实验的准确性相媲美,并可应用于医药和药物研发。自从作者在1996年开始博士研究以来,计算生物学界一直奉行“生物学正在成为一门计算科学”的信念。我们的最终目标是精确、可重复地预测细胞内生物分子的活动,以及我们体内的细胞,就像工程学科一样。我们的目标是创建生物系统的计算模型,实现准确的生物分子模拟实验。深度学习和特别是大型语言模型(LLMs)在近年来取得的进展,结合了可负担和大规模数据生成,正在将这一愿景推向现实。人类语言反映了人类的思维,给了我们固有的优势,而分子生物学则是错综复杂、混乱和违反直觉的。尽管生物分子系统的构成混乱,但它们是强大而可重复的,由数以百万计的组分相互作用,这些相互作用已经在数十亿年的进化过程中形成。由此产生的系统非常复杂,超出了人类理解的范畴。生物学家常常采用简化的规则,但这些规则只有60%或80%的时间有效,导致了简单易懂但不完整的叙述。我们目前生成的巨大生物分子数据的能力超过了我们理解底层系统的能力。

作者讨论的核心是生物学中正在发生的范式转变。尽管“范式转变”这个术语经常被滥用,但在这里确实非常贴切。传统上,生物学是以假设为驱动的:研究人员识别模式,提出假设,设计实验或研究来测试这些假设,并根据结果调整他们的理论。这种方法逐渐被数据驱动的建模方法所取代。在这种新兴的范式中,研究人员从无假设的大规模数据生成开始,然后训练一个模型,如LLM,或将数据纳入现有的LLM中。一旦LLM能够准确地模拟系统,接近实验重复之间的一致性,研究人员就可以通过询问LLM来提取关于系统的见解,并理解其中的基本生物原理。这种转变将越来越明显,并使得能够以超越人类能力的细粒度对生物分子系统进行准确建模。

一个大型语言模型(LLM)是一种神经网络,通过研究大量文本数据,获得模仿人类语言生成文本的能力。它运作的原理是“自我监督”,模型根据前面的词语来预测句子中的下一个词。这个过程使得LLM能够识别文本中的模式、关系和上下文,使其能够回答查询、生成新内容,甚至进行预测。LLM可以被看作是自动补全的高级形式,它能预测你接下来可能输入的下一个词,但令人惊讶的是,它们表现出了对语言、上下文和含义的扎实理解。这使得它们能够在各种不同的主题上生成连贯而知识丰富的回应。

遗传法则

图 1

人类或其他生物从胚胎发育到整个生命周期的生物轨迹是遗传和环境之间复杂的相互作用:个体的DNA与其所暴露的环境之间的对话(图1)。分子生物学的中心法则描述了遗传信息在生物体内的流动。这些遗传信息的来源是我们的DNA,而我们体内的每个细胞核中都保存着一份完全一样的DNA复制品。人类的DNA包含大约30亿个核苷酸,排列在23对染色体中,其中22对是常染色体,而一对是性染色体,可以是X或Y。每个个体都拥有两份几乎完全相同的人类基因组:一份来自母亲,一份来自父亲。我们体内的大约3万亿个细胞中,每个细胞核中都保存有我们母亲和父亲基因组的几乎完全一样的拷贝。基因组中约有2万个基因,这些基因是负责蛋白质合成的DNA片段。大约1%的基因组编码蛋白质,而其余部分包括控制基因表达的区域、基因内不编码蛋白质的区域、贡献于DNA结构的区域,以及具有“自我复制”能力的自私DNA的“垃圾”区域。分子生物学的中心法则描述了从基因组到基因表达再到蛋白质产生的分子信息流动,而蛋白质则是生命的基本构建单元。

在转录之后,mRNA被运送到细胞的蛋白质合成机器——核糖体,进行翻译。在翻译过程中,mRNA序列以三个核苷酸为一组进行解码,这被称为密码子。每个密码子精确对应着蛋白质的20种氨基酸中的一种,这些氨基酸是构成蛋白质的基本组成部分。这些氨基酸被连接成链,形成蛋白质序列,然后蛋白质序列会折叠成具有功能的三维蛋白质结构。蛋白质是生命的基本构建单元,在几乎所有生物过程中起着关键作用。它们提供细胞的结构组成,作为酶催化化学反应,并促进细胞内的通讯和运输。基因调控与细胞内调控基因何时、何地以及以何种数量表达的复杂过程有关。这确保了正确蛋白质的及时生产。基因调控发生在多个层面,包括染色质结构、化学修饰以及特定蛋白质(称为转录因子)的作用。

转录因子(TF)是在基因调控中起关键作用的蛋白质。它们结合到基因附近或内部的特定DNA序列,被称为转录因子结合位点,从而影响RNA聚合酶的招募,RNA聚合酶是负责mRNA合成的酶。因此,转录因子调节目标基因的表达,确保对多样的细胞信号和环境条件做出适当的基因表达反应。转录因子本身受到其他转录因子的调控,形成复杂的基因调控途径。

启动子和增强子是在基因表达控制中发挥作用的DNA区域。启动子位于基因的起始位置相邻的地方(在DNA的化学方向上为上游,或基因起始位置的左侧),而增强子则是位于内含子或基因之间的较远的调控元件。启动子和增强子都含有多个转录因子结合位点。在转录因子的辅助下,基因的启动子和增强子形成三维结构,招募和调控负责mRNA合成的RNA聚合酶。

染色质结构是由DNA和蛋白质(组蛋白)组成的我们染色体的复合物。为了紧密地容纳在每个细胞核内,DNA被缠绕在被称为组蛋白的蛋白质周围。组蛋白是四聚体,由四个组蛋白蛋白质的复制组装而成。每个这样的结构包裹着146个核苷酸对的DNA,形成了一个像念珠一样的结构,随后折叠成一个更高阶的螺旋结构,即染色质。染色质的组织决定了哪些DNA区域可供基因表达使用。要发生基因表达,染色质必须展开。相反,紧密包装的染色质会阻止基因表达。

组蛋白修饰是指对组蛋白进行乙酰化或甲基化等化学修饰,从而影响染色质结构和基因可及性。这些修饰可以促进或抑制基因表达,取决于修饰的类型和位置。它们也是组蛋白代码的一部分,一种表观遗传代码,即覆盖在DNA中编码的遗传代码之上的额外代码层。

DNA甲基化是一种化学修饰,其中甲基基团被添加到DNA分子上,通常是在特定的胞嘧啶碱基上。甲基化可以通过影响转录因子的结合或改变染色质结构来影响基因表达,使其更加紧凑且不易被转录访问。甲基化和其他DNA化学修饰也是表观遗传代码的一部分。基因调控是一种特定于每种细胞类型的动态过程。我们身体内的不同细胞展示出独特的基因表达谱,使它们能够执行专门的功能。通过对基因表达的精确控制,细胞可以对环境刺激作出反应,维持稳态,并执行对生命至关重要的复杂过程。

传统上,中心法则被描述为信息的单向流动:DNA到RNA到蛋白质。然而,存在一些例外情况,我们对底层机制的认识仍在不断发展,这超出了本简要回顾的范围。值得一提的是一些例外情况:(1)反转录的发现挑战了中心法则的单向性,反转录是将RNA转换回DNA的过程,由反转录酶这个酶催化,常见于逆转录病毒,如HIV。(2)DNA还可以被转录成除mRNA之外的其他RNA分子,如转运RNA(tRNA)、核糖体RNA(rRNA)和其他类型的非编码RNA,为遗传信息的流动增加了另一个复杂层次。(3)最后,越来越多的证据显示表观遗传学在DNA甲基化和组蛋白修饰等机制方面发挥着重要作用,并研究表观遗传变化在遗传中的传递程度。

基因变化

我们每个人的生物形态都受到DNA与环境影响之间的复杂相互作用的塑造,从受孕到现在的每一刻都在持续进行。我们的DNA结合了人类雌性生殖系统,确保我们以人类的身份而非其他物种(例如与我们基因相似度达到98.8%的黑猩猩)出生。任何两个人的DNA相似度超过99.9%。然而,我们的DNA变异解释了我们所有特征的遗传性,包括对健康和疾病的遗传贡献。

DNA变异的起源:引入DNA变异的主要机制是在父母的基因组之间以及父母对后代基因组的生殖细胞系基因组之间发生的突变。在人类中,与父母的DNA相比,儿童的DNA包含大约50-100个突变;其中大部分由父亲贡献,与父亲的年龄相关。生殖细胞系突变主要推动了基因变异,解释了我们与黑猩猩和松鼠等物种的差异。这些新变异中的大多数是良性的,对表型没有影响,或者有一些既不具有优势也不具有劣势的影响。较小一部分可能是有害的,特别是如果它们损坏了一个功能区域,可以是蛋白编码、调控或甚至与染色质结构相关的区域。更小一部分可能是有益的,比如偶然改善功能元素的变异。

选择:有害变异或有害的遗传改变通常会使一个生物在进化角度上变得不太“适合”,适应度定义为预期存活后代的数量。随着时间的推移,有害变异往往在统计上从人群中被消除。因此,在人类中常见的遗传变异(至少在1%的人群中发现)要么是良性的,要么是对后来的生活中表现出的疾病有贡献的,这些疾病超出了自然选择的范围。这也是为什么罕见的变异通常比常见的变异更可能是有害的原因。

合并和DNA序列保守性:在更长的进化时间尺度上,例如人类与黑猩猩或狗之间的时间,选择对DNA的影响具有很高的信息性。以今天的任意两个个体为例。例如,我和我的狗Murzik(一只麦士基犬)。选择任何共享的DNA区域,例如我们与狗共享的大部分人类基因。选择我的母系拷贝和Murzik的(假设)父系拷贝。它们的相似度约为84%。现在,如果我们追溯这个区域的历史(我的母亲从她的母亲(假设)那里继承了它,她从她的父亲那里继承了它,以此类推;Murzik的父亲从他的母亲(假设)那里继承了它,她从她的母亲那里继承了它,以此类推),最终这两个区域会合并:存在一个祖先哺乳动物个体,它有两个孩子,这两个孩子都继承了完全相同的DNA片段:其中一个孩子成为我,另一个孩子成为Murzik。16%的序列差异反映了从这个共同祖先曾经经历的数百万代中发生的所有生殖细胞系突变。重要的是,发生在基因的重要部分的突变往往会使个体的适应度降低,并且不太可能导致我或Murzik今天存在。因此,DNA区域中保存程度较高的部分更有可能具有功能重要性,而保存程度较低的部分则更容忍突变。

数据生成:自30多年前启动人类基因组计划以来,已经开发出许多DNA测序技术,可以快速、经济高效地生成DNA数据。如今,整个人类基因组的完整测序费用可能仅为200美元(图6)。令人惊讶的是,用于测序我们整个基因组的相同技术也可以生成涉及分子生物学中核心基因表达的多种功能的数据。例如,通过将DNA测序与单细胞微流控技术相结合,研究人员可以测量生物样本中成千上万个单个细胞中每个基因的转录水平。基于测序的方法可以揭示染色质的结构、组蛋白修饰、转录因子与DNA的结合以及其他重要的分子信息。关于如何实现这一点的详细说明超出了本文的范围,但简而言之,实验中会分离出具有特定感兴趣属性的短DNA片段,例如与特定转录因子结合或作为开放、可访问的染色质的一部分,并对其进行测序。除了DNA测序,其他技术如质谱(MS)和亲和质谱学可以测量生物样本中所有蛋白质的水平。尽管通量较低,但X射线晶体学可以提供蛋白质的高分辨率三维结构。在过去的20至30年中,我们测量分子功能的能力远远超过了摩尔定律的发展速度,主要是由于DNA测序技术的进步,该技术也使得可以通过测序为基础的检测方法进行基因表达、染色质可及性和组蛋白修饰等多种分子读数。这种快速的数据生成进步使科学家们能够以单细胞或空间精度测量生物样本中的大多数遗传方面的特征。

将变异与功能联系起来。二十多年来,研究人员一直致力于通过将大量个体的基因组中的遗传变异与特定表型(如特定疾病的存在或不存在)相关联,以阐明基因功能和疾病的分子机制。这些研究被称为全基因组关联研究(GWAS),它们识别出某些基因组位置(可以是基因或调控区域)与所研究的表型之间的统计显著关联。GWAS目录(https://www.ebi.ac.uk/gwas/)是一个公共资源,目前包含了超过6,300份出版物和515,000个这样的关联。当所测量的表型不是二元的而是可量化的实体,比如身高,可以在基因组变异和表型之间进行回归分析,并将鉴定出的遗传位点称为数量性状位点。除了疾病状态、身高或头发颜色等宏观表型,遗传变异还可以与基因表达水平(导致表达数量性状位点,或eQTL)、蛋白质丰度(导致蛋白质数量性状位点,或pQTL)以及几乎所有其他分子测量相关联。这些分析为了解细胞功能和人类生理学的分子机制提供了宝贵的见解。然而,正如我们将在下文讨论的那样,这些传统的关联分析很可能被LLM的应用所超越。

LLM 在分子生物学的应用

在分子生物学的中心法则的各个步骤建模方面,过去几年取得了显著进展。虽然我们还没有完全将分子生物学转变为一门计算科学,也没有将医学和人类健康变成一门工程学科,但目前的势头表明我们离这个愿景只有大量额外的数据和进一步的发展之间的距离。这一进展在某种程度上与人工智能应用的其他领域有所不同。就个人而言,作者认为即使在小型哺乳动物的水平上,人工通用智能(AGI)仍然是超出我们的能力范围。此外,组合数学、离散算法和数学推理并不是LLM的强项。这是因为这些模型是前馈结构,除了通过将生成的文本作为输入馈送给LLM而隐含地创建的循环外,它们不包含循环。正如史蒂芬·沃尔夫勒姆在他的出色综述中所解释的,计算不可约性保证了这些模型无法做某些事情。值得一提的是,正如Bubek等人在2023年所描述的GPT-4系统中开始出现的这些能力的迹象。然而,对分子生物学进行建模并不需要AGI:它不需要高层次的规划、机构或目标,并且只有有限的需求来进行组合数学和算法推理。相反,分子生物学建模需要LLM擅长的能力:学习复杂、嘈杂顺序数据的统计特性,以最佳方式从丢失的表示中预测这些数据。

预测基因结构:根据分子生物学的基本法则,DNA的主要功能是编码转录和翻译为蛋白质的基因。决定被翻译成蛋白质的每个基因的具体片段是通过剪接机制确定的;这些片段在基因组中的绝大多数基因中都有很好的注释。然而,突变可能会破坏剪接的精确边界,即剪接位点。破坏剪接的罕见突变通常会显著影响所产生的蛋白质功能,因为它们通常会产生完全不同的蛋白质序列。因此,它们占据了罕见遗传病的约10%。预测剪接位点和推断基因结构因此是一项基本的计算任务,对于诊断遗传疾病具有重要意义。关于剪接位点预测的文献非常广泛。然而,直到2018年左右,这个问题仍然是一个重大挑战,最好的方法的准确率只能达到约30%,这个水平对于遗传诊断等应用来说并不足够预测。

2019年,Illumina AI实验室推出了SpliceAI。SpliceAI不使用Transformer技术,也不作为LLM,而是采用了较早的语言建模技术,其中语言是DNA序列。它是一个深度残差卷积神经网络,利用扩张卷积来高效扩展它可以处理的窗口大小。它接受人类基因组的10,000个核苷酸窗口作为输入,并预测内含子-外显子边界的精确位置,即所谓的供体位点和受体位点,分别指外显子-内含子和内含子-外显子边界。在精确率-召回率曲线下的面积(PR-AUC)方面,SpliceAI在人类基因组中达到了0.98的得分,而之前最好的得分为0.23。重要的是,SpliceAI的准确性足以进行体外突变分析:它可以人工改变DNA的任何位置,并确定这种改变是否在距离该突变10,000个核苷酸范围内引入或消除剪接位点。因此,它可以用于辅助遗传诊断:对于患有遗传疾病的患者,例如患有儿科疾病的年轻人,可以收集个体与父母不同的所有变异,并将每个变异输入到SpliceAI中,以确定它是否可能改变附近基因的剪接,从而破坏基因的功能。迄今为止,在英国基因组学10万个基因组计划(Genomics England 100,000 genomes project)的背景下,它已经解决了数百例以前无法解决的罕见未诊断儿科疾病病例。

预测蛋白质结构:分子生物学的核心法则讲述了我们的DNA信息如何产生蛋白质,而蛋白质是生命的基本构建单元。蛋白质序列直接由剪接的mRNA序列根据遗传密码进行翻译,然后折叠成功能性的三维形状,即蛋白质结构。从蛋白质序列预测蛋白质结构,也被称为蛋白质折叠问题,由于其重要性和看似难以克服的困难,长期以来被视为分子生物学的至高目标。蛋白质结构的黄金标准是来自X射线晶体学的实验数据,由于在获得高质量的蛋白质晶体和进行复杂的数据处理以推导蛋白质结构时存在困难,因此很难获得。尽管结构预测方法远远不能达到X射线晶体学的准确性,但计算预测已经是几十年来的研究重点。每两年举行一次的蛋白质结构预测评估竞赛(CASP,Critical Assessment of protein Structure Prediction)一直追踪着这一领域的进展。在2019年的比赛中,DeepMind的AlphaFold方法在准确性上取得了巨大的突破,超过了以往的基准。在2021年,AlphaFold 2再次取得了显著进展,几乎达到了X射线晶体学的准确性水平。随后,DeepMind与欧洲分子生物学实验室(EMBL)合作,发布了基于AlphaFold2的全面开源数据库,名为AlphaFold蛋白质结构数据库。该数据库提供了各种生物体的高准确性结构预测,包括人类蛋白质、模式生物和重要病原体。这些预测结构有望加快研究进展,并为生物过程、药物研发和疾病理解提供宝贵的见解。截至今天,数据库中有214,683,829个蛋白质结构。实质上,蛋白质结构预测问题,曾经被认为是分子生物学的至高目标,如今由于深度学习的突破,已经接近得到解决。AlphaFold 2代表了一项重大的科学进步,无论从任何角度来看都是如此。

预测蛋白质变异的影响:两个个体的基因组中有超过4百万个位置存在变异,其中有超过2万个位于编码蛋白质的区域。大部分遗传变异是良性的,并显著贡献于人类观察到的表型多样性。然而,这些遗传多样性的一小部分是有害的,会导致遗传性疾病。了解遗传变异的影响并对其进行分类,判断其是否良性或有害,对于遗传疾病的诊断、药物开发的基因靶标的鉴定以及对疾病的分子机制的理解都具有直接的应用。遗憾的是,绝大多数变异都被归类为“意义未确定的变异”(VUSs),对其在疾病中的影响尚不清楚。对这类变异进行注释是人类遗传学中一个至关重要且尚未解决的问题。确定某个变异是良性的或至少不太有害的一个重要线索来自于将人类遗传与近亲如黑猩猩和其他灵长类动物的遗传进行比较。我们的基因组与其他灵长类动物的基因组非常相似:与黑猩猩的基因组相似度达到98.8%,与大猩猩的基因组相似度为98.4%,与猩猩的基因组相似度为97%。例如,进化保守的蛋白质甚至更加相似。我们的生物学也非常相似,当人类蛋白质中的突变是致命的或导致严重遗传疾病时,相应灵长类动物蛋白质中的相同突变很可能也是有害的。相反,在健康灵长类动物中观察到的蛋白质变异很可能在人类中也是良性的。因此,我们能够访问的灵长类动物基因组越多,我们就能收集到关于人类基因组的更多信息:我们可以编制一个在灵长类动物中频繁观察到的蛋白质变异列表,并推断这些变异在人类中很可能是良性的。因此,在寻找与严重遗传疾病相关的突变时,应从不在此列表中的突变开始。

这样的灵长类动物蛋白质变异列表永远无法足以将人类的突变分类为良性或致病。简单来说,将有太多良性的人类突变没有机会出现在灵长类动物变异列表中。然而,这个列表可以以更有成效的方式利用:通过观察蛋白质序列和结构中容忍变异的模式以及不容忍变异的模式。通过学习区分这两类蛋白质位置,我们可以获得注释蛋白质变异为可能良性或可能致病的能力。

由Kyle Farh领导的Illumina AI实验室采用了这种方法来注释人类蛋白质中的变异。最初,在与其他人合作的情况下,他们收集了灵长类动物的血样,并对尽可能多的灵长类动物进行了基因组测序,包括来自233个不同灵长类动物物种的809个个体。这项测序工作是一个重要的保育倡议:一些灵长类动物物种处于濒危状态,保护这些物种中丰富的遗传信息对基础科学以及人类遗传学的研究都至关重要。

团队确定了灵长类动物中的430万个常见蛋白质变异目录,与之对应的蛋白质也存在于人类中。然后,他们构建了一个transformer,学习区分人类蛋白质中的良性和致病变异。通过学习灵长类动物变异通常存在的蛋白质位置的模式,与灵长类动物变异通常不存在的蛋白质位置进行对比,实现了这一目标。这个transformer被命名为PrimateAI-3D,它是该实验室之前开发的深度学习工具PrimateAI的新版本。PrimateAI-3D利用了蛋白质序列数据以及蛋白质的三维模型,这些模型可以通过实验重构或像AlphaFold和HHpred这样的计算工具进行预测,以2安培分辨率进行体素化。

模拟基因调控:如前所述,基因调控这个复杂过程涉及许多相互作用的分子组分:DNA染色质结构、DNA包裹的组蛋白中的化学修饰、转录因子与启动子和增强子的结合、包括启动子、增强子、结合的转录因子在内的DNA的三维结构的建立以及RNA聚合酶的招募。理论上,基因附近的精确DNA序列携带了触发这些机制的所有信息,以在正确的时间、正确的数量和适当的细胞类型中发挥作用。然而,在实践中,仅凭DNA序列预测基因表达是一项艰巨的任务。然而,最近语言模型在这个领域取得了显著的进展。

生成与基因调控相关的信息丰富的数据。在过去的二十年中,基因组研究人员进行了巨大的努力,产生了适用于理解基因调控的大规模分子数据的各种类型的数据。已经开发了数百种不同的实验技术,用于获得与中心法则的各个方面有关的信息,这里无法详细列举。以下是一些相关的信息示例,始终涉及人类细胞系或组织类型(前者通常是不朽的细胞系,后者通常来自已故的捐赠者):(1)确定整个基因组中具有开放染色质和紧密包装染色质的精确位置。与此相关的两种实验技术是DNAse-seq和ATAC-seq。(2)确定转录因子结合到基因组中的特定位置。(3)确定基因组中发生特定组蛋白化学修饰的所有位置。(4)确定给定基因的mRNA水平,即特定基因的表达水平。这类数据已经在数百个人类和小鼠细胞系以及许多个体中获得。总共,已经在多年的国际合作项目下收集了数千个这样的实验。每个实验反过来又涉及到整个人类或模式生物基因组上数万个数据点。

通过一系列语言模型的发展,最终形成了基于transformer的Enformer工具,该工具接受基因附近的DNA序列作为输入,并输出基因组中任何基因的特定细胞类型的表达水平。Enformer在仅从序列预测基因表达方面表现得相当不错。如果我们使用特定的实验技术(例如CAGE实验)在相同细胞系中测量所有基因的表达水平,同一实验的两个重复通常的相关性平均为0.94。一个达到这个水平的计算方法可能会减少对收集实验数据的需求。Enformer目前还没有达到这个水平,与实验数据的相关性为0.85,与两个实验重复相比的误差约为三倍。然而,随着更多的数据被纳入和模型的改进,这种性能预计会得到改善。值得注意的是,Enformer可以预测不同个体存在的突变以及通过CRISPR实验引入的突变引起的基因表达变化。然而,它仍然存在一些局限性,例如在预测远离基因起点的远程增强子(distal enhancers)的效果时表现不佳,以及正确确定个人突变对基因表达效果的方向。这些缺点可能是由于训练数据不足造成的。随着数据生成加速进行,可以合理预期在可预见的未来,我们将拥有能够仅凭序列预测基因表达并具有实验级准确性的LLMs,并且因此能够准确全面地描绘参与分子生物学中的中心法则的复杂分子机制的模型。

前景预测

解读将我们的基因组与人体各种细胞中错综复杂的生物分子途径联系起来,并进而与环境相互作用下的生理过程相结合的生物分子密码,并不需要人工通用智能(AGI)。虽然有许多人工智能任务可能已经出现或即将出现,但作者认为理解分子生物学并将其与人类健康联系起来不是其中之一。LLM已经证明在这个总体目标上已经足够。

以下是我们不要求人工智能完成的一些任务。我们不要求它生成新的内容;相反,我们要求它学习现有生物系统的复杂统计特性。我们不要求它以目标导向的方式在复杂的环境中导航,也不要求它保持内部状态,制定目标和子目标,或通过与环境的交互学习。我们不要求它解决数学问题或开展深入的反事实推理。但是,我们期望它学习一步因果关系:如果发生某种变异,特定基因就会发生功能障碍。如果这个基因表达不足,级联中的其他基因就会增加或减少。通过简单的一步因果关系学习,可以通过在DNA变异、蛋白质丰度和表型之间进行相关性三角定位(一种被称为门迪利安随机化的技术)以及越来越常见的大规模干扰实验,LLM将能够有效地模拟细胞状态。这种联系从基因组的一端延伸到表型的另一端。

总结一下,现如今的LLM已经足够先进,可以对分子生物学进行建模。进一步的方法改进始终受到欢迎。然而,关键不再是深度学习方法,而是数据。幸运的是,数据变得更便宜、更丰富。DNA测序技术的进步使得测序一个人类基因组的成本从最初的30亿美元降低到几年前的约1000美元,现在甚至降低到如今的200美元左右。这种成本降低也适用于所有以DNA测序作为主要读数的分子测定方法。这包括用于定量基因表达、染色质结构、组蛋白修饰、转录因子结合和过去10-20年中开发的数百种其他巧妙的测定方法。单细胞技术以及蛋白质组学、代谢组学、脂质组学和其他组学测定方法的进一步创新,使得我们可以对DNA和人类生理之间的各种分子层次进行越来越详细和高效的测量。

那么,所有这些如何结合在一起呢?一个重要的数据倡议是组织大量志愿者参与深入探索他们的组学数据、表型和健康记录。其中一个领先的例子是英国生物库计划(UK Biobank),这是一个大规模的生物库、生物医学数据库和研究资源,包含来自50万名英国参与者的全面遗传和健康信息。参与者的生物样本已经在广泛同意下进行收集,并且不断产生大量的数据。几乎所有参与者的外显子组(基因组中编码蛋白质的部分)已经公开发布,全基因组数据也将随之发布。此外,还可获得各种类型的数据,包括COVID-19抗体数据、代谢组学数据、端粒数据、影像数据、基因型数据、临床测量数据、基层医疗数据、疼痛问卷等等。不断增加其他类型的数据。UK Biobank的数据对于任何人的研究目的都是可用的。美国的"All Of Us"计划是一个类似的倡议,到目前为止,已经对25万名参与者的基因组进行了测序。FinnGen(芬兰基因组学)旨在创建一个类似的生物库,招募50万名芬兰参与者,这非常有价值,因为在基因上更加同质的群体中进行遗传研究更加容易。deCODE遗传学在冰岛领导了类似的工作,冰岛有超过三分之二的成年人参与了这项工作。还有其他测序参与者的队列存在,包括由雷格纳隆制药公司(一个私人倡议)测序的数百万个外显子,以及全球许多国家的国家倡议。

尤其是癌症是基因组的疾病,许多公司正在积累关于癌症患者和癌症样本的丰富基因组信息和额外的临床信息。涵盖这个领域超出了本文的范围,但值得提及的是Tempus,这是一家基于人工智能的精准医学公司,拥有大量临床和分子数据的库,Foundation Medicine是一家分子信息公司,提供全面的基因组分析检测,以识别患者癌症中的分子改变,并将其与相关的靶向治疗、免疫治疗和临床试验进行匹配,GRAIL和Guardant Health是两家开创性的诊断公司,专注于从患者血液样本中的“液体活检”或对患者血液样本的基因组内容进行分析,这些样本通常含有癌细胞的分子流失。这些公司都拥有大量且不断增长的患者队列的数据。除了这些队列倡议外,还有许多其他大规模的数据倡议。值得注意的是,人类细胞图谱计划已经为来自6,300名捐赠者的4,200万个人类细胞产生了基因表达数据。ENCODE项目是一个庞大的功能基因组数据集,涵盖了数百种人类细胞系和各种分子数量的数据,包括基因表达、染色质可及性、转录因子结合、组蛋白修饰、DNA甲基化等等。

LLMs非常适合整合这些数据。展望未来,我们可以设想一个巨大的LLM,整合所有这些数据集。那么,这样一个模型的架构和训练会是什么样子呢?让我们进行一次思想实验,试着拼凑出来:

  • 对基因进行标记,包括与产生蛋白质的不同异构体等重要变体。

  • 对不同类型的细胞和组织进行标记。

  • 对人类表型进行标记,例如疾病状态、临床指标和用药方案的遵循程度。

  • DNA序列以固定长度的核苷酸水平进行标记。

  • 基因组中的位置信息将基因与核苷酸内容相连接。

  • 蛋白质序列使用氨基酸字母表进行标记。

  • 来自Human Cell Atlas和其他单细胞数据集的数据以类似GPT的自回归方式或类似BERT的掩码语言建模方式训练LLM,突出细胞类型特定和细胞状态特定的基因通路。

  • ENCODE和类似的数据使LLM能够以细胞类型特定的方式关联不同的分子信息层,如原始DNA序列及其变异、基因表达、甲基化、组蛋白修饰、染色质可及性等。每个层都是一个独特的“语言”,具有不同的丰富度和词汇,提供独特的信息。LLM学会在这些语言之间进行翻译。

  • PrimateAI-3D的灵长类基因组计划和其他物种测序工作指导LLM了解基因组中突变的潜在良性或有害效应。

  • 包括蛋白质变体在内的整个蛋白质组富含蛋白质的三维结构信息,这些信息可以通过实验获得或由AlphaFold、RoseTTAfold等结构预测方法预测。

  • 来自UK Biobank和其他队列的数据允许LLM将基因组变异信息和其他分子数据与人类健康信息关联起来。

  • LLM利用参与者的完整临床记录来了解常见的医疗实践及其效果,并将其与所有数据集中的其他“语言”相连接。

  • LLM利用基础生物学、遗传学、分子科学和临床实践的广大现有文献,包括所有已知的基因和表型相关性。

开发这样一个LLM面临着重大挑战,与GPT系列LLM的挑战不同。它需要技术创新来表示和整合各种信息层,并扩大模型处理的标记数量。这样的LLM有着广泛的潜在应用。以下列举其中几个:

  • 临床诊断。它可以利用所有可用的患者信息,包括其基因组、其他测量结果、完整的临床历史和家庭健康信息,帮助医生进行精确诊断,甚至是对于罕见疾病和癌症的亚型。在诊断罕见疾病和亚型癌症方面可能特别有用。

  • 药物研发。LLM可以帮助识别适用于不同临床指标的有前景的基因和通路靶点,以及对某些药物有可能有反应的个体和不太可能获益的个体,从而提高临床试验的成功率。它还可以协助药物分子的开发和药物再利用。

  • 基础分子生物学。分子信息的每个层次都将与其他层次以类似于语言翻译的方式相连接,并对具有重要预测能力的特征进行研究。尽管深度学习模型的解释是一个挑战,但研究界在努力使人工智能可解释性方面取得了令人瞩目的进展。在OpenAI最新的研究中,GPT-4刚刚被用来解释GPT-2的每个神经元的行为。

  • 提供额外实验建议。可以利用模型来识别训练数据中的“空白”,例如细胞类型、分子层次,甚至是特定遗传背景或疾病指标的个体,这些数据从其他数据中的预测置信水平较低。

这些仅仅是潜在应用中的一部分,未来的LLM有着广泛的可能性,将在分子生物学和医学领域发挥重要作用。

在开发这些技术时,考虑潜在风险是至关重要的,包括与患者隐私和临床实践相关的风险。患者隐私仍然是一个重要关注点。对于LLMs而言尤其如此,因为根据模型的能力,在原则上,通过包含部分数据或其他针对特定患者的信息的提示,可以检索用于训练模型的参与者的数据。因此,在使用参与者数据训练LLMs时,确保获得适当的知情同意以及对这些模型的使用和访问的合适管控显得尤为重要。

然而,许多个人,比如参与英国生物库(UK Biobank)队列的人们,积极愿意慷慨地分享他们的数据和生物样本,为研究和社会做出巨大贡献。至于临床实践,目前尚不清楚LLMs是否可以独立用于诊断和治疗建议。这些模型的主要目的不是取代,而是辅助医疗专业人员,为医生提供强大的工具,用于验证和审计医疗信息。引用Isaac Kohane的话,"信任,但要验证"。

那么,完全实施一个连接遗传学、分子生物学和人类健康的LLM存在哪些障碍呢?主要的障碍是数据的可用性。功能基因组数据的产生,例如来自ENCODE和Human Cell Atlas的数据,需要加快进度。幸运的是,生成这类数据的成本正在迅速降低。同时,需要生成和公开可访问的多组学队列和临床数据。这个过程需要参与者的同意,同时考虑到合理的隐私关注。然而,在不可剥夺的隐私权利之外,参与者数据透明度也同样重要:许多人希望通过共享他们的数据来做出贡献。对于罕见遗传疾病和癌症患者尤其如此,他们希望通过参与疾病研究和治疗方法的开发来帮助其他患者。英国生物库的成功证明了参与者在数据共享方面的慷慨,旨在对人类健康产生积极影响。

参考资料

原文链接:

https://towardsdatascience.com/large-language-models-in-molecular-biology-9eb6b65d8a30

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
NEJM|分子医学中的人工智能
NEJM综述:人工智能在分子医学中的应用
噬菌体生物学:一个世纪的历史回顾
当分子生物邂逅中医中药
《遗传与进化》教材具体问题答疑
(16)埃里加
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服