Cell:机器学习模型能预测最好的修复致病突变的碱基编辑器

基因编辑技术比以往任何时候都更好，发展更快。新的和改进的碱基编辑器-一种特别高效和精确的基因校正器-使技术更接近于治疗人类的遗传病。 但是，基础编辑的繁荣伴随着一个新的挑战：就像一个没有向导的巨大钥匙环，科学家们可以投入大量的时间来寻找解决遗传故障的最佳工具，比如那些导致镰状细胞贫血或早衰症(一种快速衰老的疾病)的工具。对于病人来说，时间太重要了，不能浪费。

BE-Have的机器学习模型预测哪个碱基编辑器在修复数以千计的致病突变方面表现最好。来源：刘实验室

“似乎每周都有新的基地编辑出来，”托马斯·达德利·卡博特(Thomas Dudley Cabot)自然科学教授、博德研究所(Bound Institute)和霍华德·休斯医学研究所(Howard Hughes Medical Institute，HHMI)的核心研究所成员大卫·刘(David Liu)说。 “这一进展非常棒，但它给研究人员留下了一系列令人眼花缭乱的选择，让他们无法选择使用哪种基础编辑器。”

刘发明了基地编辑器。恰如其分的是，他和他的研究团队现在已经发明了一种方法来识别哪些最有可能实现所需的编辑，正如今天在“细胞”杂志上所报道的那样。刘说，他们利用11个最受欢迎的碱基编辑器(BES)编辑人类和小鼠细胞中3.8万多个目标位点的实验数据，创建了一个准确预测碱基编辑结果的机器学习模型。这个名为BE-Have的图书馆可供公众使用。但是这项工作产生的不仅仅是一个整齐的BES目录；机器学习模型发现了人类没有注意到的新的编辑器属性和功能。

这项研究的第一作者之一、刘实验室的博士后曼达娜·阿巴布(Mandana Arbab)说，“如果你开始使用碱基编辑来纠正单一的致病突变，那么你就会面临堆积如山的可能方法，很难知道哪些方法最有可能奏效。”

碱基编辑可能比其他形式的基因编辑更精确，但它们仍然可能导致不必要的、通常是不可预测的、超出预期基因目标的编辑。每个编辑都有自己的怪癖。不同类型的DNA在更小或更大的编辑“窗口”中运行，DNA的延伸大约有2到5个字母宽。一些编辑器可能会超出或低于他们的目标；另一些编辑器可能只更改给定窗口中的两个中的一个。

“如果窗口中的序列是GACA，”刘说，“而你正在使用腺嘌呤碱基编辑器将其中一个更改为，会优先编辑一个吗？”

答案取决于碱基编辑者、它的配对向导RNA--将编辑者运送到合适的DNA工作位点的伴侣--以及周围的DNA序列。为了收集所有这些复杂的因素，研究小组首先收集了大量数据。 Arbab说，在大约一年的时间里，他们为细胞配备了超过3.8万个DNA靶点，然后用11个最受欢迎的碱基编辑器与向导RNA配对对它们进行处理。治疗后，他们对细胞的DNA进行了测序，以收集关于每个碱基编辑如何影响每个细胞的数十亿个数据点。

为了分析这笔赏金，麻省理工学院计算与系统生物学项目的博士生、博德研究所成员、第一作者之一Max Shenin设计并培训了一个机器学习模型，以预测每个基地编辑的特殊怪癖。在之前的一项开创性研究中，沈和他的实验室同事训练了一种不同的机器学习模型来分析另一种常见的基因编辑工具CRISPR的数据，并消除了一种流行的误解，即该工具会产生不可预测的、通常无用的插入和删除，沈说。相反，他们表明，即使人类无法预测这些插入和删除发生在哪里，机器学习也可以。

现在，研究人员可以将目标DNA序列放入沈的增强的机器学习模型BE-Have中，并查看对该目标使用11个碱基编辑器中的每个编辑器的预测结果。刘说：“BE-Have预测，在单个DNA序列水平上，每个碱基编辑在目标站点上工作的结果将会是什么。”

Be-Have的一些预测令人惊讶，甚至对基础编辑器的发明者来说也是如此。 “有时候，”刘说，“由于我们灵长类的大脑不够复杂，无法预测，模型可以准确地告诉我们，即使编辑窗口中有两个C，这个特定的编辑器也只会编辑第二个C。”

Be-Have还学会了基础编辑何时可以进行所谓的颠倒编辑：一些基础编辑不是将C改为T，而是将C改为G或A，这是罕见和不正常但可能有价值的怪癖。 然后，研究人员使用BE-Have以最少的副产品纠正了174个导致疾病的颠换突变。而且，他们使用BE-Have发现未知的基本编辑器属性，用来设计具有新功能的新工具，为不断增长的环添加更多的遗传密钥。

版权作品，未经PaperRSS书面授权，严禁转载，违者将被追究法律责任。

PaperRSS，关注生命科学，高校院所科研进展。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。