用于 DNA 测序的机器学习模型，理论上可以解码任何测序读数中所编码的数据值

大规模并行 DNA 测序导致生物学中高度多重实验的快速增长。这些实验产生独特的测序结果，需要特定的分析管道来解码高度结构化的读数。然而，尚未开发出解释测序读数以提取其编码信息用于下游生物分析的多功能框架。

在这里，不列颠哥伦比亚大学和东京大学的研究人员报告了 INTERSTELLAR（interpretation, scalable transformation, and emulation of large-scale sequencing reads，大规模测序读数的解释、可扩展转换和仿真）；理论上，它可以解码任何类型的测序读数中编码的数据值，并将它们转化为另一种选择结构的测序读数。

INTERSTELLAR 成功地从一系列短读长和长读长测序读数中提取了信息，并翻译了单细胞 (sc)RNA-seq、scATAC-seq 和空间转录组学的那些数据，从而方便研究人员用不同软件工具进行分析。INTERSTELLAR 将极大地促进基于测序的实验的开发和数据分析管道的共享。

该研究以「A universal sequencing read interpreter」为题，于 2023 年 1 月 4 日发布在《Science Advances》。

在过去的几十年里，利用微阵列和高通量 DNA 测序，DNA 条形码的概念使一系列汇集的生物筛选成为可能。早期的例子包括建立酵母缺失集合，其中每个菌株都被构建为在缺失位点具有两个独特的 DNA 条形码。可以汇集条形码酵母菌株并进行单一生长竞争测定，其个体相对生长变化可以通过竞争前后微阵列或高通量测序测量的条形码数量读出。该策略开创了化学基因组学领域筛选药物靶基因的先河。

不久之后，同样的概念也被应用于基于哺乳动物细胞培养的全基因组基因敲除和敲除分析。在这些测定中，细胞由编码短发夹 (sh) RNA 或 CRISPR-Cas9 引导 (g) RNA 的慢病毒文库转导。由不同扰动引起的细胞生长可以通过聚合酶链反应 (PCR) 扩增和小 shRNA 或 gRNA 编码 DNA 片段的测序来大量量化。

此外，产生远端基因组区域和与不同因素相关的 DNA 条形码的嵌合融合的实验系统，使得研究人员能够大规模探索染色质构象、蛋白质相互作用、遗传相互作用和单分子 RNA 的空间细胞分布。在单细胞和空间基因组学中，单细胞标识符 (ID)、空间 ID 和唯一分子 ID (UMI) 用于唯一标记相应的转录组或基因组 DNA 片段，这导致了单细胞 RNA 测序(scRNA-seq)、scATAC-seq、空间转录组学和空间基因组技术的发展。

上述方法中的每一种都可以同时进行多个实验并生成测序文库。来自不同检测的测序文库也可以通过将额外的文库特异性、独特的 DNA 条形码融合到每个测序文库 DNA 中，进一步复用用于单次测序运行。这些实验的输出 DNA 分子具有一系列复杂性，其中一些编码多个信息片段，其组合有时被设计为通过多个读取（例如，配对末端读取和索引读取）读取。

然而，存在一些共同的问题——这些基于测序的实验中的大多数方法，都是使用它们自己专有的软件工具针对特定的序列读取结构开发的。虽然许多此类工具具有先进的下游数据分析功能，但它们通常不能重复用于概念上相同类型的实验系统产生的测序读数。对于具有改进的性能和不同读取结构的概念相同的分析，已经反复提出新的实验方法，并且已经为它们各自的读取结构开发了处理基本相同信息的数据分析工具。

在 scRNA-seq 领域尤其观察到这些轮子的再发明。这些软件工具不能交换不同的 scRNA-seq 库结构，也不能通过将它们应用于相同的 scRNA-seq 数据集来进行交叉验证。已经做出多项努力来开发能够分析特定类别实验的不同读取结构的灵活软件工具，例如 UMI-tools、zUMIs、scumi（用于基于 UMI 的 RNA-seq 和 scRNA-seq）和 SnapATAC（对于 scATAC-seq），但它们对于正在进行的产生独特读取结构的新实验的开发无效。

任何测序数据分析都遵循每次读取中序列片段的识别（例如，在 scRNA-seq reads 中识别细胞 ID、UMI 和 cDNA 编码区域）以及提取的序列片段和值（例如，映射到参考基因组和 scRNA-seq 中每个 RNA 种类的 UMI 计数）的下游分析。

因此，不列颠哥伦比亚大学和东京大学的研究人员提出了两种解决方案：(i) sequencing read interpreter 和数据分析工具的开发——如果一个 read interpreter 只提取在 sequencing reads 中编码的数据值，那么它的数据分析 pipeline 应该适用于产生相同数据结构的其他实验的 sequencing reads；(ii) read translator 的开发——如果可以将某种格式的测序 reads 翻译成另一种 reads 结构，则可以使用为特定 reads 结构开发的现有数据分析管道来分析其他 reads 结构。基于这两个方案，研究人员开发了称为 INTERSTELLAR 的单一通用工具。

图示：INTERSTELLAR 的概述。（来源：论文）

任何测序文库的结构都是通过用序列片段的位置规定在DNA序列中编码的信息或使用恒定标记序列对其进行切片来设计的（否则测序后无法分析文库）。在对文库进行测序之后进行任何测定后，提取序列片段并进行错误校正以用于下游分析。INTERSTELLAR 完全有能力使用灵活的正则表达式系统和序列段中编码的值的亲本关联来解码任何这些读取。

研究人员使用不同的软件工具对 scATAC-seq、scRNA-seq 和空间转录组学读数进行读数翻译和数据分析，并将结果与原始专有软件工具分析的原始读数进行比较。尽管原始结果和仿真结果的总体结果非常相似，但观察到的差异程度不同。

图示：不同 scRNA-seq 读数和软件工具的交叉评估。（来源：论文）

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。