路漫漫其修远兮——深度学习在基因组学的应用

前几天笔者的微信朋友圈被一则微信推送刷了屏，人工智能、深度学习浪潮的领导者———谷歌（Google）公司在基因检测领域推出了具有突破性意义的又一个深度学习的应用，DeepVariant（很遗憾，还没有一个通用的中文名字，权且叫做“深度变异”吧）。谷歌DeepMind的阿法狗的成功，推翻了人类在围棋上的绝对优势，也把谷歌和深度学习推到了神一般的地位。而这个DeepVariant到底是什么呢？

按照谷歌发布的新闻稿[1]，这个有“突破性意义”的工具的目的是为了寻找基因里的变异。现代医学发现这些变异可以使携带者成为某些疾病的高危人群，而发现这些变异对于疾病的预防和治疗，例如癌症的早筛、预后、用药等，具有指导性意义。这是当前最前沿的精准医学概念，也是我们的中央政府大力推动的国家战略。

在描述具有 “突破性意义”的DeepVariant中，谷歌的新闻稿是这样说的：“DeepVariant是一个比之前的经典方法要准确地多得多的利用新一代测序技术重构人类基因组的深度学习技术。“（”a deep learning technology to reconstruct the true genome sequence from HTS sequencer data with significantly greater accuracy than previous classic methods.”）。这样的描述也许会让普通人感到很兴奋，但对于了解这个领域的人来说，却是言过其实了。现有的基因变异检测的工具，例如已经在业界广为采用的GATK（Genome Analysis ToolKit，基因组分析工具套件）[2]，所使用的数学模型和方法已经经过了数百万样本的反复检验和证实，被视为行业金标准。DeepVariant所对比的也就是GATK这个金标准。虽然DeepVariant号称完胜GATK，但是在美国FDA于2017年7月到9月主持的最新的算法交锋中（precisionFDA Hidden Treasures – WarmUp Challenge），所有采用GATK算法的团队都准确无误的找到了所有的嵌入变异，而DeepVariant却漏掉了其中10%的变异，并且在速度上要比GATK慢一倍（见后文）。在需要精准和快速反应的医疗场景中，这无疑是致命的。

下面我们仔细了解一下谷歌号称的重构人类基因组的深度学习技术到底是什么。首先，重构人类基因组是个具有巨大计算挑战的特殊领域，而DeepVariant其实和人类基因组重构并没有太多的关系。它所做的和业界采用的思路并没有太大的区别，都是通过与已知的人类基因组的比较来寻找基因变异，和传统方法的区别仅仅在于进行比较的实现方法。

一般来说，传统方法利用严格的统计数学模型来检测基因突变，而DeepVariant则另辟蹊径，采用视觉深度神经元网络为核心，用监督学习（见下文描述）出来的模型去发现个体和已知基因组的差异（变异基因）。坦白地说，DeepVariant所采用的也不是一种完全崭新的策略，因为只要对基因组方面的学习方法应用有所了解的同学就知道，从2000年前后开始流行的机器学习方法，到当下正热的深度学习方法都已经在基因组数据分析领域做了不少尝试，比如GATK里的VQSR功能（Variant Quality Score Recalibration, 变异位点质量值重新校正，另外一种基于机器学习以提高寻找基因变异精度的方法）。但是很遗憾，由于基因数据的特殊性，这些学习方法还没有达到影像数据分析那样，特别是医学影像数据分析那样的成功。因为基于学习的人工智能，简单来讲，是数据驱动的数学建模方法。因此数据本身的某些性质决定了学习方法的有效性，而同时学习方法所构建的模型核心在很多情况下是难以解释的或者不明确的，也就是常说的黑盒子。因而在大多数情况下，人们很难明确地知道到底数据里面哪些特性决定学习方法的有效性。DeepVariant的聪明之处在于从设计思路上，它不再聚焦于高通量测序数据本身，而是把已经在影像分析领域取得巨大成功的深度学习方法应用在高通量数据的展示方面，通过模仿人类观察高通量测序数据的方式来寻找基因变异，因此它才在这个领域有所建树。同时在仔细研究DeepVariant的训练方法后，我们注意到它所用的训练样本也是来源于DeepVariant号称要完胜的统计数学模型。

在2016年面向全球的美国FDA主导的精准FDA真相比赛中（precisionFDA Truth Challenge），DeepVariant的早期版本（以Verily Life Sciences的名义提交）拿到了六个奖项中的最佳单核苷酸多态性（SNP）综合分数奖，这也是所谓在准确性上有“突破性意义”的主要证据之一。但是如果看表中的结果，它并没有所宣称地那样在精度上有突破性地进展，而只是在SNP F-score（一个用来综合衡量SNP性能的指标）一项上有极其微弱的优势，在SNP其它维度上表现平平，而在INDEL上的所有维度更是距领先者有着比较明显的差距（SNP即单核苷酸多态性，指基因组上的单个核苷酸的变异；INDEL即插入缺失标记，指少量的核苷酸插入或者缺失的变异）[3][4]。

图1. precisionFDA Truth Challenge 的六个奖项[3]

表1. 所有获奖团队的单核苷酸多态性（SNP）表现（DeepVariant以rpoplin-dv42的名字出现）

其中标红的为最佳表现[4]

表2. 所有获奖团队的插入缺失标记（INDEL）表现（DeepVariant以rpoplin-dv42的名字出现）

其中标红的为最佳表现[4]

从另外一个角度来说，DeepVariant是一个典型的监督学习(Supervised Learning)的应用，即计算机需要通过分析训练数据（Training Data）来找出规律，然后将这样的规律应用到新的数据中。这些训练数据就像是有标准答案的练习题，事先通过其它途径获得，计算机针对这些练习题和答案试图凑出一些规律，如果这些规律比较准，那么计算机以后再遇到同类的问题，即使和练习题不完全一样，也是可以算出正确答案的。但是在这类的机器学习中，如果新的数据与训练数据差别比较大，也就是新的问题和练习题很不一样，最终的效果就可能变得不理想。DeepVariant使用了NIST（美国国家标准与技术研究院）提供的一套训练数据，所以在其论文中，全部挑选了与NIST训练数据相近的数据测试，达到了不错的准确率。假如实际数据与NIST训练数据偏差较大，性能就可能会大打折扣。这一点从2017年最新的美国FDA主持的寻宝热身挑战赛（precisionFDA Hidden Treasures - WarmUp Challenge）中就可以很清楚地看出：在这一次成绩榜上，所有基于GATK的数学方法都成功的找出了嵌入的50个变异，而DeepVariant最新版本在最好的情况下只找出了45个，也就是丢失了10%的变异，请看下面的图表（为了方便显示，格式略有改动）[5]。

表3：DeepVariant（由Google的Pi Chuan Chang提交）在precisionFDA Hidden Treasures - WarmUp Challenge中的表现[5]

图2：precisionFDA Hidden Treasures - WarmUp Challenge 的获胜者完整列表（特别标注了Variant Catcher）

几乎全部是基于GATK的数学方法[5]

换句话说，这相当于学生对学过的题型掌握的还不错，但是新的没见过的题型就不如老师了，因为老师懂得第一性原理（即基于数学统计理论的模型），而学生知其然而不知其所以然，只是背下了几种老师教过题型的解法套路。这些事实说明，对于新的数据，DeepVariant还不是足够可靠，完全没有像GATK那样得到全面的超过十年以上的大量的实验数据验证。而以基因组分析为基础的精准医学最终是要治病救人的，如果没有非常高的准确性和可靠性，就可能直接影响临床医生的判断，从而形成错误的治疗方案。

基因组分析的另外一个难点是计算速度。那么DeepVariant的运算速度又如何呢？加州的DNAnexus公司作了一些初步对比测试，结果表明它比现在通用的一些寻找基因变异的工具慢很多，比GATK当前版本的模块Haplotype Caller慢了近一倍。

图3：DNAnexus对于DeepVariant及常用的几种工具的运算速度比较测试

（其中Freebayes和Samtools的准确率比GATK和DeepVariant差很多）[6]

另外需要指出的是，DeepVariant只是完成了寻找基因变异整个过程中的一步 “Variant Calling”，而要完成整个过程还需要更多的步骤和更多的时间。这样慢的运算速度，使得无论是临床或者商业场景还是科研研究都几乎成为无法完成的任务。事实上，业界金标准GATK在运算速度上已经相当之慢，在某些临床和商业场景中，几乎到了不可接受的地步。因此针对不同应用场景的改进方案近几年已经由商业公司实现。例如，位于美国硅谷的Sentieon(www.sentieon.com) 用GATK完全一样的数学模型，通过对算法和软件的优化，在通用CPU上把GATK速度提高了几十倍。另一家美国公司Edico(www.edicogenome.com) 则利用FPGA硬件加速的方法也大幅提高第一性原理方法的运算速度。

人工智能在生命科学领域的持续而广泛的应用是大的趋势，但是现阶段这条道路上还充满着荆棘和坎坷，并非想象中的一帆风顺。至少在基因组领域，DeepVariant并没有达到谷歌宣传的那样，对传统方法无论是在准确和效率上取得突破性进展。做为这个领域的研究开发人员应该沉下心来，客观而冷静的做事情，而不是跟风热炒一些时下流行的概念。就像这个领域知名学者约翰霍普金斯大学Steven Salzberg教授发表在12月11号福布斯上的对DeepVariant评论的文章里所指出的那样，“深度学习和谷歌这些神奇的字眼并不一定代表着事情会做得更好”（the “magic pixie dust of ‘deep learning‘ and ‘google’” doesn’t necessarily make something better）[7]。在人工智能的生物和医学领域的应用中，我们仍然要“路漫漫其修远兮，吾将上下而求索“。

Ps：初稿于12月12日晚旧金山飞往芝加哥的航班上，后得到了美国和中国这个领域的一些专家同行的指正和补充，最后由专业团队润色修改而成，在此一并感谢。

参考文献：

[1] https://research.googleblog.com/2017/12/deepvariant-highly-accurate-genomes.html

[2] https://software.broadinstitute.org/gatk/

[3] https://precision.fda.gov/challenges/truth/results

[4] https://precision.fda.gov/challenges/truth/results

[5] https://precision.fda.gov/challenges/1/view/results

[6]https://blog.dnanexus.com/wpcontent/uploads/2017/12/CPU-core-hours.png

[7]https://www.forbes.com/sites/stevensalzberg/2017/12/11/no-googles-new-ai-cant-build-your-genome-sequence/#784ec9065774

（文章中原始图片来源于以上网站链接）

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。