【好文分享】高通量测序数据分析微生态的原理

目前二代高通量技术的研究非常火热，
农学、医学、生态等行业许多研究者已经用或即将用靶基因测序或者宏基因组测序技术检测项目的样本。
由于二代高通量技术是一项多学科交叉的领域，
许多老师对该原理及过程不是很了解。
之前看过浙江大学医学院李昂老师，
写的《高通量测序数据分析微生态的原理》。
该文深入浅出的介绍了高通量测序数据的微生态原理。
在此跟大家分享一下哈！
感兴趣的老师，可以深入的读一下哈！
------------------------------------------------------------------------------------------------------------------
高通量测序数据分析微生态的原理
浙江大学医学院李昂／ lia@zju.edu.cn
我们对陌生的技术充满了警惕和期望。对很多人来说高通量测序(下面都简称为NGS)是一种非常高端神秘的技术，NO！NGS仅仅是一种工具而已，不要因为它带了个“高”字，就认为是“高大上”和“高科技“，绝对不是！
之前的分享讲到，微生态研究会带来三种最基本的信息：1.有哪些微生物？2.微生物做什么？3.微生物之间的关系（第三个先不讲）。论文中眼花缭乱的图，人体疾病的关联分析，都是在这三种信息的基础上得到的。现在介绍下这三种信息怎么用NGS获得，原理非常简单。
先赘述下NGS的基本实验流程：临床样品(粪便，生殖道分泌物，尿液等)中有很多微生物，先把微生物富集(离心)后提DNA／RNA，就能得到大部分微生物的遗传物质(稀有物种可能会被漏掉)。用超声波将DNA打断成万亿条大小均一的片段(RNA需要先用实验手段处理成DNA)。把这些DNA片段用一个叫测序仪的仪器读取，每个样品能得到上千万条DNA序列，术语叫做reads或者sequences。(如果要做靶基因测序，如16S核糖体RNA序列，DNA不需要打断，但这个技术难度小，今天不讲。)
如果样品中只有一种微生物，微生态菌群就只有一种基因组。如果样品中有3种细菌，菌群就有3种基因组。我们假设样品中有3种微生物，相对比例为2:1:2，而基因组的长度比例为2:2:1，打断成大小均一的片段（我们假设片段大小为0.5），最后测序得到的DNA片段比例是8:4:4（比例 X 基因组长度 ➗以片段大小) ，如图1所示，很简单吧？

图1 微生态测序的reads，每一种颜色代表了一种细菌
NGS可以得到样品中微生态中几百种微生物的上百万DNA序列。这些DNA序列包含了微生物群落的信息。现在的问题是：怎么从百万条DNA序列中提取或者还原微生态的信息？我们按照微生态研究能提供的信息分开说。
1 微生物的组成。
微生物的组成，包括已知微生物的组成和未知微生物的组成。
1.1 已知微生物的组成
先讲个故事，小红帽在森林采了很多蘑菇，在不认识蘑菇的情况下想知道收获了哪些蘑菇和其数量，怎么实现？最简单的办法如下：
step1 买一本《蘑菇手册》和很多盒子，然后把所有的蘑菇一个个的摆好。
step2 挑选一个蘑菇，然后和手册中的所有蘑菇比较。如果手册中有收录该蘑菇，就拿一个盒子，这个盒子外面写上“蘑菇A”，把正在比较的蘑菇放进去。
step3 重复步骤2，如果正在比较的蘑菇是第一次发现，就拿一个新的盒子装进去,不要和其他的蘑菇混在一起。
step4 所有的蘑菇都完成比较工作，然后开始统计所有的盒子。
很简单吧？所谓”高科技“的NGS数据分析，用的原理一模一样。当然我们不用《蘑菇手册》，而是一个叫“参考序列”的东西，参考序列是什么？《蘑菇手册》需要给出每种蘑菇的名字和图片，参考序列要给出微生物的名字，以及它的基因组序列。就像数蘑菇一样，我们把上百万条测序序列和参考序列中的基因组序列比较后，放到一个个的小盒子，最后统计出的盒子种类，以及盒子里序列的个数，就是微生物群落的组成。截至发稿，NCBI已经收录的细菌参考序列有64,550种（NCBI基因组数据库）。
2.2 未知微生物的组成
之前讲过，环境中90%以上的微生物没有(没法)被分离培养过，这部分微生物在参考序列中无法找到。实际上，微生态样品中大部分的物种都没有参考序列，如粪便菌群测序结果显示，在大部分样品中，只有低于50%的序列能找到参考序列。若测序序列在参考序列中没有对应的物种，那认为该序列就是来自未知物种。重点来了：NGS分析最有价值的地方是，从百万条的测序序列中找到未知的微生物物种。这个怎么做到？接着讲蘑菇的事儿。
小红帽拿了一只蘑菇，翻遍了手册也没有找到，但又不能丢弃，怎么办？先拿一只盒子，外面写上”未知蘑菇1号“，把这个不知名的蘑菇放进去。如果又遇到未知蘑菇，就依次命名为未知2号，3号….这类的每只盒子里只有一只未知蘑菇。但是这样的盒子越来越多，房间逐渐放不下。唯一的办法是减少盒子数量。因为森林的面积不是无限大的，所以蘑菇种类的个数一定是个有限值（术语叫收敛，微生态也一样），所以以下假设一定成立：只要两只未知的蘑菇长的一模一样，就来自同一个种类。怎么把来自同一类的蘑菇放在一起？小红帽想了一个办法。
step 1 把所有的未知蘑菇排序
step 2 随机挑选一只蘑菇，这只蘑菇一定来自一个未知物种，我们编号为UMS-1，放入一个盒子，盒子外面写上UMS-1。
step 3 把剩下的所有的蘑菇，逐个和 UMS-1比较，如果长的一样，就放入UMS-1盒子，如果长得不一样，就放回原处。
step 4 第一轮比较结束后，重新挑选一只蘑菇，编号为UMS－2，然后重复step 3
step 5 等待所有的蘑菇都被分配完。每个标记好的盒子中，装的都是一模一样的未知物种。

图2 五个未知蘑菇被分成两个物种
人类世界中，有很多已经观察到，但暂时未能定义的事物，比如神秘的埃及象形文字，新的动植物，元素周期表上不存在的元素，还有未知功能的基因，处理方法都是沿着这个基本思路，即在“事物在不同的时间地点多次出现”前提下，进行从头去冗余(de-novo redundancy minimization)，得到同行认可后，就能去掉“未知”的帽子拥有正式的名称。微生态研究中，我们只能给这个“未知物种”一个自定义的编号(比如MGS-11, MLG-35 )，编号并不通用，不被研究领域内所有人认可。现在有一个很大的研究分支叫做培养组学（culturomics），目的是突破营养条件和生存条件限制，分离出难培养微生物的活体并保存传代，这样”蘑菇手册”中的蘑菇的数量就会越来越全。尽管我们不知道“未知微生物”来自哪个门纲目科属种，但这些未知的序列不会被丢弃，可以用数据分析推测它可能具有的功能，下面马上讲到。
2 微生态的功能。
微生态是由成百上千种微生物组成的，细菌平均有3500个基因，而每个基因都有自己的功能。只要弄清每个基因的功能（这个过程叫做注释），把这些基因功能”加“起来，就是微生态的功能，怎么做？
2.1 怎么弄清一个基因的功能？
功能的定义是“这个基因是做什么的”，弄清一个基因的功能的过程叫做“注释”。虽然现已知几百万条个原核生物基因的序列，但是并非所有基因的功能都是不一样，很多基因序列的功能是相同/相似的。我们可以根据这些基因功能的特点进行粗略的分类。

图3
COG的功能基因分类，图中每个字母代表一类功能基因功能，这不是计算机平白无故想出来的，而是几十年来，全世界科学家艰辛工作成果的总和。研究者每找到一个新的基因需要假设它具有某种功能，在实验验证成功，确定新基因的功能后，把这个基因的序列提交给数据库管理，数据库中每个基因包含的信息有：基因的序列和注释信息(这些信息由上传的人严格按照固定模式填写)。如果微生态包含的基因序列，和数据库中的基因序列接近(按照JCVI研究所的标准，相似度大于35%的氨基酸序列被认为是高度接近)，那么我们就推测它们具有同样的功能，这种方法叫做同源比对(常见的blast就是一种)。另外一种方法叫做模型预测，原理完全不同(这个暂时不介绍，有兴趣的读者可以欢迎邮件交流)，但也非常有用，我常用的工具是 HMMER(http://hmmer.org/)。
不管是哪种方法，都依赖于高质量的基因功能数据库，数据分析没法凭空想象出一个功能出来。如果基因找不到功能怎么办？稳妥的办法是标记成“未知功能基因”。如果还是不死心，建议换个数据库，如NCBI NR数据库，但NR数据库的注释信息良莠不齐，要十分小心。我印象最深的一个项目是：深圳大梅沙海滨的赤潮海水中，用NR数据库中注释出高表达的“老年痴呆症蛋白”，这个结果显然有问题，但并不奇怪。因为研究人体健康的科学家多，研究环境的少，数据库中收录的基因当然和疾病相关的更多，数据库是存在选择偏好的。
2.2 怎么把所有基因的功能“加起来”？
非常简单，直接用KEGG数据库就可以“加起来”(http://www.kegg.jp/kegg/pathway.html)。KEGG是一个专门收录生命活动代谢路径的数据库，我们以“维生素B6代谢路径”为例来说下基本原理。维生素B6是人体自身无法合成的一种非常重要的元素，肠道菌群可以合成，但含量较少，一般情况下主要从食物中获取。它的代谢路径如图所示。

图4 V-B6代谢路径
第一眼看上去这个图很乱，其实非常简单，KEGG组织信息的方式非常巧妙，圆圈代表化合物，在方框（即功能基因）作为生物酶的催化下，代谢为另外一种化合物，这样组成的一个箭头就是一个化学反应，所有的化学反应整合起来，就是一个代谢路径。用我们标色的部分举例：红色代表维生素B6，在 [2.7.1.35] 这个生物酶的作用下，被磷酸化，形成新的化学物质，即磷酸化吡哆醇，[2.7.1.35] 本质上是能翻译成蛋白质的功能基因，在KEGG中的为K00868。这个基因是广泛存在的，从哺乳动物到细菌都能表达，当然序列完全不同（为什么序列完全不同的基因序列能有相同的功能？记得上面提到的模型预测做基因功能注释吧，看来还是有必要讲下，但这个稍微有点复杂，以后再说）。
一个生命活动，需要不同的功能基因协力完成。一个功能基因至少会参与一种反应(reaction)并充当催化酶，不同的反应会构成一个代谢模块(module)，代谢模块组合起来就是一个代谢路径(pathway)，这就是“加起来”的含义。KEGG仍然是目前最好用的代谢路径数据库，每一个化合物，反应，基因，代谢模块，代谢路径在KEGG中都有详细准确的注释。KEGG pathway是一个小团队专门收集经过实验验证的资料构建的（而非自由上传），非常准确，唯一的缺点是更新很慢。因为NGS数据分析能得到微生态中能得到上百万个这样的功能基因，通过了解这些功能基因参与了哪些反应，代谢模块，代谢路径，我们就能了解到这些功能基因所在的微生物，参加了哪些生命活动，继而讨论这些生命活动对人体健康的影响。

小结
1 高通量测序产生来自微生态基因组的大量DNA序列，这些序列可以还原出微生态研究的3种信息。
2 微生态研究找物种组成需要“参考序列”。如果有人告诉你某种微生态样品里有某某微生物，要先问他用的参考序列是怎么来的，哪个版本。不同的参考序列会影响结果准确性，因为参考序列更新的非常快。
3 NGS的最大意义可以找到未知物种。前提假设是：未知物种在不同样品中多次出现。我们总喜欢说某某微生态中有成千上万种微生物，这个数字虽然不能精确到个位数，但肯定不是无限大。随着数据的积累和学科发展，未知物种一定会越来越少。
4 微生态功能注释方法有同源比对和模型预测两种，都依赖于高质量的数据库。注释是一种“推测”，而不是“确定”。挑出感兴趣的功能注释结果进行描述时，一定要由懂生物学的专家审阅功能预测的结果是否靠谱，以免闹出笑话。这个很花时间。
临床样品得来不易，高质量的DNA序列是做好微生态研究的第一步！糟糕的测序质量带来的损失是灾难性和无法修复的。我们会在下次分享中，讲清楚两件事：1.高通量测序DNA序列的如何判定。2.NGS商业测序公司加大数据量，即”掺沙子“的技巧。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。