7 分肿瘤热点突变检测

Modeling and analysis of site-specific mutations in cancer identifies known plus putative novel hotspots and bias due to contextual sequences

癌症中位点特异性突变的建模和分析可确定已知的和推测的新型频发突变位点以及因上下文序列而引起的偏移

一、研究背景

癌症基因中反复突变的氨基酸位置，即突变热点，可能会产生重要的功能影响。
目前已报道的有关突变热点检测的算法存在一定的局限性，于是作者提出了一种算法和统计模型来更准确的检测热点。

二、研究流程

三、结果解读

1、不同分布拟合效果的比较

为了确定与癌症中观察到的突变分布相匹配的最佳规范分布，作者通过Kullback-Leiber散度（相对熵）对二项式、几何、β-二项式和零膨胀β-二项式（ZIBB）分布之间进行了比较（图1）。结果表明，β-二项式分布的拟合效果最好。

图1：不同分布拟合效果的比较

2、热点检测算法

为了解决热点突变与序列偏移导致特定位置的突变计数增加的问题，作者提出了混合模型，其中Mk是突变k次的氨基酸位置的计数，F表示热点突变与序列偏移。接下来，作者设计了逐步算法找到最佳的和F值（图2B）：

首先设置Fk = 0，然后在k个突变处找到最偏离的氨基酸位置，以寻找较低的细胞得分值。第一次迭代找到F7 = 1，而第二次迭代找到F6 = 1，第三次迭代未能更新则结束。

因此，以拟合F为条件的拟合β二项式更能代表大多数位点和突变，从而提供了参数为α和β的k突变概率的无偏估计。

图2：热点检测算法

3、评估算法性能

为了评估算法的性能，作者令所有基因都服从β-二项式分布，观察能使2000基因产生相同数量突变的位置分布的值。首先，作者假设热点为0，计算通过算法准确识别的概率。结果显示（图3A），该算法在不存在热点的情况下，识别出0个热点的特异性为84.3％。

接着，作者假设存在一个或多个热点（或氨基酸位置有偏差），来进行第二次模拟（图3B）。为了概况任何基因，在模拟中，作者选取注射的氨基酸位置数为nHot = {1、3、5}，而相对于观察到的最大突变数4，测试的突变数为rMut = {-3，-2，-1、0、1， 3，5}（图2B）。结果显示，仅有15%的模拟中无法检测到至少一个热点，即该算法整体的灵敏度为85%，且超过10%的模拟能发现多个热点（图2C）。

于是，作者深入分析了针对不同rMut值的算法的性能。结果显示，当热点突变数越接近最大突变数，并且注射的氨基酸位置接近最大突变数的相对位置时，所提出的算法性能越好（图3D）。

图3：算法性能的评估

4、检测癌症数据中的热点

作者将算法运用于TCGA的突变数据，其中包括33种癌症类型的10,182名患者的3,175,929个突变，选取FDR≤0.01或突变数大于及等于9的为热点，检测到的热点部分可在数据库Hotspots Annotations中查询到。作者总共在3115个基因中检测到3860个热点，其中2639个基因只有1个热点，378个基因包含2个热点，而98个基因显示3个或更多热点。常见的癌症基因显示出许多热点，例如TP53，PIK3CA，APC，PTEN，CDKN2A，ARID1A，FBXW7，NFE2L2，并且在ERBB2，CTNNB1，BRAF，CIC，KMT2D和DNAH5中估计也有6个或更多（图4A），对突变分布的分析显示，70%的热点存在5~9个突变（图4B）。

图4：每个基因和突变检测到的热点的分布

图5展示了部分代表性示例：

对于癌基因EGFR，可以清楚识别出4个热点带有11至27个突变。
对于未在COSMIC中识别为癌基因的NBPF12和GK2，有1个热点在NBPF12中带有12个突变，还有4个热点在GK2中带有5至6个突变。

图5：热点检测示例

5、热点中的变体类型和序列上下文

众所周知，热点可能会集中在特定的序列上下文中。因此，作者使用了TCGA数据集中找到的每种突变类型和上下文序列的所有突变位置的相对百分比（图6，左），为了更清楚的显示出这些差异，作者又比较了携带10个或更多突变的热点（图6，中），作者还用热图显示了百分比的差异（图6，右）。结果显示如下：

从输入数据看，TCGA数据集中最常见的突变类型是无义、错义和沉默突变，依次分别积累了11.16、1.44和0.564百万个突变；在携带10个或更多突变的热点中常见的突变类型为错义、移码突变。

虽然突变序列TCN中TCT中占据主导地位，但TCG到目前为止是热点中最常出现的序列，而TCT、TCA和TCC通常较少。这种模式频繁存在于错义与无义突变中，并且部分存在于沉默突变中，表明在这些类型的变体中，对TCG序列存在某种类型的偏好或选择。

图6：热点中变异上下文序列的比较

6、跨癌症类型的热点

癌症类型的每个基因突变的频率不同，并且不同癌症类型积累的突变数也存在差异，于是，作者对各种癌症类型的热点进行了比较（图7）。

首先，依据未携带任何热点突变的样品所占的百分比形成了三到四类癌症类型（图6A），这与总体突变率相关。

其次，对每个热点的癌症类型数量进行的分析表明，大多数热点（91％）是由2至6种癌症类型的突变形成的（图7B）。因此，只有95个热点（2.46％）严格针对特定的癌症类型（图7C）。

然后，将热点对突变总数的贡献大于50％或大于25％且突变数目大于10的癌症类型定义为“Enriched cancer”，显示“Enriched cancer”中的热点含量，发现UCEC，STAD，SKCM和COAD等癌症类型中的热点数量非常高（图7D），这可能是因为基因的高突变率（图7C）。

图7：不同癌症类型中的热点分布

7、模型参数与背景突变率相关

背景突变率的估计有助于确定偏差，于是作者通过使用拟合的β-二项式模型来估计沿染色体的k个突变的概率来代替预期的突变数。根据定义，即使拟合是独立的，连续基因也应显示相似的概率。因此，总体概率的微小偏差应突出显示重要的基因，系统偏差应显示虚假的基因或区域。

为了验证这一点，作者比较了沿染色体分布的基因之间的估计p值。沿1号染色体的模型估计显示了0个突变（黑点）和1个突变（红点）的密度估计，平滑的均值显示了一些与嗅觉受体共定位的峰（垂直灰线），这与后期复制时机，低表达和较高的突变率高度相关（图8）。结果表明，算法提供了一致性估计，并且这些估计能够捕获背景突变率的变化。

图8：沿1号染色体的模型估计

四、小结

作者首先通过比较不同分布与癌症中观察到的突变分布的拟合效果，选择了β-二项式分布；接着提出混合模型M=BetaBin(α，β)+F构造出热点检测算法，并通过逐步算法找到最佳的α，β和F；然后，为了评估算法的性能，作者分析了热点存在与否以及突变数与突变位置变化的情况下算法的准确性。验证完算法的性能之后，作者检测并筛选出癌症数据中的热点、对应的基因和突变数的分布情况；紧接着，作者分析了携带10个及以上突变的热点中变体类型和序列上下文的占比，同时，作者还比较了跨癌症类型的热点分布，以及探讨了模型参数与背景突变率的关系。最后，作者得出癌症中位点特异性突变的建模和分析可确定已知的和推测的新型频发突变位点以及因上下文序列而引起的偏移的结论。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。