5分 1区Top：机器学习在NHANES数据库数据挖掘的应用—

在临床研究领域，组学方法为疾病的诊断、预测、治疗以及药物开发提供了极为重要的信息。常见的组学研究包括基因组学、转录组学、蛋白质组学、代谢组学等。简单通俗来说，组学是基于特定细分领域进行一系列检测的方法。例如，之前备受瞩目的纯生物信息学研究，便是通过测量一系列非编码RNA的信息，构建某些热门表型（铁死亡、铜死亡）的非编码RNA预测模型。然而，这类研究普遍面临一个共性问题，即模型的可解释性。即模型中的某些RNA、蛋白质和代谢物在临床实践中的实际意义，仍需要进一步的基础和临床研究加以验证。

与之相反，基于已经成熟的临床指标的“组学”研究则可以更好地从临床研究的角度解释统计结果。NHANES数据库可以说是一个临床组学的宝库，其中包含了丰富的信息，如维生素组学、微量元素组学、环境化学物暴露组学和性激素组学等。我们可以探索组学中单一指标与结局之间的关系，构建基于多个组学指标诊断和预测模型，也可以研究多个指标与结局之间的分类关联。

今天笔者与大家分享一篇《Clinical Nutrition》杂志上的文章，让我们一起来学习一下。

关键信息

这项研究是一项队列研究，旨在评估血清中六种维生素（A、D、E、C、B12和B9）的浓度与美国成年人全因死亡率和特定原因死亡率风险之间的关联。主要的统计学方法：(1) K均值聚类方法（非监督学习）将参与者分为四种维生素共同暴露模式：低水平暴露（Cluster 1），维生素A / D暴露（Cluster 2），水溶性维生素暴露（Cluster 3）和高水平暴露（Cluster 4）；(2) Cox比例风险模型探索维生素/维生素暴露模型和死亡结局的关系。研究发现高循环维生素D水平与美国成年人的死亡风险降低有关；而中等水平的维生素共同暴露则有助于降低全因和癌症的死亡风险。

摘要

背景与目的：现有的流行病学研究探讨了循环中维生素与死亡率之间的关系，重点关注单个维生素的作用，结果存在争议。多种维生素共同暴露的联合效应值得研究。本研究旨在阐明循环维生素以及这些维生素共同暴露的联合效应与全因和特因死亡风险的关联。

方法：我们前瞻性地评估了血清中六种维生素（A、D、E、C、B12 和 B9）的浓度与美国成年人全因和特定原因死亡风险的关联。死亡状况和死亡原因由截至2015年12月31日的NHANES链接公共数据库确定。采用无监督 K-均值聚类方法将参与者聚类为几种维生素共同暴露模式。统计分析采用 Cox 比例风险模型。

结果：在中位数为10.9年的随访期间，8295名参与者中共有1404人死亡。在多变量调整中，维生素D水平的增加与全因和特定原因死亡风险的降低有关。在所有研究的维生素（维生素 D 除外）与全因死亡风险之间均存在 J 型非线性暴露-反应关系。根据所研究的维生素，产生了以下四种共同暴露模式：低水平暴露（群组 1）、维生素 A/D 暴露（群组 2）、水溶性维生素暴露（群组 3）和高水平暴露（群组 4）。与群组 1 的参与者相比，群组 2 的参与者全因死亡率和癌症死亡率较低，危险比（95% 置信区间 [CIs]）分别为 0.67（0.53，0.85）和 0.45（0.29，0.71）。

结论：这项研究的结果表明，循环维生素 D 水平高与美国成年人的死亡风险降低有关。中等水平的维生素共同暴露可适当降低全因和癌症死亡风险。我们的研究结果为探索多种维生素共同暴露的联合健康效应提供了一个新的视角。未来还需要进行调查，以进一步揭示可能的维生素相互作用的潜在机制。

该研究的亮点荟萃如下：

数据：

NHAENS数据库（维生素变量人口统计学变量共病变量全因死亡/心血管死亡/肿瘤死亡结局）。

统计方法：

K-mean聚类（非监督学习），Cox风险比例模型，限制性立方样条（Restricted Cubic Spline, RCS）。将K均值聚类的结果用于Cox回归模型，采用RCS探索非线性关系。

解释性：

结合临床实践，对单个因子和多个因子的共同暴露模式进行了深入解释。

接下来的统计分析看起来非常“花里花俏”，而且工作量比较大，实质上，讲透原理并不难。

暴露X是维生素，结局Y是死亡（是否死亡时间t），混杂Z是人口统计学变量、共病变量。模型是Cox比例风险模型。

第一步细化暴露，首先X是VA、VD、VE、VC、VB12以及VB9六种维生素；其次是按照四分位将以上六种维生素转变为分类变量；再次，通过K-mean聚类将维生素的暴露分为4个类别。

第二步细化结局，首先Y是全因死亡、心血管死亡和肿瘤死亡，当然Cox模型中包含了随访时间。

第三步细化协变量，模型 1 调整的协变量包括年龄、性别、种族/民族和贫困指数。模型2在模型1上进一步调整教育水平、BMI、婚姻状况、吸烟状况、饮酒状况和娱乐身体活动水平；模型 3在模型2上进一步调整高血压、高胆固醇、糖尿病、脑血管疾病、心血管疾病和肿瘤病史。

基本的模型是风险比例模型，在此基础上，对于连续变量的X，采用了非线性和线性模型拟合，分类变量的模型，则用了当中某一组做参照，其他组与之对比进行拟合。

上述统计方法中的主要部分可以通过LIGHT Scholar实现，NHAENS数据库的挖掘会在后续课程进行讲解，敬请期待！

接下来从数据分析角度来看这篇文章的亮点：

1.研究人群基线特征和聚类

Table S1描述了各个数据变量的主要来源，数据来源十分清晰，让审稿人无所挑剔，类似的表格可以在自己开展NHANES相关研究的提取数据过程。

纳排流程十分清晰，同时在调整不同的协变量Z的模型，选择的是不同的样本量，不是多重插补的方式，简单有效而真实。

6种维生素之间的相关性分析：计算偏相关系数并用热图可视化结果，该热图的存在不仅仅考虑了其他维度数据协变量对结局的影响，还考虑到维生素组学变量之间的关系。该模块可以通过LIGHT Scholar的科研绘图Correlation plot模块实现。

上图是核心内容之一，基于K-mean聚类对组学数据人群进行分类，分类后再用于Cox回归模型。除了LIGHT Scholar的平台可以用到KNN聚类、随机森林分类模型、多层感知器（MLP）分析等。K均值聚类是一种无监督的机器学习算法，它可以帮助我们将一组观测值（例如患者的临床特征）划分为若干个不同的组，称为“簇”。同属地说使用算法将这些患者划分为不同的类，每个类代表一个具有类似特征的患者群体。Table S2列出各类中6种维生素的细节以及命名细节。Table 1为各个类中的6种维生素的分布情况，Figure 4将结果以小提琴的形式可视化（LIGHT Scholar的科研绘图Violin Plot模块实现）。

Table 2 中呈现了以上4类的基线特征比较结果，LIGHT Scholar统计分析模块的Step 1可以复现。

2. 循环维生素和死亡（全因/心血管/肿瘤）的关系（直线关系曲线关系）

直线关系：

Table S3 展示了每种维生素与死亡之间的关系，采用了3个Cox回归模型调整混杂因素，Table S4将6种维生素基于四分位数分成4个水平（Q1 Q2 Q3 Q4），将自变量转变为作为分类变量进行分析，以Q1作为参照，使用Cox回归模型研究Q2 Q3 Q4与死亡结局的关系。Figure 5 实质上是将Table S4的结果转变到整合的森林图实现可视化，LIGHT Scholar的科研绘图 Forest Plot模块可实现。

曲线关系：

Figure6 通过限制性立方样条（RCS）展示了六种维生素与死亡风险之间的剂量反应关系，Table S5则展示了6种维生素与多种死亡分析之间的线性P值与非线性P值。

3. 循环水平维生素分类和死亡（全因/心血管/肿瘤）的关系

Table3 以分类作为自变量，进行Cox回归分析以探究不同维生素聚类和死亡风险之间的关系，Figure 7以森林图的形式可视化。进一步敏感性分析Table S6展示Model3人群 分层分析（季节）：结果显示没有季节变化；Table S7基于Model3人群和 Model1两个人群分析的结果基本一致。

Tips: 文章的核心部分在LIGHT Scholar中可以复现，这些工具包括了KNN聚类、随机森林分类模型、多层感知器（MLP）分析、科研绘图（Forest Plot、Correlation Plot、Violin Plot）等。

小伙伴们快来LIGHT Scholar试试吧！

今天（8.13）晚上，即将开启第三节课啦！

会员宝宝们晚上腾讯会议不见不散！！

https://www.light-scholar.com/

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。