有问有答 | SIMCA答疑专场

Q: OPLS-DA模型中Q2值越接近1越好？那如果数值比较小（比如0.5左右），数值还可以用吗？

A: 可以用的，一般Q2值越接近1，模型可预测性越好，若数值不大，也不代表模型不可用，是可以用的，只是用Q2值来做判断参考，并不是绝对的，后面还要做permutation做检验。

Q: 对于常见分析模型审稿人提到的:“LV1”是什么意思？他所指的分析的“PC1”又是什么？那么OPLS-DA中类似的概念是什么（t[1]O、t[1]P）？

A: LV1：全称为Latent Variable 1 ，即隐变量，假设观察数据是这些隐变量和某些噪声的线性组合。那么隐变量的数据可能比观察数据的数目少，也就是说通过隐变量可以实现数据的降维。

PC1：全称：Principal Component 1 ，即主成分1，计算公式为：PC1=a1X1 a2X2 …akXK。它是k个观测变量的加权组合，对初始变量集的方差解释性最大。

t[1]O、t[1]P：“P”代表预测，“O”代表正交。

Q: 数据导入SIMCA后看到三个组在PCA上区分不开，但是两两分析的时候OPLS-DA的Q2和R2都＞0.5，还可以继续往下分析吗？

A: OPLS-DA后的数据有没有价值进一步往下分析，可以根据置换检验的结果，若置换检验后的结果较好，两条拟合线的斜率均大于0则可以尝试进一步分析。

Q: 置换检验判断标准是什么?

A: 通常标准是R2回归线的截距<0.4，Q2回归线的截距<0.05，但有的时候样本量太少，达不到。所以只要回归线斜率大于0，就可以了。

Q: ROC是什么，判断标准是什么？

A: ROC（Receiver Operating Characteristic）曲线和AUC常被用来评价一个二值分类器（binary classifier）的优劣。一般的，AUC值越接近1，这个二值分类器越优。

Q: 请问UV格式化和par格式化的区别是什么，找差异性成分一般是用哪种？

A: UV和PAR是两种数据缩放的方式，全称分别是UV (unit variance scaling)和Par(Pareto scaling)。UV是数据中心化后除以列变量标准差（Standard deviation），Par是数据中心化后除以列变量标准差的算术平方根。两种算法均可以作为差异物筛选前的数据处理。

Q: 如何对差异代谢物做进一步的筛选？

A: 一般是使用P值<0.05 & VIP>1 这样的卡值来进行差异物的筛选，P值来源单元变量统计分析，VIP值来源于多元变量统计分析（来源于OPLS-DA模型）表征该变量对两组差异的贡献值，当然VIP值越大对差异贡献越大。

使用P值<0.05 & (FC>1 或 FC<1) [FC= Fold change]来进行差异物筛选也是有这样的做法，但是P值和FC值都来源单元变量统计分析。

推荐使用P值<0.05 & VIP>1的筛选方法。

在此基础上要做进一步的筛选的话，有以下几个方法：

1. P值<0.05，对VIP值做排序（VIP值越大，差异代谢物越有意义）

2. VIP>1，对P值做排序（P值越小，差异代谢物越有意义）

3. 在P值<0.05 & VIP>1的范围内，对FC值做排序（大于1的FC，越大越有意义；小于1的FC，越小越有意义）

4. 限定更严格的基础筛选条件，比如：P值<0.01 & VIP>2。重做以上三种方法。

Q: 火山图是什么，有什么用？

A: 火山图中每个点代表一个代谢物，横坐标代表该组对比各物质的倍数变化（取以2为底的对数），纵坐标表示学生t检验的P-value（取以10为底的对数），散点大小代表OPLS-DA模型的VIP值，散点越大VIP值越大。这些信息都是和差异代谢物的筛选息息相关的，所以展示了差异代谢物在所有物质的分布概况。散点颜色代表最终的筛选结果，显著上调的代谢物以红色表示，显著下调的代谢物以蓝色表示，非显著差异的代谢物为灰色。

Q: 为什么火山图中的差异物质和热图中的差异物质数量不一样？

A: 火山图包括unknown和analyte等未定性到名称的物质，而热图只包括定性到具体名称的物质。

Q: O2PLS可以计算出相关系数，但是与Pearson计算出来的不一样，为什么？

A: 使用SIMCA进行相关性分析的时候，确保输入SIMCA的数据是正确的，且经过的是相同的数据转化。

关于SIMCA软件

SIMCA软件是由MKS Data Analytics Solutions（原Umetrics公司）于1987年研究开发成型，是一款功能强大的MVDA 建模、分析和决策支持工具，已成为多元变量统计分析的标杆。

研发至今，SIMCA软件一直在不断升级和更新迭代，致力于给用户更好的体验。最新的版本SIMCA 16功能比以前更强大，优化更彻底，最重要的是：新技术MOCA （Multiblock Orthogonal Component Analysis）可实现多组学数据联合分析！

上海阿趣生物科技有限公司（上海百趣生物医学科技有限公司全资子公司-BIOTREE）于2014年7月与Sartorius Stedim Data Analytics AB（原Umetrics公司）达成战略合作伙伴协议，BIOTREE科技成为Sartorius Stedim Data Analytics AB大中华区SIMCA软件销售及培训服务提供商。欢迎有SIMCA软件方面需求的老师和同学垂询免费服务热线400-664-9912。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。