Nature子刊 | 适用于生物学研究人员的机器学习指南（下）

最佳实践篇：挑战+实践策略

机器学习生物应用面临的挑战

由于所遇到数据类型的多样性，生物数据往往需要某种定制的解决方案来有效地处理它们，这使得很难推荐现成的工具，甚至是在这些问题领域中使用机器学习的一般指导方针，作为模型的选择，训练程序和测试数据将在很大程度上取决于想要回答的确切问题。

目前机器学习在生物应用中面临的挑战包括数据可用性（某些领域数据量巨大而另一些领域数据量非常小）、数据泄露、模型的可解释性等问题。因此需要关注保护隐私的机器学习，在数据隐私的背景下允许数据共享和机器学习模型的分布式训练，已经开发了一些算法，用于使用存储在不同位置的数据进行高效的联邦模型训练。同时跨学科合作也是很有必要的，除非使用公开可用的数据，否则很少有一个研究小组既能为机器学习研究收集数据，又能有效地应用最合适的机器学习方法。实验生物学家与计算机科学家合作是很常见的，这样的合作通常会获得很好的结果。然而，在这种合作中，重要的是双方都对对方有一些工作知识的了解。特别是，计算机科学家应该努力理解数据，例如预期的噪声和可重复性程度，生物学家应该理解所使用的机器学习算法的局限性。建立这样的理解需要时间和努力，但对于防止不良模型和误导性结果的非故意传播非常重要。

机器学习&生物数据：最佳实践

对于不同生物数据类型使用机器学习策略的建议：

基因序列

示例预测任务：DNA可及性、3D基因组组织、增强子-启动子互作

推荐模型：1D CNNs、RNNs、Transformers

面临的挑战：基因组中的重复区域、感兴趣的稀疏区域、非常长的序列

蛋白序列

示例预测任务：蛋白结构、蛋白功能、蛋白互作、

推荐模型：2D CNNs and residual networks usingco-variation data、Multilayer perceptrons with windowing Transformers

面临的挑战：数据存储在许多地方，因此难以获取、数据泄漏（来自同源性）会使验证变得困难

蛋白质3D结构

示例预测任务：蛋白质模型改进、蛋白质模型质量评估、突变后的稳定性变化

推荐模型：GCNs using molecular graph、3D CNNs using coordinates、Traditional methods using structural features Clustering

面临的挑战：缺乏数据，特别是关于蛋白质复合体的数据、缺乏无序蛋白质的数据

基因表达

示例预测任务：基因间相互作用或共表达、组织转录机制

推荐模型：Clustering、CNNs、Autoencoders

面临的挑战：共表达和功能之间的联系尚不清楚、高维、高噪音

质谱数据

示例预测任务：检测光谱中的峰值、代谢物注释

推荐模型：CNNs using spectral data、Traditional methods using derived features

面临的挑战：缺乏标准化的基准、不同数据集之间需要进行归一化

图像

示例预测任务：医学图像识别、冷冻电镜图像重建、RNA测序图谱

推荐模型：2D CNNs and residual networks、Autoencoders、Traditional methods using image features

面临的挑战：数据收集的系统性差异会影响预测、难以获得一致性数据的大型数据集

分子结构

示例预测任务：抗生素活性、药物毒性、蛋白质-配体对接、新型药物生成

推荐模型：GCNs using molecular graph、Traditional methods or multilayer perceptrons using molecular properties、RNNs using text-based representations of molecular structure such as SMILES、Autoencoders

面临的挑战：只有极小部分可能的小分子可以获得实验数据

蛋白互作网络

示例预测任务：多药理学副作用、蛋白质功能

推荐模型：GCNs、Graph embedding

面临的挑战：互作网络可能不完整、细胞位置影响蛋白质是否互作、可能的组合数量较多

文章的结尾作者对机器学习在生物学研究中的应用做了总结和展望，并且还为大家后续阅读机器学习文献提供了参考建议。

阅读或使用生物数据的机器学习文献时要考虑的一些问题：数据集是否得到了充分描述？测试集有效吗？模式选择合理吗？该方法（一般针对新方法）是否与其他方法进行了比较？结果是否太好而不真实？方法可行吗？...有时这些问题即使答案并不明显，但其可以作为与具备专业知识合作者进行讨论的基础。

更多优质内容请点击下方名片，关注“国家基因库大数据平台”和“深圳国家基因库”公众号。

参考文献

Greener, J.G., Kandathil, S.M., Moffat, L. et al. A guide to machine learning for biologists.Nat Rev Mol Cell Biol 23, 40–55 (2022).

图片均来源于参考文献，如有侵权请联系删除。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。