打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
可理解的多模态数据机器学习模型及其在研究大脑神经细胞的初步应用

海归学者发起的公益学术平台

分享信息,整合资源

交流学术,偶尔风月

近年来,人工智能的广泛应用激起了对智慧之源大脑的研究。大脑这种复杂生物系统包含着大量不同功能的神经细胞。不同细胞之间互相作用也引起了多种多样脑状态包括神经类疾病。然而理解导致这些功能和状态的生物机理比如基因表达和调控仍然是一个高难度的工作。不过,通过整合描述大脑神经的多个信息源,我们可以更可靠、更准确地洞察神经细胞甚至驱动疾病发展的生物机理。


例如,快速发展的单细胞测序技术(比如Patch-seq)可测量同一神经细胞的多种特征,包括转录组,电生理信号和细胞形态,从而产生大量的多模态单细胞数据(multi-modal data)。这些多模态数据比起单一数据类型使人们能更全面的获取大脑神经细胞的特征(feature)从而分析与之相关的细胞功能(function)和区分不同细胞表型(phenotype)。

但是, 由于各种数据类型有着不同分布,不同数据间也有潜在的非线性关系,能否有效地整合和分析这些多模态数据进而理解细胞生物机理成了新挑战。开发用于整合跨样本、实验和测量方式单细胞数据的工具也是单细胞数据科学中提出的重大挑战之一。集成多模态特征很困难,因为这种集成需要我们允许以不同的数据尺度解决问题,提供一个框架来测量任何模态的不确定性,并在分析过程中对其进行量化。此外,多模态数据集成方法需要可扩展,以有效处理新技术提供的越来越多的细胞、特征和数据类型,并允许在不同表型之间进行比较,而且能解释细胞特征和表型的复杂关系。
 
为此,美国威斯康星大学麦迪逊分校王岱峰实验室于2022年1月31日在《自然-计算科学》上发表一种可理解的多模态数据机器学习模型(deepManReg)[1]。《自然-计算科学》还同期推出了新闻观点评述,专门介绍这一工作和探讨了可解释多模态数据学习领域的前景[2]。


deepManReg用常见的流型模型(manifold)来表示数据特征之间的局部非线性关系。作者首先通过多个深度神经网络学习不同模态的特征之间共有的流型,然后用它把所有可能的特征嵌入到一个相同的低维空间(co-embedding)。因此跨模态的特征在此空间的距离可以用于量化特征间的非线性关系,进而得到一个连接来自不同模态的特征的特征关系网络(cross-modal feature network)。作者再利用这个特征网络来正则化一个神经网络分类器从而达到改进数据表型分类的目的(regularized classification)。对于每个表型,deepManReg可在这个改进的神经网络分类器上采用积分梯度(integrated gradient)对特征和特征关系进行重要性排序(prioritization)。这种排序解释了最影响表型的特征和它们之间怎么样的特征关系可以用来分类表征。

通过巧妙使用了几种最先进的计算技术,deepManReg同时展示出了超高的技术性能。例如,deepManReg 通过黎曼优化过程训练神经网络,降低了在非线性(无法在不重新训练的情况下推广到新数据)和参数(导致对齐不准确)流形对齐之间进行选择的成本。作者还使用了梯度下降优化,计算多个数据集的 Stiefel 流形上的非线性投影,在神经网络输出层保留流形约束等等。此外,因为deepManReg允许比较不同表型以及理解形成它们的多模态特征之间的变化和关联,所以它可以给新数据样本预测先前研究的表型(即使是连续表型)。

为了展示性能,作者应用deepManReg分析了不同的数据案例。例如,(一)具有多特征的手写数字的图像数据和(二)Patch-seq方法得到的大约4000个小鼠大脑神经元细胞的基因表达和电生理信号数据。在每个案例中,作者发现 deepManReg不但在分类上均优于单一数据类型和其他现行多模态方法,而且能解释表现重要的特征及其之间关系。特别是在案例二中,作者找到了不同大脑皮层的神经元细胞的重要基因网络和电生理特征。这为揭示基因网络中的电生理功能变化提供了重要信息,并提供了关于基因功能如何在不同大脑皮层下协调的新思考角度。
 


除了可理解性,deepManReg在使用不同数量功能的CPU和GPU架构中的运行时间相较其他方法也具有一定优势。此外,作者还建议了一可以些适当调整的因素,这些调整可以使deepManReg扩展到更大的数据集并使用两种以上的数据类型。鉴于可使用的单细胞多模态数据集的数量不断增加的现状,以及使用deepManReg进行综合分析的优势,可以见得它将成为研究复杂疾病和表型的流行替代方案。尽管如此,作者仍然分析可解释多模态数据学习未来可以改进的方面,比如多个神经网络超参数优化以及分析高维数据所需的计算资源,以便更有效地使用包括deepManReg在内的机器学习模型和工具。

论文信息:

Nam D Nguyen, Jiawei Huang, Daifeng Wang, A deep manifold-regularized learning model for improving phenotype prediction from multi-modal data, Nature Computational Science, 2, 38–46, 2022. https://www.nature.com/articles/s43588-021-00185-x 

新闻评论:
Daniel Osorio, Interpretable multi-modal data integration, Nature Computational Science, 2, 8-9, 2022. https://www.nature.com/articles/s43588-021-00186-w 

作者简介:
通讯作者王岱峰博士是美国威斯康星大学麦迪逊分校生物统计和医学信息系及计算机科学系助理教授,威斯康星大学威斯曼中心PI和美国自然科学基金职业奖获得者(NSF Career)。其实验室长期致力于研究开发可用于理解生物机理和精准医学的人工智能及机器学习方法,并主要应用于大脑和脑疾病功能基因组研究。第一作者为实验室2021届计算机科学博士生Nam Nguyen (现卡耐基梅隆大学计算机学院计算生物学Lane Fellow)。第二作者为实验室2021届统计学数据科学硕士生黄嘉炜(现辛辛那提大学商学院博士生)。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
脑电研究:通过神经活动和视觉特征的多模态学习解码大脑表征
Nat. Biotechnol. | 利用生成式深度学习模型发现Ⅱ型糖尿病药物-组学相关性
CLIP再创辉煌!西南交大&MSRA提出CLIP4Clip,进行端到端的视频文本检索!
音乐源分离以3D点云为条件
无创解码大脑信号语义,中科院自动化所研发脑
1875年威斯康星2美元
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服