报道人:于洲
审稿人:颜芬
今天介绍剑桥大学生物化学系Arian R. Jamasb等团队暂时发表在bioRxiv上的工作,这篇文章介绍了一个名为Graphein的Python库,用于构建应用于生物分子结构和相互作用的几何深度学习的数据集。Graphein旨在高度灵活,允许用户指定数据准备的每个步骤,可扩展性强,便于处理大型蛋白质复合物和相互作用图,并包含有用的预处理工具来准备实验文件。Graphein实现了一个高级和低级的API,以实现快速数据准备与细粒度的控制。
背景介绍
这篇文章介绍了一个名为Graphein的Python库,它用于在生物分子结构和生物相互作用网络上进行几何深度学习和网络分析。几何深度学习在生物学领域有广泛的应用,其中数据中的关系结构通常与模拟底层现象密不可分。目前,几何深度学习以及更广泛地应用于生物分子任务的深度学习都受到了适当数据集稀缺的阻碍。为了解决这个问题,作者引入了Graphein作为一站式工具,将来自广泛使用的生物信息学数据库的原始数据转换成机器学习所需的数据集,以高通量和灵活的方式。
图1:Graphein可以快速地将原始生物和化学数据集转换成可操作的机器学习数据集
本文的创新与贡献包括:
引入了Graphein库,它是一个用于构建蛋白质结构和生物相互作用网络的图形和表面网格表示的Python库。
提供了从广泛使用的生物信息学数据库中检索结构数据(包括蛋白质数据银行、最近发布的AlphaFold结构数据库)以及从STRINGdb、BioGrid、TRRUST和RegNetwork检索生物分子相互作用网络的实用程序。
该库提供流行的几何深度学习库(如DGL、PyTorch Geometric和PyTorch3D)接口,但仍然保持框架无关性,因为它建立在PyData生态系统之上,以实现与科学计算工具和库的简易互操作。
Graphein旨在高度灵活,允许用户指定数据准备的每个步骤,可扩展,以便处理大型蛋白质复合物和相互作用图,并包含有用的预处理工具来准备实验文件。
Graphein介绍
Graphein为构建蛋白质和RNA结构、小分子、蛋白质-蛋白质相互作用网络和基因调控网络的几何表示提供了实用工具。该库提供了高级和低级API,适合新手和有经验的用户。高级API从标准生物标识符构建结构和交互数据的几何表示形式;底层API提供了从输入数据中选择图形的细粒度定制,允许用户以一致的方式定义自己的数据准备、图形构造和特征功能。Graphein构建在PyData堆栈上,实现了与标准科学计算工具和深度学习框架轻松互操作。Graphein被分为支持各种模态的子模块。
图2:Graphein支持的数据形态的图和网格构造和特征方案的概述。模块是可互操作的,允许蛋白质或RNA结构图构建应用于调控网络中的节点
(1)Graphhein具有灵活性、可伸缩性、互操作性和可重复性,还提供了与数据源和几何深度学习库的结构。
(2)Graphein在不同粒度级别(原子、残基、二级结构和链)上构建蛋白质结构的图形表示,并使用来自各种来源(如生物物理特性、序列信息、结构注释和几何)的节点和边缘特征填充它们,并处理缺失或不完整的数据,提供了预处理实验文件的工具。
(3)蛋白质表面网格结构。Graphein使用PyTorch3D构建蛋白质结构的表面网格表示(PyTorch3D是一个支持可微分渲染、形状分析和操作的3D深度学习库),并根据网格的位置、曲率、法向量和溶剂可达性为顶点和面分配特征。
(4)Graphein从各种数据库(如STRINGdb,BioGrid,trust和RegNetwork)构建生物分子相互作用网络,这些数据库提供了蛋白质-蛋白质相互作用,基因调控相互作用或转录因子-靶标相互作用的信息,Graphein还可以用来自蛋白质结构图或其他来源(如基因本体注释或序列嵌入)的节点特征丰富这些网络。
(5)Graphein以高通量的方式对结构数据集和交互数据集进行基于网络的图论和拓扑分析。除此之外,Graphein还可以计算图统计信息(如度分布、聚类系数或中心性测量)、可视化图(使用NetworkX或Plotly)或应用图算法(如最短路径、社区检测或图嵌入)。
图3:用Graphein处理的结构数据表示类型(以上为Graphein的可视化工具生成的图表)
数据集与功能
Graphein提供的数据集包括结构数据集和交互网络数据集。结构数据集是从蛋白质数据库、AlphaFold结构数据库、ZINC和ChEMBL化学数据库中获取的生物分子结构的图表示。交互网络数据集是从STRINGdb、BioGrid、TRRUST和RegNetwork中获取的生物分子交互网络的图表示。这些数据集可以用于训练和评估几何深度学习模型在生物学任务上的性能。
图4:RNA二级结构图。二级结构可以表示为点括号字符串和多关系图。蓝色边表示磷酸二酯骨架键,红色边表示碱基对相互作用,绿色边表示假结对
图5:Graphein可以促进结构和生物分子相互作用数据的整合,使结构相互作用组学中的几何深度学习研究成为可能。图形的3D可视化是使用Graphein生成的
Graphein提供一些工具,用于将图数据转换为适合机器学习模型的格式。这些工具包括:
为DGL、PyTorch geometric和Jraph提供了在NetworkX图形对象和常用几何深度学习库数据对象之间进行转换的便利实用程序。
扩散矩阵(和相关邻接矩阵)的计算程序以及计算折线图的实用程序。
为支持的每种模式提供了内置的交互工具,以便在预处理和后处理中检查数据。
提供了分析和绘制图形属性的进一步实用程序。
使用BLAST提供了基于序列同源性拆分和聚类数据集的实用程序。
结论
本文介绍了Graphein,一个用于构建和分析生物分子结构和互作网络的图形表示的Python库。Graphein提供了从多个生物信息学数据库检索结构和网络数据的工具,以及灵活地定义图形特征和表示的方法。它还提供了一些机器学习实用程序,用于将图形数据转换为适合几何深度学习模型的格式,并展示了一些使用Graphein进行机器学习任务的示例。本文希望Graphein能够促进计算生物学、图形表示学习和药物发现领域的发展。
参考资料
Jamasb, A.R., Torné, R.V., Ma, E.J., Du, Y., Harris, C., Huang, K., Hall, D., Lio, P. and Blundell, T.L., Graphein-a Python Library for Geometric Deep Learning and Network Analysis on Biomolecular Structures and Interaction Networks. In ICML 2022 2nd AI for Science Workshop.
联系客服