打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
JCIM | CycPeptMPDB:一个关于环肽膜渗透性的综合数据库
userphoto

2023.03.27 上海

关注
2023年3月17日,日本东京工业大学Yutaka Akiyama团队在Journal of Chemical Information and Modeling上发表文章:“CycPeptMPDB:A Comprehensive Database of Membrane Permeability of Cyclic Peptides”。

在这项研究中,作者构建了CycPeptMPDB,从45篇发表的论文和2项制药公司的专利中收集了总共7334个环肽的信息,包括结构和实验测量的膜渗透性。为了明确地表示比小分子大的环状肽,作者使用大分子标记的分级编辑语言(Hierarchical Editing Language for Macromolecules,HELM)来生成肽的统一序列表示。除了数据存储,CycPeptMPDB还提供了在线数据可视化、数据分析和下载等多项支持功能。CycPeptMPDB有望成为支持环肽膜渗透性研究的一个有价值的平台。

背景

最近,环肽被认为是突破性药物,因为它们可以与“无药可及”的靶点相互作用,如细胞内蛋白质-蛋白质的相互作用。膜渗透性是口服生物利用度和细胞内靶向性的重要指标,而膜渗透肽的开发是环肽药物发现的瓶颈。尽管已经报道了许多关于环肽膜渗透性的实验数据,但还没有一个全面的数据库。而一个全面的膜渗透性数据库对于开发环肽药物设计的计算方法至关重要。

近期的环肽设计文章可参见:

AfCycDesign:基于AlphaFold进行环肽分子结构预测与序列设计

Cell|高精度从头设计可透膜的环状多肽

方法

如图1所示,CycPeptMPDB是一个综合数据库,根据已发表的论文和药物专利中获得的数据记录环肽的膜渗透性。它主要包含两类环肽数据:(1)性质信息,即根据化学结构估计的膜渗透性和物理量的实验值,如LogP(亲脂性指数);(2)化学结构信息,即HELM和单体描述的序列信息,作为构成环肽的部分结构。CycPeptMPDB提供了多种功能,如数据存储、统计和可视化、搜索和分析以及下载。

图1 CycPeptMPDB

作者从45篇已发表的论文和2项来自制药公司的专利中收集了总共7334个结构不同的环肽数据点(包括来自所有出版来源的重复结构的肽的数量为7451个)及其测量的膜渗透性信息。CycPeptMPDB中的膜渗透性表示为对数标度值LogPexp。对于由于检测极限等原因无法测量膜渗透性的肽,LogPexp被设置为最小值−10.0(1.0×10–10 cm/s,检测极限等详细记录可在肽详细页面上查看)。研究人员使用SMILES标记法在CycPeptMPDB中记录肽的结构,更正了原始出版物中的结构错误(例如,当SMILES结构与出版物中描述的序列不同时,根据序列信息更正该结构)。将收集的环肽按膜渗透性分为两种类型(图2)。LogPexp高于或等于−6.00(1.0×10–6cm/s)的环肽通常被认为具有良好的渗透性,并被归类为高(5113个肽)。相反,LogPexp低于−6.00的环肽被归类为低(2338个肽)。

图2 所有肽的渗透性分布

收集的环状肽的化学结构信息记录在SMILES标记中。作者使用RDKit软件(版本2020.09.1)生成了每个环肽的3D结构,使用户可以快速开始相关研究。每个肽产生5000个构象,并去除RMSD小于1.0Å的多余构象。接下来,使用UFF力场对每个构象进行结构优化,并选择势能最低的顶部结构。这种方法提供了一种计算高效的方法来获得环状肽的3D结构。然而,应该注意的是,通过分子力学力场获得的最小能量构象可能不一定反映肽在生物系统中的真实构象。此外,大多数肽可能存在构象集合,而不是单一构象。环状肽的3D结构可以在线查看并以SDF格式下载。

与小分子相比,环肽相对较大,适当的序列表示对于良好的可读性至关重要。因此,作者使用HELM符号来生成收集的环状肽的统一序列表示。HELM可以分级表示具有相对高分子量的复杂结构,如反义寡核苷酸、短干扰RNA、肽、蛋白质和抗体-药物偶联物。

HELM由四个层次组成:复杂聚合物、简单聚合物、单体和原子(图3(A))。首先,复杂的聚合物表达了关于整个大分子的化学结构的信息。它的成分是简单的聚合物及其连接(包括氢键和属性)。第二,简单的聚合物是由相同聚合物类型的单体组成的。简单的聚合物被定义为单个线性链;分支和循环结构不包括在该层次结构中。某些聚合物类型对单体之间的连接有明确的规则,连接的位置和规则可以表达单体序列的方向(例如,PEPTIDE符号表示从N末端到C末端的氨基酸序列)。此外,单体由原子和键组成,可以用Molfile和CXSMILES等格式表示(图3(B),Chemaxon Extended SMILES)。每个单体被赋予一个独特的符号,类似于肽序列中表示的氨基酸代码。这里,单体的定义还包括其连接(即连接点)的位置。当描述线性肽时,最初的HELM定义规定单体通过肽键连接。连接点R1被定义为氨基的N原子,R2被定义为羧基的C原子(R3之后的连接点是侧链的分支)。末端的R1和R2只能用于形成线性肽的主链(R1和R3,R2和R3可以形成环)。与最初的定义相反,在环状肽的情况下,线性肽的N末端和C末端通常是连接的。因此,在本研究中,N-末端R1和C-末端R2能够用来形成环(如图3(A)中的1:R1–6:R2,PubChem和ChEMBL数据库中的HELM也与我们的定义相似)。此外,从N原子改变的O原子也被设置为R1,因为存在许多具有酰胺到酯取代的环肽。

图3(A) HELM示例(B) 酪氨酸的单体定义示例

用于定义包含肽的单体的方法很重要,并且应该对数据库中的所有条目进行标准化。然而,许多选定的出版物没有记录序列表示,即使有记录,这些出版物之间特殊氨基酸的表示也往往存在显著差异。因此,我们将环肽的肽键和酯键裂解后获得的部分结构定义为单体(图3(B),CycPeptMPDB没有含有二硫键的肽)。结果,总共获得了312种类型的单体。有305个具有主链单体类型(具有两个或更多个连接点)的单体和7个具有末端单体类型的单体(用于仅具有一个连接点的肽序列的末端修饰)。在CXSMILES中描述了单体,以表示连接点的位置。对于PubChem数据库中包含的单体,记录了它们的通用化合物和IUPAC名称。此外,在设置符号(HELM中的单体短显示名称)和单体的天然类似物时,我们参考了PubChem数据库和ChEMBL数据库的单体库(版本29,包含2851种单体)。在这个阶段,有112种单体没有合适的符号,它们的符号被设置为Mono1到Mono112。此外,我们定义了两种类型的肽分子形状:圆形和套索形。该分类基于HELM序列信息。在序列的N-末端和C-末端都具有环化位置的肽被认为是环状肽,并且具有不在序列末端的环化位置(即在末端和侧链之间环化的肽)被认为是套索肽。如果最初的连接点原子是N或O(酰胺对酯的取代),则它被甲基(CH3)封端。如果最初的连接点原子是C,则添加氢原子(H)。

CycPeptMPDB中显示的所有单体描述符都是从这样的处理过的分子中计算出来的。与数据收集部分中描述的通过膜渗透性对环肽进行分类的方法类似,基于天然氨基酸的LogP值,通过LogP(基于Wildman–Crippen原子的LogP数值,RDKit软件计算的MolLogP描述符)将单体分为四种类型(图4)。LogP<-0.60的单体被设定为极亲水性单体(35个单体,低于G:-0.60)。−0.60≤LogP<0.40的单体则被设定为亲水性(66个单体低于V:0.43,为一般亲水性氨基酸,如G:−0.60、A:−0.21和P:0.28)(127个单体,一般疏水性氨基酸,如V:0.43、I:0.82、L:0.82和F:1.02)。那些1.40≤LogP的单体被设置为极疏水性(84个单体、极疏水性氨基酸如W:1.50)。

图4 所有单体的LogP分布

结果

CycPeptMPDB在浏览肽时,除了按数据源浏览外,我们还准备了三种分类方法:测定类型、单体长度和分子形状(图5(A)),例如圆形肽或套索形肽。导航到相应的子集列表页面后,肽的简要表显示了肽的基本信息,包括CycPeptMPDB ID、2D结构图像、HELM、渗透性、分子量、单体长度和LogP(图5(B))。如果用户想进一步细化访问的肽列表,可以使用表右上角的搜索功能。该搜索功能与“快速数据检索的肽搜索功能”部分中描述的搜索功能的不同之处在于,它可以过滤与表的内容部分匹配的肽(除了表的内容之外,还提供了数据源名称、源的出版年份、源中的原始名称和分子形状)。

图5 (A)分类方法选择(B) 肽列表页面

作者在肽和单体的肽详细页面中引入了一些有用的功能。首先,对于多个来源报道的相同结构的肽,在肽信息部分列出了所有已发表的膜渗透性测量结果(图6(A))。该功能允许用户快速选择在不同测量环境下获得的膜渗透性测量值。因为环状肽可以采用的3D结构的数量是巨大的,所以3D结构的生成需要大量的计算资源。因此,为了促进CycPeptPDB的使用,我们使用RDKit软件生成了每个肽5000个构象,如循环肽的3D结构生成部分所述。选择并储存最稳定的单一构象(图6(B))。最后,为了提高HELM表示的可读性并支持基于序列的分析,我们还为序列创建了HELM图像以及LogP和TPSA转换图(图6(B))。通过使用这些功能,用户可以快速捕捉肽序列的变化和部分表征。

图6 肽详细信息页面的(A)肽信息(B)结构信息

共有312个单体被定义为包含肽的亚结构,并根据其天然类似物(20个天然氨基酸和未知(X))将其分为21类。通过参考PubChem中对每种单体的描述和ChEMBL的单体库来建立天然类似物。在这21个类别中,F(38)和G(38)类包含的单体最多,另外两个类别的单体超过20个:A(25)和S(26)。我们通过天然类似物提供了单体的浏览功能(图7(a))。导航到相应的子集列表页面后,简要表显示了单体的基本信息,包括符号、2D结构图像、单体类型(主链或末端)、天然类似物、连接点(R1–R3)、分子量和LogP(图7(B))。接下来,如图8(A)所示,我们包含了单体的PubChem CID,并在单体详细信息页面中创建了一个指向PubChem的链接。用户可以从PubChem获得更多关于单体的信息。此外,单体详细页面列出了含有每种单体的肽的数量分布以及这些肽的膜渗透性分布(图8(B))。此功能将帮助用户进行单体水平分析。

图7 单体(A)浏览和(B)列表

图8 单体(A)信息和(B)统计

总结

本研究报告了作者开发的CycPeptMPDB,这是一个具有网络界面的环肽膜渗透性测量的综合数据库,除了提供肽的成分信息外,还使用HELM标记法创建了环肽药物发现所必需的序列表示,并构建了包含环肽的单体。结合了浏览和搜索功能,以促进目标肽的快速获取。CycPeptMPDB提供了一些额外的功能,如在线数据可视化、数据分析和下载,使其成为支持膜渗透性研究的有用平台。CycPeptMPDB在线分析平台的未来改进将包括改进的用户友好界面和更集成的功能。接下来,作者打算开发一个预测模型,解释环肽膜渗透的特定机制,例如“变色龙”特性。届时,可能不仅需要从单一环境中生成构象异构体,还需要从水和膜模拟环境(如氯仿)中生成构象异形体。

参考资料:

[1] Li et al. CycPeptMPDB: A Comprehensive Database of Membrane Permeability of Cyclic Peptides. JCIM. 2023

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Nat.Commun | 应用AlphaFold2进行多肽-蛋白质对接
【结构预测】AI蛋白结构预测在药物发现领域中的影响与挑战
《自然》发现新冠病毒刺突蛋白在完整病毒颗粒上的结构和分布
两篇Science!清华和武大分别发表重要研究成果
【分子生物学】生物大分子的自我组装
这大概是我最想推荐的蛋白结构预测网站了:Phyre2
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服