CD-CODE是一个以凝聚物为中心的数据库,综合了来自文献和其它相分离数据库的信息,主要由三部分组成:(1)参与相分离的蛋白质信息;(2)生物分子凝聚物、体外合成的凝聚物及其蛋白质组成;(3)相分离相关的科学术语百科。CD-CODE通过分析蛋白质与凝聚物之间的关系,可以方便地将凝聚物中的蛋白分为Member、Driver和Marker,为每个凝聚物-蛋白质关系提供实验证据、评分和参考文献。此外,CD-CODE可以和UniProt,Ensembl和Human Protein
Atlas交互使用;CD-CODE还可以展示相分离蛋白的序列属性,如无序程度打分和氨基酸组成,可以给出影响相分离能力的PTMs列表。截至目前,CD-CODE收录了来自49种不同生物的244种生物分子凝聚物以及375种体外合成的凝聚物及其关联的9861个蛋白质。
图6. 五种数据库收录的蛋白质条目数据量对比(截止2022年6月)[1]参考文献:[1]Rostam,
N. et al. CD-CODE: crowdsourcing
condensate database and encyclopedia. Nat
Methods, doi:10.1038/s41592-023-01831-0 (2023). [2] Meszaros, B. et al. PhaSePro: the database of proteins driving liquid-liquid
phase separation. Nucleic Acids Res 48, D360-D367, doi:10.1093/nar/gkz848
(2020). [3] Hou, C. et al. PhaSepDB in 2022: annotating phase separation-related
proteins with droplet states, co-phase separation partners and other
experimental information. Nucleic Acids
Res 51, D460-D465,
doi:10.1093/nar/gkac783 (2023). [4] Wang, X. et al. LLPSDB v2.0: an updated database of proteins undergoing
liquid-liquid phase separation in vitro. Bioinformatics38, 2010-2014,
doi:10.1093/bioinformatics/btac026 (2022). [5] Ning, W. et al. DrLLPS: a data resource of liquid-liquid phase separation
in eukaryotes. Nucleic Acids Res 48, D288-D295, doi:10.1093/nar/gkz1027
(2020).