打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
著名学者《PNAS》首次开创了解码基因表达的技术方法

这种方法采用强大的算法,以近乎完美的准确度识别可表达的基因

近年来遗传学迅猛发展,许多科学家们希望能借此找到一种清晰,快速的方法进行基因组序列扫描,区分各种可以表达的基因,和不能表达的基因的方法。基因表达是基因编码信息,用于产生关键产物(如蛋白质)的过程。

然而令人惊讶的是,迄今为止这还只是一个希望。不过加州大学圣地亚哥分校的生物学家开发出第一个基于机器学习鉴别基因表达的系统。由于缺乏这种方法,新方法被认为是生物学家的一种遗传学“Rosetta Stone”(罗塞塔石碑,是一块制作于公元前196年的大理石石碑,由于这块石碑同时刻有同一段文字的三种不同语言版本,使得近代的考古学家得以有机会对照各语言版本的内容,生物通注)。

这一研究成果公布在8月12日PNAS杂志上,由加州大学圣地亚哥分校生物科学系教授Steve Briggs领导完成,Briggs作为美国科学院院士,在分子生物学领域建树颇多,成果斐然。


Steve Briggs

对于这项研究,他表示“这篇论文提出了区分是否可以表达的基因的第一种方法,这是所有生物学的基础。无论是药物发现还是植物育种或进化,都需要生物学的基础研究。

生物学家之前已经通过实验观察和科学文献参考将基因表达分类。但是基因组学领域缺乏一种形式化的过程来揭示这种信息,称为“可表达基因集”,即EGS(expressible gene set),它包含所有可能表达的蛋白质编码基因。

“在生物学方面,没有办法做到这一点,”Briggs说,“过去我们只有制作目录的经验方法,还没有基于其分子特征对基因进行分类的科学标准。

这一新方法利用机器学习,通过算法和其他过程来分析数据,并基于包含特定的,详细的分子特征的近30,000个基因的数据集,对数据进行了高级算法训练,让它“学会”将基因表达分类,完成精确度高达99.4%。

其中的关键是在于将染色质生物学和确定基因表达的分子特征结合在一起,前者有助于调节细胞内的DNA包装。将这些与数学机器学习相结合,确定物种范围的转录基因组,或称为“表达组”,然后创建可表达基因的图谱。而且这种方法也可用于理解沉默某些基因的进化机制。

Briggs现在正在将这种方法应用于高粱,这是一种重要的食物和饲料谷物,他认为新方法就像一个单词解码器,“就像是Rosetta Stone”。

“基因组序列就像一本书,这些词是基因。直到现在,我们还不知道哪些DNA序列是真正的单词,哪些只是组合词语。通过删除非单词的部分,我们现在可以更准确地阅读这本书。


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
《Science》给出的125个科学问题(17):生物大数据背后的图像
100多年来二十个无法回答的科学疑问
生命体中的“暗物质”大揭秘
噬菌体生物学:一个世纪的历史回顾
25大未解科学之谜
大多数人都不知道,人类基因组正在衰败
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服