打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
生信编程直播第9题-根据指定染色体及坐标得到参考碱基

还不知道怎么回事的先查看历史题目:

生信编程直播第0题-生信编程很简单!

生物信息学技能面试题(第1题)-人类基因组的外显子区域到底有多长

生物信息学技能面试题(第2题)-探索人类基因组序列

生物信息学技能面试题(第3题)-探索人类基因组注释文件

生物信息学技能面试题(第4题)-多个同样的行列式文件合并起来

生物信息学技能面试题(第5题)-根据GTF画基因的多个转录本结构

生物信息学技能面试题(第6题)-下载最新版的KEGG信息,并且解析好

生信编程直播第七题:写超几何分布检验!

生信编程直播第八题:ID转换大全

现在开始第9题咯:

参考基因组,假设是hg19吧!
指定染色体及坐标,假设是"chr5","8397384" 
那么如何写程序得到 这个坐标以及它上下一个碱基呢?

print &get_context("chr5","8397384");

可以看到我写的这个函数,做到了取第五条染色体的8397384位点的上下一个碱基,在UCSC里面也可以验证一下。

http://genome.ucsc.edu/cgi-bin/das/hg19/dna?segment=chr5:8397383,8397385

当然,要做出批量的!

因为我们是根据vcf文件来做这件事情。

而VCF文件里面记录了所有的变异位点的坐标,我们需要知道上下文来做mutation signature的分析。

我把这个需求拆解开来,希望对你们有帮助!

当然,考虑到很多人的机器hold不住hg19这个大基因组,可以用一个小的fasta文件作为例子:

比如,基因组是:

>chr_1
ATCGTCGaaAATGAANccNNttGTA
AGGTCTNAAccAAttGggG
>chr_2
ATCGAATGATCGANNNGccTA
AGGTCTNAAAAGG
>chr_3
ATCGTCGANNNGTAATggGA
AGGTCTNAAAAGG
>chr_4
ATCGTCaaaGANNAATGANGgggTA

指定坐标是 3号染色体的第6个碱基,用程序算,是什么碱基,不允许用肉眼看!

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
人类参考基因组知识点(更新ing~)
BED文件以及如何正确的从UCSC下载BED文件
一起来了解一下基因区间RangeData
详解参考基因组的下载方式
重磅里程碑|人类基因组完成图发布
由于染色体外随机序列导致的冤假错案
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服