NCBI使用方法介绍

一、Map viewer查找基因序列，RNA，启动子

下面以人的IL6（白细胞介素6）为例讲述一下具体的操作步骤

1、A. 打开Map viewer页面，网址为

在search的下拉菜单里选择物种，for后面填写你的目的基因。

2、B. 点击“GO”：

C. 在步骤二图示的右下角有一个Quick Filter,下面是让你选择的几个复选框，在Gene前面的

小方框里打勾，然后点击Filter：

说明一下：

1.1、染色体的红色区域即为你的目的基因所处位置。

1.2、下面参考序列给出了三个，是不同的部门做出来的，经我验证，序列有微小的差异，

但总体来说基本相同。尽管你分别点击后，序列代码、序列代码等有所差异，但碱基基本

一致，不影响大家研究分析序列。现在普遍采用的是最上面的那个序列，这一条是世界范

围的生物科学家用计算机合成的一个序列。我也推荐大家使用这个序列。

1.3、点击上述三条序列第一条序列（即reference）对应的"Genes seq"，出现新的页

面，

1.4、点击上图出现的“Download/View Sequence/Evidence ”，即下载查看序列等功

能，先对上面这张图做点简要的说明，在Sequence Format（序列输出格式）后面是一个

下拉式选择菜单，默认的为FASTA格式，还有一个是GenBank格式。我推荐大家选择

GenBnak格式，因为这个格式提供了很多该基因的信息，而FASTA格式只有基因序列。

1.5、在Sequence Format后选择GenBank，然后点击下面的Display，目的基因的相关信

息和序列就出现在眼前了。

在上述打开的网页中，你可以看到基因长度，基因序列，以及这个基因是如何被报道出来的

等各种信息。

你会看到: mRNA join(3598..3678,3841..4031,5090..5203,5911..6057, 7803..8394) 这代

表了从基因的3598位开始就是转录区了，即我们常说的mRNA片断，由于内含子的存在，

所以mRNA在DNA序列上分成了几段。

CDS join(3660..3678,3841..4031,5090..5203,5911..6057, 7803..7970)

CDS代表编码序列，即蛋白编码区是从3660开始的（ATG），由于剪接作用所以CDS区也是

不连续的。

说到这里，可能很多朋友都已经明白了promoter即启动子区域在哪里了。但我还是再唠叨

几句：转录起始位点前面是基因的调控区，启动子区没有明显的位置定义，大家也只是猜测

它的大体位置，如果你要研究promoter区的话，建议你选择转录起始位点前的2000个碱基

进行研究，一般默认的是这样。当然你如果觉得长度太长不好研究的话，也可以只研究-

1000到0这一千个碱基，因为一般情况下，启动子区的变异都在这个区域内。

这样大家就可以找到自己的目的基因序列和启动子了，这种方法可能使用的人不是很多，

但我个人比较喜欢，因为它最大的优点是可以找到启动子区域和其他调控区域。希望大家可

以发帖交流，让我们把NCBI用的更好！

二、如何查找连续的mRNA、cDNA、蛋白序列

1、进入NCBI主页

在search后面选择Gene，在for后面填写需要查找的基因的名字。

点击“Go”，

出现了很多基因序列，在每个序列的右边还有“Order cDNA clone” 的链接，这些序列中

有些序列是跟你的目的基因同名的，有些是别名（Other Aliases）与你的目的基因一致，根

据每个序列的介绍认真选择你的目的基因。上图中我需要的IL6是标号为2的序列。

2.1、查找cDNA序列

2.1.1、点击Order cDNA clone, 出现目的页面如图所示：

2.1.2、点击Clone Sequence后面的链接即可得到cDNA序列。点击后如图所示（只抓取其

中一部分）：

2.2、查找mRNA、蛋白序列

回到步骤1点击“Go”之后出现的页面，点击目的基因的名字，出现以下页面(只抓取相关

部分)：

页面的下半部分，即可以获取mRNA和蛋白序列的部分：

找到“NCBI Reference Sequences (RefSeq)”，它分为几个板块，第一个“mRNA

and ProteinMoon”区可以让我们找到连续的编码mRNA序列和蛋白序列。在mRNA

and ProteinMoon下面有两个序列代码（中间划有一个箭头），这代表了mRNA序列和

蛋白序列。分别点击就可以得到相应的序列页面。点击后如图所示，mRNA序列：

蛋白序列如下：

NCBI Reference Sequences (RefSeq)的第二个板块是Reference assembly，它下面显示

的是Genomic ，点击Genomic下面Reference assembly对应的Genbank或FASTA即可出

现编码的DNA序列（注意：只是编码序列，其中包括内含子，但一般没有5'非编码区）。

这一步就不做贴图演示了吧。

这样我们就可以找到基因的cDNA序列、连续的编码mRNA序列、蛋白序列以及含有内含子

的编码DNA序列了。相信这些操作对很多战友还是有用的。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。