打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
NCBI的检索

NCBI包括五个部分,第一部分是欢迎进入NCBI,包括NCBI的最新信息、计划与活动、读者来信、服务地址和用户评论等。第二部分是基因序列数据库(GenBank),包括基因库概述、检索与投稿。第三部分是数据库服务,包括免费的PubMed检索、Entrez检索、BLAST序列族性检索、电子邮件服务(详见本章第四节)、匿名FTP服务。第四部分是NCBI的其它资源

GenBank的检索

在NCBI主页的第二部分点击“Searching GenBank”,即可进入GenBank的检索屏幕。NCBI提供了五种检索,即Entrez浏览检索、BLAST序列类似性检索、dbEST检索、dbSTS检索和文本检索(Text Searching)。

一、Entrez浏览检索

1.Entrez检索的数据库及其检索信息

Entrez浏览器(Entrez Browser)可以检索以下与NCBI链接的基因序列数据库的分子生物数据和书目文献资料。

(1) GenBank、EMBL、DDBJ中的DNA序列;

(2) SWISS-PROT、PIR、PRF、PDB中的蛋白质序列以及DNA序列数据库中翻译的蛋白质序列;

(3) 基因和染色体图像数据;

(4) PDB以及收入NCBI分子模型数据库(MMDB)的蛋白质三维结构;

(5) 通过PubMed检索Medline和PreMedline数据库。

2.Entrez检索功能

Entrez提供了以下三种检索功能。

(1)自由词检索功能

用户可以通过文本词、关键词、截词、期刊名或文献的作者检索Entrez数据库。截词用*号,期刊名必须用Medline刊名缩写,作者姓名必须是姓在前,名在后,用首字母缩写。

(2)索引词表(List Terms)检索功能

索引词表检索是当你键入检索词,Entrez在你选定的字段中显示从该检索词开始的一个索引词表窗口,这时,你可以选择一个或几个词进行检索,这对单词拼写不准确时非常有用。例如:在输入框中键入“P53”,选择文本字段(Text Words)和索引词表(List Terms)检索功能,再点击“Search”,这时返回一个以“P53”开始的索引词表窗口,浏览选择一个或几个索引词,点击“Search”,Entrez将返回检索结果。

(3)自动检索功能

自动检索功能就是Entrez浏览器根据用户输入的检索式自动进行检索,返回当前检索式检出的文献数,如满意,可进一步取得检索结果,如不满意,则可对当前检索式进行修改,直到用户满意为此。例如在输入框键入“P53”,选择所有字段和自动检索功能,点击“Search”,Entrez返回一个Web页,包括当前检出文献数、加词检索和修改当前检索三个部分。如果你对检出文献数不满意(过多或过少),可以在加词检索部分增加更专指的检索词,以提高查准率,也可以在修改当前检索部分选择某一布尔算符(AND、OR、NOT、ANDNOT),对当前的检索策略进行修改,直到你满意为止。

对于检出文献,用户可以选择浏览格式进行浏览,也可以打印或存盘。

3 Entrez检索规则

(1)Entrez支持“*”号截词检索;

(2)Entrez对你键入的词可以进行逻辑识别。例如:键入“Lipman DJ Genomics”,Entrez将它识别为作者的姓名Lipman DJ和自由词Genomics,并将提问式转换为“Lipman DJ”AND Genomics。对于Entrez不能识别的提问式,如 bac 1,必须加双引号,系统就会将它们作为一个词进行检索;

(3)Entrez支持复杂的布尔逻辑检索;

(4)Entrez支持限定字段检索;

字段标识符的全称如下:

WORD=Text Word, TITL=Title Word, MESH=Mesh Term, MAJR=MeSH Major Topic, AUTH=Author Name, JOUR=Journal Name, ECNO=EC/RN Number, GENE=Gene Name, DATE=Publication Year, PDAT=Publication/Creation Date, MDAT=Modification Date, PAGE=First Page, VOL=Volume, KYWD=Keyword, ORGN=Organism, ACCN=Accession Number, PROT=Protein Name, SUBS=Substance,PROP=Property, FKEY=Feature Key 和 PTYP=Publicaton Type

二、BLAST序列类似性检索

序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据库进行检索,找出与之相似的序列,从而评判新测定的序列是重复别人的工作,还是在前人的基础上有所创新,或是发现了新的序列。现在用于序列类似性检索的软件很多,下面主要介绍GenBank的序列类似性检索工具棗BLAST。

1. BLAST简介

BLAST是Basic Local Alignment Search Tool的英文缩写,意即碱基局部对准检索工具,是一种序列类似性检索工具。它采用统计学记分系统,能将真正配对的序列同随机产生的干扰序列区别开来;同时采用启发式算法系统,即采用的是局部对准算法(Local Alignment Algorithm),而不是全序列对准算法(Global Alignment Algorithm)。全序列对准算法是在检索结果中两个被比较序列所有片断均类似;而局部对准算法是找出两个被比较序列的“最类似”片断,并得出可能只包含两个序列的某个部分的对准结果。

在BLAST的基础上,NCBI又开发了BLAST 2.0、Gapped BLAST和PSI-BLAST。BLAST 2.0是一种新的BLAST检索工具,它对BLAST作了改进,运行速度更快,灵敏度更高,同时具有Gapped BLAST和PSI-BLAST两种软件的新功能。Gapped BLAST允许在对准的序列中引入空位(碱基缺失或插入),引入“空位”(Gaps)意味着在比较两个相关序列时不会出现中断(Break)现象。这些空位对准的记分系统更能反映相关序列的类似程度。PSI-BLAST的全称是Position-Specific Iterated BLAST,意即特殊位置重复BLAST,它提供了自动、易用的概貌(Profile)检索,是查找序列同源(Sequence Homologues)的有效方法。目前,PSI-BLAST仅用于比较蛋白质查询序列与蛋白质数据库中的序列的类似程度。

2. 使用NCBI BLAST服务的四种基本方法

(1)经由WWW使用的BLAST

使用BLAST最容易的方法是WWW方式。在用户的浏览器中键入NCBI的URL地址:http//www.ncbi.nlm.nih.gov,进入NBCI主页,然后链接到BLAST主页。BLAST主页提供了好几种BLAST检索软件,包括BLAST、BLAST 2.0、Gapped BLAST和PSI-BLAST等,其中BLAST和BLAST 2.0提供了基本检索和高级检索两种模式。

(2)网络版的BLAST

BLAST2是标准的网络BLAST客户软件,它可以通过NCBI匿名的FTP服务器(ftp://ncbi.nlm.nih.gov)下的/blast/network/blast2/获取。

PowerBlast是用于大规模分析基因序列的网络BLAST客户应用软件,它可以通过NCBI匿名的FPT服务器(ftp://ncbi.nlm.nih.gov)下的/blast/network/blast2/powerBLAST/获取。

(3)独立运行的BLAST

BLAST 2.0可以在本地计算机上独立运行,也可以在自建的序列数据库中进行BLAST检索,还可以下载NCBI数据库中的记录。BLAST运行的软硬件环境为IRIX 6.2、Solaris 2.5、PEC OSF1(第四版)和Win32系统。可独立运行的BLAST 2.0在NCBI匿名的FTP服务器(ftp://ncbi.nlm.nih.gov)下的/blast/executables/获取。

(4) 电子邮件的BLAST

通过电子邮件对基因库进行BLAST检索(详见本章第四节二)。

3. BLAST的检索方法

(1) BLAST数据库的选择

BLAST检索的数据库包括两大类:一类是肽序列数据库,另一类是核酸序列数据库。

① 肽序列数据库包括:

nr: 所有无冗余基因库CDS转录产物、PDB、SwissProt以及PIR序列

month: 最近30天注释的所有新增的或修订的基因库CDS转录产物、PDB、SwissProt和PIR序列。

SwissProt: SwissProt蛋白质序列数据库中最新的主要注释(无更新)序列。

yeast: Yeast(Saccharomyces Cerevisiae)蛋白质序列。

E.coli: E.coli基因CDS转录产物。

pdb: 从Brookhaven蛋白质序列数据和三维结构衍生出来的序列。

Kabat [Kabatpro]: 免疫学上感兴趣的蛋白质序列Kabat数据库。

alu: 从重复序列数据库(REPBASE)选取的Alu重复序列,适用于过滤查询序列中Alu重复序列。通过匿名FTP从ncbi.nlm.nih.gov下的/pub/jmc/alu目录中获取。

② 核酸序列数据库包括:

nr: 所有无冗余的GenBank+EMBL+DDBJ+PDB序列;但不包括EST、STS、GSS或HTGS序列。

month: 最近30天注释的新增加的或修订的GenBank+EMBL+DDBJ+PDB序列

dbEST: GenBank+EMBL+DDBJ+PDB中EST部分的无冗余数据。

dbSTS: GenBank+EMBL+DDBJ+PDB中STS部分的无冗余数据。

htgs: 高允许能力(High Throughput)基因序列。

yeast: yeast(Saccharomyces Cerevisiae)基因核酸序列。

E.coli: 大肠杆菌(E.coli)基因核酸序列。

pdb: 蛋白质数据库。

Kabat[Kabatnuc]: 免疫学上感兴趣的核酸序列Kabat数据库。

Vector: GenBank载体数据库。

mito: 线粒体序列数据库。

alu: 从重复序列数据库(REPBASE)选取的Alu重复序列,适用于过滤查询序列中Alu重复序列。通过匿名FTP从ncbi.nlm.nih.gov下的/pub/jmc/alu目录中获取。

epd: 真核生物的启动子数据库。

gss: 基因搜寻序列,包括单递基因数据、外切核酸酶捕获序列和Alu PCR序列。

(2) BLAST程序的选择

BLAST是一种碱基局部对准检索工具,实质上是一种序列类似性检索工具,它运行blastp、blastn、blastx、tblastn、tblastx等五种程序的启发式检索算法;这五种程序是利用改进的Karlin和Altschul的统计学方法来描述检索结果的显著性。这些程序不支持主题形式检索,也就是不支持主题词、自由词、文本词等检索。

下面介绍五种程序的基本功能。

blastp:将待查询的蛋白质序列及其互补序列一起对蛋白质序列数据库进行查询;

blastn:将待查询的核酸序列及其互补序列一起对核酸序列数据库进行查询;

blastx:先将待查询的核酸序列按六种可读框架(逐个向前三个碱基和逐个向后三个碱基读码)翻译成蛋白质序列,然后将翻译结果对蛋白质序列数据库进行查询;

tblastn:先将核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后将待查询的蛋白质序列及其互补序列对其翻译结果进行查询;

 tblastx:先将待查询的核酸序列和核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后再将两种翻译结果从蛋白质水平进行查询。

因此,根据你查询的目的和序列选择合适的blast程序,有助于获得满意的检索结果。

(3) BLAST参数的设置

BLAST提供了许多参数可限制你的检索,以达到满意的结果。对于BLAST基本检索,系统预设的参数默认值即可满足需要,不需要你重新设定。但是对于BLAST高级检索,可开窗选择如下几种参数,也可在输入框增加其它参数。

①直方图(Histogram):显示每次检索评分的直方图。有yes、no两种选择,默认值为yes

②描述(Descriptions):限定描述性类似序列的条数。有default、0、10、50、100、250、500等七种选择,默认值为100。

③对准(Alignments):限定检出高积分片断配对(High-scoring Segment Pairs,HSPs)的数据库序列的条数,有default、0、10、50、100、250、500等七种选择,默认值为50。如果检索到的数据库序列超出设定值,BLAST仅显示最具统计学意义的配对序列,直到设定值。

④期望值(Expect,E值):它是期望数据库中具有某一统计学意义配对序列的值。有default、0.001、0.01、0.1、1、10、100、1000等选择值,默认值为10,一般地,期望值越低,限制越严格,甚至会导致无随机配对序列。

⑤Cutoff:设定高积分片断配对(HSPs)的Cutoff值。有default、60、70、80、90、100、110等七种选择值,其默认值一般通过期望值来计算得出。一般地,Cutoff值越高,其限制就越严格,甚至会导致无随机配对序列。

⑥矩阵(Matrix):为BLAST、BLASTX、TBLASTN和TBLASTX程序指定一个交替记分矩阵。其默认值为BLOSUM62,有PAM40、PAM120、PAM250和IDENTITY等四种有效选择。但交替记分矩阵对BLASTN不起作用。

⑦股(Strand):把BLASTN检索限定在数据库序列的股的首端或末端;或者把BLASTN、BLASTX、TBLASTX检索限定在查询序列股的首端或末端的机读部分。

⑧过滤器(Filter):过滤器可以过滤查询序列中低成分复杂性(Low Compositional Complexity)片断。它只过虑查询序列及其转录产物中的低成分复杂性片断,不能过虑数据库序列中的低成分复杂性片断。用户可以在BLAST和BLAST 2.0的高级检索中选择相应的过滤程序以消除对检索结果的干扰,如不用过滤功能则选择“NONE”。但是在BLAST和BLAST 2.0基本检索中,因为,系统对于不同的BLAST程序设定了默认值,例如对于blastn程序,其默认值为“DUST”,对于其他程序,默认值为“SEG”,所以用户只须选择用不用过虑功能,而不必设定过虑程序。

值得注意的是,过滤器中的SEG和XUN程序不能过滤SWISS-PROT数据库中的低复杂性片断,因此,虽然过滤器可以应用于SWISS-PROT数据库序列,但并未起作用。

⑨NCBI-GI:在输出结果中除存取号和位点名称(Locus Name)外,还可以选择NCBI-GI标识号。有yes 和no两种选择,其默认值为no。

(4) BLAST检索结果

BLAST程序用大致相同的格式显示检索结果,它包括四个部分:一是程序的介绍;二是一系列配对数据库序列的描述,从积分高到低排列,一行描述一条序列;三是实际的序列对准;四是检索中设定的参数及其它统计数据。

 三、dbEST检索

dbEST是基因库的一部分,主要收录核酸序列数据库的表达序列标志以及“单递”(Single Pass) cDNA序列等信息。

dbEST使用的提问式是IRX格式,其通用的IRX格式是:Term[Field List],这里的[Field List]可以是一个或几个用空格分隔的字段标识符。“Term”可以是词或词组。

 dbEST中的字段:

 DBID EST登记号 LIBX 馆藏描述

 IDS EST名称或GenBank存取号,GI号 SUB 发送者信息

 CLIN 克隆信息或来源信息 CIT 引文信息

 COM 评论 MAP 图谱数据

 LIB 馆藏名称及机构 NBR 同源(相邻)信息

在输入框按照IRX格式输入一个提问式,点击“Submit Query”,系统进行检索并返回检索结果。

 四、dbSTS检索

dbSTS是NCBI一种新的数据库,主要收录基因标志序列或序列标志位点和图谱数据。虽然dbSTS序列将并入GenBank,但是dbSTS中的注释更具综合性,包括有关实验者、实验条件和基因图谱定位等更为详细的信息。

dbSTS检索方法和步骤与dbEST相同。

五、文本检索(Text Searching)

NCBI提供文本检索服务。可通过两种形式进行检索,一种是表格式的客户机检索,另一种是非表格式的客户机检索。

(1)基于表格式的客户机检索(Search with Forms-Based Clients)

它可以检索GenBank以及GenBank Updates最近注释的新增的和变更的记录。

查询表格有四个输入框,每个输入框前面冠有“FR”(Field Restriction 字段限定),后面带有布尔算符(AND,OR,BUTNOT),布尔算符描述相邻两个输入框中词或词组的逻辑匹配。在第四个输入框的下面左边有一个“Run Query”按钮,右边有一个“Clear Input”按钮,它可清除当前的输入,回到初始的状态,在上述两个按钮之间,有一个下拉式菜单按钮,可开窗选择检索后每页返回的记录数。

在按钮行的下面,有数据库选择区,允许你选择当前检索的GenBank数据库,有三种选择:GenBank、GenBank Updates和Both。

在数据库选择区的下面有可供选择的限定字段,如Locus、Definition、Accession No.、NID、Keywords、Source、Reference、Comment和Features等,可选择其中的字段限定你的检索式。

(2)非表格式的客户机检索

它可以检索GenBank、GenBank Updates、Swiss-Prot和PIR等数据库。这些数据库均带有下划线,点击某一数据库,则可进入该数据库的文本检索界面。在输入框中,输入检索词,词组或布尔表达式,然后点击发送检索按钮,即可检索到所需要的文献。

PubMed

PubMed医学文献检索服务系统,其检索内容包含MedLine,PreMedline(不含Mesh检索主题词)医学文献数据库及其他电子出版文献。PubMed覆盖了全世界70多个国家4300多种主要生物医学期刊的摘要和部分全文。年收编量为30多万条,以题录和文摘形式进行报道。其中75%是英文文献,70~80%文献含有英文文摘。1973年,MEDLINE开始收编我国期刊,现收编中文期刊40多种。文献题录和原文发表的时差一般为1~3个月。其覆盖的时间段也非常长,早的可以追溯到20世纪60年代。

页面上方的检索框和功能键:一框五键"(检索框,Limit键,Preview/Index键,History键,Clipboard键和Details键)。

主界面的左侧框:

·Journal Browser期刊浏览

·MeSh Browser可以用它来分层流览MeSH表

·Single Citation Matcher输入期刊的信息可以找到某单篇的文献或整个期刊的内容。

·Batch Citution Matcher用一种特定的形式输入期刊的信息一次搜索多篇文献。

·Clinical Queries这一部分为临床医生设置,通过过滤的方式将搜索的文献固定在4个范围:治疗、诊断、病原学与预后。

·Old PubMed(使用旧式的PubMed查询方式)

Related Resources:

·Order Documents可以使用户在当地得到文献的全文, 但这是要收费的,至于如何免费获得文献全文,我将在后面的有关章节中详述。

·Grateful Med是对另一个NLM基于网络的查询系统的链接。Grateful Med也提供MEDLINE的接入,并且还有一些其他的数据库如AIDSLINE、HISTLINE等等。

·ConsumerHealth提供与MEDLINEplus的链接,MEDLINEplus是与消费者健康信息相关的国家医学图书馆的网络节点。

·ClinicalAlerts此部分的目的是加快NIH资助的临床研究成果的发布。

PUBMED 简单检索技巧

明确要检索的关键概念及词语,即关键字;考虑到关键字的类似说法,即有可能出现的同义词;

通过限定DATES,STUDY GROUP等,精炼检索范围;

词语(主题)检索 这时我们在PubMed主页的检索框中键入的是英文单词或短语(大写或小写均可)。然后回车或点击"Go",PubMed即使用其词汇自动转换功能进行检索,并将检索结果直接显示在主页下方。

词与词间可用AND、OR或NOT逻辑进行连词检索。

对PubMed不能识别检索的词组,需加引号强调,如键入:“Insight II”

检索时可在词尾加“*”号检索所有具有同样词头的词。如键入:biolog* 可查得biology或biological等词。

著者检索:"著者姓 空格 名字首字母缩写",例如smith ja。

刊名检索:刊名全称或MEDLINE形式的简称、ISSN号。

日期或日期范围检索 可以在检索框中键入日期或日期范围,然后回车或点击Go,系统会按日期段检索,并将符合条件的记录予以显示。日期的录入格式为YYYY/MM/DD;如:1999/09/08也可以不录月份和日子,如:2000或1999/12。

检索期刊子集(辑) 检索的格式为:检索词AND jsubseta,如:neoplasm AND jsubseta。可供检索的期刊子库有3种:Abridged Index Medicus(有120种重要核心期刊)、Dental和Nursing。分别使用jsubseta,jsubsetd,jsubsetn进行限定。

检索带文摘的记录 检索的格式为:检索词AND has abstract, 如:liver cancer AND has abstract。要注意的是在1975年前出版的文章,其MEDLINE记录中没有文摘。

布尔逻辑检索:PubMed系统允许使用布尔逻辑检索,只要在检索框中键入布尔逻辑运算符(AND,OR或NOT)。

处理检索结果:

符合检索要求的项目以SUMMARY(简要格式)显示出来的,就是列出作者,文章题目,以及文章来源的一些信息。

在DISPLAY键后还可以选择别的显示格式,点击DISPLAY键后,系统按所选格式全部检索结果。

如果只需要显示其中一部分记录,则需点击该记录左边的查询框,使标记后,再点击Display键;如果只需显示一条记录,则可直接点击该记录中的作者姓名超链接,系统会自动显示该记录的文摘格式。

还有一点,系统所设定的默认值为每页显示20条选项,这点可以在SHOW后的下拉菜单处选择。

如果选中所感兴趣的内容,即可进行保存,打印等等操作。PubMed系统允许最多可保存5000条记录。要保存全部检索结果时,打开Summary下拉菜单选择其中一种格式,然后点击Save键;要保存特定记录时,点击记录左边的选择框予以标记后,再点击Save键。

使用浏览器的打印功能,即可把感兴趣的内容打印出来。系统允许每页最多显示500条记录。如果想打印成文本格式,请先点击Text键,然后再打印。

PUBMED 高级检索技巧

即Limits按钮,Preview/Index按钮,History按钮,Clipboard按钮,及Details按钮。

1. Limits按钮

2.Preview/Index按钮

在按下Preview/Index按钮之后,我们可以进行的设定有:

在显示条目之前显示所查到的文献数。

随时通过增加查询单词来修改查询方案。

在特定的搜索域中向方案里加入查询词。

从Index中查看并选择词语来修改查询方案。

在你修改查询时查看方案。

Preview(预览) 使用此功能可以在显示条目之前显示所查到的文献数。使用时,在输入框中键入搜索词,然后单击Preview,PubMed返回的信息是条目的数量。

Index(索引) 使用此功能,可以从特定域中选择以索引的单词,并把他们加入查询方案之中;可以查看某一个特定搜索域中词语列表;也可以使用布尔运算符来建立一个查询方案。

3.History按钮

History(历史记录):作为PUBMED的“四大金刚”之一,至少有50%的人忽略了它的好处。

历史记录中保存的是你所有的查询方案与查询结果,只有当你运行了一次查询之后,History中才有内容。History屏幕将会显示:你的查询方案、查询时间、查询到的文献数量。Preview显示的是历史记录中最近的三条记录,而使用History可以看到最近100次的查询结果。一旦查询数量超过100,PubMed会将最早的查询除去,加进最新的一次查询。如果两次查询内容相同,PubMed会将头一次的去除。此外,如果你打开的PubMed(或者Entrez提供的其他数据库)有一个小时都没有任何检索动作,系统也会自动清空历史。

显而易见的是,通过History,我们可以对本次检索过程一目了然,你只要点击每个条目后面的Results,就可以直接看到该条目的检索结果。更重要的是,你可以根据History所提供的信息,决定如何进一步调整检索策略,以便得到尽可能满意的结果。以上图为例,你发现在9:23分的那次检索中,用chicken, pox,vaccine为关键字,Limits中设置为英语和综述,得到了113条结果。但你可能发现其实你的研究主要以儿童为对象,需要进一步对此加以限制,那么你该怎么办呢?其实在History中非常简单,只需在检索框里输入那次检索对应的序列号#3,AND child。这就表示其他检索条件不变,仅在原来基础上增加了一个关键字child。这样是不是很方便呢?同样,如果你希望把某两次检索条件合并去重新检索(如#2和#6),只要输入#2 AND #6即可。

 需要特别强调的一点是,如果你发现你的系统不能使用History,那么很可能是因为你的浏览器设置成Disable Cookies。遇到这种情况,只要到浏览器的功能设置界面中取消这一限制即可。

(注意:在HISTORY中输入检索式后按回车的效果与按PREVIEW按钮是一样的,即仅显示检索结果有多少篇,但按GO按钮之后就会跳出HISTORY进入题名或文摘界面,再进HISTORY时就需切换一下,有点麻烦)

4.Clipboard按钮

剪贴板可以帮助你保存或查看在一个或多个查询中选择的条目,然后就可以打印、保存、订购剪切板中的内容了。将条目左边的复选框选中,单击"Add to clipboard"就可以将其加入剪切板中。当点击Clear History可以将History中的所有内容清除。

剪切板中最大的储存数是500条。而放在剪切板中的内容如果在一小时内没有任何操作,将会自动消失。

点击Features Bar(特征条)上的Clipboard则可以查看剪切板中的内容,如果要删除剪切板中的某些条目,先将其左面的复选框选中,然后点击Remove from clipboard按钮;要想清空剪切板,不选任何条目,单击Remove from clipboard按钮。

如果要保存剪切板中的内容,首先选择一种显示方式,选中你想要的条目(如果想保存所有的条目,则哪个也不选),点击Save按钮即可。

5.Details按钮

Details是用于帮助你查看PubMed的检索策略。即在提问框中键入的检索词被PubMed自动地转换成了那些词,并使用了什么样的检索规则和检索语法。此外,使用Details键可以对检索策略进行编辑,然后再一次检索。在PubMed Query框内显示的是PubMed实际使用的检索策略和语法。该框下有四个区域:Result区显示检索结果的记录总数,点击这个数字,可回到检索结果显示屏;Translation区显示检索词转换的详细情况;Database区显示检索的数据库;User Query区显示用户键入的检索词或检索式。

要对检索策略进行编辑可直接点击PubMed Query框中的检索策略,将其增加、删除或修改后点击Search键。

除了以上五个主要功能键以外,利用PubMed提供的其他一些功能,如MeSH等,也可以在很大一部分程度上提高我们的检索效率。在以后的若干章里,我们将会以详尽的笔墨来系统的剖析这些功能用法。

显示检索文献 (Retrieving Documents)

当检索结果的文献数目较少,且能满足需要时,按“Retrieve(检索)”按钮即显示检索到的文献内容列表,包括文献的标题(title),作者(author)及出版杂志、页码及日期(年),这个列表称为文献摘引列表(Document Summary Page)。

可根据需要显示详细内容,每条文献均有好几种显示格式:

①Citation report(引录格式)包含引录杂志,文章标题,作者联系地址,摘要,MeSh词,化学物质规范名,以及MedLine和PubMed特定标识号。

②Abstract report(摘要格式)包含引录杂志,标题,作者,地址或联系处以及摘要。

③MEDLINE report(MEDLINE经典格式)可用来下载并收入目录型数据库(bibliographic database)。

④ASN.1 report (ASN.1格式) 指文献整个的结构格式,显示相关蛋白质或核苷酸的相关文献。

在某些文献还能连接到提供全文的杂志。

查询结果的显示选择

查询结果的显示选择框(Display)中有8种显示方式可供选择,可按各自需要获取信息。

引录格式(Citation report)

摘要格式(Abstract report)

MEDLINE.格式(MEDLINE report)

ASN.1格式(ASN.1 report)

  MEDLINE网邻(MEDLINE Neighbors)

蛋白质数据库相关蛋白质(Protein links)

      核苷酸数据库相关基因(Nucleotide links)

相关基因组(Genome links)

 如在Protein links显示选择中能检索到相关蛋白质,还能进一步报告这些相关蛋白质的详细信息:

      基因推导的蛋白质序列(GenPept report)

      MEDLINE相关文献(MEDLINE links)

      类邻蛋白质(Protein neighbors)

      FASTA格式(FASTA report)

    核苷酸数据库相关基因(Nucleotide links)

      ASN.1格式(ASN.1 report)

      结构数据库相关结构(Structure links)

      相关基因组(Genome links)

MeSH Browser (医学主题词浏览器)

MeSH是Medical Subject Headings的缩略词,即医学主题词,是用规范化的医学术语来描述生物医学概念。NIH的工作人员按MeSH词表规定,浏览生物医学期刊全文后标引出每篇文献中的MeSH主题词,其中论述文献中心的主题词称主要主题词(major topic headings),论述主题某一方面的内容的词称为副主题词。

可以从PubMed首页上点击PubMedServices下方的MeSHBrowser即可进入以下界面。

举例说明,如果你想要检索Neoplasms和bone的相关文献,首先在MeSH Browser的检索框内输入检索词Neoplasms,然后点击Browse按钮,系统显示其定义及在树状等级结构中的位置,如下图。

在这里,检索系统将显示详细的内容,可选择特定的副主题词,也可进行主要主题词或单个主题词检索,其选项如下:

(1)Add the search to the following subheadings:点击副主题词前的方框,表示选中该副主题词,可连续选择多个词,它们之间的逻辑关系为OR。

(2)Restrict Search to Major Topic headings only:若将检出结果限定在主要主题词(Major Topic Heading)则可提高查准率。

(3)Do Not Explode this term:系统要检索某一主题词时,会自动扩展检索(Explode),即将该主题词的下位词一并检出。如果只需检索单个主题词,可点击此按钮。

完成上述选项后,点击"Add"按钮,稍后在下一屏Current Query的方框中将显示所选的主题词。

然后,我们再在MeSH浏览器内输入bone, 按检索按钮,系统会告诉你bone不是一个主题词,但它会自动将其转换成主题词Bone and Bones, 同样,其下方也会显示出其定义及在树状等级结构中的位置。你一样可以选择Detailed display以便进行更为精细的选择,选择完成后,点击"Add"按钮,则进入下面的界面。这时,你只需点击PubMed Search按钮即开始检索,查询出用这两个主题词为关键字以及所选择的相应逻辑关系的文献检索结果。

总而言之,主题词检索法虽然稍嫌繁琐,但其检索结果的准确性高,遗漏率低,是最佳的检索方法,一旦熟练掌握,将使得我们的检索工作事半功倍。

链接与包厢服务

相关PubMed文章链接(Related PubMed Articles Link)

细心一点的用户一定早已注意到在检索结果中,每一个条目的右面都有一个Related Articles(相关文章)的链接。点击这个按钮,PubMed自动把数据库中的文献与该条目的标题、摘要和医学主题词进行比较,从而得出与该条目相关的文献条目,并且按照相关系数由高到低的顺序排序。

这其实是一个很有用的功能。 因为我们在检索时,自己输入的关键字常常可能并不十分贴切,导致无法得到所有相关的文献。常见的一种情况是,我们在几十个检索结果中浏览时,突然发现有某一篇才是我们真正想要的,这时,你不妨点击其右面的Related Articles键,让系统自动去对比,从而得到更多的相关文章。

但值得提醒的是,用RelatedArticles功能得到的文献并不受Limits键影响。比如,你开始检索时要求是英文文献,在当由Related Articles链接入相关文献时,则不受此限制,可能出现法文等其他语种的文献。那么,我们是否可以对此加以限制呢?其实,我们只要应用前面介绍过的History(历史)功能键就可以了。点击History,你会查到所有你检索过的条目,包括相关链接,标记为 "Link to PubMed from XX." ,你只要在检索框中输入其相应的序列号,再加上限制词即可。如#3 AND english [la];#14 AND 1996:1999 [dp]等等,就分别表示对#3的结果再次筛选,只要其中的英文文献;而#14只要从1996年到1999年之间的文献。

LinkOut 功能

LinkOut功能允许你在PubMed中检索时,也能链接入那些与PubMed建立联系的网站,如某篇文献所对应期刊的出版商,文献全文等等。有LinkOut的文献会在其条目或摘要的旁边显示一个出版商的图标,点击这个图标即可链接进入该出版商的网站。

Cubby(包厢服务)

从PubMed主页上面的点击Cubby,便进入了一个为你提供个性化服务的窗口。首先,你需要注册,获得一个用户名和密码。注册成功后,即可登录开始享受为你度身定制的包厢服务了。那么,利用Cubby到底能够为你提供那些服务呢?最主要的功能是,它可以存储你的检索信息。步骤如下:

1.运行或者预览你的检索。利用Cubby就可以存储你检索时所使用的关键字和限制方法。

2.点击Cubby,系统将显示你检索时的信息。

3.在Store in Cubby键钮上方的框内为本次检索命名,例如"Headaches in Preschool Children", "Dr. Johnson's Arthritis Update"等等。

4.点击Store in Cubby键钮。

保存,打印及其他

一旦找到所需要的文献,那么接下来的任务就是把检索结果保存或者打印出来,供我们日后仔细阅读。有不少人在浏览器中采用"全选",然后"另存为"的办法,但往往无法准确保存页面。其实PubMed早就为你考虑到了这一点。

Save(保存)

如果需要保存查询结果,先在Display下拉菜单中选择所需显示格式,选择所需保存的条目,然后点击"Save"按钮。而如果你没有选定任何一个条目,直接点击"Save"按钮,系统将保存所有检索得到的条目,但至多不超过10000条,一旦你想保存的超过这个书目的内容,PubMed将显示一条提示你修改查询的信息。

如果你需要保存多次检索的内容,建议你使用Clipboard(剪切板)功能。方法如下:

1.使用Add to Clipboard(添加到剪切板)功能把每次检索结果或所选择的条目加入剪切板。

2.Clipboard(剪切板)最多可包含500个条目。

3.当你把所需要的条目都添加至Clipboard后,在Display下拉菜单中选择格式。

4.点击Save。系统会提示你选择该文件的存放位置,并为该文件命名。我建议大家使用以TXT为后缀的文本文件格式,因为这样便于在不同的文本处理程序中阅读,如simpletext,word等。

Printing(打印)

Printing(打印)过程与Save(保存)很相似,在此不再赘述。你当然也可以先把查阅到的文献条目保存成文本文件,然后在文本处理程序中调整后再进行打印。这样或许可以节省你不少纸张。至此,我们已经介绍完了PubMed的主要检索技巧及其常用的功能键,利用这些技巧,你将如虎添翼,不再会为检索文献而烦恼。

Journal DataBase:

PUBMED不光提供了许多全文链接,而且其JournalDatabase功能也很有用。当你看到一篇参考文献而不知道期刊全名时,用JournalDatabase搜一下就可以了,然后把全名往GOOGLE里一贴,就可以找到这本期刊的网站了。JournalDatabase另一个重要功能是提供网上全文期刊目录,对于哪本杂志被哪些数据库收录、收录了哪几年的都有详细的说明。由于数据库之间存在交叉收录现象,所以知道这些信息是非常有用的。

NCBI其他资源的获取

在NCBI主页的第四部分,NCBI以超链的形式列出了与GenBank有关的其他资源,即肿瘤基因组解剖计划(Cancer Genome Anatomy Project,CGAP)、人类基因组基因图谱(Gene Map of the Human Genome)、人鼠特有基因序列集(Unique Human Gene Sequence Collection for Human and Mouse,UniGene)、Clusters of Orthologous Groups、孟德尔人类遗传学联机数据库(Online Medelian Inheritance in Man,OMIM)、表达序列标志数据库(Database of Expressed Sequence Tags,dbEST)、基因搜寻序列数据库(Database of Genome Survey Sequence,dbGSS)、序列标志位点数据库(Database of Sequence Tagged Sites,dbSTS)、电子PCR(Electronic PCR)、分子模型数据库(molecular Model Database,MMDB)、NCBI分类学(NCBI Taxonomy)、开放阅读框架查询器(Open Reading Frame Finder,ORF Finder)以及人/鼠同源图谱(Human/Mouse Homology Maps)。下面主要介绍肿瘤基因组解剖计划(CGAP)、人类基因组基因图谱、人鼠特有基因序列集(UniGene)、孟德尔人类遗传学联机数据库(OMIM)、分子模型数据库(MMDB)、NCBI分类学、开放阅读框架查询器(ORF Finder)以及人/鼠同源图谱。

一、肿瘤基因组解剖计划(CGAP)

众所周知,肿瘤的发生是单个细胞基因改变累积所致,这就为我们攻克癌症提供了一种新方法。通过测定癌症发生、发展各个阶段单个细胞的基因全貌,有助于癌症的预防、早期检测、诊断和最佳治疗方案的选择。挑取单个细胞,获取其分子标志,不仅有助于了解癌细胞与正常细胞的差异以及正常细胞向癌细胞转化的基因改变,而且有助于获得用于肿瘤检测的敏感而特异的分子标志,明确不同肿瘤之间的分子差异以及组织学差异,还有助于了解肿瘤发展的最初阶段对治疗的反应如肿瘤生长的速度、是否转移,应选用哪种治疗方案。

为此,国家癌症研究所(National Cancer Insititute,NCI)宣布建立肿瘤基因组解剖计划,其总体目标是获取正常的、癌前的和癌性细胞完整的分子特性。

肿瘤基因组解剖计划最初目标在于建立一个资源、信息和技术的基本框架,为最终后完成该计划奠定坚实的基础,这些目标是:

(1)建立肿瘤基因索引

对肿瘤细胞进行完整的分子分析的重要步骤之一是建立肿瘤基因索引,其目的在于建立肿瘤表达基因数据库,各研究机构能够获取其数据用于肿瘤分子分析。肿瘤基因索引不仅包括cDNAs,而且包括DNA序列及其基因定位。NCI已经选择乳腺癌、前列腺癌、肺癌、结肠癌、卵巢癌等,开始建立肿瘤基因索引。

肿瘤基因索引为肿瘤研究机构提供了一个综合性的资源,首次在分子解剖与肿瘤病理方面建立了广泛的联系。建立肿瘤基因组解剖计划主页的主要目的在于与学术机构进行交流,肿瘤研究人员可以获取与肿瘤基因组解剖计划有关的各个方面的信息。更为重要的是,通过该Web页可以获取DNA序列、浏览cDNA文库、基因表达分析、肿瘤基因研究的方法学、数字化差异显示(Digital Differential Display)以及如何获取肿瘤基因组解剖计划的试剂等信息,并且通过该主页可以直接链接到NCI癌症网络、NCI主页、NCBI主页以及NIH主页。

(2)支持新技术的开发与应用

为了充分利用cDNA文库及其序列资源,需要开发一些新的工具来分析和利用这些资源。为此,NCI建立了开发资金以支持新技术的开发,这些新技术包括DNA突变的检测方法、mRNA过度表达的评价方法、蛋白质表达或功能的测定方法。

为了促进肿瘤基因的研究,NCI将引进2个新程序,一是RFA for R01s和R21s,用于快速即时评价肿瘤样本的多分子改变,它将促进相关系统的开发,有利于样本的制备和分析、分子数据的收集、分析和检索;二是POLs程序,用于评价肿瘤样本的连续基因改变,该程序能扫描肿瘤细胞整个基因组的各种DNA改变。

二、人类基因组基因图谱

1986年3月,诺贝尔获得者、美国科学家杜柏克(Dulbecco)在《Science》上发表短文率先提出了“人类基因组计划”(Human Genome Project,HGP)。他指出:“癌症研究最重要的成果是使我们认识到癌症与其它疾病的发生都与基因直接或间接有关。因此,应该组织国家级和国际级计划来研究基因组”。1990年10月经美国国会批准正式启动HGP研究,随后法国、英国、意大利、德国、日本等也相继宣布各自的HGP研究。这项人类科学史上最伟大工程的目标是:通过以美国为主的全球性国际合作,在15年内(即到2005年为止)完成人类全部24条染色体上的基因组作图和DNA全长(3×109bp核苷酸)序列分析,进行基因的鉴定和功能分析,建立人类遗传信息数据库。

十年来,HGP取得了意想不到的巨大进展,具体来说,成果主要体现在“四张图”上:遗传图谱、物理图谱、转录图谱和序列图谱。①遗传图谱(Genetic Map),又称连锁图谱(Linkage Map),是通过计算连锁的遗传标志之间的重组频率来确定它们之间的相对距离,测定单位用厘摩(cM)表示,这对疾病基因的定位是至关重要的。1996年3月Nature发表了Dibc等完全以微卫星标志构建的人类最新遗传连锁图谱,该图由5264个微卫星(AC/TG)n标记组成,分辨率平均为1.6cM,这一工作提前完成了原定于1998年完成的分辨率为2-5cM的指标。目前,第三代多态性标记,即单个碱基多态性(Single Nucleotide Polymorphism,SNP)标记已大量使用,因其数量多(300多万),覆盖密度高,故在基因组多样性和基因定位研究中具有巨大潜力和优势。②物理图谱(Physical Map),有两种用于确定各遗传标志之间的物理距离,一种是以定位的DNA序列即序列标记位点(Sequencing Tagged Site,STS)作为路标,以DNA实际长度为图距的基因组图谱,目前已构成了分辨率为199kb的STS图谱,估计在今年将完成分辨率为100kb的高精密度图谱;另一种是由酵母人工染色体(Yeast Artificial Chromosome,YAC)和/或细菌人工染色体(Bacterial Artificial Chromosome,BAC)连续克隆重叠群组成的物理图谱,作为基因组研究的操作材料,现已覆盖全基因94%以上。③转录图谱(Transcriptional Map),又称表达图谱( Map),是以部分5`端和3`端cDNA顺序即表达序列标志(Expressed Sequence Tags,EST)为位标,根据转录顺序的位置和距离绘制的图谱。由于它所使用的位标均为表达序列,因而是基因图的雏形。目前EST的数目正以每天1000多个的惊人速度增长,至1997年底,GanBank中人类EST数目已达90万个,估计人类一半以上的基因序列已经包含在现有的EST数据库中。④序列图谱:即分子水平的物理图谱。随着遗传和物理图谱工作的即将完成,HGP的重点已从作图转移到对基因组的大规模测序上。由于测序技术的革命性改进,目前许多测序反应的操作已经自动化,具备了连续测定几个Mb序列的能力,科学家们乐观地预测可提前4年,即在2001年就能完成人类基因组的全部测序任务。

HGP研究所提供的这“四张图”被誉为人类“分子水平上的解剖图”,或更为形象地称为人类“生命元素周期表”。

NCBI主页链接的人类基因组基因图谱实际上是1996构建的人类最新的转录图谱。它以柱形图的形式描绘了各条染色体上基因组的分布及密度,因此,在人类基因组基因图谱主页从各条染色体出发可以浏览到该条染色体上某基因组分布情况,进而获取有关该基因组更为详细的信息。也可以从人类基因组基因图谱主页进入“研究工具页”(Research Tools Page),在研究工具页可以选择“Text Search”,利用cDNAs标记物名称、序列登记号、DNA片段名或蛋白质序列存取号检索图谱中的cDNAs。或者选择“Map Search”,利用cDNAs标记物检索图谱中的cDNAs。除了检索功能外,在研究工具页还提供了电子PCR以及FTP节点。

此外,在研究工具页可以链接到其他人类基因组基因图谱节点,如下表:


人类基因组基因图谱中心 IP地址


Whitehead Institute Center for Genome Research(USA) http://www.genome.wi.nit.edu

Sanger Center (UK) http://www.sanger.ac.uk

Stanford Human Genome Center(USA) http://www.shgc.stanford.edu/

Wellcome Trust Center for Human http://www.well.ox.ac.uk/

Genetics Oxford(UK) Gthon (France) http://www.genethon.fr/

Radiation Hybrid DataBase(EBI,UK) http://www.ebi.ac.uk/RHdb

UniGene(NCBI,USA) http://www.ncbi.nlm.nih.gov/UniGene

dbEST(NCBI,USA) http://www.ncbi.nlm.nih.gov/dbEST

dbSTS(NCBI,UAS) http://www.ncbi.nlm.nih.gov/dbSTS

三、人鼠特有基因序列集(UniGene)

UNiGene是将GenBank中的序列自动分隔成无冗余基因簇的实验性系统。因为目前UniGene仅包括人和鼠的基因序列,所以称之为人鼠特有基因序列集。随着科学技术的发展,将来可能会加入其他生物体的基因序列。

任何一个UniGene均包含代表一特定基因的序列的集合及其相关信息,如基因表达和基因定位所在的组织类型等。除了特性明了的基因序列外,还包括许多表达序列标志(EST)。作为一种基因资源,它对科研工作者非常有用,科研工作者利用它来选择试剂,以满足基因作图和进行大规模基因表达分析的需要。

在UniGene主页有人类UniGene(Homo Sapiens UniGene)和鼠UniGene(Mus Musculus UniGene)两个图标。点击其中之一即可进入相应的UniGene,然后,可以对其进行检索、浏览。

因为人类UniGene和鼠UniGene的检索和浏览方法相同,所以下面只介绍人类UniGene的检索和浏览。

在UniGene主页点击人类UniGene图标,即可进入人类UniGene主页,该主页提供了三种检索方法:

(1)文本词检索

在人类UniGene主页顶部有一检索框,你可以输入词和词组,这些词或词组可以是基因的定义、基因符号、蛋白质名称或存取号。现在仅支持逻辑算符AND检索,不支持OR及其他算符检索。但支持特殊的位置检索。其规则如下:

@gene(symbol) 限定其基因符号;

@chr(num) 限定在第几号染色体;

@lib(id) 限定其cDNA文库的Id号。

(2)染色体浏览

图谱定位的信息来源于孟德尔人类遗传学联机数据库、人类转录图谱和怀特海德基因组研究中心(Whitehead Institute Center for Genome Research)的物理图谱。点击某一染色体即可浏览该号染色体的UniGene基因序列。

(3)文库浏览器(Library Browser)

通过文库浏览器可以浏览到cDNA文库中EST记录。

四、孟德尔人类遗传学联机数据库

从NCBI主页可直接进入孟德尔人类遗传学数据库(Online Mendelian Inheritance in Man,OMIM)。它提供人类遗传病的临床及其表型(Phenotype)等信息,描述各种遗传病的基因及其基因产物、基因的表达和定位。如果在GenBank找到某种疾病的特定基因,那么可以转换到OMIM,获取与该基因有关的遗传病及其临床表型,以及描述该基因产物的资料。

据1998年6月1日的OMIM统计,OMIM包含的条目如下表:


基因位点已证实(*) 临床表型(#) 其它 总计


常染色体 5851 438 2420 8709

X连锁 329 34 173 536

Y连锁 24 - 3 27

线粒体 37 23 - 60


总计 6241 495 2596 9332


注:条目编号前的星号(*)=遗传性已证实(根据作者的判断),而其表型是由一个基因所决定,它位于不同于其他任何一个带星号条目所代表的基因。

不带星号的条目编号=疑为遗传性但未被证实与/或不清楚是否不同于另一条目的基因。

条目编号前的(#)号=表型可由2个或2个以上的基因突变所致。

在OMIM主页,可以链接到NCBI的Entrez检索系统、基因组数据库术语主页(The GDB Nomenclature Home Page)、戴维斯人/鼠同源图谱(The Davis Human/Mouse Homology Map)、孟德尔动物遗传学联机数据库(Online Mendelian Inheritance In Animals,OMIA)、Cardiff人类基因突变数据库等网址,进而获取这些网址的信息。

通过匿名FTP可以获取压缩的OMIM(约1.5Mb)、OMIM基因图谱(约430Kb)和OMIM病理基因图谱(110Kb)等。此外,还可以浏览OMIM更新信息、统计、参考文献、收录的基因一览表以及OMIM的基因编码系统等信息。

OMIM除了更新及时外,还有一个突出的优点是它的检索性。用户不仅可以检索OMIM,还可以检索OMIM基因图谱和病理图谱。OMIM基因图谱是OMIM中病理基因以及其它表达基因的细胞遗传定位图,是一个遗传图谱,可用基因符号或常染色体位点如“CYP1”、“5”、“1pye”“Xq”等进行检索。OMIM病理图谱是从疾病到基因的一个病理基因图,该图谱列出了已定位到特定染色体位点上的基因突变所致的疾病。可用“CYP1”、“12”等进行检索。

下面主要介绍OMIM的检索。

OMIM不仅支持带*号的截词检索,而且支持布尔逻辑检索,其布尔算符为“│”、“-”、“&”,分别相当于OR、BUTNOT、AND。检索式中如使用圆括号,则优先处理圆括号内的表达式。

OMIM还支持字段检索,如果要求在某一特定字段检索所需的信息,你可以在检索词的后面用中括号带上字段名表达,如“ganglioside[title]&saunders”。OMIM可供选择的字段有:Title、OMIM Number、Allelic Variants(等位变异)、Text、References、Clinical Synopsis(临床特征)、Gene Map、Disorder(疾病)、Contributors(作者)等。

OMIM在人类遗传方面具有非常重要的应用价值。

(1)遗传咨询与遗传病的处理

由于每一种遗传病都是罕见的,很多医生、甚至医学遗传学家只亲身接触某一种病的少数病例,必须熟悉文献中报道的经验。因此,只要利用OMIM,很容易回答以下问题:该病的分子缺陷是否已确定,是否已有一种病与某一蛋白质的基因突变有关,该病的基因是否被定位等等。OMIM在遗传病的鉴别诊断上特别有用,通过检索词或词组能产生一系列含有该词或词组的条目,这是寻找某特定家系中一种令人困惑的遗传病的诊断的有益开端。准确诊断对遗传病的正确处理与咨询非常重要。

(2)遗传病使人们洞察正常人的遗传组成

OMIM中,这些遗传性状的条目有如照片的底片,从中可以制作人类遗传组成的正片,从而尽可能完整人类正常遗传组成,这对于今后人类遗传研究非常有用。

(3)可用于人类遗传学和临床遗传学的教学

OMIM不仅提供了所有已知的遗传病、遗传决定的性状及其基因,还提供了已知有关致病基因的连锁关系、染色体定位、结构与功能等信息,同时描述了各种遗传病的临床表现、诊断、鉴别诊断、治疗与预防。教师可以从中下载用于教学的图片资料和罕见的病案病例以扩大学生的视野,同时帮助学生从中找到问题的答案,提高他们解决问题的实际能力。

五、分子模型数据库

分子模型数据库(The Molecular Modelling Database,MMDB),又称分子结构数据库,其数据主要来源于蛋白质数据库(PDB),不仅包括生物学信息、文献信息,还包括用X线晶体照相术和核磁共振成像实验测定的分子三维结构。它的记录格式采用ASN.1格式。此外,Medline、GenBank以及NCBI分类学数据库均与MMDB建立了超链,这样,从某一数据库出发可以获取来自不同数据库的数据资料。

在MMDB主页,可以利用作者姓名或文本词检索MMDB,也可以利用PDB或MMDB存取号直接获取MMDB记录。此外,在检索Medline、GenBank、NCBI分类学数据库时,如该记录含有三维结构,则建立了该记录的MMDB超链,通过该超链可以获取MMDB中的此条记录。

检索获取的结构数据利用三维结构浏览程序Cn3D、RasMol或MAGE浏览其三维结构。这三个程序均可从网上免费获取。并在Mac操作系统、Windows、Win95、WinNT以及各种Unix系统上运行。

如果你使用Entrez检索,那么你将结构文件下载到你的硬盘上,然后运行三维结构浏览程序Cn3D,显示下载文件的结构。最好是将WWW浏览器自动地登载到你的三维结构浏览程序。

如果受计算机处理器运行速度或内存限制而不能运行Cn3D,那么你可以在计算机上安装另外两个结构浏览程序RasMol和MAGE。MMDB对下载的结构文件提供了另外两种格式:PDB格式和Kinemage格式。PDB格式适合于RasMol程序浏览,Kinemage格式适合于MAGE程序浏览。

在蛋白质的演变过程中,分子结构最容易发生改变,这样,蛋白质与蛋白质之间在结构上存在同源性,而这种同源性通过序列比较(如Blast)是不能确定其同源性的。为此NCBI开发了向量对准检索工具(Vector Alignment Search Tool,VAST),用于两个三维结构相似性的比较,以确定其同源性。

六、NCBI分类学数据库

1997年基因库中的生物体共有32,402种,比1996年增长41%,在此基础上,NCBI建立了一个分类学数据库,它包括基因库中核酸和蛋白质序列来源的所有生物体属种名称。

NCBI分类学数据库包括两个部分,第一部分是分类学浏览器(Taxonomy Browser),第二部分是分类学资源,包括分类指南、基因代码、基因库中生物体的统计、分类人员所使用的分类法及其他资料、该数据库开发者和管理员联系信息、与标本培养及病毒数据库之间的链接等等。

通过分类浏览器既可以浏览某一组生物体分类树状结构,也可以检索某一生物体的序列数据。

在NCBI分类学主页点击“Tree”或内含一棵树的图标,即可进入分类学浏览器的Web页。该Web页可分为三个部分,第一部分是GenBank分类学数据库中归类级别最高的物种名称。第二部分是一检索框,可以进行类名及生物体名称检索。第三部分是分子生物研究中最常用的生物体名称。由此可见,分类学浏览器提供了两种检索:一种是分类浏览检索,另一种是自由词检索。

(1)分类浏览检索

在第一部分,NCBI将所有生物体按其种系发生关系分为Archaea(原生物)、Eubacteria(真菌类)、Eukaryota(真核生物)、Viroids(类病毒)、Viruses(病毒)、Other(其它)及Unclassified(未归类的生物体)等七个大类。它们均以超链形式出现,点击其中之一,即可得到该类的等级树状结构。例如点击Viruses,即可得到Viruses的树状结构,如下所示:

 ●Viruses

 ○Deltavirus

 □Hepatitis D Virus

 ■Hepatitis D Virus(Isolate 7/18/83)

 ■Hepatitis D Virus(Isolate American)

 ……

这些均以超链形式出现,点击其中之一,系统返回有关该类的相关信息,如分类号、基因代码、其它命名以及该类的核苷酸序列数、蛋白质序列数和具有三维结构的基因序列数等。点击“Get Sequences”,即可得到这些序列数据。

此外,NCBI在第三部分按字顺列举了Arabidopsis Thaliana、Caenorhabditis Elegans、Danio Rerio(Zebrafish)、Drosophila(果蝇)、Escherichia Coli(大肠杆菌)、Hepatitis C Virus(丙型肝炎病毒)等分子生物研究中最常见的16种生物体名称,均以超链形式出现,点击其中之一,便可得到其相关信息,再进一步得到其序列数据。

(2)自由词检索

在第二部分,分类学浏览器提供了类名及生物体名称的自由词检索。在检索框输入检索词,选择其匹配关系,点击“Start Search”,便可检索到你所需要的序列数据。在检索框的下一行,它提供了三种匹配关系:Complete Match、Wild Card Search和Set of Tokens。

如果你知道生物体或类名的正式命名,你可以选择“Complete Match”进行检索。但是,如果你对生物体名称或类名的词间顺序不确定,或者不知道生物体或类名的正式命名,你可以选择“Set of tokens”,分类学浏览器能进行智能识别并以正式命名进行检索。你也可以使用通配符,同时选择“Wild card Search”进行检索,其规则如下:

[] 表示匹配括号内任一字母,如[abc]表示可匹配“a”或“b”或“c”;

· 表示匹配任一字母;

* 表示匹配零个或多个字母。

七、开放阅读框架查询器(ORF Finder)

开放阅读框架(Open Reading Frame,ORF)是可以编码一个蛋白质和蛋白质一部分的DNA或RNA片段。开放阅读框架必须不包含终止密码子。一个完全的开放阅读框架从起始密码子ATG(AUG)开始,结束于终止密码子TAA(UAA)、TAG(UAG)或TGA(UGA)。一个开放阅读框架的存在表明存在着一种未知的蛋白质或多肽。

开放阅读框架查询器(ORF Finder)是一个图形分析工具,用来查询用户序列或基因库中的序列的所有开放阅读框架,即查询序列中能编码蛋白质或蛋白质一部分的DNA或RNA片段。如果该序列中存在开放阅读框架,该查询器就会给出开放阅读框架的起止位置及其长度。这样,科研人员则可得知自己克隆的序列是否存在开放阅读框架,如存在,可进一步利用该开放阅读框架去编码蛋白质和多肽。这对发现新的蛋白质或多肽具有非常重要的意义。例如石伟等从人活化B细胞株3D5细胞λgtll cDNA文库筛选到1529bp的3D5-5 cDNA,此cDNA中有一长465bp(从540bp-1004bp)的开放阅读框架,编码154个氨基酸的蛋白质。与国际基因库比较,未见相同的蛋白质。

八、人/鼠同源图谱

人/鼠同源图谱是加利福尼亚大学生物化学和医学系的Seldin等研究开发的,它是一个人/鼠同源DNA片段的基因比较图表。该图谱描述了1793个位点,其中绝大多数是基因位点,但不包括假基因以及多基因家族中尚未证明有特殊同源关系的基因,也不包括尚未明确其同源关系的其他任何基因。此外,为了链接到人类基因组基因图谱,而临时增加了568个遗传标志位点。为了保持人染色体基因位置与鼠染色体位置一致性,作者首先给这些基因排序,在同源区,再根据鼠基因图谱中的数据进行排序。在该数据库中约有一半的基因没有详细的信息,因此,图谱中的数据反映的是一种可能的,而不是确切的同源关系。

作者将该图谱与人的物理图谱数据链接起来,因此通过链接,你可以查到更为详细的资料,目前该图谱仅包括201个同源组。

该图谱列出了人的1~22条染色体和X染色体以及鼠的1~19号染色体和X染色体。可以浏览人/鼠某一染色体上基因的同源关系,有助于对此进行对比分析研究,也可以浏览文本格式的所有人/鼠同源图谱。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
常用数据库及生物网站介绍(上篇)
一步一步教你使用NCBI数据库资源
NCBI各数据库简介
生物数据库介绍
NCBI核酸数据库(新手指南)
【生信】GEO数据挖掘视频课学习笔记# #{序列数据库}
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服