查看: 9708|回复: 0

一文走进NCBI数据库,科研事业轻松一大步

[复制链接]

633

主题

442

回帖

80

日志

管理员

积分
5731
QQ
发表于 2018-2-21 21:59:54 | 显示全部楼层 |阅读模式
民以食为天,而科研则以数据为天。其中,对数据的挖掘、分析、利用更是重中之重。NCBI作为科研工作者必不可少的工具,其包含的各类数据库无疑是科研数据积累的宝藏,只待科研者认真挖掘。如今,小鱼就将带你一起学习NCBI的6种常见使用方法。 首先,简单介绍下NCBI序列的标识符:GI number和Accession.Version GI number和Accession.Version就像是序列的身份证号码一样。通过这个号码,可在NCBI等数据库里查到该序列的数据。 GI number是由一系列的数字组成,是NCBI在处理序列时连续分配的。Accession形式为CC_#####,其中CC为两个字母,其不同的组合有又可区分为蛋白序列、核酸序列或基因组序列,而#为位数不等的数字;Accession后面经常会加上版本号,以CC_####.#形式表现,表示序列信息较之前的版本有所修改。

80c2f4b03f7ea869870307dc24402e5d.jpg

一般来说,不同的编码代号代表不同的意思,如NM_开头的表示标准序列,XM_表示预测的蛋白编码序列,NR_表示非编码蛋白的mRNA序列,AF开头的表示克隆序列,BC开头的表示模板序列...... 接下来,我们进入NCBI的使用方法中的六大模块吧。             Part One利用Map viewer查找基因和mRNA序列、启动子                   以人的IL-12(白细胞介素12)为例:

1. 进入NCBI主页面,点击页面下方的Feature/ Map Viewer,进入该界面,并在下拉的菜单里选择物种,for后面填写你的目的基因,而后点击“Go”。

498a1262346becd8f556e64ce38e01c6.png
0e26618b8b50716e2175c1a9d60a9a2b.png
2. 在Quick Filter中,点击Gene前面的小方框,并点击Filter,结果如下图所示。

f0f6901d936074d377a40937c62b4ac5.png

结果中,染色体的红色区域即为你的目的基因所处位置。
3. 点击第一条序列(即reference)对应的“Genes Seq”,出现新的页面,页面如下图所示:

49861d6d9fbe3ee774fb19a2faf87586.png

点击上图中的Download/View Sequence/Evidence,即可下载查看序列等功能,结果如图所示:

2875cd75680efadf0491a9f5135970a6.png

在上图中的Sequence Format(序列输出格式)中有一个下拉式选择菜单,默认的为FASTA格式,还有一个是GenBank格式。推荐大家选择GenBank格式,因为这个格式提供了很多基因的信息,而FASTA格式只有基因序列。 4. 在Sequence Format后选择GenBank,点击下方的Display,目的基因的相关信息和序列结果如下图所示。

5fcc11689cf4b3d5675666e4a7c0a144.png
             Part Two用Probe查找已经公布的引物序列              1. 进入NCBI主页,在下拉菜单选择Probe之后填写需要查找的基因名称。

b850268e56fb74526b69273eb4bf912f.png

点击search,出现下面界面:

88c7e837601e57cdc2b1cb4e7c116038.png

2. 点击第一个链接,序列结果如下图所示:

d0ac2f0542ab44070430ca82bc03e59d.png
             Part Three运用其Blast 进行序列比对、检验引物特异性                 点击查看Blast的具体操作步骤:【实验工具专栏】Blast,有种,有料,有用!

7453075352d2341f84dcc9f63804f37f.png
            Part Four上传数据到NCBI              NCBI对可提交的数据类型有详细列表,不同类型的数据分别提交到不同的数据库,具体可查看http://www.ncbi.nlm.nih.gov/guide/howto/submit-sequence-data/


aa737516f0cbbdc4bbd4ce8bedb12625.png

在此,小鱼进行了简单的归纳总结。就数据类型而言可分为两类:测序数据及分析数据。前者一般分为二代和三代测序数据。二代测序中最常见的是illumina测序仪产生的Fasta文件,454测序仪产生的sff文件等。三代测序数据主要是指pacbio测序仪产生的4个文件:3个bax.h5文件和1个bas.h5文件。这些文件需要提交到NCBI的SRA数据库中。
由于测序平台应用在不同类型的项目长会有不同分析结果,所以分析数据的提交要根据测序项目类型来定。目前高通量测序就项目类型可分为:基因组测序、转录组测序、16S/ITS测序、宏基因组测序等。

9e284ffbf941b31e0dda52838218bdc3.png

1. 建立一个属于自己的NCBI登录账户,用以提交数据。如何创建My NCBI账户详细请参见:http://www.ncbi.nlm.nih.gov/books/NBK3842/#MyNCBI.Registering_with_My_NCBI

ea73680b4320542d325d740061ba4bf0.jpg

2. 为提交的数据申请BioProject和BioSample号。一个BioProject代表一项测序研究项目,它可包含多次实验(experiments):
Step1:打开https://submit.ncbi.nlm.nih.gov/,点击“BioProject”进入新建页面。
Step2:点击“New submission”,进行提交。Step3:根据研究项目实际情况,填写一系列信息,每填写完一个步骤,都要点击页面下方的continue,保存已填写的信息。点击“submit”即可。 3. 在NCBI网站上登录自己的账户,进入数据提交的Submit界面后(https://submit.ncbi.nlm.nih.gov/),点击相应的数据库进行数据的提交。

fe17c5311fd8c124e798f05901c7f9b7.jpg              Part Five如何用NCBI批量下载基因序列                  1. 登入NCBI主界面,在下拉菜单里选择nucleotide,将基因的Accession number都排列在一起,用空格隔开,不要有回车符(怎么快速排列就不多说了,excel就能实现),例如:NM_181571 NM_012319 NM_016651 NM_007678NM_004642 NM_145918 NM_024504 NM_014847 NM_004196 NM_002295:


5333ace71ea86784b5f343a73c76ba35.png

填好后Search,然后会出现这样一个界面:

a991cf28663b0bdcbb2a423581cb3469.png

2. 点击上面的summary下拉标记,在Format选项中选择FASTA:

6169306a2a5099f54eba03923ace1c5e.png

点击Apply,就会出现下一个界面:

e76aa9b8671eb718ff9086cf76037562.png

3. 点击右上角的Send下拉标记,选中CompleteRecord和File,然后在下面Format中选择FASTA,Sort by不变(默认),最后点击Create File保存数据即可。

3278d149cc85b86cb2326ea9a415dc28.png
            Part Six如何用NCBI下载物种的全基因组序列              1. 打开NCBI,在下拉栏里选择Genome,之后输入下载物种的拉丁名。以拟南芥Arabidopsis thaliana为例。


49083b19976b645dc57b1d06ecb0d0de.png

搜索结果如下图所示:

20641645c6ed21653d3359f6adc46d1b.png

2. 点击上图的“GenomeAssembly and Annotation report”进入下面的界面:

ba0c593868f857584625ba78779e3bca.png

将上图中scaffold和conting前的√去掉,系统会自动筛选出比较好的基因组,一般来说,选择level这一列中测序水平最高的一组就是黑色部分占据面积最多的。
3. 点击Assenbly这一列中的基因组编号:

40bec424f43072f71c71bdd12a42c3c2.png

可进入全基因组下载界面。

630331cacaab3af61b1e0db3dc27518e.png

4. 点击该界面的右侧,即可进行全基因组的下载。

6ae6b7b30a4b0a1a12506bfeea91813e.png 转载请注明:解螺旋·临床医生科研成长平台

回复 关闭延时

使用道具 举报

您需要登录后才可以回帖 登录 | 注册  

本版积分规则

快速回复 返回顶部 返回列表