ncbi站点的一般介绍7307.pptx
《ncbi站点的一般介绍7307.pptx》由会员分享,可在线阅读,更多相关《ncbi站点的一般介绍7307.pptx(63页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、NCBI站点的一般介绍及其它资站点的一般介绍及其它资源库的介绍源库的介绍n nGenBank Overviewn n生物信息学站点地图生物信息学站点地图n n其它其它资源资源库的介绍库的介绍国际核苷酸序列数据库合作组织n n GenBankGenBank由由位位于于马马里里兰兰州州BethesdaBethesda的的美美国国国国立立卫卫生生研研究究院院下下属属国国立立生生物物技技术术信信息息中中心心建建立立,与与日日本本DNADNA数数据据库库(DNADNADataDataBankBankofofJapanJapan,DDBJ,DDBJ)以以及及欧欧洲洲生生物物信信息息研研究究所所的的欧欧洲洲
2、分分子子生生 物物 学学 实实 验验 室室 核核 苷苷 酸酸 数数 据据 库库(EuropeanEuropeanMolecularMolecularBiologyBiologyLaboratory,Laboratory,EMBLEMBL)一一起起,都是国际核苷酸序列数据库合作的成员。都是国际核苷酸序列数据库合作的成员。n nGenBankGenBank,DDBJDDBJ,andand EMBL,EMBL,所所有有这这3 3个个中中心心都都可可以以独独立立地地接接受受数数据据提提交交,而而3 3个个中中心心之之间间则则逐逐日日交交换换信信息息,并并制制成成相相同同的的充充分分详详细细的的数数据库
3、向公众开放。因此他们是相等的。据库向公众开放。因此他们是相等的。什么是GenBank?n nGenBankGenBank是是美美国国国国立立卫卫生生研研究究院院维维护护的的基基因因序序列列数数据据库库,汇汇集集并并注注释释了了所所有有公公开开的的核核酸酸序序列列。GenBankGenBank属属于于一一个个序序列列数数据据库库的的国国际际合合作作组组织织,包括包括EMBLEMBL和和DDBJDDBJ。n n每每个个记记录录代代表表了了一一个个单单独独的的、连连续续的的、带带有有注注释的释的DNADNA或或RNARNA片段。片段。n n这这些些文文件件按按类类别别分分为为几几组组:有有些些按按照
4、照系系统统发发生生学学划划分分,另另外外一一些些则则按按照照生生成成DNADNA序序列列数数据据库库的的直直接接提提交交。这这些些作作者者将将序序列列数数据据库库作作为为论论文文的一部分来发表,或将数据库直接公开。的一部分来发表,或将数据库直接公开。GenBankn nGenBank是一个有13亿碱基,来自于100,000多种生物的核苷酸序列的数据库。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。n n遗传密码-15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。访问GenBankn n 通过通过EntrezNucleotidesEntrezNucleoti
5、des来查询。来查询。n n用用accessionaccessionnumbernumber,作作者者姓姓名名,物物种种,基基因因/蛋白名字,还有许多其他的文本术语来查询。蛋白名字,还有许多其他的文本术语来查询。n n关于关于EntrezEntrez更多的信息请看下文。更多的信息请看下文。n n用用BLASTBLAST来来在在GenBankGenBank和和其其他他数数据据库库中中进进行行序序列相似搜索。列相似搜索。n n用用E-mailE-mail来来访访问问EntrezEntrez和和BLASTBLAST可可以以通通过过QueryQuery和和BLASTBLAST服服务务器器。另另外外一一
6、种种选选择择是是可可以以用用FTPFTP下载整个的下载整个的GenBankGenBank和更新数据。和更新数据。纪录样本纪录样本n n每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。n n这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照生成DNA序列数据库的直接提交。这些作者将序列数据库作为论文的一部分来发表,或将数据库直接公开。n n关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。DDBJ/EMBJ/GenBank特性表(见讲义或网络课件)n n特特性性表表格格式式和和标标准准被被合合作作数数据据库库用用在在序序列列记记录录的的注注
7、释释上上,使使得得数数据据共共享享成成为为可可能能,包包括括详详细细的的描描述述生生物物特特性性和和特特性性限限定定语语的的附附录录,以以及及IUPACIUPAC规定的核苷酸和氨基酸的代号。规定的核苷酸和氨基酸的代号。n n数数据据纪纪录录的的格格式式和和搜搜索索方方式式可可能能会会不不一一样样,但但是是accessionaccessionnumbernumber,序序列列数数据据和和注注解解都都是是一一模模一一 样样 的的。即即,你你 可可 以以 用用 accessionaccession numbernumberU12345U12345在在GenBankGenBank,DDBJDDBJ或或
8、EMBLEMBL中中查查找找相相应应纪纪录录,得得到到的的结结果果是是完完全全一一样样的的序序列列数数据据,参参考内容等等。考内容等等。GenBank普通文件格式n n参见GenBank记录样本和在GenBank公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。n nASN.1格式摘要句法记号1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告和日常积累或非积累更新数据。分子数据库概览分子数据库概览 n n核酸序列n nEntrez核酸用accessionnumber,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜索核酸序列记录(在GenBank
9、+PDB中)。更多的关于Entrez的信息见下。如果要检索大量数据,也可使用BatchEntrez(批量Entrez)。n nEntrez基因组n n提供了一个编码区的概要和各种物种的分类表(TaxTable)。n n编码区概要列出了在基因组中所有的的蛋 白,并 提 供 链 接 到 FASTA文 件 和BLAST。n n分类表总结了蛋白BLAST分析的结果,建议他们的可能功能,并用颜色编码的图来显示物种同其它物种之间的关系。BLASTn n将你的序列同核酸库中的的序列比较,检索相似的序列。(更详细的信息见下面Tools/Sequence相似搜索部分)n nBLAST查找n nBLAST指南BL
10、ASTn n程序对数据库搜索进行大量的改良,提高了搜程序对数据库搜索进行大量的改良,提高了搜索速度,同时把数据库搜索建立在了严格的统索速度,同时把数据库搜索建立在了严格的统计学基础上。计学基础上。n n局部比对的限制条件不包括空位。这个限制条局部比对的限制条件不包括空位。这个限制条件对应用件对应用KarlinKarlinAltschulAltschul统计学极为有利,另统计学极为有利,另一方面,既然空位没有明确地放在模型中,结一方面,既然空位没有明确地放在模型中,结果就不会像人们期望的那样接近于期望的比对。果就不会像人们期望的那样接近于期望的比对。这并不是说插入确实会妨碍匹配,在大多数情这并不
11、是说插入确实会妨碍匹配,在大多数情况下,比对仅仅会被分解为若干个明显的况下,比对仅仅会被分解为若干个明显的HSPsHSPs。无论如何,老版本的无论如何,老版本的BLASTBLAST程序(程序(1.41.4以前)以前)的局限性在新版本中已经被取消了,新版本在的局限性在新版本中已经被取消了,新版本在对待空位问题上有着明确的作法。对待空位问题上有着明确的作法。BLAST程序的修订版n n最近发布的BLAST程序的修订版提高了搜索速度,敏感度和实用性。n n这个完全重新写过的软件包指定为2.0版本(避免同WUBLUST混淆,这个软件是由华盛顿大学设计的,有时称为BLAST2)应该注意到,在发布的2.0
12、版本中,命令行的参数有很大改变。序列相似性搜索通过计算机网络或调制解调器登陆到Internet上并把含有你的序列的e-mail发送到NCBI。DATALIB认准你将搜索的数据库,可选择下列数据库:n nnr“非丰余的”蛋白或核酸序列数据库,它包括来自PDB,GenBank(R),更新的GenBank(r),EMBL的最新情报;n ngbGenBank(R)核酸序列数据库;n nembEMBL数据库;Entrez基因组(各种物种)n nEntrezEntrez是是NCBINCBI的的一一个个计计划划,它它包包含含了了GenBankGenBank数数据据。但但EntrezEntrez和和GenBa
13、nkGenBank从从本本质质上上是是不不同同的的,前前者者是是一一个个信信息息检检索索系系统统,而而后后者者是是一一个个EntrezEntrez从中检索的数据库。从中检索的数据库。n nEntrezEntrez基基因因组组 超超过过800800种种在在GenBankGenBank中中被被完完整整测测序序的的物物种种,包包括括大大于于500500种种病病毒毒,2525种种细细菌菌,酵酵母母,和和许许多多viroidsviroids,质质粒粒,和和细细胞胞器器。还还包包括括正正在在进进行行中中的的基基因因组组,比比如如人人,小小鼠鼠,线线虫虫,疟疟原原虫虫,果果蝇蝇,利利什什曼曼原原虫虫,水水稻
14、稻,和和玉米。玉米。EntrezMapViewerEntrezMapViewerEntrez基因组FASTAn nFASTAFASTA程程序序是是第第一一个个广广泛泛使使用用的的数数据据库库相相似似性性搜索程序。搜索程序。n n程程序序引引用用取取代代矩矩阵阵实实行行局局部部比比对对以以获获得得最最佳佳搜搜索索。但但众众所所周周知知,使使用用这这种种策策略略会会非非常常耗耗费费工工作作时时,为为了了提提高高速速度度,在在实实施施耗耗时时的的最最佳佳搜搜索索之之前前,程程序序使使用用已已知知的的字字串串检检索索出出可可能能的的匹匹配配。在在速速度度和和敏敏感感度度之之间间权权衡衡选选择择依依赖赖
15、于于ktupktup参参数数。它它决决定定了了字字串串的的大大小小。增增大大ktupktup参参数数就就会会减减少少字字串串命命中中的的数数目目,也也就就会会减减少少所所需需要要的的最最佳佳搜搜索的数目和搜索的速度。索的数目和搜索的速度。n n从从2.02.0版版本本开开始始,FASTAFASTA对对每每一一个个检检索索的的比比对对都都提供一个统计学显著性的评估。提供一个统计学显著性的评估。n nFtpFtp:/ftp.virginis.edu/pub/fasta/ftp.virginis.edu/pub/fasta/FASTA格式n n定义行号后只跟随序列数据,参见描述数据库的readme文
16、件,n n包括nt.Z(每天更新的非冗余BLAST核酸数据库,n n包括GenBank+EMBL+DDBJ+PDB序列,n n不包括EST,STS,GSS,orHTGS序列),nr.Z(每日更新的非冗余蛋白质),est.Z,gss.Z,htg.Z,sts.Z,和其它文件。FTPGenPeptn n下载“genpept.fsa.Z”文件,这个文件包含了从GenBank/EMBL/DDBJ记录中翻译过来的FASTA格式的氨基酸序列,这些记录都有一到两个CDS特性的描述。n nFTP基因组蛋白n n从ftp站点的genbank/genomes目录下下载各种物种的FASTA格式的氨基酸序列*.faa和
17、蛋白表文件*.ptt。参见readme文件。蛋白表也可以在Entrez基因组中看到。n n向GenBank提交数据Sequinn n提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。n n可以独立使用,或者用基于TCP/IP的“networkaware”模式,可以链接到其他NCBI的 资 源 和 软 件,比 如 Entrez和PowerBLAST。GenBankESTsn n-表达序列标签,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。STSs序列标签位点GSSsn n 基基因因组组调调查查序
18、序列列,短短的的、单单次次(测测序序)阅阅读读的的cDNAcDNA序序 列列,exonexontraptrap获获 得得 的的 序序 列列,cosmid/BAC/YACcosmid/BAC/YAC末端,及其他。末端,及其他。n nHTGsHTGsn n 来来自自于于大大规规模模测测序序中中心心的的高高通通量量基基因因组组序序列列,未未完完成成的的(阶阶段段0 0,1 1,2 2)和和完完成成的的(阶阶段段3 3)序列。序列。n n注注意意:完完成成的的人人类类的的HTGHTG序序列列可可以以同同时时在在GenBankGenBank和和HumanHumanGenomeGenomeSequenci
19、ngSequencing页页面面上上访访问。问。RefSeqn nNCBINCBI数数据据库库的的参参考考序序列列。校校正正的的,非非冗冗余余集集合合,包包括括基基因因组组DNADNAcontigscontigs,已已知知基基因因的的mRNAsmRNAs和蛋白,在将来,整个的染色体。和蛋白,在将来,整个的染色体。n nAccessionAccession numbersnumbers用用NT_xxxxxx,NT_xxxxxx,NM_xxxxxx,NM_xxxxxx,NP_xxxxxx,NP_xxxxxx,和和NC_xxxxxxNC_xxxxxx的形式来表示。的形式来表示。n ndbESTdbE
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ncbi 站点 一般 介绍 7307
限制150内