生物信息数据库-类型.ppt
《生物信息数据库-类型.ppt》由会员分享,可在线阅读,更多相关《生物信息数据库-类型.ppt(70页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、NCBI生物信息学生物信息学生物信息学生物信息学曹毅生命科学学院NCBI第二章第二章第二章第二章 生物信息数据库生物信息数据库生物信息数据库生物信息数据库数据库的类型NCBI*3第一节 引言生物分子数据生物分子数据高速增长高速增长 分子生物学分子生物学及相关领域研究人员及相关领域研究人员迅速获得最新实验数据迅速获得最新实验数据 建立生物分子数据库建立生物分子数据库 NCBI序列数据库结构数据库基因组数据库一次数据库一次数据库DNADNA序列序列序列序列蛋白质序列蛋白质序列蛋白质序列蛋白质序列蛋白质蛋白质蛋白质蛋白质结构结构结构结构人类基因组以及人类基因组以及人类基因组以及人类基因组以及其它生物
2、基因组其它生物基因组其它生物基因组其它生物基因组生物信息学数据库生物信息学数据库数据库管理系统数据库管理系统Oracle/sybaseOracle/sybase大型计算机服务器大型计算机服务器大容量磁盘空间大容量磁盘空间NCBI序列数据库序列数据库序列数据库序列数据库结构数据库结构数据库结构数据库结构数据库基因组数据库基因组数据库基因组数据库基因组数据库二次数据库二次数据库文献数据库文献数据库文献数据库文献数据库专家专家生物信息学数据库生物信息学数据库NCBI*6vv生物分子数据生物分子数据库应满库应满足足5 5个方面的主要需求个方面的主要需求v(1 1)时间时间性性v(2 2)注)注释释 v
3、(3 3)支撑数据)支撑数据 v(4 4)数据)数据质质量量 v(5 5)集成性)集成性 NCBI*7生物分子数据库几个明显的特征(1 1)数据库的更新速度不断加快)数据库的更新速度不断加快 数据量呈指数增长趋势数据量呈指数增长趋势 (2 2)数据库使用频率增长更快)数据库使用频率增长更快 (3 3)数据库的复杂程度不断增加)数据库的复杂程度不断增加 (4 4)数据库网络化)数据库网络化 (5 5)面向应用)面向应用(6 6)先进的软硬件配置)先进的软硬件配置NCBI*8vv生物分子数据生物分子数据库库 一级数据库一级数据库v数据库中的数据直接来源于实验获得的原始数据,只经过简单的数据库中的数
4、据直接来源于实验获得的原始数据,只经过简单的归类整理和注释归类整理和注释 二级数据库二级数据库v对原始生物分子数据进行整理、分类的结果,是在一级数据库、对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的实验数据和理论分析的基础上针对特定的应用目标而建立的 。NCBI*9第二节第二节 核酸序列数据库核酸序列数据库n n国国国国际际际际上上上上权权权权威的核酸序列数据威的核酸序列数据威的核酸序列数据威的核酸序列数据库库库库 (1 1)欧洲分子生物学)欧洲分子生物学实验实验室的室的EMBL EMBL (2 2)美国生物技)美国生物技术术信息中
5、心的信息中心的GenBank GenBank (3 3)日本)日本遗传遗传研究所的研究所的DDBJ DDBJ NCBI1 1、核酸序列数据库、核酸序列数据库n n1988,1988,由由此此三三家家组组成成了了国国际际核核酸酸序序列列数数据据库库协协作作组组织织(INSDCINSDC),规规定定:数数据据交交换换与与共共享享(每每2424小小时时进进行行一一次次),使使用用统统一一的的数数据据记记录录格格式式处处理理提提交交数数据据,以以保保证证各各数数据据库库相相应应记记录录在在内内容容上上的的一一致致性性,数据的数据的维护维护与更新。与更新。n n三三个个数数据据库库中中的的数数据据基基本
6、本一一致致,仅仅在在数数据据格格式式上上有有所所差差别别,对对于于特特定的定的查询查询,三个数据,三个数据库库的响的响应结应结果一果一样样。n n 这这三三个个数数据据库库是是综综合合性性的的DNADNA和和RNARNA序序列列数数据据库库,每每条条记记录录代代表表一一个个单单独、独、连续连续、附有注、附有注释释的的DNADNA或或RNARNA片段。片段。NCBIGenBank:NCBIEMBL NCBIDDBJ NCBI22 November 2010Total nucleotides:301,588,430,608 NCBI22 November 2010Number of entries
7、:199,575,971 NCBINCBI*17NCBI*18“ID”为序列的标识符行,包括登录号、类型,分子的长度“AC”为登录号行;“XX”为分隔符号行;“DT”为创建和更新日期行“DE”为序列描述行;“KW”为关键字行;“OG”行描述细胞组织;“OS”行描述生物体种属;“OC”行描述生物体分类信息;“RN”描述参考文献的编号;“RP”描述参考文献的页码;“RA”描述参考文献的作者;“RT”描述参考文献的题目;“RL”描述参考文献的出处;“RC”描述参考文献的注解;“RX”、“DR”行描述交叉引用信息;“FH”为特征开始符号;“FT”为特征表行(1)Feature Key,它是描述域生物功
8、能的关键字;(2)Location,指明特征在序列中的特定位置;(3)Qualifiers,描述关于一个特征的辅助信息;文件体由序列本身所组成,由“SQ”标志的行开始。序列结束的标记是“/”。EMBL核酸数据库中的每一个序列数据被赋予一个登录号,它是一个永久性的唯一标识 EMBL的序列数据用外在的ASCII文本文件来表示,而每一个文件分为文件头和文件体两大部分 文件头由一系列的信息描述行所组成,文件头实际上对应于一个序列的注释(annotation)NCBI*19使用使用EMBL(1)CD-ROM形式(2)ftp服务器(3)Gopher服务器(4)WWW服务器这是目前最常用的一种形式 NCBI
9、*20EMBL提供一些与序列相关的提供一些与序列相关的检检索操作(基于索操作(基于3W服服务务器)器)(1)序列查询最简单的查询就是通过序列的登录号(如X58929)或序列名称(如SCARGC)直接查询。(2)核酸同源性搜索)核酸同源性搜索3W服务器支持用户使用FastA程序进行核酸同源搜索。FastA根据给定的目标序列在数据库中搜索其同源序列。NCBI*21n n基因基因基因基因组组组组数据数据数据数据库库库库(GDBGDB)n n人人人人类类类类基因基因基因基因组组组组数据数据数据数据库库库库EnsemblEnsembln n表达序列表达序列标记标记数据数据库库dbESTdbESTn n面
10、向基因聚面向基因聚面向基因聚面向基因聚类类类类数据数据数据数据库库库库UniGeneUniGeneNCBI*222、基因组数据库(基因组数据库(GDBGDB)人类基因组计划所得到的图谱数据人类基因组计划所得到的图谱数据 目前GDB包含对下述三种对象的描述:(1)人类基因组区域 包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等;(2)人类基因组图谱,包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱,所有这些图谱都可以被直观地显示出来;(3)人类基因组中的变化,包括基因突变和基因多态性,加上等位基因频率数据。NCBI*2
11、3与染色体相关的信息NCBI*24其它模式生物基因组数据库如:如:鼠基因组数据库鼠基因组数据库 MGDMGD()()酵母基因组数据库酵母基因组数据库 SGDSGD()()NCBI*25Ensembl(Ensembl()3 3 3 3、人类基因组数据库、人类基因组数据库、人类基因组数据库、人类基因组数据库EnsemblEnsemblEnsemblEnsemblEnsembl包括所有公开的人包括所有公开的人类类基因基因组组DNA序列,通序列,通过过注注释释形形成的关于序列的特征。成的关于序列的特征。现现在包括其他基因在包括其他基因组组,如大鼠、小鼠、,如大鼠、小鼠、线线虫、果虫、果蝇蝇等。等。例如
12、:基例如:基因因通通过实验发现过实验发现的的或者是通或者是通过过GenScan程序程序预测预测的的其他的特征:其他的特征:单单核苷酸多核苷酸多态态性(性(SNP)、重复序列等)、重复序列等NCBI*26Ensembl 数据库结构图 NCBI*27Ensembl提供多种查询方式 通过关键字查询用BLAST进行相似序列的搜索 另一种更直观的方式是显示各染色体用户可以在染色体水平上选择感兴趣的位点,逐层放大浏览整个基因组NCBI*28NCBI*29人的第人的第9号染号染色体及大鼠对色体及大鼠对应的染色体片应的染色体片段段NCBI*304、表达序列标记数据库dbESTEST(Expressed Seq
13、uence Tags)方法已被证明是识别转录序列的最有效方法,EST序列大约覆盖了人类基因的90%。DbEST()是GenBank的一个部分,该数据库包括不同生物的EST序列数据及其它相关信息,主要是从大量不同组织和器官得到的短mRNA片段。WEB页面或emailFTP有关EST的数据dbEST数据库NCBI*315、面向基因聚类数据库、面向基因聚类数据库UniGeneUniGene(http:/www.ncbi.nlm.nih.gov/UniGene/)数据库将GenBank中的序列进行自动分类,形成面向基因群的非冗余集合。每个UniGene群包含:代表一个唯一基因的多个序列,附有该基因相关
14、的信息,如基因表达的组织类型、定位图谱除了基因的序列之外,还包括大量的EST序列。目前,UniGene中包括人类、大鼠、小鼠、牛的相关数据,因为这些生物有大量的EST数据。NCBI*32第三节第三节 蛋白质序列数据库蛋白质序列数据库n n目的:目的:目的:目的:帮助研究者鉴别和解释蛋白质序列信息,帮助研究者鉴别和解释蛋白质序列信息,帮助研究者鉴别和解释蛋白质序列信息,帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组。研究分子进化、功能基因组。研究分子进化、功能基因组。研究分子进化、功能基因组。n n它是一个全面的、经过注释的、非冗余的蛋白质序列数据它是一个全面的、经过注释的、非冗余
15、的蛋白质序列数据它是一个全面的、经过注释的、非冗余的蛋白质序列数据它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。库。库。库。n n所有序列数据都经过整理,超过所有序列数据都经过整理,超过所有序列数据都经过整理,超过所有序列数据都经过整理,超过99%99%99%99%的序列已按蛋白质家的序列已按蛋白质家的序列已按蛋白质家的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。族分类,一半以上还按蛋白质超家族进行了分类。族分类,一半以上还按蛋白质超家族进行了分类。族分类,一半以上还按蛋白质超家族进行了分类。1 1、PIRPIR(Protein Information Resource
16、Protein Information Resource)NCBI*33除了蛋白除了蛋白除了蛋白除了蛋白质质质质序列数据之外,序列数据之外,序列数据之外,序列数据之外,PIRPIR还还还还包含以下信息:包含以下信息:包含以下信息:包含以下信息:(1)(1)蛋白蛋白蛋白蛋白质质质质名称、蛋白名称、蛋白名称、蛋白名称、蛋白质质质质的分的分的分的分类类类类、蛋白、蛋白、蛋白、蛋白质质质质的来源;的来源;的来源;的来源;(2)(2)关于原始数据的参考文献;关于原始数据的参考文献;关于原始数据的参考文献;关于原始数据的参考文献;(3)(3)蛋白蛋白蛋白蛋白质质质质功能和蛋白功能和蛋白功能和蛋白功能和蛋白
17、质质质质的一般特征,包括基因表达、翻的一般特征,包括基因表达、翻的一般特征,包括基因表达、翻的一般特征,包括基因表达、翻译译译译后后后后处处处处理、活化等;理、活化等;理、活化等;理、活化等;(4)(4)序列中相关的位点、功能区域。序列中相关的位点、功能区域。序列中相关的位点、功能区域。序列中相关的位点、功能区域。NCBI*34PIR提供三种类型的检索服务:一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FastA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。NCBI*35三个子数据库NCB
18、I*362、SWISS-PROT SWISS-PROT()是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的 SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据 NCBI*37 (1)注释注释在SWISS-PROT中,数据分为核心数据和注释两大类。核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)注释包括:(A)蛋白质的功能描述;(B)翻译后修饰;(C)域和功能位点;(D)蛋白质的二级结构;(E)蛋白质的四级结构;(F)与其它
19、蛋白质的相似性;(G)由于缺乏该蛋白质而引起的疾病;(H)序列的矛盾、变化等。SWISS-PROT有三个明显的特点:(2)最小冗余)最小冗余(3)与其它数据库的连接)与其它数据库的连接NCBI*38NCBI*39NCBI*40 提交序列数据提交序列数据(a)编辑电编辑电子表格子表格(b)利用利用Authorin程序程序(c)WWW服服务务器器 使用使用SWISS-PROT(a)CD-ROM形式形式(b)ftp服服务务器器(c)Gopher服服务务器器(d)WWW服服务务器(器(SRS)与序列相关的操作与序列相关的操作(a)序列)序列查询查询(b)搜索同源蛋白)搜索同源蛋白质质序列序列NCBI*
20、41TrEMBL()包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。TrEMBL有两个部分:(1)SP-TrEMBL(SWISS-PROT TrEMBL)(2)REM-TrEMBL(REMaining TrEMBL)3、TrEMBLNCBI*42第四节第四节 生物大分子结构数据库生物大分子结构数据库1 1、PDBPDB(Protein Data BankProtein Data Bank)蛋白蛋白质质核酸核酸糖糖类类其它复合物其它复合物 n n一种是一种是显显式序列信息(式序列信息(explicit sequencee
21、xplicit sequence)n n一种是一种是隐隐式序列信息式序列信息(implicit sequence)(implicit sequence)NCBI*43Current Holding DataSubmit DataKeyword SearchIntroduction to selected molecular DataNCBI*44Download DataPDB File FormatRelated SoftwareNCBI*45HEADER HYDROLASE 19-FEB-97 1ADZ TITLE THE SOLUTION STRUCTURE OF THE SECOND
22、KUNITZ DOMAIN OF TITLE 2 TISSUE FACTOR PATHWAY INHIBITOR,NMR,30 STRUCTURES COMPND MOL_ID:1;COMPND 2 MOLECULE:TISSUE FACTOR PATHWAY INHIBITOR;。COMPND 8 BIOLOGICAL_UNIT:MONOMER SOURCE MOL_ID:1;。SOURCE 7 EXPRESSION_SYSTEM_PLASMID:PFLAG KEYWDS HYDROLASE,INHIBITOR,COAGULATION EXPDTA NMR,30 STRUCTURES AUT
23、HOR M.J.M.BURGERING,L.P.M.ORBONS REVDAT 1 25-FEB-98 1ADZ 0 JRNL AUTH M.J.BURGERING,L.P.ORBONS,A.VAN DER DOELEN,。REMARK 1 REFERENCE 1 REMARK 1 AUTH M.T.STUBBS II REMARK 1 TITL STRUCTURAL ASPECTS OF FACTOR XA INHIBITION 。REMARK 999 SEQUENCE REMARK 999 1ADZ SWS P10646 1-111 NOT IN ATOMS LIST REMARK 999
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息 数据库 类型
限制150内