生物信息数据库.ppt
生物信息数据库计算机应用生物信息数据库与生物信息中心生物信息数据库l生命信息学生命科学与计算机技术的交叉。l生物信息学的研究内容:(1)生物信息中心(2)生物信息数据库及格式。l生物信息数据的检索工具Entrezl文献的检索与管理软件Reference managerl序列同源搜索分析工具Blastl核酸、蛋白质序列比对分析软件DS geneDNASISl生物大分子空间三维结构显示与分析软件Rasmoll生物图像对比分析软件Scion Image(NIH image)l生物科学数据处理软件Origin1.重要生物信息中心2.重要生物信息数据库3.数据库检索工具4.生物分析相关软件生物信息研究内容生物信息研究内容生物信息数据库生物信息数据库NCBI National Center for Biotechnology Information(US)EBI European Bioinformatics Institute(EU)DDBJ DNA Data Bank of Japan(JP)ExPASy Expert of Protein Analysis System(Switzerland)PDB Protein Data Bank(US)CBIPKU 北京大学生物信息中心(CN)BioSino 中国生物信息中心(CN)生物信息数据库生物信息数据库生物信息数据库生物信息数据库生物信息数据库生物信息数据库生物信息数据库生物信息数据库生物信息数据库生物信息学数据的表示形式生物信息学数据的表示形式生物信息数据库生物信息数据库l平面文件平面文件(flat-file)信息在文件中顺序存放且具有特定格式记录(Entry)通过“获得号”(accession#)唯一确定同一文件间和不同文件间信息的联系均通过accession#实现l关系数据库关系数据库(relational DB)基于实体联系模型(E-R模型)表中的记录(record/tuple)键唯一确定表之间通过外键建立联系生物信息数据库生物信息数据库semanticmappingAttributesRelations查询查询语义映射语义映射和处理过程和处理过程结果结果语义匹配语义匹配生物信息数据库生物信息数据库l信息源分布在世界各地不同的站点上l涉及多个数据源的全局问题无法立刻得到答案Painfully collecting unstructured information around the sitesManually putting pieces togetherHopefully getting the right picture.l总之,信息源的特点是:自治的(autonomous)分布式的(distributed)异构的(heterogeneous)数据集成数据集成Data Integration生物信息数据库XMLXMLSite ASite BData Integration生物信息数据库生物信息数据库生物信息数据库生物信息数据库生物数据库的种类生物数据库的种类序列数据库序列数据库 l核酸序列数据库核酸序列数据库(EMBL、GenBank、DDBJ)l常用蛋白质序列数据库常用蛋白质序列数据库(Swissprot,PIR)结构数据库结构数据库 l蛋白质结构数据库蛋白质结构数据库(PDB)l蛋白质分类数据库蛋白质分类数据库(SCOP、CATH)其它数据库其它数据库 生物数据库的种类生物数据库的种类生物信息数据库生物信息数据库l主要核酸序列数据库主要核酸序列数据库:GenBank、EMBL、DDBJl主要蛋白质序列数据库主要蛋白质序列数据库:Swissprot,PIRl 美国的核酸数据库美国的核酸数据库GenBankBanson,D.A.et al.(1998)Nucleic Acids Res.26,1-7从从1979年开始建设,年开始建设,1982年正式年正式运行;运行;l欧洲分子生物学实验室的欧洲分子生物学实验室的EMBL数据库也于数据库也于1982年开始服务年开始服务l日本于日本于1984年开始建立国家级的核酸数据库年开始建立国家级的核酸数据库DDBJ,并于,并于1987年正式服务。年正式服务。从那个时候以来,从那个时候以来,DNA序列的数据已经从序列的数据已经从80年代初期的百年代初期的百把条序列,几十万碱基上升至现在的把条序列,几十万碱基上升至现在的110亿碱基!这就是说,亿碱基!这就是说,在短短的约在短短的约18年间,数据量增长了近十万倍。年间,数据量增长了近十万倍。核酸序列数据库核酸序列数据库生物信息数据库生物信息数据库l核酸序列是由4种核苷酸的单字母(ATGC)符号排成的序列。生物信息数据库生物信息数据库lSWISS-PROT和和PIR是是国国际际上上二二个个主主要要的的蛋蛋白白质质序序列列数数据据库库,目目前前这这二二个个数数据据库库在在EMBL和和GenBank数数据据库库上上均均建建立立了了镜镜像像(mirror)站站点点。SWISS-PROT数数据据库库包包括括了了从从EMBL翻翻译译而而来来的的蛋蛋白白质质序序列列,这这些些序序列列经经过过检检验验和和注注释释。PIR数数据据库库的的数数据据由由美美国国家家生生物物技技术术信息中心信息中心(NCBI)翻译自翻译自GenBank的的DNA序列序列。生物信息数据库生物信息数据库lMNIQQLALQNIKGNWRNYKVFFLSSCFAIFASFAYMSVIVHPYMKETMWYQNVRWGLIICNIIIISFFIIFILYSTSIFIEARKKELGLYMLMGATKSNVIGVIMTEQMLIGVFANIFGIGLGIIFLKLFFMVFSMLLGLPKELPIIFDVRAIGGTFIAYMVVFVVLSFISALRIWNIKIIRLLKEFRTDKKEKKTSMRLCIFGLICLGIGYALALQTTMPTIAFYFFPVSILVFFGTYFSFTHGTAQILELIKRNKKIMYTYPYLFIVNQLSHRMKENGRFFFLMSMATTFVVTATGTVFLYFSGMQDMWRGGGVHSFSYIEKGTSSHEVFAEGMVEQLLHQYGYDDFQSMSFVGVYASFQSSKGETEIATLMKESEYNQEARKQGQKTYHPKKGSVTLVYYNKYNHPNMYDQKEIQLQVMNQTYSFVFNGQKEGIQFNYHPSQINGLFFVMHDEDFDGIANKVPDSEKMIYRGYTLPNIENTKELNEDLRKHMKQDDNNAFRSNMELYVNMKAFGDITLFVGSFISILFFLTSCSIVYFKWFHNIASDRKEYGALSKLGMTKEEVWRISRWQLCMLFFAPIIVGSMHSAVALYTFHNTIFMDGSLRKVGLFILFYIAACIMYFFFAQREYRKHLDl蛋白质序列是由20种氨基酸的单字母符号排成的序列。蛋白质数据库种类和特点蛋白质数据库种类和特点名称名称维护单位维护单位注释注释冗余度冗余度数据量数据量更新更新PIRNCBI、JIPID、MIPS部分完善部分完善较大较大较大较大较慢较慢SwissProtEBI、SIB完善完善小小不大不大较慢较慢NRL3DNCBI完善完善小小小小较慢较慢TrEMBLEBI、SIB不完善不完善大大大大快快GenPeptNCBI不完善不完善大大大大快快NRDBEBI一般一般小小大大较快较快OWLHGMP一般一般小小大大较慢较慢生物信息数据库生物信息数据库l蛋白质结构数据库蛋白质结构数据库 lPDB l蛋白质分类数据库蛋白质分类数据库 lSCOP和和CATH生物信息数据库生物信息数据库l实实验验获获得得的的三三维维蛋蛋白白质质结结构构均均贮贮存存在在蛋蛋白白质质数数据据库库PDB()中中。PDB是是国国际际上上主主要要的的蛋蛋白白质质结结构构数数据据库库,虽虽然然它它没没有有蛋蛋白白质质序序列列数数据据库库那那么么庞庞大大,但但其其增增长长速速度度很很快快。PDB贮贮存存有有由由X射线和核磁共振射线和核磁共振(NMR)确定的结构数据。确定的结构数据。生物信息数据库蛋白质结构蛋白质结构l蛋白质结构存放着构成蛋白质分子的所有原子的三维空间坐标值。生物信息数据库生物信息数据库lSCOP(Structural Classification of Proteins)lCATH(Class,Architecture,Topology,Homology)生物信息数据库生物信息数据库l描述了结构和进化结构和进化关系。lSCOP数据库从不同层次从不同层次对蛋白质结构进行分类,以反映它们结构和进化的相关性。l第一个分类层次为家族,通常将序列相似性程度在序列相似性程度在30%以上以上的蛋白质归入同一家族,有比较明确的进化关系。l超家族:序列相似性较低,结构和功能特性结构和功能特性表明它们有共同的进化起源,将其视作超家族。l折叠类型:无论有无共同的进化起源,只要二级结构单二级结构单元具有相同的排列和拓扑结构元具有相同的排列和拓扑结构,即认为这些蛋白质具有相同的折叠方式。在这些情况下,结构的相似性主要依赖于二级结构单元的排列方式或拓扑结构。生物信息数据库生物信息数据库l类型Class、构架Architecture、拓扑结构Topology和同源性Homology。l分类基础是蛋白质结构域蛋白质结构域。与SCOP不同的是,CATH把蛋白质分为4类,即a a主类、主类、b b主类,主类,a-ba-b类(类(a/ba/b型型和和a+ba+b型)和低二级结构类型)和低二级结构类。低二级结构类是指二级结构成分含量很低的蛋白质分子。lCATH数据库的第二个分类第二个分类依据为由螺旋和折叠形成的超二级结构排列方式超二级结构排列方式,而不考虑它们之间的连接关系。l第三个层次为拓扑结构拓扑结构,即二级结构的形状和二级结构间的联系。l第四个层次为结构的同源性结构的同源性,它是先通过序列比较然后再用结构比较来确定的。lCATH数据库的最后一个层次为序列序列(Sequence)层次层次,在这一层次上,只要结构域中的序列同源性大于35%,就被认为具有高度的结构和功能的相似性。对于较大的结构域,则至少要有60%与小的结构域相同。蛋白质结构分类数据库蛋白质结构分类数据库CATH生物信息数据库生物信息数据库lGDB l人类基因组数据库人类基因组数据库lAceDB l线虫线虫(Caenorhabditis elegans)基因组数据库基因组数据库生物信息数据库生物信息数据库lEntrezlSRSlEntrez-GenBank生物信息数据库(Sequence Retrieval System)SRS是欧洲分子生物学网EMBnet的主要检索工具。SRS,Sequence Retrieval System,is a powerful database management system developed specifically for biological databases.The goal of SRS is to provide an efficient access to databases with biological contents no matter in what format are they available and allowing for complex search criteria.数据库记录的格式与检索路口生物信息数据库l由于历史原因,各种生物数据库采用了不同的信息格式不同的信息格式,许多生物计算机软件也要求特定的核酸和蛋白质序列输特定的核酸和蛋白质序列输入格式入格式。l一个数据库记录(entry)一般由两部分组成:原始序列数原始序列数据据和描述这些数据生物学信息的注释生物学信息的注释(annotation)。注释中包含的信息与相应的序列数据同样重要和有应用价值,值得注意。l序列部分和注释部分两者都有固定格式,以便计算机读取。各个数据库的具体格式又有所不同,大致分成GenBank和和EMBL两种风格。GenBank格式格式生物信息数据库生物信息数据库GenBank格式:格式:每个条目都是一份纯文本文件纯文本文件。每行左端或为空格或为识别字,识别字均为完整英文字,不用缩写。为了同embl对照,一并列在下表中。GenBank条目,使用一大批与EMBL和DDBJ数据库统一的关键字。格式可以分成3个部分:1)头部包含关于整个序列的信息(描述字符),从头部包含关于整个序列的信息(描述字符),从 LOCUS行到行到ORIGIN行行;2)注释这一序列的特性()注释这一序列的特性(Feature Table),为注释的核心部分;),为注释的核心部分;3)序列本身)序列本身(Sequence)。注:所有的核苷酸数据库记录(EMBL/GenBank/DDBJ)都在最后一行以/结尾。EMBL格式格式生物信息数据库生物信息数据库EMBL格式:格式:欧洲分子生物学EMBL数据库的每个条目是一份纯文本纯文本文件文件,每一行最前面是由两个大写字母组成两个大写字母组成的识别标志,常见的识别标志列举在后面的表中。识别标志“特性表”FT包含一批关键字,它们的定义已经与GenBank和DDBJ统一。下欧洲国家的许多数据库如SWISS-PROT、ENZYME、TRANSFAC等,都采用与EMBL一致的格式。生物信息数据库EMBL识别标志 GenBank识别字 意义ID LOCUS 序列名称DEDEFINITION序列简单说明AC ACCESSION 唯一的提取号OSSOURCE序列来源的物种名OC ORGANISM 序列来源的物种学名和分类学位置DT 建立日期 KW KEYWORDS与序列相关的关键词RNREFERENCE相关文献编号,或递交序列的注册信息RAAUTHORS相关文献作者,或递交序列的作者RTTITLE相关文献题目RLJOURNAL引文出处相关文献刊物杂志名,或递交序列的作者单位RXMEDLINE 相关文献Medline引文代码RP相关文献其它注释生物信息数据库EMBL识别标志 GenBank识别字 意义RCREMARK相关文献注释DR相关数据库交叉引用号XX为阅读清晰而加的空行 CC COMMENT 评注 NI VERSION 可更新的序列版本号 FH FEATURES 序列特征表起始FT FEATURES 特性表 SQ EMBL序列开始标志,后随长度、字母数 BASE COUNT GenBank碱基数目 ORIGIN GenBank序列开始标志,该行空/序列结束标志,空行 生物信息数据库LOCUS AF062069 3808 bp mRNA INV 02-MAR-2000DEFINITION Limulus polyphemus myosin III mRNA,complete cds.ACCESSION AF062069VERSION AF062069.2 GI:7144484KEYWORDS .SOURCE Atlantic horseshoe crab.ORGANISM Limulus polyphemus Eukaryota;Metazoa;Arthropoda;Chelicerata;Merostomata;Xiphosura;Limulidae;Limulus.REFERENCE 1 (bases 1 to 3808)AUTHORS Battelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.and Smith,W.C.TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J.Neurosci.(1998)In pressREFERENCE 2 (bases 1 to 3808)AUTHORS Battelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.and Smith,W.C.TITLE Direct Submission JOURNAL Submitted(29-APR-1998)Whitney Laboratory,University of Florida,9505 Ocean Shore Blvd.,St.Augustine,FL 32086,USAREFERENCE 3 (bases 1 to 3808)AUTHORS Battelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.and Smith,W.C.TITLE Direct Submission JOURNAL Submitted(02-MAR-2000)Whitney Laboratory,University of Florida,9505 Ocean Shore Blvd.,St.Augustine,FL 32086,USA REMARK Sequence update by submitterCOMMENT On Mar 2,2000 this sequence version replaced gi:3132700.FEATURES Location/Qualifiers source 1.3808 /organism=Limulus polyphemus /db_xref=taxon:6850 /tissue_type=lateral eye CDS 258.3302 /note=N-terminal protein kinase domain;C-terminal myosin heavy chain head;substrate for PKA /codon_start=1 /product=myosin III /protein_id=AAC16332.2 /db_xref=GI:7144485 /translation=MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKQA NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWLGI EFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAVQYLHENSIIHRDIRAANIMF SKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNYTCDVWSIG ITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYR PCIQEIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQ BASE COUNT 1201 a 689 c 782 g 1136 tORIGIN 1 tcgacatctg tggtcgcttt ttttagtaat aaaaaattgt attatgacgt cctatctgtt 3781 aagatacagt aactagggaa aaaaaaaa/生物信息数据库LOCUS AF062069 3808 bp mRNA INV 02-MAR-2000生物信息数据库生物信息数据库位置,提取号,版本DEFINITION Limulus polyphemus myosin III mRNA,complete cds.GB DivisionLocus名字简单描述(标题)修改日期序列类型mRNA(=cDNA)rRNAsnRNADNA序列长度VERSION AF062069.2 GI:7144484ACCESSION AF062069提取号Accession.versiongi number生物信息数据库生物信息数据库KEYWORDS .SOURCE Atlantic horseshoe crab.ORGANISM Limulus polyphemus Eukaryota;Metazoa;Arthropoda;Chelicerata;Merostomata;Xiphosura;Limulidae;Limulus.序列来源的物种名序列来源的物种名序列来源的物种学序列来源的物种学名和分类学位置名和分类学位置可更新的序可更新的序列版本号列版本号REFERENCE 1 (bases 1 to 3808)AUTHORS Battelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.and Smith,W.C.TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J.Neurosci.(1998)In pressREFERENCE 2 (bases 1 to 3808)AUTHORS Battelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.and Smith,W.C.TITLE Direct Submission JOURNAL Submitted(29-APR-1998)Whitney Laboratory,University of Florida,9505 Ocean Shore Blvd.,St.Augustine,FL 32086,USAREFERENCE 3 (bases 1 to 3808)AUTHORS Battelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.and Smith,W.C.TITLE Direct Submission JOURNAL Submitted(02-MAR-2000)Whitney Laboratory,University of Florida,9505 Ocean Shore Blvd.,St.Augustine,FL 32086,USA REMARK Sequence update by submitterCOMMENT On Mar 2,2000 this sequence version replaced gi:.生物信息数据库以前版本号以前版本号相关文献编号,或递相关文献编号,或递交序列的注册信息交序列的注册信息相关文献作者,或相关文献作者,或递交序列的作者递交序列的作者相关文献题目相关文献题目引文出处引文出处相关文献刊物相关文献刊物杂志名,或递交序列杂志名,或递交序列的作者单位的作者单位相关文献注释相关文献注释评注评注FEATURES Location/Qualifiers source 1.3808 /organism=Limulus polyphemus /db_xref=taxon:6850 /tissue_type=lateral eye CDS 258.3302 /note=N-terminal protein kinase domain;C-terminal myosin heavy chain head;substrate for PKA /codon_start=1 /product=myosin III /protein_id=AAC16332.2 /db_xref=GI:7144485 /translation=MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDK NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWL生物信息数据库编码序列编码序列Biosource阅读框阅读框GenPept Protein IdentifiersBASE COUNT 1201 a 689 c 782 g 1136 tORIGIN 1 tcgacatctg tggtcgcttt ttttagtaat aaaaaattgt attatgacgt cctatctgtt 3721 accaatgtta taatatgaaa tgaaataaag cagtcatggt agcagtggct gtttgaaata 3781 aagatacagt aactagggaa aaaaaaaa/生物信息数据库记录结束标记记录结束标记指示序列数据的起始GenBank碱基数目生物信息数据库分子类别分子类别-水解酶类水解酶类(氧连接糖(氧连接糖基化)基化)该文件该文件的公布的公布日期日期 该物质的该物质的pdb代码代码 该化合物名该化合物名称人类唾液称人类唾液淀粉酶淀粉酶 该化合该化合物的来物的来源源 结构测定结构测定者名字者名字 REMARK是此是此pdb文件的文件的参考书目、最大分辨率、参考书目、最大分辨率、注解等注解等 生物信息数据库l下图中1处指出蛋白质原子数为3946,2处指出核酸原子数为0,3处指出异型原子数为2,4处指出溶剂原子数为169 指出蛋白质原子数核酸原子数异型原子数溶剂原子数生物信息数据库lEQRES部分表示了该分子包含496个氨基酸残基,并将每个残基符号依次列出:生物信息数据库l下面的HELIX部分显示的是分子中螺旋的组成和信息,如下图:生物信息数据库l然后下面就是折叠的组成和信息了,如下图:生物信息数据库l下面就是该分子的原子信息了,我们先给出Format列的格式列表,然后进行一下详细的说明,如下图:列号 目录 fmt 1-6 ATOM或HETATM All 7-11 原子序列号(可以有空格)All 13-16 按IUPAC标准格式的原子名称All 17 构象标识符,用A,B,C表示All 18-20按IUPAC标准格式的残基名称 All 23-26残基序列号 All 27插入残基的编码(如:66A&66B)All 31-38X坐标轴 All 39-46Y坐标轴 All 47-54 Z坐标轴 All 55-60 位置 All 61-66 温度因子 All 68-70 脚注编号 9273-76 片段指示符(左对齐)9677-78 元素符号(右对齐)9679-80 原子带的电荷 96生物信息数据库表表示示所所指指为为原原子子 该该原原子子序序列列号号 IUPAC标标准格准格式的式的原子原子名称名称 残残基基名名称称残残基基序序列列号号原原子子的的X坐坐标标轴轴Y坐坐标标轴轴Z坐坐标标轴轴位位置置温温度度因因子子片段指示符生物信息数据库lTER记录,它记录主链分子中的链末端,在TER后面的HETATM就是记录异型原子的信息。l在HETATM记录的后面还有一些CONECT记录。CONECT详细的描述了已给出坐标的原子间的连通性。而这种连通性是以该记录的原子序列号的形式表现的。CONECT记录是用来描述那些非标准残基(包括水)和那些在标准连通性表中没有被详细列出的键。l 最后,在整个文件的结尾还有一个END记录表示文件的结束。Knowledge Discovery in DatabasesData WarehousePrepareddataDataCleaningIntegrationSelectionTransformationDataMiningPatternsEvaluationVisualizationKnowledgeKnowledgeBase生物信息数据库生物信息数据库生物信息数据库