生物信息学数据库.ppt





《生物信息学数据库.ppt》由会员分享,可在线阅读,更多相关《生物信息学数据库.ppt(105页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、生物信息学数据库,生物信息学数据库,一:重要生物信息中心简介二:重要生物信息数据库生物数据库序列数据库flatfile格式三:数据库检索工具简介Entrez,SRS,一、生物信息数据库引言,生物分子数据高速增长,分子生物学及相关领域研究人员迅速获得最新实验数据,建立生物分子数据库,生物分子数据库应满足5个方面的主要需求,(1)时间性(2)注释(3)支撑数据(4)数据质量(5)集成性,生物分子数据库几个明显的特征:,(1)数据库的更新速度不断加快数据量呈指数增长趋势(2)数据库使用频率增长更快(3)数据库的复杂程度不断增加(4)数据库网络化(5)面向应用(6)先进的软硬件配置,生物分子数据库一级
2、数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的,二、重要生物信息中心BioinformaticsCentres,NCBINationalCenterforBiotechnologyInformation(US)http:/www.ncbi.nlm.nih.gov/EBIEuropeanBioinformaticsInstitute(EU)http:/www.ebi.ac.uk/EMBnetEuropeanMolecularBiologyNetwor
3、khttp:/www.embnet.orgHGMPHumanGenomeMappingProjectResourceCentre(UK)http:/www.hgmp.mrc.ac.uk,重要生物信息中心BioinformaticsCentres,ExPASyExpertofProteinAnalysisSystem(Switzerland)http:/www.expasy.ch/NIGNationalInstituteofGenetics(Japan)http:/www.ncgr.org/EMBLEuropeanMolecularBiologyLaboratory(Germany)http:/
4、www.embl-heidelberg.de/,NCBI,美国国家生物技术信息中心,http:/www.ncbi.nlm.nih.gov/,PubMed,PubMed(http:/www.ncbi.nlm.nih.gov/)是NCBI维护的生物学、医学文献引用数据库,提供对MEDLINE、Pre-MEDLINE等文献数据库的引用查询和对大量网络科学类电子期刊的链接。利用Entrez系统可以对PubMed进行方便的查询检索。,EMBL,欧洲分子生物学实验室,欧洲分子生物学网络组织(EMBnet)EuropeanMolecularBiologyNetwork,EMBnet为国际著名生物信息学组织,
5、为世界各国提供生物信息资源,并合作进行生物信息的研究、开发、应用和人才培训。,http:/www.embnet.org/,http:/www.embnet.org/,TheNationalnodes,DDBJ,日本核酸数据库,http:/www.ddbj.nig.ac.jp/,ExPaSy,瑞士蛋白质分析专家系统,http:/www.expasy.ch/,http:/www.expasy.ch/,http:/www.expasy.ch/,http:/www.hgmp.mrc.ac.uk/,http:/www.tigr.org/,http:/www.biosino.org/,三、重要生物信息数据
6、库,序列数据库(EMBL,GENBANK,SWISSPROT,PIR)结构数据库(PDB)基因组数据库(GDB,ACeDB)其它(EPD、TRANSTAC),生物数据库的种类,DBCat,DBCat是生物信息数据库的目录数据库,它收集了500多个生物信息学数据库的信息,并根据它们的应用领域进行了分类DNARNA蛋白质基因组图谱蛋白质结构文献著作等基本类型,,(http:/www.infobiogen.fr/services/dbcat/),http:/www.infobiogen.fr/services/dbcat/ftp:/ftp.infobiogen.fr/pub/db/dbcat,数据库
7、目录(一)Dbcat统计的生物信息数据库的数目,http:/nar.oupjournals.org/content/vo133/issue1/,序列数据库核酸序列数据库(EMBL、GenBank)常用蛋白质序列数据库(Swissprot,PIR)结构数据库蛋白质结构数据库(PDB)蛋白质分类数据库(SCOP,CATH)基因组数据库GDBACeDB二次数据库,序列数据库,主要核酸序列数据库:EMBL、GenBank,DDBJ主要蛋白质序列数据库:Swissprot,PIR,核酸序列数据库,国际上权威的核酸序列数据库(1)欧洲分子生物学实验室的EMBLhttp:/www.embl-heidelbe
8、rg.de(2)美国生物技术信息中心的GenBankhttp:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html(3)日本遗传研究所的DDBJhttp:/www.ddbj.nig.ac.jp/,核酸序列数据库,三个数据库中的数据基本一致,仅在数据格式上有所差别。对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。,美国的核酸数据库GenBankBanson,D.A.etal.(1998)NucleicAcidsRes.26,1-7从1979年开始建设,1982年
9、正式运行;欧洲分子生物学实验室的EMBL数据库也于1982年开始服务;日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务,InformationOverload,从那个时候以来,DNA序列的数据已经从80年代初期的百余条序列,几十万碱基上升至现在的100 x109碱基!这就是说,在短短的约23年间,数据量增长了近百万倍。,蛋白质数据库,蛋白质数据库,蛋白质数据库种类和特点,目的:帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质
10、超家族进行了分类。,1、PIR(ProteinInformationResource),除了蛋白质序列数据之外,PIR还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。,PIR提供三种类型的检索服务:一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FastA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。,三个子数据库,2、SWISS-PROT,SW
11、ISS-PROT(http:/www.expasy.ch/sprot/sprot-top.html)是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的,SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据,SWISS-PROT有三个明显的特点:,(1)注释在SWISS-PROT中,数据分为核心数据和注释两大类。核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)注释包括:(A)蛋白质的功能描述;(B)翻译后修饰;(C)域和功能位点
12、,如钙结合区域、ATP结合位点等;(D)蛋白质的二级结构;(E)蛋白质的四级结构,如同构二聚体、异构三聚体等;(F)与其它蛋白质的相似性;(G)由于缺乏该蛋白质而引起的疾病;(H)序列的矛盾、变化等。,(2)最小冗余,尽量将相关的数据归并,降低数据库的冗余程度。如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。,(3)与其它数据库的连接,对于每一个登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。,现有的交叉索引有:到EMBL核酸序列数据库的索引,到PROSITE模式数据库的索引,到生物大分子结构数据库PDB的索引等。,TrEMBL(http:/www.ebi
13、.ac.uk/trembl/index.html)是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。TrEMBL有两个部分:(1)SP-TrEMBL(SWISS-PROTTrEMBL)包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都已被赋予SWISS-PROT的登录号。(2)REM-TrEMBL(REMainingTrEMBL)包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。,3、TrEMBL,4、PROSITE,PROSIT
14、E(http:/www.expasy.ch/prosite/)是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。,包括:Swiss-ProtTrEMBLPIR用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。,5、蛋白质数据仓库UniProt,UniProt包含3个部分:(1)Un
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 数据库

限制150内