生物信息学资源检索.ppt
《生物信息学资源检索.ppt》由会员分享,可在线阅读,更多相关《生物信息学资源检索.ppt(53页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、生物信息学资源检索生物信息学资源检索2生物信息学资源检索生物信息学资源检索一一生物信息学数据库的类型生物信息学数据库的类型 二二生物信息数据收集与存贮生物信息数据收集与存贮 三三生物信息学数据库的查找生物信息学数据库的查找3生物信息学资源检索生物信息学资源检索文献数据库文献数据库 突变数据库突变数据库 图谱数据库图谱数据库 结构数据库结构数据库 序列数据库序列数据库 类型类型按收录信息内容分按收录信息内容分 4生物信息学资源检索生物信息学资源检索(一)生物信(一)生物信息数据的收集息数据的收集 生物信息数据生物信息数据收集与存贮收集与存贮(二)生物信(二)生物信息数据的存贮息数据的存贮 5生物
2、信息学资源检索生物信息学资源检索数据库与数据库合作数据库与数据库合作数据库与测序中心合作数据库与测序中心合作数据库与期刊合作数据库与期刊合作 建库的初期建库的初期 4数据交换数据交换 3成批发送成批发送 2直接发送直接发送 1人工收集人工收集 6生物信息学资源检索生物信息学资源检索1记录格式记录格式主要有:主要有:EMBL格式、格式、GenBank格格式式存贮格式存贮格式2序列格式:序列格式:FASTA格式,格式,又称又称Pearson格式格式 生物信息学资源检索生物信息学资源检索v通过搜索引擎查找通过搜索引擎查找 v通过专门的生物信息学数据库目录查询通过专门的生物信息学数据库目录查询从200
3、0年开始,Nucleic Acids Research 设立了一个数据库目录()。v通过生物信息学中心资源导航查询通过生物信息学中心资源导航查询一些著名的生物信息学中心不仅自己建立和维护大量的生物信息数据库,而且一般在网上提供资源导航。8生物信息学资源检索生物信息学资源检索vGenBank:由美国国家生物技术信息中心:由美国国家生物技术信息中心(NCBI)管理和维护大型、综合性的公共核酸管理和维护大型、综合性的公共核酸序列数据库,包括所有已知的核酸序列和蛋白序列数据库,包括所有已知的核酸序列和蛋白质序列,以及与它们相关的文献和生物学注释。质序列,以及与它们相关的文献和生物学注释。v网址:网址:
4、9生物信息学资源检索生物信息学资源检索INSDCINSDC DDBJDDBJ EMBLEMBL GenBankGenBank 生物信息学资源检索生物信息学资源检索vEntrez是是NCBI生物信息学数据库集成检索系统,生物信息学数据库集成检索系统,可以检索以下生物信息学数据库。可以检索以下生物信息学数据库。生物信息学资源检索生物信息学资源检索v例如,查找例如,查找H1N1流感病毒(流感病毒(H1N1 Flu Virus)的核酸序列。其检索步骤是:)的核酸序列。其检索步骤是:生物信息学资源检索生物信息学资源检索生物信息学资源检索生物信息学资源检索生物信息学资源检索生物信息学资源检索生物信息学资源
5、检索生物信息学资源检索16生物信息学资源检索生物信息学资源检索一一蛋白质序列数据库蛋白质序列数据库 二二蛋白质结构数据库蛋白质结构数据库 三三蛋白质功能数据库蛋白质功能数据库17生物信息学资源检索生物信息学资源检索(三)(三)TrEMBL(四)(四)GenPept(二)(二)SWISS-PROT(一)(一)PIR(五)(五)UniProt(六)(六)OWL 生物信息学资源检索生物信息学资源检索v创建于创建于1984年。年。v1988年,美国年,美国NBRF、日本国际蛋白质信息数据库(、日本国际蛋白质信息数据库(Japan International Protein Information Da
6、tabase,JIPID)与)与德国的慕尼黑蛋白质序列信息中心(德国的慕尼黑蛋白质序列信息中心(Munich Information Center for Protein Sequences,MIPS)合作成立国际蛋白质序)合作成立国际蛋白质序列信息中心(列信息中心(PIR-International)。)。v第第75.03版的版的PIR数据库按照数据的性质和注释详略分成四个子库:数据库按照数据的性质和注释详略分成四个子库:PIR1、PIR2、PIR3和和PIR4。PIR1中的序列已经验证,注释最为详尽;PIR2中包含尚未确定的冗余序列;PIR3中的序列尚未加检验,也未加注释;PIR4包括其他
7、渠道获得的序列,既未验证,也无注释。v网址:网址:生物信息学资源检索生物信息学资源检索生物信息学资源检索生物信息学资源检索v创建于创建于1986年年v由瑞士生物信息学研究所(由瑞士生物信息学研究所(Swiss Institute of Bioinformatics,SIB)和欧洲生物信息研究所)和欧洲生物信息研究所(EBI)共同维护和管理。)共同维护和管理。v1994年,年,SIB创建蛋白质专家分析系统创建蛋白质专家分析系统(Expert Protein Analysis System,ExPASy)(),除了开,除了开发、维护和管理发、维护和管理SWISS-PROT数据库外,还提供蛋白数据库
8、外,还提供蛋白质序列、结构、功能和蛋白质质序列、结构、功能和蛋白质2D-PAGE图谱等蛋白质信图谱等蛋白质信息资源息资源v到到2009年年10月,月,SWISS-PROT(57.11版)收录了版)收录了512994条序列,包含条序列,包含180531504个氨基酸。个氨基酸。v网址:网址:生物信息学资源检索生物信息学资源检索v创建于创建于1996年,意即年,意即“Translation of EMBL”,是计算机,是计算机翻译并注释的蛋白质序列数据库,收录的序列是从翻译并注释的蛋白质序列数据库,收录的序列是从EMBL中的中的cDNA序列翻译得到的。记录采用序列翻译得到的。记录采用SWISS-P
9、ROT数据库格数据库格式。式。vTrEMBL分为两个部分:分为两个部分:SP-TrEMBL和和REM-TrEMBL。SP-TrEMBL的条目已经专家分类并且给予SWISS-PROT存取号,但尚未通过人工审查,最终将收入SWISS-PROT。REM-TrEMBL包含其他剩余序列,主要是免疫球蛋白、T细胞受体、少于8个氨基酸碱基的多肽、人工合成序列、专利序列等。v 生物信息学资源检索生物信息学资源检索v由由GenBank中的中的cDNA序列翻译得到的蛋白质序列翻译得到的蛋白质序列数据库。序列数据库。v网址:)网址:)生物信息学资源检索生物信息学资源检索v将将PIR、SWISS-PROT和和TrEM
10、BL3个蛋白质数据库个蛋白质数据库统一起来组建而成,包含统一起来组建而成,包含3个部分:个部分:(1)UniProt Knowledgebase(UniProtKB),这是蛋白质序列、功能、分类、交叉引用等蛋白质知识库,记录经过人工筛选和注释;(2)UniRef(UniProt Non-redundant Reference)数据库,将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50;(3)UniParc(UniProt Archive),是UniProt存档库,收录所有蛋白质序列。用户可以通过
11、文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。v网址:网址:生物信息学资源检索生物信息学资源检索v1994年由英国里兹(年由英国里兹(Leeds)大学和)大学和Warrington的的Daresbury国家实验室合作创国家实验室合作创建并维护的一个复合型数据库。建并维护的一个复合型数据库。v数据来源于数据来源于SWISS-PROT、PIR、GenPept、SWISS-PROT、PDB、NRL3D等数据库,去等数据库,去重后整合而成的非冗余蛋白质序列数据库。重后整合而成的非冗余蛋白质序列数据库。v网址:网址:生物信息学资源检索生物信息学资源检索vSWISSPRO
12、T的序列经过严格审核,注释完善,但数的序列经过严格审核,注释完善,但数量仍较少。量仍较少。vPIR数据量较大,但包含未经验证的序列,注释也不完数据量较大,但包含未经验证的序列,注释也不完善。善。vTrEMBL和和GenPept的数据量最大,且随核酸序列数的数据量最大,且随核酸序列数据库的更新而更新,但是由于据库的更新而更新,但是由于TrEMBL和和GenPept均是均是由核酸序列经过计算机程序翻译生成的,这两个数据库中由核酸序列经过计算机程序翻译生成的,这两个数据库中的序列错误率较大,并存在较多的冗余序列。的序列错误率较大,并存在较多的冗余序列。vOWL中的序列虽具有较好的代表性,但采用某些标
13、准中的序列虽具有较好的代表性,但采用某些标准取舍序列,导致某些数据不完整。取舍序列,导致某些数据不完整。vUniProt中的序列具有较好的代表性,数据较完整。中的序列具有较好的代表性,数据较完整。26生物信息学资源检索生物信息学资源检索(三)(三)DSSP (四)(四)HSSP (二)(二)MMDB(一)(一)PDB (五)(五)SCOP(六)(六)CATH 生物信息学资源检索生物信息学资源检索v创建于创建于1971年,是国际上最著名、最完整的蛋年,是国际上最著名、最完整的蛋白质三维结构数据库。白质三维结构数据库。v最先由美国最先由美国Brookhaven国家实验室负责维护和国家实验室负责维护
14、和管理,从管理,从1998年开始,由结构生物信息学合作年开始,由结构生物信息学合作研究协会研究协会(RCSB)负责管理。负责管理。v到到2009年年12月统计,月统计,PDB数据库已经收录了利数据库已经收录了利用用X线衍射、线衍射、NMR、电子显微镜实验数据或理论、电子显微镜实验数据或理论计算得出的蛋白质、核酸、蛋白质计算得出的蛋白质、核酸、蛋白质/核酸复合物核酸复合物等结构数据等结构数据61808条,而且数据增长速度相当快。条,而且数据增长速度相当快。生物信息学资源检索生物信息学资源检索vPDB数据库以文本文件格式存放数据,每条记数据库以文本文件格式存放数据,每条记录即是一个独立的文件,包括
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 资源 检索
限制150内