分子生物信息数据库N.ppt
《分子生物信息数据库N.ppt》由会员分享,可在线阅读,更多相关《分子生物信息数据库N.ppt(65页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章第二章 分子生物信息数据库分子生物信息数据库1一、分子生物信息数据库简介(一)诞生背景(一)诞生背景生物分子数据生物分子数据高速增长高速增长 分子生物学分子生物学及相关领域研究人员及相关领域研究人员迅速获得最新实验数据迅速获得最新实验数据 建立分子生物数据库建立分子生物数据库 2v分子生物数据库应满足几个方面的分子生物数据库应满足几个方面的主要需求:主要需求:v(1 1)时间性)时间性v(2 2)注释)注释 v(3 3)数据质量)数据质量 v(4 4)集成性)集成性 3分子生物数据库具有几个明显的特征:分子生物数据库具有几个明显的特征:(1)数据库的更新速度不断加快)数据库的更新速度不断
2、加快 数据量呈指数增长趋势数据量呈指数增长趋势(2)数据库使用频率增长更快)数据库使用频率增长更快(3)数据库的复杂程度不断增加)数据库的复杂程度不断增加 SWISS-PROT(4)数据库网络化)数据库网络化(5)面向应用)面向应用(6)先进的软硬件配置)先进的软硬件配置4生生物物信信息息 学学数数据据库库 工工具具 染色体染色体核酸核酸蛋白质蛋白质基因组图谱基因组图谱DNA序列序列蛋白质序列蛋白质序列蛋白质结构蛋白质结构基因组基因组数据库数据库核酸序列核酸序列数据库数据库蛋白质序列蛋白质序列数据库数据库蛋白质结构蛋白质结构数据库数据库二二级级数数据据库库 复复合合数数据据库库基因组作图基因组
3、作图序列测定序列测定结构测定结构测定(二)、分子生物信息数据库种类(二)、分子生物信息数据库种类 5v生物信息数据库生物信息数据库 一级数据库一级数据库v数据库中的数据直接来源于实验获得的原始数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释数据,只经过简单的归类整理和注释 二级数据库二级数据库v对原始生物分子数据进行整理、分类的结果,对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的础上针对特定的应用目标而建立的 。6二、一级数据库简介二、一级数据库简介7(一)、基因组数据库(
4、一)、基因组数据库来源于人类基因组计划及各种模式生物基因组计划来源于人类基因组计划及各种模式生物基因组计划来源于人类基因组计划及各种模式生物基因组计划来源于人类基因组计划及各种模式生物基因组计划19771977年,最早获得的生物基因组全序列是噬菌体年,最早获得的生物基因组全序列是噬菌体年,最早获得的生物基因组全序列是噬菌体年,最早获得的生物基因组全序列是噬菌体(53kb)(53kb)891011 GDB(美国、加拿大)美国、加拿大)1990年,年,John Hopkins大学建立,后由加拿大儿童医院生物信息中大学建立,后由加拿大儿童医院生物信息中心管理心管理.数据内容:数据内容:数据内容:数据
5、内容:(1)包括细胞遗传学标记、易碎位点、)包括细胞遗传学标记、易碎位点、EST、contigs、重复片段、重复片段等;等;(2)包含细胞遗传学图谱、连锁图谱、转录图谱,所有这些图谱都)包含细胞遗传学图谱、连锁图谱、转录图谱,所有这些图谱都可以被直观地显示出来;可以被直观地显示出来;(3)包括基因突变和基因多态性等数据;)包括基因突变和基因多态性等数据;(4)与其它分子生物信息网络资源()与其它分子生物信息网络资源(EMBL、GenBank)的链接。的链接。http:/www.gdb.org 1213 AceDB 线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。线虫基因组数据库。既是
6、一个数据库,又是一个数据库管理系统。提供很好的图形界面,用户能够从大到整个基因组、小到单个序列提供很好的图形界面,用户能够从大到整个基因组、小到单个序列 的各个层次观察和分析基因组数据。的各个层次观察和分析基因组数据。http:/数据内容:数据内容:数据内容:数据内容:限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献1415(二)、序列数据库(二)、序列数据库1.原始序列数据原始序列数据(sequence data)2.描述这些数据生物学信息的注释描述这些数据生物学信息的注释(annotation)161、核酸序列数据库、核酸序列数据
7、库(1)欧洲分子生物学实验室的EMBL(European Molecular Biology Laboratory)(2)美国生物技术信息中心(National Center for Biotechnology Information)的GenBank http:/(3)日本遗传研究所的DDBJ(DNA Data Base of Japan)http:/17 三个数据库中的数据基本一致,仅在数据三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数格式上有所差别,对于特定的查询,三个数据库的响应结果一样。据库的响应结果一样。GenBankDDBJEMBL18192、EMBL
8、和和GenBank数据库格式数据库格式序列条目由两部分组成:序列条目由两部分组成:1.核苷酸碱基排列顺序核苷酸碱基排列顺序(sequence data)2.注释注释(annotation)20“ID”为序列的标识符行,包括登录号、类型,分子的长度“AC”为登录号行;“XX”为分隔符号行;“DT”为创建和更新日期行“DE”为序列描述行;“KW”为关键字行;“OG”行描述细胞组织;“OS”行描述生物体种属;“OC”行描述生物体分类信息;“RN”描述参考文献的编号;“RP”描述参考文献的页码;“RA”描述参考文献的作者;“RT”描述参考文献的题目;“RL”描述参考文献的出处;“RC”描述参考文献的注
9、解;“RX”、“DR”行描述交叉引用信息;文件体由序列本身所组成,由“SQ”标志的行开始。序列结束的标记是“/”。EMBL的序列数据用外在的ASCII文本文件来表示,而每一个文件分为文件头和文件体两大部分 文件头由一系列的信息描述行所组成,文件头实际上对应于一个序列的注释(annotation)21EMBL标识字标识字GenBank标识字标识字含义含义IDLOCUS序列名称序列名称DEDEFINITION序列简单说明序列简单说明ACACCESSION唯一的序列编号唯一的序列编号SVVERSION序列版本号序列版本号KWKEYWORDS与序列相关的关键词与序列相关的关键词OSSOURCE序列来源
10、的物种名序列来源的物种名OCORGANISM序列来源的物种学名和分类学位置序列来源的物种学名和分类学位置DT建立日期建立日期RNREFERENCE相关文献编号或提交注册信息相关文献编号或提交注册信息RAAUTHORS相关文献作者或提交序列作者相关文献作者或提交序列作者RTTITLE相关文献题目相关文献题目RLJOURNAL相关文献刊物名或作者单位相关文献刊物名或作者单位RXMEDLINE相关文献相关文献Medline引文代码引文代码RCREMARK相关文献注释相关文献注释RP相关文献其它注释相关文献其它注释CCCOMMENT关于序列的注释信息关于序列的注释信息DR相关数据库交叉引用号相关数据库
11、交叉引用号FHFEATURES序列特征表起始序列特征表起始FT序列特征表子项序列特征表子项SQBASE CONTENT序列长度、碱基数目统计数序列长度、碱基数目统计数空格空格ORIGIN序列序列/序列结束标志、空行序列结束标志、空行EMBLEMBL和和和和GenBankGenBank数据库的行识别标志比较数据库的行识别标志比较数据库的行识别标志比较数据库的行识别标志比较头头头头部部部部特特特特性性性性序序序序列列列列223、蛋白质序列数据库、蛋白质序列数据库 PIRPIR(美国美国)SWISSSWISSPROTPROT(欧洲欧洲)23 PIR(protein information resou
12、rce)(protein information resource)1.1984年年“蛋蛋白白质质信信息息资资源源”(protein protein information information resourceresource,PIRPIR)计计划启动划启动;2.1988年,美国生物医学基金会年,美国生物医学基金会NBRF、日本的国际蛋白质信息数据库、日本的国际蛋白质信息数据库和德国的慕尼黑蛋白质序列信息中心合作成立了国际蛋白质信息中心和德国的慕尼黑蛋白质序列信息中心合作成立了国际蛋白质信息中心(PIR-International),共同收集和维护蛋白质序列数据库,共同收集和维护蛋白质序列
13、数据库PIR;网址:网址:http:/www-/2425目的:目的:帮助研究者鉴别和解释蛋白质序列信息,帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组。研究分子进化、功能基因组。它是一个全面的、经过注释的、非冗余的蛋白它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。质序列数据库。所有序列数据都经过整理,超过所有序列数据都经过整理,超过99%的序列已的序列已按蛋白质家族分类,一半以上还按蛋白质超家按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。族进行了分类。PIRPIR(Protein Information ResourceProtein Information Re
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分子 生物 信息 数据库
限制150内