生物信息数据库(一)ppt课件.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《生物信息数据库(一)ppt课件.ppt》由会员分享,可在线阅读,更多相关《生物信息数据库(一)ppt课件.ppt(81页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第三章第三章 生物信息数据库生物信息数据库1、模式生物、模式生物2、数据库、数据库humanArabidopsis拟南芥拟南芥Thermotoga maritimaEscherichia coli大肠杆菌大肠杆菌Buchnerasp. APSRickettsia prowazekiiUreaplasma urealyticumBacillus subtilisDrosophila melanogasterThermoplasma acidophilumPlasmodium falciparumHelicobacter pylori mouseCaenorhabitis elegansratBo
2、rrelia burgorferiBorrelia burgorferiAquifex aeolicusNeisseria meningitidis Z2491Mycobacterium tuberculosis 人类基因组,模式生物基因组计划人类基因组,模式生物基因组计划 1990年启动,2003年完成。由美、日、德、法、英、中六国参加。测出人类约 碱基对的序列(相当于每页3,000个字母,共需100万页印完)。中国承担其中的 1%。 人类基因组,模式生物基因组计划人类基因组,模式生物基因组计划 酵母、线虫、果蝇、细菌共约已完成,水稻等正在进行。目前总量已达碱基对! 已经完成全序列测定的基因
3、组已经完成全序列测定的基因组中文名称中文名称数目数目备备 注注古细菌 10包括热自养甲烷菌、热球菌等真细菌 42其中5个细菌各测定了多个菌株真核生物 5酵母、线虫、果蝇、智人、拟南芥细胞器201质粒164 噬菌体 90包括不同亚类或不同菌株类病毒 36包括不同亚类或不同菌株病毒126包括不同亚类或不同菌株引自(Oct, 2001) http:/www.ebi.ac.uk/genomes/virusesplasmidsbacteriafungiplantsalgaeinsectsmollusksreptilesbirdsmammalsGenome sizes in nucleotide pair
4、s (base-pairs)10410810510610710111010109The size of the humangenome is 3 X 109 bp;almost all of its complexityis in single-copy DNA.The human genome is thoughtto contain 30,000 to 40,000 genes.bony fishamphibiansHomo sapiens 智人 寄生于细菌内的病毒寄生于细菌内的病毒 如:大肠杆菌噬菌体如:大肠杆菌噬菌体(coliphages) 遗传物质:单链遗传物质:单链/双链、环状双链
5、、环状/线状、线状、DNA/RNA 不具有细胞形态结构,仅由核酸和蛋白质构成;不具有细胞形态结构,仅由核酸和蛋白质构成; 如:人艾滋病毒如:人艾滋病毒HIV、SARS冠状病毒冠状病毒 体积小,体积小,10300nm; 严格的专性细胞内寄生;严格的专性细胞内寄生; 对抗生素不敏感。对抗生素不敏感。电子显微镜下的电子显微镜下的SARS冠状病毒冠状病毒100nmEscherichia coli大肠杆菌大肠杆菌是研究得最为详尽的一个模式生物。这种只有1.6微米长的、可以迅速繁殖的单细胞原核生物,已经成为实验室和基因工程的重要工具。Escherichia coli O157:H7Escherichia
6、coli K12Saccharomyces cerevisiae酿酒酵母真菌界的单细胞真核生物,有16个染色体。它的全基因组已在1996年测定。秀丽线虫Caenorhabditis elegans一种透明的、生活在海滩泥沙中的小虫。细胞数目一定:成虫细胞数目只有959个,其中包括302个神经元; 有6条染色体,全基因组于1998年测定,长9.7MbDrosophila melanogaster果蝇繁殖很快、容易诱发变异的小昆虫。总长达1.8亿核苷酸。 Arabidopsis thaliana拟南芥个体生活周期只有6周的十字花科小草,是一种理想的模式植物。 1个受精卵在个受精卵在24小时内分裂到
7、各种器官初具雏形的程度;小时内分裂到各种器官初具雏形的程度;体长体长3至至4厘米热带鱼,因色彩鲜明的斑纹得名。厘米热带鱼,因色彩鲜明的斑纹得名。生活周期约生活周期约3个月,个月,胚胎胚胎是透明的,所以生物学家很容易观察到药物对其体内器官的影响,是透明的,所以生物学家很容易观察到药物对其体内器官的影响,是研究脊椎是研究脊椎动物发育过程的良好对象。动物发育过程的良好对象。它具有自我修复破损视网膜的独特能力。它具有自我修复破损视网膜的独特能力。 基因组大小与人类相近,约基因组大小与人类相近,约30亿个核苷酸对,有亿个核苷酸对,有19条染色条染色体;体;第二节 数据库生物分子数据生物分子数据高速增长高
8、速增长 分子生物学分子生物学及相关领域研究人员及相关领域研究人员迅速获得最新实验数据迅速获得最新实验数据 建立生物分子数据库建立生物分子数据库 v生物信息数据库应满足生物信息数据库应满足5个方面个方面的主要需求的主要需求v(1 1)时间性)时间性v(2 2)注释)注释 v(3 3)支撑数据)支撑数据 v(4 4)数据质量)数据质量 v(5 5)集成性)集成性 (1)数据库的更新速度不断加快)数据库的更新速度不断加快 数据量呈指数增长趋势数据量呈指数增长趋势 (2)数据库使用频率增长更快)数据库使用频率增长更快 (3)数据库的复杂程度不断增加)数据库的复杂程度不断增加 (4)数据库网络化)数据库
9、网络化 (5)面向应用)面向应用(6)先进的软硬件配置)先进的软硬件配置一个数据库记录一个数据库记录(entry)一般由两部分组成:一般由两部分组成: 1. 原始序列数据原始序列数据(sequence data) 2. 描述这些数据生物学信息的注释描述这些数据生物学信息的注释(annotation)注释中包含的信息与相应的序列数据同样重要和有应用注释中包含的信息与相应的序列数据同样重要和有应用价值。价值。数据的完整性和注释工作量:数据的完整性和注释工作量: 1. 序列数据广,序列注释不够完整序列数据广,序列注释不够完整 2. 库数据面窄,序列注释全面库数据面窄,序列注释全面数据库的动态更新:数
10、据库的动态更新: 1. 不断增加不断增加 2. 不断修正不断修正 分子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类,即基因组数据库基因组数据库、核酸和蛋白质一级结构数据库一级结构数据库、生物大分子(主要是蛋白质)三三维空间结构数据库维空间结构数据库,以及由上述3类数据库和文献资料为基础构建的二级数据库二级数据库。 基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一一级数据库级数据库。 根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构
11、以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二级数据库二级数据库。 一般说来,一级数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑;二次数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家。 序列数据库序列数据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。v生物信息数据库生物信息数据库 一级数据
12、库一级数据库v数据库中的数据直接来源于实验获得的原始数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释数据,只经过简单的归类整理和注释 二级数据库二级数据库v对原始生物分子数据进行整理、分类的结果,对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的础上针对特定的应用目标而建立的 。生物信息生物信息 学数据库学数据库 工具工具 染色体染色体核酸核酸蛋白质蛋白质基因组图谱基因组图谱DNA序列序列蛋白质序列蛋白质序列蛋白质结构蛋白质结构基因组基因组数据库数据库核酸序列核酸序列数据库数据
13、库蛋白质序列蛋白质序列数据库数据库蛋白质结构蛋白质结构数据库数据库二级数据库二级数据库 复合数据库复合数据库基因组作图基因组作图序列测定序列测定结构测定结构测定国际著名的生物信息中心 NCBI National Center for Biotechnology Information (US) EBI European Bioinformatics Institute (EU) HGMP Human Genome Mapping Project Resource Centre (UK) ExPASy Expert of Protein Analysis System (Switzerland
14、) CMBI the Centre for Molecular and Biomolecular Informatics (The Netherlands) ANGIS National Genome Information Service (Australia) NIG National Institute of Genetics (Japan) BIC National Bioinformatics Centre (Singapore) 国际上权威的核酸序列数据库国际上权威的核酸序列数据库 (1)欧洲分子生物学实验室的EMBL http:/www.embl-heidelberg.de (2
15、)美国生物技术信息中心的GenBank http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html (3)日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/GenBankDDBJEMBL 三个数据库中的数据基本一致,仅在三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。三个数据库的响应结果一样。 这三个数据库是综合性的这三个数据库是综合性的DNADNA和和RNARNA序序列数据库,每条记录代表一个单独、连列数据库,每条记录代表一个单独、连续、附有注释
16、的续、附有注释的DNADNA或或RNARNA片段。片段。美国的核酸数据库美国的核酸数据库GenBankBanson,D.A. et al. (1998) Nucleic Acids Res. 26, 1-7从从1979年开始建设,年开始建设,1982年正式运行;年正式运行; 欧洲分子生物学实验室欧洲分子生物学实验室的的EMBL数据库也于数据库也于1982年开始服务年开始服务日本于日本于1984年开始建立国家年开始建立国家级的核酸数据库级的核酸数据库DDBJ,并于,并于1987年正式服务。年正式服务。 从那个时候以来,从那个时候以来,DNA序列的数据已经从序列的数据已经从80年代年代初期的百把条
17、序列,几十初期的百把条序列,几十万碱基上升至现在的万碱基上升至现在的110亿亿碱基!这就是说,在短短碱基!这就是说,在短短的约的约18年间,数据量增长年间,数据量增长了近十万倍。了近十万倍。56827,248,4753.4 10105.8 105 表达序列标签表达序列标签(ESTs) 18,001,332 9,172,848,447 真菌真菌(Fungi) 81,533 124,814,006 基因组检测序列基因组检测序列(GSSs) 5,951,552 3,541,699,334 高通量高通量cDNA(HTC) 148,033 198,301,795 高通量基因组高通量基因组(HTG) 69
18、,070 11,827,270,957 人人(Human) 253,122 3,999,942,455 无脊椎动物无脊椎动物(Invertebrates) 126,656 618,391,776 其它哺乳动物其它哺乳动物(Other Mammals) 51,211 117,048,169 鼠鼠(Mus musculus) 79,168 1,331,593,999 细胞器细胞器(Organelles) 217,902 180,804,604 专利专利(Patents) 1,326,009 717,107,725 噬菌体噬菌体(Bacteriophage) 2,321 9,413,526 植物植物
19、(Plants) 214,323 700,212,325 原核生物原核生物(Prokaryotes) 200,833 690,274,487 啮齿动物啮齿动物(Rodents) 25,459 64,607,453 序列标签位点序列标签位点(STSs) 239,292 114,379,671 合成合成(Synthetic) 9,196 16,869,561 未分类未分类(Unclassified) 1,860 2,167,222 病毒病毒(Viruses) 196,817 175,615,411 其它脊椎动物其它脊椎动物(Other Vertebrates) 52,583 282,545,232
20、 老鼠老鼠(Mouse) http:/www.informatics.jax.org/mgd.html 小鼠小鼠(Rat) http:/ratmap.gen.gu.se 狗狗(Dog) http:/mendel.berkeley.edu/dog.html 牛牛(Cow) http:/locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl 猪猪(Pig) http:/www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html 羊羊(Sheep) http:/dirk.invermay.cri.nz 鸡鸡(Chicken) http
21、:/www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html 斑马鱼斑马鱼(Zebra fish) http:/zfish.uoregon.edu 线虫线虫(C. elegans) http:/www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html 果蝇果蝇(Drosophila) http:/morgan.harvard.edu 蚊子蚊子(Mosquito) http:/klab.agsci.colostate.edu 拟南芥拟南芥(Arabidopsis) http:/genome-www.sta
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息 数据库 ppt 课件
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内