生物信息学之数据库及在线分析工具.ppt
《生物信息学之数据库及在线分析工具.ppt》由会员分享,可在线阅读,更多相关《生物信息学之数据库及在线分析工具.ppt(63页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、生物信息学数据库及在线分析工具SeeQZIFF一、数据库(Database)用于收集、整理、储存、加工、发布和用于收集、整理、储存、加工、发布和检索数据的系统。检索数据的系统。u生物类的数据库种类很多(生物类的数据库种类很多(序列序列、结结构构、生物分子互作生物分子互作、其他其他)u投稿文章首先要将核苷酸序列或蛋白质序列投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中提交到相应的数据库中u 数据库记录通常包括两部分数据库记录通常包括两部分v 原始数据原始数据v 对这些数据进行的生物学意义的注释对这些数据进行的生物学意义的注释u 一个数据库通常链接了多个相关数据库一个数据库通常链接了多
2、个相关数据库 核苷酸数据库水稻抗病相关基因核苷酸数据库水稻抗病相关基因OsDR8 Taxonomy 数据库数据库Pubmed 数据库数据库NCBI-Protein 数据库数据库(一)数据库工具(一)数据库工具u 建立纯文本数据库建立纯文本数据库v GenBank 数据库、数据库、EMBL 核苷酸数据库核苷酸数据库 u 数据库工具数据库工具v SQL(结构化查询语言)是世界上流行的和(结构化查询语言)是世界上流行的和标准化的数据库语言标准化的数据库语言v能够快速灵活存储记录文件和图像能够快速灵活存储记录文件和图像v下载网址下载网址 AccessSQLOracleu AceDB 数据库工具数据库工
3、具vAceDB:A C.elegans DataBase(线虫数据库)(线虫数据库)v被广泛应用的管理和提供基因组被广泛应用的管理和提供基因组数据的工具数据的工具v数据形式丰富数据形式丰富 遗传图谱遗传图谱G1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63 L1044NBS119RM144Y6855RA0.0011新陈代谢途径新陈代谢途径物理图谱物理图谱1 gggctccacc actagtaccc ctcactacag gtagccataa aaaaaatcga tcaccaaaac 61 ccattattag gttgtgtact ga
4、tacagaaa gttgggaacc aatctcccag cacagaaaac 121 ggtacggttc attagcgcgt gattaattaa atatttacta ttttttaaaa aaaatagatc 181 aatatgattt ttaagcaact ttcgtataaa tactttttca aaaaaacaca ccgttttcta 241 gtttgaaaag cgtacacgcg tgaaatgagg gagaaaggtt ggaaacgtgg gattgcaaac(二)各种生物数据库(二)各种生物数据库1、核苷酸数据库、核苷酸数据库u DNA、mRNA、tRN
5、A、rRNA序列序列u RNA序列以序列以cDNA序列的形式收集序列的形式收集u 核苷酸序列直接来源于实验数据核苷酸序列直接来源于实验数据u 大量氨基酸序列大量氨基酸序列v主要是非实验来源数据主要是非实验来源数据v coding sequence(CDS)EXONINTRONCDS(coding sequence)ORF(open reading frame)u 数据库种类很多数据库种类很多u 三大核苷酸数据库三大核苷酸数据库vGenBank、EMBL核苷酸数据库、核苷酸数据库、DDBJ United States Patent and Trademark Office(USPTO)Europ
6、ean Patent Office(EPO)Japan Patent Office(JPO)v收集了专利的核苷酸序列收集了专利的核苷酸序列信息资源共享:以天为基础进行数据库之间的序列数据交换信息资源共享:以天为基础进行数据库之间的序列数据交换(1)GenBank u美国美国NCBI的数据库,有部分蛋白质序列的数据库,有部分蛋白质序列u数据每天更新,每年发行六版数据每天更新,每年发行六版release uRelease 172()v106,073,709 entriesv105,277,306,080 basesu来源于来源于260,000多个物种多个物种u大约大约12的序列来源于人的序列来源于
7、人(Homo sapiens)Growth of GenBankvLocus name(位点名)(位点名)vAccession number(注册号或登陆号)(注册号或登陆号)vGI(GenInfo identifier)NID(Nucleotide ID)u每个序列有一个每个序列有一个flatfileu 每条序列有三个专有的编号或标识(每条序列有三个专有的编号或标识(identifier)u LOCUS lineSample recordThe divisions of GenBank分支缩写分支缩写分支全称分支全称 PRI灵长类序列灵长类序列(primate sequences)ROD啮齿
8、类序列啮齿类序列(rodent sequences)MAM其它哺乳类序列其它哺乳类序列(other mammalian sequences)VRT其它脊椎动物序列其它脊椎动物序列(other vertebrate sequences)INV无脊椎动物序列无脊椎动物序列(invertebrate sequences)PLN植物、真菌和海藻类序列植物、真菌和海藻类序列(plant,fungal,and algal sequences)BCT细菌序列细菌序列(bacterial sequences)VRL病毒序列病毒序列(viral sequences)PHG噬菌体序列噬菌体序列(bacteriop
9、hage sequences)SYN合成序列合成序列(synthetic sequences)The divisions of GenBank分支缩写分支缩写分支全称分支全称UNA未注释的序列未注释的序列(unannotated sequences)EST表达序列标签表达序列标签(expressed sequence tags)PAT已专利的序列已专利的序列(patent sequences)STS序列标签位点序列标签位点(sequence tagged sites)GSS基因组勘察序列基因组勘察序列(genome survey sequences)HTG高产出基因组序列高产出基因组序列(hi
10、gh throughput genomic sequences)HTC高产出高产出cDNA序列序列(high throughput cDNA sequences)ENV环境样品序列环境样品序列(Environmental sampling sequences)(2)dbEST(Database of Expressed Sequence Tags)u GenBank的二级数据库的二级数据库u 5 端或端或3 端的端的cDNA 序列(序列(EST)u 200-500 bp“Single-pass read”sequence u GenBank 中中60以上的序列是以上的序列是 EST(3)Uni
11、Gene 数据库数据库 uNCBI 的另一个核苷酸的另一个核苷酸数据库数据库u来源于同一基因的非重复来源于同一基因的非重复 EST 组成基因序列群组成基因序列群v人、大鼠、小鼠、人、大鼠、小鼠、斑马鱼、斑马鱼、牛牛、蛙等、蛙等v拟南芥、水稻、小麦、大麦、玉米等拟南芥、水稻、小麦、大麦、玉米等v共计共计100多个物种多个物种uUniGene主页输入关键词主页输入关键词检索检索(4)dbSTS(Database of Sequence Tagged Sites)uGenBank的二级数据库的二级数据库 UniSTSu 短序列短序列(200-500 bp),仅在基因组中出现一次),仅在基因组中出现一
12、次u 已定位于染色体上已定位于染色体上 如何找到一个如何找到一个STSu 检索:检索:GenBank主页主页选择选择UniSTS后输入关键词后输入关键词检索到的条目检索到的条目每一条目详细内容每一条目详细内容点击点击“mv”查看染色体定位查看染色体定位contig(5)dbGSS(Database of Genome Survey Sequences)u GenBank的二级数据库的二级数据库u 基因组短序列基因组短序列u cosmid/BAC/YAC 外源插入片段的末端序列外源插入片段的末端序列u Alu PCR 序列序列cosmid/BAC/YACG1810.420.84RM2240.21
13、R15060.21Xa26S128861.470.000.63 L1044NBS119RM144Y6855RA0.0011(6)HTG(High-Throughput Genomic Sequences)u GenBank 的二级数据库的二级数据库u 尚未完成测序的重叠群(尚未完成测序的重叠群(2 kb)的序列的序列u 新序列的增加速度很快新序列的增加速度很快cosmid/BAC/YACPhase0Phase1Phase2Phase3逐步克隆法clone-by-clonereliablebutslow,andthemappingstepcanbeespeciallytime-consuming
14、鸟枪法shotgunpotentiallyveryfast,butitcanbeextremelydifficulttoputtogethersomanytinypiecesofsequenceallatonce.水稻基因组全基因组大小:430Mb;每个Reads读长450bp;故覆盖每个水稻基因组所需反应:100万;覆盖水稻基因组8X,需要800万反应;每个反应的测序成本为19元,800万反应总共需15200万人民币;人力费800万人民币。中国水稻基因组计划的经费预算中国水稻基因组计划的经费预算(7)基因组数据库)基因组数据库 uNCBI 的另一个的另一个数据库数据库u测序完成和正在测序物种
15、基因组序列、遗传图、测序完成和正在测序物种基因组序列、遗传图、物理图等物理图等u序列收集在序列收集在GenBanku已经完成测序的基因组(截止已经完成测序的基因组(截止2009年年2月)月)Genome ProjectStatistics(8)dbSNP(Database of Single Nucleotide Polymorphisms)单核苷酸多态性数据库 u NCBI的数据库,创建于的数据库,创建于1998.9u 约每约每300 bp 有一个有一个SNPu 数据种类数据种类SNPInsertion/deletion(Indel)Deletion/insertion/substituti
16、on(DIS)u 发现致病基因、发现致病基因、进化分析进化分析u dbSNP主页输入关键词主页输入关键词检索到的条目检索到的条目每一条目详细内容每一条目详细内容代码代码碱基碱基MA或或CRA或或GWA或或TSC或或GYC或或TKG或或TVA、C或或GHA、C或或TDA、G或或TBC、G或或TNG、A、T或或C标准碱基多意代码标准碱基多意代码(9)EMBL(European Molecular Biology Laboratory)Nucleotide Sequence Databasev EBI(European Bioinformatics Institute)管理管理v 主要是欧洲国家产生
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 数据库 在线 分析 工具
限制150内