生物信息学之数据库及在线分析工具复习过程.ppt
《生物信息学之数据库及在线分析工具复习过程.ppt》由会员分享,可在线阅读,更多相关《生物信息学之数据库及在线分析工具复习过程.ppt(63页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、生物信息学之数据库及在线分析工具u 数据库记录通常包括两部分数据库记录通常包括两部分v 原始数据原始数据v 对这些数据进行的生物学意义的注释对这些数据进行的生物学意义的注释u 一个数据库通常链接了多个相关数据库一个数据库通常链接了多个相关数据库 核苷酸数据库水稻抗病相关基因核苷酸数据库水稻抗病相关基因OsDR8 DQ176424Taxonomy 数据库数据库Pubmed 数据库数据库NCBI-Protein 数据库数据库(一)数据库工具(一)数据库工具u 建立纯文本数据库建立纯文本数据库v GenBank 数据库、数据库、EMBL 核苷酸数据库核苷酸数据库 u 数据库工具数据库工具v SQL(
2、结构化查询语言)是世界上流行的和(结构化查询语言)是世界上流行的和标准化的数据库语言标准化的数据库语言v能够快速灵活存储记录文件和图像能够快速灵活存储记录文件和图像v下载网址下载网址 http:/ AceDB 数据库工具数据库工具vAceDB:A C.elegans DataBase(线虫数据库)(线虫数据库)v被广泛应用的管理和提供基因组被广泛应用的管理和提供基因组数据的工具数据的工具v数据形式丰富数据形式丰富 遗传图谱遗传图谱G1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63 L1044NBS119RM144Y6855RA0.0011新
3、陈代谢途径新陈代谢途径物理图谱物理图谱1 gggctccacc actagtaccc ctcactacag gtagccataa aaaaaatcga tcaccaaaac 61 ccattattag gttgtgtact gatacagaaa gttgggaacc aatctcccag cacagaaaac 121 ggtacggttc attagcgcgt gattaattaa atatttacta ttttttaaaa aaaatagatc 181 aatatgattt ttaagcaact ttcgtataaa tactttttca aaaaaacaca ccgttttcta 241
4、gtttgaaaag cgtacacgcg tgaaatgagg gagaaaggtt ggaaacgtgg gattgcaaac(二)各种生物数据库(二)各种生物数据库1、核苷酸数据库、核苷酸数据库u DNA、mRNA、tRNA、rRNA序列序列u RNA序列以序列以cDNA序列的形式收集序列的形式收集u 核苷酸序列直接来源于实验数据核苷酸序列直接来源于实验数据u 大量氨基酸序列大量氨基酸序列v主要是非实验来源数据主要是非实验来源数据v coding sequence(CDS)EXONINTRONCDS(coding sequence)ORF(open reading frame)u 数据库
5、种类很多数据库种类很多u 三大核苷酸数据库三大核苷酸数据库vGenBank、EMBL核苷酸数据库、核苷酸数据库、DDBJ United States Patent and Trademark Office(USPTO)European Patent Office(EPO)Japan Patent Office(JPO)v收集了专利的核苷酸序列收集了专利的核苷酸序列信息资源共享:以天为基础进行数据库之间的序列数据交换信息资源共享:以天为基础进行数据库之间的序列数据交换(1)GenBank http:/www.ncbi.nlm.nih.gov/u美国美国NCBI的数据库,有部分蛋白质序列的数据库,
6、有部分蛋白质序列u数据每天更新,每年发行六版数据每天更新,每年发行六版release ftp:/ftp.ncbi.nih.gov/genbank/gbrel.txtuRelease 172(2009.6.15)v106,073,709 entriesv105,277,306,080 basesu来源于来源于260,000多个物种多个物种u大约大约12的序列来源于人的序列来源于人(Homo sapiens)Growth of GenBankvLocus name(位点名)(位点名)vAccession number(注册号或登陆号)(注册号或登陆号)vGI(GenInfo identifier)
7、NID(Nucleotide ID)u每个序列有一个每个序列有一个flatfileu 每条序列有三个专有的编号或标识(每条序列有三个专有的编号或标识(identifier)u LOCUS lineSample recordhttp:/www.ncbi.nlm.nih.gov/Sitemap/samplerecord.htmlThe divisions of GenBank分支缩写分支缩写分支全称分支全称 PRI灵长类序列灵长类序列(primate sequences)ROD啮齿类序列啮齿类序列(rodent sequences)MAM其它哺乳类序列其它哺乳类序列(other mammalian
8、 sequences)VRT其它脊椎动物序列其它脊椎动物序列(other vertebrate sequences)INV无脊椎动物序列无脊椎动物序列(invertebrate sequences)PLN植物、真菌和海藻类序列植物、真菌和海藻类序列(plant,fungal,and algal sequences)BCT细菌序列细菌序列(bacterial sequences)VRL病毒序列病毒序列(viral sequences)PHG噬菌体序列噬菌体序列(bacteriophage sequences)SYN合成序列合成序列(synthetic sequences)The division
9、s of GenBank分支缩写分支缩写分支全称分支全称UNA未注释的序列未注释的序列(unannotated sequences)EST表达序列标签表达序列标签(expressed sequence tags)PAT已专利的序列已专利的序列(patent sequences)STS序列标签位点序列标签位点(sequence tagged sites)GSS基因组勘察序列基因组勘察序列(genome survey sequences)HTG高产出基因组序列高产出基因组序列(high throughput genomic sequences)HTC高产出高产出cDNA序列序列(high thro
10、ughput cDNA sequences)ENV环境样品序列环境样品序列(Environmental sampling sequences)(2)dbEST(Database of Expressed Sequence Tags)http:/www.ncbi.nlm.nih.gov/dbEST/index.htmlu GenBank的二级数据库的二级数据库u 5 端或端或3 端的端的cDNA 序列(序列(EST)u 200-500 bp“Single-pass read”sequence u GenBank 中中60以上的序列是以上的序列是 EST(3)UniGene 数据库数据库 http
11、:/www.ncbi.nlm.nih.gov/UniGene/uNCBI 的另一个核苷酸的另一个核苷酸数据库数据库u来源于同一基因的非重复来源于同一基因的非重复 EST 组成基因序列群组成基因序列群v人、大鼠、小鼠、人、大鼠、小鼠、斑马鱼、斑马鱼、牛牛、蛙等、蛙等v拟南芥、水稻、小麦、大麦、玉米等拟南芥、水稻、小麦、大麦、玉米等v共计共计100多个物种多个物种uUniGene主页输入关键词主页输入关键词检索检索(4)dbSTS(Database of Sequence Tagged Sites)http:/www.ncbi.nlm.nih.gov/dbSTS/index.htmluGenBan
12、k的二级数据库的二级数据库 UniSTSu 短序列短序列(200-500 bp),仅在基因组中出现一次),仅在基因组中出现一次u 已定位于染色体上已定位于染色体上 如何找到一个如何找到一个STSu 检索:检索:GenBank主页主页选择选择UniSTS后输入关键词后输入关键词检索到的条目检索到的条目每一条目详细内容每一条目详细内容点击点击“mv”查看染色体定位查看染色体定位contig(5)dbGSS(Database of Genome Survey Sequences)http:/www.ncbi.nlm.nih.gov/dbGSS/index.htmlu GenBank的二级数据库的二级
13、数据库u 基因组短序列基因组短序列u cosmid/BAC/YAC 外源插入片段的末端序列外源插入片段的末端序列u Alu PCR 序列序列cosmid/BAC/YACG1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63 L1044NBS119RM144Y6855RA0.0011(6)HTG(High-Throughput Genomic Sequences)http:/www.ncbi.nlm.nih.gov/HTGS/u GenBank 的二级数据库的二级数据库u 尚未完成测序的重叠群(尚未完成测序的重叠群(2 kb)的序列的序列u 新序
14、列的增加速度很快新序列的增加速度很快cosmid/BAC/YACPhase0Phase1Phase2Phase3逐步克隆法clone-by-clonereliablebutslow,andthemappingstepcanbeespeciallytime-consuming鸟枪法shotgunpotentiallyveryfast,butitcanbeextremelydifficulttoputtogethersomanytinypiecesofsequenceallatonce.水稻基因组全基因组大小:430Mb;每个Reads读长450bp;故覆盖每个水稻基因组所需反应:100万;覆盖水
15、稻基因组8X,需要800万反应;每个反应的测序成本为19元,800万反应总共需15200万人民币;人力费800万人民币。中国水稻基因组计划的经费预算中国水稻基因组计划的经费预算(7)基因组数据库)基因组数据库 http:/www.ncbi.nlm.nih.gov/sites/entrez?db=genomeuNCBI 的另一个的另一个数据库数据库u测序完成和正在测序物种基因组序列、遗传图、测序完成和正在测序物种基因组序列、遗传图、物理图等物理图等u序列收集在序列收集在GenBanku已经完成测序的基因组(截止已经完成测序的基因组(截止2009年年2月)月)Genome ProjectStati
16、stics(8)dbSNP(Database of Single Nucleotide Polymorphisms)单核苷酸多态性数据库 http:/www.ncbi.nlm.nih.gov/sites/entrez?db=snpu NCBI的数据库,创建于的数据库,创建于1998.9u 约每约每300 bp 有一个有一个SNPu 数据种类数据种类SNPInsertion/deletion(Indel)Deletion/insertion/substitution(DIS)u 发现致病基因、发现致病基因、进化分析进化分析u dbSNP主页输入关键词主页输入关键词检索到的条目检索到的条目每一条目
17、详细内容每一条目详细内容代码代码碱基碱基MA或或CRA或或GWA或或TSC或或GYC或或TKG或或TVA、C或或GHA、C或或TDA、G或或TBC、G或或TNG、A、T或或C标准碱基多意代码标准碱基多意代码(9)EMBL(European Molecular Biology Laboratory)Nucleotide Sequence Databasev EBI(European Bioinformatics Institute)管理管理v 主要是欧洲国家产生的主要是欧洲国家产生的 DNA 和和 RNA 序列序列v 序列数据序列数据文档文档格式与格式与 GenBank 不同不同数据库主页数据库
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 数据库 在线 分析 工具 复习 过程
限制150内