中国科技大学课件系列:《生物信息学》02教学文案.ppt
-
资源ID:77658468
资源大小:5.21MB
全文页数:63页
- 资源格式: PPT
下载积分:20金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
中国科技大学课件系列:《生物信息学》02教学文案.ppt
中国科技大学课件系列:生物信息学02中心法则DNA:Deoxyribonucleic acid,脱氧核糖核酸;,脱氧核糖核酸;RNA:RiboNucleic Acid,核糖核酸;,核糖核酸;双脱氧核糖核苷酸DideoxyribonucleotideDNA的结构RNA的结构氨基酸的结构氨基酸的性质及分类氨基酸周期表标准密码子本章内容提要r1.DNA测序测序r2.序列数据的存储序列数据的存储核酸序列数据库核酸序列数据库蛋白质序列数据库蛋白质序列数据库基因组数据库基因组数据库r3.序列数据的文件格式序列数据的文件格式1.DNA测序rDNA一次连续测序的长度约为一次连续测序的长度约为500bp;rEST(Expressed sequence tag)测序:细胞测序:细胞中中mRNA反转录成反转录成cDNA,方向不定测序,方向不定测序;rGSS(Genome Survey Sequences,基因组,基因组勘测序列勘测序列):类似于:类似于ESTs,来源基因组,来源基因组;rHTG(High-throughput genome sequences,高通量基因组序列,高通量基因组序列):高通量、:高通量、尚未完工的尚未完工的DNA序列序列;DNA 测序的实验方法(末端终止法)CATddGTPddTTPddATP(D)使用寡核苷酸引物连续测序基因组测序:两种方案策略r1.基因图谱法:基因图谱法:DNA片段在染色体上的位片段在染色体上的位置、方向已知。首先染色体被打断成置、方向已知。首先染色体被打断成150200kbp左右的大片段,然后克隆到左右的大片段,然后克隆到BACs(Bacterial Artificial Chromosome)中,再进一步随机打断,克隆,测序,依中,再进一步随机打断,克隆,测序,依靠计算机组装成长的序列靠计算机组装成长的序列(contig)。r2.“鸟鸟枪枪法法”(shotgun):DNA片片段段在在染染色色体体上上的的位位置置和和方方向向未未知知。全全基基因因组组随随机机打打断断成成小小片片段段,克克隆隆,双双向向测测序序,计计算算机机组装成长的序列。组装成长的序列。人类基因组计划r 基因组图谱:遗传图谱,物理图谱基因组图谱:遗传图谱,物理图谱r 遗传图谱遗传图谱(genetic map):连锁图谱,显示:连锁图谱,显示所知的基因和所知的基因和/或遗传标记的相对距离位置与或遗传标记的相对距离位置与次序。次序。r物理图谱物理图谱(physical map):表示某些基因和表示某些基因和/或遗传标记之间在基因组上的精确位置和距或遗传标记之间在基因组上的精确位置和距离(如间隔的离(如间隔的bp数目)的图谱。数目)的图谱。大规模测序方法2.序列数据的存储r核酸序列数据库核酸序列数据库国际三大核酸序列数据库:国际三大核酸序列数据库:GenBank,EBML,DDBJRefSeq:The Reference Sequence DatabasedbEST:Expressed Sequences Tags数据库数据库UniGene等等r蛋白质序列数据库蛋白质序列数据库UniProtSwiss-prot&TrEMBL,PIRr基因组数据库基因组数据库:Ensembl核酸数据库数据的增长GenBankr由美国国立卫生研究院由美国国立卫生研究院NIH下属国立生物技下属国立生物技术信息中心术信息中心NCBI建立。建立。r汇集并注释了所有公开的核酸以及蛋白质序汇集并注释了所有公开的核酸以及蛋白质序列。每个记录代表了一个单独的、连续的、列。每个记录代表了一个单独的、连续的、带有注释的带有注释的DNA或或RNA片段。片段。GenBank中测序最多的20个物种161.0版,2007EMBL核酸序列数据库rEMBL-EBI(European Bioinformatics Institute)维护维护;rhttp:/www.ebi.ac.uk/embl/rNIG(National Institute of Genetics)rCIB(Center for Information Biology)rhttp:/www.ddbj.nig.ac.jp/index-e.htmlDDBJINSDCr1998年,年,GenBank、EMBL和和DDBJ共同成共同成立了国际核酸序列数据库协会立了国际核酸序列数据库协会(International Nucleotide Sequence Database Collaboration,INSDC)r三大核酸数据库之间每天将新测定或更新的三大核酸数据库之间每天将新测定或更新的数据进行交换共享,保证数据信息的完整与数据进行交换共享,保证数据信息的完整与同步,每两个月更新一次版本。同步,每两个月更新一次版本。rhttp:/www.insdc.org/三大数据库之间的联系RefSeq数据库r1.提供非冗余的,高质量的,经检验校正的提供非冗余的,高质量的,经检验校正的序列信息;序列信息;r2.包括染色体、基因组(细胞器、病毒、质包括染色体、基因组(细胞器、病毒、质粒)、蛋白质、粒)、蛋白质、RNA等;等;r 序列文件的标识符:序列文件的标识符:mRNA序列:序列:NM_123456非编码非编码RNA:NR_123456蛋白质序列:蛋白质序列:NP_123456r http:/www.ncbi.nlm.nih.gov/RefSeqRefSeq记录的特征r截然不同的截然不同的Accession号区别于其它号区别于其它GenBank命名格式命名格式的序列,前缀是两个字的序列,前缀是两个字母加下划线母加下划线 _;r在在Comment区域显示来源区域显示来源;r使用正式命名使用正式命名;r包括包括dbxrefs的特征的特征;r蛋白序列在蛋白序列在DBSOURCE区域标示区域标示 REFSEQGenBank VS.RefSeqdbEST:表达序列标签数据库最多的最多的20个物种:个物种:2007.08,总序列45,660,524条http:/www.ncbi.nlm.nih.gov/dbEST/UniGene:An Organized View of the TranscriptomeAn Organized View of the Transcriptome为每一个基因创造一个唯一的条目,收集这个基因所有的为每一个基因创造一个唯一的条目,收集这个基因所有的ESTshttp:/www.ncbi.nlm.nih.gov/unigeneSwiss-Prot&TrEMBL r最早广泛使用的蛋白数据库;欧洲最主要最早广泛使用的蛋白数据库;欧洲最主要的蛋白序列数据库;的蛋白序列数据库;http:/www.expasy.ch/sprot/rSIB(Swiss Institute of Bioinformatics)r可由可由ExPASy(Expert Protein Analysis System)系统访问;)系统访问;r所有序列条目均经过有经验的分子生物学所有序列条目均经过有经验的分子生物学家和蛋白质化学家审核,因此又称为蛋白家和蛋白质化学家审核,因此又称为蛋白质专家库。质专家库。TrEMBL vs.GenPeptrTrEMBL(Translation of EMBL):计算机:计算机注释的注释的Swiss-Prot分支数据库,从分支数据库,从EMBL库中的库中的cDNA序列翻译得到的氨基酸序列数序列翻译得到的氨基酸序列数据库。据库。rGenPept:由:由GenBank翻译得到的蛋白质翻译得到的蛋白质序列,与序列,与TrEMBL类似,这两个数据库中类似,这两个数据库中的序列错误率较大,均有较大的冗余度。的序列错误率较大,均有较大的冗余度。PIRr1984年,美国国家医学研究基金会年,美国国家医学研究基金会(NREF)正式启动蛋白质信息资源)正式启动蛋白质信息资源(Protein Information Resource,PIR)计)计划;划;r美国最主要的蛋白序列数据库美国最主要的蛋白序列数据库;r非冗余、高质量注释、全面分类非冗余、高质量注释、全面分类;rPIR数据库按照数据的性质和注释层次分为数据库按照数据的性质和注释层次分为PIR1、PIR2、PIR3和和PIR4。PIR1中的序列中的序列已经验证,注释最为详尽。已经验证,注释最为详尽。rhttp:/pir.georgetown.edu/UniProtrUniversal Protein Resource:Swiss-prot(TrEMBL),PIR两大蛋白数据库两大蛋白数据库的整合体;的整合体;r收录蛋白质序列目录最广泛、功能注释最全收录蛋白质序列目录最广泛、功能注释最全面的数据库;面的数据库;r包含三个子库:包含三个子库:UniProtKB(UniProt Knowledgebase)UniRef(UniProt Reference Clusters)UniParc(Uniprot Archive)rhttp:/www.uniprot.orgUniProtKBrUniProt Knowledgebase:Release 15.4,16-Jun-2009,包括:,包括:Swiss-Prot Release 57.4:497293 entries TrEMBL Release 40.4:9145906 entries r包含蛋白质序列全面的信息,提供准确、丰包含蛋白质序列全面的信息,提供准确、丰富的序列与功能注释。富的序列与功能注释。r记录以记录以6位字母和数字组成,例:位字母和数字组成,例:Q5K8D3 Swiss-Prot Release 57.7TrEMBL Release 40.4较早的基因组数据库-GDBr为人类基因组计划为人类基因组计划(HGP)保存和处理基因组保存和处理基因组图谱数据。图谱数据。rGDB的目标是构建关于人类基因组的百科全的目标是构建关于人类基因组的百科全书,除了构建基因组图谱之外,还开发了描书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列述序列水平的基因组内容的方法,包括序列变异和其它对功能和表型的描述。变异和其它对功能和表型的描述。基因组数据库r收集某些生物整个基因组序列的数据库收集某些生物整个基因组序列的数据库;r基因组计划基因组计划Human Genome Projecthttp:/www.sanger.ac.uk/HGP/Sequencing Genomics Projectshttp:/www.sanger.ac.uk/Projects/r从从GenBank中选择同一物种的核酸信息组中选择同一物种的核酸信息组成的二级库成的二级库;The Ensembl project produces genome databases for vertebrates and other eukaryotic species,and makes this information freely available online.EMBL-EBI和和Sanger研究所共同开发。研究所共同开发。http:/www.ensembl.org/基因组数据库-Ensembl3.序列数据的文件格式rDNA/RNA/氨基酸代码的标识氨基酸代码的标识rGenBank数据格式数据格式rEMBL&UniProt数据格式数据格式rFASTA 数据格式数据格式DNA代码氨基酸代码GenBank数据文件格式GenBank数据文件格式GenBank数据文件格式子库子库Locus名字名字定义定义(标题标题)修改日期修改日期序列类型序列类型mRNA(=cDNA)rRNAsnRNADNA序列长度序列长度检索号检索号Genbank号号序列形状序列形状GenBank的数据类型GenBank数据文件格式GenBank数据文件格式EMBL(UniProt)数据格式EMBL和GenBank数据格式的对比FASTA格式FASTA格式1I60:A|PDBID|CHAIN|SEQUENCEMKLCFNEATTLENSNLKLDLELCEKHGYDYIEIRTMDKLPEYLKDHSLDDLAEYFQTHHIKPLALNALVFFNNRDEKGHNEIITEFKGMMETCKTLGVKYVVAVPLVTEQKIVKEEIKKSSVDVLTELSDIAEPYGVKIALEFVGHPQCTVNTFEQAYEIVNTVNRDNVGLVLDSFHFHAMGSNIESLKQADGKKIFIYHIDDTEDFPIGFLTDEDRVWPGQGAIDLDAHLSALKEIGFSDVVSVELFRPEYYKLTAEEAIQTAKKTTVDVVSKYFSM