《《生物信息学概述下》PPT课件.pptx》由会员分享,可在线阅读,更多相关《《生物信息学概述下》PPT课件.pptx(83页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一章第一章 生物信息学前言生物信息学前言 (下)(下)4.发现单核苷酸多态(发现单核苷酸多态(SNP)有的人吸烟喝酒却长寿,有人自幼就病痛缠身;同一种治疗肿瘤的药物对一些人非常有效,对另一些人则完全无效。这是为什么?他们基因组中存在的差异。这种差异很多表现为单个碱基上的变异,也就是单核苷酸的多态性(SNP)。SNP研究是人类基因组计划走向应用的重要步骤。因为SNP将提供一个强有力的工具,用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。5.基因组中非编码蛋白质区域的结构基因组中非编码蛋白质区域的结构与功能研究与功能研究在细菌这样的微生物中,非编码蛋白质的区域只占
2、在细菌这样的微生物中,非编码蛋白质的区域只占整个基因组序列的整个基因组序列的10到到20。在高等生物和人的基因组中非编码序列已占到基因在高等生物和人的基因组中非编码序列已占到基因组序列的绝大部分。组序列的绝大部分。普遍的认识是:它们与基因在四维时空的的表达调普遍的认识是:它们与基因在四维时空的的表达调控有关。对人类基因组来说,迄今为止,人们真正控有关。对人类基因组来说,迄今为止,人们真正掌握规律的只有掌握规律的只有DNA上的编码蛋白质的区域(基因)上的编码蛋白质的区域(基因),这部分序列只占基因组的,这部分序列只占基因组的11。非非编码区编码区功能研究功能研究 What is the tota
3、l number of human genes?28,0004,000 Only 1.1%of the genome is spanned by exons,whereas 24%is in introns,with 75%of the genome being intergenic DNA.One of the largest challenges is identifying the unknown functions that almost certainly exist in much of the“junk”DNA.Organism Year Millions Total Predi
4、cted Number of genes of bases coverage number per million bases sequenced (%)of genes sequencedHumangenomeroughdraft20012,6938431,78012(publicsequence)Humangenomeroughdraft20012,6548339,11415(Celerasequence)Arabidopsisthaliana20001159225,498221Drosophilametanogaster20001166413,601117Caenorhabditisel
5、egans1998979919,099197Saccharomycescerevisiae199612935,800483人类基因组非编码区(“Junk”DNA)的构成至少包含如下类型的DNA成份或由其表达的RNA成分:1.内含子(intron)、2.卫星(Satellite)DNA、3.小卫星(minisatellite)DNA、4.微卫星(Microsatellite)DNA、5.非均一核RNA(简称hnRNA)、6.短散置元(shortinterspersedelements简称SINE)、7.长散置元(1onginterspersedelements,简称LINE)、8.伪基因(Pse
6、udogenes)、9.顺式调控元件,如启动子、增强子等也属于非编码序列。重复序列在基因组中的比例 Human45%Arabidopsis 11%C.elegans 7%D.melanogaster 3%Higher eukaryotes are believed to carry a large burden of“junk DNA”in their genomes.Although 98%of the human genome comprises non-protein-coding DNA(1),the true density and distribution of functiona
7、l nucleotides in these regions is currently unknown.Who share Ultraconserved Elements?Who share Ultraconserved Elements?humanmouseratchickenfishdog#of Ultraconserved ElementsTheinsertionofarepetitivesequenceintoagenecaninfluenceitstranscription.TheSINEsandotherrepeatscanactastissue-specificenhancers
8、orsilencersoftheadjacentgenes.SmallRNA,microRNA,andRNAInterference(RNAi)EncyclopediaofDNAElements“DNA元件百科全书”计划(EncyclopediaofDNAElements,简称ENCODE)发表了一系列重要研究成果,挑战了关于人类基因组的传统理论,即我们的基因组不是由孤立的基因和大量“无用DNA片段”组成的,而是一个复杂的网络系统。编码基因、调控元件以及非编码RNA基因之间,有着复杂的相互作用,共同控制着人类的生理活动。6.研究生物进化1859,Darwin的物种起源对人类自然科学和自然哲学发
9、展的最重大贡献之一。进化论研究的核心是描述生物进化的历史(系统进化树)和探索进化过程的机制。当前分子进化的研究已是进化论研究的重要手段,并建立了一套依赖于核酸、蛋白质序列信息的理论方法。l序列相似性比较。常用的程序包有BLAST、FASTA等;l序列同源性分析。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTALW等l构建系统进化树。象PYLIP、MEGA等;l稳定性检验。通用的方法使用 Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。一:发现同一种群基于不同分子序列所重构出的进化树可能不同。二:对“垂直进化”和“水平演化”之间关系的讨论正逐渐引起人们的重
10、视。三、基因的“横向迁移现象”。即:基因可以在同时存在的种群间迁移,其结果虽可导致序列差异,但这种差异与进化无关。如:对人类基因组的分析发现,有几十个人的基因只与细菌基因相似,而在果蝇、线虫中都不存在。所以在当前的分子进化研究中必须选择垂直进化的分子作为样本。序列差异和进化关系的争论:分子进化分析中,“相似性”和“同源性”是两个不同的概念。相似性只反映两者类似,并不包含任何与进化相关的暗示。同源性则是与共同祖先相关的相似性。不同的生物分子替代速率不同。纤维蛋白约200万年有一个aa被替代。而组蛋白约3000万年才被替换一个,一些非编码序列一两万年就可能被替换。这些变化速率不同的分子可作为进化研
11、究的分子时标,有人称之为分子钟。但随着序列的增加,不支持分子钟的假设。植物LFY同源基因系统树 Phylogenyof23completelysequencedBacteriaandArchaeaspeciesonthebasisof16srRNA.A)Phylogenetictreebuiltbyournewmethod.B)PhylogenetictreebuiltbyClustalwprogram.(MadebyR.S.Chen)Phylogenyof24completelysequencedBacteria,ArchaeaandEukaryaspecies.A)genomictree.
12、(MadebyR.S.Chen)Phylogeny of T.tengcongensis based on Whole Genome(Made by R.S.Chen)After Pace NR(1997)Science 276:734 1.1.7.7.完整基因组的比较研究完整基因组的比较研究1.1.生命的起源?生命的进化?生命的起源?生命的进化?2.2.遗传密码的起源?遗传密码的起源?3.3.最小独立生活的生物体至少需要多少基因?最小独立生活的生物体至少需要多少基因?4.4.这些基因是如何使生物体活起来的?这些基因是如何使生物体活起来的?5.5.啤酒酵母,它有啤酒酵母,它有59325932个
13、基因,最小的是生殖个基因,最小的是生殖道枝原体它只有道枝原体它只有470470个基因。个基因。6.6.黑猩猩黑猩猩和人的基因组大小相似,都含有约和人的基因组大小相似,都含有约3030亿碱基对,基因的数目也类似,且大部亿碱基对,基因的数目也类似,且大部同源。但黑猩猩和人差异大同源。但黑猩猩和人差异大,为什么?为什么?人类基因组与其它生物基因组比较人类基因组与其它生物基因组比较通过几个完整基因组的比较,统计出维持生命活动所需要的最少基因个数为250个左右。比较鼠和人的基因组就会发现,尽管两者基因组大小和基因数目类似,但基因组的组织却差别很大。例如存在于鼠1号染色体上的基因已分布到人的1、2、5、6
14、、8、13、18号7个染色体上了。在同一界中,某些核糖体蛋白排列顺序的差异能反映出物种间的亲缘关系,亲缘关系越近,基因排列顺序越接近。这样就可以通过比较基因的排列顺序来研究物种间的系统发育关系。人与鼠染色体的差别人与鼠染色体的差别Thedistributionofmousehomologygenesinthehumanchromosome(DatafromGenBank,CoordinatebyR.S.Chen)Thedistributionofmousehomologygenesinthehumanchromosome(DatafromGenBank,CoordinatebyR.S.Chen
15、)*genes in this No.chromosome of distribution of mouse homology genes mouse in human chromosome 1 1 1 1、2 2、5 5、6 6、8 8、1313、18 18 2 2 2 2、7 7、9 9、1010、1111、1515、2020 3 1 3 1、3 3、4 4、8 8 4 1 4 1、6 6、8 8、9 9 5 1 5 1、4 4、7 7、1212、1313、1818、22 22 6 2 6 2、3 3、7 7、1010、12 12 7 6 7 6、1010、1111、1515、1616、1
16、9 19 8 1 8 1、4 4、8 8、1313、1616、19 19 9 3 9 3、6 6、1111、1515、19 19 10 6 10 6、1010、1212、1919、2121、22 22 11 2 11 2、5 5、7 7、1616、1717、22 22 12 2 12 2、7 7、14 14 13 1 13 1、5 5、6 6、7 7、9 9、1515、17 17 14 3 14 3、8 8、1010、1313、1414、X X 15 5 15 5、8 8、1212、22 22 16 3 16 3、8 8、1616、2121、2222 17 6 17 6、1616、1919、2
17、1 21 18 5 18 5、1010、18 18 19 9 19 9、1010、1111、X X X X X X*8.从功能基因组到系统生物学功能基因组研究功能基因组研究:不仅需要了解基因的序列,还要了解基因的功能,也就是要了解在不同的时间、不同的组织中基因的表达谱。研究不同时间、不同组织的基因表达谱的技术有:在核酸层次上的基因芯片(或称DNA芯片);在蛋白质层次上的大规模蛋白质分离和序列鉴定技术,也称蛋白质谱技术和蛋白质组研究。芯片杂交:DNA芯片基质有硅片、玻片和金属片。蛋白质二维凝胶电泳和测序质谱相结合的技术在蛋白质水平上监测基因表达的功能谱。酵母双杂交技术研究蛋白质的相互作用。需要解
18、决的关键问题:需要解决的关键问题:表达谱数据挖掘和知识发现就成了该研究成功与否的关键。需要发展新的方法和工具。对大规模基因功能表达谱的分析也导致了新的方法学问题。基因表达谱的数据和蛋白质谱的数据,既有图象,又是在时空多维水平上展开的数据。芯片等的设计上也需要从理论到软件的支持。应用分析系应用分析系统获得的统获得的48小时昼夜交小时昼夜交替的表达谱替的表达谱信息信息cDNAcDNA微阵列杂交的聚类分析微阵列杂交的聚类分析二二维维电电泳泳图图质质谱分析谱分析双向电泳双向电泳原位原位酶酶解解肽肽指纹指纹图图数据库数据库质谱质谱 EdmanEdman降解降解N N端,端,C C端端测序测序生物信息学分
19、析生物信息学分析分子生物学实验分子生物学实验Protein interaction network:direct/indirect;static/dynamicFrom the Cell to Protein Machines By R.S.Chen9.蛋白质结构模拟与药物设计蛋白质结构模拟与药物设计蛋白质功能取决于蛋白质的空间结构蛋白质功能取决于蛋白质的空间结构 蛋白质结构决定于蛋白质的序列(这是蛋白质结构决定于蛋白质的序列(这是目前基本共认的假设),蛋白质结构的目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列之中。信息隐含在蛋白质序列之中。9.蛋白质结构模拟与药物设计蛋白质结构模拟与
20、药物设计 要找到蛋白质功能的分子基础,必须知道它们的三维结构,与此同时,设计药物也需要了解与药物相应的蛋白质受体的三维结构。目前,X射线晶体学技术、多维核磁共振(NMR)波谱学技术、二维电子衍射和三维图像重构技术等是蛋白质空间结构测定的有效手段。每天可测出几个生物大分子空间结构,但远小于蛋白质序列信息增长的速度。预测这些蛋白的空间结构,进而实现针对性的药物设计,就成了迫在眉睫的任务。这也是大规模的计算问题。蛋白质的生物功能由蛋白质的结构所决定蛋白质的生物功能由蛋白质的结构所决定 ,蛋,蛋白质结构预测成为了解蛋白质功能的重要途径。白质结构预测成为了解蛋白质功能的重要途径。蛋白质结构预测分为蛋白质
21、结构预测分为:二级结构预测二级结构预测空间结构预测空间结构预测 二级结构预测二级结构预测在一定程度上二级结构的预测可以归结为模式识别在一定程度上二级结构的预测可以归结为模式识别问题问题 在二级结构预测方面主要方法有:在二级结构预测方面主要方法有:立体化学方法立体化学方法图论方法图论方法统计方法统计方法最邻近决策方法最邻近决策方法基于规则的专家系统方法基于规则的专家系统方法分子动力学方法分子动力学方法人工神经网络方法人工神经网络方法 预测准确率超过预测准确率超过70%的第一个软件是基于神经网络的第一个软件是基于神经网络的的PHD系统系统空间结构预测空间结构预测在空间结构预测方面,比较成功的在空间
22、结构预测方面,比较成功的理论方法是同源建模法理论方法是同源建模法 该方法的依据是:相似序列的蛋白该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结质倾向于折叠成相似的三维空间结构构 运用同源模型方法可以完成所有蛋运用同源模型方法可以完成所有蛋白质白质10-30%的空间结构预测工作的空间结构预测工作 DNARNAproteinCentral dogma of molecular biologygenometranscriptomeproteomeCentral dogma of bioinformatics and genomicsDNARNAcDNAESTsUniGenephenot
23、ypegenomicDNAdatabasesprotein sequence databasesproteinPic5Phenylketonuria(PKU)is caused by a deficiency of the iron-containing enzyme phenylalanine hydroxylase(PAH),which converts phenylalanine to tyrosine.Pic6Pic7后基因组时代Post-genome era后基因组时代的挑战:1.蛋白组学:序列-结构-功能 2.研究生物的生长代谢的过程和疾病的机制 3.基因组药物生物信息学离不开高性
24、能计算机。并需要信息学家的参与。急需有自主知识产权的生物信息处理软件平台和大量高效的快速的新算法的开发及改进。后基因组时代Post-genome era 基因组数据DNA,Protein 序列序列生物信息学软件平台BlastGenscanBlocks生物学家计算生物学模型计算生物学模型/算法算法软件计算机专家计算机专家串行后基因组学数据后基因组学数据并行数据库 proteomicsdataProteomics toolsIdentificationandcharacterizationDNA-ProteinSimilaritysearchesPatternandprofilesearchesP
25、ost-translationalmodificationpredictionPrimarystructureanalysisSecondarystructurepredictionTertiarystructureTransmembraneregionsdetectionAlignment四、生物信息学的应用与发展研究 生物信息学相关的分析与应用算法、软件和数据库,都具有重要的经济价值,最终都会形成商品,提供经济和社会效益。1.疾病相关的基因信息及相关算法和软件开发 2.建立与动、植物良种繁育相关的基因组数据库,发展分子标记辅助育种技术3.研究与发展药物设计软件和基于生物信息的分子生物学技术
26、MajorApplicationsI:OverallGenomeCharacterizationOverallOccurrenceofaCertainFeatureintheGenomee.g.howmanykinasesinYeastCompareOrganismsandTissuesExpressionlevelsinCancerousvsNormalTissuesDatabases,StatisticsII:From FindingHomologs todrugdesignIII:DrugDesigningUnderstandingHowStructuresBindOtherMolecu
27、les(Function)DesigningInhibitorsDocking,StructureModelingThree-dimensionalmolecularstructureisoneofthefoundationsofstructure-baseddrugdesign.Often,dataareavailablefortheshapeofaproteinandadrugseparately,butnotforthetwotogether.Dockingistheprocessbywhichtwomoleculesfittogetherin3Dspace.生物信息学与新药研制生物信息
28、学与新药研制未来的药物研究将是基于生物信息知识挖掘的过程未来的药物研究将是基于生物信息知识挖掘的过程数据处理关联分析发现药物作用对象确定靶标分子针对靶标设计药物 基因组学与药靶的选择基因组学与药靶的选择已有数十种模式菌或致病菌基因组完成测序,所有的基因都是潜在的靶,根据不同标准进行优选。通过分析某一化合物是否为某一特定生化反应或分子间相互作用(药靶)的抑制物,确定有无成药的可能。产生于基因组学的信息极大地方便了靶的选择。利用基因组DNA序列信息指导生化及功能研究(抗菌素),克服致病菌抗药性。Protein inhibitors(Virus asanexample)attachment,entr
29、yandfusioninhibitorsDNApolymeraseinhibitorsintegraseinhibitorsinterferonsmaturationinhibitorsmonoclonalantibodiesneuraminidaseinhibitorsNS3proteaseinhibitorsnucleosidereversetranscriptaseinhibitorsproteaseinhibitorsreversetranscriptaseinhibitorsRNApolymeraseinhibitorsDesigningnucleicacidinhibitors(A
30、ntisenseoligonucleotidesorRNAi)TargetingmRNATargetingmicroRNATargetinggenomicDNAInterferemRNAprocessingAptamersoligonucleotideorpeptidemoleculesthatbindtoaspecifictargetmoleculePLoS ONE paperWang X,Gou D,Xu S-y(2010)Polymerase-Endonuclease Amplification Reaction(PEAR)for Large-Scale Enzymatic Produc
31、tion of Antisense Oligonucleotides.PLoS ONE 5(1):e8430.doi:10.1371/journal.pone.0008430Bioinformatics and Pharmacutics and Pharmacutics 在BIOINFORMATICS没有诞生之前,一个新药的问世需要十年时间,数亿美元的R&D,而BIOINFORMATICS已将这个过程减少三分之二,R&D的费用也相应大大减少。许多中小BIOTECH公司也看到了BIOINFORMATICS的巨大作用和潜在的商机,纷纷投资BIOINFORMATICS研究项目。(PGP)Person
32、al genetic testing23andmeTo provide an introduction to bioinformatics with a focus on the National Center for Biotechnology Information(NCBI)and EBITo focus on the analysis of DNA,RNA and proteinsTo introduce you to the analysis of genomesTo combine theory and practice to help you solve research pro
33、blemsWhat are the goals of this course?五、生物信息学的现状五、生物信息学的现状今今后后DNADNA序序列列数数据据的的增增长长将将更更为为惊惊人人。生生物物学学数数据据的的积积累累并并不不仅仅仅仅表表现现在在DNADNA序序列列方方面面,与与其其同同步步的的还有蛋白质的一级结构,即氨基酸序列的增长。还有蛋白质的一级结构,即氨基酸序列的增长。与与正正在在以以指指数数增增长长的的生生物物学学数数据据相相比比,人人类类相相关关知知识识的的增增长长(粗粗略略地地用用每每年年发发表表的的生生物物、医医学学论论文文数数来来代代表表)显显得得十十分分缓缓慢慢。一一方方
34、面面是是巨巨量量的的数数据据,另另一一方方面面是是我我们们在在医医学学、药药物物、农农业业和和环环保保等等方方面面对对新新知知识识的的渴渴求求,这这些些新新知知识识将将帮帮助助人人们们改改善善其其生生存存环境和提高生活质量。环境和提高生活质量。各国政府和工业界对生物信息学研究极为重视,投入了大量资金。欧美各国及日本相继成立了生物信息中心,如美国的国家生物技术信息中心、欧洲生物信息学研究所、日本信息生物学中心等。这些机构相互合作,共同维护着GenBank、EMBL、DDBJ三大基因序列数据库。美国一些最著名的大学,如哈佛、斯坦福和普林斯顿大学等都投资几千万到一亿多美元成立了生物、物理、数学等学科
35、交叉的新中心,诺贝尔奖获得者朱棣文领导的斯坦福大学的中心还命名为Bio-X。据报导,只有50名员工的德国Lion生物信息学公司,将通过扫描公共数据库中的序列来发现500个可能的药物作用靶点,以一亿美元的价格预售给德国Bayer公司。NIH已向美国国会建议投资160亿美元在美国建立520个将生物学与计算结合起来的中心,来处理海量的基因组相关信息。法国议会科技决策评估办公室,最近评估了基因工程、生物信息学和组合化学等学科的应用前景及法国的对策。美国出现了大批的基于生物信息学的公司,实施了许多生物信息学研究计划,主要与药物设计,基因工程药物,生物芯片,代谢工程与化学工程密切相关。生物信息学工业属于基
36、础研究,以探索生物学自然学自然规律为己任;又属于应用研究,它的许多研究成果可以较快或立即产业化,成为价值很高的产品。人类基因组计划的完成为生物医药工业提供了大量可用于新药开发的原材料。有些基因产物可以直接作为药物,而有些基因则可以成为药物作用的对象(“靶点”)。生物信息学为分子生物学家提供了大量对基因序列进行分析的工具,不但可以从资料的获取、基因功能的预测、药物筛选过程中的信息处理等方面大大加快新药开发的进程,而且可以大大加快传统的基因发现和研究。据报导,只有50名员工的德国Lion生物信息学公司,将通过扫描公共数据库中的序列来发现500个可能的药物作用靶点,以一亿美元的价格预售给德国Baye
37、r公司。NIH已向美国国会建议投资160亿美元在美国建立520个将生物学与计算结合起来的中心,来处理海量的基因组相关信息。法国议会科技决策评估办公室,最近评估了基因工程、生物信息学和组合化学等学科的应用前景及法国的对策。美国出现了大批的基于生物信息学的公司,实施了许多生物信息学研究计划,主要与药物设计,基因工程药物,生物芯片,代谢工程与化学工程密切相关。六、与生物信息学关系密切的学科1.与生物信息学关系密切的数学领域统计学:包括多元统计学,是生物信息学的数学基础;概率论与随机过程理论,如隐马尔科夫链模型(HMM);运筹学:如动态规划法是序列比对的基本工具,最优化理论与算法:在蛋白质空间结构预测
38、和分子对接研究中有重要应用,函数论:如傅里叶变换等都是生物信息学中的常规工具;信息论:在分子进化、蛋白质结构预测、序列比对中有重要应用,而人工神经网络方法则用途极为广泛;组合数学:在分子进化和基因组序列研究中十分有用。原则上讲,各种数学理论或多或少或直接或间接都应该在生物学研究中有各种各样的应用,其中包括生物信息学.2.生物信息学密切相关的计算机科学技术生物信息学密切相关的计算机科学技术网络技术数据库管理技术(特别是关系型数据库)实验室数据信息管理系统(LIMS)。数据整合和可视化数据挖掘(DataMining)基于Linux/Unix操作系统的各种软件包人工智能神经网络算法的复杂性研究。参考
39、文献参考文献1、生物信息学生物信息学 孙啸孙啸 东南大学(课程讲义)东南大学(课程讲义)2、生物信息学概论生物信息学概论 罗静初罗静初 北京大学北京大学 北京大学出版社北京大学出版社3、生物信息学生物信息学(863高科技丛书)高科技丛书)赵国平赵国平 中科院上海生命科学院中科院上海生命科学院 科学出版社科学出版社4、生物信息学生物信息学基因和蛋白质分析的使用指南基因和蛋白质分析的使用指南 李衍达李衍达 清华大学清华大学 清华大学出版社清华大学出版社5、简明生物信息学简明生物信息学 钟扬钟扬 复旦大学复旦大学 高等教育出版社高等教育出版社6、bioinformatics and functional genomics Jonathan Pevsner Johns Hopkins university Wiley press 7、生物信息学生物信息学中文版中文版 原著原著 David W Mount 译者译者 钟扬等钟扬等 复旦大学复旦大学 高等教育出版社高等教育出版社联系方式联系方式汪小龙汪小龙办公室:办公室:化学馆化学馆226226EmailEmail:网址:网址:www.DNAPlusPwww.DNAPlusP
限制150内