比较基因组学原理及应用.pptx
《比较基因组学原理及应用.pptx》由会员分享,可在线阅读,更多相关《比较基因组学原理及应用.pptx(90页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、比较基因组学比较基因组学相关概念相关概念韩柳第1页/共90页基因组学概念及范畴基因组学概念及范畴基因组基因组(genome)泛泛指指一一个个有有生生命命体体、病病毒毒或或细细胞胞器器的的全全部部遗遗传传物物质质;在在真真核核生生物物,基基因因组组是是指指一一套套染染色色体(单倍体)体(单倍体)DNA。基因组学基因组学(genomics)就是发展和应用就是发展和应用DNA制图、测序新技术以制图、测序新技术以及计算机程序,分析生命体(包括人类)全部基及计算机程序,分析生命体(包括人类)全部基因组结构及功能。因组结构及功能。第2页/共90页基因组学概念基因组学概念第3页/共90页比较基因组学概念比较
2、基因组学概念定义:定义:比较基因组学(Comparative Genomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。研究内容:研究内容:种间的比较基因组学 和 种内的比较基因组学第4页/共90页第5页/共90页概念概念工具:工具:1、FASTA 2、BLAST 3、CLUSTAL W基因组分类:基因组分类:1、通过比较确知其功能的。2、在数据库中有相匹配的蛋白,但不知道其功能。3、在现有的数据库中找不到任何相匹配的蛋白质序列的新基因。第6页/共90页第7页/共90页部分真核、原核生物基因组成成份分析部分真核、原核生物基因组
3、成成份分析第8页/共90页通过基因组数据进行比较基因组学研究通过基因组数据进行比较基因组学研究例子:尿殖道支原体带有已知最小的基因组,可依此确定能自我复制的细胞必需的一套最少的核心基因。流感嗜血杆菌的基因组为1.83MB,尿殖道支原体的基因组只有0.58Mb,二者相差3倍多,那么,基因组是大小影响了基因的数目还是基因的尺度?第9页/共90页流感嗜血杆菌的基因大小平均900bp,尿殖道支原体的基因为1040bp,他们基因大小差不多流感嗜血杆菌中平均1024bp有一个基因,尿殖道支原体平均1235bp有一个基因。结论:结论:基因尺度减小并不引起基因密度的增加和基因本身尺寸的减小。二者的差别在于基因
4、数量上,流感嗜血杆菌基因有1743个ORF,而尿殖道支原体只有470个ORF第10页/共90页比较基因组有助于解决进化距离问题比较基因组有助于解决进化距离问题第11页/共90页 测序技术与测序技术与 比较基因组学比较基因组学 阎永伟第12页/共90页 比较基因组学是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。该学科的发展及所取得的成果与序列的积累相同步,尤其是人类全基因组序列的分析与比较使比较基因组学成为整个生物学领域最新、最重要、进展最快和影响最大的学科之一。第13页/共90页1.已完成的测序已完成
5、的测序比较基因组学从一开始就是人类基因组计划的一部分。人类基因组计划的原始计划是测定人类和一部分模式生物(如细菌,酵母,果蝇,秀丽隐杆线虫,小鼠等)的全基因组序列。第14页/共90页Homo sapiens 2010年全部完成Pan troglodytes Lander et al.2005;Mus musculus Waterston et al.2002;Rattus norvegicus Gibbs et al.2004;Drosophila melanogaster Adams et al.2000;Escherichia coli Blattner et al.1997;Saccha
6、romyces cerevisiae Goffeau et al.1996;Ciona intestinalis Dehal et al.2002,Small et al.2007;Caenorhabditis elegans Stain et al.2003,Stein et al.1998。第15页/共90页HGP完成以后:Gallus gallus 鸡 Blattner et al.2004,Bos taurus 牛 Elsik et al.2009,Canis familiaris 狗 Lindblad-Toh et al.2005,Apis mellifera 蜜蜂 Lindblad
7、-Toh et al.2006,Anthocidaris crassispina 紫海丹 Sodergren et al.2006Macaca mulatta 恒河猴 Gibbs et al.2007第16页/共90页 In Entrez Genome,10001000 complete Prokaryotic Genomes are available!测测序序完完成成情情况况统统计计第17页/共90页2.2.测序技术概述测序技术概述 绝大多数生物的遗传物质为DNA,然而遗传信息却仅仅由四种碱基A,T,C,G排列组合而成。自从DNA的双螺旋结构被发现以后,能够知道DNA分子上四种碱基的顺序就
8、成为了一个新的热点。于是,继蛋白质和RNA测序之后,又出现了DNA测序。第18页/共90页自1977年出现DNA测序技术至今,第一代测序技术 第二代测序技术 第三代测序技术第19页/共90页(1)测序技术的出现及第一代测序技术 1)测序技术的出现 1975年,Sanger和Coulson发明了“加减法”测定DNA序列;1977年,又引入ddNTP,发明了双脱氧终止法;1977,Maxam和Gilbert发明了化学降解法测定DNA序列。第20页/共90页 Fig1.双脱氧终止法测序第21页/共90页2)第一代测序技术 传统的化学降解法、双脱氧链终止法以及在它们的基础上发展来的各种DNA测序技术统
9、称为第一代DNA测序技术。第一代测序技术在分子生物学研究中发挥过重要的作用,如人类基因组计划主要基于第一代DNA测序技术。第22页/共90页 目前基于荧光标记和Sanger的双脱氧链终止法原理的荧光自动测序仪(如ABI 3730XL)仍被广泛地应用。杂交测序技术也是第一代测序技术,但是并非基于以上两种原理。速度快,但是误差大。第23页/共90页Fig.2 ABI 3730XL第24页/共90页(2)第二代测序技术 后基因组时代亦即功能基因组时代的测序技术,显著特征是高通量、低成本。主要包括罗氏454公司的GS FLX测序平台、Illumina公司的Solexa Genome Analyzer测
10、序平台和ABI公司的SOLiD测序平台。第25页/共90页 Fig.3 Roche 454GS FLX 平台第26页/共90页第27页/共90页Fig.4 IlluminaSolexa平台第28页/共90页第29页/共90页 Fig.5 ABI SOLiD平台第30页/共90页第31页/共90页参考文献:DNA测序技术的发展历史与最新进展,解增言等;DNA测序技术发展及其展望,孙海汐等。第32页/共90页(3)第三代测序技术以单分子测序为特点;如:BioScience Corporation的HeliScope Single Molecular Sequencer;Pacific Biosci
11、ences的Single Molecule RealTime(SMRT)DNA sequencing technology(正在研制);Oxford Nanopore Technologies Ltd的纳米孔单分子测序技术。中科院北京基因组研究所,2013年,第一台国产样机第33页/共90页测序技术与比较基因组学测序技术与比较基因组学 DNA测序已经成为分子生物学研究中一种基本的研究手段与工具,对于这种手段的需要也已经极大地促进了DNA测序技术的进步与发展。在此基础上,将会有更多的生物的全基因组序列被测定,那么针对任何一种生物的比较基因组学研究将会变得更加简单。第34页/共90页基因组序列分析
12、的计算方法基因组序列分析的计算方法 1.引言 2.点阵图 3.两序列比对 4.多序列比对 5.数据库搜索朱琳第35页/共90页引言引言l人类基因组计划(HGP)遗传图、物理图、序列图和转录图l区分两个概念:同源性-共同的祖先相似性-定量特征高度相似很可能是同源序列;相似性很低的序列也可能具有同源序列第36页/共90页点阵图点阵图ACTGTTAGACTTTAGCA C T G T T A G|A C T -T T A G第37页/共90页两序列比对两序列比对面临的问题:进化的过程中同源序列可经过多次的插入或缺失,导致它们长度不同,这就给比对带来了麻烦。要解决的问题:最优比对算法-寻找最佳的缺失方
13、式使比对序列的相似度达到整体最大第38页/共90页Needleman-wunsch全局比对算法全局比对算法首先构建具有m行n列的矩阵M,根据残基配对的函数,给每个矩阵单元格赋值,将矩阵初始化。再进行变换操作,规则是将某单元格右下方路径中的最大值叠加到该单元格即M(I,j)=M(I,j)+maxM(i+1,j+1);M(i+1,j+2,jmax)-gap penalty;M(i+2,imax,j+1)-gap penalty使用最简单的打分系统进行比对,残基相同时分值是1,不同时分值为0,空位罚分。此外还有Smith-waterman 算法第39页/共90页基因组比对基因组比对 只能对序列密切相
14、关或非常相似的基因组比对,序列太长,既有的算法无能为力方法:suffix tree 数据结构 软件MUMer 能找出两个基因组的DNA序列上最大且唯一的匹配区域,然后除去序列中用Smith-waterman 最佳局部比对算法对大量插入序列、重复序列、短变异区域进行局部鉴定时插入的空位,完成这两个基因组序列的比对。第40页/共90页多序列比对多序列比对三条或多条序列的同时比对是序列的分析中最常用的技术之一。通过一系列同源序列的全局比对来实现的递进法:基本思想是同源序列与系统发育相关。具体步骤:1、比对所有可能的序列对。2、用相邻连接法使用两两比对的相似度分值构建(tree)。3、这种树用于指导递
15、进的多序列比对。第41页/共90页数据库搜索数据库搜索三大核酸数据库:GenBank、EMBL、DDBJ第42页/共90页数据库搜索使用的最广泛的算法:FASTA算法和BLAST算法。FASTA算法运用一种包括四个连续阶段的启发式方法来检测被查序列与一组序列是相似性。BLAST算法采用非常快的算法来查找数据库中与预查询序列最相似是序列。基本思想是:两个同源序列即使有很大的差异,也有可能共有高分值的相似片段,这使我们可以理解可靠的区分相关和非相关的序列。第43页/共90页蛋白质序列分析蛋白质序列分析 对新蛋白质序列进行分析的第一步是用BLAST进行数据库搜索。l如果有明显相似性可以推测其序列的功
16、能l如果没有,可用模式识别方法根据特定的结构域或蛋白质家族的特征进行搜索。-模式数据库已经成为识别新序列的特定功能活性的重要工具。InterPro数据库是最重要的蛋白质模式数据库之一。第44页/共90页此外还有蛋白质信号肽的识别及亚细胞定位的预测预测卷曲螺旋和螺旋-转角-螺旋结构蛋白质折叠的识别与分类等第45页/共90页 种内比较基因组学种内比较基因组学 模式生物模式生物 姜南第46页/共90页种内基因组的比较同种群体内基因组存在大量的变异和多态性,正是这种基因组序列的差异构成了不同个体与群体对疾病的易感性和对药物与环境因子不同反应的遗传学基础。第47页/共90页我总结了:凡是能够用来研究同一
17、种群内两个个体基因组的不同的分子手段都属于种内比较基因组学的范畴。主流方法是分子标记技术:RAPD,RFLP,AFLP,基因芯片。回顾分子标记第48页/共90页水产界举例水产界举例李太武老师等用20条随机引物对皱纹盘鲍、杂色鲍进行RAPD分析,结果均能产生清晰可重复扩增产物,计算出各群体扩增位点的多态性比例分别为43.66%和53.05%,群体平均遗传杂合度分别为和0.1686,群体间的遗传距离0.2898,表明皱纹盘鲍与杂色鲍的亲缘关系较远。第49页/共90页模式生物模式生物基因进化上的保守往性和遗传密码的通用性,从某一生物得到的有关基因性质或功能方面的信息往往也适用于其他生物。个体小,易操
18、作,易培养,繁殖快。病毒,大肠杆菌,酵母,线虫,果蝇,斑马鱼,小鼠,拟南芥第50页/共90页种间比较基因组学研究种间比较基因组学研究马寿光 黄继第51页/共90页通过对不同亲缘关系物种的基因组序列进行比较,能够鉴定出编码序列、非编码调控序列及给定物种独有的序列。而基因组范围之内的序列比对,可以了解不同物种在核苷酸组成、同线性关系和基因顺序方面的异同,进而得到基因分析预测与定位、生物系统发生进化关系等方面的信息。第52页/共90页1全基因组的比较研究2系统发生的进化关系分析第53页/共90页比较基因组学的基础是相关生物基因组的相似性。两种具有较近共同祖先的生物,它们之间具有种属差别的基因组是由祖
19、先基因组进化而来,两种生物在进化的阶段上越接近,它们的基因组相关性就越高。如果生物之间存在很近的亲缘关系,那么它们的基因组就会表现出同线性(synteny),即基因序列的部分或全部保守。1.全基因组的比较研究第54页/共90页Synteny可以这样假设,人与小鼠或其它哺乳动物有一个共同的祖先,在漫长的进化中,染色体发生断裂,重排,加上基因内部的变化,成为各种不同的物种。但是未发生断裂重排的完整片段内部的基因组织和连锁顺序在不同的物种中保持不变,这就是synteny,是基因组比较作图的基础所在。第55页/共90页在各种不同的物种中,绝大多数的核心生物功能是由相当数量的orthologous蛋白承
20、担,所谓or-thologous蛋白就是一些在不同物种中有共同祖先的蛋白质。在不同的物种中这些蛋白的数量十分相似,它们主要是在生物体中执行中介代谢,DNA,RNA代谢,蛋白折叠,trafficking,和降解的功能。在较为复杂的生物中,随着功能不断地复杂,就会出现许多蛋白以执行其复杂的功能,而维持最基本生命活动的蛋白是保守的。两种物种中蛋白总数上的差别是由承担各自特有任务的蛋白数目的不同而造成的。第56页/共90页可以利用模基因组之间编码顺序上和结构上的同源性,通过已知基因组的作图信息定位另外基因组中的基因,从而揭示基因潜在的功能、阐明物种进化关系及基因组的内在结构。第57页/共90页人类与多
21、个灵长类动物的比较基因组学研究,在阐明灵长类特异基因调节元件和划分多基因的外显子方面显示出了很大的优势。林木可与拟南芥(已经获得了全基因组序列,一些基因的功能已被注释)和毛果杨等功能基因组研究较深入的物种进行比较基因组学研究,这将为林木上相关基因功能的研究提供便利。第58页/共90页生物最本质的特征是进化,比较基因组学同样以进化理论作为理论基石,同时其研究结果又前所未有地丰富和发展了进化理论。当在两种以上的基因组间进行序列比较时,实质上就得到了序列在系统发生树中的进化关系。基因组信息的增多使得在基因组水平上研究分子进化、基因功能成为可能。2.系统发生的进化关系分析第59页/共90页通过对多种生
22、物基因组数据及其垂直进化、水平演化过程进行研究,就可以对与生命至关重要的基因的结构及其调控作用有所了解。但由于生物基因组中约有15145的基因与“横向迁移现象”有关,即基因可以在同时存在的种群间迁移,这样就会导致与进化无关的序列差异。第60页/共90页横向迁移现象对人类基因组的分析发现,有几十个人的基因只与细菌基因相似,而在果蝇、线虫中都不存在。如果以人的这些基因序列来研究进化将会得到荒谬的结论。所以在当前的分子进化研究中必须选择垂直进化的分子作为样本。并且在系统发生分析中需要建立较完整的生物进化模型,以避免基因转移和欠缺合适的多物种共有保守序列的影响。第61页/共90页Z曲线的GC轮廓图方法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 比较 基因组 原理 应用
限制150内