基因组与功能基因组.ppt
基因基因组与比与比较基因基因组学学2020世世纪人人类科技科技发展史上的三大展史上的三大创举 9090年代人年代人类基因基因组计划划4040年代第一年代第一颗原子原子弹爆炸爆炸6060年代人年代人类首次登上月球首次登上月球人类基因组计划的鸟枪法序列分析技术比较基因组学及功能基因组研究Contents in this chapterContents in this chapter1.人类基因组计划的启动1986年诺贝尔奖获得者R.Dulbecco(杜尔贝科)提出人类基因组计划测出人类全套基因组的DNA碱基序列(3109bp)一、人类基因组计划1975年,年,获诺贝尔生理医学生理医学奖美国政府决定于1990年正式启动HGP,预计用15年时间,投入30亿美元,完成HGP。由国立卫生研究院和能源部共同组成“人类基因组研究所”逐渐地,HGP扩展为多国协作计划。参与者包括:英、日、法、德和中国(1993年)2.人类基因组计划的进展状况(1)截至1998年10月,完成1.8108bp,占计划的6。(2)完成一系列模式生物全基因组测定。这些模式生物全基因组测定的完成有重大理论与现实意义。(3)DNA测序技术飞速提高1998.5.9J.C.Venter等宣布,组建商业公司,投入3亿美元,3年内完成。接着又有若干家公司成立,总共投入资金约几十亿美元,形成“公公”“私私”并并进 格局2000.6完成并公布人类基因组工作框架图(90%)。二二000000年六月二十六日克林年六月二十六日克林顿宣布宣布人人类基因基因组草草图绘制完成制完成美国国家人类基因组研究所所长弗朗西斯柯林斯在介绍情况。人类基因组草图基本信息由由31.65亿bp组成成含含3-3.5万基因万基因与蛋白与蛋白质合成有关合成有关 的基因占的基因占2%人人类基因基因组人人类蛋白蛋白质61%与果与果蝇同源同源43%与与线虫同源虫同源46%与酵母同源与酵母同源2000年年6月公共领域测序计划工作框架图月公共领域测序计划工作框架图2000 年年 12 月美、英等国科学家宣布月美、英等国科学家宣布绘出出拟南南芥基因芥基因组的完整的完整图谱,这是人是人类首次全部破首次全部破译出一出一种植物的基因序列。种植物的基因序列。2001年2月16日人类基因组“精细图”完成(99%)同时发表论文:美国Science,Vol.291,No.5507;英国Nature,Vol.409,p.860年月日,人类基因组序列图亦称“完成图”(99.99%),提前绘制成功。DAN测序胶图1860至至1870年年 奥地利科学家孟德奥地利科学家孟德尔根据豌豆根据豌豆杂交交实验提出提出遗传因子概念,并因子概念,并总结出孟德出孟德尔遗传定律。定律。1909年年 丹麦植物学家和丹麦植物学家和遗传学家学家约翰翰逊首次提出首次提出“基因基因”这一名一名词,用以表达孟德,用以表达孟德尔的的遗传因子概念。因子概念。1944年年 3位美国科学家分离出位美国科学家分离出细菌的菌的DNA(脱氧核糖核酸),并脱氧核糖核酸),并发现DNA是携是携带生生命命遗传物物质的分子。的分子。1953年年 美国人沃森(美国人沃森(Watson)和英国人克里克(和英国人克里克(Crick)通通过实验提出了提出了DNA分子的分子的双螺旋模型。双螺旋模型。1969年年 科学家成功分离了第一个基因。科学家成功分离了第一个基因。1990年年10月月 被誉被誉为生命科学生命科学“阿波阿波罗登月登月计划划”的国的国际人人类基因基因组计划启划启动。1998年年 一批科学家在美国一批科学家在美国罗克威克威尔(Rockville)组建塞莱拉建塞莱拉遗传公司,与国公司,与国际人人类基因基因组计划展开划展开竞争。争。1998年年12月月 一种小一种小线虫完整基因虫完整基因组序列的序列的测定工作宣告完成,定工作宣告完成,这是科学家第一次是科学家第一次绘出多出多细胞胞动物的基因物的基因组图谱。1999年年9月月 中国中国获准加入人准加入人类基因基因组计划,划,负责测定人定人类基因基因组全部序列的全部序列的1%。中国是中国是继美、英、日、德、法之后第美、英、日、德、法之后第6个国个国际人人类基因基因组计划参与划参与过,也是参与,也是参与这一一计划的唯一划的唯一发展中国家。展中国家。基因及基因基因及基因组研究大事研究大事记:1999年年12月月1日日 国国际人人类基因基因组计划划联合研究小合研究小组宣告,完整破宣告,完整破译出人体第出人体第22对染染色体的色体的遗传密密码,这是人是人类首次成功地完成人体染色体完整基因序列的首次成功地完成人体染色体完整基因序列的测定。定。2000年年4月月6日日 美国塞莱拉公司宣布破美国塞莱拉公司宣布破译出一名出一名实验者的完整密者的完整密码,但遭到不少科,但遭到不少科学家的学家的质疑。疑。2000年年4月底月底 中国科学家按照国中国科学家按照国际人人类基因基因组计划的部署,完成了划的部署,完成了1%人人类基因基因组的工作框架的工作框架图。2000年年5月月8日日 德、日等国科学家宣布,已基本完成了人体第德、日等国科学家宣布,已基本完成了人体第21对染色体的染色体的测序工作。序工作。2000年年6月月26日日 科学家公布人科学家公布人类基因基因组工作草工作草图,标志着人志着人类在解在解读自身自身“生命之生命之书”的路上的路上迈出了重要一步。出了重要一步。2000年年12月月14日日 美英等国科学家宣布美英等国科学家宣布绘出出拟南芥基因南芥基因组的完整的完整图谱。这是人是人类首首次全部破次全部破译出一种植物的基因序列。出一种植物的基因序列。2001年年2月月12日日 中、美、日、德、法、英中、美、日、德、法、英6国科学家和美国塞莱拉公司国科学家和美国塞莱拉公司联合公布人合公布人类基基因因组图谱及初步分析及初步分析结果。果。科学家首次公布人科学家首次公布人类基因基因组草草图“基本信息基本信息”。3.人类基因组计划的科学意义(1)确定人类基因组中约5万个编码基因的序列及其在基因组中的物理位置,研究基因的产物及其功能。(2)了解转录和剪接调控元件的结构与位置,从整个基因组结构的宏观水平上理解基因转录与转录后调节。(3)从整体上了解染色体结构,包括各种重复序列以及非转录“框架序列”的大小和组织,了解各种不同序列在形成染色体结构、DNA复制、基因转录及表达调控中的影响与作用。(4)研究空间结构对基因调节的作用。有些基因的表达调控序列与被调节基因从直线距离上看,似乎相距甚远,但若从整个染色体的空间结构上看则恰恰处于最佳的调节位置,因此,有必要从三维空间的角度来研究真核基因的表达调控规律。(5)发现与DNA复制、重组等有关的序列。DNA的忠实复制保障了遗传的稳定性,正常的重组提供了变异与进化的分子基础。局部DNA的推迟复制、异常重组等现象则导致疾病或者胚胎不能正常发育,因此,了解与人类DNA正常复制和重组有关的序列及其变化,将对研究人类基因组的遗传与进化提供重要的结构上的依据。(6)研究)研究DNA突突变、重排和染色体断裂等,了解疾病的分子机制,、重排和染色体断裂等,了解疾病的分子机制,包括包括遗传性疾病、易感性疾病、放射性疾病甚至感染性疾病引性疾病、易感性疾病、放射性疾病甚至感染性疾病引发的分子病理学改的分子病理学改变及其及其进程,程,为这些疾病的些疾病的诊断、断、预防和治防和治疗提供理提供理论依据。依据。(7)确定人)确定人类基因基因组中中转座子、逆座子、逆转座子和病毒残余序列,研究座子和病毒残余序列,研究其周其周围序列的性序列的性质。了解有关病毒基因。了解有关病毒基因组侵染人侵染人类基因基因组后后的影响,可能指的影响,可能指导人人类有效地利用病毒有效地利用病毒载体体进行基因治行基因治疗。(8)研究染色体和个体之间的多态性。这些知识可被广泛用于基因诊断、个体识别、亲子鉴定、组织配型、发育进化等许多医疗、司法和人类学的研究。此外,这些遗传信息还有助于研究人类历史进程、人类在地球上的分布与迁移以及人类与其他物种之间的比较。遗传图谱遗传图谱转录图谱转录图谱0.7 cM 或或 kb 序列图谱序列图谱物理图谱物理图谱100 kb100 kbSTS mapSTS map四张图:四张图:物理图、物理图、转录图转录图遗传图遗传图 、序列图、序列图 4.HGP4.HGP的主要任的主要任务4.1 遗传图(连锁图)指基因或DNA标记在染色体上的相对位置与遗传距离。cM(基因或DAN片段在染色体交换过程中分离的频率)cM越大,两者之间距离越远。确定了解各个基因之间的相对距离与方向。遗传距离是通过遗传连锁分析获得的,研究中所使用的DNA标志越多,越密集,所得到的遗传连锁图的分辨率就越高。经典的遗传标记是可被电泳或免疫技术检出的蛋白质标记,如红细胞ABO血型位点标记,白细胞HLA位点标记等。例如,在ABO血型基因中,位于9号染色体长臂3区4带(9q34)的基因IA,决定抗原A的存在,表现A型血性状。由于ABO血型的广泛存在,所以可用它作遗传标记。当在某一家庭中,观察到了指甲髌骨综合征与A型血相伴遗传时,认为,这种病的致病基因NP与IA基因相连锁,也位于9q34区段。进一步的观察发现,这个家庭的后代中,有1/10为A型血而无指甲髌骨综合征,这表明基因IA和NP发生了交换,交换率(重组率)为1/10。这时就可说,基因IA和NP相距较近,连锁图上的距离为10厘摩(重组率1即为1厘摩)。酵母酵母遗传分析中最常用的生物化学分析中最常用的生物化学标签标签表现型筛选方法ADE2培养基中需加入腺苷酸只能在加入腺苷酸的培养基上生长CAN1对刀豆氨酸有抗性能在含有刀豆氨酸的培养基上生长CUP1对铜离子有抗性能在含有铜离子的培养基上生长CYH1对环己酰亚胺有抗性能在含有环己酰亚胺的培养基上生长LEU2培养基中需加入亮氨酸只能在加入亮氨酸的培养基上生长SUC2能进行蔗糖发酵能在以蔗糖作为唯一碳源的培养基上生长URA3培养基中需加入尿嘧啶只能在加入尿嘧啶的培养基上生长如果只用已知定位的少数几个基因作遗传标记,由于遗传标记的数目太少,很难绘制完整的连锁图。DNA技术的建立为人类提供了大量新的遗传标记。多态性:人的DNA序列上平均每几百个碱基会出现一些变异(variation),并按照孟德尔遗传规律由亲代传给子代,从而在不同个体间表现出不同,因而被称为多态性(Polymorphism)。n第一代DNA遗传标记是RFLP(Restriction Fragment Length Polymorphism,限制性片段长度多态性)。DNA序列上的微小变化,甚至1个核苷酸的变化,也能引起限制性内切酶切点的丢失或产生,导致酶切片段长度的变化。由于核苷酸序列的改变遍及整个基因组,特别是进化中选择压力不是很大的非编码序列之中,RFLP的出现频率远远超过了经典的蛋白质多态性。而且,只要选择得当,生物体内出现共显性RFLP及RAPD分子标记的频率较高。第二代多态性标记是短的串联重复序列 包括小卫星DNA和微卫星DNA,其多态性主要来自重复序列拷贝数的变化小卫星DNA由15-65bp的基本单位串联重复而成,长度一般不超过20kb。重复次数(小卫星DNA区的长度)在人群中是高度变异的;按照孟德尔的规律遗传微卫星DNA/简短串联重复(STR、STRP或SSLP)重复单元2-8bp,通常重复10-60次CTAGCTTATATATATATATATATATATATAAGCTTGC真核生物基因组中的DNA重复序列主要有哪些类型?简要说明基因组重复序列可能的生物学意义以及基因组重复序列在分子标记研究中的应用(12分)中国科学院2002年 硕士学位研究生入学分子遗传学试题 第三代多态性标记是单核苷酸的多态性(single nucleotide polymorphism,SNP)可能也是最好的遗传标记,是分散于基因组中的单个碱基的差异。这种差异包括单个碱基的缺失和插入,但更常见的是单个核苷酸的替换,SNP:是由于单个核苷酸改变而导致的核酸序列多态。第一军医大学2003年分子生物学人类999的基因密码是相同的,而差异不到01,不同人群仅有140万个核苷酸差异。这些差异是由“单一核苷酸多样性”(SNP)产生的,它构成了不同个体的遗传基础。在整个基因组序列中,人与人之间的变异仅为万分之一,从而说明人类不同“种属”之间并没有本质上的区别。SNP与RFLP和STR标记的主要不同之处在于,它不再以DNA片段的长度变化作为检测手段,而直接以序列变异作为标记。“遗传图”的建立为人类疾病相关基因的分离克隆奠定了基础。拥有5000多个遗传学位点,相当于把整个人类基因组划分为5000多个小区,并分别设置了“标牌”。这些标牌将在搜索功能基因的过程中发挥独特的作用。4.2 物理图 以已知核苷酸序列的DNA片段(序列标签位点,sequence-tagged site,STS)为“路标”,以碱基对作为基本测量单位(图距)的基因组图。遗传图所表现的,是通过连锁分析确定的各基因间的相相对位置位置;物理图则表现染色体上每个DNA片段的实际顺序序。酵母第三号染色体酵母第三号染色体遗传图(右)和物遗传图(右)和物理图(左)的比较理图(左)的比较现在的测序技术还不能对整个DNA分子进行序列测定,因此须先将它切成一个个大小不同的片段,然后将这些片段连起来,构成连续的序列。这些大片段在进行DNA分子克隆时,用一种特殊的载体-酵母人工染色体(YAC),将片段导入酵母,在酵母细胞中克隆。YAC中的DNA大片段是靠序列标记位标(STS)来识别的。STS是一段200500碱基对的已知序列,在染色体上有一定的位置,所以用STS作位标可将不同YAC克隆排列成邻接克隆群(contig)。其他载体还有BAC(细菌人工染色体)、P1(噬菌体人工染色体)、粘粒(cosmid)、细菌质粒等。现在,人类基因组24条染色体的YAC、BAC、P1邻接克隆群均已建立,精度约100碱基对的物理图也基本绘成,并已开始进行大规模测序。4.3 转录图 以EST(expressed sequence tag,表达序列标签)为标记,根据转录顺序的位置和距离绘制的图谱。ESTEST:通过从:通过从cDNAcDNA文库中随机挑选的克隆进行测序文库中随机挑选的克隆进行测序所获得的部分所获得的部分cDNAcDNA的的55或或33端序列称为表达序列端序列称为表达序列标签(标签(ESTEST),一般长),一般长300-500bp300-500bp左右。左右。所有蛋白质都是由mRNA(信使核糖核酸)编码的,而mRNA又由DNA转录而来。人类基因组中仅15的DNA是编码序列(基因);成人各种组织中又只有约10的基因表达为蛋白质。所以,建立转录图,或从mRNA逆转录而来的cDNA图,是分离、定位和克隆基因的关键。EST可用工业化的程序生产,只要分离到某一发育阶段某一组织的mRNA,就可用逆转录法,从mRNA合成相应的cDNA片段,即EST。用它作探针,就可从基因组文库中筛到全长的基因序列。截止到1998年2月,已发现约92万条EST,转录图的制作有了良好的开端,但这已属后基因组计划的工作。4.4 序列图(分子水平的物理图)(分子水平的物理图)序列图是指整个人类基因组的核苷酸序列图,也是最详尽的物理图。既包括可转录序列,也包括非转录序列,是转录序列、调节序列和功能未知序列的总和。2000年年6月公共领域测序计划工作框架图月公共领域测序计划工作框架图二、的鸟枪法序列分析技术 1.1.的鸟枪法测序原理 1999 年年 12 月用月用“逐个克隆逐个克隆法法”获得第一条获得第一条人类染色体人类染色体 22号染色体完成序号染色体完成序列列 2000 年年3 月月用用“全基因组全基因组鸟枪法鸟枪法”获得获得果蝇全基因组果蝇全基因组序列。序列。2000年年6月公共领域测序计划工作框架图月公共领域测序计划工作框架图2.DNA的鸟枪法测序的主要步骤 第一,建立高度随机、插入片段大小为2kb左右的基因组文库。第二,高效、大规模的末端测序。第三,序列集合。第四,填补缺口。Shotgun法序列拼接法序列拼接Sequence GapSequence Gap 3.的鸟枪法测序的优缺点优点:速度快优点:速度快 缺点:缺点:随着所测基因组总量增大,所需测序的片段大量增加高等真核生物(如人类)基因组中有大量重复序列,导致判断失误对鸟枪法的改进(1)Clonecontig法。首先用稀有内切酶把待测基因组降解为数百kb以上的片段,再分别测序。(2)靶标鸟枪法(diretedshotgun)。首先根据染色体上已知基因和标记的位置来确定部分DNA片段的相对位置,再逐步缩小各片段之间的缺口。1.比较基因组学(Comparative Genomics)概念:是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。三、比较基因组学及功能基因组学研究物种物种完成完成年份年份总长度总长度/Mp/Mp已完成总长已完成总长的百分数的百分数/%/%占常染色质占常染色质百分数百分数/Mb/Mb基因数基因数/Mb/Mb酵母酵母1996199612129393100100483483线虫线虫1998199896969999100100197197果蝇果蝇2000200011611664649797117117拟南芥拟南芥200020001151159292100100221221人类第人类第2121染色体染色体20002000343475751001007 7人类第人类第2222染色体染色体199919993434707097971616人类全基因组人类全基因组(Public Sequence)(Public Sequence)2001200126932693848490901212人类全基因组人类全基因组(Celera Sequence)(Celera Sequence)2001200126542654838399-9399-931515基本完成基本完成DNADNA序列分析的真核生物基因组比较序列分析的真核生物基因组比较E.coli,Haemophilus influenzae和和Mycoplasma genitalium基因组中的基因分类基因组中的基因分类分类基因数E.coliH.influenzaeM.genitalium总ORF数42881727470氨基酸合成131681辅基等的合成103545核苷酸合成585319细胞膜合成与装配2378417能量代谢24311231中合物代谢188306脂肪代谢48256DNA复制、重组和修复1158732蛋白质结构967调控蛋白178647转录552712翻译182141101吸收与转运427123342.功能基因组学研究2.1 概念:利用结构基因组学提供的信息,以高通量,大规模实验方法及统计与计算机分析为特征,全面系统地分析全部基因的功能。2.2.基因功能的研究方法(1)基因转导技术:导入细胞,观察功能。该方法用的最多,技术最成熟。(2)基因敲除技术(gene knockout)又称基因打靶(gene targeting)。这种技术是通过基因工程的方法将一个结构已知但功能未知的基因去除,或用其他序列相近的基因取代(又称基因敲入),然后从整体观察实验动物,从而推测相应基因的功能。这种人为地把实验动物某一种有功能的基因完全缺失的技术称为基因敲除技术。