分子生物学-基因与基因组讲课讲稿.ppt
分子生物学分子生物学-基因与基因基因与基因组组基因是什么?基因是什么?物质:特定核苷酸序列功能:遗传第一第一节 基因基因(Gene)一、概念 基因是分子上具有遗传效应的特定核苷酸序列的总称,是具有遗传效应的分子片段。是遗传物质的最小功能单位多数生物的基因由脱氧核糖核酸(DNA)构成,并在染色体上作线状排列。除某些病毒的基因由核糖核酸(RNA)构成。基因一词通常指染色体基因。在真核生物中,由于染色体都在细胞核内,所以又称为核基因。位于线粒体和叶绿体等细胞器中的基因则称为染色体外基因、核外基因或细胞质基因,也可以分别称为线粒体基因、质粒和叶绿体基因。在通常的二倍体的细胞或个体中,能维持配子或配子体正常功能的最低数目的一套染色体称为染色体组或基因组,一个基因组中包含一整套基因。相应的全部细胞质基因构成一个细胞质基因组,其中包括线粒体基因组和叶绿体基因组等。原核生物的基因组是一个单纯的DNA或RNA分子,因此又称为基因带,通常也称为它的染色体.基因在染色体上的位置称为座位,每个基因都有自己特定的座位。在同源染色体上占据相同座位相同座位的不同形不同形态的基因都称为等位基因。在自然群体中往往有一种占多数的(因此常被视为正常的)等位基因,称为野生型基因;同一座位上的其他等位基因一般都直接或间接地由野生型基因通过突变产生,相对于野生型基因,称它们为突变型基因。在二倍体的细胞或个体内有两个同源染色体,所以每一个座位上有两个等位基因。如果这两个等位基因是相同的,那么就这个基因座位来讲,这种细胞或个体称为纯合体;如果这两个等位基因是不同的,就称为杂合体。在杂合体中,两个不同的等位基因往往只表现一个基因的性状,这个基因称为显性基因,另一个基因则称为隐性基因。在二倍体的生物群体中等位基因往往不止两个,两个以上的等位基因称为复等位基因。在细菌中编码同一生物合成途径中有关酶的一系列基因常排列在一起,构成一个操纵子.基因结构 现代分子生物学认为,基因是核酸分子中储存存遗传信息的信息的遗传单位位,是核酸分子中由特定的核苷特定的核苷酸按一定的碱基酸按一定的碱基顺序排列序排列而成的有功能的一个片有功能的一个片段。段。是RNA序列和蛋白质多肽链序列相关遗传信息的基本存在形式,以及表达表达这些信息所需要的全部核些信息所需要的全部核苷酸序列苷酸序列。基因是基因基因是基因组序列上的序列上的遗传单位,有位,有调节区、区、转录区和区和(或或)其他功能序列区。其他功能序列区。基因的化学本质是DNA(RNA病毒除外)。在细胞中基因是含有含有编码序序列和非列和非编码序列的序列的DNA序列。序列。(P 1 )基因包括:1.具有转录和翻译功能的基因2.只有转录功能没有翻译功能的基因,包括tRNA基因和rRNA 基因。3.不转录的基因,对基因表达其调控作用,包括启动基因和操纵基因等。二、基因二、基因结构与功能构与功能(一一)基因的基因的结构构1.原核生物基因结构2.真核生物基因真核生物基因结结构构大多数真核生物的基因为不连续基因(interruptesd或discontinuous gene)。所谓不连续基因就是基因的编码顺序在DNA分子上是不连续的,被非编码顺序所隔开。人人类结类结构基因构基因4个区域:个区域:编码区,包括外显子(exon)与内含子(intron),又称插入顺序(intervening sequence,IVS)。外显子(exon),是一个基因表达多肽链的部分;内含子只转录,在前mRNA(pre-mNRA)时被剪切掉。前导区,位于编码区上游,相当于RNA5末端非编码区(非翻译区)尾部区,位于RNA3编码区下游,相当于末端非编码区(非翻译区)调控区,包括启动子和增强子等。启启动子子(promoter)包括下列几种不同顺序,能促进转录过程:TATA 框(TATA box)CAAT框(CAAT box)GC框(GC box)调控区2增增强子子(enhancer)在真核基因转录起始点的上游或下游,它不能启动一个基因的转录,但有增强转录的作用。此外,增强子顺序可与特异性细胞因子结合而促进转录的进行。3终止子在一个基因的末端往往有一段特定顺序,它具有转录终止的功能沉默子沉默子(silencer)silencer)参与基因表达负调控的一种元件(二二)基因的功能基因的功能储存,传递,表达遗传信息(中心法则)基因表达活性调节基因功能的研究方法基因功能的研究方法目的:发现基因的功能随着人类基因组计划的计划的完成,许多新基因被发现。基因功能研究成为生命科学领域汇总的重大课题,这是后基因组时代功能基因组学的研究内容。目前基因功能研究方法主要有基因转导、反义技术、转基因和基因剔除、染色体转导、RNA干涉,微阵列等微微阵列(列(microarray)大规模快速检测基因差异表达、基因组表达谱、DNA序列多态性、致病基因或疾病相关基因的一项研究基因功能的新技术。包括cDNA微阵列(cDNA microarray)和DNA芯片。方法原理:将成千上万条DNA片段(cDNA、表达序列标签(expressed sequence tag,EST)或特异的寡核苷酸片段)按横行纵裂方式有序点样在固相支持物上。支持物为硝基纤维素膜或尼龙膜时称为微阵列,为玻片或硅片时称为DNA芯片。100000个cDNA,3.6cm2分析:用来自不同生理状态和发育阶段的mDNA作为模板,以放射性同位素或荧光标记的dNTP为底物反转录合成cDNA。再用所得cDNA 与微阵列或DNA芯片进行杂交,然后通过计算机对结果进行判读和处理,这样就可以知道芯片中哪些基因在细胞里表达,哪些基因不表达,或哪些基因表达水平高,哪些低。基因敲除(基因敲除(Gene knockout)又称基因又称基因打靶(打靶(gene targeting).基因敲入(基因敲入(Gene knock in),),转基基因(基因因(基因过表达)表达)基因敲除:用外源DNA与受体细胞基因组中顺序相同或者非常相近的基因发生同源重组,整合,使特定的基因失活或缺失的技术。优点:整合位点确定,精确,可以用正常基因敲除突变的基因,进行性状改良和遗传病的治疗,又可以用突变的基因敲除正常的基因一研究此基因在发育和调控方面的作用。如基因敲除动物模型基因敲入:对于许多基因来说,简单的失活常导致令人费解的无改变的表型。最常见的解释是某些其他基因取代了靶基因的功能,但要在普通基因敲除小鼠中证明这十分困难,基因敲入即通过基因打靶用一种基因替换另一种基因以确定它们是否具有相同功能。基因敲除一般应用于鼠。基因转导技术通过载体将目的基因导入某一细胞中,通过观察细胞生物学行为的变化来认识基因的功能,是目前应用最多、技术最成熟的基因功能研究方法。常用的基因转导 系统分为非病毒性表达系非病毒性表达系统和病病毒性表达系毒性表达系统。非病毒性表达载体:DNA直接注射或多聚赖氨酸、阳离子脂类,是目的基因穿过细胞膜。病毒表达载体病毒为载体介导的基因转移,转染效率高,目的基因可稳定表达等优势被广泛应用。逆转录病毒载体可携带外源基因整合进靶细胞的基因组中,从而实现目的基因的稳定持久表达,但缺点是只能感染正在分裂的细胞,有插入突变和激活癌基因的危险,并且繁殖滴度较低。人腺病毒载体具有宿主范围广、滴度高、装载量大(重组腺病毒最大包装容量为野生型腺病毒的105%)等优点,是对分裂细胞和静息细胞均有效的基因传递系统。如以门静脉注射的方式用腺病毒载体介导入LDLR基因,在90%以上的肝细胞中得到表达。但不能将外源基因整合到细胞染色体上,所介导的基因只能短暂表达。反义技术反义技术是通过人工合成或构建的反义表达载体表达的寡核苷酸片段,长度多为15-30个核苷酸,通过碱基互补原理,干扰基因的解旋、复制、转录、mRNA的剪接加工乃至输出和翻译等各个环节,从而调节细胞的生长、分化等。反义DNA(asDNA),反义RNA(asRNA),自催化性核酶(ribozyme)(三三)基因突基因突变与疾病与疾病突变绝大多数会导致疾病,另外的一小部分是非致病突变。非致病突变使生物可以在自然选择中被选择出最适合自然的个体。基因有两个特点,一是能忠实地复制自己,以保持生物的基本特征;二是基因能够“突变”。因有毒物质的作用、传染或暴露于放射性物质下而导致基因结构本身发生的变化。基因突变(gene mutation)从分子水平上看,基因突变是指基因在结构上发生碱基对组成或排列顺序的改变。由于DNA碱基对的置换、增添或缺失而引起的基因结构的变化,亦称点突变(point mutation)。(镰刀型细胞贫血(sickle-cell disease)在自然条件下发生的突变叫自发突变,由人工利用物理因素或化学药剂诱发的突变叫诱发突变。基因突变与DNA复制、DNA损伤与修复、癌变和衰老都有关系是生物变异的主要原因,也是生物进化的主要因素。在生产上人工诱变是产生生物新品种的重要方法。基因突变特性:随机性随机性:任何时期,任何细胞低低频性性(稀有性):自然突变率10-5-10-8。T.H.摩尔根1910年在饲养的许多红色复眼的果蝇中偶然发现了一只白色复眼的果蝇。可逆性可逆性:可逆性可逆性野生型基因经过突变成为突变型基因的过程称为正向突变。正向突变的稀有性说明野生型基因是一个比较稳定的结构。突变基因又可以通过突变而成为野生型基因,这一过程称为回复突变。正向突变率总是高于回复突变率,这是因为一个野生型基因内部的许多位置上的结构改变都可以导致基因突变,但是一个突变基因内部只有一个位置上的结构改变才能使它恢复原状。少利多害性少利多害性一般基因突变会产生不利的影响,被淘汰或是死亡,但有极少数会使物种增强适应性。不定向性不定向性例如控制黑毛A基因可能突变为控制白毛的a+或控制绿毛的a-基因。一般,基因突变后身体会发出抗体或其他修复体进行自行修复。可是有一些突变是不可回转性的。突变可能导致立即死亡,也可以导致惨重后果,如器官无法正常运作,DNA严重受损,身体免疫力低下等。如果是有益突变,可能会发生奇迹。基因突基因突变变与疾病与疾病基因病(gene disease),是指基因突变或其表达调控障碍引起的疾病,包括单基因病和多基因病。人类单基因病6457种。单基因疾病:单基因病是指由1对等位基因控制的疾病或病理性状。由于基因是位于染色体上,而染色体有常染色体和性染色体之分,基因也有显性基因与隐性基因之别。常染色体显性遗传病,如短指症等常染色体隐性遗传病,如白化病等x伴性显性遗传病,如抗维生素D缺乏病等x伴性隐性遗传病,如色盲等Y伴性遗传病,如耳廓长毛症等诱变育种育种诱发使生物产生大量而多样的基因突变,从而可以根据需要选育出优良品种。以色列培育“彩色青椒”-把青椒种子送上太空,使其在完全下发生基因突变来育种。害虫防治害虫防治用诱变剂处理雄性害虫使之发生致死的或条件致死的突变,然后释放这些雄性害虫,便能使它们和野生的雄性昆虫相竞争而产生致死基因突变的或不育的子代。第二第二节 基因基因组单倍体倍体细胞中的全部基因胞中的全部基因为一个基因一个基因组。包括编码序列和非编码序列在内的全部DNA分子。(单倍体细胞中的全套染色体。)像人类这样的脊椎动物,基因组通常指的只是染色体DNA。线粒体有自己的基因组,通常叫做线粒体基因组。基因基因组组特点特点一、原核生物基因一、原核生物基因组特点特点细菌基因组特点:1.基因组较小,通常只有一个环形或线形的DNA分子。2.基因组的大部分序列是用来编码蛋白质的,基因之间的间隔序列很短。3.功能相关的序列常串连在一起,由共同的调控元件调控,并转录成同一mRNA分子,可指导多种蛋白质的合成,这种结构称操纵子。3.一般没有内含子。4.只有一个复制起点。5.以RNA为产物的基因往往是多拷贝的,蛋白质基因是单拷贝的。6.编码顺序一般不会重叠。7.同基因(isogenez)(编码同酶,isoenzyme)如大肠杆菌基因组中有两个编码分支酸变位酶基因,两个编码乙酰乳酸合成酶的基因。病毒基因病毒基因组组病毒是最简单的生物,完整的病毒颗粒包括外壳蛋白和内部的基因组DNA或RNA。(有些病毒的外壳蛋白外面有一层由宿主细胞构成的被膜(envelope),被膜内含有病毒基因编码的糖蛋白。)病毒不能独立地复制,必需进入宿主细胞中借助细胞内的一些酶类和细胞器才能使病毒得以复制。外壳蛋白(或被膜)的功能是识别和侵袭特定的宿主细胞并保护病毒基因组不受核酸酶的破坏。病毒基因病毒基因组组的的结结构特点构特点1.病毒基因组大小相差较大,与细菌或真核细胞相比,病毒的基因组很小,但是不同的病毒之间其基因组相差亦甚大。如乙肝病毒DNA只有3kb大小,所含信息量也较小,只能编码4种蛋白质,而痘病毒的基因组有300kb之大,可以编码几百种蛋白质,不但为病毒复制所涉及的酶类编码,甚至为核苷酸代谢的酶类编码,因此,痘病毒对宿主的依赖性较乙肝病毒小得多。2.病毒基因组可以由DNA组成,也可以由RNA组成。组成病毒基因组的DNA和RNA可以是单链的,也可以是双链的,可以是闭环分子,也可以是线性分子。如乳头瘤病毒是一种闭环的双链DNA病毒,而腺病毒腺病毒腺病毒腺病毒的基因组则是线性的双链DNA,脊髓灰质炎病毒是一种单链的RNA病毒,而呼肠孤病毒的基因组是双链的RNA分子。一般说来,大多数DNA病毒的基因组双链DNA分子,而大多数RNA病毒的基因组是单链RNA分子。3.多数RNA病毒的基因组是由连续的核糖核酸链组成。但也有些病毒的基因组RNA由不连续的几条核酸链组成如流感病毒的基因组RNA分子是节段性的,由八条RNA分子构成,每条RNA分子都含有编码蛋白质分子的信息;而呼肠孤病毒的基因组由双链的节段性的RNA分子构成,共有10个双链RNA片段,同样每段RNA分子都编码一种蛋白质。目前,还没有发现有节段性的DNA分子构成的病毒基因组。4.基因重叠(overlapping gene)即同一段DNA片段能够编码两种甚至三种蛋白质分子。这种结构使较小的基因组能够携带较多的遗传信息。指两个或两个以上的基因共有一段DNA序列。大基因内包含小基因;前后两个基因首尾重叠一个或两个核苷酸;几个基因的重叠,几个基因有一段核苷酸序列重叠在一起,等等。重叠基因中不仅有编码序列也有调控序列。5.病毒基因组的大部分是用来编码蛋白质的,只有非常小的一份不被翻译。不翻译的DNA顺序通常是基因表达的控制序列。乳头瘤病毒是一类感染人和动物的病毒,基因组约8.0Kb,其中不翻译的部份约为1.0kb。6.病毒基因组DNA序列中功能上相关的蛋白质的基因或rRNA的基因往往丛集在基因组的一个或几个特定的部位,形成一个功能单位或转录单元。它们可被一起转录成为含有多个mRNA的分子,称为多顺反子mRNA(polycistroniemRNA),然后再加工成各种蛋白质的模板mRNA。X174基因组中的D-E-J-F-G-H基因也转录在同一mRNA中,然后再翻译成各种蛋白质,其中、F、G及H都是编码外壳蛋白的,D蛋白与病毒的装配有关,E蛋白负责细菌的裂解,它们在功能上也是相关的。7.除了反转录病毒以外,一切病毒基因组都是单倍体,每个基因在病毒颗粒中只出现一次。反转录病毒基因组有两个拷贝。8.噬菌体(细胞病毒)的基因是连续的;而真核细胞病毒的基因是不连续的,具有内含子噬菌体遗传图真核真核细细胞基因胞基因组组1.基因组较大。真核生物真核生物的基因组由多条线形的染染色体色体构成,每条染色体有一个线形的DNA分子,每个DNA分子有多个复制起点。2.不存在操纵子结构。真核生物的同一个基因簇的基因,不会像原核生物的操纵子结构那样,转录到同一个mRNA上。3.存在大量的重复序列。真核生物的基因组里存在大量重复序列,通过其重复程度可将其分成高度重复序列、中度重复序列、轻度重复序列和单一序列。重复序列中,除了编码rRNA,tRNA,组蛋白及免疫球蛋白的结构基因外,大部分是非编码序列。根据出现的频率不同将DNA序列分为3类:1.高度重复序列 在基因组中的重复次数105。卫星DNA,反向重复序列。果蝇染色体的着丝点附近,ACAAACT1.1107拷贝,占基因组DNA的25%2.中度重复序列 在基因组中的重复次数为101-105.编码rRNA,tRNA,组蛋白及免疫球蛋白的结构基因。Alu家族、Kpn I家族3.单拷贝序列 在整个基因组中出现1次或少数几次,大多数编码蛋白质的基因。小鼠DNA经CsClMI度梯度离心显示出主带和卫星DNA带ALUALU序列家族(序列家族(序列家族(序列家族(Alu family)Alu family)人人类类基因基因组组约约有有3030多万个多万个,平均每平均每6 6kbkb有一个每个有一个每个长长度度约约300300bpbp,第第170170位置附近都有位置附近都有AGCTAGCT这样这样的序列,的序列,可被限制性内切可被限制性内切酶酶AluIAluI切割(切割(AG CT)AG CT)4.有断裂基因。大多数真核生物为蛋白质编码的基因都含有“间隔序列”,即不为多肽编码,其转录产物在mRNA前体的加工过程中被切除的成分。5.有许多来源相同、结构相似、功能相关的基因组成为单一基因簇或基因家簇(Gene family),如血红蛋白基因家簇基因家族分类1.1.按基因中按基因中产产物分两物分两类类:编码编码RNARNA,如如SnRNASnRNA、tRNAtRNA、rRNArRNA等等 编码编码蛋白蛋白质质2.2.按在基因按在基因组组中分布不同分中分布不同分(基因串(基因串联联排列在一起)排列在一起)1)1)基因簇(基因簇(gene cluster)gene cluster)如如rRNA,tRNA,rRNA,tRNA,组组蛋白等基因蛋白等基因串串联联重复基因簇重复基因簇低等真核生物低等真核生物rRNArRNA基因基因2828S S、18S18S、和和5 5SrRNASrRNA基因串基因串联联排列在一起排列在一起高等高等动动物生物基因物生物基因2828S S、18S18S、和和5.85.8S S串串联联排列成一个排列成一个单单位,位,然后一个个然后一个个单单位重复排列位重复排列组组成基因簇,成基因簇,每个每个单单位之位之间间有非有非转录转录隔区分开。隔区分开。2)2)另一另一类类家族成家族成员员分布在不同的部位分布在不同的部位如干如干扰扰素、珠蛋白、生素、珠蛋白、生长长激素等激素等分散式基因簇分散式基因簇如珠蛋白基因如珠蛋白基因 类类基因簇和基因簇和 类类基因簇基因簇,分布在不同染色体上分布在不同染色体上人人类类 基因簇位于第基因簇位于第1616号染色体上号染色体上,基因簇位于第基因簇位于第1111号染色体上号染色体上珠蛋白基因家族3.3.超基因家族(超基因家族(super geng family)super geng family)基因家族与基因家族与单单基因基因组组成的基因家族。成的基因家族。更大的基因家族,起源于相同的祖先基因,功能却并不相同。更大的基因家族,起源于相同的祖先基因,功能却并不相同。如免疫球蛋白超基因家族:表达如免疫球蛋白超基因家族:表达产产物都有免疫球蛋白物都有免疫球蛋白样结样结构域,构域,这这些家族成些家族成员员或属于免疫分子,或与免疫无关的分子。或属于免疫分子,或与免疫无关的分子。据推据推测测,哺乳,哺乳动动物具有可能物具有可能产产生生10109 9种以上抗体的能力,所以它种以上抗体的能力,所以它是一个是一个极大的基因家族和蛋白极大的基因家族和蛋白质质家族。家族。4.4.假基因假基因(Pseudogenes),DNADNA序列与功能基因相似但不序列与功能基因相似但不产产生有功能的基因生有功能的基因产产物物.假基因与有功能的基因同源,由于假基因与有功能的基因同源,由于发发生缺失、倒位或点突生缺失、倒位或点突变变等,成等,成为为无功能的基因,即形成了假基因。无功能的基因,即形成了假基因。哺乳哺乳动动物基因物基因组组中的中的1/41/4基因基因为为假基因,可能假基因,可能为进为进化的痕迹。化的痕迹。6.细胞器基因 核生物除具有核基因外,还有细胞器基因,细胞器基因主要存在于线粒体和叶绿体中。动物没有叶绿体,所以动物细胞器基因只存在于线粒体中。7.端粒(telommere)以线性染色体形式存在的真核基因组DNA末端膨大结构,称为端粒。基因在基因组中分布不均匀。有些染色体基因分布很少,25%的序列不含任何基因。即使基因最丰富的染色体,也有10%是“荒漠”。编码蛋白质的基因仅占基因组极少部分3%,人类约翰3-4万个基因。人人类类基因基因组组(human genomics)结结构构特点特点生殖细胞含1套基因组体细胞含2套基因组1套来自父本生殖细胞1套来自母本生殖细胞完整的人类基因组包含:1-22号常染色体 核基因组 X和Y染色体 线粒体基因组人类基因组中重复序列与DNA位点多态性Alu family:基因组中拷贝数重复30-50万,每个拷贝长度约300bp,内含有一个限制性内切酶Alu I的特异性识别位点。Kpn I family:拷贝数3000-4800,用限制性内切酶Kpn I 消化,可分解成4个长度不等的片段。(Restriction Fragment Length Polymorphism)在人类基因组中存在高度变异的重复序列,并命名为小卫星DNA。它以一个基本序列(l1一60碱基对)串连排列,因重复次数不同而表现出长度上的差异。利用人工合成的寡核苷酸(24碱基对)作探针,探测到高度变异位点,即所谓的微卫星DNA。以小卫星或微卫星DNA作探针,与多种限制性内切酶酶切片段杂交,所得个体特异性的杂交图谱,即为DNA指纹。DNA指指纹技技术(DNA Fingerprint)DNA指纹技术作为一种遗传标记有以下特点:(1)具有高度特异性。同一物种两个随机个体的指纹相似系数仅为0.22,二者指纹完全相同的概率为三千亿分之一(2)遗传方式简明。DNA指纹遵循孟德尔遗传定律,卫星DNA是高度变异的重复序列,所检测的多态性信息含量较高(3)具有高效性。同一个卫星DNA探针可同时检测基因组中10个位点的变异,相当于数10个探针。疾病疾病诊诊断断图1银染PCR-SSCP检测p53基因突变A、B、C、D分别代表第5、6、7、8外显子突变;与肿瘤邻近正常组织标本相比,肿瘤组织(T)出现p53突变时有DNA单链泳动带的位移,出现额外的电泳带(病例37T、66T、57T、45T箭头所示);ds:双链DNA,银染观察结束语结束语谢谢大家聆听!谢谢大家聆听!88