基因的基本概念.pdf
第一讲基因的基本概念吴 乃 虎中国科学院遗传与发育生物学研究所目录一、基因概念的演变1.基因学说的创立2.基因与DNA分子3.基因与DNA的多核昔酸区段4.基因与多肽链二、基因与基因工程1.基因研究的简单历史回顾2.基因的定义3.基因的数量三、基因的化学本质与编码产物1.基因的化学本质2.基因的编码产物3.基因与蛋白质的数量关系四、基因的结构21.基因的组成部分2.原核基因的结构3.真核基因的结构4.基因的终产物五、基因的类型1.以拷贝数分类2.根据产物类型分类3.根据表达特性分类4.遗传选择标记与标记基因六、基因图与基因作图1.遗传图2.物理图七、基因座八、基因扩增1.基因增加2.基因减少33.基因扩增九、基因表达1.正义链和反义链2.基因表达定义3.基因表达的过程4.基因表达的时空特异性5.基因表达活性的调控十、基因克隆1.克隆的概念2.基因克隆定义十一、基因工程定义1.有关基因工程的名词术语2.“遗传工程”与“基因工程”这两个术语的差别3.基因工程定义4.基因工程的主要内容4第一讲基因的基本概念一、基因概念的演变1.基因学说的创立G.Mendel(1857-1864)根据豌豆杂交试验,创立了遗传因子分离律和遗传因子独立分配律提出了遗传因子的概念W.Johannsen在1909年 提 出 了 用“基 因”这个术语代替Mendel的遗传因子基因术语的提出*此时所谓的“基因”,并不代表物质实体,而是一种与细胞的任何一种可见形态结构毫无关系的抽象单位,因此那时所指的基因只是遗传性状的符号,还没有涉及基因的物质概念。T.H.Morgan 1910年的工作,头一次将代表某一特定性状的基因,同某一特定的染色体联系起来了,使得科学界普遍接受了 Mendel的原理基因与染色体联系起来2.基因与DNA分子尽管由于Morgan等人的出色工作,使基因学说得到了普遍的承认,但直到1953年Watson-Crick DNA模型提出之前,人们并不理解:a.基因的物质内容和结构特征;5b.位于细胞核中的基因如何控制发生在细胞质中的生化过程;c.在细胞分裂过程中,为何基因可准确地复制自己。证实基因就是D N A 的著名实验1944年美国著名的微生物学家O.T.Arery的肺炎链球菌的转化实验肺炎链球菌有两种不同的品系:S 型一一具荚膜、有毒、光滑型R 型无荚膜、无毒、粗糙型S DNA+R菌培养物f R 型 变 S 型表现出毒性和荚膜结论:使细胞性状发生转化的因子是D N A,因此,DNA分子是遗传信息的载体。启示:在科学研究中,尤其是基础理论的研究工作中,正确地选材具有极端重要的意义。1952年 美 国 冷 泉 港 卡 内 基 遗 传 学 实 验 室 的 科 学 家 A.D.Hershey和他的学生M.Chase的同位素双标记实验(噬菌体)用32P和35s分别标记噬菌体的内部DNA和外壳蛋白质。然后用这种带双标记的感染寄主大肠杆菌,结果发现,6只有具32P标记的DNA进入寄主细胞,并重新繁殖出子代噬菌体。结论:在噬菌体中遗传物质也是D N A,而不是蛋白质。1953 年 J.Watson&F,Crick 在 M.Wilkins 和 R.FranklinX-射线衍射工作的基础上,建立了 DNA双螺旋结构模型,解决了 DNA分子的三维结构及其在遗传中的作用的问题。至此,关于基因的化学本质是DNA的结论已是公认的事实。*但是必须指出,并非所有的基因都是由DNA构成的,某些动物病毒和植物病毒以及某些噬菌体等,它们的遗传体系的基础是RNA而不是DNAo A.Gierer和G.Schramm在研究烟草花叶病毒(TMV)时首先发现RNA分子能够传送遗传信息,并证明TM V病毒的RNA成分,在其感染植株的叶子中能够诱导合成新的病毒颗粒。DNA半保留复制模型证明了 DNA是遗传物质和基因的载体之后,人们进而开始研究DNA分子的自我复制过程,以揭示遗传信息是怎样从亲代准确地传递到子代。DNA分子的半保留复制模型:DNA半保留复制是严格地按照碱基配对原理进行的。新7合成的子代D N A 忠实地保存了亲代D N A 分子所携带的全部遗传信息解决了基因自我复制问题双螺旋模型的建立:a.可以从基因分子水平上分析遗传与变异现象b.可以客观地探索基因的结构与功能*从此,基因的研究进入了基因的分子生物学时代。启示:a.文献情报的重要性当时我们与西方交恶,几乎没有科学交流,信息不灵,人们不了解D N A 在遗传研究中的重要性b.学术思想的自由的重要性前苏联学术界对摩尔根学派的错误批判政治干预学术研究的恶果1956年青岛遗传学会议与(鸡毛、茄子皮实验)中国共产党提出的双百方针是完全正确的。3.基因与DNA的多核甘酸区段D N A 分子是基因的载体,那么是否每一段D N A 都是基因呢?(1)经典的基因概念:在染色体或D N A 分子上,基因是成串球似8的一个挨一个地排列着,它们之间是由非遗传的物质连接起来。交换只是在基因之间进行,而不是在基因内部发生。基因的三位一体论:f a.遗传功能单位 b.交换单位、c.突变单位-H D-O-O O-O OO(3)顺反子概念 A unit of DNA or RNA corresponding to one geneT4 Plage的r ll区控制寄主细胞的致死效应,即快速溶菌作用。*l.Benzer工作简介Benzer发现rII区可分为rll A 和 rllB 两个亚区,它们各产生一种特殊的物质,只有当这两种物质同时存在时,寄主细胞才会发生溶菌裂解。因此,用 rllA*突变型和rllB*突变型感染寄主株细胞的情况是这样的:混合感染,即rIlA*+rnB*fEco/iK株细胞裂解单独感染,即rllA*or rllB*-*E.co/iK株细胞不裂解从上述结果可见,rllA 和 rllB 显然是互补的突变体。9在r IIA亚区发生了突变的phage能够同在r IIB亚区发生突变的phage互补;但它们都不能同跟自己一样在同一亚区内发生突变的phage互补;反之亦然。所以r llA和r llB是两个不同的功能单位。1955年,Benzei正式使用顺反子(cistron)这个术语,将这两个亚区分别叫做r llA和r llB顺反子。*2 原反子的的匾=一段核昔酸序列,编码二种完整多肽链的核甘酸序列。这种多肽既可以是二种县有生物活性的蛋自感他可同别的多肽聚合形成多功能的蛋白质。或者说是:相应于一个基因的DNA或RNA单位。(A unit of DNA or RNA corcesponding to onegene.)*3.顺反子是功能单位,它是由许多可以突变的位点组成,而这些位点之间又可以发生交换。顺反子中的最小交换单位(又称交换子)和最小突变单位(又称突变子),都应是DNA分子中的一个核昔酸对,只有在这种情况下,交换子才等于突变子。*4.顺反子概念表明,基因不是最小的单位,它仍然是可分的;并非所有的DNA序列都是基因,而只有其中某一特定的多核甘酸区段才是基因的编码区。10*5.启示:人类对客观世界的认识是无穷尽的;个体一器官f组织f细胞f细胞核一染色体一DNA一基因f顺反子f突变子、交换子f碱基要学好辩证法,自觉地用辩证唯物主义思想指导自己的科学实践。所有生物的基因都是由DNA构成的,而DNA结构不是一致的,所以不同生物来源的基因(DNA)可以融为一体。由此可见,基因的DNA共性,是进行基因工程重要的理论基础之一。从中我们可以深刻地领会到基础理论研究的重要性。没有理论指导的实践是盲目的实践。4.基因与多肽链(1)一种基因一种酶*1.1902-1908年 间,A.G arrod在 研 究 人 类 黑 尿 病(Aldaptonnrea)时就已经指出,此病是由于缺乏某种酶促反应造成的。*2.1941 年,G.W.Beadle and E.L.Tatum 在研究红色面包霉时第一次明确提出“一种基因一种酶”的假说。11*3.1957年,V.Ingram在对镰刀形细胞贫血症(sickle cellanemia)的红血蛋白,和正常血红蛋白的氨基酸序列作了对比研究之后,才第一次用实验证明了基因同蛋白质之间的直接联系。镰形细胞血红蛋白B链的氨基端第6个氨基酸部位发生了由缀氨酸取代正常的谷氨酸的突变。*4.这表明:基因的突变会直接影响到它编码的蛋白质多肽链成份的变化,从而证实了“一种基因一种酶”的假说是正确的。一种基因一种多肽许 多 蛋 白 都 是 由 数 个 亚 基 组 成 的 多 体 蛋 白(multimericproteins)*1.同型多体(homo multimer)蛋白质由一种基因编码*2.异型多体(heteromultimer)蛋白质由多种基因编码*3.“一种基因一种多肽”*4.启示:Ingram获得成功的重要原因之一是应用了当时刚刚出现的蛋白质氨基酸序列分析技术;信息资料尤其是在今天的科研中具有极大的重要性,因此要积极参加学术交流;12不同学科知识的相互渗透是今天科学发展的一大特色,因此科学工作者们,特别是硕士生、博士生,应该注意培养自己具有广博的多学科知识。二、基因与基因工程*1.基因工程或称基因操作,是分子生物学和分子遗传学等学科综合发展的基础上,于 20世纪70年代诞生的一门崭新的生物技术科学。*2.基因工程的创立与发展,直接地依赖于基因分子生物学的进步,两者之间有着密切而不可分割的内在联系:a.基因的研究为基因工程的创立奠定了坚实的理论基础,基因工程的诞生是基因研究发展的必然结果;b.基因工程技术的发展与应用,又深刻并有力地影响着基因的研究,使我们对基因本质的认识提高到了一个空前的高度。*3.根据上面所述,我们在讨论基因工程之前,有必要对基因研究的发展过程、基因的基本概念和基因的现代概念作一番简要的回顾和叙述。1.基因研究的简单历史回顾13自从1865年孟德尔提出遗传因子(hereditar factor)以来,近 150年以来基因的研究经历了漫长的发展过程,主要的可概括如下几条:(1)基因研究大体上可分为三个阶段:*1.20世 纪 50年代以前,主要从细胞染色体水平上进行研究基因的染色体遗传学阶段(细胞遗传学)*2.20世 纪 50年代以后,主要从DNA水平上进行研究基因的分子生物学阶段(分子遗传学)*3.最近30年,重 组 DNA技术的建立基因工程学阶段(分子生物技术学)本阶段的主要特点是,改变了从表型到基因型的传统遗传学的研究途径,而是直接从克隆的目的基因出发,研究基因的功能及其与表型之间的关系。使基因的研究进入了反向生物学阶段,或说是分子生物学技术学阶段,亦可说是现代生物技术学阶段。现代生物技术学(分子生物技术学)的三个组成部分:*1.基因工程原理这是现代生物技术学的基础与核心*2.生物技术学重 组 DNA技术的应用a.现代农业生物技术;b.现代工业生物技术;c.哺乳动物基因工程;d.重组DNA与医学研究;*3.基因工程基本技术a.质粒DNA的分离与纯化;b.DNA分子的体外切割;c.DNA分子的体外重组;d.DNA的凝胶电泳;e.探针分子的标记;f.DNA分子的转化;g.感受态细胞的制备;h.DNA酶切图谱的构建;i.核昔酸序列的测定;Somger法(双脱氧法);Maxam-Gilhert化学修饰法;15DNA测序自动化;杂交测序法。j.寡核昔片段及基因的化学合成;k.基因定点突变技术;1.基因PCR扩增技术;m.研究DNA蛋白质相互作用方法;n.酵母双杂交、单杂交、三杂交法;o.基因剔除技术;p.RNAi技术基因研究简史一览表(From B.Lewin 2000)1865 Genes are particulate factors1903 Chromosomes are hereditary units1910 Genes is on chromosomes1913 Chromosomes contain linear arrays of genes1927 Mutations are phycical changes in genes1931 Recombination is caused by crossing over1944 DNA is the genetic material161945 A gene codes a protein1953 DNA is a double helisc1958 DNA replicates somiconservatively1961 Genetic code is triplet1977 DNA can be sequenced1997 Genome can be sequenced2.基因的定义基因通常又叫做顺反子(cistron),是遗传的基本单位,携带着某种蛋白质或RNA的遗传信息。从化学本质上看,基因是一段具有特定功能的连续的脱氧核糖核昔酸(DNA)序列,是构成巨大遗传单位染色体的组成部分。关于基因定义应掌握如下3 个要点:(a.基因携带着蛋白质或RNA的信息,此即说基因的编码产物是蛋白质或RNA;b.基因是一段具特定功能的DNA序列;、c.基因是染色体的组成部分;3.基因的数量生物体中基因的数量相当庞大,但不同进化水平的生物体基因的17数量有很大的差别。即便是最简单的单细胞生物,如细菌,也起码有数千种不同的基因及其相应的编码产物;而复杂的多细胞真核生物,例如我们人类本身则至少需要40000-50000种不同的基因。(有的文献说人类基因组大约编码100000种左右的基因)。三、基因的化学本质与编码产物1.基因的化学本质(The Chemical nature of the gene)在Mendel思想被科学工作者广泛接受之后,关于基因的化学本质究竟是蛋白质还是DNA长期存在着争论,人们基本上是持等同赞成的态度。此时,人们并没有弄清基因的化学本质,究竟是DNA还是蛋白质。(1)1994 年,O.Avery 等肺炎链球菌pneumoniae)毒性转化实验,证明遗传信息的携带者是DNA而不是蛋白质。S型有毒;R型无毒。SDNA加 到R型培养物中,后者变成了有毒的。(2)1952年,A.D.Hershey&M,Chase应用放射性标记技术证明在T 2噬菌体转导过程中,使E.coli发生溶菌感染的所需要的物质是T2 DNA而不是蛋白质。18(3)1953年,F.Crick和J.Watson DNA双螺旋模型的建立,解决了 D N A分子的三维结构及其在遗传中的作用问题。至此,关于基因的化学本质是DNA的结论,已是毫无疑问的事实。但是必须指出,随后的研究工作证明:并非所有的基因都是由DNA构成的,某些动物病毒和植物病毒以及某些噬菌体等,它们的遗传体系基础是R N A而不是DNA(genetic systemsbased on RNA rather than DNA)O2.基因的编码产物基因是细胞中所有R N A及蛋白质分子的“蓝图”,有些基因编码的最终产物是RNA分子,例如rRNA基因、tRNA基因及其它小分子量的RNA基因等;而其它一些基因编码的终产物是蛋白质,这些蛋白质是通过mRNA中介合成的。(1)1941 年,G.W.Beadle&E.L.Tatum 建立的“One gene-Oneenzyme理论。X射线诱导Neurospora crassa产生许多突变体I鉴 定 出 营 养 缺 陷 突 变 体(Auxotrophicmutant)o这些突变体加入单一的营养物于培养基中,便可得到富集。因此便于对某一种生19化缺陷进行研究。关于这些营养缺陷突变体的遗传分析表明,其中每一种突变都是由于单个基因缺陷(Singlegene defect)所致。I根据上述发现推导出如下这样的假说:一种基因负责合成一种酶,如果这种基因是缺陷的,那么这种酶也是缺陷的。(2)1957.V.Zngram 对镰形细胞贫血症(Sickle Cell Anemia)的研究中进一步直接证明蛋白质与基因之间的直接联系。这主要得力于刚刚发明的氨基酸序列分析法,分析了成年人血红蛋白的a链和。链,证明镰形血红蛋白a链中没有任何变化,但。链与野生型相比,在其氨基端第6个氨基酸由缴氨酸取代了正常的谷氨酸。这表明基因的突变会直接影响到它编码的蛋白质多肽链成分的改变,从而证实了“一种基因一种酶”的假说是正确的。(3)蛋白质结构研究多体蛋白质(multimeric proteins):由数个亚基组成。a.各 种 亚 基 相 同 的 多 体 蛋 白 质 叫 做 同 型 多 体 蛋 白 质20b.由不同的亚基构成的多体蛋白质叫做异型多体蛋白质(heteromultimer)由多种基因编码因此“一种基因一种酶”这一理论便被修正为“一种基因一种多肽链“(One gene-One polypeptide Chain)o3.基因与蛋白质的数量关系*1.并不是所有的基因的最终编码产物都是蛋白质,事实上有一些基因,例如tRNA基因和rRNA基因的最终编码产物就不是蛋白质。*2.基因仅仅是构成生物个体发育、新陈代谢等遗传性状特征的物理信息,而基因功能的展现与否,则是取决于经过一定过程的表达调控所形成的编码产物蛋白质。*3.蛋白质是生物个体生命活动的直接参与者,是将基因与具体的代谢活动或发育过程联系起来的关键环节。但由于基因表达过程中存在着精细而复杂的调节作用,因此在一个生物个体中实际表达的蛋白质总数可能要远远超过基因的数量。例如在人类中大约70%的基因在其表达过程中会通过mRNA的可变剪辑,产生出多种功能与器官特异性均不相同的蛋白质。根据基因组序列(大小)估计,一般认为人类基因组共有5X10421个左右的基因,而这些基因经可变剪辑却可编码多达2X106个蛋白质(Service,R.F.Gene and Protein patens get ready to gohead to head.Science,2001,294:2082)o四、基因的结构(Organization of the gene)到了上世纪70年代,随着分子生物学及基因工程,特别是DNA测序技术的发展,人们才真正有可能从单碱基水平上弄清基因的分子结构。1.基因的组成部分无论是真核生物的基因还是原核生物的基因,从大的方面讲都可以划分成如下四个基本的组成部分:a.编码区(coding region)b.非编码区(noncoding region)c.启动区(promoter region)d.终止区(terminator)(1)编码区含有大量的遗传密码,包括起始密码子(AUG)和终止密码子(UAA,UAG或 U G A),以及表达子(exon)。(2)非编码区,系指基因分子结构中存在的对于遗传信息表达所必22须的、但却不能转译成蛋白质多肽的DNA序列,主要有:a.5-U T R,即末端非转译区;b.31U TR,即3。末端非转译区;c.Intron,即真核基因的间隔子序列。(3)启动区(promoter region),系指位于基因5,上游的一段具有特殊功能的DNA序列区,亦称启动子(promoter)。RNA聚合酶是通过同它结合作用而启动基因的转录。原核基因启动子与真核基因启动子结构上是有差别的:a.原核基因启动子比较简单,具 有 和-35等结构元件;b.真核基因启动子比较复杂,分子量也大,距离转录起点数千个之遥,亦能对基因的转录发生效力;具有TATA box及上游元件等特征性结构。(4)终止子(terminator),亦叫终止区,是位于基因3,端下游外侧与终止密码子相连的一段非编码的核昔酸短序列区,具有终止转录信号的功能,也就是说可使RNA转录活性终止。2.原核基因的结构(1)原核基因范围原核基因(Prokargotic gene)系指由原核生物如大肠杆菌基因组23编码的基因,以及高等植物叶绿体基因组编码的基因,还有线粒体基因组编码的基因,都是属于原核基因。(2)原核基因的组成原核基因的DNA序列结构包括如下三大组成部分:a.启动子序列51URTb.转录区序列 cDNA序列区-编码区 31UTRc.终止子序列(3)原核基因mRNA结构原核基因的mRNA序列结构包括如下三大组成部分:a.编码区(是连续不间断的序列)b.转录而不转译的5Z-UTRc.转录而不转译的3,-UTR3.真核基因的结构(1)真核基因(Eukaiyotic gene)概念24系指由真核细胞基因组编码的基因和感染真核细胞的D N A 病毒及反转录病毒基因组编码的基因也属于真核基因;图1”一种典型的原核蛋白质编码基因的结构(2)真核基因的特征a.与原核基因不同,真核基因往往具有内含子(intron),它是包围在编码区之中的非编码序列;b.真核基因是单顺反子,编码单基因产物,而原核基因则往往组成大的转录单位多顺反子,即单一的m R N A 分子可编码多种基因产物;c.成熟的真核m R N A 分子的端有一个帽的结构,3。端有一段 poly(A)尾巴。(3)真核基因的结构25*1.真核基因DNA序列结构包括如下三大部分结构:a.启动子序列区b.终止子序列区c.转录序列区图2 一种典型的真核蛋白质编码基因的结构*2.真核基因初级RNA转录本包括如下四大部分结构:a.5-UTR序列区b.3-UTR序列区c.表达子(外显子)26d.间隔子(内含子)*3.真核基因成熟mRNA的结构包括如下几个部分:真核基因的初级转录本经过加工剪辑(即去掉间隔子,并 加 上5,-帽的结构和3,-poIy(A)尾巴,此时由细胞核输向细胞质。a.5,端帽的结构b.51UTR 序列c.编码序列区d.3f-UTR 序列e.3,端 poly(A)尾巴4.基因的最终产物通常人们会说“基因的最终产物是蛋白质多肽”,其实此种说法是不严谨的,因为并非所有基因的最终编码产物都是蛋白质,已经知道有些基因的最终编码产物是RNA转录本而没有蛋白质产物。例如:a.rRNA Genesb.tRNA Genesc.small nuclear RNA Genes27五、基因的类型1.根据拷贝数多寡分类*1.单拷贝基因在单倍体或二倍体细胞的基因组中,编码多肽链的基因一般只有12个拷贝,叫单拷贝基因(Single-copygenes)o*2.多拷贝基因例 如 编 码tRNA、rRNA以及组蛋白的基因,往往是多拷贝的,以保证有足够的基因产物满足细胞的生命需求,这样的基因叫多拷贝基因。2.根据产物类型分类(1)结构基因(Structural genes)除了调节基因以外的编码任何RNA或蛋白质产物的基因,都叫做结构基因。(注意结构基因与看家基因在概念上的差别!)(2)调节基因(Regulator genes)从广义上讲任何一种能够调节或限制其它基因表达活性的基因,都叫做调节基因。但在一般情况下则是指其产物能够控制另外一个基因或若干基因表达效率的基因。例如大肠杆菌lac28操纵子的laci基因,其编码蛋白质能够控制lac操纵子结构基因的表达。3.根据表达特性分类(1)组成基因(Constitutive genes)又叫做看家基因(Housekeeping gene),是一类理论上在所有细胞类型中都能进行表达、并为所有类型细胞生存提供必需的基本功能的基因。组成基因在中文中有时亦译为“组成型基因”,或“组成型表达基因”。(2)诱导基因(Inducible genes)因环境中某种特殊物质的存在而被诱导表达的基因,叫 做“诱导型基因”,简 称“诱导基因因环境中某种物质的存在而使特定基因表达活性得以开启的过程,叫做诱导(induction);能够引起诱导反应的物质或分子,叫做诱导物(inducers)。4.根据实验用途分类(1)选择基因选择基因(Selectable genes),又叫做选择标记基因(Selectable29marker genes),是指可使被转化的细胞获得其亲本细胞所不具备的新的遗传特性,从而使得人们能够使用特定的选择性培养基,将转化的新细胞从其亲本细胞群体中选择出来的一类特殊的基因。选择基因主要是一类编码可使抗菌素(诸如新霉素、潮霉素、链霉素、以及庆大霉素等)或除草剂失活的蛋白酶基因。最常用的有:a.新霉素磷酸转移酶基因(ne。);b.二氢叶酸还原酶基因(dhfr);c.潮霉素磷酸转移酶基因(hpt);d.瞬丝菌素乙酰转移酶基因(bar);(2)标记基因标记基因(Marker genes)在概念上与选择基因是有差别的,它是指其功能和染色体座位是已知的,并易于根据其编码产物或杂交实验测其存在的一类独特的基因,它可以作为绘制新基因座位的参照点。报告基因特指其编码产物能被快速检测,常用来判断外源基因是否已经成功地导入寄主细胞、器官或组织的一类特殊的基因。常用的30报告基因有氯霉素乙酰转移酶(CAT)基因,氏葡萄糖醛酸糖昔酶(GUS)基因,以及荧光素酶基因。5.根据排列组合特点分类(1)基因家族(gene family)*1.基因家族系指同一生物种中,从同一祖先基因经过复制,突变而来的一组具有相似结构、相似产物及相似功能的基因群体。*2.从广义上讲,同一基因家族的各个成员也可以看成重复基因。然而两者相比,基因家族不同成员之间序列差异毕竟要比重复序列的大一些,也就是说同源性还是较低一些。*3.基因家族,亦可叫做多基因家族(Multigene family)。它们往往编码着一个由许多种相关多肽组成的蛋白质家族,属于同一多家族的各个成员,可以存在于不同的染色体上,也可以位于同一条染色体上。基因簇(Gene cluster)系指真核生物基因组中,由不同基因组成的一个特殊的组合排列方式。同一基因簇的各个基因在遗传上往往是紧密连链的,它们可以是属于同一操纵子的不同结构基因,也可以是属于不同操纵子的不同结构基因;它们可以来自同一基因家族的不同31成员,也可以是来自不同基因家族的不同成员。(3)孤独基因(orphans)系指与串联排列的基因簇成员相关,但在位置是彼此分立的一类基因。孤独基因在功能上与串联基因是有差别的。6.根据细胞类型分类(1)原核基因系指由原核生物如大肠杆菌基因组编码的基因,以及高等植物叶绿体基因组编码的基因,还有线粒体编码的基因。(2)真核基因系指由真核细胞基因组编码的基因,和感染真核细胞的DNA病毒及反转录病毒基因组编码的基因也属于真核基因。7.根据结构特点分类断裂基因(split gene)编码序列不连续的间断基因,亦即是在其核昔酸序列中间插入了与氨基酸编码无关的DNA间隔区,使一个基因分隔成若干个不连续的区段。(2)移动基因(movable gene)32又叫跳跃基因或转位因子,是指一种可以在染色体基因组上移动,甚至在不同染色体之间、噬菌体及质粒DNA之间跃迁的DNA短片段。(3)假基因(pseudogene)有人译伪基因。系指一类同野生型基因序列大部分同源,但由于突变而失去活性的畸变的核昔酸序列。(4)重叠基因(overlapping gene)又叫嵌套基因(nested gene)。系指核昔酸编码序列彼此重叠的、编码不同蛋白质的两个或多个基因。(5)重复基因(repeat gene)在基因组上存在着多个或大量的序列重复的基因,如rRNA基因、tRNA基因等。五、基因图(Gene map)与基因作图(Gene mapp i ng)基因图包括遗传图(Genetic map)和物理图(physical map)两种。基因图和基因作图,是遗传子研究中的一种重要技术,它涉及两个内容:基二是描述(或确定)被研究的目的基因与染色体之间的联系,也就是说将该基因定位在某条特定染色体上;其二是描述(或测定)目的基因与其在所在的染色体上的其它基因之间的遗传距离以及它们之33间的线性排列顺序列,亦即确定目的基因在染色体上的相对位置。注意:“遗传距离”与“物理距离”两个概念之间的差异。1.遗传图(Genetic map)根据遗传重组的实验结果绘制的表示同一条染色体DNA分子上不同基因的排列顺序及其相对距离的线性图,叫做遗传图。遗传图中基因间的距离,即图距单位,以厘摩(cM)表示。*1.遗传距离即图距(map distance)可按下述公式求得:旧皿 重组体数X100图 距=_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _子代总数Number of recombinants X100Map distance=-Total number of progeny*2.厘摩(centimorgan cM)遗传图距或是染色体上基因间的距离以摩根单位表示(morganunit),1摩根单位等于100%的重组率(交换值)。1厘摩(cM)则等 于1%的重组率。人 类 基 因 组IcMlOOOKb拟南芥基因组lcM290Kb蕃 茄 基 因 组lcM750Kb34小麦基因组lcM3500Kb2.物理图(physical map)以精确的物理长度为单位(通常是脱氧核糖核甘酸的数目)表示沿着染色体或DNA分子排列的两个位点之间实际距离和位置的特定图谱叫做物理图。一般说来物理图不涉及基因及性状特征。物理图的类型CTypes of Plysical maps)*1.基因组限制图(Genomic restriction map)一般是把基因组限制图简称为限制图(restriction map):DNA分子上各种限制性内切酶切割位点的线性排列图.*2.重叠克隆库(Overlapping clone library)(2)物理图概念演变起始人们定义的物理图是不涉及基因及性状特征的。a.Physical map:A genetic map based on physicalcharacteristics of the DNA,such as restriction sites,ratherthan on location of genes(R.F.Weaver and P.W.Hedrick.1992.)b.Physical map:A map of DNA showing the actual distance indeoxynudeotides between sites.(L.Snyder&W,Champness.35c.Physical map:is the term used to describe muleculercharacterization and localization of DNA sequence alongchromosomes,without respect to visible traits or genes(R.A.Meyers,1995).d.近来在有些文章或著作中,将其上标记有基因的各种物理图,也称为遗传图,即基因图(Gene m ap),虽然其中只有物理图距和所处的位置是已知的。因此任何根据物理方法而非遗传方法定位的、沿着染色体或DNA分子排列的目标图谱(Object map)都可以看作是物理图。既然物理图是由沿着染色体排列的目标位置组成的,于是就可以分为:细胞遗传图(Cytogenetic map):用以表示染色体中基因位置的一种基因图。染色体断裂点图(Chromosomal break paint map):表示染色体分子上断裂点排列及位置的一种物理图。基因组限制片段图(Genomic restriction fragmentmap):一种表示沿着染色体基因组DNA分子线性排列的限制酶识别位点的位置及距离的物理图。36重叠克隆库(Overlapping clone library):七、基因座*1.locus”是另一个在中文文献中比较容易混淆的概念,这跟这个术语的历史演变过程有一定的关系。在中文有关文献中,有时 译 成“座位”,有的作者把该术语译成“基因座”,还有一些作者则把“locus”译 成“基因座位”等等。*2.在经典的或说是传统的遗传学著作中,是把“locus”定义为“基因”,亦即说是一个给定的基因在一条染色体上所占的位置(The position of a given gene on a chromosome)o 所以这个术语亦可叫做“遗传座位”(Genetics locus),或者更通常地叫做“染色体座位(Chromosomal locus)。是代表一个染色体上的位置(location),它可以由基因以外的其它目标(Object)组成。因此很显然,物理图中的位置可以根据许多不同的目标予以确定,例如探针位点、限制酶位点、克隆位点、着丝粒(Centramere)和端粒(telomere)。*3.近年来有些学者根据其DNA序列的性质不甚清楚的新的遗传记号来确定遗传座位,这就使得“locus”这个术语的概念变得更加混淆。*4.现在一般接受的染色体座位(chromosomal locus)的定义是:37能够用某种特殊的方法确定的任何一个染色体位置,或者说是染色体中的一个区段,都可以叫做(称为)染色体座位。基因座(locus)的定义是:在一条染色体或DNA分子上,相当于一个基因抑或一种物理表型特征的位置(A location ona chromosome or DNA molecule corresponding to a geneor a physical or phenotypic feature)0八、基因扩增(Gene amp I i f i cat i on)基因扩增与基因增加(Gene adition)是两种容易混淆但却是不同的概念。为此在阐明基因扩增概念之前,需对基因增加及基因减少(Gene subtraction)两种概念作一简介。1.基因增加(Gene adition)它是通过将一种或数种或一群外源新基因导入受体细胞,使基因类型增加,用以观察并研究其功能作用的一种基因工程策略。2.基因减少(Gene subtraction)这是通过使生物个体中一种或数种基因失活的途径,来研究其功能效应的一种基因工程策略。3.基因扩增38基因扩增与“基因增加”及“基因减少”不同,它是原来基因拷贝数增多的过程,包括如下5 种不同的情况:*1.在体外,应用聚合酶链式反应技术(PCR)和适当的引物使特定的基因的拷贝数得以增加的过程(PCR反应的结果);*2.将外源基因克隆在高拷贝的质粒载体分子上,于是在体内的情况下,该基因的拷贝数也就变得相应地富裕起来;*3.一些外界环境的压力因素可以使真核细胞产生适应性效应,从而导致相应的保卫基因(Protective genes)发生明显的扩增。这种情况可以在染色体上发生,也可以在染色体外产生。例如使用高剂量的氨甲蝶吟这种药物,便可使二氢叶酸还原酶(DHFR)基因得到扩增。因为这种基因的产物是氨甲蝶吟的作用靶子。*4.程序基因扩增(Programmed gene amplipication)例如在Xenopus laevis非洲爪蟾卵子发生过程中的rRNA基因。这种程序基因扩增有时被真核细胞用来作为在特定发育阶段产生高水平基因产物的一种手段。*5.在生物的进化过程中发生基因的加倍和扩增,结果使相同的基因在基因组上聚集成丛(dusters)。九、基因表达391.正义链与反义链在讨论基因表达的问题时,需要弄清什么是DNA的正义链和反义链(Sense strand and antisense strand)?*1.关于双链DNA分子中正义链与反义链的划分,文献中有两种不同的意见。在早期文献中,将双链DNA分子中转录成mRNA分子的模板链,称为正义链(有意义链),而与有意义链互补的DNA链则叫做反义链(无意义链)。至今仍有许多作者沿用这样的定义。*2.现在一般认为双链DNA分子中被转录成RNA转录本的链,叫做模板链(templete strand),又叫做反义链(antisense strand),简称G)链;而双链DNA分子中的编码链(Coding strand),除了以下T碱基取代U碱基之外,与RNA转录本具有同样的序列结构。编码链又叫做有意义链,简称(+)链或正义链。2.基因表达定义基因通过DNA的转录和RNA的转译等过程,将其所携带的遗传信息转变成蛋白质(或RNA转录本)的过程,叫做基因表达。对有些基因,例如tRNA基因和rRNA基因,它们的最