2022年分子生物学电子教案第三章.pdf
第三章基因的结构和功能第 3 章 基因与基因组的结构1主要内容1)断裂基因构成性质2)重叠基因种类3)C 值矛盾4)原核生物与真核生物基因组的区别5)真核生物染色体的结构6)真核生物DNA 序列的 4 种类型7)基因家族、基因簇、卫星DNA 、分散重复DNA 序列8)人类基因组计划2教学要求1) 掌握基因,断裂基因,顺反子,C 值矛盾,重叠基因,基因家族,重复序列,卫星DNA 等基本概念;2) 熟悉原核生物和真核生物基因组结构特点与功能;3) 了解人类基因组的重复顺序、人类基因组计划。第 1 节 基因的概念第 2 节 基因命名简介第 3 节 真核生物的断裂基因第 4 节 基因及基因组的大小与C 值矛盾第 5 节 重叠基因第 6 节 基因组第 7 节 真核生物DNA 序列组织第 8 节 基因家族第 9 节 人类基因组研究进展第 1 节 基因的概念基因:带有特定遗传信息的核酸分子片段。包括结构基因:编码蛋白质tRNA rRNA 调控基因:基因研究的发展染色体分子反向生物学基因位于染色体和细胞器的DNA 分子上?基因和顺反子? 1955 , Benzer 用以表述T4 具溶菌功能的区的2 个亚区 : rA r B ?现代分子生物学文献中,顺反子和基因这两个术语互相通用。第 2 节 基因命名简介?表示基因3 个小写斜体字母,lac ?表示基因座3 个小写斜体字母+ 1 个大写斜体字母。lacZ 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 1 页,共 10 页 - - - - - - - - - - ?表示质粒自然质粒3 个正体字母,首字母大写重组质粒在 2 个大写字母前面加小写p ?基因为斜体,蛋白质为正体?人类基因为大写斜体第 3 节 真核生物的断裂基因?一、 割裂基因的发现? 1977 ,通过成熟mRNA (或 cDNA )与编码基因的DNA 杂交试验而发现?真核生物的基因是不连续的,大大改变了原来对基因结构的看法,现在知道大多数真核生物的基因都是不连续基因或割裂基因(split gene) 。?割裂基因的概念 是编码序列在DNA 分子上不连续排列而被不编码的序列所隔开的基因。?割裂基因的构成?构成割裂基因的DNA 序列被分为两类:?基因中编码的序列称为外显子(exon) ,外显子是基因中对应于信使RNA 序列的区域;?不编码的间隔序列称为内含子(intron) ,内含子是从信使RNA 中消失的区域。?割裂基因由一系列交替存在的外显子和内含子构成,基因两端起始和结束于外显子,对应于其转录产物 RNA 的 5 和 3 端。如果一个基因有n 个内含子,则相应地含有n+1 个外显子。割裂基因的性质? Splitting Gene 的普遍性?外显子和内含子各有特点? Splitting gene 概念的相对性 Splitting Gene 的普遍性a) 真核生物( Eukaryots )中?绝大部分结构基因? tDNA, rDNA ? mtDNA, cpDNA b) 原核生物(Prokaryots )中? SV40 大 T 抗原 gene ?小 t 抗原gene ? Splitting gene 并非真核生物所特有外显子和内含子各有特点?割裂基因的外显子在基因中的排列顺序和它在成熟mRNA 产物中的排列顺序是相同的;?某种割裂基因在所有组织中都具有相同的内含子成分;?核基因的内含子通常在所有的可读框中都含有无义密码子(nonsense codon) ,因此一般没有编码功能。?内含子上发生的突变不能影响蛋白质的结构,所以其突变往往对生物体是没有影响的;?但也有例外,例如一些发生在内含子上的突变可通过抑制外显子的相互剪接阻止信使RNA 的产生。?利用结构基因的特殊DNA 限制片段作为探针,我们可以检测基因组中与之有亲缘关系的序列,结果表明一个基因的外显子常与其他基因的外显子有亲缘关系。?两个相关基因内含子之间的亲缘关系远远不如其外显子之间的亲缘关系紧密。?这是因为在进化过程中,相关基因的内含子比外显子变化得更快。 Splitting gene 概念的相对性a)Intron 并非 “ 含而不露 ”精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 2 页,共 10 页 - - - - - - - - - - Yeast 细胞色素b 基因Intron II 编码成熟酶b)Exon 并非 “ 表里如一 ”人类尿激酶原基因Exon I 不编码氨基酸序列c) 并非真核生物所有的结构基因均为splitting gene Histone gene family 干扰素Yeast 中多数基因(ADH )第 4 节 基因及基因组的大小与C 值矛盾?由于割裂基因的存在,人们认识到基因比实际编码蛋白质的序列要大得多。?外显子的大小与基因的大小没有必然的联系。?不同种类的生物体中外显子的大小并没有明显的不同,基因可能是由一些小的、编码较小的独立蛋白质分区的单位在进化过程中加合起来的。基因的大小取决于它所包含的内含子的长度?内含子之间有很大不同,它们的大小从200 个碱基对左右到上万个碱基对。在一些极端的例子里,甚至有 50- 60 kb的内含子。?由于基因的大小取决于内含子的长度和数目,导致酵母和高等真核生物的基因大小有很大的不同。?大多数酵母基因小于2 kb ,很少有超过5 kb 的。?与此相反,在高等的真核生物中,开始出现长的基因,蝇类和哺乳动物基因很少小于2 kb ,大多数长度在 5100 kb 之间。?但当基因的长度大到一定程度后,DNA 的复杂性与生物体的复杂性之间开始失去必然的联系。?例如虽然属于同一个门,果蝇细胞的DNA 总量较小而家蝇细胞的DNA 总量却是它的6 倍。基因组?狭义:单倍体细胞中的全套染色体(人:22 条常染色体+ X ,Y + 线粒体 DNA ) 。?广义:一物种的全部遗传物质及其携带的遗传信息。基因组大小与C 值矛盾?一个单倍体基因组的全部DNA 含量总是恒定的。这是物种的一个特征,通常称为该物种的C 值。?不同物种的C 值差异很大,最小的枝原体只有直106bp ,而最大的如某些显花植物和两栖动物可达lO11bp 。Range of genome size in different phyla门?由图表可见,随着生物的进化,生物体的结构和功能越来越复杂,其C 值就越大,例如真菌和高等植物同属于真核生物,而后者的C 值就大得多。这一点是不难理解的,因为结构和功能越复杂,需要的基因产物的种类越多,也就是说需要的基因越多,因而C 值越大。?然而另一方面, 随着进一步的进化,生物体复杂性和DNA 含量之间的关系变模糊了,出现了很多令人不解的现象。一些生物类群基因组大小的变化范围很窄,而另一些类群的变化范围则很宽。?突出的例子是两栖动物,C 值小的可以低至109bp 以下, C 值大的可以高达1011bp 。而哺乳动物的 C 值均为 109bp 的数量级。人们很难相信不同的两栖动物,所需基因的数量会有100 倍的差别,而且两栖动物的结构和功能会比哺乳动物更复杂。?由于人们无法用已知功能来解释基因组的DNA 含量,所以产生了C 值矛盾 (C value paradox,又称C 值悖理 )。?它表现在两个方面:一个方面是, 与预期的编码蛋白质的基因的数量相比,基因组 DNA 的含量过多。另一个方面是一些物种之间的复杂性变化范围并不大,但是 C 值却有很大的变化范围。这些问题的解精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 3 页,共 10 页 - - - - - - - - - - 决有待于进一步的研究。第 5 节 重叠基因莲人在绿杨津采一玉漱声歌新阙采莲人在绿杨津,在绿杨津一阙新;一阙新歌声漱玉,歌声漱玉采莲人。一、原核生物的重叠基因(overlapping gene) ?在细胞基因中, 一般一段DNA 序列只以三种蛋白质可读框的一种被阅读,但是在一些病毒或线粒体基因中,两个邻近的基因以一种巧妙的方式发生重叠,并以不同的可读框被阅读并表达,因此一段相同的 DNA 序列可以编码两个非同源蛋白质。Xl74的 DNA 序列组织上有重叠基因(overlap-ping gene)和基因内基因重叠基因有以下几种情况:一个基因完全在另一个基因内部如: B 和 AE 和 D 其读码结构互不相同重叠基因基因内基因部分重叠基因一个碱基重叠二、真核生物的重叠基因?通常割裂基因的每个外显子编码一段单一的氨基酸序列,对应于整个蛋白质上的相应部分,而内含子不在最终的蛋白质产物中表达,二者的作用是迥然不同的。但是有些基因中内含子和外显子的定义是相对的,与它表达的途径有关。?在这些基因中,选择性的基因表达模式引起了外显子连接途径的转变。?一个特定的外显子可能选择性地与不同的外显子连接形成信使RNA 。?这种选择性形式产生的两种蛋白质中,一部分相同而其他部分不同。一段区域以一种途径表达时作为外显子,而以另一种途径表达时作为内含子。?因为此时一段DNA 序列通常以多种方式起作用,所以不能被简单地称为外显子或内含子。第 6 节 基因组一、原核生物的染色体基因组二、真核生物基因组一、原核生物的染色体基因组(一)细菌染色体基因组结构的一般特点1. 细菌的染色体基因组通常仅由一条环状双链DNA 分子组成,细菌的染色体相对聚集在一起,形成一个较为致密的区域,称为类核(nucleoid ) 。类核无核膜与胞浆分开,类核的中央部分由RNA 和支架蛋白组成, 外围是双链闭环的DNA 超螺旋。 染色体 DNA 通常与细胞膜相连,连接点的数量随细菌生长状况和不同的生活周期而异。Fig.Typical bacterial cell E.coli genome is a single double-stranded DNA molecule of 1. 6 mm. m in length But E. coli is only 2 DNA is 1000 larger than the size of the cell! 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 4 页,共 10 页 - - - - - - - - - - This is achieved by super-coiling the DNA. DNAgyrase旋转酶introduces negative-superhelical twists into the DNA. The degree of supercoiling of the chromosome is strictly regulated. Fig.The structure of E.coli nucleoid (图大肠杆菌拟核的结构) 2. 具有操纵子 (trnascriptional operon) 结构 , 其中的结构基因为多顺反子(polycistron) ,即数个功能相关的结构基因串联在一起,受同一个调节区的调节。数个操纵子还可以由一个共同的调节基因(regulatorygene)即调节子( regulon )所调控。X174 D-E-J-F-G-H mRNA 外壳蛋白J、F、G、H 组装蛋白D 裂解蛋白E E.coli 色氨酸操纵子9 个顺反子9 个酶真核很少,如18s 5.8s 及 28s rRNA 基因3. 在大多数情况下,结构基因在细菌染色体基因组中都是单拷贝。4. 不编码的DNA 部份所占比例比真核细胞基因组少得多。5. 具 有 编 码 同 工 酶 的 同 源 基 因 ( isogene ) 例 如 , 在 大 肠 杆 菌 基 因 组 中 有 两 个 编 码 分 支 酸(chorismicacid )变位酶的基因,两个编码乙酰乳酸(acetolactate )合成酶的基因。6.细菌基因组编码顺序一般不会重叠,和病毒基因组不同的。7.在 DNA 分子中具有各种功能的识别区域如复制起始区OriC ,复制终止区TerC,转录启动区和终止区等。这些区域往往具有特殊的顺序,并且含有反向重复顺序。8.在基因或操纵子的终末往往具有特殊的终止顺序,它可使转录终止和RNA 聚合酶从DNA 链上脱落。例如大肠杆菌色氨酸操纵子后尾含有40bp 的 GC 丰富区,其后紧跟AT 丰富区,这就是转录终止子的结构。图 Prokaryotic Chromosomes ? Haploid 仅一对染色体? DNA is compacted紧凑的 E.g. E. coli packs 1.5 mm chromosome into a cell that is only 1um in length ? No histones or nucleosomes无组蛋白和核小体 Small basic proteins MAY serve a similar function ? Genes usually do not contain introns ? Single origin of replication单一复制起点(二)质粒基因组?指细菌的染色体外基因组,大约几十种。?质粒 DNA 呈线状或环状双链结构?大小约 1 103300103bp ,相对分子质量1 106200106。?质粒基因可通过复制、转录、翻译而赋予寄主细胞某种性状。质粒基因组二、真核生物基因组(一)真核染色体(二)真核染色体基因组(三)线粒体基因组(四)叶绿体基因组精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 5 页,共 10 页 - - - - - - - - - - (一)真核染色体(Eukaryotic chromosome ) 1.概述2.组蛋白( Histone )3.核小体( Nuclearsome )4.染色体结构的形成5.着丝粒( centromere或中心粒 ) 和端粒 (telomere) 1.概述:Chromatin structure enables the chromosomes to alter their compactness as the cell progress the cell cycle. 2.组蛋白( Histone )3.核小体( Nuclearsome )Mononucleosomes typically have 200 bp DNA. End-trimming reduces the length of DNA first to 165 bp, and then generates core particles with 146 bp. The 10 nm fiber is a continuous string of nucleosomes. 4.染色体结构的形成(1) 首先若干个核小体形成念珠状结构(2)30nm 纤丝的构成染色质结构的第二层次5.着丝粒( centromere或中心粒 )和端粒 (telomere) 有丝分裂中期的染色体(二)真核染色体基因组(Eukaryotic chromosome genome ) ?为真核生物单倍体染色体所含有的一整套基因。1.真核生物基因组结构与功能的特点1)含两份同源的基因组2)结构复杂,基因数庞大,具有许多复制起点,每个复制子大小不一。3)真核基因由一个结构基因与相关的调控区组成,转录产物为单顺反子。4)含有大量重复序列。5)非编码序列(non-coding sequence NCS)占 90% 以上。6)断裂基因( split gene) 。基因与基因间的非编码序列为间隔DNA ( spacer DNA). 7)功能相关的基因构成各种基因家族,可串联在一起,也可相距很远。8)可移动因素(mobile genetic element),又称为自私基因(selfish DNA). 2.真核生物基因组的结构?结构基因编码蛋白质tRNA rRNA ?顺式作用元件(cis-acting element) 指与结构基因表达调控相关、能够被基因调控蛋白特异性识别和结合的DNA 序列。并非都位于转录起始点上游,包括启动子、增强子、上游启动子元件、反应元件、加尾信号等。?反式作用因子(trans-acting elements): 可通过结合顺式作用元件而调节基因转录活性的蛋白质因子。3.真核生物与原核生物基因组特点的异同1)真核生物基因分布在多个染色体上,而原核生物只一个染色体;精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 6 页,共 10 页 - - - - - - - - - - 2)真核生物基因组远大于原核生物基因组;3)真核生物细胞中DNA 与组蛋白和大量非组蛋白结合,并有核膜将其与细胞质隔离,结果真核细胞的转录和翻译在时间上和空间上都是分离的,而原核细胞的基因转录和翻译是同步的;4)真核生物的基因是不连续的,中间存在不被翻译的内含子序列,而原核生物几乎每一个基因都是完整的连续的DNA 片段;5)基因组中非编码序列远多于编码序列;6)存在着重复序列,重复次数从几次到几百万次不等;7)真核生物基因组的复制起点多,缺少明显的操纵子结构,而原核生物的基因组一般是一个复制子;8)真核生物基因组与原核相同,存在转座因子。(三)线粒体基因组(mitochondrial genome, mtDNA) ?双链环状分子?相对分子质量约1 1032105, 动物植物,大小为15.416.3kb ;?含有编码 2 个核糖体RNA (12S rRNA, 16S rRNA) 、22 个 tRNA 、1 个细胞色素b、3 个细胞色素氧化酶 (CO 、CO 、CO) 、 6 个 NADH 降解酶 (ND1 6) 和 2 个 ATP 酶 (6 和 8) 的基因(Flook, 1995 ) 。?线粒体是半自主性的细胞器,只能编码部分所需产物,需与核基因互作编码一些重要物质。?遗传密码与核DNA 的不完全一致。图 1-1 线粒体 DNA 结构示意图(四)叶绿体基因组?也是半自主性的细胞器,需与核基因互作编码一些重要物质。?叶绿体基因组较大,在高等植物中通常为140kb 。第 7 节 真核生物DNA 序列组织1、单拷贝序列:大多数编码蛋白质的结构基因属这一类。2、轻度重复序列:210 个拷贝。如组蛋白基因,酵母tRNA 基因。3、中度重复序列:重复次数为101105 。不编码,在基因表达调控起重要作用。4、高度重复序列:重复次数105 的 DNA 序列,如卫星DNA ,反向重复序列,rRNA ,某些 tRNA 第 8 节 基因家族( gene family) 一、基因家族和基因簇?基因家族指核苷酸序列或编码产物的结构具有一定程度同源性的一组基因。?假基因( pseudogene): 在多基因家族中有的成员并不能表达出有功能的产物,用表示。基因家族的特点1、核酸序列相同:即为多拷贝基因如rRNA 基因家族, tRNA 基因家族,组蛋白基因家族。2、核酸序列高度同源:如人类生长激素基因家族包括三种激素的基因,人生长激素、人胎盘促乳素和催乳素,它们之间高度同源。3、编码产物有同源功能:基因序列的相似性可能较低,但基因编码的产物具有高度保守的功能区。如 src 癌基因家族4、编码产物具有小段保守基序:有些基因家族中各成员的DNA 序列可能不明显相关,而所编码的产物却有共同的功能特征,存在小段保守的氨基酸基序。?基因超家族( gene superfamily) 指一组由多基因家族及单基因组成的更大的基因家族,它们的结构精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 7 页,共 10 页 - - - - - - - - - - 有不同的同源性,但功能并不一定相同。如免疫球蛋白基因超家族。基因簇 (gene cluster) 是指基因家族中的各成员紧密成簇排列成大段的串联重复单位,定位于染色体的特殊区域。它们属于同一个祖先的基因扩增产物。二、基因外的DNA 重复序列?除了基因家族外,染色体上还有大量无转录活性的重复DNA 序列家族。?与在基因家族中的组织形式类似,它们也有两种组织形式:串联重复DNA (卫星 DNA ) ,成簇存在于染色体的特定区域。分散重复的DNA ,重复单位并不成簇存在,而是分散于染色体的各个位点上。1卫星 DNA (1) 概念:卫星DNA 有些高度重复DNA 序列的碱基组成和浮力密度同主体DNA 有区别,在浮力密度梯度离心时,可形成不同于主DNA 带的卫星带。卫星DNA 的名称由此而来。(2)卫星 DNA 的分类卫星 DNA(satellite DNA) 小卫星 DNA(minisatellite DNA) 微卫星 DNA(microsatellite DNA) ?大卫星 DNA (macrosatellite DNA) 又称为经典DNA 。总长度100kb 几个 Mb 。根据浮力密度的不同分为、和 、 卫星 DNA 。各类型都由不同的重复顺序家族组成。?小卫星 DNA (minisatellite DNA)由中等大小的串联重复序列构成,总长约0.120 kb ,分布在所有染色体, 往往近于端粒处。 高度可变的卫星DNA 、端粒 DNA(串联的短片段重复序列(TTAGGGG)n )?微卫星 DNA (microsatellite DNA):重复单位为15 bp, 重复次数为1060 次,总长度小于150bp ,常见以 (AC)n 和(TG)n 二聚核苷酸为重复单位,由Miesfeld 1981年发现。2. 分散重复的DNA 序列?在高度分散的重复DNA 家族中含有少量转座元件,根据其大小不同,可分为短散在核元件(short interspersed nuclear elements,SINEs), 长散在核元件(long interspersed nuclear elements, LINEs)。1)短散在核元件(short interspersed nuclear elements,SINEs), 主要是 Alu 重复序列家族。序列中有限制酶Alu 的酶切位点( AGCT )而得名。重复次数3050 万,散在分布于基因组中,与基因表达调控有关。2)长散在核元件(long interspersed nuclear elements, LINEs): Kpn重复顺序。第 9 节 人类基因组研究进展一、人类基因组的基本特点二、重复序列三、人类基因组计划(HGP )一、人类基因组的基本特点?断裂基因;?主要由大量的非编码序列和少量的编码序列构成;?存在多基因家族;?含有多种类型的重复序列。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 8 页,共 10 页 - - - - - - - - - - 人类基因组概况基因组大小 2.91Gbp A+G 含量 54% G+C 含量 38% 重复序列(不含异染色质) 35% 编码序列数目 26588 功能未知基因比例 42% 外显子最多的基因 Titin( 234)SNP 数量 300 万个SNP 密度 1/1250bp 最长的染色体 2(240 Mbp )最短的染色体 Y(19Mbp )基因最多的染色体 1(2453 )基因最少的染色体 Y(104)基因密度最大的染色体 19 (23/Mb )基因密度最小的染色体 13 ,Y(5/Mb )重复序列含量最高的染色体 19(57% )重复序列含量最低的染色体 2,8,10 ,13,18(36% )二、重复序列?基因组中有多个拷贝,但不编码蛋白质的序列,是人类基因中的主要成分;?分为串联和散布重复序列?卫星 DNA 高度重复的串联重复序列;?重复序列是一种重要的分子标记。图人类基因组中的散布重复序列? SINE :short interspersed nuclear elements. ? Alu: 含 AGCT. ? MIR :mammalian-wide interspersed repeats. ? LINE :long interspersed nuclear elements. ? LTR :long terminal repeat. ? HERV :human endogenous retroviruses. ? RTLV : retrovirus-like elements. ? MER :medium reiteration frequency sequence. ? THE :transposable human element. 三、人类基因组计划(HGP )? 1986 年 Dulbecco提出、 1990 启动的人类基因组计划(Human Genome Project,HGP) ,被誉为生命科学的 “ 登月 ” 计划。 1990 年 10 月美国政府决定出资30 亿美元,用15 年时间( 1991 20XX 年)完成 “ 人类基因组计划” 。“ 人类基因组计划” 是生物学有史以来最巨大和意义深远的一项科学工程。? 20XX年 4 月 14 日美国联邦国家人类基因组研究项目负责人弗朗西斯? 柯林斯博士隆重宣布,美、英、日、法、德和中国科学家经过13 年努力共同绘制完成了人类基因组序列图。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 9 页,共 10 页 - - - - - - - - - - ?由 30 亿个碱基对( 3 109 bp )组成的人类基因组,蕴藏着生命的奥秘。科学家发现人类基因数目约为 3.4 万至 3.5 万个,仅比果蝇多2 万个,远小于原先10 万个基因的估计。HGP 目标 (1990-2003) 内容 目标(9398) 完成情况 982003 遗传图谱 2 5 cM 1cM 完成( 1cM)物理图谱 30 ,000STSs 52 , 000STSs 完成序列图谱 80Mb 人: 180 ,其它: 111 完成基因图谱 30,000ESTs 测序技术大规模测序 YAC,全自动测序,基因组信息学多态性 SNPs 模式生物 5 种?人类基因组的研究带动了相关技术的突破和发展完成数十种生物基因组全序列的测定?后基因组时代来临本 章 小 结1. 断裂基因构成性质2. 重叠基因种类3. C 值矛盾4. 原核生物与真核生物基因组的区别5. 真核生物染色体的结构6. 真核生物DNA 序列的 4 种类型7. 基因家族、基因簇、卫星DNA 、分散重复DNA 序列8. 人类基因组计划精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 10 页,共 10 页 - - - - - - - - - -