分子生物学第三章-基因与基因组的结构课件.ppt
第三章第三章 基因与基因组的结构基因与基因组的结构Chapter 3 Structure of gene and genome 2/18/20231一、基因和基因组一、基因和基因组1、基因(、基因(Gene)(T.H.Morgan 1926)“基因基因”概念的提出及发展:概念的提出及发展:1865年,孟德尔提出年,孟德尔提出“遗传因子遗传因子”1903年,丹麦生物学家约翰逊创造了基因(年,丹麦生物学家约翰逊创造了基因(gene)一词)一词1926年,摩尔根提出年,摩尔根提出“三位一体三位一体”学说。学说。1941年,比德尔(年,比德尔(Beadle)和塔特姆()和塔特姆(Tatum)提出一个)提出一个基因一个酶学说基因一个酶学说,证明基因通过它所控制的酶决定着代谢,证明基因通过它所控制的酶决定着代谢中生化反应步骤,进而决定生物性状。中生化反应步骤,进而决定生物性状。2/18/202321944年年Avery 等人首次证实等人首次证实DNA是遗传信息的载体。是遗传信息的载体。1953年年Watson和和Crick提出提出DNA双螺旋结构模型,进一步说明双螺旋结构模型,进一步说明基因成分就是基因成分就是DNA,它控制着蛋白质合成,它控制着蛋白质合成1957年法国本滋尔(年法国本滋尔(Benzer)提出了顺反子学说。打破了)提出了顺反子学说。打破了“三三位一体位一体”概念从而认为基因为概念从而认为基因为DNA分子上一段核苷酸顺序,分子上一段核苷酸顺序,一个基因内部仍可划分若干个起作用的小单位一个基因内部仍可划分若干个起作用的小单位1967年破译了全部年破译了全部64个遗传密码个遗传密码1961年法国雅各布(年法国雅各布(F.Jacob)和莫诺()和莫诺(J.L.Monod)提出了操)提出了操纵子学说。纵子学说。“基因基因”概念的提出及发展:概念的提出及发展:2/18/2023370年代后,基因的概念随着多学科渗透和实验手段年代后,基因的概念随着多学科渗透和实验手段日新月异又有突飞猛进的发展,主要有以下几个日新月异又有突飞猛进的发展,主要有以下几个方面。方面。1、基因具重叠性。、基因具重叠性。2、内含子和外显子。、内含子和外显子。3、管家基因和奢侈基因。、管家基因和奢侈基因。4、跳跃基因、跳跃基因。2/18/20234结构基因结构基因编码蛋白质的基因编码蛋白质的基因;可被转录生成可被转录生成mRNA,进而翻译成蛋白质,进而翻译成蛋白质,表表现出相应性状。现出相应性状。2/18/20236工具基因工具基因只转录成只转录成RNA,不再翻译成蛋白质;,不再翻译成蛋白质;为蛋白质合成提供必要的工具。为蛋白质合成提供必要的工具。如如rDNA、tDNA基因基因2/18/202372、基因组(、基因组(Genome)基因组基因组是一种生物染色体内全部遗传物质的是一种生物染色体内全部遗传物质的总和,包括构成基因和基因之间区域的所有总和,包括构成基因和基因之间区域的所有DNA。不同生物基因组大小及复杂性不同。进化程度越不同生物基因组大小及复杂性不同。进化程度越高,基因组越复杂。高,基因组越复杂。2/18/20238原核生物的基因结构特点:原核生物的基因结构特点:基因组较小,编码区和非编码区组成,非编码基因组较小,编码区和非编码区组成,非编码DNA比例较少,无内含子;比例较少,无内含子;有操纵子结构,有操纵子结构,且为多顺反子;且为多顺反子;结构基因多为单拷贝,结构基因多为单拷贝,rRNA基因多拷贝;基因多拷贝;有些基因之间可以形成有些基因之间可以形成重叠基因重叠基因;二、原核生物基因组二、原核生物基因组环状或线状的双链环状或线状的双链DNA分子所含有的全部基因,有分子所含有的全部基因,有的还包括染色体外的的还包括染色体外的质粒质粒基因组。基因组。2/18/202310大肠杆菌基因组(大肠杆菌基因组(4,639,221bp)闭合环状闭合环状4288个基因个基因类核类核操纵子结构操纵子结构基因多为单拷贝基因多为单拷贝非编码非编码DNA较少较少2/18/202311类核的结构类核的结构2/18/202313莲人在绿杨津莲人在绿杨津采采一一玉漱声歌新阕玉漱声歌新阕采莲人在绿杨津,采莲人在绿杨津,在绿杨津一阕新;在绿杨津一阕新;一阕新歌声漱玉,一阕新歌声漱玉,歌声漱玉采莲人。歌声漱玉采莲人。2/18/202315共同使用同一共同使用同一DNA序列,但编码两种不同蛋白质的基因。序列,但编码两种不同蛋白质的基因。重叠基因(重叠基因(overlapping gene)5386Nt11基因,基因,3mRNA X174含有的含有的5386Nt最多能编码最多能编码1795个氨基酸,若个氨基酸,若每个氨基酸的平均分子量为每个氨基酸的平均分子量为110,则总的蛋白质分子,则总的蛋白质分子量为量为197kDa,但实际蛋白质却为,但实际蛋白质却为262kDa。将全部将全部DNA顺序和蛋白质的氨基酸顺序进行比较,顺序和蛋白质的氨基酸顺序进行比较,证实了重叠基因证实了重叠基因X174 (F.Sanger,1977)2/18/202316基因重叠方式基因重叠方式 Mis-reading for stop codon 400Nt 800Nt AUG-UGA-UAA UGA,UAG 易被漏读,易被漏读,错读错读 UAA 能严格终止能严格终止 14Kd Cp 97%38Kd Ip 3%2/18/202318 Alternate different reading frame -ATG-/-AATGCC-/-ATAACG-/-TAA-ABATGCCN-NNATAA2/18/202319质粒质粒(plasmid)2/18/202320n 基因组基因组(genome)核基因组(核基因组(nucleic genome)核外基因组(核外基因组(extranucleic genome )线粒体基因组(线粒体基因组(mitochondrial genome)叶粒体基因组(叶粒体基因组(chloroplast genome)三、真核生物基因组三、真核生物基因组2/18/2023211、核基因组、核基因组真核生物单倍体染色体所含的一整套基因。真核生物单倍体染色体所含的一整套基因。3.1.1基因组的特点:基因组的特点:u基因组较基因组较大大,结构复杂,大部分位于细胞核中,结构复杂,大部分位于细胞核中,为为双链线状双链线状,并与蛋白质结合形成染色质,而且,并与蛋白质结合形成染色质,而且染色染色体数目体数目往往不是一条,而是往往不是一条,而是多条多条;u 每条染色体的每条染色体的每条染色体的每条染色体的DNADNA分子具有多个复制起点,基因分子具有多个复制起点,基因分子具有多个复制起点,基因分子具有多个复制起点,基因内存在内含子。真核基因多为内存在内含子。真核基因多为内存在内含子。真核基因多为内存在内含子。真核基因多为断裂基因断裂基因断裂基因断裂基因;2/18/202322基因基因基因基因(35%35%)假基因假基因假基因假基因基因外区域基因外区域基因外区域基因外区域外显子外显子外显子外显子内含子内含子内含子内含子2/18/202324 真核生物基因组真核生物基因组低等真核低等真核生物生物高等真核高等真核生物生物2/18/202325 真核生物基因组真核生物基因组“城市化城市化”与与“荒漠化荒漠化”2/18/202326C value paradox of nucleotide 霉菌藻类藻类G+细菌细菌G-细菌细菌显花植物显花植物鸟类鸟类哺乳类哺乳类爬行类爬行类两栖类两栖类硬骨鱼类硬骨鱼类软骨鱼类软骨鱼类赖皮类赖皮类甲壳类甲壳类昆虫类昆虫类软体动物软体动物蠕虫类蠕虫类真菌真菌枝原体枝原体A 生物体进化程度高低生物体进化程度高低 与大与大C值不成值不成明显明显 相关相关(非线性)(非线性)B 亲缘关系相近亲缘关系相近的生的生 物大物大C值相差较大值相差较大 C 一种生物内大一种生物内大C值与值与 小小c值相差极大值相差极大 (Euk.人体人体 c=C/10)(Prok.x174 c C)2/18/202328真核生物真核生物 DNA 染色体数染色体数 (2C)(2N)两栖鲵两栖鲵 168.0 pg(10-12g)24肺鱼肺鱼 100 38蝾螈蝾螈 85.3 24警蛙警蛙 28.2 24牛牛 6.4 60人人 6.4 46绵羊绵羊 5.7 54果蝇果蝇 0.2 8贝母贝母 196.7 24豌豆豌豆 28 12玉米玉米 11 20原核生物原核生物 DNA (C)Salmonella 0.0143 pgE.coli 0.0040T2 0.00022 0.0000055174 0.000005 无无 线线 性性 关关 系系?说说 明:明:C值大小与生物进化程值大小与生物进化程度并不完全呈相关关系度并不完全呈相关关系 基因组中存在许多不编基因组中存在许多不编码蛋白质的码蛋白质的DNA序列序列2/18/202329中度中度重复序列重复序列十至数百个拷贝,分散于整个基因组中;十至数百个拷贝,分散于整个基因组中;每种序列的重复次数不等,平均长度大约每种序列的重复次数不等,平均长度大约300bp一般为不编码序列,起基因调控作用一般为不编码序列,起基因调控作用如:真核生物的如:真核生物的 Alu family300,000 copies 广泛分布于非重复序列间广泛分布于非重复序列间300bp300bp300bp6000bp6000bp6000bp6000bpAGCT2/18/202331 高度重复序列高度重复序列几百至几百万个拷贝;几百至几百万个拷贝;长度从几个、几十个到几长度从几个、几十个到几百万百万bp无选择压力,可保留在群体中无选择压力,可保留在群体中可分为可分为3种:卫星种:卫星DNA、小卫星、小卫星DNA和微卫星序列和微卫星序列2/18/202332 卫星卫星DNA(satellite DNA):分布于染色体上异染色区域,由长串联重复序列组成。分布于染色体上异染色区域,由长串联重复序列组成。小卫星小卫星DNA(minisatellite DNA):由中等大小的串联重复组成,主要分布于染色体末端由中等大小的串联重复组成,主要分布于染色体末端区域。区域。微卫星微卫星DNA(microsatellite DNA):由由2-6个个bp单位组成的串联重复序列,分散于整个核基单位组成的串联重复序列,分散于整个核基因组。如因组。如TGTGTG=(TG)n 2/18/2023332/18/202334u基因家族(基因家族(Genefamily)真核生物基因组中功能相似、结构具有同源性的真核生物基因组中功能相似、结构具有同源性的一组基因。一组基因。编码编码RNA,如,如rRNA,tRNA和和snRNA等等;编码蛋白质的基因家族编码蛋白质的基因家族.位于同一染色体上位于同一染色体上,串联排列串联排列,如如rRNA、组蛋白家、组蛋白家族族;位于不同染色体上,个成员的位于不同染色体上,个成员的DNA并不完全相同,并不完全相同,如珠蛋白如珠蛋白2/18/2023352/18/2023362/18/2023372/18/2023382/18/202339 持家基因(持家基因(house keeping gene)在不同种类的细胞中均表达,功能对于每个细胞都必需;在不同种类的细胞中均表达,功能对于每个细胞都必需;占基因总数占基因总数90 奢侈基因(奢侈基因(luxury gene)仅在特定的细胞类型中表达;仅在特定的细胞类型中表达;占基因总数占基因总数102/18/202340 核苷酸序列与编码某一蛋白质的基因相似,但核苷酸序列与编码某一蛋白质的基因相似,但不具功能,不能转录形成成熟不具功能,不能转录形成成熟mRNA或不能翻译或不能翻译出功能蛋白质。出功能蛋白质。重复的假基因重复的假基因 已有基因在结构上发生较大变化而失去功能后形成已有基因在结构上发生较大变化而失去功能后形成假基因(假基因(pseudogene)加工的假基因加工的假基因2/18/202341 加工的假基因加工的假基因 没有启动子和内含子,在没有启动子和内含子,在3端有一段延伸的短端有一段延伸的短A-T碱基对序列,似碱基对序列,似poly(A)尾巴,两侧有尾巴,两侧有 正向重复序正向重复序列列。2/18/202342加工基因的形成加工基因的形成 l DNA pre-RNA RNA cDNA DNAInsertion Insertion staggerU3 pseudo geneprocessed gene2/18/202343 加工基因的形成加工基因的形成 lDNA pre-RNA RNA RNA/DNA DNAinsertioninsertionRNARNAcDNAcDNARNA/DNARNA/DNApseudogenepseudogene3TnAnDRSecond nick ligation to RNAprocessed RNA2/18/202344假基因的真功能假基因的真功能作者:作者:来源:来源:Nature发布日期:发布日期:2008-5-23在演化过程中,很多基因经过了复制,其中的一在演化过程中,很多基因经过了复制,其中的一版本积版本积累了使其失去功能的突变。一些假基因一般被认为是基累了使其失去功能的突变。一些假基因一般被认为是基因组中相当没有意义、没有前途的基因。然而现在,人因组中相当没有意义、没有前途的基因。然而现在,人们发现它们似乎并不是那么简单。两个小组在本期们发现它们似乎并不是那么简单。两个小组在本期Nature上报告了事实上能够影响基因表达的假基因。其上报告了事实上能够影响基因表达的假基因。其中的机制涉及将来自假基因的中的机制涉及将来自假基因的RNA反义转录与蛋白编码反义转录与蛋白编码基因的基因的mRNA配对,形成一个配对,形成一个duplexRNA,它又被处,它又被处理成内生理成内生siRNA。2/18/202345移动基因(移动基因(movable gene)转座子(转座子(transposonable elements,TEs)(transposon)从基因组上的一个位置转移到从基因组上的一个位置转移到同一条染色体或另一条染色体同一条染色体或另一条染色体的另一个位置,引起相应控制的另一个位置,引起相应控制性状的改变。性状的改变。跳跃基因(跳跃基因(jumping gene)2/18/202346转座子的发现转座子的发现认为:一种控制基因在玉米基因组中移动的认为:一种控制基因在玉米基因组中移动的结果结果(McClintock B,Cold Harboring Lab)1950年,年,发现玉米粒的颜色经常发生变化发现玉米粒的颜色经常发生变化2/18/202347 控制基因插入到玉米染色体上编码色素的基因中,控制基因插入到玉米染色体上编码色素的基因中,改变基因表达活性,使玉米粒颜色发生变化。改变基因表达活性,使玉米粒颜色发生变化。基因的插入位置不断发生变化,沿着染色体移动,基因的插入位置不断发生变化,沿着染色体移动,造成玉米粒的颜色成造成玉米粒的颜色成斑驳状斑驳状。2/18/2023482/18/202349转座子的结构特征转座子的结构特征转座后转座后,转座子两侧转座子两侧形成靶位点的正向重形成靶位点的正向重复复转座子两端为转座子两端为反向重复反向重复转座子转座子2/18/202350转座机制:转座机制:内切酶识别靶序列,并内切酶识别靶序列,并产生交错切口;产生交错切口;转座子插入到切口之间转座子插入到切口之间,两端反向重复与靶序列两端反向重复与靶序列突出的单链末端连接;突出的单链末端连接;DNA聚合酶填补单链区聚合酶填补单链区域缺口,域缺口,DNA连接酶封连接酶封闭缺口闭缺口ATGCAATGCATACGTATGCATACGT靶位点靶位点2/18/202351外显子(外显子(exon):):编码编码的的DNA序列,即被表达的序列,即被表达的DNA区段区段内含子(内含子(intron):):不编码不编码的的DNA序列序列Gilbert(1978年)提出内含子、外显子概念年)提出内含子、外显子概念割裂基因(割裂基因(split gene)2/18/202352内含子的发现内含子的发现1977年,年,SharpandRobert发现发现割裂基因割裂基因但但Chambon失机失机Chambon2/18/202353DNA和和mRNA之间形成特殊的之间形成特殊的RNA-DNA异源双链异源双链分子结构分子结构 割裂基因割裂基因 Split Genes(SharpandRobert)2/18/202354内含子存在的证明内含子存在的证明电子显微镜观察分析电子显微镜观察分析割裂基因的结构割裂基因的结构成熟成熟mRNAmRNA或或cDNAcDNA与对应单链与对应单链DNADNA杂交杂交2/18/202355用用S1核酶处理异源双链分子核酶处理异源双链分子 核酸酶能专一降解未配核酸酶能专一降解未配对的单链核苷酸,在对的单链核苷酸,在RNA-DNA异源双链分子中,外异源双链分子中,外显子形成双链而保留,内显子形成双链而保留,内含子仍为单链被降解含子仍为单链被降解.2/18/202356不连续基因不连续基因(discontinuous gene)在基因编码蛋白质的序列中插入与蛋白质编码在基因编码蛋白质的序列中插入与蛋白质编码无关的无关的DNA间隔区,使一个基因分隔成不连续间隔区,使一个基因分隔成不连续的若干区段。的若干区段。2/18/202357外显子与内含子连接区特征外显子与内含子连接区特征内含子两端序列之间没有广泛的同源性和互补性;内含子两端序列之间没有广泛的同源性和互补性;连接区高度保守,几乎每个内含子连接区高度保守,几乎每个内含子5端起始两个碱端起始两个碱基为基为GT,3 端最后两个碱基为端最后两个碱基为AG,即,即5GT.AG 3 2/18/202358选择性剪接选择性剪接同一区段同一区段DNA序列可以加工生成两条或两条以上的链序列可以加工生成两条或两条以上的链。2/18/202359-选择性剪接选择性剪接(Alternative splicing)-Alternative splicing in Drosophila maintains the female state.2/18/202360内含子的功能内含子的功能影响基因的表达调控影响基因的表达调控调控调控RNA的剪接,增加的剪接,增加DNA储存信息量储存信息量有助于变异和进化有助于变异和进化编码特定的蛋白质编码特定的蛋白质增加重组几率增加重组几率内含子并非内含子并非“含而不露含而不露”外显子并非外显子并非“表里如一表里如一”2/18/202361u核外遗传系统核外遗传系统线粒体线粒体DNA(Mitochondrial DNA,mt-DNA)存在线粒体内,分布于细胞质中,多聚集在需能部位。存在线粒体内,分布于细胞质中,多聚集在需能部位。2/18/202362线粒体线粒体DNA基因组特征基因组特征 分子结构简单:分子结构简单:共价闭合的环状双链共价闭合的环状双链DNA;结构基因排列紧密,除调控区外无内含子和转座子;结构基因排列紧密,除调控区外无内含子和转座子;编码区含有编码区含有37个基因,个基因,调控区(置换环或调控区(置换环或D-环)环)2/18/202363 mt-DNA的相对分子量低的相对分子量低大小一般在大小一般在14-42kb 之间,大多数动物在之间,大多数动物在16-19之间;之间;与核与核DNA相比,相比,mt-DNA所占质量比很小,不足所占质量比很小,不足1。进化速度快(进化速度快(mt-DNA 结构基因结构基因)mt-DNA聚合酶不具备校对修复能力;聚合酶不具备校对修复能力;碱基不配对频率高,复制易发生错误。碱基不配对频率高,复制易发生错误。无组织特异性无组织特异性 正常个体不同细胞的正常个体不同细胞的mt-DNA具有高度均一性具有高度均一性 核苷酸组成不均一核苷酸组成不均一 4种碱基组成偏离随机组成;种碱基组成偏离随机组成;G+C的摩尔分数在的摩尔分数在15-50间变化。间变化。2/18/202364线粒体线粒体DNA的变异的变异mtDNA的变化随年龄增加而增加,因此认为的变化随年龄增加而增加,因此认为mtDNA的的突变与衰老有关。突变与衰老有关。mtDNA的突变率比细胞核的突变率比细胞核DNA高高510倍。倍。原因:原因:mtDNA缺少组蛋白的保护;缺少组蛋白的保护;线粒体中无修复线粒体中无修复DNA的操作能力;的操作能力;线粒体进行大量氧化过程,产生随自由基可能损伤线粒体进行大量氧化过程,产生随自由基可能损伤mtDNA。这些变异都可以这些变异都可以母系遗传母系遗传的方式传递到子代。的方式传递到子代。2/18/202365公驴与母马的后代,为马骡公驴与母马的后代,为马骡,与马像与马像母驴与公马的后代,母驴与公马的后代,为驴骡为驴骡线粒体的母系遗传线粒体的母系遗传2/18/202366遗传密码通用性不完全适合遗传密码通用性不完全适合mtDNA2/18/202367寻找祖先寻找祖先2/18/202368遗传进化分析遗传进化分析细鳞鲑mtDNA控制区序列的进化树 WN卧牛河卧牛河,SH松花江松花江YE黄河黄河TM图们江图们江 2/18/202369“三合一三合一”胚胎胚胎三个爹娘一个娃三个爹娘一个娃2/18/202370喝碳酸饮料直毁细胞代谢喝碳酸饮料直毁细胞代谢2/18/202371四、基因的命名及表示方法四、基因的命名及表示方法基因的命名基因的命名一般来说,基因的名称用斜体表示,而蛋白质的名一般来说,基因的名称用斜体表示,而蛋白质的名称用正体表示。如核糖体蛋白称用正体表示。如核糖体蛋白6基因(基因(ribosomeproteinL6):):RPL6,蛋白为,蛋白为RPL62/18/202372最常使用的命名方法:最常使用的命名方法:l用三个小写英文斜体表示基因的名字,加一个斜体大写字用三个小写英文斜体表示基因的名字,加一个斜体大写字母表示不同的基因座。如母表示不同的基因座。如lac操纵子的基因座:操纵子的基因座:lacZ,lacY;其;其表达产物为表达产物为lacZ,lacY。l酵母:一般用三个大写斜体表示基因功能,后面的数字表示酵母:一般用三个大写斜体表示基因功能,后面的数字表示不同的基因座。如啤酒酵母基因不同的基因座。如啤酒酵母基因GAL4,其蛋白为,其蛋白为GAL4。l线虫:三个小写斜体表示突变型,如存在多个基因座,则在线虫:三个小写斜体表示突变型,如存在多个基因座,则在连字符后加数字。如基因连字符后加数字。如基因unc-86,蛋白,蛋白UNC-86。l脊椎动物:小写字母加数字。脊椎动物:小写字母加数字。l人:大写字母加数字。基因人:大写字母加数字。基因MYC,蛋白,蛋白MYC。2/18/202373基因的大小及表示方法基因的大小及表示方法 基因的大小基因的大小外显子大小、数目与基因大小没必然联系;外显子大小、数目与基因大小没必然联系;基因大小主要决定于内含子的长度和数目;基因大小主要决定于内含子的长度和数目;一般地,生物越高等,基因结构越复杂,基因就越大一般地,生物越高等,基因结构越复杂,基因就越大。2/18/202374相对分子质量相对分子质量用分子量来表示,用分子量来表示,4种核苷酸的平均相对分子质量近似为种核苷酸的平均相对分子质量近似为3402/18/202375碱基对数目碱基对数目碱基对(碱基对(base pairs,bp)千碱基对(千碱基对(kilobase pairs,kb)百万碱基对(百万碱基对(megabase pairs,mb)1bp=6801kb=333(个)氨基酸(个)氨基酸 (相对分子量为(相对分子量为120)1kb=4 104 道尔顿道尔顿2/18/202376摩尔单位摩尔单位基因分子数目基因分子数目1mol=1 106=1.47 kb(1106/680)质量单位质量单位提纯冻干的基因或核苷酸称量,用质量单位来表示。提纯冻干的基因或核苷酸称量,用质量单位来表示。微克(微克(ug)纳克(纳克(ng)皮克(皮克(pg)2/18/202377光密度单位光密度单位核酸溶液在紫外波长为核酸溶液在紫外波长为260nm时,表现为最高吸收峰。时,表现为最高吸收峰。根据分子消光度,根据分子消光度,1个光密度单位(个光密度单位(O.D260)的核酸溶)的核酸溶液其质量浓度分别为:液其质量浓度分别为:双链双链DNA 50 mg/L 单链单链DNA 33 mg/L RNA 40 mg/L2/18/202378重叠基因;割裂基因;内含子;外显子;重叠基因;割裂基因;内含子;外显子;假基因;跳跃基因;假基因;跳跃基因;C值矛盾;持家基因值矛盾;持家基因;奢侈基因;选择性剪接;微卫星奢侈基因;选择性剪接;微卫星DNA原核生物和真核生物基因组的特点原核生物和真核生物基因组的特点线粒体基因组的特点线粒体基因组的特点2/18/202379