基因结构和基因组.ppt
《基因结构和基因组.ppt》由会员分享,可在线阅读,更多相关《基因结构和基因组.ppt(85页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一章第一章 基因结构和基因组基因结构和基因组基因结构(重点)基因结构(重点)基因组学基因组学真核生物基因组结构及特点真核生物基因组结构及特点1一、基因结构一、基因结构1.基因概念:基因概念:基因是一段具有特定功能和结构的连基因是一段具有特定功能和结构的连续的续的DNA片断,是编码蛋白质或片断,是编码蛋白质或RNA分子遗传信息的基本遗传单位。分子遗传信息的基本遗传单位。2生物的性状是经由遗传单位传递给下一代,这个概念在1900年由孟德尔(Gregor Mendel)提出,1909年约翰森(Wilhelm Johanssen)将这个遗传单位的概念冠上“gene”的名字,汉文将之翻译成“基因”,日
2、本人则将之翻译成“遗传子”,更为直接。最早的观念中,基因是前述的“遗传单位”(unit of inheritance)。这是一个比较功能性的概念,它是一个自主单位(autonomous unit),能把性状遗传给后代。相对地,有人认为基因是一个有形的物体(physical entity),它是染色体上面一段固定的序列。这两派看法多年来,各执一词,不相上下。31920年代及1930年代早期Alfred H Sturtevant以Hermann Muller在果蝇研究上,发现基因在染色体上的位置改变时,尽管基因结构本身不变,其功能却会变化而造成果蝇性状的突变。实验中,他们将一个基因挪近所谓异染色质
3、区(heterochromatin)时,果蝇会产生所谓杂色(variegated)的表现型,也就是一个基因在某些细胞会表现,却在某些细胞不会表现,而造成“杂色”,例如复眼中有些部分呈现白色,有些部分则呈现红色。由於基因的功能似乎会因应其所在位置而改变,以致有人甚至认为基因根本不是一个固定而具体的单位(particulate gene),然而,在实际上却又不能完全否定基因做为遗传单位的概念。4在最新版的Thompson&Thompson Genetics in Medicine(2001),基因的定义是A sequence of chromosome DNA that is required f
4、or production of a functional product,be it a polypeptide or a functional RNA molecule。因此当代对基因的定义除了被转译的DNA序列本身之外,调控此一转译工作的DNA序列也应包含在内。那麽基因的范畴到底何在?假若基因是一个比较固定而具体的单位(particulate gene)则我们应该可以找出界定基因的区隔(barrier or insulator)。然而学者费尽心力却遍寻不着能够区别个别基因的结构。因此,从学者无法找到能够区隔个别基因的barrier or insulator来看,基因可能是一个相当具有伸缩
5、性的结构。另外一个观察是,一个基因的功能取决於它对某些转录因子(transcriptional factor)的反应,而非本身在染色体上的位置,这个现象是Frank Grosveld在人类-globin locus control region首先观察到。因此基因应该是包含被转录的DNA序列以及转录因子的结合区。这些转录因子的结合区可以延伸几百个Kilobase。最近的研究显示人类的DACH基因,其enhancer甚至在远达1Mb的基因沙漠(gene desert)中。5这个“基因包含转录因子结合区”的概念,使基因变成一个功能性而且可以彼此重叠的概念。意即,一段DNA序列,可以因对转录因子反应
6、的不同,可以有一种以上的基因功能,而一个基因的转录序列,可能是另一个基因的转录调控区。时至今日,基因的定义已经不再是一段具有明显边界的固定DNA序列(particulate gene),而是一个具有伸缩性(flexible)的功能性组合,它的范围是以其(1)空间结构与位置(2)对特定调控因子的反应(3)对最终表现型的效果来决定。根据以上的论述,基因的基本条件有三:1、必须要有产出(product)2、必须要有功能 3、包含转录区及调控区。根据这三个条件,我们如何去从漫长的DNA序列中找出基因呢?以下是五种常用的标准。61、Open reading frames(ORF)ORF是指位于start
7、 codon与stop codon之间的DNA序列。以ORF寻找基因较适用于原核生物或其他intron稀少的生物。当生物的exon被隐藏在大段的intron时,ORF常常不易被找到。2、Sequence features 分布特征 找出ORF之后,利用基因通常GC较AT多的特征,再加以验证。另外找寻splice site(AG、GT)可能也有助于基因的辨识。不过使用这些辨识原则的电脑软件只能预测50的exon和20的基因。3、Sequence conservation 比对不同生物的碱基序列也是辨识基因的利器,理论上,在不同生物均有的序列(conserved sequence)应该有其功能上的
8、重要性,本身是基因的机会较大。利用不同生物来比对基因序列,必须这些生物间有相当的演化距离(evolutionary distance),例如最近人类六号染色体的基因辨识是利用五种其他生物-大鼠、小鼠、河豚、绿色斑点河豚以及斑马鱼来进行比对。当然随着所用生物的不同,比对出来的基因数目也会有所差异。74、Evidence of transcription 藉由寻找基因产物-RNA或蛋白质也有助于基因的辨识,其常用方法有microarray hybridization芯片杂交、serial analysis of gene expression(SAGE)基因表达系列分析,cDNA mapping或
9、sequencing of expressed sequence tag表达序列标签。最近利用transposon转位子来进行大规模的gene tagging,结果从yeast的基因体上找出许多能转录蛋白质的新区段,利用带有标记的cDNA与含有人类染色体序列的microarray杂交,也找出人类染色体上以前未知的许多转录区段,但如果迄今尚未找到gene product就无法运用此法来反推基因。5、Gene inactivation 藉由减消一个gene product的功能也是辨识基因的一个方法。通常可以用Knock out或用RNAi来执行此一工作。不过很多基因的gene product被减
10、消之后往往还是看不到表现型,以致难以确定该基因的功能。这现象的主要原因是生物都有很大的功能重叠性(functional redundancy),此外基因功能检测的方法也会影响其结果。8经典遗传学基因的概念:基因具有下列共性:(1)基因具有染色体的重要特征(即基因位于染色体上),能自我复制,相对稳定,在有私分裂和减数分裂时,有规律地进行分配;(2)基因在染色体上占有一定的位置(即位点),并且是交换的最小单位,即在重组时不能再分割的单位:(3)基因是以一个整体进行突变的,故它是一个突变单位;(4)基因是一个功能单位,它控制正在发育有机体的某一个或某些性状,如白花、红花等。总之,经典遗传学认为基因是
11、一个最小的单位,不能分割,既是结构单位,又是功能单位。分子遗传学关于基因的概念:分子遗传学的发展揭示了遗传密码的秘密,使基因的概念落实到具体的物质上,即基因在DNA分子上,一个基因相当于DNA分子上的一定区段,它携带有特定的遗传信息。这类遗传信息或被转录为RNA,包括信使RNA、转移RNA、核糖体RNA;或者信使RNA被翻译成多肽链。另一方面,在精细的微生物遗传分析中查明,基因并不是不可分割的最小单位,而是远为复杂得多的遗传和变异的单位。9随着现代遗传学的发展,在分子水平上,根据重组、突变和功能将基因分成3个单位(1)突变子:就是指性状突变时产生突变的最小单位。一个突变子可以小到只有一个碱基对
12、;(2)重组子:就是指性状重组时,可交换的最小单位。一个交换子可以只包含一个碱基对;(3)顺反子:表示一个起作用的单位,基本符合通常所述的基因的大小或略小。它包括它包括一段DNA与一个多肽链合成相对应,平均为500-1500个碱基对。1011基因概念的更新和不断发展基因概念的更新和不断发展 重叠基因(重叠基因(overlapping gene):一个基因的核苷酸与另一个基因的核苷酸之间存一个基因的核苷酸与另一个基因的核苷酸之间存 在这一定的重叠现象。在这一定的重叠现象。1977年年,维维纳纳(Weiner)在在研研究究Q0病病毒毒的的基基因因结结构构时时,首首先先发发现现了了基基因因的的重重叠
13、叠现现象象。1978年年,费费尔尔(Feir)和和桑桑戈戈尔尔(Sangor)在在研研究究分分析析X174噬噬菌菌体体的的核核苷苷酸酸序序列列时时,也也发发现现由由5375个个核核苷苷酸酸组组成成的的单单链链DNA所所包包含含的的10个个基基因因中中有有几几个个基基因因具具有有不不同同程程度度的的重重叠叠,但但是是这这些些重重叠叠的的基基因因具具有有不不同同的的读读码码框框架架。以以后后在在噬噬菌菌体体G4、MS2和和SV40中中都都发发现现了了重重叠叠基基因因。基基因因的的重重叠叠性性使使有有限限的的DNA序序列列包包含含了了更更多多的的遗遗传传信信息息,是是生生物物对它的遗传物质经济而合理
14、的利用,参与对基因的调控。对它的遗传物质经济而合理的利用,参与对基因的调控。12暮已赏时花醒归微去力马酒如飞13移动基因(移动基因(movable gene):):又叫转座因子(又叫转座因子(transposable element),可以从染色体的一个位置),可以从染色体的一个位置转移到另一个位置。转移到另一个位置。14断裂基因(断裂基因(split gene):基因的编码序列在基因的编码序列在DNADNA分子上是不连续的,为不编码的序列所隔分子上是不连续的,为不编码的序列所隔开。开。2020世纪世纪7070年代中期,法国生物化学家查姆帮(年代中期,法国生物化学家查姆帮(Chamobon)C
15、hamobon)发现。发现。19771977年被英国的查弗里斯和荷兰的弗兰威尔在研究兔年被英国的查弗里斯和荷兰的弗兰威尔在研究兔-球蛋白结构球蛋白结构时所证实时所证实。假基因(假基因(pseudogene):):是与功能性基因密切相关的是与功能性基因密切相关的DNADNA序列,但是由于缺失、插入和序列,但是由于缺失、插入和无义突变失去阅读框架而不能编码蛋白质产物。无义突变失去阅读框架而不能编码蛋白质产物。19771977年,年,GJacpGJacp在在对非洲爪赡对非洲爪赡5SrRNA5SrRNA基因簇的研究后提出了假基因的概念。基因簇的研究后提出了假基因的概念。1570年代后,基因的概念随着多
16、学科渗透和实验手段日新月异又有突飞猛进的发展,主要有以下几个方面:基因具重叠性。1977年桑格(F.Sanger)领导的研究小组,根据大量研究事实绘制了共含有5375个核苷酸核苷酸的X174噬菌体DNA碱基顺序图,第一次揭示了遗传的一种经济而巧妙的编排B和E基因核苷酸顺序分别与A和D基因的核苷酸顺序的一部分互相重叠。当然它们各有一套读码结构,且基因末端密码也有重叠现象(A基因终止密码子TGA和C基因起始密码子ATG重叠2个核苷酸;D基因的终止密码子TAA与J基因起始密码子ATG互相重叠1个核苷酸,顺序为TAATG)内含子和外显子。人们在研究小鸡卵清蛋白基因时发现其转录形成的mRNA只有该基因长
17、度的1/4,其原因是基因中一些间隔序列的转录物在RNA成熟过程中被切除了。这些间隔序列叫内含子,基因中另一些被转录形成RNA的序列叫外显子。小鸡的卵清蛋白基因中至少含7个内含子。因而从基因转录效果看,基因由外显子和内含子构成。16管家基因和奢侈基因。具有相同遗传信息的同一个体细胞间其所利用的基因并不相同,有的基因活动是维持细胞基本代谢所必须的,而有的基因则在一些分化细胞细胞中活动,这正是细胞分化、生物发育的基础。前者称为管家基因,而后者被称为奢侈基因。基因的游动性。早在20世纪40年代美国遗传学家麦克林托克(B.McClintock)在玉米研究中发现“转座因子”,直至1980年夏皮罗(J.Sh
18、apiro)等人证实了可移位的遗传基因存在,说明某些基因具有游动性。为此,这位“玉米夫人”荣获了1983年度诺贝尔奖。17非编码区非编码区非编码区非编码区编码区编码区上游编码区上游 编码区下游编码区下游 与与RNA聚酶聚酶结合位点结合位点RNA聚合酶能够识别调控序列中的结合位点,并与其结合。转录开始后,RNA聚合酶沿DNA分子移动,并与DNA分子的一条链为模板合成RNA。转录完毕后,RNA链释放出来,紧接着RNA聚合酶也从DNA模板链上脱落下来。2.2.原核生物的基因结构原核生物的基因结构原核生物的基因结构原核生物的基因结构18能够转录为相应的信使RNA,进而指导蛋白质的合成,也就是说能够编码
19、蛋白质的区域。位于编码区上游和编码区下游的DNA序列,虽不能转录为信使RNA,不能编码蛋白质但有调控遗传信息表达的核苷酸序列,如启动子、终止子等。非编码区(调控序列)编码区(编码序列)原核基因的结构原核基因的结构原核基因的结构原核基因的结构19是位于基因是位于基因5 末端上游外测的一段长度为末端上游外测的一段长度为20200bp的非编码核苷酸序列,其功能是与的非编码核苷酸序列,其功能是与RNA聚聚合酶结合形成转录起始复合物。合酶结合形成转录起始复合物。启动子(启动子(promoter)终止子(终止子(terminatorterminator)是位于一个基因或者操纵子的末端,提供转录终是位于一个
20、基因或者操纵子的末端,提供转录终止信号的区段止信号的区段 是指由启动子、结构基因和终止子组成的一段是指由启动子、结构基因和终止子组成的一段DNA序列。序列。转录单元(转录单元(operonoperon)20在原核生物中只有一种在原核生物中只有一种RNARNA聚合酶。聚合酶。所有的原核基因都是在同一种所有的原核基因都是在同一种RNARNA聚合酶的作用下进行转录的。聚合酶的作用下进行转录的。操纵子(操纵子(operator)功能上相关的几个结构基因前后相连,利用功能上相关的几个结构基因前后相连,利用一个共同的启动子和终止子,这种转录单元一个共同的启动子和终止子,这种转录单元被称为操纵子。被称为操纵
21、子。通常是先被转录成一条大的通常是先被转录成一条大的mRNAmRNA,再由同一,再由同一条条mRNAmRNA翻译出几个结构蛋白。翻译出几个结构蛋白。21225 3-35TTGAC-10TATAAT结构基因结构基因2.原核生物的基因结构原核生物的基因结构 Pribnow盒;细菌转录单位起点上游约10bp处的保守区域,它可 能参与结合RNA聚合酶;共有序列=TATAAT细菌转录单位起点上游约35bp处的保守六聚体;共有序列=TTGAC 或TGTTGACA ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件。23RNARNA转录起始转录起始-35-35区区-10-10区
22、区TTGACATTGACATTAACTTTAACTTTTACATTTACATATGATTATGATTTTACATTTACATATGTTTATGTTTTGATATTGATATATAATTATAATCTGACGCTGACGTACTGTTACTGTN N1717N N1616N N1717N N1616N N1616N N7 7N N7 7N N6 6N N7 7N N6 6A AA AA AA AA Atrptrp tRNA tRNATyrTyrlaclacrecrecA AAra Ara BADBAD TTGACA TTGACA TATAAT TATAAT共有序列共有序列24对于任何给定的核酸序
23、列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行解释。例如,序列ATTCGATCGCAA这三种阅读顺序称为阅读框(readingframes)CAA A ATTCGATCGATTCGATCGCAAATTCGATCGCA(1)(3)(2)25一个开放阅读框(一个开放阅读框(ORF,open reading frame)是一个没有终止编码的密码子序)是一个没有终止编码的密码子序列。列。原核基因识别任务的重点是识别开放阅读原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。框,或者说识别长的编码区域。263.真核生物的基因结构真核生物的基因结构Pol:转录:转录rR
24、NArRNA(5S rRNA5S rRNA除外)除外)Pol:转录蛋白质编码基因:转录蛋白质编码基因Pol:转录编码众多小:转录编码众多小rRNArRNA(包括(包括tRNAtRNA和和 5S rRNA 5S rRNA)的基因。)的基因。与原核生物基因的主要区别与原核生物基因的主要区别内含子(内含子(intron)()(非编码序列)非编码序列)在基因表达过程中,内含子被从初级mRNA分子剪切掉,形成成熟的功能功能mRNA真核生物中有三种不同的真核生物中有三种不同的RNA聚合酶聚合酶27编码区非编码区非编码区非编码区非编码区与与RNA聚酶聚酶结合位点结合位点内含子内含子 外显子外显子 编码区上游
25、编码区上游 编码区下游编码区下游 真核基因的结构真核基因的结构真核基因的结构真核基因的结构283、真核生物基因结构、真核生物基因结构真核生物的结构基因的真核生物的结构基因的DNA序列由编码序列和非编序列由编码序列和非编码序列两部分组成,编码序列是不连续的,被非编码序码序列两部分组成,编码序列是不连续的,被非编码序列分割开来,称为断裂基因(列分割开来,称为断裂基因(split gene)。)。1)、外显子和内含子外显子和内含子2)、侧翼序列与调控序列)、侧翼序列与调控序列启动子启动子增强子增强子终止子终止子 29上游上游增强子增强子-80CAAT-35TATA下游下游增强子增强子外显子外显子内含
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因 结构 基因组
限制150内