基因结构以及基因组学植物基因工程.ppt
关于基因结构及基因组学植物基因工程第一张,PPT共八十五页,创作于2022年6月2第一节第一节 基因结构与功能基因结构与功能第二张,PPT共八十五页,创作于2022年6月什么是基因?什么是基因?孟德尔在孟德尔在1866年发表的年发表的植物杂交的试验植物杂交的试验一文中提出了一文中提出了“遗传因遗传因子子”的概念。的概念。1909年,丹麦人约翰逊将孟德尔文章中的遗传因子称为基因,于是,年,丹麦人约翰逊将孟德尔文章中的遗传因子称为基因,于是,基因的概念便成了遗传学中的一个基本概念。基因的概念便成了遗传学中的一个基本概念。1910年,美国人摩尔根发表了关于果蝇性连锁遗传的论文,将一年,美国人摩尔根发表了关于果蝇性连锁遗传的论文,将一个基因和一个具体的染色体的行为联系起来。个基因和一个具体的染色体的行为联系起来。DNA是遗传物质。是遗传物质。DNA碱基的突变导致表型的改变。碱基的突变导致表型的改变。基因的本质就是DNA第三张,PPT共八十五页,创作于2022年6月基因的概念基因的概念基因(遗传因子)是遗传的基本单元,是基因(遗传因子)是遗传的基本单元,是DNA或或RNA分子上具有遗传信息分子上具有遗传信息的特定核苷酸序列。基因通过复制把遗传信息传递给下一代,使后代出现与的特定核苷酸序列。基因通过复制把遗传信息传递给下一代,使后代出现与亲代相似的性状。基因储存着生命孕育、生长、凋亡过程的全部信息,通过亲代相似的性状。基因储存着生命孕育、生长、凋亡过程的全部信息,通过复制、转录、表达,完成生命繁衍、细胞分裂和蛋白质合成等重要生理过程。复制、转录、表达,完成生命繁衍、细胞分裂和蛋白质合成等重要生理过程。生物体的生、长、病、老、死等一切生命现象都与基因有关。它也是决定生生物体的生、长、病、老、死等一切生命现象都与基因有关。它也是决定生命健康的内在因素。因此,基因具有双重属性:物质性(存在方式)和信息命健康的内在因素。因此,基因具有双重属性:物质性(存在方式)和信息性(根本属性)。性(根本属性)。第四张,PPT共八十五页,创作于2022年6月基因的概念基因的概念(1)基因是原核、真核生物以及病毒的)基因是原核、真核生物以及病毒的DNA和和RNA分子中具有遗传效应分子中具有遗传效应的核苷酸序列,是遗传的基本单位。的核苷酸序列,是遗传的基本单位。(2)基因是)基因是DNA分子中含有特定遗传信息的一段核苷酸序列,是分子中含有特定遗传信息的一段核苷酸序列,是遗传物质的最小功能单位。遗传物质的最小功能单位。(3)对于编码蛋白质的结构基因来说,基因是决定一条多肽链的)对于编码蛋白质的结构基因来说,基因是决定一条多肽链的DNA片片段。段。第五张,PPT共八十五页,创作于2022年6月根据是否具有转录和翻译功能可以分为三类根据是否具有转录和翻译功能可以分为三类第一类是第一类是编码蛋白质的基因编码蛋白质的基因,它具有转录和翻译功能,包,它具有转录和翻译功能,包括编码酶和结构蛋白的结构基因以及编码阻遏蛋白的调节括编码酶和结构蛋白的结构基因以及编码阻遏蛋白的调节基因基因第二类是第二类是只有转录功能而没有翻译功能的基因只有转录功能而没有翻译功能的基因,包括,包括tRNA基因和基因和rRNA基因基因第三类是第三类是不转录的基因不转录的基因,它对基因表达起调节控制作用,它对基因表达起调节控制作用,包括启动基因和操纵基因包括启动基因和操纵基因第六张,PPT共八十五页,创作于2022年6月原核细胞真核细胞第七张,PPT共八十五页,创作于2022年6月原核生物无细胞核,染色体散在细胞质的核区中。原核生物无细胞核,染色体散在细胞质的核区中。一般只有一个染色体,即一个一般只有一个染色体,即一个DNADNA或或RNARNA分子,分子,Gene Gene 是连续的。是连续的。大多数是双链环状,少数为单链、线状;大多数是双链环状,少数为单链、线状;如:大肠杆菌,双链环状如:大肠杆菌,双链环状DNADNA分子,分子,3000400030004000个个 基因,基因,4.2x104.2x106 6 bp,bp,已经定位已经定位900900多个基因多个基因(一)原核与真核生物基因比较第八张,PPT共八十五页,创作于2022年6月真核生物有细胞核,染色体存在于细胞核中。真核生物有细胞核,染色体存在于细胞核中。GeneGene结构复杂,断裂基因,结构复杂,断裂基因,3 34 4万个万个GeneGene;GeneGene大小差别很大。大小差别很大。珠蛋白珠蛋白 基因(基因(1700bp1700bp)=3=3个外显子个外显子+2+2个内含子。个内含子。DMDDMD基因(基因(2300kb2300kb)7979个外显子个外显子 ,7878个个内含子。内含子。(迄今认识的最大的基因)(迄今认识的最大的基因)第九张,PPT共八十五页,创作于2022年6月101 1、外显子和内含子、外显子和内含子在结构基因中,编码序列称为在结构基因中,编码序列称为外显子外显子(exon),表达多肽链部分。非编码,表达多肽链部分。非编码序列称为序列称为内含子内含子(Intron),又称插入序列。,又称插入序列。珠蛋白珠蛋白 基因(基因(1700bp)=3个外显子个外显子+2个内含子。个内含子。DMD基因(基因(2300kb)=79个外显子个外显子+78 个内含子。(迄今认识的最大的基个内含子。(迄今认识的最大的基因)因)真核生物内含子和外显子真核生物内含子和外显子 不是完全固定不变的,有时同一不是完全固定不变的,有时同一DNA 链上的某一链上的某一段段DNA序列,当它作为编码某一多肽链的基因时是外显子,而作为编序列,当它作为编码某一多肽链的基因时是外显子,而作为编码另一多肽链时,则是内含子。这样,同一基因却可以转录两种或两码另一多肽链时,则是内含子。这样,同一基因却可以转录两种或两种以上的种以上的mRNA。真核生物某些结构真核生物某些结构Gene没有内含子,如组蛋白没有内含子,如组蛋白Gene,干扰素,干扰素Gene等。等。它们多以基因簇形式存在,大多数的酵母结构它们多以基因簇形式存在,大多数的酵母结构Gene也没有内含子。也没有内含子。第十张,PPT共八十五页,创作于2022年6月11hnRNA:heterogeneous RNA第十一张,PPT共八十五页,创作于2022年6月12 5GT 5GTAG3AG3法则法则 在每个外显子和内含子的接头区都是一段高在每个外显子和内含子的接头区都是一段高度保守的共有序列,内含子的度保守的共有序列,内含子的5端是端是GT,3端是端是AG,这种接头方式称为,这种接头方式称为GT-AG法则法则,普遍存在于真核,普遍存在于真核生物中,是生物中,是RNA剪接的识别信号,转录后的前体剪接的识别信号,转录后的前体RAN中的内含子剪接位点。中的内含子剪接位点。第十二张,PPT共八十五页,创作于2022年6月13第十三张,PPT共八十五页,创作于2022年6月142 2、侧翼序列与调控序列、侧翼序列与调控序列 每个结构基因的第一个和最后一个外显子的外侧,都有一段不被转录的非编码区,称为侧翼序列(Flanking sequence)。它是基因的调控序列,对基因的有效表达起调控作用,包括:启动子、增强子、终止子等。第十四张,PPT共八十五页,创作于2022年6月152.1 2.1 启动子启动子 启动子(Promoter)是一段特定的核苷酸序列,位于Gene转录起始点上游的100bp 范围内,是RNA聚合酶的结合部位,能促进转录过程。Promoter决定DNA中的转录链。TATA框(TATA Box)是一段高度保守序列(TATAA),位于转录起始点上游-25-30 bp(原核生物-10区)。TATA框与转录因子TFII结合,再与RNA 聚合酶II形成复合物,从而准确地识别转录起始位置,对转录水平有定量效应。第十五张,PPT共八十五页,创作于2022年6月16CAAT框(CAAT Box):是一段保守序列(CCAAT),位于转录起始点上游-70-80bp(原核生物-35区),转录因子CTF识别位点并与之结合,激活转录。GC框(GC Box):顺序为GGCGGG,有两个拷贝,位于CAAT Box两侧,与转录因子SP1结合。(SP1有锌指区可以与DNA结合,在N端有激活转录的作用)GC框有激活转录的功能。第十六张,PPT共八十五页,创作于2022年6月17第十七张,PPT共八十五页,创作于2022年6月18第十八张,PPT共八十五页,创作于2022年6月192.2 2.2 增强子增强子增强子(增强子(Enhancer)能强化转录起始的一段能强化转录起始的一段DNA序列。序列。1981年年Benerji在在SV40噬菌体噬菌体DNA中发现一个中发现一个140bp的序列,它能大的序列,它能大大提高大提高SV40DNA/兔兔血红蛋白融合基因的表达水平,这是发血红蛋白融合基因的表达水平,这是发现的第一个增强子。它位于现的第一个增强子。它位于SV40早期基因的上游,由两个正向早期基因的上游,由两个正向重复序列组成,每个长重复序列组成,每个长72 bp。目前发现的增强子多半是重复序列,。目前发现的增强子多半是重复序列,一般长一般长50bp,通常有一个,通常有一个812bp组成的组成的“核心核心”序列,如序列,如SV40增增强子的核心序列是强子的核心序列是5GGTGTGGAAAG3。第十九张,PPT共八十五页,创作于2022年6月20特点:特点:在任意位置都有效在任意位置都有效增强子提高同一条增强子提高同一条DNA链上基因转录效率,链上基因转录效率,可以远距离作用,通常可距离可以远距离作用,通常可距离14kb、个别情况下离开所调控的基、个别情况下离开所调控的基因因30kb仍能发挥作用,而且在基因的上游或下游都能起作用。仍能发挥作用,而且在基因的上游或下游都能起作用。无方向性无方向性增强子作用与其序列的正反方向无关,将增强子方增强子作用与其序列的正反方向无关,将增强子方向倒置依然能起作用。而将启动子倒就不能起作用,可见增强子向倒置依然能起作用。而将启动子倒就不能起作用,可见增强子与启动子是很不相同的。与启动子是很不相同的。有组织特异性有组织特异性例如:例如:Beta珠蛋白珠蛋白Gene增强子是由串联重复的增强子是由串联重复的两个两个72bp长的相同序列组成,位于转录起点上游长的相同序列组成,位于转录起点上游-1400bp或下游或下游3300bp处,均可增强转录效率(活性)处,均可增强转录效率(活性)200倍。增强子在转录倍。增强子在转录起始点的上下游一定范围内增强转录效率。作用可以是起始点的上下游一定范围内增强转录效率。作用可以是53,也可以是,也可以是35方向。方向。第二十张,PPT共八十五页,创作于2022年6月212.3 2.3 终止子终止子终止子(终止子(Terminator)由一段回文序列由一段回文序列以及特定的序列(以及特定的序列(PolyA)5-AATAAA-3组成。组成。回文序列为转录终止号。回文序列为转录终止号。PolyA为附加为附加信号。终止子为反向重复序列,是信号。终止子为反向重复序列,是RNA聚聚合酶停止工作的信号,反向重复序合酶停止工作的信号,反向重复序列转录后,可以形成发夹式结构,列转录后,可以形成发夹式结构,并且形成一串并且形成一串U。发夹式结构阻碍了。发夹式结构阻碍了RNA聚合酶的移动。一串聚合酶的移动。一串U的的U与与DNA模板模板中的中的A的结合不稳定,从模板上脱落的结合不稳定,从模板上脱落下来,终止转录。下来,终止转录。第二十一张,PPT共八十五页,创作于2022年6月22调控序列(调控序列(Regulator SequenceRegulator Sequence)包括启动子,增强子和包括启动子,增强子和终止子均属于基因的顺式调控因子(终止子均属于基因的顺式调控因子(顺式作用元件顺式作用元件),是人),是人类类GeneGene组中的一些特殊序列,起调控基因表达的作用。组中的一些特殊序列,起调控基因表达的作用。反式作用因子:反式作用因子:是指能直接或间接地识别或结合在各类顺是指能直接或间接地识别或结合在各类顺式作用元件核心序列上参与调控靶基因转录效率的蛋白质,式作用元件核心序列上参与调控靶基因转录效率的蛋白质,如如TFIITFII、CTFCTF、SP1SP1等。等。2.4 2.4 顺式作用原件和反式作用因子因子顺式作用原件和反式作用因子因子第二十二张,PPT共八十五页,创作于2022年6月第二节第二节 基因组基因组第二十三张,PPT共八十五页,创作于2022年6月基因组中不同的区域具有不同的功能基因组中不同的区域具有不同的功能有些区域编码蛋白质的结构基因有些区域编码蛋白质的结构基因有些区域是复制及转录的调控信号有些区域是复制及转录的调控信号有些区域的功能尚不清楚有些区域的功能尚不清楚基因组(基因组(genome):单倍体细胞中包括编码序列和非):单倍体细胞中包括编码序列和非编码序列在内的全部编码序列在内的全部DNA分子。分子。第二十四张,PPT共八十五页,创作于2022年6月Winkler在在1920年首次提出基因组(年首次提出基因组(genome)一词,意为)一词,意为gene与与chromosome的组合。目前在不同的学科中,对的组合。目前在不同的学科中,对基因组含义的表述有所不同,概括为如下:基因组含义的表述有所不同,概括为如下:从细胞遗传学的角度来看从细胞遗传学的角度来看,基因组是指一个生物物种单倍,基因组是指一个生物物种单倍体的所有染色体数目的总和;体的所有染色体数目的总和;从经典遗传学的角度来看从经典遗传学的角度来看,基因组是一个生物物种的所有基,基因组是一个生物物种的所有基因的总和;因的总和;从分子遗传学的角度来看从分子遗传学的角度来看,基因组是一个生物物种所有的不,基因组是一个生物物种所有的不同核酸分子的总和;同核酸分子的总和;从现代生物学的角度来看从现代生物学的角度来看,基因组是指导一个生物物种的,基因组是指导一个生物物种的结构和功能的所有遗传信息的总和,包括全部的基因和调控结构和功能的所有遗传信息的总和,包括全部的基因和调控元件等核酸分子。元件等核酸分子。第二十五张,PPT共八十五页,创作于2022年6月1.基因组较小,通常只有一个环形或线形的基因组较小,通常只有一个环形或线形的DNA分子;分子;2.通常只有一个通常只有一个DNA复制起点;复制起点;3.非编码区主要是调控序列;非编码区主要是调控序列;4.基因密度非常高,基因组中编码区大于非编码区;基因密度非常高,基因组中编码区大于非编码区;5.结构基因没有内含子,多为结构基因没有内含子,多为 单拷贝,结构基因无重叠现象;单拷贝,结构基因无重叠现象;6.重复序列很少,重复片段为重复序列很少,重复片段为 转座子;转座子;7.基因组的大部分序列是用来编码蛋白质的,基因之间的间隔序列很短;基因组的大部分序列是用来编码蛋白质的,基因之间的间隔序列很短;8.功能相关的序列常串连在一起,由共同的调控元件调控,并转录成同一功能相关的序列常串连在一起,由共同的调控元件调控,并转录成同一mRNA分分子,可指导多种蛋白质的合成,这种结构称操纵子。子,可指导多种蛋白质的合成,这种结构称操纵子。原核生物基因组特点第二十六张,PPT共八十五页,创作于2022年6月1.基因组较大。真核生物的基因组由多条线形的染色体构成,每条染色体有一基因组较大。真核生物的基因组由多条线形的染色体构成,每条染色体有一个线形的个线形的DNA分子,每个分子,每个DNA分子有多个复制起点;分子有多个复制起点;2.不存在操纵子结构。真核生物的同一个基因簇的基因,不会像原核生物的操纵子结构不存在操纵子结构。真核生物的同一个基因簇的基因,不会像原核生物的操纵子结构那样,转录到同一个那样,转录到同一个mRNA上;上;3.存在大量的重复序列。真核生物的基因组里存在大量重复序列,通过其重复存在大量的重复序列。真核生物的基因组里存在大量重复序列,通过其重复程度可将其分成高度重复序列、中度重复序列、低度重复序列和单一序列;程度可将其分成高度重复序列、中度重复序列、低度重复序列和单一序列;4.有断裂基因。大多数真核生物为蛋白质编码的基因都含有有断裂基因。大多数真核生物为蛋白质编码的基因都含有“居间序列居间序列”,即不为,即不为多肽编码,其转录产物在多肽编码,其转录产物在mRNA前体的加工过程中被切除的成分;前体的加工过程中被切除的成分;5.真核生物基因转录产物为单顺反子;真核生物基因转录产物为单顺反子;6.功能相关基因构成各种基因家族。功能相关基因构成各种基因家族。真核生物基因组特点第二十七张,PPT共八十五页,创作于2022年6月核基因组核基因组是单倍体细胞核内的全部是单倍体细胞核内的全部 DNA分子;分子;线粒体基因组线粒体基因组线粒体所包含的全部线粒体所包含的全部DNA分子(双链环状,少分子(双链环状,少数线状);数线状);叶绿体基因组叶绿体基因组则是一个叶绿体所包含的全部则是一个叶绿体所包含的全部DNA分子(双链环分子(双链环状)。状)。植物基因组第二十八张,PPT共八十五页,创作于2022年6月(1)C值矛盾值矛盾C值通常指一种生物单倍体基因组值通常指一种生物单倍体基因组DNA的总量。的总量。The total amount of DNA in the genome of haploid is a characteristic of each living species known as its Maximum C value (单倍体基因组总单倍体基因组总DNA 的含量的含量)最大最大C值值(Maximum C value)The total amount of DNA for encoding the genes information is termed its Minimum c value(编码基因(编码基因信息的总信息的总DNA含量)含量)最小最小C值值 (Minimum c value)第二十九张,PPT共八十五页,创作于2022年6月霉菌藻类藻类G+细菌细菌G-细菌细菌显花植物显花植物鸟类鸟类哺乳类哺乳类爬行类爬行类两栖类两栖类硬骨鱼类硬骨鱼类软骨鱼类软骨鱼类棘皮类棘皮类甲壳类甲壳类昆虫类昆虫类软体动物软体动物蠕虫类蠕虫类真菌真菌支原体支原体A 生物体进化程度与大生物体进化程度与大 C值不成明显正相关值不成明显正相关 B 亲缘关系相近的生物亲缘关系相近的生物 间大间大C值相差较大值相差较大 C 一种生物内大一种生物内大C值与值与 小小c值相差极大值相差极大 (人体(人体 c=C/10)第三十张,PPT共八十五页,创作于2022年6月,内含子、启动子,内含子、启动子第三十一张,PPT共八十五页,创作于2022年6月遗传图谱遗传图谱:以遗传学距离(:以遗传学距离(cM,即每次减数分裂的重组频,即每次减数分裂的重组频率为率为1%)为图距的基因组图。)为图距的基因组图。(2)基因组的四大图谱)基因组的四大图谱物理图谱:物理图谱:物理图谱描绘物理图谱描绘DNA上可以识别的标记的位置和上可以识别的标记的位置和相互之间的距离(以碱基对的数目为衡量单位)。相互之间的距离(以碱基对的数目为衡量单位)。序列图谱序列图谱:通过测序得到基因组的序列图谱:通过测序得到基因组的序列图谱 转录图谱:转录图谱:是在识别基因组所包含的蛋白质编码序列的是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。息的图谱。第三十二张,PPT共八十五页,创作于2022年6月第三十三张,PPT共八十五页,创作于2022年6月34球形芽孢杆菌C3-41菌株第三十四张,PPT共八十五页,创作于2022年6月(3)线粒体基因组和叶绿体基因组)线粒体基因组和叶绿体基因组大多数细胞器大多数细胞器DNA是闭合环状的。是闭合环状的。1)线粒体的基因组线粒体的基因组(mtDNA)脯乳动物的脯乳动物的mtDNA为为16.5Kb2)叶绿体的基因组)叶绿体的基因组(cpDNA)植物特有,大约植物特有,大约121-155Kb第三十五张,PPT共八十五页,创作于2022年6月(4)基因家族)基因家族1)基因家族(基因家族(gene family):真核生物基因组中来源相同,结构和功能相关:真核生物基因组中来源相同,结构和功能相关的基因聚集在一起形成基因家族。的基因聚集在一起形成基因家族。根据分布形式分根据分布形式分基因簇和散布的基因家族:基因簇和散布的基因家族:基因簇(基因簇(gene cluster)基因家族的各个成员基因家族的各个成员紧密成簇排列紧密成簇排列成大段的成大段的串联重复串联重复单位,分布在某一条染色体单位,分布在某一条染色体的特殊区域;的特殊区域;它们可同时发挥作用,合成某些蛋白质。它们可同时发挥作用,合成某些蛋白质。如如 组蛋白基因家族聚集在第组蛋白基因家族聚集在第7号染色体长臂号染色体长臂3区内。区内。组蛋白基因家族组蛋白基因家族第三十六张,PPT共八十五页,创作于2022年6月第三节第三节 基因结构预测与功基因结构预测与功能注释能注释第三十七张,PPT共八十五页,创作于2022年6月基因组序列基因组序列基因组序列基因组序列cDNAcDNA序列序列序列序列编码区预测编码区预测Codon biasGC Content限制性酶切位点限制性酶切位点基因结构分析基因结构分析选择性剪切选择性剪切转录调控因子转录调控因子序列比对序列比对功能注释功能注释KEGGGO系统发育树系统发育树蛋白质序列蛋白质序列翻译翻译蛋白质理化性质蛋白质理化性质二级结构预测二级结构预测结构域分析结构域分析重要信号位点分析重要信号位点分析三级结构预测三级结构预测(1)基因组功能分析)基因组功能分析第三十八张,PPT共八十五页,创作于2022年6月(2)植物基因的主要结构特征)植物基因的主要结构特征第三十九张,PPT共八十五页,创作于2022年6月40基因结构基因结构分析分析常用软件常用软件开放读码框开放读码框GENSCANGENOMESCANCpG岛岛CpGPlot启动子启动子/转录起始位转录起始位点点PromoterScan转录终止信号转录终止信号POLYAH密码子偏好分析密码子偏好分析CodonWmRNA剪切位点剪切位点NETGENE2Spidey选择性剪切选择性剪切ASTD(3)基因结构分析)基因结构分析第四十张,PPT共八十五页,创作于2022年6月1 1、开放阅读框的识别、开放阅读框的识别开放阅读框开放阅读框(open reading frame,ORF)open reading frame,ORF)是一段起始密码子和终止密码子之间的碱基序列是一段起始密码子和终止密码子之间的碱基序列ORF ORF 是潜在的蛋白质编码区是潜在的蛋白质编码区第四十一张,PPT共八十五页,创作于2022年6月42基因开放阅读框基因开放阅读框/基因结构分析识别工具基因结构分析识别工具ORF Finder http:/www.ncbi.nlm.nih.gov/gorf/gorf.html NCBI通用通用BestORFhttp:/ Finderhttp:/rulai.cshl.org/tools/genefinder/Zhang lab人、小鼠、拟南芥、酵母人、小鼠、拟南芥、酵母FGENESHhttp:/ Maryland原核原核Fgeneshttp:/ http:/compbio.ornl.gov/generation/ORNL原核原核FGENESBhttp:/ http:/genes.mit.edu/genomescan.html MIT脊椎、拟南芥、玉米脊椎、拟南芥、玉米GeneWise2http:/www.ebi.ac.uk/Wise2/EBI人人GRAILhttp:/grail.lsd.ornl.gov/grailexp/ORNL人、小鼠、拟南芥、果蝇人、小鼠、拟南芥、果蝇第四十二张,PPT共八十五页,创作于2022年6月43ORFORF识别识别:GENSCANGENSCANhttp:/genes.mit.edu/GENSCAN.htmlhttp:/genes.mit.edu/GENSCAN.html结果返回到邮箱(可选)结果返回到邮箱(可选)提交序列提交序列提交序列文件提交序列文件运行运行GENSCAN显示氨基酸或显示氨基酸或CDS序列序列序列名称(可选)序列名称(可选)是否显示非最优外显子是否显示非最优外显子选择物种类型选择物种类型第四十三张,PPT共八十五页,创作于2022年6月2、转录调控序列分析、转录调控序列分析CpG岛岛、启动子启动子和转录终止信号转录终止信号区域的预测第四十四张,PPT共八十五页,创作于2022年6月CpG岛的预测CpGCpG岛岛常位于真核生物基因转录起始位点,常位于真核生物基因转录起始位点,GCGC含量含量50%50%,长度,长度200bp200bp的一段的一段DNADNA序列。序列。第四十五张,PPT共八十五页,创作于2022年6月46CpG Island 分析常用软件分析常用软件CpG Island http:/ finderhttp:/ start site,TSS)PYCAPY(嘧啶)核心启动子元件(Core promoter element)TATA box,Pribnow box(TATAA)上游启动子元件(Upstream promoter element,UPE)CAAT box,GC box,SP1,Otc增强子(Enhancer)PyCAPyTATAATGC区 CAAT区mRNA14025110增强子增强子上游启动子元件,上游启动子元件,UPE核心启动子元件核心启动子元件转录起始位点转录起始位点第四十八张,PPT共八十五页,创作于2022年6月PromoterScanhttp:/www-bimas.cit.nih.gov/molbio/proscan/WebPromoserhttp:/biowulf.bu.edu/zlab/PromoSer/WebNeural Network Promoter Predictionhttp:/www.fruitfly.org/seq_tools/promoter.htmlWebSoftberry:BPROM,TSSP,TSSG,TSSWhttp:/ 启动子结合位点分析常用软件启动子结合位点分析常用软件第四十九张,PPT共八十五页,创作于2022年6月启动子预测:PromoterScanhttp:/www-bimas.cit.nih.gov/molbio/proscan/提交序列提交序列第五十张,PPT共八十五页,创作于2022年6月PromoterScan输出结果找到的TATA box和转录起始位点预测可能的转录因子预测可能的转录因子转录因子在提交序列中的位置转录因子在提交序列中的位置第五十一张,PPT共八十五页,创作于2022年6月转录终止信号转录终止信号上游作用元件:AAUAAA下游作用元件:GC rich二重对称区、UUUUUUAAUAAACAAAAAAAAAAAAA成熟mRNA53AAUAAACAGUmRNA前体53第五十二张,PPT共八十五页,创作于2022年6月转录终止信号预测:POLYAHhttp:/ 提交序列文件提交序列文件提交序列提交序列第五十三张,PPT共八十五页,创作于2022年6月polyA位置POLYAH输出结果第五十四张,PPT共八十五页,创作于2022年6月基因密码子偏好性基因密码子偏好性第五十五张,PPT共八十五页,创作于2022年6月561.研究研究蛋白质结构功蛋白质结构功能能中的作用中的作用2.在在表达外源基因表达外源基因方面的作用方面的作用3.在在生物信息学生物信息学研研究中的作用究中的作用第五十六张,PPT共八十五页,创作于2022年6月基因密码子偏好性基因密码子偏好性:CodonW粘帖目的序列粘帖目的序列密码子表的选择密码子表的选择如需计算如需计算FOP/CBIFOP/CBI选择相应物种选择相应物种如需计算如需计算CAICAI选择选择相应物种相应物种http:/mobyle.pasteur.fr/cgi-bin/portal.py?form=codonw第五十七张,PPT共八十五页,创作于2022年6月参 数 选 择计算所有指数计算所有指数计算有效密码子数计算有效密码子数计算计算GCGC含量含量计算计算GC3sGC3s含量含量计算同义密码子数量计算同义密码子数量计算同义密码子计算同义密码子第三位碱基组成第三位碱基组成密码子总数密码子总数第五十八张,PPT共八十五页,创作于2022年6月59密码子使用频率密码子使用频率CodonW结果界面第五十九张,PPT共八十五页,创作于2022年6月内含子内含子/外显子剪接位点识别外显子剪接位点识别如何分析核酸序列中的外显子组成?通过对特征序列(GT-AG)的分析进行直接的预测基因预测软件(NetGene2)与相应的基因组序列比对,分析比对片段的分布位置(Spidey)第六十张,PPT共八十五页,创作于2022年6月http:/http:/www.cbs.dtu.dk/services/NetGene2www.cbs.dtu.dk/services/NetGene2/提交序列提交序列选择物种选择物种内含子内含子/外显子剪接位点识别:外显子剪接位点识别:NetGene2第六十一张,PPT共八十五页,创作于2022年6月NetGene2NetGene2输出结果输出结果供体位点供体位点受体位点受体位点可信度可信度 相位相位第六十二张,PPT共八十五页,创作于2022年6月mRNAmRNA剪接位点识别:剪接位点识别:SpideySpideyNCBI开发的在线匹配程序用于mRNA序列同基因组序列比对分析 http:/www.ncbi.nih.gov/spidey第六十三张,PPT共八十五页,创作于2022年6月Spidey同源序列的获得同源序列的获得:序列比对序列比对通过BLAST进行序列比对,找到可能同源的相似性好的一系列mRNA序列。BLAST比对到的三条mRNA序列第六十四张,PPT共八十五页,创作于2022年6月输入基因组序列或序列数据库号输入基因组序列或序列数据库号输入相似性序列输入相似性序列判断用于分析的序列间的判断用于分析的序列间的差异,并调整比对参数差异,并调整比对参数不受默认内含子长度限制。不受默认内含子长度限制。默认长度:内部内含子为默认长度:内部内含子为35kb,35kb,末端内含子为末端内含子为100kb100kb比对阈值比对阈值选择物种选择物种输出格式选择输出格式选择第六十五张,PPT共八十五页,创作于2022年6月66SpideySpidey输出结果第一条蓝色序列第一条蓝色序列为基因组序列,为基因组序列,橘黄色为外显子橘黄色为外显子外显子对应于外显子对应于基因组上的基因组上的起始起始/结束位置结束位置外显子对应于外显子对应于mRNA/cDNAmRNA/cDNA上的上的起始起始/结束位置结束位置供体、受体位点供体、受体位点外显子外显子长度长度一致性一致性百分比百分比错配和错配和gapgap外显子外显子序号序号序列联配结果序列联配结果第六十六张,PPT共八十五页,创作于2022年6月可能的选择性剪切体GENSCAN与Spidey结果比较第六十七张,PPT共八十五页,创作于2022年6月可变剪接可变剪接(Alternative splicingAlternative splicing)分析分析可变剪接是调控基因表达的重要机制可变剪接是调控基因表达的重要机制了解不同物种、细胞、发育阶段、环境压力下基因的调控表达机制了解不同物种、细胞、发育阶段、环境压力下基因的调控表达机制第六十八张,PPT共八十五页,创作于2022年6月可可变变剪剪接接的的类类型型第六十九张,PPT共八十五页,创作于2022年6月70查询可变剪接相关的网站查询可变剪接相关的网站http:/www.ebi.ac.uk/astd/main.html 综合综合http:/splicenest.molgen.mpg.de/综合综合http:/rulai.cshl.edu/new_alt_exon_db2/综合综合http:/prosplicer.mbc.nctu.edu.tw/http:/www.bit.uq.edu.au/altExtron人人http:/www.cse.ucsc.edu/kent/intronerator/altsplice.html线虫线虫http:/www.tigr.org/tdb/e2k1/ath1/altsplicing/splicing_variations.shtml拟南芥拟南芥从已知基因的功能推测剪接机制从已知基因的功能推测剪接机制第七十张,PPT共八十五页,创作于2022年6月选择性剪接查询:选择性剪接查询:ASTDASTD数据库数据库http:/www.ebi.ac.uk/astd/main.html 输入基因名称输入基因名称选择物种类型选择物种类型第七十一张,PPT共八十五页,创作于2022年6月ASTDASTD数据库检索结果:基因描述信息 导出序列文件导出序列文件第七十二张,PPT共八十五页,创作于2022年6月73ASTDASTD数据库检索结果:可变剪接的mRNA十十一一种种选选择择性性剪剪切切产产物物第七十三张,PPT共八十五页,创作于2022年6月74ASTDASTD数据库检索结果:表达的组织特异性在不同组织中各在不同组织中各种选择性剪接体种选择性剪接体的表达差异的表达差异十一种不同的选十一种不同的选择性剪接产物择性剪接产物第七十四张,PPT共八十五页,创作于2022年6月第四节第四节 基因表达调控基因表达调控第七十五张,PPT共八十五页,创作于2022年6月一、原核生物和真核生物享有共同的一、原核生物和真核生物享有共同的基因表达调控基本规律基因表达调控基本规律 (一)基因表达具有时空特异性(二)诱导表达和阻遏表达是基因表达调控的普遍方式(三)DNA/蛋白质的相互作用是基因表达调控的分子基础 第七十六张,PPT共八十五页,创作于2022年6月DNA/DNA/蛋白质的相互作用蛋白质的相互作用 DNADNA双螺旋结构形成的大沟和小沟,特别是双螺旋结构形成的大沟和小沟,特别是大沟大沟,是调节蛋白,是调节蛋白与特定的与特定的DNADNA序列相互作用的结构基础。序列相互作用的结构基础。调节蛋白调节蛋白通常具有特殊的通常具有特殊的结构域结构域或或模序模序结构,通过结构,通过DNA-DNA-蛋白质,蛋白质,蛋白质蛋白质-蛋白质的相互作用,调节特异基因的表达。蛋白质的相互作用,调节特异基因的表达。第七十七张,PPT共八十五页,创作于2022年6月二、细菌基因操纵子的基本结构二、细菌基因操纵子的基本结构 第七十八张,PPT共八十五页,创作于2022年6月第七十九张,PPT共八十五页,创作于2022年6月三、真核生物的基因表达调控三、真核生物的基因表达调控 与原核生物比较,真核生物的基因组更为复杂真核基因组比原核基因组大得多,大肠杆菌基因组约4106bp,哺乳类基因组在109bp数量级,比细菌大千倍;大肠杆菌约有4000个基因,人则约有10万个基因。真核生物主要的遗传物质与组蛋白等构成染色质,被包裹在核膜内,核外还有遗传成分(如线粒体DNA等),这就增加了基因表达调控的层次和复杂性。原核生物的基因组基本上是单倍体,而真核基因组是二倍体。细菌多数基因按功能相关成串排列,组成操纵元的基因表达调控的单元,转录出多顺反子(polycistron)的mRNA,真核生物则是一个结构基因转录生成一条mRNA,即mRNA是单顺反子(monocistron)。原核基因组的大部分序列都为基因编码,而哺乳类基因组中仅约10%的序列为蛋白质、rRNA、tRNA等编码,其余约90%的序列功能至今还不清楚。原核生物的基因为蛋白质编码的序