分子进化与系统发育分析ppt课件.ppt
《分子进化与系统发育分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《分子进化与系统发育分析ppt课件.ppt(92页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章第四章 分子进化与系统发育分析分子进化与系统发育分析r 重建所有生物的进化历史并以系统树的形重建所有生物的进化历史并以系统树的形式加以描述式加以描述r达尔文进化论:达尔文进化论:进化:变异的遗传进化:变异的遗传自然选择:解释为何演变发生的机制自然选择:解释为何演变发生的机制种群中个体变异的遗传学基础:孟德尔遗传种群中个体变异的遗传学基础:孟德尔遗传孟德尔豌豆实验:杂交的表现特征是基因表达孟德尔豌豆实验:杂交的表现特征是基因表达的结果,而不是基因杂交遗传的结果,而不是基因杂交遗传r中性进化论:并非所有种群中保留下来的中性进化论:并非所有种群中保留下来的突变都由自然选择所形成;大多数突变是中
2、突变都由自然选择所形成;大多数突变是中性或接近中性,不妨碍种群的生存与繁衍。性或接近中性,不妨碍种群的生存与繁衍。r1. 最确凿证据是:生物化石!最确凿证据是:生物化石! 零散、零散、不完整不完整r2.比较形态学、比较解剖学和生理学等:确比较形态学、比较解剖学和生理学等:确定大致的进化框架定大致的进化框架 细节存很多的争议细节存很多的争议r 1964年,年,Linus Pauling提出分子进化理论;提出分子进化理论;r从物种的一些分子特性出发,从而了解物种从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。之间的生物系统发生的关系。r 发生在分子层面的进化过程:发生在分子层面的进
3、化过程:DNA, RNA和和蛋白质分子蛋白质分子r 基本假设:核苷酸和氨基酸序列中含有生物基本假设:核苷酸和氨基酸序列中含有生物进化历史的全部信息。进化历史的全部信息。r DNA突变的模式:替代,插入,缺失,倒位;突变的模式:替代,插入,缺失,倒位;r 核苷酸替代:转换核苷酸替代:转换 (Transition) & 颠换颠换 (Transversion)r 基因复制:多基因家族的产生以及伪基因的基因复制:多基因家族的产生以及伪基因的产生产生A. 单个基因复制单个基因复制 重组或者逆转录重组或者逆转录B. 染色体片断复制染色体片断复制C. 基因组复制基因组复制替代替代插入插入缺失缺失倒位倒位r
4、转换:嘌呤被嘌呤转换:嘌呤被嘌呤替代,或者嘧啶被替代,或者嘧啶被嘧啶替代嘧啶替代r 颠换:嘌呤被嘧啶颠换:嘌呤被嘧啶替代,或者嘧啶被替代,或者嘧啶被嘌呤替代嘌呤替代重组重组逆转录逆转录酿酒酵母酿酒酵母克鲁雄酵母克鲁雄酵母研究结果:克鲁研究结果:克鲁雄酵母中的同源雄酵母中的同源基因数量与酿酒基因数量与酿酒酵母相比为酵母相比为1 1:2 2r 物种分类及关系:从物种的一些分子特性出发,物种分类及关系:从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统构建系统发育树,进而了解物种之间的生物系统发生的关系发生的关系 tree of lifer 大分子功能与结构的分析:同一家族的大分子
5、,大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析;功能性分析,构建系统发育树,进行相关分析;功能预测预测r 进化速率分析:例如,进化速率分析:例如,HIV的高突变性;哪些位的高突变性;哪些位点易发生突变?点易发生突变?5353个人的线粒体基因组个人的线粒体基因组( (16,587bp) )人类迁移的路线人类迁移的路线rOrtholog (直系同源物直系同源物):两个基因通过物种形成:两个基因通过物种形成的事件而产生,或源于不同物种的最近的共同祖的事件而产生,或源于不同物种的最近的
6、共同祖先的两个基因,或者两个物种中的同一基因,一先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。般具有相同的功能。rParalog (旁系同源物旁系同源物):两个基因在同一物种中,:两个基因在同一物种中,通过至少一次基因复制的事件而产生。常常具有通过至少一次基因复制的事件而产生。常常具有不同功能。不同功能。rXenolog (异系同源物异系同源物):由某一个基因水平转移:由某一个基因水平转移事件而得到的同源序列。水平转移的基因功能主事件而得到的同源序列。水平转移的基因功能主要根据在前后宿主中变化而确定,然而功能却常要根据在前后宿主中变化而确定,然而功能却常常相似。常相似。paral
7、ogsorthologsr相似性相似性 (Similarity)序列比对过程中用来描述检测序列和目标序列序列比对过程中用来描述检测序列和目标序列之间相似之间相似DNA碱基或氨基酸残基序列所占比例;碱基或氨基酸残基序列所占比例;定量描述;定量描述;r同源性同源性 (Homology)两个基因或蛋白质序列具有共同祖先的结论;两个基因或蛋白质序列具有共同祖先的结论;定性判断;定性判断;r相似不一定同源相似不一定同源,同源不一定相似。同源不一定相似。r氨基酸序列相似性超过氨基酸序列相似性超过30%,很很可能可能同源。同源。r所有的生物都起源于同一个祖先;所有的生物都起源于同一个祖先;r序列不是随机产生
8、,而是在进化上,不断序列不是随机产生,而是在进化上,不断发生着演变;发生着演变;r基本假设:基本假设: 序列保守性序列保守性 结构保守性结构保守性 注意:反之未必注意:反之未必 序列保守性序列保守性 结构保守性结构保守性r第一节,密码子偏好及分析第一节,密码子偏好及分析r第第二二节,节,氨基酸序列的进化演变氨基酸序列的进化演变r第三节,分子系统发育分析第三节,分子系统发育分析r第四节,分子系统发育分析软件介绍第四节,分子系统发育分析软件介绍r 密码子密码子(codon): 在随机或者无自然选择的在随机或者无自然选择的情况下,各个密码子出现频率将大致相等情况下,各个密码子出现频率将大致相等;r
9、密码子偏好:各个物种中,编码同一氨基酸密码子偏好:各个物种中,编码同一氨基酸的不同同义密码子的频率非常不一致的不同同义密码子的频率非常不一致;r 可能的原因:密码子对应的同功可能的原因:密码子对应的同功tRNA丰度丰度的不同的不同 - Anticodonr 密码子偏好非常明显;例如密码子偏好非常明显;例如r 同为编码同为编码Leu的同义密码子的同义密码子CUA和和CUG,二者出现的次数显著不等,二者出现的次数显著不等,CUA(1次次), CUG(141次次);r 再如:编码再如:编码Arg的四个密码子的四个密码子CGU, CGC, CGA, CGG, 出现次数分别为:出现次数分别为:89,46
10、,1,0.r 提示:对应提示:对应CGG的同功的同功tRNA可能不存在!可能不存在!r 每一个密码子,对应一每一个密码子,对应一个个tRNA;r tRNA通过通过Anticodon来来识别识别codon,联系,联系mRNA和氨基酸序列的和氨基酸序列的合成;合成;r 密码子的使用偏好:由密码子的使用偏好:由密码子对应的密码子对应的tRNA的进的进化及丰度来决定。化及丰度来决定。r1. 假如:每个核苷酸位点上的替代是随机发生的,假如:每个核苷酸位点上的替代是随机发生的,则则A,T,C,G出现的频率应该大致相等。出现的频率应该大致相等。r2. 实际情况:实际情况:DNA受到受到自然选择自然选择的压力
11、,各个位的压力,各个位点的碱基出现频率并不相等。点的碱基出现频率并不相等。r3. 需要解决的问题:需要解决的问题:A. 每个位点上受到什么样的选择压力?每个位点上受到什么样的选择压力?B. 各个位点的碱基频率反映了什么样的规律?各个位点的碱基频率反映了什么样的规律?r4. 表征表征/统计的方法:计算统计的方法:计算G+C的含量,并进行比的含量,并进行比较较r自然选择理论:自然选择理论:阳性选择:促进有益突变;阳性选择:促进有益突变;w定向选择:固定有益的等位基因;定向选择:固定有益的等位基因;w平衡选择:保持多态性;平衡选择:保持多态性;阴性选择(净化选择):清除有害突变;阴性选择(净化选择)
12、:清除有害突变;r中性理论:中性理论:阳性选择:少有;阳性选择:少有;阴性选择:普遍存在;阴性选择:普遍存在;中性进化:普遍存在;中性进化:普遍存在;64个密码子,编码个密码子,编码20个氨基酸个氨基酸GTTGTCGTAGTGCGTCGC脯氨酸脯氨酸P P组氨酸组氨酸H H四倍简并四倍简并二倍简并二倍简并TGGTGC色氨酸色氨酸W W半胱氨酸半胱氨酸C C同义替代同义替代非同义替代非同义替代r基因的基因的DNA由编码区(由编码区(Coding region)和)和非编码区(非编码区(Non-coding region)构成;)构成;r编码区可以转录信使编码区可以转录信使RNA,进而调控蛋白质,
13、进而调控蛋白质的合成;的合成;r非编码区不能转录成信使非编码区不能转录成信使RNA,但是它可以,但是它可以调控遗传信息的表达;调控遗传信息的表达;r原核基因:编码区全部编码蛋白质;原核基因:编码区全部编码蛋白质;真核基因:编码区分为外显子和内含子真核基因:编码区分为外显子和内含子,只有只有外显子能编码蛋白质;外显子能编码蛋白质;r 进化选择压力:进化选择压力:A. 编码区:阳性选择编码区:阳性选择 1%;阴性选择;阴性选择19%;中;中性进化性进化80%;B. 非编码区:非编码区:100%的中性进化的中性进化r中性进化:中性进化:同义突变,同义突变, 约占核苷酸置换总数的四分之一;约占核苷酸置
14、换总数的四分之一;非编码区非编码区DNA序列的突变对蛋白质的合成很少序列的突变对蛋白质的合成很少有影响。有影响。r1. 对于同义的密码子,第一位少部分可以允许不对于同义的密码子,第一位少部分可以允许不同,例如,编码同,例如,编码Ser的六个密码子:的六个密码子:TCT, TCC, TCA, TCG, AGT, AGCr2. 第二位必须相同第二位必须相同r3. 第三位绝大多数可以不同第三位绝大多数可以不同 近似随机;近似随机;r4. 因此:因此:A. 第一位:阴性进化占大部分,中性进化占小部分第一位:阴性进化占大部分,中性进化占小部分B. 第二位:阴性进化第二位:阴性进化C. 第三位:阴性进化占
15、小部分,中性进化占大部分第三位:阴性进化占小部分,中性进化占大部分r 基本假设:在高表达的基因中,密码子的选择,基本假设:在高表达的基因中,密码子的选择,更倾向于使用更倾向于使用“优化优化”的同义密码子的同义密码子r 推论推论1:给定一个物种的一些高表达的基因,我:给定一个物种的一些高表达的基因,我们可以估算优化的同义密码子的分布们可以估算优化的同义密码子的分布r 推论推论2:接着,我们可以对给定的一个未知基因:接着,我们可以对给定的一个未知基因的序列进行密码子分布的分析,预测该基因的表的序列进行密码子分布的分析,预测该基因的表达量!达量!r 推论推论3:对于一个表达量很低的基因,我们是否:对
16、于一个表达量很低的基因,我们是否能够通过将少量的密码子改变成优化密码子,从能够通过将少量的密码子改变成优化密码子,从而显著提高基因的表达量?而显著提高基因的表达量?r相对同义密码子使用度相对同义密码子使用度(relative synonymous codon usage, RSCU)r 定义:观测到的某一同一密码子的使用次数,除以定义:观测到的某一同一密码子的使用次数,除以“期望期望”的该密码子出现次数的该密码子出现次数injijiijijXnXRSCU11编码第编码第i i个氨基酸个氨基酸的第的第j j个密码子的个密码子的出现次数出现次数编码第编码第i i氨基酸的氨基酸的同义密码子的数目同义
17、密码子的数目编码第编码第i i个氨基酸个氨基酸的第的第j j个密码子的个密码子的RSCURSCU值值maxmaxiijiijijXXRSCURSCUwr 编码第编码第i个氨基酸的第个氨基酸的第j个同义密码子的个同义密码子的“相对适应性相对适应性”:r 即该同义密码子的观察值,除以编码该氨即该同义密码子的观察值,除以编码该氨基酸的同义密码子的最大值基酸的同义密码子的最大值LLkkwCAI1L L为基因中所使用为基因中所使用的密码子数的密码子数rCAI值介于值介于01之间之间, 该值越大表示偏性越强该值越大表示偏性越强;rCAI值一般用来预测种内基因的表达水平,值一般用来预测种内基因的表达水平,以
18、及预测外源基因的表达水平。以及预测外源基因的表达水平。r不同物种不同物种CAI的计算依赖于各自的参考数据的计算依赖于各自的参考数据集。集。r 分子进化的分析:基于氨基酸序列的分析分子进化的分析:基于氨基酸序列的分析早于早于DNA序列序列r 优势:氨基酸序列更为保守,对年代跨度优势:氨基酸序列更为保守,对年代跨度大的进化分析有帮助;数学模型较大的进化分析有帮助;数学模型较DNA远为远为简单简单r p距离:距离:p-distancer 泊松校正,泊松校正,d距离距离r 两条蛋白质序列之间的氨基酸差异数为两条蛋白质序列之间的氨基酸差异数为nd, 序列的氨基酸数目均为序列的氨基酸数目均为n,则,则P距
19、离:距离:nnpd不同物种的血红蛋白不同物种的血红蛋白链中差异氨基酸的数目及比例:(长度:链中差异氨基酸的数目及比例:(长度:140aa140aa)所有的插入所有的插入/ /缺缺失均删除失均删除r 序列差异的百分比序列差异的百分比(p)与分歧时间与分歧时间t的关系:的关系:t较短较短的时候,回复突变较少,两者大致成线性关系;当的时候,回复突变较少,两者大致成线性关系;当t较大时,回复突变增多,二者成非线性关系较大时,回复突变增多,二者成非线性关系r基本假设:令基本假设:令r为某一位点每年的氨基酸替代率,为某一位点每年的氨基酸替代率,并假设所有位点的并假设所有位点的r都相同都相同r 在时间在时间
20、t年之后,每个位点替代的平均数为:年之后,每个位点替代的平均数为:rt给定一个位点,氨基酸替代数给定一个位点,氨基酸替代数k(k=0,1,2,3,)的可的可能性遵循泊松分布,即能性遵循泊松分布,即r 因此,某一位点氨基酸不变的概率为因此,某一位点氨基酸不变的概率为!)();(krtetkPkrtrtetP); 0(r 祖先序列未知:不知道当前的序列从何演化而来祖先序列未知:不知道当前的序列从何演化而来r 解决方案:对两条已经有解决方案:对两条已经有t年分化的序列,一条序年分化的序列,一条序列某位点无替代的概率为:列某位点无替代的概率为: ,两条序列同源位,两条序列同源位点均无替代概率为:点均无
21、替代概率为: r 此概率可用此概率可用1-p估计:估计:q=1-p; r两个序列间每个位点氨基酸替代总数(两个序列间每个位点氨基酸替代总数(d=2rt):):rd=-ln(1-p),即泊松距离,即泊松距离rtertrteeq22)()1ln()1ln(1pdpdepdr1. 系统发育树:分子进化树系统发育树:分子进化树/分子进化分析分子进化分析r2. 通过进化树的构建,分析分子之间的起源通过进化树的构建,分析分子之间的起源关系,预测分子的功能。关系,预测分子的功能。r3. 建树方法:建树方法:A. 最大简约法最大简约法 (Maximum Parsimony)B. 距离法距离法 (distanc
22、e-based methods)C. 最大似然性法最大似然性法 (Maximum Likelihood)D. 贝叶斯(贝叶斯(Bayesian)推断)推断 祖先节点/树根内部节点/分歧点,该分支可能的祖先结点分支/世系末端节点 ABCDE代代表最终分表最终分类,可以是类,可以是物种,群体物种,群体,或者蛋白,或者蛋白质、质、DNADNA、RNARNA分子等分子等Taxon ATaxon BTaxon CTaxon D116遗遗传变化传变化Taxon ATaxon BTaxon CTaxon D时时间间Taxon ATaxon BTaxon CTaxon D无无意义意义分分支图支图 进进化树化树
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分子 进化 系统发育 分析 ppt 课件
限制150内