序列分析四一一分子进化系统发生分析.ppt
《序列分析四一一分子进化系统发生分析.ppt》由会员分享,可在线阅读,更多相关《序列分析四一一分子进化系统发生分析.ppt(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、序列分析四一一分子进化系统发生分析 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望 最大简约法最大简约法(maximum parsimony,MP)最早最早源于形态性状研究,现在已经推广到分子序列源于形态性状研究,现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡的进化分析中。最大简约法的理论基础是奥卡姆(姆(Ockham)哲学原则,这个原则认为:)哲学原则,这个原则认为:解释解释一个过程的最好理论是所需假设数目最少的那一个过程的最好理论是所需假设数目
2、最少的那一个一个。3.2 最大简约法(最大简约法(MP)最大简约法利用的是信息位点,所谓信息位点就最大简约法利用的是信息位点,所谓信息位点就是指能由位点产生的突变数目把一棵树与其它树区分是指能由位点产生的突变数目把一棵树与其它树区分开来的位点。开来的位点。信息位点必须是至少存在信息位点必须是至少存在2 2种不同碱基且每种碱种不同碱基且每种碱基至少出现两次的位点。基至少出现两次的位点。根据信息位点可构建不同的拓扑进化树,对所有根据信息位点可构建不同的拓扑进化树,对所有可能的拓扑结构进行最小核苷酸替换数总和的计算,可能的拓扑结构进行最小核苷酸替换数总和的计算,算出所需替代数最小的那个拓扑结构,作为
3、最优树。算出所需替代数最小的那个拓扑结构,作为最优树。单一位点单一位点单一位点单一位点:位点上只有一个分类群具有一种不同的核苷酸或:位点上只有一个分类群具有一种不同的核苷酸或氨基酸。氨基酸。对所有的拓扑结构都只能用相同的替代数目表示。对所有的拓扑结构都只能用相同的替代数目表示。单一位点也不提供任何单一位点也不提供任何MP信息。信息。1 12 23 34 45 56 6AATCGAAAAA1 12 23 35 54 46 6AAGCTAAAAA1 12 26 63 34 45 5AACATGAAAA1 12 23 36 64 45 5AAACTGAAAA1 12 23 36 64 45 5AAA
4、CTGAAAT1 12 23 36 64 45 5AAACTGAAAG1.Position 5,7,9为信息位点;为信息位点;2.基于基于position 5的三个的三个MP树树:Tree 1长度是长度是1,Tree 2和和Tree 3的长度是的长度是2;3.Tree 1更为简约:总长:更为简约:总长:4;Tree 2长长5;Tree 3长长6;4.计算结果:计算结果:MP tree的最优结果为的最优结果为Tree 1.MP法适用的问题法适用的问题(1)位点不存在回复突变、平行突变;)位点不存在回复突变、平行突变;(2)被分析的序列较长,核苷酸或氨基酸数目很大;)被分析的序列较长,核苷酸或氨基
5、酸数目很大;(3)序列的相似度较高;)序列的相似度较高;(4)核苷酸或氨基酸替代速率较稳定。)核苷酸或氨基酸替代速率较稳定。优点:优点:不需要在处理核苷酸或者氨基酸替代的时候不需要在处理核苷酸或者氨基酸替代的时候引入假设(替代模型)。引入假设(替代模型)。此外,最大简约法对于分析某些特殊的分子此外,最大简约法对于分析某些特殊的分子数据如插入、缺失等序列有用。数据如插入、缺失等序列有用。缺点:缺点:在分析序列上在分析序列上存在较多的回复突变或平行突存在较多的回复突变或平行突变变,而被检验的序列位点数又比较少的时候,而被检验的序列位点数又比较少的时候,最大简约法可能会给出一个不合理的甚至错误最大简
6、约法可能会给出一个不合理的甚至错误的进化树推导结果。的进化树推导结果。3.3 最大似然法(最大似然法(ML)利用利用ML构建进化树的步骤构建进化树的步骤:1.选取一个特定的替代模型来分析给定的一组序列选取一个特定的替代模型来分析给定的一组序列数据数据;2.使得获得的每一个拓扑结构的似然率都为最大值使得获得的每一个拓扑结构的似然率都为最大值;3.然后再挑出其中似然率最大的拓扑结构作为最优然后再挑出其中似然率最大的拓扑结构作为最优树。树。缺点:巨大的计算量缺点:巨大的计算量优点:具有很好的统计学理论基础,在当样本量很优点:具有很好的统计学理论基础,在当样本量很大的时候,似然法可以获得参数统计的最小
7、方差。大的时候,似然法可以获得参数统计的最小方差。只要使用了一个只要使用了一个合理的、正确的替代模型合理的、正确的替代模型,最大,最大似然法可以推导出一个很好的进化树结果。似然法可以推导出一个很好的进化树结果。最大似然法(ML)的创始人 杨子恒 2006年英国皇家科学院,大陆旅英学者中获此殊荣的第一人,现为伦敦大学学院统计遗传学教授。出生在甘肃定西地区的通渭县,1980年他考进甘肃农业大学,学的是畜牧专业,“误入”生物领域。后来在北京农业大学读研究生时,选择了与数学关系密切的统计遗传学。一般采用两种以一般采用两种以上方法构建进化上方法构建进化树,无显著区别树,无显著区别可接受。可接受。3.4
8、构建进化树的一般原则构建进化树的一般原则选择选择外群外群(Outgroup)1.选择一个或多个已知与分析序列关系选择一个或多个已知与分析序列关系较远较远的序列作为外群;的序列作为外群;2.外群可以辅助定位树根;外群可以辅助定位树根;3.外群序列必须与剩余序列外群序列必须与剩余序列关系较近关系较近,但外群,但外群序列与其他序列间的序列与其他序列间的差异必须比其他序列之差异必须比其他序列之间的差异更显著间的差异更显著。进化树的可靠性分析进化树的可靠性分析:自展法(自展法(Bootstrap Method)1.从排列的多序列中随机有放回的抽取某一序列,从排列的多序列中随机有放回的抽取某一序列,构成新
9、的排列序列;构成新的排列序列;2.重复上面的过程,得到多组新的序列;重复上面的过程,得到多组新的序列;3.对这些新的序列进行建树,再观察这些树与原始对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性。树是否有差异,以此评价建树的可靠性。4.氨基酸与氨基酸与DNA的进化距的进化距离离1.分子进化的分析:基于氨基酸序列的分析分子进化的分析:基于氨基酸序列的分析早于早于DNA序列。序列。2.优势:氨基酸序列更为保守,对年代跨度优势:氨基酸序列更为保守,对年代跨度大的进化分析有帮助;数学模型较大的进化分析有帮助;数学模型较DNA更为更为简单;简单;3.p距离:距离:p-dis
10、tance;4.泊松校正,泊松校正,d距离;距离;5.距离;距离;4.1 氨基酸的演化距离氨基酸的演化距离P-distance 令两条蛋白质序列之间的氨基酸差异数为令两条蛋白质序列之间的氨基酸差异数为nd,所有序列的氨基酸数目相同为所有序列的氨基酸数目相同为n,则,则P距离距离不同物种的血红蛋白不同物种的血红蛋白链中不同氨基酸的数目及比例。长度:链中不同氨基酸的数目及比例。长度:140aa所有的插入所有的插入/缺缺失都要删除!失都要删除!泊松校正泊松校正1.序列差异的百分比序列差异的百分比(p)与分歧时间与分歧时间 t 的关系:的关系:t 较较短的时候,回复突变较少,两者大致成线性关系;短的时
11、候,回复突变较少,两者大致成线性关系;当当 t 较大时,回复突变增多,二者成非线性关系;较大时,回复突变增多,二者成非线性关系;2.令令 r 为某一位点每年的氨基酸替代率,并假设所为某一位点每年的氨基酸替代率,并假设所有位点的有位点的 r 都相同:都相同:基本假设基本假设;3.在时间在时间 t 年之后,每个位点替代的平均数为:年之后,每个位点替代的平均数为:rt;给定一个位点,氨基酸替代数给定一个位点,氨基酸替代数 k(k=0,1,2,3,)的的可能性遵循泊松分布,即可能性遵循泊松分布,即4.因此,某一位点氨基酸不变的概率为因此,某一位点氨基酸不变的概率为1.祖先序列未知:不知道当前的序列从何
12、演化而来。祖先序列未知:不知道当前的序列从何演化而来。2.解决方案:对两条已经有解决方案:对两条已经有 t 年分化的序列,一条序年分化的序列,一条序列无替代的概率为:列无替代的概率为:,两条序列则为:,两条序列则为:3.则发生突变的概率为则发生突变的概率为p=1-q;4.泊松校正距离泊松校正距离d=2rt5.因此,因此,d=-ln(1-p),即泊松距离。,即泊松距离。P-距离距离 vs.泊松距离泊松距离距离距离1.p-距离和泊松距离:氨基酸替代率在所有位点是距离和泊松距离:氨基酸替代率在所有位点是相同的;相同的;2.实际情况:功能次要的位点比功能重要的位点替实际情况:功能次要的位点比功能重要的
13、位点替代率更高;代率更高;3.氨基酸替代率的实际观测与氨基酸替代率的实际观测与分布近似符合。分布近似符合。距离是:距离是:a需要估算,一般在需要估算,一般在0.2-3.5之间。一般来说,之间。一般来说,p0.2并且并且a0.65的时候,用的时候,用分布能够得到较好的结果分布能够得到较好的结果1.基因组上存在着多种多样的基因组上存在着多种多样的DNA区域,例区域,例如蛋白质编码区,非编码区,内含子,侧翼如蛋白质编码区,非编码区,内含子,侧翼区,重复片断以及插入序列等;区,重复片断以及插入序列等;2.考虑编码区的考虑编码区的DNA序列的进化演变模型;序列的进化演变模型;3.Jukes-Cantor
14、法与法与Kimura两参数法两参数法4.2 DNA的演化距离的演化距离1.对于两条长度为对于两条长度为n的的DNA序列,不同的碱基对为序列,不同的碱基对为nd;2.核苷酸的改变核苷酸的改变p:转换:转换P、颠换、颠换Q,则:,则:p=P+Q3.当当p较小时,如果核苷酸替代是随机发生的,通常较小时,如果核苷酸替代是随机发生的,通常转换比颠换出现频率高;转换比颠换出现频率高;Jukes-Cantor法得到的两条法得到的两条DNA序列的距离:序列的距离:Kimura法得到的两条法得到的两条DNA序列的距离:序列的距离:4.3 同义与非同义替代同义与非同义替代同义替代:编码区的同义替代:编码区的DNA
15、序列,核苷酸的改变不改序列,核苷酸的改变不改变编码的氨基酸的内容;变编码的氨基酸的内容;非同义替代:核苷酸改变,从而改变编码氨基酸的非同义替代:核苷酸改变,从而改变编码氨基酸的内容。内容。Ka:非同义替代;:非同义替代;Ks:同义替代;:同义替代;序列上所有可能的同义位点序列上所有可能的同义位点(S)和非同义位点和非同义位点(N),通过双序列比对发现存在突变的同义位点通过双序列比对发现存在突变的同义位点(Sd)和非和非同义位点同义位点(Nd),定义:,定义:Ka/Ks含义含义 1.Ka/Ks 1:中性进化;中性进化;2.Ka/Ks 1:阳性选择,适应性进化。阳性选择,适应性进化。4.多数基因为
16、中性进化,约多数基因为中性进化,约1%的基因受到阳的基因受到阳性选择。性选择。5.PAML,MEGA等工具:计算等工具:计算Ka/Ks及统计及统计显著性显著性进化通径法:进化通径法:Nei-Gojobori1.首先需要考虑:潜在的同义首先需要考虑:潜在的同义(S)和非同义位点数和非同义位点数(N)。2.基本假设:所有核苷酸的替代率相等;基本假设:所有核苷酸的替代率相等;3.用用 fi 表示某一个密码子第表示某一个密码子第i位的核苷酸上发生同义位的核苷酸上发生同义替代的比例;替代的比例;(i=1,2,3);4.所有密码子潜在的同义和非同义替代的位点数定所有密码子潜在的同义和非同义替代的位点数定义
17、如下:义如下:,N=3-S;潜在的同义和非同义位点数的估计潜在的同义和非同义位点数的估计1.例如,对于例如,对于Phe,密码密码子子TTT,第三位第三位T变成变成C时为同义替代,变成时为同义替代,变成A/G为非同义替代。因为非同义替代。因此:此:S=0+0+1/3N=3-1/3=8/32.终止密码子忽略不计。终止密码子忽略不计。如如Cys的的TGT,S=0.5Sd与与Nd的计算的计算1.当一对密码子仅存在一个差异时,可以立即判断是同义还是当一对密码子仅存在一个差异时,可以立即判断是同义还是非同义,进化通径只有一种可能;例如对于非同义,进化通径只有一种可能;例如对于GTT(Val)和和GTA(V
18、al),sd=1,nd=0;而对于;而对于ATT(I)和和ATG(M),sd=0,nd=1;2.一对密码子存在两个差异时,有两种进化通径,选取最少需一对密码子存在两个差异时,有两种进化通径,选取最少需要的通径。例如:比较要的通径。例如:比较TTT(Phe)和和GTA(Val):(1)TTT(Phe)GTT(Val)GTA(Val)(2)TTT(Phe)TTA(Leu)GTA(Val)sd=1/2=0.5,nd=3/2=1.5同样,终止密码子不予考虑同样,终止密码子不予考虑3.一对密码子存在三个差异时:六种进化通径。例如:一对密码子存在三个差异时:六种进化通径。例如:比较比较TTG(Leu)和和
19、AGA(Arg):(1)TTG(Leu)ATG(Met)AGG(Arg)AGA(Arg)(2)TTG(Leu)ATG(Met)ATA(Ile)AGA(Arg)(3)TTG(Leu)TGG(Trp)AGG(Arg)AGA(Arg)(4)TTG(Leu)TGG(Trp)TGA(Ter)AGA(Arg)(5)TTG(Leu)TTA(Leu)ATA(Ile)-AGA(Arg)(6)TTG(Leu)TTA(Leu)TGA(Ter)AGA(Arg)通径通径4,6忽略。通径忽略。通径(1),(2),(3),(5)同义替代数目同义替代数目1,0,1,1;非同义替代非同义替代2,3,2,2,因此,因此sd=3/
20、4,nd=9/4.1.编码区:编码区:DNA上编码功能性的基因的部分;上编码功能性的基因的部分;2.非编码区:或称基因组序列,绝大部分无非编码区:或称基因组序列,绝大部分无功能;功能;3.选择压力:选择压力:A.编码区:阳性选择编码区:阳性选择 1%;中性进化:;中性进化:80%;阴;阴性进化:性进化:19%;B.非编码区:非编码区:100%的中性进化;的中性进化;4.4 密码子偏好密码子偏好编码区:密码子编码区:密码子1.对于同义的密码子,第一位少部分可以允许不同,对于同义的密码子,第一位少部分可以允许不同,例如,编码丝氨酸例如,编码丝氨酸Ser的六个密码子:的六个密码子:TCT,TCC,T
21、CA,TCG,AGT,AGC;2.第一位固定后,第二位必须相同;第一位固定后,第二位必须相同;3.第三位绝大多数可以不同第三位绝大多数可以不同 近似随机;近似随机;4.因此:因此:A.第一位:阴性进化占大部分,中性进化占小部第一位:阴性进化占大部分,中性进化占小部分;分;B.第二位:阴性进化;第二位:阴性进化;C.第三位:阴性进化占小部分,中性进化占大部第三位:阴性进化占小部分,中性进化占大部分;分;编码区编码区&密码子密码子:推论推论1.密码子第三位的碱基出现概率接近基因组密码子第三位的碱基出现概率接近基因组序列的碱基频率;序列的碱基频率;2.第二位的碱基出现频率与基因组序列的碱第二位的碱基
22、出现频率与基因组序列的碱基频率相差最大。基频率相差最大。11个细菌基因组与密码子三个位置上个细菌基因组与密码子三个位置上的的GC含量的关系含量的关系细菌基因组的细菌基因组的GC含量:含量:25%75%密码子使用频率密码子使用频率(codon usage)密码子使用频率的偏倚性密码子使用频率的偏倚性密码子使用频率的偏倚性密码子使用频率的偏倚性:编码同一个氨基酸的多个同义密码子具有不同的使用编码同一个氨基酸的多个同义密码子具有不同的使用频率频率例例例例:E.coli的的RNA聚合酶聚合酶 缬氨酸缬氨酸Val GTT GTC GTA GTG 55 21 34 34 精氨酸精氨酸Arg CGU CGC
23、 CGA CGG 89 46 1 0为什么会出现密码子使用频率的偏倚性?为什么会出现密码子使用频率的偏倚性?与同功能与同功能tRNA的丰度有关?的丰度有关?突变压力与净化选择双重控制?突变压力与净化选择双重控制?密码子偏好的应用及计算密码子偏好的应用及计算1.基本假设:在高表达的基因中,密码子的选择,基本假设:在高表达的基因中,密码子的选择,更倾向于使用更倾向于使用“优化优化”的同义密码子的同义密码子;2.推论推论1:给定一个物种的一些高表达的基因,我:给定一个物种的一些高表达的基因,我们可以们可以估算优化的同义密码子的分布估算优化的同义密码子的分布;3.推论推论2:接着,我们可以对给定的一个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 序列 分析 一一 分子 进化 系统 发生
限制150内