中国科技大学课件系列:《生物信息学》04教学教材.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《中国科技大学课件系列:《生物信息学》04教学教材.ppt》由会员分享,可在线阅读,更多相关《中国科技大学课件系列:《生物信息学》04教学教材.ppt(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、中国科技大学课件系列:中国科技大学课件系列:生物信息学生物信息学0404本章内容提要r第一节:数学基础:概率及概率模型第一节:数学基础:概率及概率模型r第二节:双序列比对算法的介绍第二节:双序列比对算法的介绍Dot matrix动态规划算法动态规划算法w(Needleman-Wunsch,Smith-Waterman算法算法)FASTA和和BLAST算法算法r第三节:打分矩阵及其含义第三节:打分矩阵及其含义r第四节:多序列比对第四节:多序列比对第三节 打分矩阵及其含义r 1,计分方法,计分方法r 2,Dayhoff:PAM系列矩阵系列矩阵r 3,Henikoff:BLOSUM系列矩阵系列矩阵1
2、,计分方法r匹配计分:匹配计分:UM矩阵矩阵(Unitary matrix)相同的氨基酸记相同的氨基酸记1分,否则记分,否则记0分。分。BLAST中核酸比对中核酸比对r结构域性质计分:结构域性质计分:SGM矩阵矩阵(Structure-Genetic Matrix)主要根据氨基酸的结构和化学性质的相似程度来主要根据氨基酸的结构和化学性质的相似程度来记分记分(如如D和和E,S和和T,V和和I有很高的相似性有很高的相似性),同时,同时还考虑密码子之间相互转换的难易程度。还考虑密码子之间相互转换的难易程度。r可观测变换计分:可观测变换计分:PAM矩阵矩阵(Point Accepted Mutatio
3、n)BLOSUM矩阵矩阵(BLOcks SUbstitution Matrix)2,PAM系列矩阵r Margaret Dayhoff,1978;r通过对物种进化的研究,根据一种氨基酸被通过对物种进化的研究,根据一种氨基酸被另一种氨基酸替代的频度而提出的,最常用另一种氨基酸替代的频度而提出的,最常用的是的是PAM250;r Accepted point mutation(PAM):可接受可接受的点突变,氨基酸的改变不显著影响蛋白质的点突变,氨基酸的改变不显著影响蛋白质的功能;的功能;PAM矩阵r71个蛋白质家族的个蛋白质家族的1572种变化;种变化;r序列相似性序列相似性 85%;r功能同源的
4、蛋白质功能同源的蛋白质 通过中性进化,引入通过中性进化,引入可接受的点突变;可接受的点突变;r 进化模型:进化模型:A.基本假设:中性进化,基本假设:中性进化,Kimura,1968;B.进化的对称性进化的对称性:A-B=B-A;C.扩展性:通过对较短时间内氨基酸替代关系扩展性:通过对较短时间内氨基酸替代关系的计算来计算较长时间的氨基酸替代关系;的计算来计算较长时间的氨基酸替代关系;PAM1矩阵r 两个蛋白质序列的两个蛋白质序列的1%氨基酸发生变化;氨基酸发生变化;r 定义进化时间以氨基酸的变异比例为准,而定义进化时间以氨基酸的变异比例为准,而不是时间;因为各个蛋白质家族进化的速度不是时间;因
5、为各个蛋白质家族进化的速度并不相等;并不相等;r PAM2=PAM1*PAM1 PAM3=(PAM1)3 PAM250=(PAM1)250PAMn矩阵的构建1.选取多个家族的相似性选取多个家族的相似性85%的保守序列;的保守序列;2.根据匹配计分进行多重比对根据匹配计分进行多重比对(不含空位不含空位);3.以比对结果构建进化树,反映氨基酸替换关以比对结果构建进化树,反映氨基酸替换关系;系;4.计算每种氨基酸转换成其它氨基酸的次数;计算每种氨基酸转换成其它氨基酸的次数;5.计算每种氨基酸突变率;计算每种氨基酸突变率;6.计算每对氨基酸突变率,得到突变概率矩阵,计算每对氨基酸突变率,得到突变概率矩
6、阵,将此矩阵自乘将此矩阵自乘n次;次;7.将突变概率矩阵转化为将突变概率矩阵转化为PAMn矩阵。矩阵。例6:PAM矩阵的构建r 已知已知3个蛋白质家族若干保守序列片段:个蛋白质家族若干保守序列片段:家族一:家族一:FKILK,FKIKK,FFILL,FFIKL家族二:家族二:IIFFF,IIFIF,IKFFL,IKFIL家族三:家族三:KIFKK,KIFLK,KLFKL,KLFLL按按Doyhoff方法构建方法构建PAM1与与PAM2矩阵矩阵Step1:多重比对r位置对齐,多重比对(不考虑空位):位置对齐,多重比对(不考虑空位):r统计每种氨基酸出现的频率;统计每种氨基酸出现的频率;fi=氨基
7、酸氨基酸i的数目的数目/总氨基酸数目总氨基酸数目fL =12/60=0.2.家族一家族一家族二家族二家族三家族三F K I L KI I F F FK I F K KF K I K KI I F I FK I F L KF F I L LI K F F LK L F K LF F I K LI K F I LK L F L LStep2:构建进化树r最大简约法最大简约法家族一家族一:wL和和K间相互转换次数:间相互转换次数:N(LK)=3家族二,家族三家族二,家族三 FKILKFKIKKFKIKKFFIKLFFILLFFIKL(LK)(KF)(LK)(LK)Step3:计算氨基酸间的转换次数r
8、计算每种氨基酸转换成其它氨基酸的次数。计算每种氨基酸转换成其它氨基酸的次数。r假设两种氨基酸间相互转换一样。假设两种氨基酸间相互转换一样。e.g.N(LK)=3+0+3=6KFILK116F121I121L611Step4:计算各氨基酸相对突变率r每种氨基酸相对突变率每种氨基酸相对突变率miri:第:第i种氨基酸;种氨基酸;rfi:每种氨基酸出现的频率;:每种氨基酸出现的频率;mK=8/(122 fK 100)=0.0125Step5:计算氨基酸i替换为j的突变率r氨基酸氨基酸i替换为替换为j的突变率的突变率mije.g.mKK=1-mK=0.9875mKF=mF 1/4=0.001389St
9、ep5:氨基酸一步转移概率矩阵r氨基酸突变概率氨基酸突变概率一步转移概率矩阵一步转移概率矩阵M1ij原氨基酸原氨基酸KFIL替换氨替换氨基酸基酸K0.98750.0015630.0015630.009375F0.0013890.9944440.0027780.001389I0.0017860.0035710.9928570.001786L0.01250.0020830.0020830.983333Step6:计算PAM1计分矩阵r由突变率由突变率mij计算计分矩阵中的分值计算计分矩阵中的分值rij:r将将rij=rji取平均值,再取整数;取平均值,再取整数;(按先前假设,(按先前假设,rij=
10、rji)rKK=10lg(mkk/fk)=5.6857 6(rKF+rFK)/2=-22.833 -23 Step6:PAM1计分矩阵结果r三个家族序列片段得到的三个家族序列片段得到的PAM1计分矩阵:计分矩阵:KFILK6F-235I-22-196L-13-22-207Step7:计算PAM2计分矩阵r将氨基酸突变概率矩阵自乘一次,得到两步将氨基酸突变概率矩阵自乘一次,得到两步转移概率矩阵转移概率矩阵M2ij M2ij=M1ij M1ijr三个家族序列片段得到的三个家族序列片段得到的PAM2计分矩阵:计分矩阵:KFILK6F-205I-19-166L-10-19-187PAM250矩阵r P
11、AM250:250%期望的突变;期望的突变;r 蛋白质序列仍然有蛋白质序列仍然有15-30%左右的相似性;左右的相似性;PAM250打分矩阵打分矩阵的使用rPAM250:15-30%的序列相似性;的序列相似性;rPAM120:40%的序列相似性;的序列相似性;rPAM80:50%rPAM60:60%r如何选择最合适的矩阵?如何选择最合适的矩阵?r 多种尝试多种尝试PAM矩阵的问题及改进r1.PAM系列矩阵存在的问题:系列矩阵存在的问题:A.氨基酸的打分矩阵,不关心核酸;氨基酸的打分矩阵,不关心核酸;B.进化模型的构建需要系统发育树的分析,因进化模型的构建需要系统发育树的分析,因此,成为一个循环
12、论证的问题:序列比对此,成为一个循环论证的问题:序列比对矩阵矩阵构建构建打分打分进行新的序列比对;进行新的序列比对;C.数据集很小;数据集很小;r2.打分矩阵的改进打分矩阵的改进A.选用大量的序列数据,构建选用大量的序列数据,构建PAM矩阵;矩阵;B.BLOSUM系列矩阵系列矩阵;C.核酸的打分矩阵核酸的打分矩阵;3,BLOSUM矩阵r最被广泛使用的氨基酸打分矩阵最被广泛使用的氨基酸打分矩阵;r根据蛋白质模块数据库根据蛋白质模块数据库BLOCKS中蛋白质序中蛋白质序列的高度保守部分的比对而得到的,最常用列的高度保守部分的比对而得到的,最常用的是的是BLOSUM62;rBLOCK:蛋白质家族保守
13、的一段氨基酸,无蛋白质家族保守的一段氨基酸,无gap,一般几个至上百个氨基酸;,一般几个至上百个氨基酸;rProsite家族:至少有一个家族:至少有一个BLOCK存在于该存在于该家族的所有蛋白质序列中;家族的所有蛋白质序列中;rBLOSUM62:序列的平均相似性为序列的平均相似性为62%的的BLOCK构建的打分矩阵;构建的打分矩阵;BLOSUM62矩阵构建步骤:1.提取提取Prosite数据库中数据库中504个家族的个家族的2万多蛋万多蛋白质序列,合并其中相似性白质序列,合并其中相似性62%的序列;的序列;2.统计各统计各BLOCK的氨基酸对数量的氨基酸对数量f;3.计算氨基酸对的出现频率计算
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物信息学 中国科技大学 课件 系列 生物 信息学 04 教学 教材
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内