序列比对基础与BLAST入门(打分矩阵)复习过程.ppt
《序列比对基础与BLAST入门(打分矩阵)复习过程.ppt》由会员分享,可在线阅读,更多相关《序列比对基础与BLAST入门(打分矩阵)复习过程.ppt(55页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、序列比序列比对对基基础础与与BLAST入入门门(打打分矩分矩阵阵)序列比序列比序列比序列比对对的基本原理的基本原理的基本原理的基本原理n n提出比提出比提出比提出比对对要考要考要考要考虑虑的的的的问题问题专业专业n n算法算法算法算法(构建(构建(构建(构建打分矩打分矩打分矩打分矩阵阵)数学数学数学数学n n程序程序程序程序计计算机算机算机算机n n搜索数据搜索数据搜索数据搜索数据库库计计算机算机算机算机n n给给出比出比出比出比对结对结果(比果(比果(比果(比对对分数、分数、分数、分数、显显著性著性著性著性检验检验)打分打分打分打分一、算法与程序一、算法与程序一、算法与程序一、算法与程序n
2、n算法算法算法算法是指按照一定的方式描述是指按照一定的方式描述计计算算过过程或程或处处理理某个某个问题问题的一系列步的一系列步骤骤。n n程序程序程序程序则则是算法的具体是算法的具体实现实现,也就是用某种,也就是用某种计计算算机机语语言言编编写的写的实现实现某个算法的一某个算法的一组组指令集合。指令集合。n n一个算法可能会有多种一个算法可能会有多种一个算法可能会有多种一个算法可能会有多种实现实现的方法的方法的方法的方法。如果算法如果算法的描述或定的描述或定义义明确,那么明确,那么这这些不同的些不同的实现实现方法,方法,即不同的程序即不同的程序应给应给出同出同样样的的结结果。果。二、打分矩二、
3、打分矩二、打分矩二、打分矩阵阵(Scoring MatrixScoring Matrix)简简介介介介n n要要对对两个序列两个序列进进行比行比对对,必,必须须首先打出其相似首先打出其相似性的定量分性的定量分值值,于是需要一个于是需要一个打分矩打分矩打分矩打分矩阵阵。n n矩矩矩矩阵阵(Matrix Matrix):是由是由m m n n个数个数组组成的一个成的一个m m行行n n列的矩形表格。列的矩形表格。矩矩矩矩阵阵(Matrix Matrix)n n某公司生某公司生产产四种四种产产品品A A、B B、C C、D D,第一季度的第一季度的销销量分量分别别如下表所示:如下表所示:n n产品销
4、量(件)产品销量(件)n n月份月份A B C DA B C Dn n 一月一月 300 250 220 180300 250 220 180n n 二月二月 320 230 200 200320 230 200 200n n 三月三月 310 280 210 220310 280 210 220 矩矩矩矩阵阵(Matrix Matrix)n n为为了研究方便,在数学中常把表中的了研究方便,在数学中常把表中的说说明去掉,明去掉,将上表将上表简简化化为为如下的矩形数表:如下的矩形数表:n n由由3434个数个数组组成的一个成的一个3 3行行4 4列的矩形表格。列的矩形表格。此表此表在数学上称在数
5、学上称为为矩矩矩矩阵阵(纵纵横排列的二横排列的二横排列的二横排列的二维维数据表格数据表格数据表格数据表格)。核酸打分矩核酸打分矩核酸打分矩核酸打分矩阵阵-AT-GCAT-GCATGC-ATGCATATATATATAT-ATATAT-GCATGCATGCATGCATGC|CGATCG-ATCG-AT-CG-ATATATATATATGCATATATATGCATGCATGCATGCATn n上述序列比上述序列比对过对过程中,只考程中,只考虑虑了了碱基的同一性碱基的同一性碱基的同一性碱基的同一性,即两个序列之即两个序列之间间完全相同的匹配碱基数目。完全相同的匹配碱基数目。n n可以把可以把这这种只考种
6、只考虑虑碱基同一性的矩碱基同一性的矩阵阵理解理解为为一个一个分数分数值为值为1 1和和0 0的分数矩的分数矩阵阵,即相同残基的分数,即相同残基的分数值值为为1 1,不同残基的分数,不同残基的分数值为值为0 0。用于核酸比用于核酸比用于核酸比用于核酸比对对的的的的简单简单打分矩打分矩打分矩打分矩阵阵A A A AC C C CG G G GT T T TA A A A1 1 1 10 0 0 00 0 0 00 0 0 0C C C C0 0 0 01 1 1 10 0 0 00 0 0 0G G G G0 0 0 00 0 0 01 1 1 10 0 0 0T T T T0 0 0 00 0
7、0 00 0 0 01 1 1 1A A A AC C C CG G G GT T T TA A A A5 5 5 5-4-4-4-4-4-4-4-4-4-4-4-4C C C C-4-4-4-45 5 5 5-4-4-4-4-4-4-4-4G G G G-4-4-4-4-4-4-4-45 5 5 5-4-4-4-4T T T T-4-4-4-4-4-4-4-4-4-4-4-45 5 5 5单单一打分矩一打分矩一打分矩一打分矩阵阵BLASTBLAST打分矩打分矩打分矩打分矩阵阵蛋白蛋白蛋白蛋白质质打分矩打分矩打分矩打分矩阵阵保守性替保守性替保守性替保守性替换换(conservative sub
8、stitutionconservative substitution)通常在某些位点上有一些氨基酸被另外一些通常在某些位点上有一些氨基酸被另外一些理化特性理化特性理化特性理化特性相似相似相似相似的氨基酸所代替,的氨基酸所代替,这这种突种突变变可称可称为为保守性替保守性替保守性替保守性替换换。保守。保守性替性替换换一般不会影响蛋白一般不会影响蛋白质质的的结结构和功能。构和功能。与核苷酸序列比与核苷酸序列比对对不同,氨基酸序列比不同,氨基酸序列比对对不不仅仅要考要考虑虑残基是否残基是否相同相同相同相同,还还要考要考虑虑残基是否残基是否相似相似相似相似以及相似的不同程以及相似的不同程度。度。LAAW
9、AAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPE|.|:|:ALALTCGAQALIVT.QTMKGLDIQKVAGTWYSLAMAASD 1.1.极性中性氨基酸极性中性氨基酸极性中性氨基酸极性中性氨基酸(亲亲水,含水,含水,含水,含羟羟基)基)基)基)2.2.碱性氨基酸碱性氨基酸碱性氨基酸碱性氨基酸氨基酸分类氨基酸分类alanine 丙氨酸丙氨酸AlaAvaline 缬氨酸缬氨酸ValVleucine 亮氨酸亮氨酸LeuLisoleucine 异亮氨酸异亮氨酸 IleIphenylalanine 苯丙氨酸苯丙氨酸PheFproline 脯氨酸脯氨酸ProPmethio
10、nine 甲硫氨酸甲硫氨酸MetMglycine 甘氨酸甘氨酸GlyGtryptophan 色氨酸色氨酸TrpWserine 丝氨酸丝氨酸SerStyrosine 酪氨酸酪氨酸TyrYcysteine 半胱氨酸半胱氨酸CysCasparagine 天冬酰氨天冬酰氨 Asn Nglutarmine 谷氨酰胺谷氨酰胺Gln Qthreonine 苏氨酸苏氨酸ThrTaspartic acid 天冬氨酸天冬氨酸Asp Dglutarmic acid 谷氨酸谷氨酸Glu Earginine 精氨酸精氨酸 ArgRhistidine 组氨酸组氨酸HisHlysine 赖氨酸赖氨酸LysK非极性疏水性非极
11、性疏水性非极性疏水性非极性疏水性氨基酸氨基酸氨基酸氨基酸极性中性氨基酸极性中性氨基酸极性中性氨基酸极性中性氨基酸酸性氨基酸酸性氨基酸酸性氨基酸酸性氨基酸碱性氨基酸碱性氨基酸碱性氨基酸碱性氨基酸(芳香族氨基酸芳香族氨基酸芳香族氨基酸芳香族氨基酸F F、WW、Y Y )(含硫氨基酸(含硫氨基酸(含硫氨基酸(含硫氨基酸C C、MM )王王镜岩岩编生物化学生物化学(第三版)第(第三版)第127页果蝇果蝇 GAKKVIISAP SAD.APM.F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA 人类人类 GAKRVIISAP SAD.APM.F VMGVNHEKYD NSLKIISNA
12、S CTTNCLAPLA 植物植物 GAKKVIISAP SAD.APM.F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA 细菌细菌 GAKKVVMTGP SKDNTPM.F VKGANFDKY.AGQDIVSNAS CTTNCLAPLA 酵母酵母 GAKKVVITAP SS.TAPM.F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA 古细古细 GAKKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA 果蝇果蝇 KVINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AA
13、QNIIPAST 人类人类 KVIHDNFGIV EGLMTTVHAI TATQKTVDGP SGKLWRDGRG ALQNIIPAST 植物植物 KVVHEEFGIL EGLMTTVHAT TATQKTVDGP SMKDWRGGRG ASQNIIPSST 细菌细菌 KVINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST 酵母酵母 KVINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNIIPSST 古细古细 KVLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AA
14、ENIIPTST 果蝇果蝇 GAAKAVGKVI PALNGKLTGM AFRVPTPNVS VVDLTVRLGK GASYDEIKAK 人类人类 GAAKAVGKVI PELNGKLTGM AFRVPTANVS VVDLTCRLEK PAKYDDIKKV 植物植物 GAAKAVGKVL PELNGKLTGM AFRVPTSNVS VVDLTCRLEK GASYEDVKAA 细菌细菌 GAAKAVGKVL PELNGKLTGM AFRVPTPNVS VVDLTVRLEK AATYEQIKAA 酵母酵母 GAAKAVGKVL PELQGKLTGM AFRVPTVDVS VVDLTVKLNK ET
15、TYDEIKKV 古细古细 GAAQAATEVL PELEGKLDGM AIRVPVPNGS ITEFVVDLDD DVTESDVNAA 不同物种不同物种3磷酸甘油磷酸甘油醛脱脱氢酶多序列比多序列比对EIQDVSGTWYAMTVDREFPEMNLESVTPMTLTTL.GGNLEAKVTMLSFTLEEEDITGTWYAMVVDKDFPEDRRRKVSPVKVTALGGGNLEATFTF TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHR VQENFDVNKYLGRWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV VK
16、ENFDKARFSGTWYAMAKDPEGLFLQDNIVAEFSVDETGNWDVCADGTF LQQNFQDNQFQGKWYVVGLAGNAI.LREDKDPQKMYATIDKSYNVTSVLF VQPNFQQDKFLGRWFSAGLASNSSWLREKKAALSMCKSVDGGLNLTSTFL VQENFNISRIYGKWYNLAIGSTCPWMDRMTVSTLVLGEGEAEISMTSTRW PKANFDAQQFAGTWLLVAVGSACRFLQRAEATTLHVAPQGSTFRKLD.人人类lipocalin(脂(脂质运运载蛋白)家族多序列比蛋白)家族多序列比对GGX XWW模体模体
17、模体模体蛋白蛋白蛋白蛋白质质打分矩打分矩打分矩打分矩阵阵n n我我们们想要衡量氨基酸配想要衡量氨基酸配对对的相似性程度,的相似性程度,这这就就需要有氨基酸相似性的定量需要有氨基酸相似性的定量标标准。准。n n单单一打分矩一打分矩一打分矩一打分矩阵阵满满足不了此种需求。足不了此种需求。n n相似性打分矩相似性打分矩相似性打分矩相似性打分矩阵阵,是基于,是基于远远距离距离进进化化过过程中程中观观察到的残基替察到的残基替换换率,并用不同的分数率,并用不同的分数值值表征不表征不同残基之同残基之间间的相似性程度。恰当的相似性程度。恰当选择选择相似性分相似性分数矩数矩阵阵,可以提高序列比,可以提高序列比对
18、对的敏感度。的敏感度。n nPAMPAM矩矩矩矩阵阵和和BLOSUMBLOSUM矩矩矩矩阵阵。三、三、三、三、PAMPAM矩矩矩矩阵阵n nMargaret Dayhoff Margaret Dayhoff 等研究了等研究了3434种蛋白种蛋白种蛋白种蛋白质质超家族超家族超家族超家族(85%85%以上一致性的序列),通以上一致性的序列),通过这过这些些同源蛋同源蛋同源蛋同源蛋白序列白序列白序列白序列的比的比对对,总结总结出一个氨基酸被另一个氨出一个氨基酸被另一个氨基酸替基酸替换换的概率,从而构建出的概率,从而构建出PAMPAM矩矩矩矩阵阵。谁说女子不如男!三、三、三、三、PAMPAM矩矩矩矩阵
19、阵n nPAMPAM(accepted point mutationaccepted point mutation)可接受点突可接受点突可接受点突可接受点突变变 同源同源同源同源蛋白蛋白质质在在进进化化过过程中会出程中会出现现一个氨一个氨基酸被另一个氨基酸替基酸被另一个氨基酸替换换的的现现象,若此种突象,若此种突变变通通通通过过自然自然自然自然选择选择被种群接受被种群接受被种群接受被种群接受,并可,并可见见于后代于后代的基因的基因组组中,便称中,便称为为可接受点突可接受点突可接受点突可接受点突变变。果蝇果蝇 GAKKVIISAP SAD.APM.F VCGVNLDAYK PDMKVVSNAS
20、CTTNCLAPLA 人类人类 GAKRVIISAP SAD.APM.F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA 植物植物 GAKKVIISAP SAD.APM.F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA 细菌细菌 GAKKVVMTGP SKDNTPM.F VKGANFDKY.AGQDIVSNAS CTTNCLAPLA 酵母酵母 GAKKVVITAP SS.TAPM.F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA 古细古细 GAKKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNS
21、ITPVA 果蝇果蝇 KVINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AAQNIIPAST 人类人类 KVIHDNFGIV EGLMTTVHAI TATQKTVDGP SGKLWRDGRG ALQNIIPAST 植物植物 KVVHEEFGIL EGLMTTVHAT TATQKTVDGP SMKDWRGGRG ASQNIIPSST 细菌细菌 KVINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST 酵母酵母 KVINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNI
22、IPSST 古细古细 KVLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AAENIIPTST 果蝇果蝇 GAAKAVGKVI PALNGKLTGM AFRVPTPNVS VVDLTVRLGK GASYDEIKAK 人类人类 GAAKAVGKVI PELNGKLTGM AFRVPTANVS VVDLTCRLEK PAKYDDIKKV 植物植物 GAAKAVGKVL PELNGKLTGM AFRVPTSNVS VVDLTCRLEK GASYEDVKAA 细菌细菌 GAAKAVGKVL PELNGKLTGM AFRVPTPNVS VVDLTVRLEK AATYE
23、QIKAA 酵母酵母 GAAKAVGKVL PELQGKLTGM AFRVPTVDVS VVDLTVKLNK ETTYDEIKKV 古细古细 GAAQAATEVL PELEGKLDGM AIRVPVPNGS ITEFVVDLDD DVTESDVNAA 不同物种不同物种3磷酸甘油磷酸甘油醛脱脱氢酶多序列比多序列比对1、Dayhoffs 可接受点突可接受点突变数目(数目(10)Dayhoff(1978)表示在所研究的同源表示在所研究的同源表示在所研究的同源表示在所研究的同源蛋白中,蛋白中,蛋白中,蛋白中,天冬氨酸天冬氨酸天冬氨酸天冬氨酸被被被被谷氨酸谷氨酸谷氨酸谷氨酸替替替替换换,发发生了生了生了
24、生了83108310次次次次2、氨基酸出氨基酸出现频率率Gly8.9%Arg4.1%Ala8.7%Asn4.0%Leu8.5%Phe4.0%Lys8.1%Gln3.8%Ser7.0%Ile3.7%Val6.5%His3.4%Thr5.8%Cys3.3%Pro5.1%Tyr3.0%Glu5.0%Met1.5%Asp4.7%Trp1.0%blue=6 codons;red=1 codon3、氨基酸的相氨基酸的相对突突变几率几率每种氨基酸每种氨基酸发生突生突变的次数除以的次数除以该氨基酸出氨基酸出现的的总次数次数Asn134His66Ser120Arg65Asp106Lys56Glu102Pro56
25、Ala100Gly49Thr97Tyr41Ile96Phe41Met94Leu40Gln93Cys20Val74Trp18Note that alanine is normalized to a value of 100.TrpTrp and CysCys are least mutable.AsnAsn and SerSer are most mutable.三、三、三、三、PAMPAM矩矩矩矩阵阵n nDayhoff Dayhoff 等根据前述等根据前述观观察到的数据(可接受点突察到的数据(可接受点突变变数目、数目、氨基酸出氨基酸出现频现频率率、氨基酸的相氨基酸的相对对突突变变几率几率)构
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 序列 基础 BLAST 入门 打分 矩阵 复习 过程
限制150内