蛋白质结构预测精选课件.ppt
《蛋白质结构预测精选课件.ppt》由会员分享,可在线阅读,更多相关《蛋白质结构预测精选课件.ppt(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于蛋白质结构预测第一页,本课件共有56页内内 容容1.概述概述2.蛋白质的序列分析蛋白质的序列分析3.蛋白质二级结构预测蛋白质二级结构预测4.蛋白质三维结构的预测蛋白质三维结构的预测5.主要生物信息学资源(蛋白质数据库)主要生物信息学资源(蛋白质数据库)6.生物信息学方法的应用(简单介绍)生物信息学方法的应用(简单介绍)7.预测蛋白性质和结构预测蛋白性质和结构第二页,本课件共有56页一、概述一、概述1.蛋白质结构研究的重要性蛋白质结构研究的重要性l基因序列基因序列蛋白质序列蛋白质序列蛋白质空间构象蛋白质空间构象生物功能生物功能l解析解析蛋白质的空间蛋白质的空间结构结构有利于有利于认识认识蛋白
2、质的功能?蛋白质的功能?认认识识蛋白质是如何执行功能的?蛋白质是如何执行功能的?认识认识结构与功能结构与功能的关系?的关系?l基础基础设计和创造新蛋白设计和创造新蛋白第三页,本课件共有56页l现代结构测定技术虽然现代结构测定技术虽然发展迅速发展迅速,但是,但是非常复杂非常复杂,费用很高。,费用很高。特别是已知结构的蛋白质,反复测定,费用高昂特别是已知结构的蛋白质,反复测定,费用高昂l基因组序列分析基因组序列分析导出大量的蛋白序列导出大量的蛋白序列但蛋白的但蛋白的空间结构空间结构未知未知?l结构测定结构测定面临的巨大挑战面临的巨大挑战蛋白质种类数量庞大,依靠蛋白质种类数量庞大,依靠结构测定方法结
3、构测定方法获得空间获得空间结构信息面临巨大挑战结构信息面临巨大挑战?l假如假如研究中研究中对对cDNAcDNA翻译的序列翻译的序列高级结构高级结构一无所知,一无所知,首先通过结构预测,提供实验设计思路首先通过结构预测,提供实验设计思路?需要发展需要发展理论分析方法理论分析方法预测蛋白质的结构预测蛋白质的结构2.为什么要进行蛋白质结构的预测为什么要进行蛋白质结构的预测?第四页,本课件共有56页3.3.蛋白质结构预测的蛋白质结构预测的可行性分析可行性分析可行性分析可行性分析Anfinsen Anfinsen 原理:蛋白去折叠原理:蛋白去折叠 重新折叠重新折叠 生物学活性能够完全恢生物学活性能够完全
4、恢复,说明复,说明高级结构高级结构高级结构高级结构的的信息信息信息信息蕴含在蕴含在一级结构一级结构一级结构一级结构中。因此,中。因此,设法设法以以一级结构一级结构来来推推测测高级结构具有高级结构具有理论上理论上理论上理论上的可行性的可行性的可行性的可行性。结构分析表明:有些结构分析表明:有些蛋白之间蛋白之间具有具有很高的很高的同源性,根据蛋白质结构和功能的同源性,根据蛋白质结构和功能的高同源性高同源性关系预测关系预测未知蛋白质未知蛋白质结构,在结构,在理论理论和和实践实践上是上是可行的可行的。蛋白质结构预测蛋白质结构预测已有已有大量研究大量研究和和成功实例成功实例,提供了实践上的,提供了实践上
5、的可行性可行性。分子生物学分子生物学和和生物信息学生物信息学等技术的发展,有可能等技术的发展,有可能直接直接从一级序列出发,从一级序列出发,预测蛋白质的预测蛋白质的高级结构,为高级结构的预测提供了保障。高级结构,为高级结构的预测提供了保障。因此,蛋白质因此,蛋白质高级结构高级结构的的预测预测是可行的,而且成本相对低廉。是可行的,而且成本相对低廉。第五页,本课件共有56页4.蛋白质结构预测的目的蛋白质结构预测的目的已知蛋白一级结构序列已知蛋白一级结构序列 预测或测定预测或测定预测或测定预测或测定构建构建立体立体立体立体结构模型结构模型 预测或测定预测或测定预测或测定预测或测定结构与功能研究结构与
6、功能研究 设计设计设计设计蛋白质新分子蛋白质新分子 蛋白质结构改造蛋白质结构改造蛋白质结构改造蛋白质结构改造 或或或或 创造新分子创造新分子创造新分子创造新分子(生产实践中应用)(生产实践中应用)(生产实践中应用)(生产实践中应用)第六页,本课件共有56页获得一级序列获得一级序列寻找同源蛋白寻找同源蛋白依据同源蛋白晶体结构依据同源蛋白晶体结构构建结构模型构建结构模型5.结构预测的主要思路结构预测的主要思路同源建模(同源建模(Holology Modeling)折叠识别(折叠识别(Fold Recognition)从头计算(从头计算(Ab Initio)获得一级序列获得一级序列没有同源蛋白没有同
7、源蛋白二级结构预测二级结构预测超二级结构结构预测超二级结构结构预测三级结构结构预测三级结构结构预测构建结构模型构建结构模型第七页,本课件共有56页第一节第一节 蛋白质序列分析蛋白质序列分析序列同源性分析序列同源性分析双重序列比对双重序列比对多重序列比对多重序列比对第八页,本课件共有56页1.序列同源性分析序列同源性分析?l概念:与已知的序列进行比对,找出同源性序列,从中概念:与已知的序列进行比对,找出同源性序列,从中获取未知该序列获取未知该序列蛋白的蛋白的性质和结构信息性质和结构信息的过程。的过程。l方法:目标序列方法:目标序列数据库序列比对数据库序列比对寻找同源寻找同源得分高得分高的序列的序
8、列获得获得如下信息如下信息未知蛋白质未知蛋白质aa组成、组成、pI、MW、疏水区等性质、疏水区等性质保守保守位点、位点、活性活性位点等位点等建立蛋白质之间的建立蛋白质之间的进化进化关系关系二级和三级结构二级和三级结构预测预测信息信息预测蛋白质的折叠块模式(二级结构与氨基酸关系,一级结构与三级结构预测蛋白质的折叠块模式(二级结构与氨基酸关系,一级结构与三级结构关系)关系)l意义:意义:获取获取未知高级结构未知高级结构蛋白的蛋白的性质和结构信息,性质和结构信息,对蛋白质的性质和结构对蛋白质的性质和结构进一步实验研究进一步实验研究具有指导作用。具有指导作用。第九页,本课件共有56页第十页,本课件共有
9、56页2.双重序列比对双重序列比对:概念:概念:两个序列两个序列 之间比较序列,通过之间比较序列,通过aa残基数匹配,反映序列间残基数匹配,反映序列间同源性高低同源性高低的程度和的程度和序列序列相似的相似的程度。程度。(1)原理)原理序列序列最小比较单位最小比较单位是是aa残基,即是残基,即是 每个每个aa残基残基代表一个结构单元代表一个结构单元通过通过二维矩阵的方法二维矩阵的方法,寻找两个,寻找两个序列的序列的最大匹配最大匹配路径路径;允许两个序列上允许两个序列上插入或删除插入或删除一些一些aa残基(残基(gap)获得残基获得残基最大匹配最大匹配数量数量。(2)打分矩阵类型打分矩阵类型:由:
10、由计算机软件计算机软件计算机软件计算机软件完成完成依据依据aa所对应的所对应的核苷酸核苷酸变异的分析方法变异的分析方法GC GCM GDM:依据依据aa所对应的所对应的物化性质物化性质的分析方法的分析方法Rao:依据依据aa侧链的疏水侧链的疏水性质性质的分析方法的分析方法HYDOR:aa在一组相关蛋白质中在一组相关蛋白质中相互间的相互间的替代关系替代关系MD PAM:结构打分矩阵结构打分矩阵.蛋白蛋白拓扑结构拓扑结构相应相应区域区域氨基酸残基的氨基酸残基的取代关系取代关系RIS:依据依据aa残基的残基的主链二面角主链二面角()分布)分布SCM:氨基酸残基的氨基酸残基的空间倾向因子空间倾向因子S
11、CMm,SCFs:第十一页,本课件共有56页(3)打分矩阵的)打分矩阵的gap值值 gapgap:序列中的序列中的aa残基的残基的插入和删除插入和删除。序列比对中允许有序列比对中允许有“gap”存在,扣除存在,扣除gap值,打分仍最高。值,打分仍最高。(4)矩阵打分)矩阵打分来自统计的结果来自统计的结果反映反映蛋白质家族蛋白质家族的的共性共性。如免疫球蛋白家族、白蛋白家族。如免疫球蛋白家族、白蛋白家族序列比对:仅在序列比对:仅在一定程度上一定程度上反映结构的反映结构的相似性相似性。结构打分矩阵序列比较结构打分矩阵序列比较是一种是一种类结构类结构比较法,比较法,提高结构相似性提高结构相似性(5)
12、双重比对的)双重比对的实例实例:l同种蛋白不同亚基,同种蛋白不同亚基,人血红蛋白人血红蛋白两个链同源性两个链同源性73%(P62)l不同来源同功蛋白,不同来源同功蛋白,人和软体动物人和软体动物肌红蛋白肌红蛋白同源性同源性22%(P63)同源性高,不同打分矩阵给出结果相同源性高,不同打分矩阵给出结果相一致一致。同源性低,不同打分矩阵给出结果有不同。同源性低,不同打分矩阵给出结果有不同。原因:主要由于序列原因:主要由于序列不保守不保守区区匹配不一致匹配不一致导致。导致。第十二页,本课件共有56页3.多重序列比对多重序列比对(Multiple sequence alignment;MSA)(1)多重
13、序列比对)多重序列比对三个以上的序列(蛋白、三个以上的序列(蛋白、DNA 等)等)相互间相互间的序列比对。的序列比对。l 推导出推导出序列序列之间的之间的同源性程度同源性程度 序列之间的序列之间的种系发生种系发生关系关系 蛋白质结构域的三维结构与二蛋白质结构域的三维结构与二级结构等。级结构等。图图3 基于细胞质砷还原蛋白氨基酸序列的系统发育分析基于细胞质砷还原蛋白氨基酸序列的系统发育分析第十三页,本课件共有56页(2)多重序列比对方法)多重序列比对方法多重序列比较以多重序列比较以双重序列比较为基础双重序列比较为基础序列比对给出序列比对给出显著性得分显著性得分的方法的方法假设假设6个序列,要得到
14、个序列,要得到显著性得分显著性得分,将序列重排,将序列重排100次,次,分别求出分别求出每两对序列每两对序列的的显著性得分显著性得分,需要进行,需要进行C62101=1515(次)(次)归一化归一化比对得分比对得分“NAS值值”与与“显著性得分显著性得分”成正比成正比NAS:两个序列的(:两个序列的(最大显著性得分)最大显著性得分)与与与与(序列长度)序列长度)的的比值比值(归一化处理归一化处理)NAS值高的一对序列,即是值高的一对序列,即是同源性最高的序列同源性最高的序列多重序列比对:多重序列比对:最先考虑最先考虑两个两个同源性高同源性高的序列,的序列,再挑选再挑选NAS值较高值较高的的第三
15、个序列第三个序列进行比对,进行比对,依次类推,获得依次类推,获得全部序列全部序列的的同源性同源性高低排列。高低排列。如:如:feng-Doolite法和法和Barton-Sternberg法等。法等。第十四页,本课件共有56页u双重序列比双重序列比对与对与多重序列多重序列比对关系比对关系双重比对:目标序列与其它系列的双重比对:目标序列与其它系列的同源性同源性和和结构相似结构相似性比较。性比较。一条系列一条系列与其它多条序列的比对。与其它多条序列的比对。多重比对:包括目标系列在内的多重比对:包括目标系列在内的多条系列多条系列之间之间相互关系相互关系的比较。的比较。多条序列多条序列之间之间每两条每
16、两条序列之间均进行相互比较。序列之间均进行相互比较。双重序列比较是多重比对的基础,双重序列比较是多重比对的基础,相互之间相互之间进行进行多重比对多重比对,找出它们之间,找出它们之间相互相互的的种系发生关系种系发生关系和和高级结构高级结构的关系。的关系。首先进行双重比对,选择出同源性较高的序列,然后进行多重比较,获得目标序列更多首先进行双重比对,选择出同源性较高的序列,然后进行多重比较,获得目标序列更多的信息。的信息。第十五页,本课件共有56页第二节第二节 蛋白质二级结构的预测蛋白质二级结构的预测l 二级结构预测二级结构预测是研究是研究蛋白质蛋白质 折叠问题折叠问题 的主要内容的主要内容之一,之
17、一,也是获得也是获得新氨基酸序列新氨基酸序列结构信息结构信息的的一般方法。一般方法。蛋白质分子中蛋白质分子中 二级结构二级结构具有具有较强较强的规律性的规律性,每一段每一段相邻的氨基酸相邻的氨基酸具有具有形成形成二级结构的倾向二级结构的倾向,二级结构二级结构预测预测常作为常作为局部结构局部结构预测和预测和三维空间结构三维空间结构预测的预测的基础基础。第十六页,本课件共有56页1、预测方法:、预测方法:有几十种,有几十种,归纳为归纳为3大类大类统计法、基于已有知识的预测方法、混合方法统计法、基于已有知识的预测方法、混合方法2、预测的原则、预测的原则以以aa残基残基为预测单位为预测单位假定蛋白假定
18、蛋白二级结构二级结构主要由主要由临近残基间临近残基间的相互作用决定。的相互作用决定。对对已知结构已知结构蛋白分析、归纳,蛋白分析、归纳,制定制定预测规则预测规则。3、以以Chou&Fasman(20th70)的方法为例进行讨论的方法为例进行讨论思路思路基于单个基于单个aa残基统计的残基统计的经验参数经验参数法法 预测二级结构预测二级结构通过于对大量通过于对大量已知蛋白结构已知蛋白结构进行统计进行统计归纳归纳出出每种每种aa残基残基的二级结构的二级结构倾向因子倾向因子第十七页,本课件共有56页(1)Chou&Fasman预测预测二级结构二级结构参数参数定义定义每个每个aa残基具有残基具有7个参数
19、个参数,依据,依据7个参数,预测二级结构个参数,预测二级结构氨基酸残基的参数的定义氨基酸残基的参数的定义P、P、和、和Pt:分别为形成:分别为形成螺旋、折叠螺旋、折叠和和转角转角的的倾向性倾向性。f(i)、f(i+1)、f(i+2)、f(i+3):相邻相邻四个残基的四个残基的转角参数转角参数。f:每个:每个aa残基在第一、第二、第三和第四位的残基在第一、第二、第三和第四位的频度频度如:如:Pro:30%在第二位,第三位在第二位,第三位 100),即为螺旋核。),即为螺旋核。-螺旋的定义螺旋的定义沿序列寻找沿序列寻找-螺旋核螺旋核,向两端延伸,直至,向两端延伸,直至4个残基个残基P 5,P 均值
20、均值 P均值,则该片段为螺旋均值,则该片段为螺旋螺旋内部螺旋内部不允许不允许Pro出现,出现,Pro终止螺旋的延伸。终止螺旋的延伸。第二十页,本课件共有56页-2、-折叠规则和定义折叠规则和定义-折叠折叠核核,相邻的,相邻的6个残基个残基,至少,至少4个残基倾向个残基倾向形成形成-折叠,(折叠,(4个残个残基的基的P 100),即为折叠),即为折叠核核。沿序列寻找沿序列寻找-折叠核折叠核,向两端延伸,直至,向两端延伸,直至4个残基个残基P 105,且,且 P 均值均值 P均值均值定义该片段为定义该片段为-折叠折叠Glu:中断折叠:中断折叠第二十一页,本课件共有56页-3、转角规则和定义、转角规
21、则和定义转角模型转角模型为为4肽肽组合模型组合模型,要考虑,要考虑每个位置每个位置上残基上残基组合组合的概率的概率,(特定氨基,(特定氨基酸在每个位置上的概率)酸在每个位置上的概率)从第从第i个残基开始,个残基开始,连续连续4个残基个残基的片段,其的片段,其概率相乘概率相乘,根据计算结果判定是,根据计算结果判定是否转角否转角若:若:f(i)f(i+1)f(i+2)f(i+3)7.5 10.5若:若:四肽四肽 Pt 100,且,且 Pt P,Pt P判定为转角结构判定为转角结构第二十二页,本课件共有56页-4、重叠规则、重叠规则若预测的肽段若预测的肽段螺旋区和折叠区重叠,螺旋区和折叠区重叠,按照
22、重叠区域按照重叠区域P 均值和均值和 P均值均值相对大小相对大小进行预测进行预测P 均值均值 P均值,预测为螺旋均值,预测为螺旋P 均值均值 P均值,预测为折叠均值,预测为折叠第二十三页,本课件共有56页本节小结本节小结l重点讲述了重点讲述了Chou&Fasman预测方法和规则预测方法和规则-螺旋规则螺旋规则-折叠规则折叠规则 转角规则转角规则 重叠规则重叠规则l二级结构预测方法和原理二级结构预测方法和原理简单明了简单明了,l二级结构参数的二级结构参数的物理意义明确物理意义明确,l二级结构二级结构成核成核、延伸延伸、终止规则,终止规则,反映了蛋白质反映了蛋白质二级结构形成二级结构形成过程。过程
23、。l该方法的预测准确率在该方法的预测准确率在50%左右左右。第二十四页,本课件共有56页第三节第三节 蛋白质三维结构预测蛋白质三维结构预测一、蛋白质三维结构的理论预测:一、蛋白质三维结构的理论预测:利用计算机,根据利用计算机,根据已有理论已有理论和和已知已知aa序列序列等信息来等信息来预测蛋白质的三级结构。预测蛋白质的三级结构。二、三维结构预测的复杂性二、三维结构预测的复杂性是目前最复杂、最困难的技术?是目前最复杂、最困难的技术?蛋白质蛋白质序列与结构序列与结构之间的关系非常之间的关系非常复杂复杂,已经已经掌握了掌握了一些序列一些序列与与二级结构二级结构之间的关系之间的关系关于关于aa序列序列
24、与与三维结构三维结构之间的关系之间的关系了解较少。了解较少。序列相似的序列相似的蛋白可能折叠成蛋白可能折叠成相似相似的三维结构,的三维结构,序列差异较大序列差异较大的蛋白质的蛋白质也可能也可能折叠成折叠成相似相似的结构,的结构,分子伴侣存在下,蛋白的折叠问题分子伴侣存在下,蛋白的折叠问题更加复杂更加复杂。第二十五页,本课件共有56页三、蛋白质三维结构预测的理论三、蛋白质三维结构预测的理论 三维结构分析表明:三维结构分析表明:三维结构堆积的三维结构堆积的次级作用力次级作用力和和二硫键等二硫键等在维系三维结构具有重要在维系三维结构具有重要的作用,对蛋白质的作用,对蛋白质三维结构预测三维结构预测具有
25、重要作用。具有重要作用。二级结构与三级结构之间的二级结构与三级结构之间的序列模体序列模体(motif)、)、结构域结构域(domain)和和折叠单元折叠单元(fold)对蛋白质)对蛋白质三维结构预测三维结构预测具有重要作用。具有重要作用。四、预测的方法(四、预测的方法(3类)类)1、同源建模(、同源建模(Holology Modeling)2、折叠识别(、折叠识别(Fold Recognition)3、从头计算(、从头计算(Ab Initio)第二十六页,本课件共有56页1、同源建模、同源建模(1)概念)概念:又称又称比较性模拟比较性模拟,利用,利用已知结构已知结构的同源蛋白和蛋白质家族中的蛋
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 蛋白质 结构 预测 精选 课件
限制150内