蛋白质的序列分析及结构预测精选PPT.ppt





《蛋白质的序列分析及结构预测精选PPT.ppt》由会员分享,可在线阅读,更多相关《蛋白质的序列分析及结构预测精选PPT.ppt(139页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于蛋白质的序列分析及结构预测第1页,讲稿共139张,创作于星期三DNA sequenceProtein sequenceProtein structureProtein function第2页,讲稿共139张,创作于星期三一、蛋白质数据库介绍一、蛋白质数据库介绍二、蛋白质序列分析二、蛋白质序列分析三、蛋白质结构预测三、蛋白质结构预测四、应用四、应用 分子设计分子设计第3页,讲稿共139张,创作于星期三一、蛋白质数据库介绍一、蛋白质数据库介绍蛋白质的结构主要分为四级蛋白质的结构主要分为四级,一级结构、二级结构、三级结构以及四一级结构、二级结构、三级结构以及四级结构。依据这种结构层次级结构。依据
2、这种结构层次,将蛋白质数据库分为将蛋白质数据库分为:1.1.蛋白质序列数据库:蛋白质序列数据库:蛋白质序列数据库:蛋白质序列数据库:如如PIR、SWISS-PROT、NCBI,这些数据库的这些数据库的数据主要以蛋白质的序列为主数据主要以蛋白质的序列为主,并赋予相应的注释并赋予相应的注释;2.2.蛋白质模体及结构域数据库:蛋白质模体及结构域数据库:蛋白质模体及结构域数据库:蛋白质模体及结构域数据库:如如PROSITE、Pfam,这些数据库主这些数据库主要收集了蛋白质的保守结构域和功能域的特征序列要收集了蛋白质的保守结构域和功能域的特征序列;3.3.蛋白质结构数据库:蛋白质结构数据库:蛋白质结构数
3、据库:蛋白质结构数据库:如如PDB 等等,这些数据库主要以蛋白质的结构这些数据库主要以蛋白质的结构测量数据为主测量数据为主;4.4.蛋白质分类数据库:蛋白质分类数据库:蛋白质分类数据库:蛋白质分类数据库:如如SCOP、CATH、FSSP 等等,这其中有以序这其中有以序列比较为基础的序列分类数据库以及以结构比较为基础的结构分类列比较为基础的序列分类数据库以及以结构比较为基础的结构分类数据库之分。数据库之分。第4页,讲稿共139张,创作于星期三蛋白质数据库蛋白质数据库特征特征:这些数据库种类有差别,但内部是相互联系的.每个数据库都有指针指向其他数据库,而且数据库之间的序列以及相应的结构是共享的,同
4、一种蛋白质依次会出现在不同的数据库.这样的数据沟通有助于更深层地挖掘蛋白质的内在生物信息,这些数据库是融序列信息的索取、处理、存储、输出于一身的。第5页,讲稿共139张,创作于星期三1.蛋白质序列数据库蛋白质序列数据库(1)PIR(protein information resource,PIR)和和PSD(protein sequence database,PSD)http:/pir.georgetown.edu/pirwww PIR-PSD 是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白质序列数据库。是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白质序列数据库。PIR-PSD
5、 的的序列来自于将序列来自于将GenBank/EMBL/DDBJ 三大数据库的编码序列的翻译而成的蛋白质序列、发三大数据库的编码序列的翻译而成的蛋白质序列、发表的文献中的序列和用户直接提交的序列。表的文献中的序列和用户直接提交的序列。(2)SWISS-PROT/TrEMBL数据库数据库 www.expasy.org/swissprot数据库由蛋白质序列条目构成数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰位点、特殊位点注释中包括蛋白质的功能、转录后修饰位点、特殊位点
6、和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、序列变异体等信息。序列变异体等信息。第6页,讲稿共139张,创作于星期三2.模体以及结构域数据库模体以及结构域数据库模体数据库模体数据库(1)PROSITE 蛋白质家族及结构域数据库蛋白质家族及结构域数据库(www.expasy.org/prosite/)PROSITE 数据库收集了有显著生物学意义的蛋白质位点序列、蛋白质特征序列谱库以及序列模型,并能依据这些特征属性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋白质家族,即使在蛋白质序列相似性很低的情况
7、下,也可以通过搜索隐含的功能结构模体(motif)来鉴定,因此是有效的序列分析数据库。PROSITE 中涉及的序列模式包括酶的催化位点、配体结合位点、金属离子结合位点、二硫键、小分子或者蛋白质结合区域等,此外PROSITE 还包括由多序列比对构建的序列表谱(profile),能更敏感地发现序列中的信息。第7页,讲稿共139张,创作于星期三PROSITE同时数据库提供了序列分析工具同时数据库提供了序列分析工具:ScanProsite 是用于搜索所提交的序列数据是否包含是用于搜索所提交的序列数据是否包含 PROSITE 数据库中的序列模式或者数据库中的序列模式或者SWISS-PROT 数据库数据库
8、中已提交的序列模式中已提交的序列模式;MotifScan 用于查找未知序列中所有可能的已知结构用于查找未知序列中所有可能的已知结构组件组件,数据库包括数据库包括PROSITE序列表谱、序列表谱、PROSITE 模式、模式、Pfam 收集的隐马尔可夫模式收集的隐马尔可夫模式(HMM)。第8页,讲稿共139张,创作于星期三(2)PRINTS Fingerprint Database www.bioinf.man.ac.uk/dbrowser/PRINTS/这个数据库包含1 500 个蛋白质指纹图谱,编码9 136 个单一模体。(3)BLOCKS(www.blocks.fhcrc.org/)BLOC
9、KS 是通过一些高度保守的蛋白质区域比对出来的无空位的片段。模体数据库模体数据库第9页,讲稿共139张,创作于星期三蛋白质结构域数据库蛋白质结构域数据库(1)蛋白质家族序列比对以及隐马尔可夫模式数据库蛋白质家族序列比对以及隐马尔可夫模式数据库Pfam(protein families database of alignments and HMMs)Pfam 是蛋白质家族序列比对以及隐马尔可夫模式数据库,其网址是:www.sanger.ac.uk/Software/Pfam/index.shtml。(2)蛋白质结构域数据库蛋白质结构域数据库ProDom http:/prodes.toulouse
10、.inra.fr/prodom/doc/prodom.html(3)SMART SMART 是一个简单的结构研究工具,可对可转移的遗传因子进行鉴定和注解,以及分析结构域结构,可以检测出500 多个参与信号传导、胞外和染色体相关蛋白质的结构域家族,对这些结构域又在系统进化树分布、功能分类、三级结构和重要的功能残基方面做了注解。http:/smart.embl-heidelberg.de/第10页,讲稿共139张,创作于星期三3.蛋白质结构数据库蛋白质结构数据库PDB(protein data bank,PDB)http:/www.rcsb.org/pdb/PDB 包括了蛋白质、核酸、蛋白质-核酸
11、复合体以及病毒等生物大分子结构数据,主要是蛋白质结构数据,这些数据来源于几乎全世界所有从事生物大分子结构研究的研究机构,并由RCSB 维护和注释。第11页,讲稿共139张,创作于星期三4.蛋白质结构分类数据库蛋白质结构分类数据库(1)CATH 数据库数据库 www.biochem.ucl.ac.uk/bsm/cathnew/index.html(2)SCOP 蛋白质结构分类数据库蛋白质结构分类数据库(structural classification of protein database,SCOP)scop.mrclmb.cam.ac.uk/scop/index.html第12页,讲稿共13
12、9张,创作于星期三二、蛋白质的序列分析二、蛋白质的序列分析1.蛋白质序列信息的获取蛋白质序列信息的获取 2.蛋白质序列分析蛋白质序列分析 第13页,讲稿共139张,创作于星期三1.蛋白质序列信息的获取蛋白质序列信息的获取(1)直接测序直接测序(2)翻译编码的翻译编码的DNA序列序列 ORF Finder(3)在数据库中搜索)在数据库中搜索运用运用ID 号、入口号、条目号等搜索。号、入口号、条目号等搜索。运用关键词搜索运用关键词搜索其他方式搜索。如可以通过引用序列的文献、序列的其他方式搜索。如可以通过引用序列的文献、序列的作者、序列提交的日期等进行搜索。作者、序列提交的日期等进行搜索。第14页,
13、讲稿共139张,创作于星期三(1 1)直接测序)直接测序e.g.Protein Sequencing and Identificationby Tandem Mass Spectrometry,即用串联质谱仪测序1.1.蛋白质序列信息的获取蛋白质序列信息的获取蛋白质序列信息的获取蛋白质序列信息的获取第15页,讲稿共139张,创作于星期三串联质谱及其作用串联质谱及其作用 两个或更多的质谱连接在一起,称为串联质谱。最简单的串联质谱(MS|MS)由两个质谱串联而成,其中第一个质量分析器(MS1)将离子预分离或加能量修饰,由第二级质量分析器(MS2)分析结果。第16页,讲稿共139张,创作于星期三 串
14、联质谱仪的组合方式:串联质谱仪的组合方式:(1)磁分析器-静电分析器-磁分析器(2)静电分析器-磁分析器-静电分析器(3)三重四极滤质器质谱仪(4)混合式串联质谱仪,如MA-ESA-Q-Q。实现串联质谱有空间串联和时间串联两种方式。第17页,讲稿共139张,创作于星期三 优点:优点:可以避免底物分子产生的干扰,大大降低背景噪音。其次,可使分子离子通过与反应气的碰撞来产生断裂。因此能提供更多的结构信息,所以串联质谱特别适合于复杂组分体系且干扰严重的样品中低含量组分分析测定,具有比GC-MS和LC-MS等一级质谱更高的选择性和灵敏度。第18页,讲稿共139张,创作于星期三Masses of Ami
15、no Acid Residues第19页,讲稿共139张,创作于星期三Protein backboneH.-HN-CH-CO-NH-CH-CO-NH-CH-CO-OHRi-1RiRi+1AA residuei-1AA residueiAA residuei+1N-terminusC-terminus第20页,讲稿共139张,创作于星期三Breaking Protein into Peptides and Peptides into Fragment IonsProteases,e.g.trypsin(胰蛋白酶),break protein into peptides.A Tandem Mass
16、 Spectrometer(串联式质谱仪)further breaks the peptides down into fragment ions and measures the mass of each piece.General for sequencing第21页,讲稿共139张,创作于星期三Breaking Protein into Peptides and Peptides into Fragment IonsMass Spectrometer accelerates the fragmented ions;heavier ions accelerate slower than li
17、ghter ones.Mass Spectrometer measure mass/charge ratio of an ion.General for sequencing第22页,讲稿共139张,创作于星期三Peptide FragmentationPeptides tend to fragment along the backbone.Fragments can also loose neutral chemical groups like NH3 and H2O.H.-HN-CH-CO .NH-CH-CO-NH-CH-CO-OHRi-1RiRi+1H+Prefix FragmentSu
18、ffix FragmentCollision Induced Dissociation第23页,讲稿共139张,创作于星期三N-and C-terminal PeptidesN-terminal peptidesC-terminal peptides第24页,讲稿共139张,创作于星期三Terminal peptides and ion typesPeptideMass(D)57 +97 +147+114 =415PeptideMass(D)57 +97 +147+114 18=397without第25页,讲稿共139张,创作于星期三N-and C-terminal PeptidesN-te
19、rminal peptidesC-terminal peptides415 486 30115457 71185332429第26页,讲稿共139张,创作于星期三N-and C-terminal PeptidesN-terminal peptidesC-terminal peptides415 486 30115457 71185332429第27页,讲稿共139张,创作于星期三Peptide Fragmentationy3b2y2y1b3a2a3 HO NH3+|R1 O R2 O R3 O R4|H-N-C-C-N-C-C-N-C-C-N-C-COOH|H H H H H H H b2-H
20、2O y3-H2Ob3-NH3y2-NH3第28页,讲稿共139张,创作于星期三Mass SpectraGVDLKmass057 Da=G 99 Da=VLK DVGThe peaks in the mass spectrum:Prefix Fragments with neutral losses(-H2O,-NH3)Noise and missing peaks.and Suffix Fragments.DH2O第29页,讲稿共139张,创作于星期三Protein Identification with MS/MSGVDLKmass0Intensitymass0MS/MSPeptide I
21、dentification:第30页,讲稿共139张,创作于星期三Tandem Mass-Spectrometry第31页,讲稿共139张,创作于星期三Breaking Proteins into PeptidespeptidesMPSERGTDIMRPAKIDHPLCTo MS/MSMPSERGTDIMRPAKID.protein第32页,讲稿共139张,创作于星期三Mass SpectrometryMatrix-Assisted Laser Desorption/Ionization(MALDI)基质辅助激光解吸质谱基质辅助激光解吸质谱 第33页,讲稿共139张,创作于星期三基质辅助激光解
22、吸飞行时间质谱仪基质辅助激光解吸飞行时间质谱仪 MALDI-TOF-MS MALDI-TOF-MS是近年来发展起来的一种软电离新型有机质谱。近年来已成为检测和鉴定多肽、蛋白质、多糖、核苷酸、糖蛋白、高聚物以及多种合成聚合物的强有力工具。原理:原理:当用一定强度的激光照射样品与基质形成的共结晶薄膜,基质从激光中吸收能量,基质-样品之间发生电荷转移使得样品分子电离,电离的样品在电场作用下加速飞过飞行管道,根据到达检测器的飞行时间不同而被检测,即测定离子的质量电荷之比与离子的飞行时间成正比来检测离子。MALDI-TOF-MS的中心技术就是依据样品的质荷比(m/z)的不同来进行检测,并测得样品分子的分
23、子量。第34页,讲稿共139张,创作于星期三Tandem Mass SpectrometryScan 1708LCScan 1707MSMS/MSIonSourceMS-1collisioncellMS-2第35页,讲稿共139张,创作于星期三多肽片段指纹图谱多肽片段指纹图谱(PFF)步骤:用酶专一性酶解蛋白质,经过分离,得到的肽段在质谱中被选择和破碎后得到MS/MS谱图,与数据库中的谱图比较进行鉴定 代表方法:LC-ESI-MS/MS 2D-LC-MS/MS(shotgun)第36页,讲稿共139张,创作于星期三1.1.蛋白质序列信息的获取蛋白质序列信息的获取蛋白质序列信息的获取蛋白质序列信
24、息的获取(2 2)翻译编码的)翻译编码的DNADNA序列序列 e.g.用“ORF Finder”程序找到DNA的开放阅读框。网址:ncbi.nlm.nih.gov/gorf/gorf.html第37页,讲稿共139张,创作于星期三第38页,讲稿共139张,创作于星期三第39页,讲稿共139张,创作于星期三1.1.蛋白质序列信息的获取蛋白质序列信息的获取蛋白质序列信息的获取蛋白质序列信息的获取(3 3)在数据库中搜索)在数据库中搜索e.g.PIR-PSD database:pir.georgetown.edu/pirwww SWISS-PROT/TrEMBL database www.expas
25、y.org/swissprot第40页,讲稿共139张,创作于星期三目前大部分蛋白质序列是通过目前大部分蛋白质序列是通过DNA DNA 人工翻译过来人工翻译过来的的,实际上很少有人能获得真正的蛋白质实际上很少有人能获得真正的蛋白质,因而实因而实验证据就很难直接获得验证据就很难直接获得,因此对蛋白质序列初始因此对蛋白质序列初始分析是很有价值的。分析是很有价值的。比如,通过一些序列分析工具进行蛋白质理化特比如,通过一些序列分析工具进行蛋白质理化特性的预测、修饰位点的预测等。性的预测、修饰位点的预测等。2.蛋白质序列分析蛋白质序列分析第41页,讲稿共139张,创作于星期三1.1.蛋白质序列的基本性质
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 蛋白质 序列 分析 结构 预测 精选 PPT

限制150内