《第6章蛋白质生物信息学课件.ppt》由会员分享,可在线阅读,更多相关《第6章蛋白质生物信息学课件.ppt(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第6章蛋白质生物信息学第1页,此课件共46页哦第一节生物信息学与蛋白质工程一、生物信息学概述生物信息学是利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。1987年,林华安首创Bioinformation一词,被誉为”世界生物信息之父”。第2页,此课件共46页哦生物信息学分子生物学与信息技术(尤其是互联网技术)的结合体。n研究材料和结果就是各种各样的生物学数据n研究工具是计算机n研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。概述第3页,此课件共46页哦研究内容n1、生物信息的收集、存储、管理与提供n2、基因组序列信息的提取和分析
2、n3、功能基因组相关信息分析n4、生物大分子结构模拟和药物设计n5、生物信息分析的技术与方法研究第4页,此课件共46页哦2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮。由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每天106bp速度增长,生物信息迅速地膨胀成数据的海洋。毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能。“生物信息学”正是从这一前提产生的交叉学科。发展条件第5页,此课件共46页哦核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列,结构,演化及其与生物功能之间的关
3、系。研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域。第6页,此课件共46页哦n以数据(库)为核心n1 数据库的建立n2 生物学数据的检索n3 生物学数据的处理n4 生物学数据的利用:计算生物学研究过程第7页,此课件共46页哦由于生物信息学是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密。在处理大规模数据方面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的结果。研究展望第8页,此课件共46页哦要真正解决这一问题,最终不能从计算机科学得到
4、,真正地解决可能还是得从生物学自身,从数学上的新思路来获得本质性的动力。毫无疑问,正如Dulbecco1986年所说:DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关。但要完全破译这一序列以及相关的内容,我们还有相当长的路要走。研究展望第9页,此课件共46页哦二、生物信息学与蛋白质工程(一)蛋白质序列分析,预测其理化性质、空间结构及生物学功能(二)蛋白质结构预测理论分析法:在理论计算的基础上预测统计分析法:建立序列-结构的映射模型(三)蛋白质功能预测P162(四)蛋白质分子设计第10页,此课件共46页哦三、生物信息学与蛋白质组学n1994、澳大利亚Wilkins和Will
5、ians提出蛋白质组:由全部基因表达的全部蛋白质及其存在方式,是一种细胞、组织或完整的生命体在特定时空上所拥有的全套蛋白质n蛋白质组学:以蛋白质为研究对象,阐明某生物体全部蛋白质的表达模式及功能模式n生物信息学理论、技术方法和软件等在蛋白质组学相关数据库的建立、应用以及蛋白质组分析等方面具有重要的应用第11页,此课件共46页哦n生物信息学作为一门新的学科领域,把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。n基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。第12页,此课件共4
6、6页哦第二节 蛋白质常用数据库及应用n一次数据库:实验获得的原始数据。简单归类整理、注释。Genbank、Swiss-Prot、PDBn二次数据库:在一次数据库、实验数据和理论分析的基础上,根据研究内容的需要,对相关生物知识和信息进一步分析整理。包括人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等。第13页,此课件共46页哦第二节、蛋白质常用数据库一、核酸数据库一、核酸数据库 NCBI的Genbank、EMBL、DDBJ等第14页,此课件共46页哦二、蛋白质数据库(一)蛋白序列数据库:SWISS-PROT、PIR、TreEMBL、UniProt、Ge
7、nPept第15页,此课件共46页哦(二)蛋白序列二次数据库蛋白保守区域和功能位点数据库,PROSITE、PRINTS、BLOCKS第16页,此课件共46页哦(三)蛋白结构数据库三维结构数据库PBD、MMDB第17页,此课件共46页哦全人源抗全人源抗EGFR单克隆抗体单克隆抗体n红色字体为信号肽,标黄部分为可变区重链可变区(HV)DNA序列(423bp)nATGGATTTTCAGGTGCAGATTTTCAGCTTCCTGCTAATCAGTGCCTCAGTCATAATATCCAGAGGA CAGGTGCAGCTGCAGGAGTCnGGGCCCAGGACTGGTGAAGCCTTCGGAGACCCT
8、GTCCCTCACCTGCACTGTCTCTGGTGGCTCCGTCAGCAGTGGTGATTACTACTGGACCTGGATTCGGCAGTCCCCAGGGAAGGGACTGGAGTGGATTGGACACATCTATTACAGTGGGAACACCAATTATAACCCCTCCCTCAAGAGCAGACTCACCATATCAATTGACACGTCCAAGACTCAGTTCTCCCTGAAGCTGAGTTCTGTGACCGCTGCGGACACGGCCATTTATTACTGTGTGCGAGATCGAGTGACTGGTGCTTTTGATATCTGGGGCCAAGGGACAATGGTCACCGTCTC
9、TTCA 第18页,此课件共46页哦nATGGATTTTCAGGTGCAGATTTTCAGCTTCCTGCTAATCAGTGCCTCAGTCATAATATCCAGAGGAGacatccagatgacccagtctccatcctccctgtctgcatctgtaggagacagagtcACCATCACTTGCCAGGCGAGTCAGGACATCAGCAACTATTTAAATTGGTATCAGCAGAAACCAGGGAAAGCCCCTAAACTCCTGATCTACGATGCATCCAATTTGGAAACAGGGGTCCCATCAAGGTTCAGTGGAAGTGGATCTGGGACAGATTTTAC
10、TTTCACCATCAGCAGCCTGCAGCCTGAAGATATTGCAACATATTTCTGTCAACACTTTGATCATCTCCCGCTCGCTTTCGGCGGAGGGACCAAGGTGGAGATCAAACGT ACTGTGGCTGCACCATCTGTCTTCATCTTCCnCGCCATCTGATGAGCAGTTGAAATCTGGAACTGCCTCTGTTGTGTGCCTGCTGAATAACTTCTATCCCAGAGAGGCCAAAGTACAGTGGAAGGTGGATAACGCCCTCCAATCGGGTAACTCCCAGGAGAGTGTCACAGAGCAGGACAGCAAGGACAGC
11、ACCTACAGCCTCAGCAGCACCCTGACGCTGAGCAAAGCAGACTACGAGAAACACAAAGTCTACGCCTGCGAAGTCACCCATCAGGGCCTGAGCTCGCCCGTCACAAAGAGCTTCAACAGGGGAGAGTGTn轻链全长(L)DNA序列(708bp)第19页,此课件共46页哦nGGTGGTGGTGGCTCTGGCGGTGGTGGCTCTGGTGGCGGTGGTTCT n连接肽(G4S)3n蛋白质分子设计:VH-L-LVHVLCLlinker第20页,此课件共46页哦第21页,此课件共46页哦利用DNAman对VH-L-L的限制性内切酶位点分析,结
12、果显示VH-L-L有31个限制性酶切位点,最多的是Eco57、Tthlll分别有三个酶切位点。第22页,此课件共46页哦第23页,此课件共46页哦利用生物信息学软件利用生物信息学软件DNAman将将VH-L-L的核苷酸序列翻的核苷酸序列翻译为氨基酸序列译为氨基酸序列第24页,此课件共46页哦 利用NCBI提供的ORF Finder预测VH-L-L的ORF,从预测结果看出VH-L-L是一段连续的较长的ORF,它可能是一个完整的编码序列 第25页,此课件共46页哦 利用ProtParam对VH-L-L的氨基酸序列及基本理化性质进行了分析。结果显示VH-L-L蛋白由392个氨基酸组成的稳定蛋白,分子
13、式为C1867H2894N494O596S11,分子量42149.1,等电点5.98。理论推导半衰期为:30h(体外,哺乳动物的网织红细胞内)、20h(体内,酵母细胞内)、10h(体内,大肠杆菌)。不稳定参数是38.92,属于稳定蛋白。含的氨基酸如图所示:Ser(S),Glu(G),Thr(T)最多,分别占15.1,99,7.7;不含Pyl(0),Sec(U)。总带正电荷残基(Asp+Glu)为32,负电荷残基(Arg+Lys)为29。总的亲水性平均系数-0.169,预测该蛋白属于亲水性蛋白。第26页,此课件共46页哦第27页,此课件共46页哦第28页,此课件共46页哦蛋白质的亲疏水性是影响蛋
14、白质空间结构的因素之一。利用ProtScale分析氨基酸亲水性/疏水性,预测结果显示该氨基酸序列中亲水性和疏水性区域间隔存在,小部分为中性,在氨基酸序列20、170处出现了较高的疏水性,此处富含疏水性氨基酸。总体来说,亲水氨基酸多于疏水氨基酸,因此可以认为VH-L-L是亲水性蛋白 第29页,此课件共46页哦第30页,此课件共46页哦 利用Tmpred分析VH-L-L的跨膜区,分析表明,该序列无跨膜区,不是跨膜蛋白。可以预测该蛋白在膜外 第31页,此课件共46页哦n利用NetPhos进行磷酸化位点分析,结果显示磷酸化位点主要包括丝氨酸Ser位点:28个,苏氨酸Thr:5 个,酪氨酸Tyr:3个
15、第32页,此课件共46页哦n 利用TargetP对VH-L-L蛋白的亚细胞定位进行预测,结果表明,VH-L-L是分泌到细胞周质的蛋白 第33页,此课件共46页哦III 蛋白质二级结构预测蛋白质二级结构预测蛋白质蛋白质 序列:序列:二级结构:二级结构:第34页,此课件共46页哦1、二级结构预测概述、二级结构预测概述蛋白质的二级结构预测的蛋白质的二级结构预测的基本依据基本依据是:是:每一段相邻的氨基酸残基具有形成一定二每一段相邻的氨基酸残基具有形成一定二级结构的倾向。级结构的倾向。二级结构预测问题是模式分类问题二级结构预测问题是模式分类问题二级结构预测的目标:二级结构预测的目标:判断每一段中心的残
16、基是否处于判断每一段中心的残基是否处于 螺旋、螺旋、折叠、折叠、转角(或其它状态)之一的二级结构态,即三态。转角(或其它状态)之一的二级结构态,即三态。第35页,此课件共46页哦蛋白质结构预测主要有两大类方法:(1)理论分析方法通过理论计算(如分子力学、分子动力学计算)进行结构预测。(2)统计的方法 对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,进而对未知结构的蛋白质根据映射模型直接从氨基酸序列预测结构。包括:经验性方法(Chou-Fasman)、结构规律提取方法(神经网络方法)、同源模型化方法第36页,此课件共46页哦 经验参数法经验参数法由由Chou 和和Fasman在在70年
17、代提出年代提出.是一种基于单个氨基酸残基统计的经验预测方是一种基于单个氨基酸残基统计的经验预测方法。法。通过统计分析,获得的每个残基出现于特通过统计分析,获得的每个残基出现于特定二级结构构象的倾向性因子,进而利用这些定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。倾向性因子预测蛋白质的二级结构。第37页,此课件共46页哦(1)经验参数法经验参数法蛋白质二级结构的组成规律性比较强蛋白质二级结构的组成规律性比较强三种基本二级结构平均占氨基酸残基的三种基本二级结构平均占氨基酸残基的85%各种二级结构非均匀地分布在蛋白质中各种二级结构非均匀地分布在蛋白质中第38页,此课件共46
18、页哦n有些蛋白质中含有大量的有些蛋白质中含有大量的 螺旋螺旋n如血红蛋白和肌红蛋白如血红蛋白和肌红蛋白n而一些蛋白质中则不含或者仅含很少的而一些蛋白质中则不含或者仅含很少的 螺旋螺旋n如铁氧蛋白如铁氧蛋白n有些蛋白质的二级结构以有些蛋白质的二级结构以 折叠为主折叠为主n如免疫球蛋白如免疫球蛋白例:肽链例:肽链Ala(A)-Glu(E)-Leu(L)-Met(M)倾向于形成倾向于形成 螺旋螺旋 肽链肽链Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成则不会形成 螺螺旋旋 第39页,此课件共46页哦n每种氨基酸出现在各种二级结构中倾向或者每种氨基酸出现在各种二级结构中倾向或者频率是
19、不同的频率是不同的例如:例如:Glu主要出现在主要出现在 螺旋中螺旋中 Asp和和Gly主要分布在转角中主要分布在转角中 Pro也常出现在转角中,但是绝不会出现在也常出现在转角中,但是绝不会出现在 螺旋中螺旋中n可以根据每种氨基酸残基形成二级结构的倾可以根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测向性或者统计规律进行二级结构预测第40页,此课件共46页哦基本策略(1)相似序列相似结构QLMGERIRARRKKLKQLMGAERIRARRKKLK结构?结构?第41页,此课件共46页哦基本策略(2)分类分析螺旋提取样本提取样本聚类分析聚类分析学习分类规则学习分类规则预测预测.-Gly-Ala-Glu-Phe-.第42页,此课件共46页哦蛋白质二级结构预测程序n(1)nnPredict 神经网络法n(2)PredictProteinn(3)SSPRED,序列比对n(4)SOPMA 几种预测方法的综合。准确率最高第43页,此课件共46页哦n利用SOPMA预测VH-L-L的二级结构,结果显示,二级结构中螺旋占15.56%,折叠34.95%,转角12.24%,无规则卷曲37.24%第44页,此课件共46页哦第45页,此课件共46页哦蓝色为a螺旋:红色为折叠;绿色为转角;紫色为无规则卷第46页,此课件共46页哦
限制150内