2022年蛋白质序列结构的分析与预测 .pdf
《2022年蛋白质序列结构的分析与预测 .pdf》由会员分享,可在线阅读,更多相关《2022年蛋白质序列结构的分析与预测 .pdf(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 蛋白质体学报告生物数据库简介蛋白质序列结构的分析与预测(5/9) 演讲老师:吕平江老师指导老师:李永安老师生命科学系四组长:曾瓘钧 488340444 组员:林泰宏 488340030 廖智凯 488340195 李岳锜 488340547 前言:这本书之前的章节关于数据库得到知识的讨论,可以运用不同的数据库得到大量可用的序列讯息, 当我们准备看核甘酸序列及所有的蛋白质序列时,无论是直接决定,或是经由核甘酸序列中 open reading frame的转译,这些包含决定其结构及功能的内在讯息,不幸的,实验针对这些讯息 不能用 未加工 的讯息 数据 来产生 ,一些 判定的 技术, 像是cir
2、cular 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 26 页 - - - - - - - - - 2 dichroism spectroscopy、 optical rototary dispersion、X-ray晶 体 绕 射 ( X-ray crystallography)及核磁共振(NMR ) ,对于结构的特性是非常强而有力,但这些费时的技术实行, 需要高度熟练和技术性上高要求的操作,在蛋白质序列和结构数据库的大小上比较中,SWISS PORT 中有 87
3、143 个蛋白质( Release 39.0 ) ,但只有 12624 的蛋白质结构在PDB中出现( July, 2000) ,试图关掉环绕在预测结构跟功能的方法中的gap center,然后这些方式可以在生化资料缺乏时,提供一个看的见蛋白质特性的方法。此章节焦点集中在计算的技术,可以提供学上的发现基于本身蛋白质序列或其本身蛋白质家族的比较, 不像核甘酸序列,是由 4 个化学上相似的base 所组成, 蛋白质中找到20 个胺基酸,提供了结构及功能非常大的变异,这些残基具有不同的化学构造,因为胺基酸是碱或是酸、是亲水性或是厌水性、还是直炼或是具有分支链、或是芳香族, 所以每一个残基皆可影响蛋白质
4、全部物理特性,因此,在蛋白质domain 上,每一个残基具有某一倾向去形成不同型的结构,这些特性,基于一个生化中心的教条:序列详述构造。不管用何种预测性的技术,它的结果都只是预测,不同的方法, 用不同的规则系统,或许是、或许不是我们所预测的结果,重要的是, 如何去操作一个特有的预测方法,而不是系统规则上的黑盒子: 一个方法或许是适用一个特有的事件,但不能完全适用于另一个事件,即使如此,适当的利用这些技术和初期的生化数据,可以对于蛋白质结构及功能上提供有价值的鉴识。PROTEIN IDENTITY BASED ON COMPOSTION 20 个胺基酸的物理及化学特性完全的了解,基于这些特性,许
5、多有用的计算工具,已经发展用来预测未知蛋白质的辨别,在the Swiss Institute of Bioinformatics中,很多工具经由 ExPASy server获得。ExPASy的焦点是双倍功能,一个经由2-D 电泳分离的未知蛋白质之协助分析,和预测已知蛋白质的未知特性,这些利用SWISS PORT的批注来作它们的预测,虽然计算结果例如在电泳分析上是有用的,但是在很多的实验范围上是有价值的,例如一些色层分析和沉淀分析的研究,在这这段落及接下来的段落,在这个ExPASy suite中是可被辨识的,但是接下来的讨论也包含很多有用的程序,包括许多有用的程序internet资源和这些工具的
6、关联,会在这个章节陆续列出来讨论。AACompldent and AACompSim(ExPASy )与其利用胺基酸序列去搜寻SWISS PORT ,还不如 AACompldent 用未知蛋白质胺基酸的组成去辨识是同似组成的已知蛋白质,当输入时程序,需要合适胺基酸组成、等电点(pI ) 、和蛋白质的分子量(如果已知)、适当的分类taxonomic class和任何特殊的关键词,除此之外,使用者必须选择6 个胺基酸中的一个(constellations) ,这个可以影响分析如何执行,例如某一群( constellations)结合残基像似AspAsn(DN) 、GlnGlu(Q E)变成为Asx
7、(B) 、Glx(Z) ,或某些残基从分析中完全被除去,为了在数据库每一个序列,规则系统基于不同的序列和查询的组成之间,计算出分数,这个的结果可以用e-mail答复,其中包含三个等级的列表:一个列表基于从记载从taxonomic class来的所有蛋白质,不用考虑pI 或蛋白质的分子量。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 26 页 - - - - - - - - - 3 一个列表基于所有的蛋白质,不管 taxonomic class ,不用考虑 pI 或蛋白质
8、的分子量。一个列表基于记载的taxonomic class但是要考虑pI 和蛋白质的分子量。因为计算的分数是不同的测定,分数为零暗只在查询组成按序列记载之间的有正确一致性。AACompSim ,它是 AACompldent 的变形,执行分析的类似型态,但是,与其利用实验上来的胺基酸组成作基本的组成搜寻,还不如用SWISS PORT protein的序列,在不同分数的计算用于 Compute pI MW 之前,理论上的pI 和分子量先被计算,它可以提供证据指出跨越种界线的胺基酸是可以很好的被保留下来,而且藉由考虑胺基酸的组成,研究员可以侦测蛋白质间的微弱相似性, (这些蛋白质序列falls be
9、low 25) ,因此,除了执行典型的数据库搜寻之外,组成的考虑可以提供暂蛋白质之间,提供额外的鉴识。PROPSEARCH 顺着像 AACompSim 的同路径, PROPSEARCH利用蛋白质的胺基酸组成,去侦测蛋白质之间微弱的关系,而且作者已经说明这个技术,可以简单地被用于去辨识相同protein family的成员, 然而,这个技术比具有144 个物理特性的AACompSim 来的费力, 而被用于分析其中包含分子量案大量残基的内含物厌水值和平均电荷,这个物理特性的搜集称为查询载体(query vector ) ,而且,在目标数据库中,先计算每一个相同型态载体可以被比较(SWISS POR
10、T和 PIR)这个载体的数据库的计算有利于促进查询的过程时间,输入 PROPSEARCH Web server可以查询序列,程序输猪的例子例如图11.1 这里 human autoantigen NOR-90的序列,被用于作输入的查询,这个结果可以藉由distance score被分类,然后这个score代表经由PROPSEARCH找到查询序列和新序列属于相同family可能性,因此,在多数的事件中暗示共同的功能, distance score为 10 或 10 以下,指出大于87的机会在两个蛋白质之间是有相似性的, 而这个分数低于于8.7 ,可增加可靠性达94,而分数低于7.5 则,可增加可
11、靠性达 99.6 ,这个结果的检查显示NOR-90 它和很多核仁转录因子、protein kinases、a retinoblastoma-binding protein、 the actin-binding protein radixin,和 RalBP1、假定的 GTPase target有相似性,一但这些蛋白质的功能不相似时,没有任何的hit需要被预期的;然而,这些大多数为DNA-binding protein,这些蛋白质可以打开相似domain 的可能性而被运用两者选一的功能上之状况,至少,BLASTP search 对于证明结果和确认critical residues是不可或缺的。名
12、师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 26 页 - - - - - - - - - 4 MOWSE The Molecular Weight Search(MOWSE)的运算法则,是利用mass spectrometric(MS )techniques所得到的讯息, 完整的蛋白质分子量和一些因用特殊的protease得到的相同蛋白质的分解物, 都可以一起使用,给予数个实验测定的结果,一个未知的蛋白质可以很清晰的被确认,一但未知蛋白质没有完整或部分被定序,这个方法大
13、致上可以缩减实验的时间。和经由试剂所产生的the resultant masses 以及 peptide的组成一样, The MOWSE Web front end 需要一开始序列的分子量和化学试剂的使用,a tolerance value可能被记载,指出在决定 the determined fragment massese的正确性中的错误许可,计算方式基于the OWL nonredudant protein sequence database中的讯息,得分基于如何在分子量给予范围内的蛋白质中,片段分子量的存在,而输出是回复分类列表顶端30 个分数,用OWL entry the name 、
14、相配的peptide序列和其它统计上的知识,simulation studies用 5 个或较少的输入 peptide重量可以产生99的正确率。PHYSICAL PROPERTIES BASED ON SEQUENCE Compute pI MW and ProtParam (ExPASy )Compute pI MW 这个工具可以计算输入序列的等电点和分子量,pI 的决定基于pK值,描述从中性到酸性pH 值的变性环境中,对于蛋白质迁徙的研究,因为这个原因,作者警告pI对于碱性蛋白质的测定是不正确的,分子量藉由在序列中,每一个胺基酸的平均isotopic mass 添加,再加上一个水分子,藉由
15、这些东西被计算出来,藉由FASTA格式化中的使用者、或 a SWISSPORT identifier、或加入数目,序列可以被供应而被记载,假如序列是被供给的,工具可以自动计算晚整的序列长度的pI 值和分子量,如果SWISS PORT identifier是被给予的, 进去的定义和生物路径是被显示出来的,而使用者可以详述胺基酸的范围,已至于计算在片段而不是在完整的蛋白质中被做出来,ProtParam 它是更进一步的过程,根据名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 2
16、6 页 - - - - - - - - - 5 输入的序列, ProtParam计算分子量、等电点、全部的胺基酸组成、理论上的estinction coefficeient、脂肪性索引、the protein s grand average of hydrophobicity(GRAVY )value ,和其它碱性的physicochemical parameters ,虽然这些似乎是非常简单的程序,某一个可以开始推测关于蛋白质在细胞得所在地,例如,具有高度比例的lysine和 arginine残基的一个碱性蛋白质,也许是一个DNA-binding protein。PeptideMass (E
17、xPASy )设计用于peptide mapping 的实验, PeptideMass在暴露于 protease ,或是化学试剂之后决定一个protein的分裂产物, PeptideMass中可用于裂解的酵素和试剂为trypsin,chymotrypisn, LysC, cyanogen bromite , ArgC, AspN, 和 GluC (bicarbonate或 phosphste ) ,在合成 peptide的分子量计算之前,Cystenines和 methionines可以被修饰,藉由供应一个 SWISS PORT identifier而不是过去一排的序列,PeptideMass
18、在 SWISS PORT 批注之内可以利用知识去促进计算,例如,在裂解之前,移除signal sequences,或是包含已知的 posttransnational modifications;在 tabular format中给予开始的protein理论上的 pI 值及分子量,然后从SWISS PORT来的变异中的the mass位置,被修饰的masses,以及 peptide片段的序列,其结果可以被回复。TGREASE TGREASE 顺着 protein的长度去计算它的厌水性,20 个胺基酸天生具有它的厌水性:酸性的胺基酸相对倾向于陷入蛋白质的核心中,而远离周围的水分子,这个连结ster
19、ic和其它considerstions的倾向,影响protein最终如何折迭成其最后的3D立体结构,和球状蛋白陷入区域之预测一样,TGREASE 在假定的transmembrane sequences 可以找到应用, TGREASE是从University of Virginia得到之部分的FASTA suite程序,和像a stand-alone application一样,可以被下载,而且可以跑Macintosh或 DOS-based computers 。此方法依赖于hydropathy scale ,每一个胺基酸基于很多的物理特性反应出其厌水数值(例如可溶性、经由蒸气态转移的自由能等等
20、),胺基酸伴随较高的正值为较厌水性的;较多负值的表示较亲水性,移动的平均值或是hydropathic index 可以穿过蛋白质而被计算,窗口的长度是可调整的, 大约 711 个残基的兼具, 推荐 minmize noise 和 masimize information content ,这个结果的hydropathic index对于 残基的数目然后去作图表, the human interleukin-8 receptor B的序列,被用来产生一个TGREASE 图表, 如图 11.2 显示 the peaks和 the traesmembrane segments 的实际位置间的一致性,
21、虽然不是正确的,不过非常的好,要牢记 在心 这个分 法, 因为 此方法 可以 预测 所有厌 水性 的区 域,不 只是 在这 些位于traesmembrane 区域而已, traesmembrane 区域的特殊侦测法,下面会更进一步讨论。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 26 页 - - - - - - - - - 6 SAPS The Statistical Analysis of Protein sequence(SAPS )运算法则对于任何给予查询的序列
22、提供广泛统计学上的知识,当一个protein序列经由the SAPS Web 接口,服务器对于蛋白质可以回复成大量的物理与化学讯息,只能根据从序列来的暗示,输出开始伴随组成的分析,和胺基酸的总计,这个因循着电荷散布的分析包含正电或负电的位置、高数值的电荷及非电荷的部分,和电荷的跑动,最后一部份和周期性分析一样,在高数值厌水性和traesmembrane 的部分显示出讯息、重复的结构和multiplets。MOTIFS AND PATTERNS 在第八章中,直接将序列比较的点子被呈现出来,那里的BLAST searches 在公开的数据库中与所要查询的序列类似可以执行去辨识序列;经常地, 这个直
23、接的比较也许不能产生想要的结果, 或是一点也不能产生任何的结果。然而, 有非常微弱的序列决定因素会呈现,来循着 query sequence去和序列的family结合,藉由相同的步骤,一个序列的family可以用来辨识相同protein family之新的且关系疏远的成员,这个的例子是PSI-BLAST(在第八章中讨论),在讨论利用这些的步骤的两种方法之前,多数的条件,必须被定义,首先是轮廓的观念,轮廓是十分简单,是一个多样sequence 排列的数目描写,大多像多数序列的排列,可从第九章讨论出的方法得来,嵌入含多数序列排列内是本身序列的讯息,它代表带有共有特征且特别搜集的序列,经常地为一个p
24、rotein family,藉由轮廓可以运用这些嵌入且共同特征, 可以找出序列间的相似性,而这些序列鲜少有或没有序列的一致性,要考虑到确认和疏远关系蛋白质的分析,藉由拿一个多数序列排列代表的protein family使轮廓被构成,并且问了一连串的问题:什么样的残基可以在排列位置中被看到吗?一个特殊的残基多常出现在排列的位置吗?名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 26 页 - - - - - - - - - 7 那里有可以显示完全保留的位置吗?缺口可以在排列的
25、任何地方被采用吗?一但这些问题被回答,a position-specific(PSST )是可以被建构,而且在作业平台中的数目,现在可以代表多数序列的排列,多数包含PSST反映出任何既定胺基酸发生在每个位置的机率,也可以在排列时的每个位置反映出保守的或非保守的交替的效应,大多像PAM或 BLOSUM matrix 就是,这个PSST现在可以用来比喻抵抗单独的序列,第二条件需要定义的是 pattern或 signature,这个 signature通常也表现出protein family的共同特征 (或一个多数序列的排列) ,但是,不能包含任何重要的讯息,无论它为了某个残基可以呈现在既定的位置而
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年蛋白质序列结构的分析与预测 2022 蛋白质 序列 结构 分析 预测
限制150内