最新NAMD入门教程(二).doc
《最新NAMD入门教程(二).doc》由会员分享,可在线阅读,更多相关《最新NAMD入门教程(二).doc(42页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精品资料NAMD入门教程(二).3. 分析方法在实际工作中,分子动力学模拟体系的设计和模拟计算的进行可能并不困难。关键之处在于如何分析动力学模拟得出的结果,说明一定的问题。因此我们专门设置一章讲解动力学模拟的分析方法。本章中我们将讲解四个例子:残基RMSD值,平均能量,mb分布和温度分布。每一个例子都很典型,代表了一定的分析思想。但是由于某些例子需要较长的计算时间,读者没有必要自己进行动力学模拟。在NAMD教程文件中已经给出了动力学模拟得到的结果。3.1 每个氨基酸残基的RMSD值上一章中,我们已经计算了整个蛋白质的RMSD值变化。我们初步提到了,RMSD值反映的是偏离平均位置的程度,是原子运
2、动幅度的大小的衡量。这里我们将计算每个氨基酸残基的RMSD值,按照RMSD值对蛋白着色,并在最后进行问题讨论。本节的目的是使读者明白进行RMSD值分析的基本方法和意义所在。 3.1.1 RMSD值的计算与蛋白着色显示 我们将要使用一个VMD提供的脚本计算每个残基的平均RMSD值,并把这个值储存在VMD提供的用户存储区中(User Field),然后对蛋白进行着色。1、首先,打开VMD,选择FileNew Molecule菜单项,在弹出的文件浏览中找到 common目录下的文件usq_wb.psf,点击按钮Load。这样我们就载入了蛋白质的结构信息。(注意图形窗口中是空白的,并没有显示出蛋白结构
3、,因为psf文件不存储各个原子的坐标)2、此时Molecule File Browser窗口上端一栏应该显示Load files for: 0: ubq_wb.psf (图)说明如果再次载入新文件,所载入的文件将与usq_wb.psf结合起来一同处理显示。我们将载入原子运动轨迹文件,和psf结构文件配合即可显示出蛋白质原子的运动轨迹。因此点击Browse,找到1-2-sphere文件夹下的ubq_wb_eq.dcd,点击Load,这时关闭Molecule File Browser窗口。图 载入ubq_wb.psf后的Molecule File Browser3、打开VMD TKConsole,
4、使用cd命令改变当前目录到namd-tutorial/2-1-rmsd/4、在这一目录下有我们准备好的脚本residue_rmsd.tcl(可能读者也注意到了,VMD中脚本文件的后缀名均为“.tcl”)。在TKConsole中输入:source residue_rmsd.tcl这一命令并不进行RMSD值的求算,而是载入了该脚本以供用户调用其中的命令。求算RMSD值所用的命令是:rmsd_residue_over_time。其格式为: rmsd_residue_over_time 目标分子 所选残基5、这里我们将选择蛋白质的所有氨基酸残基进行计算。选择方法是输入:set sel_resid at
5、omselect top “protein and alpha” get resid这一命令的作用是:定义一个变量sel_resid, 储存氨基酸残基的序号列表,方便下一步调用。在TKConsole中可以看到列出的氨基酸残基序号列表(图),由1至76依次编号。6、对蛋白的所有残基(1号至76号)进行RMSD值计算。输入命令:rmsd_residue_over_time top $sel_resid输入后VMD调用脚本计算每个残基的RMSD值。计算公式和2.6节中介绍的公式相同。此时应当能够在窗口中看到程序处理过程(图):待计算完成,输出结果应该如下图:与此同时,程序会将每个原子的RMSD值存储
6、在该原子的VMD用户存储区中。我们将使用VMD对每个氨基酸残基按照RMSD值着色,以清楚地显示各个残基在动力学模拟时的运动剧烈程度。7、选择GraphicsRepresentations菜单项。8、在Atom Selection window一项中输入protein后回车,然后在Drawing Method下拉列表中选择Tube,在Coloring Method下拉列表中选择User。然后单击Trajectory 选项卡,在Color Scale Data Range中输入0.40 和1.00,单击Set。以上设置方法如图:现在在图形窗口中,应该可以看到按照残基RMSD值着色的蛋白骨架(图)。
7、在这幅彩图中,蓝色的氨基酸残基是运动幅度最大的,红色残基是幅度最小的,这和我们通常的着色方式恰好相反。我们要进行一下更改:9、选择GraphicsColors菜单项。选择Color Scale 选项卡,在Method下拉列表中选择BWR。现在红色是活动剧烈的残基,蓝色是运动幅度较小的残基,白色介于二者之间(图)。转动分子仔细观察,氨基酸残基运动的幅度和二级结构有什么关系?(如果不方便观察二级结构,可以选择GraphicsRepresentation,将Drawing Method改变为Cartoon。3.1.2 氨基酸RMSD值分布图 我们下面将使用Excel处理数据,作出RMSD值分布图10
8、、关闭VMD,打开Excel,选择“文件”“打开”,找到2-1-rmsd目录,选择文件residue_rems.dat打开,注意“文件格式”下拉列表要选择“所有文件”,否则将看不到我们所要的文件。11、在弹出的“文件导入向导”中,首先单击“下一步”,然后单击“完成”。可以看到A列是氨基酸残基的序号(1至76),B列是每个残基对应的RMSD值。12、选择“插入”“图表”,在“图表类型”中选择“XY 散点图”,在“子图表类型”中选择左下角的“折线散点图”,点击“完成”。得到的图表(图)就是泛素的氨基酸残基RMSD值变化分布。当然,必须记住我们不是为了作图而作图。我们作图的目的是分析RMSD值的变化
9、,发现问题和规律。仔细观察你得到的RMSD值图,可以看到一些有意思的问题。以下是我们提出的两个问题,供读者思考:1、我们将蛋白质的二级结构大体分成三类:螺旋,片层和无规则卷曲(loop)。使用前面讲过的DeepView可以得到泛素二级结构的氨基酸残基分布:1-7 片层;11-17 片层;23-33 螺旋;40-45 片层;48-50 片层;57-59 螺旋;65-72 片层,其余部分认为是无规则卷曲(loop)。在Excel中计算一下哪一种二级结构的平均RMSD值较高?哪一种二级结构的平均RMSD值较低?注:二级结构的平均RMSD值 = 该种二级结构的总RMSD值 / 该二级结构氨基酸残基数。
10、思考一下这种规律背后的原因是什么?参考答案: 片层:0.537; 螺旋:0.562; loop:0.7442、从我们作出的图中可以看到,C末端最后4个氨基酸的RMSD值明显较高。 在VMD中观察C末端loop的构象,有什么特色?前面提到,泛素的功能是通过标记特定蛋白质,使得被标记的蛋白特异性降解(参见知识链接:泛素死亡之吻 )。你认为泛素最有可能是通过哪一端和被降解蛋白相连?C末端还是N末端?如果已知泛素和标记蛋白的半胱氨酸相连,推测一下泛素末端的哪一个氨基酸负责连接?参考答案:C末端;Arg思考过上面两个问题后,可能读者已经初步理解了RMSD值分析的意义。我们从X射线衍射得到的蛋白结构仅仅是
11、一个静态的“死”模型,这一结构并不能直接告诉我们各个氨基酸残基的运动特性。但是进行动力学模拟时,我们手中的蛋白质模型就由“死”变“活”,运动起来了。而通过RMSD值分析,我们可以初步了解各个氨基酸残基的空间位阻大小,运动的方式,以及不同的二级结构的运动特点等等信息。这些信息往往同蛋白质的功能相联系(比如上面第二个问题)。总而言之,RMSD值分析可以为我们阐明结构和功能的关系提供思路和突破口。3.2 能量分析上一节中我们所分析的RMSD值反映的是体系中不同原子的运动情况。在这一节中,我们将对体系能量进行分析。下面我们将计算整个体系中不同形式的能量(如动能,键能,静电势能等)在动力学模拟时的平均值
12、。我们将计算上一章完成的立方水体分子动力学模拟过程中的能量平均值。计算时我们又一次需要使用一个脚本文件:namdstats.tcl。这个脚本文件在进行能量平均值的计算时是十分有用的。1、打开VMD,打开TKConsole,使用cd命令改换当前目录至 2-3-energies/2、在TKConsole中输入:source namdstats.tcldata_avg ./1-3-box/ubq_wb_eq.log 101 last第一行命令将载入脚本文件namdstats.tcl, 第二行命令将提取日志文件中记录能量的那一部分并进行计算。101 last表示计算动力学模拟第101步至最后一步过程中
13、的平均能量值。3、结果会直接输出在TKConsole中(图)。图 计算能量平均值的输出结果上图中所使用的缩写:BOND键能,ANGLE键角能 DIHED二面角能 ELECT静电能 VDW范德华力能 KINETIC动能 TEMP温度。在这里仅需要读者明白这些平均能量计算的方法,熟悉namdstats.tcl脚本的使用即可。本节到此就算完成了。但是关于脚本文件namdstats.tcl我们还需要多了解一些,因为这一脚本在进行动力学模拟结果分析时是非常常用的。脚本namdstats.tcl定义了两个命令:data_avg和data_time。 data_avg 的功能是计算特定时间段内整个体系各种能
14、量的平均值。调用方法是: data_avg 其中,表示用于计算的”.log” 文件的位置。 和分别代表计算。第一个timestep 可以用first代替,最后一个timestep可以用last代替。因此我们在例子中输入的101 last,表示的是从第101步计算到最后一个timestep。如果省略和,仅仅输入data_avg ,VMD将默认对于动力学模拟的整个过程进行计算。 data_time 的功能是输出特定时间段内整个体系某个特定能量随时间的连续变化。调用方法是:data_time NAMD将会从日志文件中提取这一参数设定的能量值从起始timestep到终止timestep的连续变化过程,
15、并输出到.dat这一文件中。和的设定方法同上。在动力学模拟的多种分析方法中,能量分析是最基础最经典的,通过能量分析可以直接或间接说明许多问题。 但是进行分析时需要过硬的理论功底,因此本书仅作简单介绍,其他具体的分析实例请参照相关的文献专著。上两节我们分别对体系中原子的运动和体系的能量进行了简单分析。我们的分析有助于阐明泛素的结构和功能的关系,以及泛素自身的某些性质,因此我们得出的结果具有明确的生物学意义。在下面两节中,我们将抛开我们所研究体系的生物学意义,对系统的统计力学性质进行分析。读者可能会问:我们做的是生物学研究,为什么不分析体系的生物学性质,却要考察体系的纯物理学性质?这里有必要作一下
16、说明。我们知道,物理学是公理化的科学,经过几百年的发展,理论体系相对较为完备,纯粹理论推导出的结果能够很好地与实验符合。但生命科学依然是描述性的科学。得出的许多基本规律,比如中心法则,遗传密码,其本质是经验性的,没有理论推导可言。而在分子动力学模拟领域,虽然力学规律是严格的微分方程,基本的相互作用力场参数(如CHARMM,Amber等)却是半经验式的,依靠大量实验得出的,仅在统计意义上成立,而不能保证动力学模拟的结果一定正确。除了力场参数引入的误差,我们在进行模拟时还必须人为地做出一些假设。读者可以再仔细阅读一下2.3.1一节,配置文件中我们的设定:我们假定范德华力和静电力只在某一范围内起作用
17、,假定计算时某些原子的相互作用被忽略等等,都使得体系越来越不精确。而在真正的研究工作开展时,我们可能需要在体系中放入离子以模拟真实的细胞质基质,需要使用格点计算静电力场分布这些人为引入的假设和近似能否符合生命体系中的真实过程?从基础理论的推导我们得不出答案。那么,如何验证我们得出的结果的正确性?一个方法当然是通过实际实验检验,但实验可能需要大量时间,并且要受条件的限制。因此,另一个方法是:使用物理学基本规律进行证伪。前面说到了,物理学规律是建立在严密的理论基础之上的,其结论是经历过实验的考验的。因此我们对所得结果进行分析,如果符合物理学基本规律,并不能证明结果正确因为还不能说明是否符合生命体系
18、中的真实过程;但是如果不符合,那么一定能说明结果是错误的。因此,物理学基本规律可以作为一个只能证伪的有力判据。具体到本例,我们将检验分子动力学模拟得出的结果是否符合统计物理中的两个结论:mb分布和温度分布。如果不符合,说明我们的结果不正确,原因可能是体系有问题,力场参数不适合,边界条件设置不当等等。同时,完成下面两节后,读者应该掌握一些重要的数据处理思想和方法。3.3 麦克斯韦-波尔兹曼(Maxwell-Boltzmann )能量分布下面我们将通过对分子动力学模拟所得结果的分析,验证动力学模拟的结果是否符合Maxwell-Boltzmann能量分布。本节内容较多,也较为综合,并将详细讲述Exc
19、el回归分析,拟合数据的基本方法。知识链接:麦克斯韦-波尔兹曼(Maxwell-Boltzmann )能量分布1、诞生背景在18世纪后期,分子运动论的发展使人们认识到:气体是由大量作无规则热运动的分子组成的。物理学家自然希望能够对大量分子的运动使用牛顿力学进行分析。但是对于大量微粒组成的体系,用牛顿力学的微分方程去逐一推算显然是不现实的。为了解决这一难题,19世纪的物理学巨匠麦克斯韦首先将数理统计原理引入对分子运动的研究,这样一来,极大的分子数目不但不再是研究的阻碍,反而正好可以使统计平均值有效。麦克斯韦得出了著名的麦克斯韦分子速度分布率。后来,奥地利物理学家波尔兹曼发展了这一理论,得出了波尔
20、兹曼分布。通常我们称为麦克斯韦-波尔兹曼分布。2、基本内容概括地说,麦克斯韦-波尔兹曼能量分布(Maxwell-Boltzmann distribution)所描述的是近独立体系(比如一团理想气体)达到平衡态之后,气体分子的能量分布情况,举个通俗的例子,对于给定温度的一团理想气体,动能是100J的分子有多少个? 是200J的分子有多少个?mb分布就是定量描述能量分布的函数。考虑到篇幅限制,这里不经推导直接给出mb分布的方程:其中为分子的动能;则是具有该动能的分子占总分子数的比例;是一个常数;是系统的绝对温度(K)。可见在温度T一定的情况下,动能为的分子占总分子数的比例唯一确定。因此mb分布仅与
21、体系温度有关,确定了mb分布曲线也就可以唯一确定体系的温度。我们下面也正是利用了这一点验证我们的实验数据的。3、理论意义mb分布理论不仅是分子运动论的基础,还是统计力学的先驱。正是在麦克斯韦和波尔兹曼的工作的基础上,美国著名物理学家和化学家吉布斯集前人之大成,并开拓创新,发展出了一套完整的系综理论,建立了统计力学。3.3.1 计算每个原子的动能计算动能分布自然首先要得到各个原子的动能,而动能的计算需要得到某一瞬间各个原子的速率。在2.6节我们提到,NAMD动力学模拟的输出文件包括“.vel”文件,该文件记录原子的瞬时速率。我们这里使用的就是立方水体中泛素分子动力学模拟时原子的速率文件。虽然我们
22、在2.5节已经进行了立方水体的动力学模拟,但是在模拟时我们设定了Rigid Bonds(见2.3.1节中知识链接:Rigid Bonds ),步长是2fs,这样的近似设定使得体系不能精确反映各个原子的运动速率。因此我们取消Rigid Bonds,步长1fs重新进行动力学模拟,并将结果输出文件提供给读者。1、首先,我们仍旧要载入泛素的结构信息。打开VMD,选择FileNew Molecule菜单项,找到common目录下的文件ubq_wb.psf,载入该文件。不要关闭Molecule File Browser窗口,窗口第一项应该显示Load file for: 0:ubq_wb.psf。2、下面
23、载入泛素中各原子的分子速率信息。再次单击Browser按钮,找到2-2-maxwell目录下,载入ubq_wb_eq_1fs.restart.vel文件。在Determine file type:下拉列表中选择NAMD Binary Coordinates,然后再点击Load。现在可以关闭Molecule File Browser。图 Molecule File Browser 载入速率文件时的设置图 载入速率文件后图形窗口的显示可以在图形窗口中看到一个海胆一样浑身是刺的怪物!这是因为VMD把各个原子的速度当作原子的坐标处理(瞬时速度是以x,y,z三个方向的分速度记录的,记录格式和座标一样)。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 NAMD 入门教程
限制150内