Mrbayes中文使用说明.doc

资源ID：54327001 资源大小：456.50KB 全文页数：7页
资源格式： DOC 下载积分：20金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要20金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

Mrbayes中文使用说明.doc

< >内为需要输入的内容，但不包括括号。所有命令都需要在MrBayes >的提示下才能输入。文件格式：文件输入，输入格式为Nexus file（ASCII，a simple text file，如图）：或者还有其他信息：interleave=yes 代表数据矩阵为交叉序列interleaved sequences nexus文件可由MacClade或者Mesquite生成。但Mrbayes并不支持the full Nexus standard。同时，Mrbayes象其它许多系统软件一样允许模糊特点，如：如果一个特点有两个状态2、3，可以表示为：(23)，(2,3)，23或者2,3。但除了DNAA, C, G, T, R, Y, M, K,S, W, H, B, V, D, N、RNAA, C, G, U, R, Y, M, K, S, W, H, B, V, D, N、Protein A, R, N, D, C, Q, E, G, H, I, L, K, M, F, P, S, T, W, Y, V, X、二进制数据0, 1、标准数据（形态学数据）0, 1, 2, 3, 4, 5, 6, 5, 7, 8, 9外，并不支持其他数据或者符号形式。执行文件：execute <filename>或缩写exe <filename>，注意：文件必须在程序所在的文件夹（或者指明文件具体路径），文件名中不能含有空格，如果执行成功，执行窗口会自动输出文件的简单信息。选定模型：通常至少需要两个命令，lset和prset，lset用于定义模型的结构，prset用于定义模型参数的先验概率分布。在进行分析之前可以执行showmodel命令检查当前矩阵模型的设置。或者执行help lset检查默认设置（如图）：略Nucmodel用于指定DNA模型的一般类型。我们通常选取标准的核苷酸替代模型nucleotide substitution model，即默认选项4by4。另外，Doublet选项用于paired stem regions of ribosomal DNA的分析，Codon选项用于DNA sequence in terms of its codons的分析。替代模型的一般结构一般由Nst设置决定。默认状态下，所有的置换比率相同，对应于F81模型（JC model）。一般我们选用GTR模型，即nst=6。Code设置只有在DNA模型设置为codon的情况下才使用。Ploidy设置也与我们无关。Rates通常设置为invgamma (gamma-shaped rate variation with a proportion of invariable sites)，Ngammacat(the number of discrete categories used to approximate the gamma distribution)一般采用默认选项4。通常这个设置已经足够，增加该选项设置的数量可能会增加似然计算的精确性，但所花时间也成比例增加，大多数情况下，由增加该数值对结果的影响可以忽略不计。余下的选项中，只有Covarion和 Parsmodel与单核苷酸模型相关，而我们既不会采用parsimony model，也不会采用the covariotide model，故保留默认状态。在对矩阵作了以上修改后，重新输入help lset命令，可以查看变化后的设置。设置先验参数prior：现在可以为模型设置先验参数了。模型有6种类型的参数：the topology, the branch lengths, the four stationary frequencies of the nucleotides, the six different nucleotide substitution rates, the proportion of invariable sites, and the shape parameter of the gamma distribution of rate variation.默认参数在大多数分析中都已足够，通常不许修改，如需立即使用，这部分可以跳过。通过输入help prset可以获得模型的各参数默认设置列表：略，我们只对Revmatpr (for the six substitution rates of the GTR rate matrix), Statefreqpr (for the stationary nucleotide frequencies of the GTR rate matrix), Shapepr (for the shape parameter of the gamma distribution of rate variation), Pinvarpr (for the proportion of invariable sites), Topologypr (for the topology), Brlenspr (for the branch lengths) 这几项设置作简单介绍。Revmatpr and Statefreqpr的默认的先验概率密度prior probability density都是a flat Dirichlet (所有值都为1.0) 。有时可能需要把Statefreqpr设置为equal，比如在JC and SYM模型下，命令prset statefreqpr=fixed(equal)。如果我们要对默认的statefreqpr的flat Dirichlet prior状态加以强调，即equal nucleotide frequencies。可以输入命令prset statefreqpr= Dirichlet(10,10,10,10)，或者更甚的强调prset statefreqpr=Dirichlet(100,100,100,100)。如果修改了该选项后想改回来，输入prset statefreqpr=Dirichlet(1,1,1,1)或者prsst= Dir(1,1,1,1)。Shapepr参数定义the prior for the (shape) parameter of the gamma distribution of rate variation.Pinvarpr参数定义the prior for the proportion of invariable sites。Topologypr参数默认设置uniform puts equal probability on all distinct, fully resolved topologies.The alternative is to constrain some nodes in the tree to always be present but we will not attempt that in this analysis.Brlenspr参数可以设置为unconstrained或者clock-constrained。默认为unconstrained，对于没有分子钟的树，the branch length prior可以设置为指数的exponential或者均一的uniform，默认为指数的，参数为10.0，对大多分析都合适。可以在分析前输入showmodel命令检查模型的设置。分析及设置：由mcmc命令设置参数并开始分析。在设置前可以输入help mcmc命令查看默认设置。Seed是随机数产生器随机输出的一个种子数值。Swapseed是单独的用于产生随机交换序列the chain swapping sequence的随机数产生器。除非特别指定，这两个值由系统时钟生成。Ngen（number of generations）设置分析要跑的代数。通常可以先设置较少的代数以确认分析的各项设置正常，并可以估计一个较长的分析所要花的时间和代数。如果要设置ngen值但不想立即开始分析，可以使用mcmcp命令，如mcmcp ngen=10000。默认状态下，bayes会同时运行两个(Nruns = 2)完全独立的但由不同的随机树开始的分析。一般采取默认设置。检查Mcmcdiagn 参数是否设置为yes，Diagnfreq 是否设置为一个合适的值，如默认的每第1000代（可以更改）。这样bayes会在每第1000代计算各种运行（分析）的诊断，并把它们保存在一个<filename>.mcmc的文件中。最重要的诊断，不同分析中树取样the tree samples的相似性的衡量，也会在每1000代输出到屏幕上。每一次诊断完成，一个固定数量(burnin)或者比例(burninfrac)的样品会被丢弃。Relburnin参数定义是使用固定数量(relburnin=no)还是百分比(relburnin=yes)。默认状态为(relburnin=yes and burninfrac=0.25)，即每个诊断完成，25的样品被丢弃。默认状态下，bayes会使用Metropolis coupling提高the MCMC sampling of the target distribution。Swapfreq, Nswaps, Nchains和Temp四个参数一起控制Metropolis coupling行为。Nchains设置为1，不使用heating。设置为n，n-1个热链heated chains被使用。默认n4，表示bayes会使用3个热链和1个"cold" chain。根据经验，heating对于大于50个类群（序列）的分析是很重要的。增加热链数量对于分析大的困难的数据集可能有帮助。但分析时间也会随着链的增加成比例增加。MPI版本的程序要好些，时间影响较小。Bayes使用一种增值的热方案an incremental heating scheme，该方案下，通过增加其后验概率，链i被heated到the power 1/ (1 + i)，其中是由Temp参数控制。Heating的作用是保持后验概率平稳flatten out the posterior probability，以便热链可以轻松找到后验概率中的峰isolated peaks，帮助冷链cold chain快速通过这些峰。每第Swapfreq代，会从两条链中随机抽取并交换它们的状态an attempt is made to swap their states。默认参数对大多数分析已足够，但如果你采用了不止3个热链，你可以增加交换数量(Nswaps) number of swaps ，默认设置为每次链停交换一次that are tried each time the chain stops for swapping。Samplefreq定义对链取样的频率。默认状态下，每第100代，对链取样一次。如果分析量较小，我们也许想尽快使其收敛，可设置为每10代取样一次。改变该参数mcmcp samplefreq=10. 每次对链取样的参数会被保存在文件中。替代模型参数会保存在filename.p文件中，每个独立的分析有各自的参数文件filename.nex.run1.p和filename.nex.run2.p。拓扑和枝长被保存在filename .t文件中，即filename .run1.t和filename.run2.t中。Printfreq参数定义链的状态输出到屏幕上的频率。默认为每100代输出一次。默认状态下，bayes自动把枝长保存在树文件中filename.t。利用Startingtree命令，可以自定义起始树，默认状态下是随机选择起始树。运行分析：用于分析的各项参数都设置好后（mcmcp），就可以开始分析了。输入mcmc命令，窗口会显示用于本次分析的模型和后验概率的一些设置情况。The proposal probabilities可以用props命令进行修改，但最好默认，不适当的修改可能使分析失败。然后分析就开始运行，窗口会输出每100代链的状态信息。其中第1栏为代数，25为其中一个分析的4个链的log likelihood values，中括号为冷链。如果Metropolis coupling运行良好的话，冷链会不断变动位置，表示冷链成功的和热链交换了位置。如果冷链停滞不动，则Metropolis coupling运行效率低或无，需要延长分析时间或者将热冷链间的温度差值temperature difference降低。最后一栏为运行剩余时间，在运行初始，该值可能偏大，逐渐平稳而代表真实所剩余时间。停止分析：当要求的代数已经运行完毕，窗口会提示询问是否继续运行，如果回答yes，会要求输入继续运行的代数。在回答之前，我们一般要先检查the average standard deviation of split frequencies的值，该值代表两个独立分析当前的相似性程度，越接近0越好。虽然我们推荐聚敛诊断convergence diagnostic，比如上面的分裂频率标准偏差，来决定运行时间，但其实有更简单但可能不是如此有效的方法来决定分析的停止与否。最简单的是检查冷链的the log likelihood values，在分析初始，该值变化较大，当该值逐渐平稳而不变化，而且两个独立的分析中的该值相等或几乎相等时，可以停止分析，但这个方法不如聚敛诊断精确。总结样品替代模型参数Summarizing Samples of Substitution Model Parameters：在运行过程中，每samplefreq 代的Samples of Substitution Model Parameters已经被写入filename.p文件中，如图：方括号中第一个数字，是一个让你可以知道这个取样来源的随机生成的ID号，第2行为标题，从左到右依次为：(1)代数 the generation number (Gen); (2)冷链对数似然值？ the log likelihood of the cold chain (LnL); (3)树长 the total tree length (the sum of all branch lengths, TL); (4)6个GTR比率参数the six GTR rate parameters (r(A<->C), r(A<->G) etc); (5)4个核苷酸发生频率 the four stationary nucleotide frequencies (pi(A), pi(C) etc); (6) 比率变化伽马分布的形状参数the shape parameter of the gamma distribution of rate variation (alpha); (7)不变位点的比例 the proportion of invariable sites (pinvar). 如果你的数据集使用了一个不同的模型，文件内容也会有所不同。Sump命令用于总结取样参数值summarize the sampled parameter values，如sump burnin=250，默认状态下，该命令总结filename.p文件中最近形成的25取样参数信息。Sump命令会首先生成一个代数和the log probability of the data (the log likelihood values)的关系图。如果分析已足够的话，图看起来很平稳，没有上升或者下降的趋势：如果有任何上升或者下降的趋势，可能需要延长分析时间以获得充分的后掩盖率分布取样。在下面，有一个总结取样参数值的表，列举了各参数的平均值、variance、95%可靠间区的最高最低值、中间值和PSRF（the Potential Scale Reduction Factor）。各参数就是filename.p中的各参数。PSRF也是一种聚敛诊断方式，如果分析较彻底，该值应接近1.0。总结样品树和枝长Summarizing Samples of Trees and Branch Lengths树和枝长输出到filename.t文件中，为nexus格式的树文件:总结树和枝长信息,输入命令sumt，如sumt burnin=250。Sumt命令会输出summary statistics for the taxon bipartitions，一个具有枝长可信度clade credibility (posterior probability) values的树和一个系统演化树 (如果枝长已经保存的话)。summary statistics以“点星”形式描述每一枝the partition，点和枝分别代表两个分枝部分。后面列出了分枝的取样数(#obs)，分枝the probability的概率，分枝发生频率标准差the standard deviation of the partition frequency (Stdev(s)，枝长的平均值(Mean(v)和变化variance (Var(v)和(PSRF)，最后是改枝取样所在的独立分析，即分析1或者分析2。clade credibility tree 给出每一分枝的可信度，系统演化树给出枝长branch lengths measured in expected substitutions per site。系统演化树幕后，sumt命令还产生3个附加文件：filename.parts文件，包含了两分列表the list of taxon bipartitions与其后验概率posterior probability (the proportion of sampled trees containing them),以及与之有关的枝长the branch lengths associated with them。枝长值是基于包含相关两分枝的树的。Filename.con文件包含两棵一致树，第1棵同时包含了枝的后验概率（以内部结点标签的形式）和枝长，可由treeview读取。第2棵仅包含枝长，可由多种软件读取，如MacClade Mesquite等。第3个filename.trprobs文件包含了mcmc搜索过程中找到的树，由后验概率分类。各位大虾，我刚接触分子进化，就想问一下有那种软件能将两个基因（例如：18S,28S)的进化关系用一棵树反应出来？听别人说好像MrBayes可以，但就是不知道用哪个命令？先谢谢了！ , 首先，仅仅两个基因的关系只能是一条线。要想反映出两个基因的进化关系，必须将这两个基因放在一个进化树中进行考察。那么就必须要收集与这两个基因同源的一系列基因，然后将他们一起构建系统进化树。简单说一下流程：1.收集这两个基因的同源基因，越全面越好。在NCBI或专业物种数据库上blast就好，建议采用蛋白序列2.将多序列进行比对，有软件clusterW，muscle等3.将比对结果进行人工修整-本步非常关键，高质量的进化树分析文章基本都要经过这一步。有软件genedoc可以做。不过如果只是随便做做的话，可以跳过。4.将经过调整的比对结果进行进化树构建，有软件 MEGA,phyML,还有你说的MrBayes等。其中MEGA有图形用户界面（GUI），并且最易上手，它可以构建NJ树，一方面比较可信另一方面速度也非常快，几分钟就好。MrBayes是采用马尔科夫蒙特卡洛方法进行建树（mcmc），这个方法效果很好，但是速度非常非常的慢，有些甚至要10天到半个月。 , 同意楼上的观点，下面简单介绍一下MrBayes的具体操作步骤，附件是详细的使用方法，希望对LZ有所帮助。首先是序列的比对，然后将比对好的序列转化成.nex格式，并用ModelTest软件确定进化模型，最后运行MrBayes，简单步骤如下：（依次输入命令，完成简单也最常用的分析）：Execute filename.nex，打开待分析文件，文件必须和mrbayes程序在同一目录下。Lset nst=6 rates=invgamma，该命令设置进化模型为with gamma-distributed rate variation across sites和a proportion of invariable sites的GTR模型。模型可根据需要更改，不过一般无须更改。mcmc ngen=10000 samplefreq=10，保证在后面的可能性分布中probability distribution至少取到1000个样品。默认取样频率：every 100th generation。如果分裂频率分支频率split frequencies的标准偏差standard deviation在100,000代generations以后低于0.01，当程序询问：“Continue the analysis? (yes/no)”，回答no；如果高于0.01，yes继续直到该值低于0.01。sump burnin=250（在此为1000个样品，即任何相当于你取样的25的值），参数总结summarize the parameter，程序会输出一个关于样品（sample）的替代模型参数的总结表，包括mean，mode和95 % credibility interval of each parameter，要保证所有参数PSRF（the potential scale reduction factor）的值接近1.0，如果不接近，分析时间要延长。sumt burnin=250，总结树summarize tree。程序会输出一个具有每一个分支的posterior probabilities的树以及一个具有平均枝长mean branch lengths的树。这些树会被保存在一个可以由treeview等读取的树文件中。Mrbayes.doc (468.5k)在线查看

注意事项

本文（Mrbayes中文使用说明.doc）为本站会员（飞****2）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。