欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    一个复杂的PBS脚本.ppt

    • 资源ID:77583347       资源大小:1.49MB        全文页数:50页
    • 资源格式: PPT        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    一个复杂的PBS脚本.ppt

    一个复杂的一个复杂的PBSPBS脚本脚本本项目由18个曙光I620-G20高性能节点构成了基于Linux系 统并行环境,以千兆快速TCP/IP以太通信网为基础,以NFS 共享存储方式组的高性能并行计算系统;其中TC5000与TC5001为登录及管理节点、node1node16为计算节点;其中TC5000与TC5001同时承担集群共享I/O服务,所有节点必须有共享/public目录;其中/public/software/下面为集群软件安装路径,所有软件 安装到该目录下面,不同的软件安装到该目录下面的不同文 件目录,文件目录最好以软件名为名以进行区分。系统物理组成开机顺序:1、先开以太网交换机,FC光纤磁盘阵列电源;2、1分钟后打开TC5000与TC5001节点电源;3、3分钟后打开node1node16电源;关机顺序:1、先关闭node1node16电源;2、等待3分钟以后,关闭TC5000及TC5001电源;3、等待红3分钟后,关闭交换机及FC光纤磁盘阵列电源。开关机顺序管理节点登录IP:10.14.83.152用户名:(需要申请)密码:(需要申请)登录方式:ssh命令行登录、VNC图形化界面登录;登录工具:putty命令行登录、VNC Viewer图形化登录;Linux to Windows文件传输工具:winscp系统登录命令行登录-putty工具命令行登录命令行登录图形化登录使用VNC Viewer工具输入服务器IP:端口号,然后点击OK图形化登录输入登录密码图形化登录-图形化界面登录成功右键、open terminal打开命令操作窗口图形化登录-图形化界面命令窗口启用VNC步骤:1、su-username2、vncserver(注意,第一次运行会提示设置密码)运行完后,注意生成的ID号,然后即可以用VNC viewer客户 端工具连接了。高级操作:1、vncserver-kill:ID号(杀掉刚刚生成的图形连接ID号)2、示例使用:vncserver-geometry 1920 x1080-depth 24:5指定分辨率1920 x1080,指定端口ID为5;3、改图形化登录密码:vncpasswd图形化登录开启方法文件传输工具文件传输工具操作系统:Red Hat Enterprise Linux Server release 6.4系统位数:64位编译器:Intel 14,安装路径/public/software/intel,也可以 使用which icc或which ifort查看详细路径;GCC编译器,使用which gcc查看详细路径;Open-MPI 1.6.3安装路径/public/software/mpi/openmpi1.6.3-intel/,也可以使用 which mpirun查看详细路径作业调度系统:torque;并行软件环境集群操作命令集群状态显示:pestat集群状态显示:pestst查看IP:ifconfig 查看文件系统挂载:df-h 显示当前所在文件夹路径:pwd显示当前所在文件夹下文件及文件夹:ls-a 显示当前文件夹大小:切换文件夹:cd 文件夹路径 创建文件夹:mkdir 文件夹名删除文件夹:rm-rf 文件夹名 删除文件:rm-rf 文件名 查看文本文件内容:cat 文件名编辑配置文件:vi 配置文件名 载入软件环境变量:source 环境变量文件绝对路径系统基本操作命令集群管理命令:clusconf【添加账号:clusconf-au 账号名】【删除账号:clusconf-du 账号名】【同步文件:clusconf-yf 路径加文件名】【批量执行命令:clusconf【测试IP:cluster-n】【集群文件系统显示:-yd 命令】cluster-s-yd df-h|grep-E node|public】集群操作命令rootnode15#clusconf-au testuser REMOTE_SH using ssh/scpOperation is done in following hosts:node1 node2 node3 node4 node5 node6 node7 node8 node9 node10 node11node12 node13 node14 node15Now add user:testuser on the Whole cluster 5.4.3.2.1.Input the Home directory for user:testuser/public/home/testuser:直接回车Input the Group Name for user:testuserusers:直接回车Input the uid for user:testuser505:直接回车 Changing password for user testuser.New UNIX password:此处输入密码BAD PASSWORD:it is based on a dictionary word Retype new UNIX password:此处输入确认密码passwd:all authentication tokens updated successfully.Now Synchronize user and group on the Whole cluster5.4.3.2.1.adduser testuser on the whole cluster successfully!集群添加账号过程切换账号:su-用户名 切换节点:ssh 节点名 文件编辑工具:vi 重启命令:reboot使用此命令切换到某个账号使用此命令登录到某个节点关机命令:shutdown-h now集群操作命令vi是Linux系统下面最常用的文本编辑工具,几乎所有系统配置相关的修改都要使用到这个工具。例:有/test.txt文档,该文档内容为 rootnode1#cat/test.txt 111111112222222233333333实验内容:先在/test.txt文件第4行添加44444444,同时复制第2行内容到第5行。最基础最常用vi在介绍cat命令时,我们使用了more与grep参数,这两个参 数非常的有用,可以在任何显示内容性的命令后面添加这个 参数,以方便我们获取到需要的有用信息。more参数可以让我们一页一页的查看内容;grep参数可以让我们筛选出所需要的信息。通用参数more与grep一、本地文件及文件夹的复制cp 源文件目标文件 例:cp/a/b二、网络文件及文件夹的复制scp 源文件 目标文件例:scp/a 192.168.1.1:/b通用参数:-r复制文件夹时必须添加的参数;-a不改变任何文件属性的复制-f强制复制-u只复制目标没有的文件文件及文件夹复制一、文件及文件夹的移动、重命名mv 源文件 目标文件 当源文件与目标文件存放路径一致时,实际执行重命名操作 参数:-f强制模式、-u只移动目标没有的文件或文件夹二、文件及文件夹的删除 rm 文件名,可以删除文件参数:-r删除文件夹时必须添加该参数;-f强制模式注:所有的文件及文件夹操作均可使用通配符*,但请慎用。文件移动、重命名及删除一、一般使用ls rootnode1#ls aaaDesktop二、查看权限及修改时间用ll rootnode1#lltotal 14820softwaredrwxr-xr-x 2 rootroot4096 Dec 12 10:58 aaa通用参数:-a显示所有文件,包含文件名前为.的隐藏文件-h格式化显示文件大小列出文件列表集群账号目录:roottc5000#ls/public/home/msitestuser00使用clusconf au添加账号时,默认会把用户目录建到上面 路径下面。集群软件安装目录:roottc5000#ls/public/software/集群安装软件时,需要在TC5000节点安装到/public/software下面,如果软件只有自己使用,则可以安 装在自己的账号目录下面即可。集群软件安装app compiler intel-old mathlib matthlab-oldmodules mpi mpi-old profile.d查看文件夹下面的文件及文件夹大小可以使用du命令:du 文件夹-h查看某个文件夹具体大小 du 文件夹-sh查看文件夹总大小PBS作业调度使用说明1.准备:编写描述改作业的脚本,包括作业名,需要的资源等。2.提交:使用qsub命令将该作业提交给PBS服务器3.排队:服务器将该任务排入适当的队列4.调度:服务器检查各工作节点的状态是否符合该作业的要求,并 进行调度。5.执行:当条件满足时,作业被发给相应的执行服务器执行。程序 运行时执行服务器会收集程序的标准输出和标准错误流,等程序 结束时,将这些信息返回给用户。6.查询和调整:当作业在运行时,用户可以使用qstat进行状态查询。用户发现作业提交错误时,可以使用qdel删除正在运行的作业。7.查看结果:使用文本编辑软件vi或者系统命令cat,less等查看输出及错误信息显示。PBS作业提交步骤 在PBS系统中,用户使用 qsub 命令提交用户程序。用 户运行程序的命令及PBS环境变量设置组成PBS作业脚本,作业脚本使用如下格式提交到PBS系统运行:qsub qsub-N test.vasp-l nodes=4:ppn=2-q defaults PBS作业提交基本命令 本质是一个SHELL脚本 注释以“#”开头 PBS运行参数,以“#PBS”开头 可以直接调用SHELL命令和系统命令#PBS-N vasp#PBS-l nodes=1:ppn=1#PBS-l walltime=12:00:00#PBS-q highcd/home/test/work./test.exePBS作业脚本PBS运行参数在 PBS 脚本和 qsub 命令行中均有效,qsub命令行参数的优先级更高运 行 参 数说明-a 向PBS系统指定作业运行的开始时间。作业运行时间格式为:CCYYMMDDhhmm.SS-A 使用不同的用户来提交作业,缺省使用当前用户名-o-e 该参数指定标准错误输出的位置,缺省的情况下,PBS系统把标准输 出和标准错误输出放在用户qsub命令提交作业的目录下。标准错误输出:.o 标准错误输出:.e 路径使用如下格式标准::-N 指定提交的作业名-q 指定作业提交的目标队列,其中目标队列可以是目标队列、目标节点 名或者是目标节点上的队列。如果目标队列是一个路由队列,那 么服务器可能把作业路由到新的队列中。如果该参数没有指定,命令qsub会把作业脚本提交到缺省的队列中。-l 该参数指定作业脚本申请的PBS系统资源列表。申请资源列表使用如下格式:=,资源名=,.例如作业希望申请在双路节点上申请5个CPU资源的情况,则可以在脚本中如下:#PBS l nodes=2:ppn=2+1:ppn=1PBS的环境变量变 量 名说明登陆SHELL继承来的变量包括$HOME,$LANG,$LOGNAME,$PATH,$MAIL,$SHELL和$TZ。$PBS_O_HOSTqsub提交的节点名称$PBS_O_QUEUEqsub提交的作业的最初队列名称$PBS_O_WORKDIRqsub提交的作业的绝对路径$PBS_JOBID作业被PBS系统指定的作业号$PBS_JOBNAME用户指定的作业名,可以在作业提交的时候用qsub N 指定,或者在PBS脚本中加入#PBS N。$PBS_NODEFILEPBS系统指定的作业运行的节点名。该变量在并行机和机群中使 用。当在PBS脚本中用#PBS l nodes=2:ppn=2指定程序运行的 节点数时,可以使用$PBS_NODEFILE在脚本中引用PBS系统 指定的作业运行的节点名。比如:#PBS l nodes=2:ppn=2mpirun np 4 machinefile$PBS_NODEFILE$PBS_QUEUEPBS脚本在执行时的队列名#这是一个串行作业脚本的例子#PBS-N test#PBS-l nodes=1:ppn=1cd$HOME/test/./a.out$HOME/result/a.result#这是一个并行作业脚本的例子#PBS-N vasp_job#PBS-l nodes=2:ppn=8#PBS-q lowecho This jobs is$PBS_JOBID$PBS_QUEUEcd$PBS_O_WORKDIRmpirun-np 16-machinefile$PBS_NODEFILE./vaspPBS脚本举例PBS脚本举例(续1)有时在PBS脚本中,需要对PBS环境变量的内容进行改造 比如,$PBS_NODEFILE,该文件内容格式为:node1node1 node2 node2对于一般MPI程序,可直接将$PBS_NODEFILE 作为 MPI 的”-machinefile”参数,如上例所示 而一些软件有特殊的节点指定格式,比如ANSYS的命令行参数格式为:ansys121-dis-machines node1:2:node2:2-i test.inp-o test.log 这时我们可以对$PBS_NODEFILE 进行字符处理,得到需要的格式#这是一个ANSYS并行作业的例子#PBS-N ansys_job#PBS-l nodes=2:ppn=8#PBS-q lowINPUTFILE=test.inpOUTPUTFILE=test.loghosts=cat$PBS_NODEFILE|uniq-c|awk print$2:$1|tr n:|sed s/:$/cd$PBS_O_WORKDIRansys121-dis-machines$hosts-i$INPUTFILE-o$OUTPUTFILEPBS脚本举例(续2)#!/bin/bash#PBS-N jobname#PBS-l nodes=2:ppn=8cat echo$PBS_NODEFILE$HOME/$PBS_JOBID.nodesfor node in cat$HOME/$PBS_JOBID.nodes dossh$node mkdir/tmp/$PBS_JOBIDssh$node cp-rf$PBS_O_WORKDIR/*/tmp/$PBS_JOBID/donecd/tmp/$PBS_JOBIDmpirun-np 16-machinefile$PBS_NODEFILE$HOME/bin/vaspcp-rf/tmp/$PBS_JOBID/*$PBS_O_WORKDIR/for node in cat$HOME/$PBS_JOBID.nodesdossh$node rm-rf/tmp/$PBS_JOBID donerm$HOME/$PBS_JOBID.nodes一个复杂的PBS脚本#这是一个并行作业脚本的例子#PBS-N vasp.Hg#PBS-j oe#PBS-l nodes=2:ppn=12:amd#PBS-q lowecho This jobs is$PBS_JOBID$PBS_QUEUE NP=cat$PBS_NODEFILE|wc-lcd$PBS_O_WORKDIRmpirun-np$NP-machinefile$PBS_NODEFILE./vasp#PBS-l nodes=2:ppn=4:amd:chem#PBS-l nodes=1:ppn=8:chem+1:ppn=8:bio#PBS-l nodes=node1:ppn=8+node2:ppn=8指定节点特性作业提交后,会生成一个作业号,如:dawningnode1$qsub test.pbs 93.node1查看集群作业运行状态:dawningnode1$qstat作业状态说明:E:退出 Q:排队H:挂起 R:运行 C:结束查询作业状态Job idNameUserTime Use S Queue-93.node1test.pbstest0R default95.node1vasp.Hgvasp0E default111.node1structureamber0Q defaultdawningnode1$qstat Job idName-93.node1test.pbs95.node1vasp.Hg111.node1structureUser-zhaocs vasp amberTime Use S Queue-0R default0Edefault0Q default查询某个作业运行状态:qstat 93.node1(或者 qstat 93)显示作业运行在哪些节点上:qstat-n 93.node1显示作业运行详细信息:qstat-f 93.node1查询作业状态(续)dawningnode1$qstatJob idName-93.node1test.pbs95.node1vasp.Hg111.node1structureUser-zhaocs vasp amberTime Use S Queue-0R default0Edefault0Q defaultqdel 93.node1取消删除作业注:用户只能删除自己的作业,管理员可以删除所有用户作业dawningnode1$qstatJob idName-93.node1test.pbs95.node1vasp.Hg111.node1structureUser-zhaocs vasp amberTime Use S Queue-0R default0Edefault0Q default挂起作业:qhold 111.node1取消作业挂起qrls 111.node1作业挂起及取消dawningnode1$qstatJob idName-93.node1test.pbs95.node1vasp.Hg111.node1structureUser-zhaocs vasp amberTime Use S Queue-0R default0Edefault0Q default更改作业运行队列:qmove high 111.node1更改作业资源属性:qalter-l walltime=10:00:00 111.node1更改作业dawningnode1$qstatJob id-93.node1 95.node1 111.node1 112.node1Name-test.pbs vasp.Hg structure gaussianUser-zhaocs vasp ambergaussTime Use S Queue-0R default0Edefault0Q default0Qdefault交换两个作业的排队顺序:qorder 111.node1 112.node1dawningnode1$qstat Job idName-93.node1test.pbs95.node1vasp.Hg112.node1gaussian111.node1structureUser-zhaocs vasp gauss amberTime Use S Queue-0R default0Edefault0Qdefault0Q default交换作业顺序 PBS脚本中可以指定多个作业之间的依赖关系,比如作业提交前另一个作业必须完成,否则处于排队状态#PBS-N step2#PBS-l nodes=4:ppn=4#PBS-q high#PBS-W depend=after:#PBS-N job_rerun#PBS-l nodes=4:ppn=4#PBS-q high#PBS-W depend=afternotok:当指定作业非正常结束,作业才能提交作业依赖关系应用场景使用相同的PBS脚本,提交多个作业,每个作业运行环境基本一致,除了个别运行参数有不同。可用#PBS-t 或 qsub-t 的方式提交这样的一个Job Array,每个作业用环境变量$PBS_ARRAYID 进行区分。简单的例子array.pbs:#PBS-N array#PBS-l nodes=1:ppn=8#PBS-j oe#PBS-t 1-100cd$PBS_O_WORKDIRmpirun-np 8./myprogram-parameter$PBS_ARRAYIDJob Arraypbsnodes命令的主要参数-a 列出所有结点及其属性,属性包括“state”和“properties”-o 将指定结点的状态标记为“offline”。这将帮助管理员暂时停止某些结点的服务-l 以行的方式列出被标记的结点的状态,如-l free,-l offline-c 清除结点列表中的“offline”或“down”状态设置,使结点可以被分配给作业-r 清除指定结点的“offline”状态PBS查看节点状态(续)谢谢!结束结束

    注意事项

    本文(一个复杂的PBS脚本.ppt)为本站会员(豆****)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开