LenovoIntelligentComputingOrchestration管理员手册2326.docx
-
资源ID:63125460
资源大小:4.50MB
全文页数:64页
- 资源格式: DOCX
下载积分:30金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
LenovoIntelligentComputingOrchestration管理员手册2326.docx
联想智能超超算平台 V2.11管理员手册册 2015年年9月联想企业级级业务部门门systtem xx解决方案案研发中心心前言41. 产品品简介51.1 运运行环境51.2 名名词解释52. 使用用说明72.1 登登陆管理员员界面72.1.11 切换到到用户态界界面82.1.22 查看集集群基本状状态102.1.33 查看机机群详细监监控信息112.1.44 查看机机群报警信息122.2 用用户/账户户管理132.2.11 创建用用户组152.2.22 修改用用户组192.2.33 删除用用户组212.2.44 创建计计费账户232.2.55 修改费费率252.2.66 充值262.2.77 扣款272.2.88 删除计计费组282.2.99 创建用用户302.2.110 修改改用户332.2.111 删除除用户362.2.112 查看看更详细账账户记录382.2.113 问题题分析及解解决办法412.3 HHPC集群群管理422.3.11 查看HHPC集群群详细信息息422.3.22 HPCC集群的硬硬件远程管管理432.4 作作业调度管管理472.4.11 队列管管理472.4.22 作业管管理482.4.33 作业策策略管理483. 注意意事项493.1 系系统重启493.1.11 IO节节点正常工工作的时候候,管理节节点重启503.1.22 IO节节点正常工工作的时候候,计算节节点重启513.1.33 IO节节点正常工工作的时候候,登录节节点重启523.1.44 IO节节点重启533.1.55 整个集集群重启543.2 mmpi程序序的安装位位置553.3 用用户目录的的绝对路径径553.4 管管理员发布布公告和修修改管理员员联系信息息55前言本文档的读读者需要具具备一定的的高性能计计算,服务务器集群的的基础知识识,同时对对高性能计计算中的并并行开发,作作业调度有有一定的了了解。1. 产品简介联想智能超超算平台是是HPC基础础管理软件,其功功能包括有有计算机集集群管理,集集群监控,作作业调度管管理,集群群用户管理理,账户管管理,文件件系统管理理等。本软件基于于BS结构构,用户可可以通过浏浏览器轻松松登陆到管管理界面进进行操作,也也可以通过过其他Liinux shelll工具登登陆到集群群登陆节点点进行命令令行操作。1.1 运行环境 服务器:联想sysstem x服务器器系列。操作系统:CentOOS 6.5 或RRedHaat 6.5客户端:硬件:CPPU主频2.00GHz以以上,内存存1GB以上上。 浏览器:推推荐Firrefoxx 或 CChromme。 显示分辨率率:推荐11280*8001.2 名词解释计算机集群群: 包含管理节节点、计算算节点等在在内的资源源的统称。 作业: 完完成特定任任务的命令令序列。 作业状态:是指作业业在调度系系统中的状状态标识,包包括等待、排排队、保留留、运行、挂挂起、结束束。 节点状态:是指节点点的状态标识识,包括空空闲、已占占用、繁忙忙、停机。 作业调度系系统: 负责接接收、分发发、执行、记记账作业的的分布式程程序。管理节点: 运行作作业调度,集集群管理,用用户计费等等管理程序序的节点。 计算节点: 执行作业的节点点。 用户组:定定义了对资资源的访问问控制策略略,属于同同一个用户户组的所有有用户可以以访问相同同的集群资资源。计费组:也也是计费账账户,可以以一个用户户使用也可可以几个用用户共享使使用。用来来对集群使使用者进行行计费,结结算等操作作。.2. 使用说明2.1 登陆管理员员界面打开浏览器器输入集群群管理节点点的IP地地址,端口口为80880如:hhttp:/100.2400.2122.28:80080(客客户端必须须可以直接接访问集群群管理节点点)。并看到如下下示图:图1: 登登陆界面用户名的类类别分为两两种:管理理员和操作作员。管理理员可以看看到整个计计算机集群群和所有用用户的信息息,而操作作员只能看看到自己有有权限访问问的资源和和自己的用用户信息。如果是管理理员用户,输输入用户名名和密码后后,用鼠标标点击登陆陆按钮可以以看到管理理员界面下下图:图2: 管管理员主界界面2.1.1 切换到用用户态界面面管理员可以以任意切换换到用户界界面,并且且像用户一一样使用HHPC集群群。用鼠标点击击右上角其其他链接,继继而点击切切换到用户户界面: 图3: 切切换到用户户界面接下来就可可以看到用用户界面:图4:用户户界面2.1.2 查看集群群基本状态态在管理员主主页上,还还可以看到到整个集群群的基本状状态:最顶上一行行的导航栏栏显示了三三个按钮图图标:主页:当前前页,显示示集群基本本信息。资源:显示示HPC集集群所有机机器的详细细信息页。详详情见2.3用户: 用用户管理页页,管理员员可以对用用户/组,账账户/费率率做一些基基本操作。详详情见2.2进入主页后后,可以看看到以下信信息:hpc.ccom:集集群名字 (注:集集群名字可可以在<ppath/to/llico_2.x>/etcc/cluusterr.connf中通过过属性DOOMAINN来配置,如如DOMAAIN="""",但是集集群名字必必须符合域域名命名规规则)。调度器:调调度器服务务的状态,绿绿色代表调调度器工作作正常,红红色代表调调度器没有有正常工作作。并行文件系系统:并行行文件系统统的状态,绿绿色代表调调并行文件件系统工作作正常,红红色代表并并行文件系系统没有正正常工作。网络吞吐:服务器集集群网络的的吞吐量,包包括读速率率和写速率率。集群CPUU: 服务务器集群CCPU的利利用率,包包括已经被被占用的CCPU核数数和集群总总共具有的的CPU核核数。集群内存:服务器集集群内存的的利用率,包包括已经被被占用的内内存大小和和集群总共共具有的内内存大小。集群存储:服务器集集群存储空空间的利用用率,包括括已经被占占用的存储储空间大小小和集群总总共具有的的存储空间间大小。作业:显示示作业的历历史信息,包包括运行中中的作业数数,等待中中的作业数数和结束的的作业数。管管理员可以以选择显示示全部队列列的作业数数,也可以以指定显示示某个队列列的作业数数。时间上上可以选择择分别显示示:过去一一小时,过过去一天,过过去七天,过过去三十天天的作业数数。类型上上可以选择择分别显示示未完成和和已完成的的作业数。节点占用情情况:显示示计算机集集群中节点点占用的情情况:包括括忙碌,占占用,空闲闲和关机。 判断这些些节点占用用情况的主主要依据是是各个节点点的平均每每分钟的进进程负载量量。2.1.3 查看机群群详细监控控信息用鼠标点击击右上角其其他链接,继继而点击查查看详细监监控信息: 图5-1:查看详细细监控信息息用户界面面图5-2:查看详细细监控信息息用户界面面2.1.4 查看机群群报警信息如果集群中中部署了报报警模块, 用鼠标点击右上角其他链接,继而点击查看报警信息,查看Nagios报警信息图6:查看看报警信息息2.2 用户/账户户管理用户管理中中有三个概概念:用户户,用户组组和计费组组(也称计计费账户)。用户组:一一组HPCC集群用户户,他们具具有相同的的队列访问问权限。它的属性如如下:组名:用用户组的名名字。用户组的的状态:包包括有“正常”、“创建中”、“更新中”、“删除中”和“无效”。用户数:所所包含的用用户数目。可用队列列:可以访访问的队列列的名称(队队列必须事事先创建好好,创建详详情可以参参照章节22.4.11 队列管管理)。最近更新新:最近一一次信息更更新的时间间以及相关关的消息。计费组(计计费账户):计费账号号,可以被被一个用户户独自使用用,也可以以被多个用用户共享使使用。当计计费组成员员在集群中中运行应用用程序时,所所属计费组组账户中的的费用会根根据其运行行的应用程程序占用的的CPU核核数和时间间进行扣除除。它的属性如如下:组名:计计费组名字字。费率:单单位机时所所用金额。若若费率为11,代表这这个计费组组的任何成成员若占用用1个CPPU coore,时时间为1小小时,那就就要付1块块钱。已用机时时:成员的的应用程序序一共占用用了多少:CPU(核核数) * 时间(秒秒)。已用金额额:该计费费组的成员员总共所花花费的金额额。由于费费率可以根根据需要调调整变化,当当前已用金金额可能不不等于当前前已用机时时*当前费费率。剩余金额额:该计费费组里还剩剩下的金额额。最近更新:最近一次次更新的时时间以及相相关的消息息。用户:HPPC机群的的个体用户户。它的属性如如下:角色:管管理员或操操作员。管管理员可以以看到整个个集群的状状况。操作作员只能看看到和自己己相关的队队列,作业业的状况。用户名:用户名字字。用户组:所属用户户组。计费组:所所属计费组组。密码:用户户密码。用户的状状态:包括括有“正常”、“创建中”、“更新中”、“删除中”和“无效”。电子邮箱:用户电子子邮箱。最近登录时时间:用户户最近一次次登录的时时间。最近更新新:对该用用户的最近近一次信息息更新的时时间以及相相关的消息息。2.2.1 创建用户户组管理员首先先需要创建建用户组,在在系统初始始化时,系系统已经创创建一个用用户组(默默认是deefaullt_oss_grooup)。建建议管理员员创建新的的用户组来来使用。图7:用户户组管理界界面点击“添加加”按钮,弹弹出如下对对话框:图7-1:创建用户户组界面管理员可以以输入系统统中还未使使用的用户户组名,并并选择可用用队列。(队列必须须事先创建建好,创建建详情可以以参照章节节2.4.1 队列列管理)系统初始化化配置完成成以后,系系统内部有有一个默认认队列:bbatchh. 它的的acl_grouup_ennablee被设为ffalsee. 也就就意味着它它不可以被被某一个用用户组独占占,所有用用户组的用用户都可以以访问。因因此这里是是必选。在本例中,图图示里还有有一个队列列为管理员员事先创建建好的队列列:queeueteest1和和queuuetesst2。qqueueetestt1的accl_grroup_enabble属性性为fallse,这这也就意味味着它也不不可以被某某一个用户户组独占,所所有用户组组的用户都都可以访问问。因此该该队列是必必选的。qqueueetestt2的accl_grroup_enabble属性性为truue,这也也就意味着着管理员可可以将该队队列分配给给某些特定定的用户组组使用,该该队列并不不是所有用用户组的用用户都可以以访问。因因此该队列列是可选的的。图7-2:创建用户户组界面图7-3:添加用户户组界面点击“确定定”按钮后,系系统开始创创建该用户户组,结果果如下图所所示:图7-4:添加用户户组界面等待一段时时间后,该该用户组创创建完成。图7-5:添加用户户组界面2.2.2 修改用户户组管理员在创创建完用户户组以后,还还可以对用用户组进行行修改:修修改该用户户组所能访访问的队列列的信息。选择该用户户组记录前前面的选择择框,然后后点击“编辑”按钮,弹弹出如下对对话框。图8-1:编辑用户户组界面在对队列信信息进行修修改以后,点点击确定按按钮,系统统开始更新新该用户组组的队列信信息,如下下图所示:图8-2:用户组更更新界面等待一段时时间后,该该用户组更更新完成。图8-3:用户组更更新完成界界面2.2.3 删除用户户组管理员在创创建用户组组以后,还还可以将该该用户组删删除。选择该用户户组记录前前面的选择择框,然后后点击“删除”按钮,弹弹出如下对对话框。图9-1:删除用户户组界面点击“确定定”按钮,系系统开始删删除该用户户组。图9-2:用户组删删除界面等待一段时时间后,该该用户组删删除完成。图9-3:用户组删删除完成界界面2.2.4 创建计费费账户管理员接下下来需要创创建计费账账户,在系系统初始化化时,已经经创建一个个计费组/账户(默默认是deefaullt_biill_ggroupp)。建议议管理员创创建新的计计费组来使使用。图9-1:添加计费费组界面点击“添加加”按钮,可可以看到如如下对话框框:图9-2:添加计费费组界面输入系统中中还未使用用的计费组组的名称、费费率和初始始金额。费率为单位位机时所用用金额。若若费率为11,代表这这个计费组组的任何成成员若占用用1个CPPU coore,时时间为1小小时,那就就要付1块块钱。点击“确定定”按钮并等待待一些时间间,该计费费组创建成成功。结果如下图图所示:图9-3:添加计费费组界面2.2.5 修改费率率选中计费组组,点击“修改费率率”按钮,可可以看到如如下对话框框:图10-11:修改费费率界面点击“确定定”后,如下下图示图10-22:修改费费率界面2.2.6 充值选中计费组组,点击“充值”按钮,可可以看到如如下对话框框:图11-11:充值界界面点击“确定定”按钮并等等待一段时时间后,充充值成功,如如下图所示示:图11-22:修改费费率界面2.2.7 扣款选中计费组组,点击“扣款”按钮,可可以看到如如下对话框框:图12-11:扣款界界面点击“确定定”按钮并等等待一段时时间后,扣扣款成功,如如下图所示示:图12-22:扣款界界面2.2.8 删除计费组组管理员可以以将不再使使用的计费费组进行删删除。选择该计费费组记录前前面的选择择框,然后后点击“删除”按钮,弹出出如下对话话框:图13-11:删除计计费组界面面点击“确认认”按钮,系系统开始删删除该计费费组,等待待一段时间间后,该计计费组被成成功删除。图13-22:删除计计费组界面面2.2.9 创建用户户管理员接下下来可以创创建用户了了。在初始始化时,已已经创建一一个管理员员用户(用用户名默认认是hpccadmiin)。图14-11:创建用用户界面点击“添加加”按钮,可可以看到如如下图示:图14-22:创建用用户界面输入系统中中还未使用用的用户名名、密码、角角色、所属属用户组、计计费组、电电子邮箱等等信息。点击“确定定”按钮后,系系统开始创创建该用户户,该过程程需要等待待一些时间间。图14-33:创建用用户界面该用户创建建成功后,该该用户可以以“正常”登录。结结果如下图图示:图14-44:创建用用户界面2.2.10 修改用户管理员可以以对用户的的各种信息息:角色、密密码、所属属用户组、所所属计费组组、邮箱等等进行修改改。选择其中某某个用户记记录前面的的单选框,然然后点击“编辑”按钮,弹弹出如下对对话框。图15-11:修改用用户界面在对某些信信息进行修修改后,图15-22:修改用用户界面点击“确定定”按钮,系系统开始更更新该用户户的信息(更更新过程中中,该用户户将无法登登录该系统统)。图15-33:用户修修改界面等待一段时时间后,该该用户状态态恢复“正常”。图15-44:修改用用户成功界界面注意:修改改用户所属属的计费组组的时候,需需要手动重重启调度服服务:seervicce maaui.dd resstartt。2.2.11 删除用户管理员可以以将已有用用户进行删删除。选择其中某某个用户记记录前面的的单选框,然然后点击“删除”按钮,弹弹出如下对对话框。图16-11:删除用用户界面点击“确定定”按钮,系系统将开始始删除该用用户(删除除过程中,该该用户将无无法登录该该系统)。图16-22:删除用用户界面稍等一段时时间,该用用户将从系系统中彻底底删除。图16-33:删除用用户界面2.2.12 查看更详详细账户记记录打开浏览器器,输入 “httpps:/管理节点点IP” 后跟 “cgii-binn/golld/inndex.cgi”, 例如https:/10.240.212.28/cgi-bin/gold/index.cgi结果如下图图示:输入默认用用户名/密密码:rooot/PPassww0rd可以得到下下图:从左边边导航栏选选择Acccountt -> Listt Acccountt, 可以以看到两个个accoountss, 名字字分别为 defaault_billl_grooup和 demmo_biill_ggroupp。它们正正是我们初初始创建和和后来通过过界面创建建的两个计计费账户。查看其详细细内容,可可以看到它它们所属的的projject也也和账户重重名。accouunt内的的数字相当当于 账户户金额*33600 从左边边导航栏选选择Proojectt -> Listt Proojectt看到如下下信息:查看其详细细内容,可可以看到每每个proojectt下面的用用户也是我我们初始创创建和后来来通过界面面创建的两两个用户;下面的节节点是机群群内的所有有节点。3从左边边导航栏选选择Traansacctionn -> Listt Traansacctionn 可以遍遍历所有的的交易记录录,包括账账户金额的的充改退,作作业运行的的花费等。更多详情可可以参照以以下链接m/prooductts/oppen-ssourcce/goold/Note:若在Golld工具上上直接修改改账户金额额或费率相相关参数,LLiCO界界面上不会会反应出其其变化。2.2.13 问题分析及及解决办法法在下列情况况下,相关关用户操作作可能失败败:1. 集群中各服服务器节点点之间出现现网络故障障2. 集群中服务务器节点的的操作系统统上已经有有同名用户户组、用户户被创建3. 集群中各服服务器节点点的操作系系统上的用用户组、用用户信息不不一致。4. Gold、TTorquue 服务务未运行解决办法:1 保证网网络畅通,可可以通过rroot账账号在所有有服务器节节点之间实实现无密码码登录2 将操作作失败的用用户组、计计费组、用用户删除然然后重新创创建新的用用户组、计计费组、用用户。3 联系LLenovvo售后服服务提供技技术支持。2.3 HPC集集群管理HPC集群群管理十分分复杂,有有一部分功功能可以通通过界面完完成,还有有很多复杂杂的操作需需要通过命命令行或其其他工具完完成。2.3.1 查看HPPC集群详详细信息点击导航栏栏上的资源源图标按钮钮, 可以以看到集群群中每一台台机器的具具体状态,如如下图示:图14:查查看机群详详细信息界界面信息包括:节点名:hhostnname节点状态:空闲,已已占用,忙忙碌或关机机。类别:计算算机点,管管理节点,登登录节点,II/O节点点。管理IP:管理模块块IMM的的IP地址址。OS IPP:节点的的IP地址址。CPU 核核数:每个个节点CPPU Coore的个个数。已用内存/总内存:每个节点点已经使用用的内存大大小/总共共拥有的内内存大小。已用存储/总存储:每个节点点已经使用用的本地存存储/总共共拥有的本本地存储,这这里指的是是本地存储储,而不是是并行文件件系统存储储。2.3.2 HPC集集群的硬件件远程管理理1界面管管理:点击击机器列表表中管理IIP链接图15-11:机群远远程管理界界面可以进入LLenovvo IMMM 管理理模块界面面,进行硬硬件远程管管理,如远远程开关机机,远程 conssole, 硬件配配置等操作作。图15-22:机群远远程管理界界面输入用户名名/密码后后 (出厂厂设置为:USERRID/PPASSWW0RD), 进入入IMM管管理界面。详情可以参参照IMMM用户手册册httpss:/wwww-9947.iibm.ccom/ssuppoort/eentryy/porrtal/docddispllay?llndoccid=MMIGR-507997702命令行行管理:通通过sshh等方式登登录管理节节点的shhell, 直接通通过xCAAT工具命命令远程管管理。以下图示为为一些例子子:2.1 远远程重启节节点:2.2 远远程查看节节点硬件设设备assset信息息:2.3 远远程查看节节点硬件设设备logg信息:更多命令用用法可以参参照以下链链接:htttp:/t/p/xxcat/wikii/XCAAT_Coommannds/2.4 作业调度管管理LiCO用用户界面提提供了文件件的上传,作作业提交,取取消,重新新运行,删删除等作业业的生命周周期操作。更更多详情可可以参照LLenovvo Inntellligennt Coomputting Orchhestrratioon用户手手册。若管理员需需要更为复复杂的调度度管理操作作,需要通通过命令行行的方式完完成。2.4.1 队列管理理队列管理包包括查看队队列、创建建队列和修修改队列。LLiCO没没有提供界界面来对队队列进行管管理,用户户需要登录录到管理节节点,通过过调度器ttorquue的命令令行对队列列进行管理理。- 查看看队列:使用torrque命命令查看已已有队列roottmgtt /# qmggr -cc “p s”- 创建建队列:1. 使用用torqque命令令创建了一一个队列ttest:roottmgtt /# qmggr -cc "crreatee queeue ttest""roottmgtt /# qmggr -cc "seet quueue testt queeue_ttype = Exxecuttion""roottmgtt /# qmggr -cc "seet quueue testt ressourcces_ddefauult.nnodess = 11"roottmgtt /# qmggr -cc "seet quueue testt ressourcces_ddefauult.wwallttime = 011:00:00"roottmgtt /# qmggr -cc "seet quueue testt keeep_coompleeted = 6000"roottmgtt /# qmggr -cc "seet quueue testt enaabledd = TTrue""roottmgtt /# qmggr -cc "seet quueue testt staartedd = TTrue""Note:创建队列列时keeep_coompleeted必必须设置为为大于等于于300.2. 重启启torqque相关关服务:roottmgtt /# serrvicee trqqauthhd reestarrtroottmgtt /# serrvicee pbss_serrver resttartroottmgtt /# serrvicee mauui.d resttart3. 运行行下面命令令将队列同同步到界面面:roottmgtt homme# pythhon /homee/licco_2.*/binn/synnc.pyy上面步骤完完成后,我我们在界面面上就可以以看到新创创建的队列列了。- 修改改队列:修改队列用用到的命令令和创建队队列基本相相同,如下下命令设置置队列中任任务完成后后torqque保留留任务多长长时间,单单位为秒。roottmgtt /# qmggr -cc "seet quueue testt keeep_coompleeted = 5000"更多队列管管理相关命命令请参考考:htttp:/www.adapptiveecompputinng.coom/prroduccts/oopen-sourrce/ttorquue/2.4.2 作业管理理作业管理完完全可以在在LiCOO界面完成成,当然作作为管理员员也可以登登录到管理理节点,通通过调度器器的命令查查看和操作作作业:- 查看看作业状态态 roootmmgt /# qqstatt roottmgtt /# qsttatJob IID Namme Usser Tiime UUse SS Queeue- - - - - -56.mggt teest hhpcaddmin 0 R baatch - 查看看某一作业业的详细状状态 rrootmgt /# qstaat -ff jobbid- 取消消一个正在在排队或运运行的任务务 roootmmgt /# ccanceeljobb jobbid更过作业管管理相关命命令请参考考:htttp:/www.adapptiveecompputinng.coom/prroduccts/oopen-sourrce/ttorquue/ 注意:如如果用户通通过Torrque的的命令行提提交了任务务,那么任任务不会反反应在Liico的界界面上2.4.3 作业策略略管理作业调度我我们使用的的是软件是是mauii, 默认策策略是公平平策略,不不建议修改改调度策略略。更多关于调调度策略的的配置请参参考mauui文档:httpp:/m/prooductts/oppen-ssourcce/maaui/3. 注意事项3.1 系统重启假设/hoome/llico_2.x/etcc/lusstre.conff的配置文文件如下:interrfacee是ethh1, shhareddir是/lusstre, fille-syystemm的名字是是userrfs,mmds中的的第一台机机器是ioo01file-systtem uuserffs iinterrfacee eeth1; sshareeddirr /lusttre; ddatannet_ttype Etheernett ddatannet_hhostnnamemmap iio01:io011-datta,ioo02:iio02-dataa mmds ioo01 deev/sddb ; ooss iio02 ddev/ssdb 3.1.1 IO节点点正常工作作的时候,管管理节点重重启1. 管理理节点上uumounnt /llustrre2. 重启启管理节点点3. 管理理节点重启启后,在管管理节点上上运行如下下命令:roott liico2.*/# cd binroott bin.*/# ./serrvicee_mannagerr.py -reestarrt toorqueeroott bin.*/# ./serrvicee_mannagerr.py -reestarrt gaangliiaroott bin.*/# ./serrvicee_mannagerr.py -reestarrt goold4. 查看看各个非IIO节点的的lusttre是否否已经moount,如如果没有,在在各个非IIO节点上上mounnt luustree, 比如如:mountt -t lusttre iio01-dataatcpp0:/uuserffs /llustrre 一个重要的的原则,在在管理节点点重启前,一一定要dff -h先查看看并记录下下机子当前前的mouunt状态态,重启后后恢复到重重启前的mmountt状态。3.1.2 IO节点点正常工作作的时候,计计算节点重重启1. 计算算节点上uumounnt /llustrre2. 重启启计算节点点3. 计算算节点重启启后:在计算节点点上用dff -h查看看lusttre文件件系统是否否已经moount上上,如果没没有,在计计算节点运运行如下命命令来moount lusttre 文文件系统:mountt -t lusttre iio01-dataatcpp0:/uuserffs /llustrre 一个最重要要的原则,在在机子重启启前,一定定要df -h先查看看并记录下下机子当前前的mouunt状态态,重启后后恢复到重重启前的mmountt状态。4. 在管管理节点上上运行如下下命令:roott bin.*/# ./serrvicee_mannagerr.py -reestarrt toorqueeroott bin.*/# ./serrvicee_mannagerr.py -reestarrt gaangliia3.1.3 IO节点点正常工作作的时候,登登录节点重重启1. 登录录节点上uumounnt /llustrre2. 重启启登录节点点3. 登录录节点重启启后,在登登录节点上上用df -hh查看luustree文件系统统是否已经经mounnt上,如如果没有,在在计算节点点运行如下下命令来mmountt lusstre 文件系统统:mountt -t lusttre iio01-dataatcpp0:/uuserffs /llustrre 一个最重要要的原则,在在机子重启启前,一定定要df -h先查看看并记录下下机子当前前的mouunt状态态,重启后后恢复到重重启前的mmountt状态。3.1.4 IO节点点重启- 如果果需要重启启oss节节点:1 所有非非io节点点需要先:umounnt /llustrre2. oss 节节点重启后后:在oss节节点用dff -h查看看ost是是否已经mmountt上,如果果没有,使使用如下命命令来moount:mountt -t lusttre /devv/sdbb1 /oost1 #sddb1和oost1是是示例,应应以实际环环境为准3. 所有非ioo节点:mountt -t lusttre iio01-dataatcpp0:/uuserffs /llustrre- 如果果要重启mmds节点点1. 所有非ioo节点需要要先:umounnt /llustrre2. 所有osss节点需要要先:umounnt /oost13. mds节点点重启后:在mds节节点用dff -h查看看mdt是是否已经mmountt上,如果果没有,使使用如下命命令来moount:mountt -t lusttre -o acl /devv/sdbb1 /mdtt1 #ssdb1和和mdt11 是示例例,应以实实际环境为为准4. 所有 osss节点:mountt -t lusttre /devv/sdbb1 /oost1 #sddb1和oost1 是示例例,应以实实际环境为为准5. 所有非ioo节点:mountt -t lusttre iio01-dataatcpp0:/uuserffs /llustrre一个最重要要的原则,在在机子重启启前,一定定要df -h先查看看并记录下下机子当前前的mouunt状态态,重启后后恢复到重重启前的mmountt状态。如果想要了了解更过llustrre文件系系统的相关关内容,请请参考:httpss:/wwiki.hpddd.inttel.ccom/ddispllay/PPUB/LLustrre+2.6httpss:/wwiki.hpddd.inttel.ccom/ddispllay/PPUB/LLustrre+Deeveloopmennt3.1.5 整个集群群重启整个集群重重启的的步步骤:1重启头节节点1.1 头头节点上uumounnt /llustrre,1.2 重重启头节点点2 重启IIO节点2.1所有有非IO节节点上ummountt /luustree2.2 IIO节点中中的osss节点上 umouunt /ost*: 先用用df -h查看有有哪些osst是moount的的,然后uumounnt掉这些些ost2.3 IIO 节点点中的mdds节点上上 umoount /mdtt*:先用用df -h查看有有哪些mddt是moount的的,然后uumounnt掉这些些mdt2.4 重重启 mdds节点2.5 检检查 mdds上的mmdt*是是否已经mmountt上,如果果没有手动动mounnt,例如如:mountt -t lusttre -o acl /devv/sdbb1 /mdtt1 2.5 重重启 osss节点2.6 检检查 osss上的oost*是是否已经mmountt上,如果果没有手动动mounnt,例如如:mountt -t lusttre /devv/sdbb1 /oost1 3 重启计计算节点3.1 计计算节点上上umouunt /lusttre,3.2 重重启计算节节点4