《IT基础设施运维管理规范.pdf》由会员分享,可在线阅读,更多相关《IT基础设施运维管理规范.pdf(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、K2MG-EHSWI+04-001K2MG-EHSWI+04-001环境、健康安全、企业社会责任目标指标环境、健康安全、企业社会责任目标指标ITIT 基础设施运维管理规范基础设施运维管理规范文件编号:版本号:一、一、总则为了规范本部门的运维管理工作,使得相关工作具有持续改善性及相互协作性,能够支撑公司系统的健康可靠的运行,由此制定本规范。本规范适用于信息管理中心技术保障部所有岗位人员。二、二、部门职能(1)负责信息化基础设施的技术保障,包括网络、电话、机房、服务器系统、数据安全等技术支持;(2)(3)(4)(5)(6)负责所有服务器系统的技术运维工作负责核心数据库的性能调优及技术运维工作负责各
2、种网络设施、线路的技术运维保障工作负责其他设施的运维保障工作,如机房设施、一卡通、考勤机等智能化设施。负责信息化安全的建设与执行;三、三、岗位职责(1)经理:负责信息化基础设施的技术保障,包括,电脑终端、网络、电话、机房、服务器系统、数据安全等技术支持;负责信息化安全的建设与执行;负责本部门的组织管理,包括,修订组织职责、架构编制、岗位职级、分工授权等;负责本部业务制度流程规范的制定和监督执行;1 1K2MG-EHSWI+04-001K2MG-EHSWI+04-001环境、健康安全、企业社会责任目标指标环境、健康安全、企业社会责任目标指标负责本部团队建设,包括,新员工入职、员工培训、绩效考核、
3、员工心政、团队活动等;负责本部门工作管理,包括,预算编制与管控、计划管理、汇报管理、会议管理等;(2)系统工程师:负责所有服务器系统的技术运维工作负责核心数据库的性能调优及技术运维工作(3)网络工程师:负责各种网络设施、线路的技术运维保障工作负责其他设施的运维保障工作,如机房设施、一卡通、考勤机等智能化设施(4)安全工程师:负责信息化安全的建设与执行;(5)其他说明事项:系统工程师、DBA、网络工程师、安全工程师,以下统称运维工程师;权限控制:除负责基础设施的网络工程师,其余工程师不得拥有进入数据中心机房的权限。网络工程师不得拥有系统工程师的管理权限。各岗位周期性工作清单见附一。四、四、管理对
4、象IT基础设施管理对象包括网络、电话、机房、服务器、系统、信息安全等,具体内容如下:(1)维护。(2)(3)(4)(5)(6)电话:XXXX运营中心、JJJJ工业园、WWWW工业园的电话网络建设与维护。机房:数据中心机房的建设与日常维护。服务器:服务器软硬件的采购、建设与日常维护。系统:操作系统、数据库、应用系统、虚拟化的日常维护。信息安全:信息安全建设与维护。网络:XXXX运营中心、JJJJ工业园、WWWW工业园、数据中心、北京办事处的网络建设与五、五、运维规范(1)运维工程师,负责岗位职责内相应的IT设施的维护手册的制定和完善、并按照本运维2 2K2MG-EHSWI+04-001K2MG-
5、EHSWI+04-001环境、健康安全、企业社会责任目标指标环境、健康安全、企业社会责任目标指标规范执行维护管理工作和巡检工作。(2)运维工程师应当依据运维过程收集的记录信息,每月整理出当月的 月度运维报告 提报部门经理,报告中要重点关注IT设施的问题和改进分析,并提出改进措施和建议。(3)部门经理,负责保障运维管理体系的有效执行,包括本运维管理规范的制定和完善,督导维护工程师完善各设施维护手册。(4)部门经理在月度工作会议上就当月各个运维工作报告与团队沟通共识出整改措施,并形成新的工作计划,推动落实执行。参考运维手册:网络维护手册系统维护手册(1)(2)(3)巡检对象:机房、数据备份、网络、
6、服务器、系统的运行状态。巡检周期:每日、每周、每月,详见附一周期性工作清单。每位运维工程师依据各自维护设施,按时对检核内容进行检查。每日:当日下班前要把当天检查情况填报检核表。(4)(5)部门经理将不定期检查巡检的完成情况。巡检期间,如果发现设备或系统异常,应立即上报部门经理并展开调查,确认故障的应立即进入故障处理环节。监控告警(1)(2)使用*作为统一的监控中心,提供在线监控、流量分析、故障告警;设定告警阀值:磁盘阀值95%,非数据库系统内存阀值70%,CPU 阀值 70%。(3)告警:达到阀值或系统中断时,平台通过短信通知到运维工程师,运维工程师收到告警后,应该立即检查系统的健康状况,并在
7、应急预案规定时间内恢复正常;故障处理(1)(2)根据公司应急预案的要求,在规定时限内进行故障恢复;预案的安全等级:(详细系统的安全要求,见应急预案)安全等级RTORPO非常重要不间断不间断重要1 小时以内1 小时以内3 3一般24 小时以内24 小时以内K2MG-EHSWI+04-001K2MG-EHSWI+04-001环境、健康安全、企业社会责任目标指标环境、健康安全、企业社会责任目标指标(3)故障发生时,运维工程师在无法锁定问题根源时,应该立即启动应急机制,在规定时间内先恢复业务使用,并在非工作时间进行详细的故障排查;(4)经过排查仍然无法解决时,应立即向部门经理汇报,并寻求外部资源直至问
8、题解决;运维审计(1)三权分立:角色分为审计员、设备管理员、运维人员,审计员仅能进行审计工作,对设备管理员和运维人员的行为进行审计,不能创建运维账号,没有系统权限和账号,无法进行运维工作。设备管理员保管系统账号及权限分配,但不能创建运维账号,也无法进行运维工作。运维人员只能进行运维工作,没有系统账号及设备管理权限;(2)(3)(4)(5)内部运维工程师使用 AD 账号登录堡垒机,进行日常的运维工作;外协人员通过临时创建的运维账号登录堡垒机,进行相关工作;任何人员都严禁擅自更改系统的密码、端口等配置;审计记录保留一年,审计人员不定期进行抽检;各运维工程师做为信息服务部的二线支持,收到服务部门的工
9、单请求时应及时对请求进行反馈或处理。在半小时内反馈、在4小时内处理完成视为及时。详细流程参见信息服务部的IT设施服务管理制度。六、六、运维流程IT基础设施运维作业过程中,出现问题需要用到的流程:事件管理、问题管理、变更管理,随着运维活动的不断深入和持续改进,其他流程可能会逐步独立并规范。事件管理流程的主要目标是尽快恢复IT服务,并减少其对业务的不利影响,尽可能保证最好的IT服务质量和可用性。(1)(2)处理人处理人事件流程:事件表单事件分类事件分类网络、电话、机房、服务器、系统、虚拟化、数据库、信息安全标题标题事件编号事件编号系统自动生成4 4K2MG-EHSWI+04-001K2MG-EHS
10、WI+04-001环境、健康安全、企业社会责任目标指标环境、健康安全、企业社会责任目标指标事件描述事件描述错误代码:如果有请填写解决方案解决方案事件开始时间事件开始时间事件原因分析事件原因分析事件结束时间事件结束时间事件描述:口 人为过失 口 设备故障 口外部原因_(3)流程说明任何引起服务中断和服务质量下降的现象,统称事件。处理人:表示事件的受理人,并负责整个事件的解决,直到事件结束。受理人负责事件流程的发起,经理负责审核事件的状态及表单信息的完整性。事件结束自动转入问题管理。问题管理流程的主要目标是预防问题和事故的再次发生,并且在事故的再次发生时,可以找到有效的处理方法。问题管理流程包括诊
11、断事件根本原因和确定问题解决方案所需要的活动,问题管理还将维护有关问题、应急方案和解决方案的信息。(1)(2)发起人发起人问题流程问题表单问题分类问题分类网络、电话、机房、服务器、系统、虚拟化、数据库、信息安全标题标题影响范围影响范围口 影响较大口 影响较小主要影响用户:问题编号问题编号系统自动生成问题描述问题描述问题描述:影响范围:受影响的用户及系统5 5K2MG-EHSWI+04-001K2MG-EHSWI+04-001环境、健康安全、企业社会责任目标指标环境、健康安全、企业社会责任目标指标解决方案解决方案计划开始日期计划开始日期用户通知用户通知通知受影响用户计划结束日期计划结束日期(3)
12、流程说明所有问题都应该被完整准确的记录下来,并保证相关信息应尽可能详细。明确问题管理的问题信息来源,问题可能来源于某些事件的进一步调查,也可能来源于主动巡检和事件报表分析。问题发起人首先识别问题,分析可能造成的危害,提出解决方案,计划好问题的处置时间,并通知受影响的用户。经理负责评估方案的合理性。影响较大:涉及全公司使用、门店使用,用户范围较广的系统或关键业务系统,需总监审核。影响较小:局部用户使用、非关键业务系统。变更管理实现所有IT基础设施和应用系统的变更,变更管理应记录并对所有要求的变更进行分类,应评估变更请求的风险、影响和业务收益。其主要目标是以对服务最小的干扰实现有益的变更。(1)(
13、2)发起人发起人变更流程变更表单变更分类变更分类网络、电话、机房、服务器、系统、虚拟化、数据库、信息安全标题标题影响范围影响范围口 影响较大口 影响较小主要影响用户:变更编号变更编号系统自动生成变更描述变更描述变更描述:影响范围:受影响的用户及系统变更方案变更方案变更方案:6 6K2MG-EHSWI+04-001K2MG-EHSWI+04-001环境、健康安全、企业社会责任目标指标环境、健康安全、企业社会责任目标指标方案测试:如果有变更后测试方案:变更失败回滚方案:计划开始日期计划开始日期用户通知用户通知通知受影响用户计划结束日期计划结束日期(3)流程说明所有涉及运维生产环境的变化,都必须走变
14、更流程。变更的发起人,负责发起变更,提交变更方案,并负责变更的执行。经理负责评估变更方案的可行性。变更委员会:变更发起部门经理及各部门指定对接人员组成,变更发起部门经理主持变更会议,评估变更对各部门业务的影响,各部门委员负责协调相关资源和用户,以及安排变更后的测试工作。七、七、IT 运维服务质量指标IT 运维服务质量指标体系是用来衡量整个运维服务工作质量的标准规范,指标标准如下:运维服务体系质量指标运维服务体系质量指标衡量指标衡量指标用户投诉次数指标说明指标说明IT 故障服务投诉在应急预案当前恢复时间范围之内恢复的,属于正常事故,公司应急预案范围外的系统,按一般安全级事故别考核。超过 4 小时
15、不能恢复,定义为一次重大事故;14 小时之间定义为中等事故;1 小时以内定义为一般事故。1)公司网络被黑客攻击导致中安全断;本项总分 100 分,权重 20%。2)被非授权终端设备登入公司一次扣 10 分,扣完为止。考核期内无事故 100 分,重大事故一次扣 100 分,中等事故一次扣 50 分,一般事故一次扣 20 分,扣完为止。本项总分 100 分,权重 20%。指标公式指标公式投诉一次扣 20 分,扣完为止。本项总分 100 分,权重 20%。7 7K2MG-EHSWI+04-001K2MG-EHSWI+04-001环境、健康安全、企业社会责任目标指标环境、健康安全、企业社会责任目标指标
16、内网;3)公司内部发生已知病毒大范围感染(5 台以上电脑同时爆发病毒);附一:周期性工作清单机房环境巡检设备健康巡检网络工程师网络工程师配电、室内环境、设备状态网络设备、信息安全设备、服务器、系统日备份状态检查OA 单据处理周例会周备份状态检查运维周报月运维报告系统工程师ALLALL系统工程师ALLALL业务系统数据库每日备份计划的完成情况各日常运维单据组织每周例会业务系统数据库每周备份计划的完成情况各自动负责系统的周运维报告每月第一周,各系统工程师提交上月运维报告运营商付费及对账月网络设备备份流量统计机房 UPS 放电检测季备份数据有效性检查AD 单点登录整理半年备份数据恢复测试网络工程师网
17、络工程师网络工程师网络工程师系统工程师系统工程师系统工程师3G 卡,联通带宽付费跟踪每月第一周备份所有设备配置每月 5 号前,提交各中心流量统计每季度第一个月第一周放电业务系统备份数据的有效性检查AD 用户绑定对应的计算机名抽检,对系统的备份数据进行恢复8 8K2MG-EHSWI+04-001K2MG-EHSWI+04-001环境、健康安全、企业社会责任目标指标环境、健康安全、企业社会责任目标指标空调检测网络工程师每半年检查一下整机运行情况,特别是外机基线核查、系统漏洞扫描、WEB 漏洞扫描与修复工作关键系统每年演练一次从项目、日常运维、维保等方面制定本部门下一年预算网络保障及安全审核根据人力要求漏洞扫描评估恢复演练年预算与总结订货会支持安排绩效考核安全工程师ALLALLALLALL其他当人生让你碰壁头破血流时,别害怕,没有这些挫折,怎能练就一身钢筋铁骨,当生活给你一百个理由哭泣时,别沮丧,你就拿出一千个理由笑给它看。9 9
限制150内