2023年运维管理定义.docx
《2023年运维管理定义.docx》由会员分享,可在线阅读,更多相关《2023年运维管理定义.docx(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2023年运维管理定义 第一篇:运维管理定义 运维管理(IT Operations Management)关心企业建立快速响应并适应企业业务环境及业务进展的IT运维模式,实现基于ITIL的流程框架、运维自动化。 核心思想随着国内企业业务信息化的深化, IT运维部门所负责的IT设备及软件的运行维护工作变得越来越困难,技术难度也越来越高。传统的IT工具和流程集中在技术上,而不是业务目标上。业务服务管理(Business Service Management)使IT能轻松满意业务的需求,转变企业的环境,使业务部门和IT部门领导者能够拥有统一的语言,通过统一的界面面对挑战,理解新转变所带来的影响。 B
2、SM主要强调从业务的视角来看待企业的IT运维,从而最大化发挥IT对企业业务的推动作用,这就IT运维的核心思想。 着眼点IT系统的业务服务管理主要着眼点 一、确立以业务价值为核心,业务驱动管理的管理思想面对业务要首先在IT管理的战略层面上建立“业务驱动的IT治理和管理思想,使得业务部门的目标和IT运维的目标一样,都是为了企业整体战略目标的实现,把对业务的支撑实力和管理实效,作为评价IT系统效用和IT部门工作的首要指标。只有这样,才能在全企业范围内建立“技术服务于业务进展的意识和文化,是真正实现IT与业务融合,共同为企业的战略目标服务。 二、建立关键业务服务模型今日的业务部门对应用程序的依靠性比过
3、去更强了。应用程序软件可以实现关键业务流程的自动化 自动化既包括付款、资金转账、下订单和订单履行。由于应用程序故障或性能问题可能导致严峻的业务影响,因此业务部门迫切需要 IT 部门在发生问题时供应更高的应用程序服务级别和更快的问题解决方案。所以,必需结合企业战略和目前业务运营状况,辨识企业业务服务,特别是关键业务应用。为这些核心业务系统服务,建立和企业将来进展愿景、目前IT架构、管理模式等相适应的业务服务模型,能够清晰地描述业务与IT之间的关联关系和IT服务的关键目标。 三、管理信息共享目前,出于对IT资源专业化、精细化管理的要求,企业部署了诸多的监控管理工具,如网络监控、系统监控、数据库监控
4、工具等。一般来说,这些监控工具往往来自于不同的厂商,彼此之间缺乏信息共享的手段。而一个具体的业务是由网络、主机、应用本身所组成,管理信息无法共享,这就造成了当一个故障出现时,无法通过系统干脆自动分析并定位故障点,加大了IT故障的分析难度,降低了解决问题的效率。业务服务管理可以有效整合企业已经构建的众多IT监控系统,将分散的IT管理信息集中到一个单点的管理平台中,从而可以快速进行故障定位。 四、根源问题定位随着企业业务的快速进展,IT环境越来越困难,IT组件越来越多,同时各组件之间的关联关系也更加纷乱和困难。业务服务管理能够供应有效的根源问题定位实力,它着眼于企业的核心业务系统,通过集中与业务相
5、关的IT信息,根据业务规律和IT组件之间的关联关系进行建模,企业可以在业务模型中的任何一点进行快速的根源问题分析和定位,大大提高了解决问题的速度和精确度。 五、故障影响范围评估当我们觉察IT故障时,我们不仅应当关注故障本身,更应当考虑该故障对业务系统的影响。通过建立业务服务影响拓扑,可以快速的了解企业的关键性业务及业务故障时的影响范围,通过了解企业具体的业务环境,优先处理关键故障点。 其次篇:运维管理标准 运维管理标准 概述 运维是管理的核心和重点部分,也是内容最多、最繁杂的部分,主要用于运维部门内部日常运营管理,涉及的对象分成两大部分,即业务系统和运维人员。其管理内容又可细分为七个子系统:
6、第一、设备管理:对网络设备、服务器设备、操作系统运行状况进行监控,对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web等的监控与管理; 其次、数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和复原; 第三、业务管理:包含对企业自身核心业务系统运行状况的监控与管理 第四、书目/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理; 第五、资源资产管理:管理企业中各IT系统的资源资产状况,这些资源资产可以是物理存在的,也可以是规律存在的,并能够与企业的财务部门进行数据交互; 第六、信息平安管理:该部分包含了许多方面的
7、内容,目前信息平安管理主要根据的国际标准是ISO17799,该标准涵盖了信息平安管理的十大限制方面,如企业平安组织方式、资产分类与限制、人员平安、物理与环境平安、通信与运营平安、访问限制、业务连续性管理等; 第七、日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作支配、供应绩效考核量化根据、供应解决阅历与学问的积累与共享手段。 第一章 总则 1.为加强公司各个项目后期的系统运维管理,确保系统能够平稳、牢靠地运行,更好地为客户供应管理服务,特制定本规定。 2.实行预防性维护为主、故障性维护为辅的运行维护管理原则,预防性维护和故障性维护都应遵循事先设计好的程序进行。 3.完善运维管理体
8、系,建立健全运维规范,提高运维管理效率,并不断提高运维质量。 4.本规定适用全部进入运维环节的项目。 5.运维人员应根据授权,处理本规定中所涉及的业务事项。 其次章 主机、服务器及数据库系统的运维管理 1.根据应用需求,主机、服务器及数据库系统的配备和安装、以及系统资源的运用等由公司项目实施部统一规划。 2.应指定专人作为系统管理员系统工程师和数据库管理员,对系统的运行、管理、维护和平安负责,并依据有关规定负责系统和数据的备份与复原。3.系统/数据库管理员应定时对系统进行监控和定期的健康性检查,分析系统运行和资源运用状况,并进行必要的优化、调整和修正,刚好消退隐患。如系统设置发生转变,或重新安
9、装系统,或安装了新软件,应在此后15个工作日内对系统进行亲热跟踪。 4.刚好解决处理系统运行过程中出现的异样问题和软硬件故障,并实行必要措施,最大限度地爱惜好系统资源和数据资源。 5.对于重大软硬件系统故障,应马上通知部门领导,协调服务商,使系统尽快得以复原运行;对于应用系统引发的系统异样或故障,应刚好通知相关人员,并协同解决处理。 6.每季度应对系统主机/服务器/数据库进行一次停运维护,其操作必需严格依据操作规程进行。其他非正常性停运故障引发的除外,应提出书面申请,并经部门领导批准后方可进行。同时做好相应的准备工作,最大限度地削减对业务操作带来的影响。 7.具有系统操作或管理权限的人员调离工
10、作岗位或离职,应马上从系统中删除该用户;如该人员驾驭超级用户口令,应马上更换口令。 第三章 软件系统的运维管理 1.避开在用户工作时间进行软件版本升级工作,以免由于人为失误造成业务中断。2.软件系统的安装、升级等操作应保存完好的实施记录。 3.对软件系统进行升级、更新补丁,应首先进行相关的测试,并在确认无误后实施。 4.对软件系统进行升级、更新补丁,或进行系统的重新安装等操作,应在实施前对原有系统及数据进行备份。 5.变更系统配置,修改配置文件、参数文件时,应对原始配置数据或文件进行保存。 6.软件进行版本升级时,对于不影响业务的升级工作,须以书面形式具体将支配、方案、措施等报上级主管部门备案
11、;对于影响业务的升级工作,必需提前两周向上级通信主管部门以书面形式提出申请具体报告支配、方案、措施等,经批准后方可实施。 7.维护人员应定期跟踪所运用系统的软件升级状况和升级后的新功能,必要时提出升级建议。 第四章 数据库的运维管理 1.对于数据库的变更必需有记录,可以回滚。2.无用表和字段要刚好清理。 3.从数据库删除数据确定要先备份再删除。 4.定期对数据库数据进行自动备份,以便在故障发生后尽快复原最新的数据。定期检查备份的执行状况,确保备份操作正确执行。5.指定专人定期进行备份数据的复原性试验。 1、严格操作原则:在系统上进行可能影响系统运行的参数设置、更改和维护等操作时,须有2人以上在
12、场进行监护和确认,并作好具体的操作记录; 2、提前沟通确认原则:软件进行版本升级时,对于不影响业务的升级工作,必需提前与客户方进行沟通,避开操作中人为失误造成业务中断;对于影响业务的升级工作,须提前与客户方进行确认,达成一样后方可实施。 3、遵守保密原则:对被运维系统单位的网络、主机、系统软件、应用软件等的密码、核心参数、业务数据等负有保密责任,不得随便复制和传播。 第五章 巡检管理 定期了解设备的运转状况,做好系统日常运行的基础数据记录,做到有问题早觉察、早解决,避开隐患,确保设备的完好率,保证系统运行质量。 1.对硬件设备进行定期巡检,是确保系统稳定运行的重要措施,巡检工作包括例 行巡检、
13、节假日和重要事务前的巡检 2.维护人员应根据工作支配,对维护的设备定期进行预防性巡察检查,巡查过程中应认真负责,刚好觉察问题,重点留意处在恶劣环境下、存在潜在质量故障的设备,巡查要认真做记录。 3.巡检过程中觉察告警应马上进入处理流程,判定为故障的要马上进入故障处理流程 4.全部的巡检都应有具体的记录,包括时间、巡检状况和责任人,并应在巡检纪录卡上签字。 第六章 网络管理规范 u 关键业务流程 对以下业务系统流程监控,对业务系统是否正常运行、各项具体参数指标是否超标等进行掌控,避开或降低业务系统故障的发生率。 1、单位内部的关键业务流程。 2、网络吞吐量大的业务流程。 3、对系统造成大的压力,
14、频繁运用数据库的业务流程 4、同其它系统集成的业务流程,这些集成会提高应用失败的风险。u 用户体验同系统性能指标相关联 将网络中的全部网络基础架构都进行集中监测,包括对数据库服务器、应用服务器、路由器、交换机、防火墙的监控,收集网络运行信息,将性能数据同单位内部用户的体验相结合来分析网络的性能状况,诊断系统瓶颈。 u 建立网络运行基准指标并视察趋势 长期监测并通过对网络运行的视察,分析网络性能的转变和流量等指标的运行趋势;刚好觉察网络偏离系统基准模型时的异样状况,分析故障,到达预警的目的,防止更严峻问题的发生。u 设计报警策略,避开警报泛滥 配置报警的根据是根据信息服务管理网的网络运维管理目标
15、,报警设置的原则: 1、对影响网络和业务的重要指标设置报警; 2、消退误报和重复报警; 3、报警应当以多种方式刚好发送给相应的负责人。u 创建自动化、规范化事务处理程序 信息服务网络运维,日常处理事务较多,需要在网络、链路和系统运行出现问题时能够有自动化、规范化的处理问题程序,快速处理各种潜在故障并且支配到相应的负责人,提高工作效率。另外可将工程师长期积累的学问和工作阅历系统化和固化,到达快速定位故障的目的。 u 网络服务质量SLA的量化管理 提高网络服务质量的设立量化指标,将其作为整个网络运维管理团队的整体目标。信息服务管理网网络性能管理的总体目标包括网络和设备、业务的可用性、网络的吞吐量、
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 年运维 管理 定义
限制150内