《软件系统运维方案(共11页).docx》由会员分享,可在线阅读,更多相关《软件系统运维方案(共11页).docx(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上1 运维方案在各个应用系统投入运行后,系统进入运行维护阶段。运行维护阶段的主要任务是保证系统正常运行,同时对系统运行状况进行监测和诊断,及时排除各种故障,在必要时对应用软件和系统软件进行升级。自项目进入运行维护阶段开始,项目经理需要协调各项目组、各个业务部、技术部门,掌握系统运行中关键的技术环节和重要的业务需求,抓住系统运行的关键和重点,以提高整个应用系统运行的可靠性和可维护性,使之更加符合业务部门的实际需求并使之更加规范。1.1 运行维护管理体系为确保项目的正常运行,项目组汇同行业专家与顾问、采用业内成熟产品与技术、制定相应的管理流程,成立专门的运行维护组织,形成专
2、业化的运行维护管理体系。确保该项目能够适应业务的深化与拓展、环境的发展及变化,以高效率、高质量、低成本、易管理的特色为用户提供专注的运行维护服务。根据我公司运行维护管理策略,结合本项目特点,形成本项目专有的运行维护管理体系。该体系从规范管理制度、科学设置组织机构、制订运行维护计划、提供先进技术支持等方面进行阐述。具体运行维护的工作包括:制定总体运行维护方案、各应用子系统运行维护方案;进行日常运行维护与记录;对运行平台的维护建议、应用系统升级方案、应急事件支持措施等。1.1.1 运行维护目标系统运行维护的最终目标,就是在运行维护管理体系基础之上,提供一个可集中管理、开放维护、高度可扩展、快速响应
3、的运行环境,实现所有与系统正常运行相关的资源能够获得集中管理和按需分配的目的。具体运行维护范畴包括以下各项目:具体涉及以下各个方面工作: 运行准备工作:包括平台运行准备、基础数据准备等。例如:清除无关数据,系统数据设置(系统参数、门户风格、频道定制等);协助技术实施组,进行基本数据设置(员工基本数据、部门基本数据、栏目基本数据等);相关业务数据移植(节目表、节目基本资料、人财物数据、设备调度基本数据、综合质量质量、版权数据)等等。 对数据库应用的监控:监控数据库应用的运行性能,包括数据库的并发用户、并发锁、共享内存的使用等; 对主要业务应用的监控:包括对各个应用子系统、邮件系统、FTP服务、消
4、息中间件的主要性能参数的监控。 对于应急事件的支持:制定应急预案,确保发生系统故障、环境故障、操作失误、工作配合失误等各种事故时,能够在第一时间实施响应,快速调配各项资源配合应急工作并实施应急措施。1.1.2 组织机构设置为确保项目的正常运行维护,成立运行维护组专门负责对系统的运行维护进行管理。并且下设若干小组进行专项管理工作。具体组织情况及职责如下:1、运行维护组直接由项目经理领导,下设日常维护组、升级维护组、技术维护组、应急支援组。主要职责: 主要负责总体的运行维护管理; 根据系统运行情况以及业务需要制订运行维护相关的总体方案及计划; 根据实际运行情况,定期或不定期的生成统计报表、总结报告
5、等; 控制运行维护成本,并协助用户进行运行维护的成本预算; 掌握服务提供商的综合情况,并提供服务质量评价; 针对重大问题,组织协调各个运行维护小组的资源调配与沟通合作。(1)日常维护组由运行维护组直接领导,负责系统日常运行维护的相关工作。主要职责: 依据运行维护方案,制定日常运行维护计划、问题管理计划等; 运行基础数据采集、整理、分析。根据日常运行维护计划要求,形成各类相关报告,如日常监测报告、状态监测报告、常规维护报告等; 定期或不定期的对应用系统进行系统和数据的备份与恢复,并填写备份/恢复记录; 发现并记录运行过程中产生的问题,形成问题清单,并上报给运行维护组。(2)升级维护组由运行维护组
6、直接领导,负责系统升级维护、应用升级维护等相关工作。主要职责: 依据运行维护方案,制定运行维护阶段的系统升级管理方案; 根据实际情况以及用户需求,在不影响应用系统的正常使用情况下,不定期的进行应用系统升级维护; 辅助用户完成环境迁移后的系统重新部署。(3)技术维护组由运行维护组直接领导,负责系统运行中故障的处理、运行环境参数配置、系统调优等工作。主要职责: 运行维护管理环境搭建,辅助技术实施组进行基础数据准备; 在突发应急事件响应过程中,针对故障进行诊断与排除,并形成报告等技术文档; 运行环境参数设置,并形成相关配置文件; 系统性能优化处理等。(4)应急支援组由运行维护组直接领导,针对应急事件
7、、重大问题提供技术支援。主要职责: 协助运行维护组制定重大问题预案、应急支持预案; 负责预案执行之前的各类设备及系统的预查; 负责预案执行期间的各类资源整合调配。1.1.3 运行维护计划当系统通过集成测试、人员培训、运行环境搭建等相关工作后,开始正式运行。我公司承诺,自系统通过终验之日起需要提供五年的保修和维护服务。为此,运行维护组将根据实际情况以及实际的需求, 制定运行维护管理计划,该计划将具体指导整个运行维护阶段的工作实施及推进。在实际执行过程中,将根据实际需要进行调整和完善。结合定期提交的运行维护管理情况总结,对下一步计划实行有效的调整和改进。1.1.4 运行维护方式本项目的运行维护方式
8、主要以现场维护为主,远程维护为辅。委派专业的技术支持工程师到项目现场提供服务。工程师置身现场环境,能够更加细致入微的体验系统运行情况,与客户进行面对面的交流探讨,能够更为可靠、有效地进行故障预测、问题追踪、异常排除、系统优化,并大为减轻对客户技术上的要求和维护压力。情报中心技改项目主管领导可以根据实际情况和需求,选择由技术支持工程师协助完成短期或者阶段性工作。运行维护组下属的各个小组都会提供现场维护服务,具体如下: 日常维护组,将会长期驻扎在现场,进行日常的巡检、监控、备份等维护项目; 升级维护组将会不定期的到达现场,提供系统升级等维护项目; 技术维护组将会根据实际情况到达现场进行故障排查、系
9、统调试等工作; 应急支援组将在发生重大问题或者应急事件的情况下,在用户现场24小时待命。项目运行维护期间,运行维护组及下属各个小组除了完成各自职责范围内的工作之外,更需要相互沟通协作,共同完成维护任务。例如:日常维护组长期驻守在现场,如发现故障或者隐患,在采取日常维护处理手段仍无法解决的情况下,需要及时汇报给运行维护组或相关小组(以问题清单的方式进行),确保整个运行维护团队的响应速度;技术维护组在进行故障修复或者系统完善的时候,对于系统的日常运行情况的了解和掌握,就需要与日常维护组进行充分的沟通与交流,减少不必要的成本投入,避免判断失误;针对重大事件的响应,就需要运行维护团队充分调度资源,共同
10、协作以完成运行维护任务。通过现场维护方式,可以收集、整理、分析各类运行信息,并形成一系列相关的运行情况记录、阶段总结、解决方案、数据汇总报表等数据资源。为深入挖掘系统隐患,确保正常运行做好充分准备。在现场维护的基础之上,提供远程维护的辅助方式,用户可以通过电话、传真、邮件等方式,直接申请我公司提供技术支持及售后服务等服务请求。1.2 运行维护方案实施1.2.1 日常维护日常维护是系统正式运行阶段最主要的工作,根据运行维护管理计划的要求,在日常维护工作中,需形成各类相关报告,如日常监测报告、状态监测报告、常规维护报告等,作为运行情况的信息反馈提供给相关机构及用户。在系统正式运行阶段,根据实际情况
11、以及用户需要,可以采用运行维护相关的软件系统,承担大部分的日常监控以及维护实施工作。具体可实现一下功能:1、自动预警、报警依据用户需求,定义报警的条件、方式、相关性以及报警分组,一旦发现故障或者隐患,可以通过多种方式及时通知运行维护人员。包括语音电话报警、监控机提示音报警、电子邮件报警、手机短信报警等方式。2、自动故障恢复当出现常规性的故障时,可根据预先定义,执行相应脚本或者程序,使出错的服务恢复正常,并记录所发生的故障及恢复的过程。1.2.2 备份与恢复备份维护是运行维护阶段的一项主要工作。备份的主要目的,就是实现备份对象的再利用价值。通过对系统或数据实施完整而有效的备份,并且在必要的时候进
12、行安全而高效的恢复,才是有意义的备份维护。主要由日常维护组、升级维护组等承担,定期或不定期的对应用系统、网络系统等进行系统和数据的备份与恢复,并填写备份/恢复记录。1、系统备份与恢复系统备份主要是备份各应用系统的相关配置参数和数据,系统备份分为系统全备份和系统关键数据备份两部分。系统全备份的目的是为了保证在系统崩溃时能够在最短时间里将系统恢复,一般在系统安装的初期执行该备份一次即可;当系统出现重大改动或者升级之前,则需要再进行备份。系统备份实施人员需要严格按照规范进行操作,并且详细记录系统备份的整个过程,包括原始状态信息、目的状态信息等,形成操作说明文档。当执行系统恢复操作时,可参照备份说明进
13、行实施。2、数据备份与恢复数据备份主要是将数据通过某种方式,以特定格式加以保留,以便在系统遭受破坏或其他特定情况下,重新加以利用的一个过程。数据备份是整个运行维护管理阶段中必不可少的组成部分。其意义不仅在于防范意外事件的破坏,而且还是历史数据保存归档的最佳方式。换言之,即便系统正常工作,没有任何数据丢失或破坏发生,备份工作仍然具有非常大的意义:通过数据备份,为历史数据查询、统计和分析,以及重要信息归档保存提供了可能。数据备份实施人员需要根据具体情况,选择和优化数据备份工具或备份方法,充分考虑CPU占用率、磁盘空间占用情况、网络带宽占用量、单位数据量的备份时间等因素,以最低的资源占用率,来进行自
14、动而高速度的数据备份。详细记录备份的时间、版本、内容等信息,以方便备份文件的管理与恢复。1.2.3 升级维护升级维护主要包括应用系统等软件产品的安装以及升级服务。需要根据实际情况以及用户需求,在不影响用户的正常使用情况下,定期或者不定期的进行升级维护服务。该项工作主要由运行维护组下属的升级维护组负责实施。1、安装服务正确的产品安装和配置是正常使用和发挥其性能的基本前提。在安装设备之前,需要先对用户进行现场培训;安装过程中,需要相关技术人员参与安装、配置、检测和排除故障;在施工、安装、调试等全过程中我公司将接受建设单位以及相关部门的监督。具体操作流程如下: 制定安装配置计划:为了不影响用户的正常
15、使用或者时间进度,由升级维护组的服务人员制定安装配置计划并提出供安装现场的要求和建议。 实施安装与配置:安装授权程序及相关的修正性系统软件;进行合理化配置;形成配置文档,交由运行维护组存档,并提交给最终用户。 验证测试:当安装与配置完毕之后,需要运行维护组与检查平台项目负责人共同确认安装结果并进行记录。2、备份服务在实施升级服务之前,必须对系统及数据进行备份。由于在升级过程中,可能会因升级版本的不稳定因素造成系统运行中断等严重故障。在此情况下,可以直接恢复为原稳定版本以保证系统的正常运行。3、升级服务根据运行维护管理计划,运行维护组将定时通报系件的升级情况。若网站保密检查平台项目主管领导提出对
16、系统实施升级,当确认该项功能确实存在升级改进必要,那么在软件保证期内,我公司将根据实际情况不定期的给予免费升级,提供升级版本和相应的支持服务。系统软件升级后,运行维护组将对系统的升级安装、调试给予必要的技术支持,并对用户的后续开发提供技术支持。具体流程如下: 升级服务请求:用户根据实际需求提出升级要求,填写升级请求单,交由项目经理审核; 升级服务审核:项目经理审核通过后,组织相关技术实施人员完成升级部分的功能开发、设计、测试,最终形成升级版本,下发至升级维护租;如果升级服务请求没有通过审核,则直接反馈给用户; 升级服务实施:确认升级版本之后,将现有系统及数据进行备份,再进行升级操作。如果升级成
17、功则着重对更新版本进行跟踪,以确认该版本稳定性;如出现升级失败的情况,升级维护组需要尽快恢复升级前的备份版本,并保证其正常的运行。由相关技术实施人员重新对升级部分进行测试评估等工作。1.2.4 问题清单管理系统在运行过程中,会发生各种各样的问题,通过问题清单的流程化处理方式,可以提高各类问题的解决效率,确保系统的正常运行,并能够更好的对运行中出现的问题进行集中整理、对比、分析,以挖掘系统运行隐患。具体的问题处理过程如下:1、问题清单填报:问题的发现途径有多种情况,如用户提报、系统自动警告、预警、日常维护人员发现等等。在本项目中,依据运行维护管理体系,统一由日常维护的值班人员进行问题清单的填报,
18、根据问题严重程度,进行等级划分,包括一般问题、故障、事故、重大问题。2、问题清单转发:根据问题的严重程度,将问题转发至相关的组织机构。如:故障类问题直接转发至技术维护组;事故及重大事故需要转发给项目经理并汇报给项目领导组。3、问题单受理分派:项目经理协调各个成员组,共同分析问题所产生的原因,制定解决方案,明确责任分工,进行分派处理。4、问题清单反馈及跟踪:问题在处理完毕之后,进行结果验证,明确问题的解决情况,并进行跟踪。1.2.5 应急事件支持在系统运行过程中,突发事件是不可避免的,例如软件故障(如数据库、应用软件出现故障)、系统故障(如网络、服务器、存储设备等出现故障)、环境故障(如温度异常
19、、湿度异常、供电异常等)、操作失误(误删除数据、信息发布错误、授权错误等)、工作配合失误(如信息交换不及时)等等。在本项目的运行维护管理体系中,项目团队针对系统运行过程中可能出现的各类故障,组织了具有丰富项目经验的技术人员以及行业专家共同对各类突发应急事件进行诊断处理,具体有以下几方面:1、应急响应及处理:通过查询快速确定突发事件的类型、故障点分布区域、影响程度,并提出最佳解决方案。2、故障及失误修复记录:在故障或者失误修复的同时,真实准确的记录各项相关数据,用于进一步的故障及失误分析。3、故障及失误分析:各种类型的故障信息都被详细记录下来,形成专题档案。技术人员通过收集整理的基础数据,进行比对分析,研究故障或者各种失误发生的规律,发现故障隐患及失误原因,并及早解决。4、各类故障支持方式及响应要求如下表所示:故障类型支持方式响应要求网络或主机系统瘫痪立即专人应答处理立即出发系统严重故障、部分服务不正常2小时内答复1个工作日内系统个别服务不正常4小时内答复3个工作日内专心-专注-专业
限制150内