计算机系统故障应急预案.docx
计算机系统故障应急预案一、目标/范围1、目标与范围在计算机信息管理系统面临各种紧急情况(例如:数据库系统错误、服务器 操作系统错误等情况)时,把数据损失降到最低,并且把这些情况对医疗流程和 医疗收费业务的影响降到最低。2、背景描述关键业务中联医院信息系统:包括门诊医生站、住院医生站、住院护士站、药品流通 系统、药品发药系统、门诊挂号收费、住院收费管理一整套医院主要业务的基础 系统。现有技术平台数据库系统:XX业务服务器OS: xx终端工作站 OS: Microsoft Windowsxx与其他系统的接口PACS系统接口:中联PACS系统LIS系统接口:中联LIS系统PASS系统接口: xxx二、启动应急方案的标准/引发时间保存数据库数据文件的存储设备出现故障,一定要停止系统的时候,启动系 统中心级应急方案;数据库系统发生问题使得关键业务出现问题,无法正常进行的时候,启动系 统中心级应急方案;网络核心交换机出现问题,使关键业务无法正常进行的时候,启动网络级应 急方案;为系统安全进行数据库冷备份的时候启动数据库级应急方案;系统硬件设备软件、固件进行升级,导致必须停机的时候,启动设备中心级 应急方案(此种情况一般包括进行数据库冷备份操作,即启动数据库级应急方案); 三、应急方案预期实施时间数据库级应急方案的预期实施时间为2个小时;设备中心级应急方案的预期实施时间为4-6小时;系统中心级应急方案的预期实施时间为最短6-8小时;网络级应急方案的预期实施时间至少6个小时;四、应急方案的运行、管理和实施1、组织机构和职责应急指挥中心医院信息系统应急处理领导小组组长由分管院领导担任,副组长由信息中心 主任担任,成员由院办、党办、医务部、门诊部、护理部、财务部、药剂科、医 保科等部门负责人组成,应急指挥中心设在住信息中心。应急指挥中心主要职责是组织、指挥和协调人力和资源,使得HIS系统尽快 恢复正常并且使得系统故障对医疗流程的影响降到最低。应急/恢复小组按照应急方案的流程尽快恢复关键业务的运行,使得系统故障对医疗流程的 影响降到最低。故障影响范围负责人执行人操作系统全院业务倪建礼XX数据库核心网络XXXX汇聚层或楼层网楼宇/层业务XXX数据库部分科室业务XXPASS服务器/存储部分科室业务Xx xx空调、UPS等硬件信息中心Xx xx2、启动应急工作模式的程序每隔4个月进行一次数据库冷备份,启动数据库应急方案;业务系统运行设备(EVA6400存储设备、HP rx8640服务器)软件、固件或 配件升级需要启动设备中心级应急方案;运行业务系统的设备或正在运行业务的数据库突然出错并且使得应用工作 站运行程序时无法登录系统根本无法继续进行HIS系统正常业务操作时启动系统 中心级应急方案;业务系统运行设备(EVA6400存储设备、HP rx8640服务器)以及HTS系统 数据库都呈现正常状态,但是核心网络设备(CTSC0 4506交换机)出现不正常状 态导致下面的工作站无法连接数据库IIIS系统正常业务无法继续下去,这时启动 网络级应急方案;3、应急工作的信息管理程序一切协调各科室运作的指令由指挥中心或指挥中心授权人员传达,所有传达 的协调指令应该按照以下各式保存:指令发出时间发出指令人指令内容接受指令人年 月日分秒*、!,* 4、在应急模式下运行的程序I数据库级应急方案:停止数据库,把存储上的数据文件拷贝到主机或备份机的本地硬盘上,重新 启动数据库。执行步骤如下:通知各部门停止使用HIS系统;停止系统数据库服务;把存储上的数据文件拷贝到备机或主机的本地硬盘上;重新启动数据库;通知各部门开始恢复使用计算机系统;至此,数据库级应急方案结束。II设备中心级应急方案:系统现在使用的是主机群集状态,数据库所有数据文件都放在存储上,如果 存储设备固件或配件升级就需要长时间停止存储的服务,此时就需要停止数据库, 把存储上的数据文件拷贝到主机或备份机的本地硬盘上,并仿照数据文件在存储 上的路径在主机上重建存储文件夹,启动数据库,检查系统业务是否正常,确认 系统业务可以正常使用后开始手工收费,先为收费划价人员开启一个划价功能的 终端,配置好一个新的tns连接,指到备份的pc server上的数据库。收费划价 人员根据计算机中划价的金额收款,手写发票。如果升级过程出现异常导致升级 时间超出6-8小时迎来业务高峰就可以考虑使用备机暂时使业务正常运行,升级 完成后再恢复正常。实施步骤如下:为收款和药局新建连接到备用PC Server的tns连接字串;通知各部门停止使用H1S系统;停止系统数据库服务;把存储上的数据文件拷贝到备机或主机的本地硬盘上;把主机或备机的文件目录更改成和原来数据库文件存储的路径一致;在主机或备机上启动数据库,如果应用可以正常使用,就继续下一步,否 则就找出原因,直到拷贝出来的数据文件可以正常使用;维修或维护存储设备,做软件和固件升级;如果在正常的预期时间范围内完成就可以启动数据库,应用程序正常后通 知各部门恢复使用HIS系统;通常情况下,到这一步系统正常使用后就完成工作了,但是一旦出现异常情 况导致系统在升级过程拉长,面对即将到来的业务高峰,应该采取以下步骤:把主机或备机的文件目录更改成和原来数据库文件存储的路径一致;在主机或备机上启动数据库,应用程序就可以正常使用,然后继续维修或 维护存储或做软件和固件升级;当维修或维护完成,设备正常后,选择在夜间业务不忙的时候通知各部门 在停止使用计算机系统;停止在主机或备机的数据库服务;把主机或备机上的数据文件拷贝到存储设备上;启动数据库服务,确认系统正常后通知各科室恢复使用HIS系统;备用 PC Server IP 地址:123. 123. 123. 3以上就是完整的设备中心级应急方案。III系统中心级应急方案:把存储上的数据文件拷贝到主机或备份机的本地硬盘上,启动手工收费程序, 现在医疗收费项目多、药品项目也很多因此要给收费划价人员开启一个划价功能 的终端,配置好一个新的tns连接,指向备份的pc server上的数据库。收费划 价人员根据计算机中划价的金额收款,手写发票,直到数据库恢复完成后再使用 计算机系统。实施步骤如下:为收款和药局新建连接到备用PC Server的Ins连接字串;通知各部门停止使用HIS系统;(3)让药局和收费部门使用后来建立的连接字串进行划价,然后手工收费;把存储上的数据文件拷贝到备机或主机的本地硬盘上;对数据库进行恢复;数据库恢复完成,应用程序正常后,通知各部门开始使用HIS系统;IV网络级应急方案:系统核心交换机出现问题导致网络瘫痪,所有或部分工作站无法连接数据库。 如果是楼层交换机有问题,可以用备用交换机替换下来,如果发生了两台核心交 换机出了问题,就要进行下面的紧急方案。实施步骤如下:把两台PC Sever搬到一楼和二楼;更改好两台服务器各自的ip地址,为收款和药局工作站配好新的tns连 接字串;收款和药局进行手工划价收费;排除核心交换机问题后,恢复使用HIS系统;V环境级应急方案:系统机房的空调、机房UPS、以及楼层交换机电源故障。1、系统机房空调现在分布状况是主机房4台,UPS室1台。如果出现电源闪断,会出现在机房所有空调停机,如果我院供电出现闪断或 因其它原因造成停电,相关部门必须通知计算机中心,计算机中心要安排值班人 员,待供电恢复正常手工启动空调。如果因空调故障或空调供电线路出现故障,可以打开机房的两个大门,利环 境温度降温。如果环境温度较高,降温效果不好,则要手工关闭小型机和存储设 备,待环境温度正常后再重新开启。2、楼层交换机故障新门诊大楼的楼层交换机都配有UPS,如果UPS故障,可以先把交换机电源 直接接上市电,然后维修UPS。3、机房UPS故障障目前机房服务器和交换机等设备中有5台主设备是单电源(UPS)供电,分别 是 IBM3850 (PASS 服务器、离休查询)、HPMSL2024 (磁带机)、IBM3650 (PACS 服务器)、IBM346 (PACS服务器)、IBM346 (测试环境、HPMSL2024管理、包药机 数据库),如果UPS发生故障,需要将这些设备切换到市电供电,然后维修UPS。