软件可靠性技术现状和可靠性模型.pdf
f 软 件可 靠性技 术现状 和可 靠性模型 潘 吉安(中国工 程物理 研 究院电子 工程研 究所)7 p;,摘要本 文就 软件可 靠性 概念、技术 现状、定量 评 估和 预 到模 型、以及 如、何利用收集的数据作出可靠性和可用性评估的方法等问题进行一些探讨。关键词软件可靠性软件可靠性模型软件可用性 一、一一 1软件可 靠性概念和技术现状 性研究成果是大量的 然而时至今日还没能很 好解决软件可靠性预计和评估 的方 法问题。1 1 软件可靠性的重要性 1 2 软件可 靠性定义 随 着计 算机在 产品设计 中 的广泛应 用,软 件可靠性将 显得 越来 越重 要。计算机和微处理 器 几乎被用到一 切大型 系统 之 中,如 C。I系统。由于工业计 算机 硬件可靠性增长 已取得 了巨大 的进展,如 1 9 8 6年 1月拉 普拉斯公 司统 计 I B M 的处理 器(3 0 8 0)的 MT B F为 2 3万小时,同年 秋 季 的统计 已增 长到 8万小 时左 右,因而 当 今 民用和军用 系统的可靠性问题核 心就是软件 可靠性。这一点从美 国近 十年软硬件 周期成本 的比例变化也可看出 见表 1。衰 1 羹 田防 部软硬 件费 用比统 计 中规 模项 目 硬 件 软 件 年 度(美元)()()1 980 41 00 3 5 6 5 l 985 1 392 O 2 0 8 0 I 990 3790 0 1 5 8 5 然而硬件的故障往往由于物理机制所致,而软 件可靠性 广泛取决 于人类 行为和其他非物理 因 素。特别是在系统使用过程 中,一旦出现软件故 障就变得束手无策了 也就是说软件远比硬件 更 为复 杂,一般 系统 中软件 的状态 敷 比硬 件的 状 态数 要大很多数量级。另外,描述软件的敷学 模 型也很 复杂,这也 给软 件开发者 处理 软件问 题 带来更大的困难。总之软件可靠性 问题更为 复杂,它是 当今可靠 性研 究和软件 工程 中的最 主要 和最困难的课题。虽然 已发表的软件可靠 软 件可靠性 定义如 下;在规定 的 条件下 和 规定的 时间 内,软件不引起系统失效的概率 规定 的条 件包括 运行环境、使用 要求 及硬 件和支持软 件等 环境 条件。软件的介质或载 体,如磁带、磁盘 的 故障 或 失效 均 归 为硬 件 处 理。软件不会因多次、长时 间的运行或贮 存而发 生 磨损性失 效,然而 软件在运 行 中是会 出现 故 障或失效的。软 件失效 定义:软件在 运行 中不 能完成 其 规定使 用功 能而 称为软件 失效(F a i l u r o)。软 件 失效 是 由软件 错 误(E r r o r)或逻 辑 错 误所致 软件错误造 成软 件局部功能的丧失称 为软件 故障(F a u l t)。不是所有的软件错误 部导 致 软件 的故障或失效。软件 错误、故障和失效的 范畴参 见 图 1,范 畴的边 界取 决 于具 体软件 的 技 术定义。图 1 软件失效、故障和错谩蓖畴关系 1 3 软件失效模式和影响分析 软件失效 模式及其 啄因简要分析 如下 1 5 维普资讯 http:/ 软件可靠性技术现状和可靠性模型 a、某一逻辑途径在某一特定 运行 模式和输 入 下产 生错误 原 因是代 码错误 或数据 类型错 误 b、应 用 程序 中的 函 数变 量 和参 数 输 入错 误,原 因是代码 错误、单位错误或算法 和数学模 型错 误 I c、在 引导 多处理 器工 作时,一 个程序 被挂 起(O n-h o o k),原因是子程序调用错误 程序接 口或中断时间或执行错误 d、程序非正常 终止,原 因是计算 量太大,使 支持 译码器 处于 出错状 态 或 是因数 值过大 或 过 小、造 成 上、下 溢 出或 超 出译 码 器允 许 的 范 围 e、程序陷入死循环,原因是在某一特定的 命 令 或输 入下,程序 处于错 误的无 限次 逻辑 循 环之中等等。软件 错 误在测试 和试验 中 出现 时,可立 即 进行修 改,这有 可能排;杀 软 件错误,也有可能引 入新 的错误,这是 与硬件的 不同之处。软 件错误 影响 的程度可 有很大 的差 剐,从 影响 较小的错误,如 显示器上的拼 写错误,一直 到 产生灾难性、全局性失效。工程上可按影响程 度的大小来分级定义,对于影响大、危害严重的 l,2级 定 义为不能容许的失效。而对于其他等 级的故障或错误也应有允许存在的数量限制。这要通过保障软件可靠性的措施来解决。1 4 保障软件可靠性的措施 软件 错 误 可能 产 生于 软 件开 发 的各 个阶 段,应从 管理、设计、文 件编制、编码和赋值 等各 方面 来保障软件的可靠性。1 4 1 准确 而精确 的软件要求分析 软件开发者应与用户充分协商,做到按 目 标设计。软件的编码错误 可能 与语句行大小有 关,但技 术指 标错误 会引起错 误总数 的成倍增 加,开发者应对软件的应用、开发环境、输入和 输出特性等因素尽量给予详细的描述,把功能 之外的软件需求 力求 量化,规范化语言、操 作 语义、数学语义来表述软件的设计要求。1 d 2管理保 障 a 组建软件设计师、设计评审队伍,明确 各 自的职 责 I b、软件开发标 准化、规范化管理,参 照软件 开 发 军用 标 准:GJ-B 4 3 7 8 8“,GJ B 4 3 88 8 0 和 G J B 4 3 9-8 8 制定软件开 发的实施办法 c、实行 自上 而下 的逐步 细化 之 开发层 次;对每 一 层次 的设 计 实施 代 码审 查和 正 确性 考 核。1 J 3良好 的设计 方 法 a、标准化编 程语言。A D A语言是美国防部 通过招 标方式,历 时八 年开 发和 批准的 标准化 语言。它可在各种机 型上 实现 既可进行数值计 算 又能实施系统控制的高级语 言。b、模块化、规范化程序结构。采用模块化编 程和文献“所规定的五种规范结构:顺 序、条件 转 移(J F T H F 2 E L S E)当循环(D O wHL E)直 到循环(D O UN T I L)和 分情 况(C AS E)且每一 结构 只能有 唯一的 入 口和 出 口 对 每个模块 的 大小(平均 6 0行)也有规 定。c、容错设计。提高硬件可靠性 的措施有冗 余和贮 备。对于软 件 t 增加一个或几个相 同的 软 件模块作为冗余和贮备是徒劳的。软件的相应 办法是容错(F a u l t t o l e r a n c e或 T o l e r a n c e)。容 错有 两种方 式:N式 编 程“(NVe r s i o n P r o g r a m m i n g)和恢复块(e c o v e r y b l o c k)。N式 编程是对于同一技术要求 的功能采用相互独 立 的 不 同执 行程 序,遇 有相 互 矛 盾的 输 出时,由“表决器 来判断和选择。N式编程相当于硬件 的冗余。恢复块相当于硬件中的冷贮血系统,为确 保软件 i 曼 试 的通过,首先运行酋选模块,若确故 障时,则 依次调用互 不相 同的替换 模块 总之容 错 技术 在高层次 上执行是 可靠 的,可遏制低 层 次中的 软件错误。1 4 4 测 试和 试 验 维普资讯 http:/ 国外科技资料 1 9 9 3 年第 4 期 软件测试和试验对于暴露敬件中的错误是 致关 重 要的,通过对 已发现 错误的排 除,才能使 软 件趋于完善和 可靠。这就必须解决 软件的测 试方 法问题,这也应 看成 是软 件开发 中的组成 部分。在测试 中建立 错误记录、故障 报告 制度 及 数据 收集系 统 也是很重要的工作。总之 保障软 件可靠性 的措 施归结为三个 方 面:一 是预防和避免软件中的错 误和失 效 I 二 是 设计 中的容错 I 三 是排除 已发现的错误。1 5 软件可靠性尺 度 描述软 件可靠性 的基 本尺度 是失 效 率m,它表示某时刻单位时间内软件失效 数的期望 值。这里的时间是指软件的运行时 间,不是一般 的机时,更 不是 日历时间。失效 率 是 我 们定 量 评估 和 预 测的 主 要参 数,然而作出可信的预测和评估是十分困难的,难点在于失效率是 随时间而变化的,最困难之 处在于软件数据的收集上。尽管开发者和用户 都很关心软件可靠性,然而事实上他们都不关 心和致力于数据收集工作。没有软件 精确 的失 效数据,就拟 台不出可信的失效率数学模型。一个 程序在运 行速 率 快 一倍 的机 器上 运 行,其失 效是 同一 程序 在速率 为其 一半的 机器 上运行失效舯两倍。因此为估计失效率必须在 实际机器上进行测试和试验。2 软件可靠性模型和数据 2 1 模型概论 软 件在测 试终止 时的失效 率 评估值,可 以 作为交付软件的失效率的预测值。关于软件可 靠性评估和预测模型,首先可以说模型太多,不 计起步阶段,仅从 1 9 7 1 年到 1 9 8 6 年这1 S 年间 共出现了百多种模型 。它们都是建立在一个 基本假定上:一 个软件经受测试,每观 察到 一个 故障立 即进行 排除,利用最 后发 生故 障时的失 效率,借以估计当前的失效率,和预测未来的失 效 率。所以有这么多的慎型,也说明时至今 日还 没有哪一种模型能作出足够精确的估计和预 测。也还可以预见到今后还会出现一些新模型。作为工程应用,我们的策略是选择几种较为简 单、评价较高、特别是对于 已有数据拟台较好的 模型,来处理收集的数据,以不致陷入“模型战 争”之中。首 先是杜 安(D u a n e)可 靠性 增长模型。尽管 它是一十早期模型,但到 1 9 8 4 年还得到了很好 的 应用。,且 美 国海军 可 靠性 可用 性 评 估手 册 。也推 荐了这种模型。1 ;一 i:一 T I T 1 l l I T I 景 糨试t :j L 一 一l;Nt N2 N 一 !M I 一 阃 圈 2 软件放肆时阿与故障数 摹糨蕞尊致 此 外 评价 较 高的 有 MO(Mu s aO k u mo t o)模 型。和 贝 叶斯观 点的 L V(L i R l c w o o d v e t r a i l)模型“,这三种模型有一个共 同的假设 把软 件 当成 一个黑 盒子(b l a c k b o x)来 处理。黑 盒子 摸型没有能考虑软件的结构和测试的特点,面 党斯(D o w n s)等人提出了几种试图模拟软件测 试的模 型n”。顺便说明一下数据的格式:在软件 测试 的连 续时 间段:t ,t:,t 上,观察 到 的 故障 数 为 I+1 ,n:,I+1 ,止 于 i 次统 计的累积运行时 间为:;,;1 i (j)J 1 此 时的累积故障数记为 N r l 7 维普资讯 http:/ 软件 可靠性 技术 现状和 可靠性 模型 N =”,一l i(2)j-l i 个量 的时序关 系见图 2 2 2 杜 安模 型的应用和导出的结论 杜 安模 型 是一个 非齐 次 的洎 松过 程,该 模 型的公式如下:=T 一 (3)式 中的 是 止于 T时间 的累积失 效率,它等于 累积 失效数(或故障数)除 以 累积运行时间;是初 始 累积 失效 率,即 为 当 T=1时 k 之值 日 是被估计的增长率,e 的取值为小于 1 的 正实 数。对(3)式取 对数,得到;f 一 一 风 +L (4)这 说 明杜 安模 型在 双 对 数纸 上具 有很 好 的线 性 因此可在双对数座标纸上对收集的数据作 图,用图估法估计杜安模型的两个参数:-和 B。杜安模型图估法如下:对 于数据 的 第 j 个 观察 点,累积 的失 效 教 为 N ,累积运行时间为 T”此点的累积 失效率 估计值为 凡=JY,T j (5)可 由数 据(T ,),当 j=1 i 时,描 出 i 个数据 点,再配直线,可估计参数 和 日。参 见图 3。图 3是以工作 日统计 的软 件故 障数据而描点 配直 线的。的估计:延长所配直线与纵轴的交点标 定值即为 h,本例-=5 9 5。6的估计:在直线上另取一点对应的 k之 值为,本 例当 T 一1 0 0时,z 一1 5 7,由下式;一;L55 9 L1 5 7 O2 8 得 到 e的估计值。由此 可以写 出 T时刻 的瞬时 失效率(T)的公式:椰)=a N 1,OB 1,OC D E h 卧 田 5 分 段线 性 危 险率 某 一直 线下 的面 积 T(T)满足下式:,():f (t(1 4)J O 通 过简单 估算线 段下 的面积,并 控制平均 失效 等于 的条件,而估算出五个参数的数值。D G模 型对于 Mu s a数据 的拟 合,经 证 明较 两 种 L V模型 都好,其 中 P L H R模 型最好 从使 用方 便的角度 看 N U和 N UI 模型最好。3 可靠性和可 用性评估与综合 排除软 件故 障的时 间属 于 软 件维修 时 间,同理可以求得第 i 次故障排除时的修复率,在排除第 j 次故障后的短时间内,均按指数分 布处理(引理 1),k i 和 i 的倒数为软件 的 MT B 维普资讯 http:/ 软件可靠性技术现状和可靠性模型 F j 和 MT T Ki,此时 的可靠性 和维修度 均拄 指数 分 布处 理,其稳 态 可用 度(S t e a d y S t a t e Av a i l a b i l i t y)公式 如下:M TBF,、A M TBF,+-M TTRt J bJ 软件可用度与硬件可用度的综 合公式为:A 一 (1 6)下面讨论现场数据的处理方法。对现场 数据 的 收 集和 处理 无法作 到象测 试数 据的细 致程 度,能够统计的项 目有;(1)、软件总源代码行数,它以千源代码行 K S L O C为单位。(2)平 均 出错率,每干源 代码行 的错 误数,NA S A和 RA D C(罗姆空军 开发中心)1 9 8 2年统 计 4 0个 项 目的平均 出错 率 为 1 0 k S L O C,一般 可能的范 围为(1 1 5 0)k S L O C。(3)致命错误率,它是致命错误数占错误总 数的 比率,大约 为 1 0 左 右。(4)错误检出率,单位时间内检出的每干源 代码行的错误数,文献统计软件头一年的数据 为:(0,l 3 0 2 5)k S L O C。(5)现场修复时间的平均值 统计一次热启动和后勤 延误 时问 之和 的平 均值拄 1 0 分钟计。数值例,某程序模块总行数为 2 2 7 k S L O C,头一年 的出错率为 2 5 k S L O C,致 命错误率按 l 0 计,错误检出率头一年为 0 2 k S L C,软件 MT T R 为 l 0分 钟,计 算软 件 的 M TB F和 可 用 度,给定 硬件 可用度 为 0 9 9 9 2时,计 算系统 可 用度。解:计算头 一年的错误总数 N T;。=2 2 7 2 5=5 6 7 6,被检 出的错误数 为t 5 6 7 5 0 2=I I 3 5,其中致命错误数N+n=l 1 3 5 l 0 ;1 1 4 运行 一 年的时 间为 T=8 7 6 0小 时,出现 了 儿d 个 致 命 错 误,则 MT B FT m t=8 7 6 01 1 4=7 6 8 4 小 时,MT T R=l 0分 钟;0 1 7小时,软件 20 可用 度 A :7 6 84 (76 8 4+0 1 7)=0 9 9 7 8 系统可用度 A:A=0 9 9 92 0 99 78=0 997 0 本 例为常年运 行 的软件,短 时运 行的软 件 其算法是相同的。总之,软件在测试的长时间过程中,失效率 是 近似 按常指 数 而递减的 I 在 两次 故障排除 的 短时间 间隔 内,软件失效率近似于常数,可按指 数分布 处理 这里给 出了两 种软 件数 据收集和 处 理 方法,可酌情用 于软 件可靠 性 和可用性 的 评 估或预测。参 考 文 献(1)G B 4 3 7 一e e军用软件开发规范 2)G 巾|3 e e e军用软件文档编糊规范 (3 G J B I 3 8-8 8军用软件质量保证规范 (们 u kn A a n d aHn L on t h e i mp l e t n e n t a t io NVe t s io Pt v g r a mming f。r 9 o f t wB l f u l t i o le t a n c e d u r i n g P r o g r a m e x 一 ut i o n C hi$oI Pr o(:C OM P SAC C o n,1 9 7 7i 9 1 5 5 (5 1 Ra n d e t I Re c u n s V e l y*t r u ur e d P a u l t To l e r an t d t t i b u t e d c o m p u t i ng s y s t e mI n t S k wi r z,k i 3 K ch n B e o f Ad v a t e e d Co mp u t i n g Te c bn o l o t o S y s t e m e s iS n M I“s i n B 时一 v盯 gI P r o=NAf O Ad v a n c e d S t u d y I n s t i t u t e c 6)W E-f t w a r e r l ia b i l i l y mdt h l o t mWl a t y I n t 1 9 8 8 RE LI ABI LI TY AND M AI TAI NAB I LI TY S ym I UM 1 0 O 1 84 7)M l o r P A n a L wrs。f s oft w a r e a i l u r e d a t a(1)t a d n a t in nof oll r 1 d a t a I CL T-c B 1 Vo 1 4(2),1 9 84 c e)(美)童洲着 白同期辱译 可靠性可甩性评估手册-上海 空大 I I 版社,1 9 8 6 1 3 7 1 4 5 (9Mu s e T Dl Ok u mo K Ap p l i c a t inn o f b a s i c a n d l o g a r i t h mi c po i so n e x e c u t io n t i me m da l i n nw e t e l i a b i e i l y m*目 n 1 I nI 同(5)C I O)I A l t lewo c d B,Ve ga s几 (h at h eLi k e l i h o o d u n e d onof a出 一 b u g g i n g mo d e l l o r s o t t wa t e r e l i a l i I EE E Tr a n s o n Re i L a b ini t y Vo i R-3 O 1 8 81 I 1 45 1 4 8 C 11)bo wwT,0m。r Ie P S omemo dal s oft wa r e t e s d n E wi t h p 时!o e m mc e o mpa t i s o n s T E。r I Reli bl l:l y Vc l R 1 0(3)i 9 9 1 3 22 3 2 e 维普资讯 http:/