24 - FMEA方法排除架构可用性隐患的利器.docx
《24 - FMEA方法排除架构可用性隐患的利器.docx》由会员分享,可在线阅读,更多相关《24 - FMEA方法排除架构可用性隐患的利器.docx(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、24 | FMEA方法,排除架构可用性隐患的利器 我在前面的专栏分析高可用困难度的时候提出了一个问题:高可用和高性能哪个更困难,大部分同学都分析出了正确的答案:高可用更困难一些,主要缘由在于异样的场景许多,只要有一个场景遗漏,架构设计就存在可用性隐患,而依据墨菲定律可能出错的事情最终都会出错,架构隐患总有一天会导致系统故障。因此,我们在进行架构设计的时候必需全面分析系统的可用性,那么如何才能做到全面呢? 我今日介绍的FMEA 方法,就是保证我们做到全面分析的一个特别简洁但是特别有效的方法。 FMEA 介绍 FMEA(Failure mode and effects analysis,故障模式与
2、影响分析)又称为失效模式与后果分析、失效模式与效应分析、故障模式与后果分析等,专栏采纳故障模式与影响分析,因为这个中文翻译更加符合可用性的语境。FMEA 是一种在各行各业都有广泛应用的可用性分析方法,通过对系统范围内潜在的故障模式加以分析,并根据严峻程度进行分类,以确定失效对于系统的最终影响。 FMEA 最早是在美国军方起先应用的,20 世纪 40 年头后期,美国空军正式采纳了 FMEA。尽管最初是在军事领域建立的方法,但 FMEA 方法现在已广泛应用于各种各样的行业,包括半导体加工、餐饮服务、塑料制造、软件及医疗保健行业。FMEA 之所以能够在这些差异很大的领域都得到应用,根本缘由在于 FM
3、EA 是一套分析和思索的方法,而不是某个领域的技能或者工具。 回到软件架构设计领域,FMEA 并不能指导我们如何做架构设计,而是当我们设计出一个架构后,再运用 FMEA 对这个架构进行分析,看看架构是否还存在某些可用性的隐患。 FMEA 方法 在架构设计领域,FMEA 的详细分析方法是: 给出初始的架构设计图。 假设架构中某个部件发生故障。 分析此故障对系统功能造成的影响。 依据分析结果,推断架构是否须要进行优化。 FMEA 分析的方法其实很简洁,就是一个 FMEA 分析表,常见的 FMEA 分析表格包含下面部分。 1.功能点 当前的 FMEA 分析涉及的功能点,留意这里的功能点指的是从用户角
4、度来看的,而不是从系统各个模块功能点划分来看的。例如,对于一个用户管理系统,运用 FMEA 分析时 登录注册才是功能点,而用户管理系统中的数据库存储功能、Redis 缓存功能不能作为 FMEA 分析的功能点。 2.故障模式 故障模式指的是系统会出现什么样的故障,包括故障点和故障形式。须要特殊留意的是,这里的故障模式并不须要给出真正的故障缘由,我们只须要假设出现某种故障现象即可,例如 MySQL 响应时间达到 3 秒。造成 MySQL 响应时间达到 3 秒可能的缘由许多:磁盘坏道、慢查询、服务器到 MySQL 的连接网络故障、MySQL bug 等,我们并不须要在故障模式中一一列出来,而是在后面
5、的故障缘由一节中列出来。因为在实际应用过程中,不管哪种缘由,只要现象是一样的,对业务的影响就是一样的。 此外,故障模式的描述要尽量精确,多运用量化描述,避开运用泛化的描述。例如,举荐运用MySQL 响应时间达到 3 秒,而不是MySQL 响应慢。 3.故障影响 当发生故障模式中描述的故障时,功能点详细会受到什么影响。常见的影响有:功能点间或不行用、功能点完全不行用、部分用户功能点不行用、功能点响应缓慢、功能点出错等。 故障影响也须要尽量精确描述。例如,举荐运用20% 的用户无法登录,而不是大部分用户无法登录。要留意这里的数字不须要完全精确,比如 21.25% 这样的数据其实是没有必要的,我们只
6、须要预估影响是 20% 还是 40%。 4.严峻程度 严峻程度指站在业务的角度故障的影响程度,一般分为致命 / 高 / 中 / 低 / 无五个档次。严峻程度根据这个公式进行评估:严峻程度 = 功能点重要程度 × 故障影响范围 × 功能点受损程度。同样以用户管理系统为例:登录功能比修改用户资料要重要得多,80% 的用户比 20% 的用户范围更大,完全无法登录比登录缓慢要更严峻。因此我们可以得出如下故障模式的严峻程度。 致命:超过 70% 用户无法登录。 高:超过 30% 的用户无法登录。 中:全部用户登录时间超过 5 秒。 低:10% 的用户登录时间超过 5 秒。 中:全
7、部用户都无法修改资料。 低:20% 的用户无法修改头像。 对于某个故障的影响究竟属于哪个档次,有时会出现一些争议。例如,全部用户都无法修改资料,有的人认为是高,有的人可能认为是中,这个没有肯定标准,一般建议相关人员探讨确定即可。也不建议花费太多时间争辩,争吵不下时架构师裁定即可。 5.故障缘由 故障模式中只描述了故障的现象,并没有单独列出故障缘由。主要缘由在于不管什么故障缘由,故障现象相同,对功能点的影响就相同。那为何这里还要单独将故障缘由列出来呢?主要缘由有这几个: 不同的故障缘由发生概率不相同 例如,导致 MySQL 查询响应慢的缘由可能是 MySQL bug,也可能是没有索引。很明显My
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 24 FMEA方法,排除架构可用性隐患的利器 FMEA 方法 排除 架构 可用性 隐患 利器
限制150内