基于有限自动机的模式匹配算法及其应用研究.pdf
《基于有限自动机的模式匹配算法及其应用研究.pdf》由会员分享,可在线阅读,更多相关《基于有限自动机的模式匹配算法及其应用研究.pdf(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第 19 卷第 12 期 系系 统统 仿仿 真真 学学 报报 Vol.19 No.12 2007年6月 Journal of System Simulation Jun.,2007 2772基于有限自动机的模式匹配算法及其应用研究基于有限自动机的模式匹配算法及其应用研究 李 钢,吴燎原,张仁斌,张佑生(合肥工业大学计算机与信息学院,安徽 合肥 230009)摘摘 要:要:针对质量统计过程控制(SPC)中的异常模式快速匹配问题,提出了基于确定有限自动机基于确定有限自动机(DFA)的模式匹配算法的模式匹配算法,给出了能利用 DFA 进行匹配的基于多维输入数据的模式串定义基于多维输入数据的模式串定义
2、。在分析常规质量控制图中的八种异常模式的基础上,给出了基于基于 DFA 的模式串匹配算法的模式串匹配算法。该算法在企业计算机辅助质量控制系统(CAQCS)中得到了成功的应用,表明它适于解决 SPC 中的异常模式的匹配问题,且有简单、快速和准确的特点。关键词关键词:异常模式匹配;确定有限自动机;多维;常规控制图 中图分类号中图分类号:TP391.9 文献标识码文献标识码:A 文章编号:文章编号:1004-731X(2007)12-2772-04 Research on Algorithm of Finite-automaton-based Pattern Matching and Its App
3、lications LI Gang,WU Liao-yuan,ZHANG Ren-bin,ZHANG You-sheng(College of Computer and Information,Hefei University of Technology,Hefei 230009,China)Abstract:An algorithm of pattern matching was proposed based on determinate finite automaton(DFA)for the problem of quick abnormal patterns matching in q
4、uality statistical process control(SPC).The pattern strings based on multi-dimensional input data were defined which can be matched by DFA.After analyzing the eight abnormal patterns in Shewhart Control Charts,the matching algorithm based on DFA for pattern strings of them were given.The algorithm w
5、as successfully applied to a computer assistant quality control system(CAQCS),which shows that the algorithm is suitable to solve the problems of abnormal patterns matching in SPC and has the desirable characteristics of simplicity,high speed and nicety.Key words:abnormal patterns matching;DFA;multi
6、-dimension;Shewhart Control Charts 引引 言言1 生产过程中实施的质量统计过程控制(Statistical process control,SPC),存在控制图异常模式13的快速匹配问题。如何快速自动匹配异常模式,找出影响生产质量的原因,对过程进行智能诊断是多年来统计过程质量控制领域的一个研究热点。基于过程认知的错误检测技术在 SPC 领域中有着广泛的研究与应用,主要分为定性与定量二类技术,前者主要包括专家系统1与定性趋势分析(Qualitative trend analysis,QTA)2,后者主要包括神经网络3、PCA/PLS(Principal comp
7、onent analysis/partial least squares)4与统计学模式分类器5。这些技术都是在基于过程历史数据的基础上,进行过程的特征提取与模式匹配,有着各自的优缺点。专家系统易于构造,但存在着领域局限性;QTA 建立在严格的数学模型基础上,存在着过程趋势特征提取的难度大、计算复杂等问题;神经网络技术尽管有其自身的优势,但实际应用中存在获取大量样本困难、训练时间较长和准确性不高等问题;PCA/PLS 技术,作为多元的统计学分析技术不需要明确的过程模型,有其优越之处,但在实际中不能有效隔离错误;统计学分类器是建立在统计分布函数已知的基础上的分类 收稿日期:收稿日期:2006-0
8、5-19 修回日期:修回日期:2006-06-28 作者简介:李钢作者简介:李钢(1956-),男,山西河津人,研究员,研究方向为计算机控制与人工智能应用、工业控制与信息集成等。技术,如何确定研究对象的统计分布函数是个应用中的难点,面向统计分布自由(Distribution-Free)的分类器还只是研究初始阶段。在实际应用中,需要综合应用多项技术,取长补短,才能取得好的应用效果6。统计过程质量控制是建立在统计学分布规律已知或近似已知的基础上,对过程模型进行监测和诊断的技术,通过统计学的分析,结合其它诊断技术,可以得到满足一定质量控制精度的异常模式(异常趋势)模型。通过对异常模型的分析,可以得到
9、形式化的异常模式串,从而可以利用模式串匹配的技术对过程异常模式进行快速与准确地匹配,来发现过程异常。有限自动机是解决模式串匹配问题的一个十分有效的方法,在编译系统设计、信息检索、网络监测、协议分析等众多领域有着广泛而深入的应用。模式串匹配分为单模式串匹配和多模式串匹配,单模式串匹配算法有 KMP7、BM8、RK9等,多模式匹配算法包括基于确定有限状态机的算法AC10、CW 11等。这些经典算法时间复杂度都是线性或亚线性的,在实际应用中有很多优化的版本。现有的经典匹配算法中输入串都是一维的,要匹配的模式串都是建立在一维输入数据的组合上。然而,实际应用中存在多维输入数据,需要对建立在多维输入数据组
10、合上的模式串进行匹配。为了解决这种复杂的模式串匹配问题,本文从基于多维输入数据的模式串定义出发,提出基于确定有限自动机的模式匹配算法,实现了常规控制图异常模式的快速匹配,在生产实际中取得很好效果。第 19 卷第 12 期 Vol.19 No.12 2007年6月 李 钢,等:基于有限自动机的模式匹配算法及其应用研究 Jun.,2007 27731 基于多维输入数据的模式串定义与基于基于多维输入数据的模式串定义与基于DFA 的匹配的匹配 设12SSSq=?是多维的输入数据集合(,12SSSq?是不同维上的输入数据集合,q 是维数);,12XXXt?是输入数据集合的分类(即子集),可以理解为组成模
11、式的“字 符”,且0,1tXtXPXtiii=,=,即Xi为的幂集中 的一个元素,且中的任一元素都能映射到,12XXXt?中的至少一个。下面给出基于这种数据的模式串描述性定义。定义:模式串 M 是对一类模式的形式化表示,也就是用有限个“字符”定义一类模式,即12()|pMHHH+?。其中,012121pHHHXXXHpjptj=?且,p 为组 成模式M的“字符”个数,H1,H2,Hp是组成模式串的“字符”。上述定义中的“字符”是进行模式匹配时输入数据中的子集。根据正规表达式与正规集定义12,组成的正闭包 是正规集,因此,模式串 M 可以表示为正规表达式,而正规表达式与有穷自动机是等价的。根据上
12、述模式串定义,对于任何输入的数据,映射到模 式串中的“字符”()|12H HHp?时,由于,01pHpjj=,即 模式串中不存在空字符匹配,所以在进行模式匹配时没有二意性,可以直接用 DFA 实现此类模式串的匹配。当进行多模式串的匹配时,根据上述推断,若组成模式串的“字符”存在互斥关系,则匹配各自模式串的 DFA 可以合并成一个 DFA。这样可以减少实际应用中的 DFA 数量,有利于更快速的多模式串匹配。2 常规质量控制图异常模式的匹配常规质量控制图异常模式的匹配 2.1 常规控制图的异常模式常规控制图的异常模式 常规质量控制图就是根据从控制过程中以近似等间隔抽取数据组成的抽样子组特性值与子组
13、序号相对应获得的图形,它包括一条中心线(CL),作为所有点特性的基准值,还包含由统计方法确定的两条控制限,位于中心线的各一侧,分别为上控限(UCL)和下控限(LCL)。上、下控制限分别位于中心线的上、下 3距离处。为了便于应用这八种模式,将控制图分为6个区,分布在中心线的两侧,关于中心线对称,其标号分别为+A,+B,+C,-C,-B,-A,每个区的宽度为,如图 1 所示。根据文献13变差的可查明原因的八种异常模式分别定义如下:模式 1:一个点落在 A 区以外;模式 2:连续 9 点落在中心线同一侧;模式 3:连续 6 点递增或递减;模式 4:连续 14 点中相邻点交替上下;模式5:连续3 点中
14、有2 点落在中心线同一侧的B 区以外;模式6:连续5 点中有4 点落在中心线同一侧的C 区以外;模式 7:连续 15 点落在中心线两侧的 C 区内;模式 8:连续 8 点落在中心线两侧且无一在 C 区内。2.2 匹配异常模式的数学建模匹配异常模式的数学建模 2.2.1 输入数据集定义输入数据集定义 由抽样点的数据落在控制图中的位置与数据之间的关系,定义输入数据集合1231,SSSSSU SD=,,2SABC D=,3,SBG SM=,各维数据的意义为:(SU:上侧,SD:下侧;A:点落在 A 区,B:点落在 B 区,C:点落在 C 区,D:点落在A、B、C 区之外;BG:当前点与上点连线上升,
15、SM:当前点与上点连线下降)。设输入的第一个点的S3维的值为BG。2.2.2 模式串定义模式串定义 设 X1,X2,X12 是信号集合的分类,现定义组成模式串的“字符”如表 1 所示,前述八种异常模式的模式串定义如表 2 所示。表表 1 组成模式串的组成模式串的“字符字符”定义定义 X1=SU,SDDBG,SM X7=SDA,DBG,SM X2=SUA,B,C,DBG,SM X8=SU,SDB,CBG,SM X3=SDA,B,C,DBG,SM X9=SU A,B,DBG,SM X4=SU,SDA,B,C,DBG X10=SD A,B,DBG,SM X5=SU,SDA,B,C,DSM X11=S
16、U,SDCBG,SM X6=SUA,DBG,SM X12=SU,SDA,B,DBG,SM表表 2 控制图八种异常模式的模式串定义控制图八种异常模式的模式串定义 异常模式模式串定义 模式1 M1H11,H11=X1 模式2 M2H219|H229,H21=X2,H22=X3 模式3 M3H315|H325,H31=X4,H32=X5 模式4 M4H41(H42H41)6|(H42H41)6H42,H41=X4,H42=X5 模式5 M5H512|H522|H51H53H51|H51H52H51|H52H53H52|H52H51H52,H51=X6,H52=X7,H53=X8 模式6 M6H614
17、|H624|H61H63H613|H612H63H612|H613H63 H61|H62H63H623|H622H63H622|H623H63H62,H61=X9,H62=X10,H63=X11 模式7 M7H7114,H71=X11 模式8 M8H818,H81=X12 2.2.3 输入数据集合到组成模式串的“字符”的映射关系输入数据集合到组成模式串的“字符”的映射关系 根据上述定义,输入数据集合到组成模式串的“字符”的映射关系如表 3 所示。表中 F0,F1,F2,F3,F4,F5 为标志位,其值由经过处理的输入数据根据映射关系映射产生。2.3 匹配异常模式的匹配异常模式的 DFA 为了描
18、述的方便,给出如下两个约定:约定 1:所有 DFA 中某个状态下对输入的“字符”不能匹配时,都转换到 0 状态;约定2:模式 3、模式 4 的匹配都从第二个输入数据开始。UCLCLLCL+A-A-B-C+C+B图1 常规控制图分区 第19卷第12期 Vol.19 No.12 2007年6月 系 统 仿 真 学 报 Jun.,2007 2774表表 3 输入数据集合到组成模式串的“字符”的映射关系输入数据集合到组成模式串的“字符”的映射关系 序号 输入数据 F0 F1 F2 F3 F4 F5 1 SU,A,BG X2 X4 X6 X9 X12 2 SU,A,SM X2 X5 X6 X9 X12
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 有限 自动机 模式 匹配 算法 及其 应用 研究
限制150内