基于表现型的基因表达式编程解空间模型研究-郭勇.pdf
《基于表现型的基因表达式编程解空间模型研究-郭勇.pdf》由会员分享,可在线阅读,更多相关《基于表现型的基因表达式编程解空间模型研究-郭勇.pdf(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第49卷第5期2017年9月工程科学与技术ADVANCED ENGINEERING SCIENCESV0149No5Sept2017信息工程 DOI:1015961jjsuese201601393基于表现型的基因表达式编程解空间模型研究郭 勇1,何 锫23+,张国锋1,郭顺超1,司永洁1(1黔南民族师范学院计算机与信息学院,贵州都匀558000;2广州大学计算机科学与教育软件学院,广东广州510006;3武汉大学软件工程国家重点实验室,湖北武汉430072)摘要:基因表达式编程(gene expression programming,GEP)解空间模型理论对算法性能的改进有现实指导意义。公开文
2、献对GEP解空间模型的研究较少,鲜见针对GEP表现型的理论研究。基于此,提出一种基于表现型的GEP解空间模型。首先,通过定义GEP染色体表现型高度,给出单基因染色体和多基因染色体表现型高度确定上界的定理及证明,利用GEP算法自身函数发现的能力,探索出操作符集最小目数为l或2的GEP染色体表现型高度上界计算的通项公式,以保证GEP表现型解空间模型的确定有界性与可计算性。其次,以GEP表现型高度的确定上界定理为基础,构建基于表现型的GEP解空间模型,总结GEP表现型解空间模型的性质和定理。通过进一步定义GEP表现型的完全解空间概念,对最优解在GEP表现型解空间和完全解空间中的分布特征进行探索研究,
3、获知在完全解空间中最优解随子空间序号的增长呈大比例增加的分布特征。基于表现型空间模型知识,提出限制GEP种群搜索空间的基本思想与控制策略,利用模型知识合理地解释公开文献中多种GEP改进算法的有效性。关键词:基因表达式编程;表现型;符号回归;空间模型中图分类号:TP301 文献标志码:A 文章编号:20963246(2017)05011710Gene Expression Programming Solution Space Model Based on PhenotypeGUO Yon91,HE Pei2p,ZHANG Guofen91,GUO Shuncha01,&Yongjiel(1Sch
4、ool ofComputer andInforQiannanNormalUnivforNationalities,Duyun 558000,Chma;2School ofComputer SciandEducationalSoftware,Guangzhou Universi够,Guangzhou 510006,China;3State Key LabofSoftware Eng,Wuhan Univ,Wuhan 430072,Chma)Abstract:The theory of solution space model has practical significance to impro
5、ve the performance of Gene Expression Programming(GEP)al-gorithmsThere are few studies on the GEP solution space model,and the theoretical research on GEP phenotype is also SCarceTo address thisproblem,a GEP solution space model based on phenotype was proposedFirstly,by defining the height ofGEP clr
6、omosome phenotype,a theoremand the proofofthe upper bound ofsingle gene chfomosome and polygene c11romosome manifestation were givenTo ensure the boundedness andcalculability ofthe GEP phenotype solution space model,the general formula ofheight upper bound ofGEP cllromosome phenotype with the minimu
7、m number ofoperators 1 or 2 was calculated,by using the ability ofGEP algorithm to find out the functionSecondly,on basis ofthe definitionfor upper bound theorem of GEP phenotype height,the GEP solution space model based on phenotype was constructed,and the properties and the-orems ofGEP phenotype s
8、olution space model were summarizedBy further defining the concept ofthe complete so!ution space ofthe GEP phenotype,the distribution of the optimal solution in the GEP phenotype solution space and the complete solution space were exploredIt was foundthat the optimal solution ofthe subspace in the c
9、omplete solution space largely increased in proportion to the order number of subspaceBased onthe knowledge ofphenotypic spatial model,the basic idea and control strategy oflimiting the GEP population search space were put forward,andtlle effectiveness ofvarious GEP improvement algorithms in the lit
10、erature was explained by the theories ofspace model,Key words:gene expression programming;phenotype;symbolic regression;space modelFerreira:J:2001年提出基因表达式编程(gene expression programming,GEP)1一纠,GEP对未知系统及知识具有较强的探索能力。在GEP理论方面已有一定的研究成果:GEP概念的形式化描述【31、GEP基因收稿日期:20161224基金项目:国家自然科学基金资助项目(61170199);贵州省科技厅联
11、合基金项目资助(20157727;2013GZl2215)作者简介:郭勇(1970),男,副教授研究方向:演化计算;数据挖掘E-maih gzgy5555foxmailcom+通信联系人Etrnail:bk_he126eomhttp:jsueseijournals,cn http:jSuesesfueducn万方数据118 工程科学与技术 第49卷结构完备性定理证明p J、GEP最小残差平方和依概率收敛定理【4J、GEP马尔可夫收敛性定理一J、GEP模式定理睁j、GEP依条件完全收敛、几乎必然收敛且依均值收敛至全局最优解定理【6J。同许多进化算法一样,GEP的理论基础仍较薄弱,达不到严谨的理论
12、体系支持GEP算法的寻优。由于缺乏基础理论的支持,GEP性能的改进有一定的盲目性,改进方法的有效性主要依赖推断猜想和实验进行探索及佐证。在GEP解空间研究方面,文献7对特定GEP问题,采用条件云模型和问题数据集构建GEP搜索空间模型,通过控制、引导GEP演化过程中保持一定种群的多样性和搜索区域的限制,提高了整体进化效率和求解质量。文献8基于线性编码空间,在种群初始化时,按基因头部和尾部编码的均匀分布策略生成多样性优势种群,实验证实比随机初始化种群的计算效率高;文献9-10将“小生境”等思想应用到GEP中,通过GEP种群多样性和演化搜索方向的控制,实现对GEP演化效能的改进;文献11给出了特定G
13、EP染色体基因型与表现型表达空间大小的算法与证明,提出基于最佳genemap的初始化种群和演化控制的拓展算法AMGEP。上述文献涉及到不同视角和意义的GEP解空间模型雏形,虽然没有形成较完整的模型理论体系,但印证了基于一定的GEP解空间模型理论与认知,引导GEP演化过程的控制,以期获得GEP效能提升的可行性。本文针对符号回归问题,通过对GEP表现型的研究,获得GEP表现型的关键知识,构建基于表现型的GEP解空间理论体系,利用GEP表现型解空间模型揭示的知识,指引GEP演化效能改进策略的探索。1 GEP简介11 GEP个体的表示GEP中个体为染色体(chromosome),染色体由基因(gene
14、)构成,分为单基因染色体和多基因染色体;多基因染色体的多个基因由连接运算符按“广度优先”进行连接解释。GEP基因编码取自操作符集(F)和终结符集(T),基因编码分为头部(head)和尾部(tail)两部分,头部编码取自FU U,尾部编码取自兀尾部长度t与头部长度h满足关系式(1):t=hx(M一1)+1 (1)式中,M黄tJF中操作符最大参数目数。例l:F=+,一,),r=a,b),h=6,贝0“+一aabaabbab”为合法的基因编码。12 GEP个体的基因型和表现型GEP单基因染色体的线性编码称为基因型,线性编码按“广度优先”构建的表达式树(expression tree,ET)称为表现型
15、。例1基因的表达式树如图1所示。多基因染色体的表现型,由固定连接符将各基因表达式树依“广度优先”连接而得。图1例1表达式树Fig1 Expression tree of example 113 GEP基因的解释GEP基因的解释指基因所表达的数学意义,标准GEP基因的解释通过对基因的表达式树“后序遍历”得到其数学函数表达式。如图l表达式树“后序遍历”所得的数学表达式为:f(a,6)=a26+1。14 GEP个体适应度及遗传算子GEP个体的适应度指将给定训练样本集所有样本变量值代入个体解释所得数学表达式,计算所得数学表达式值与样本整体差异的统计函数值,在符号回归问题中,一般使用绝对误差式、相对误差
16、等J作为适应度函数。GEP遗传算子主要包括选择、突变、重组、转座等,GEP通过选择算子和适应度函数控制种群的进化方向。2 GEP表现型解空间21关于“确定GEP问题”确定GEP问题求解包含以下3个确定内容:1)确定的操作符集F和终结符集死2)确定的基因头部长度h及尾部长度t,且满足11节的关系式(1),对于多基因GEP还包括组成染色体的基因数及连接符。3)确定的适应度函数和控制阈值。确定GEP问题的求解及本文论述建立在以下2个假设下:假设1确定GEP问题个体的表达空间包含满足适应度控制阈值的解。假设2最小符号集的限定,To,数值型GEP中+,一,)F,逻辑型GEP中A,D,N)_oF。22 G
17、EP表现型解空间基本概念与性质定义1(表现型解空间) 确定的GEP问题所有可能个体的不同表现型集合称为GEP问题的表现型解空间,记为S。万方数据第5期 郭 勇,等:基于表现型的基因表达式编程解空间模型研究 119尽管基因的中性编码区域具有特殊的遗传意义,但最终个体的数学意义仍只由有效区域编码确定。具有相同有效编码区域的个体由于中性区域编码的差异,存在多个基因型不同的个体对应同一个表现型的情况,所以基因型的表达空间元素远多于表现型表达空间的元素。GEP依表现型的解释判断其是否作为问题解,基于GEP表现型解空间视角探索GEP改进的策略更接近其数学本质。定义2(最优解) 适应度达到演化控制阈值的个体
18、称为确定GEP问题的最优解,记为厂。表现型不同、数学意义上约简后具有相同数学表达式函数的最优解称为等价解。表现型和所解释的数学表达式函数都不相同,但适应度达到控制阈值的最优解称为非等价解。适应度未达到适应度控制阈值的解称为候选解,确定GEP问题的所有个体统称为可能解。定义3(最优解空间) 确定GEP问题的所有最优解的不同表现型集合,称为确定GEP问题的最优解空间,记为s 7。定义4(表现型高度) 个体表现型的节点从上向下按层级分布在表达式树的“树枝”上,表达式树的总层级数称为表达式树的高度,也称为个体的表现型高度,记为日。如图1表达式树的最上层为0层,即根节点层,最下面层为第4层,其高度H=5
19、。定义5(最简解) 确定GEP问题的表现型高度最小的最优解称为该GEP问题的最简解。根据GEP基因结构的完备性定理p J,满足11节式(1)的基因都能生成合法的表达式树,得GEP的表达式树具有以下性质:性质1 GEP表达式树最底层全部是叶节点。性质2在构建GEP表达式树时只有运算操作符节点才会产生下一级的表达式树层。性质3除根节点外,其他层级节点都是上一层级中某个操作符节点的子节点。定理1头部长度为h的单基因染色体的GEP表现型高度月r1)个基因构成多基因染色体的表现型高度然而+行。证明:1)当n=l时,即为单基因染色体,根据定理1,命题成立。2)假设n=k时,命题成立,即日h+k。将每个基因
20、视为一个整体,由于多基因染色体使用连接符按“广度优先”进行多基因的解释,得到1个“复合”单基因染色体的编码为:+G1G2G女 (2)式(2)中,共有肛1个连接运算符“+”,可视为1个头部长度为牲1的单基因染色体G,根据定理1,其表现型高度上界为:H(G)(七一1)+1。即日(G)k。3)当n=k+l时,染色体结构Ltn=k时增加了1个基因和1个连接运算符,即有k个连接符和斛1个基因,同样将每个基因视为整体所得“复合”单基因染色体G7的编码形如:+GlG2GGk+l (3)式(3)中,有阶连接运算符“+”,比假设2中的染色体增加1个连接运算符,G7的表达式树最多再增加1个表达式树层,所以单基因染
21、色体G7的表现型高度上界为:H(G)日(G)+1 (4)将假设2中的结果H(G)足代入式(4)得:H(G)k+1。由于标准GEP多基因染色体中的多个基因按“广度优先”连接,在G中无论有多少个基因,据定理1其高度H I:界:H(h7+1) (5)式(5)中,7等于“复合”基因的头部长度k,即H(1c+1)。原多基因染色体的表现型是把各基因G,的表达式树替换“复合”基因G7表达式树中的G,的位置而得,只有最底层某个基因的表达式树高度达到最大值(h+1),所得G7的表达式树高度最大,如图2所示。一一j 一一一。j G 6一孓图2 多基因染色体表达式树Fig2 Multigene chromosome
22、 expression tree设最底层有基因G瑚表达式树达最大值h+l,占位替换G。后,可使G将所有基因的子表达式树替换后所得表达式树增加(h+1)一1层,即H(G7)(七+1)+(忍+1)一1。即得:H(G)h+(k+1)。命题对n=k+1成立,据假设12,命题对染色体基因数咒取任何自然数均成立,证毕。抖g朴010llllH(S。),所以最优解仅分布在根据22节性质1及GEP的基因结构完备性可得 S的部分子空间中。万方数据第5期 郭勇,等:基于表现型的基因表达式编程解空间模型研究 121定理5若,为单基因染色体GEP问题的最简解,表现型高度扣风in,则在形中存在表现型高度为斛2或斛3的多个
23、等价解。根据第21节的假设2,定理5可通过在,表现型最底层叶节点上实施“嫁接术”进行例证。据性质4,设肭最底层的一个叶节点终结符为“a”,其表现型表达式树如图4所示。如图5(a)为数值型GEP问题在最底层的1个叶节点“a”上“嫁接”出表现型高度为斛2的多个等价解,考虑到“+、*”等运算符满足交换律,类似的等价解可卜图4表现型高度为k的表达式树示意图Fig4 An expression tree with a phenotype height of k达6个。图5(b)为逻辑型GEP问题“嫁接”出表现型高度为斛2和斛3的多个等价解,由于“AND”与“OR”满足交换律,类似的等价解可达7个。(a)
24、数值型等价解图5定理5例证示意图Fig5 Schematic diagram of Theorem 5定理5的推广可得:引 理若厂为单基因染色体GEP问题的最优解,表现型高度为Ht=k,则在矽中存在表现型高度为抖2或斛3的多个等价解。一方面,表达式树的最底层常不止1个叶节点,“嫁接”出的等价解更多。另一方面,表达式树倒数第2层可能存在多个叶节点,如图6N示,类似方法可“嫁接”出高度为胁1的多个等价解。同时对于数值型GEP问题,从图5(a)可观察到,“嫁接”所得表达式树最底层的叶节点会倍增,这种倍增情况从巩j。+2开始,即最优解具有在吁空间中以2的几何级数“倍增”的趋势。结合定理4、5及引理,递
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 表现型 基因 表达式 编程 空间 模型 研究 郭勇
限制150内