《RVM 核参数的遗传算法优化方法.doc》由会员分享,可在线阅读,更多相关《RVM 核参数的遗传算法优化方法.doc(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、RVM核参数的遗传算法优化方法李刚1, 2,邢书宝1,薛惠锋1 (1.西北工业大学自动化学院,陕西 西安 710072,2.西安工业大学经管学院,陕西 西安 710032)摘 要:RVM (关联向量机)是一种建立在SVM(支持向量机)之上的统计学习方法,利用核函数将回归线性化,求得稀疏解,避免过拟合,核函数的参数严重影响RVM的综合性能。遗传算法是一类随机优化算法,经过迭代进化,高效率地求得问题的最优解。本文在定义RVM回归性能综合评判标准Fitness的基础上,利用遗传算法获取最优核函数参数,实验证明此法的可行。关键词:关联向量机;核函数参数;综合评判标准;遗传算法 中图分类号:TP391
2、文献标识码:A1 引言统计学习论(Statistical Learning Theory 或SLT)是一种专门研究小样本情况下机器学习规律的理论。该理论针对小样本统计问题建立了一套新的理论体系,在这种体系下的统计推理规则不仅考虑了对渐近性能的要求,而且追求在现有有限信息的条件下得到最优结果。模式分析(pattern analysis)研究的是如何自动检测和辨识数据中潜在的关系,人们通常把这种方法称为“统计模式识别”1。随着人们的注意力从线性关系转移到非线性关系,20世纪80年代模式分析领域经历了一场“非线性革命”,几乎同时引入了后向传播多层神经网络算法和高效的决策树学习算法2。但是这些非线性算
3、法建立在梯度下降和贪心启发式法的基础上,受到局部最小化的限制。由于没有很好地理解它们在统计上的行为,这些方法经常遇到过拟合的问题。20世纪90年代出现了SVM(支持向量机)3等被称为基于核(kernel-based)学习方法的模式分析方法,该方法利用核函数高效线性地分析非线性关系,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的泛化能力 (Generalization Ability)。 RVM (关联向量机)是Michael E.Tipping于2001年提出的一种建立在支持向量机(SVM)之上的稀疏贝叶
4、斯统计学习方法4,它的训练是在贝叶斯框架下进行的,可以用它进行回归及分类模式分析。RVM克服SVM缺点: RVM的关联向量数要少于SVM,具有更优的泛化性能;可以得到点估计及区间估计;无需多次试验找到最优的类似于C或的主观设置值。与SVM类似的是RVM也使用核方法,将自变量映射到高维空间,得到因变量与自变量线性回归的稀疏解,但核函数参数严重影响RVM的性能,如何方便快捷地找到综合性能最优的核函数参数目前尚无解析解理论指导,由于RVM的分类功能建立在回归的基础之上,本文尝试使用遗传算法获取回归综合性能最优的核参数数值解。2 RVM模型RVM的模型建立在贝叶斯框架下5:设是训练中的特征值(feat
5、ure),是目标值, RVM认为服从以为均值的正态分布:式(1)中:为核函数;为模型的权值。为保证获取稀疏解,令满足0均值正态分布:.训练样本集的似然函数为:式中:;;为矩阵,其行包含所有核函数对输入的响应。根据先验概率分布和似然分布,再用贝叶斯式计算权值的后验概率分布,即:而该权值的后验分布属于多变量高斯分布,即:式中:为协方差,其中的是的对角矩阵;为均值。训练目标值的似然分布通过对权值变量进行积分,即:实现边缘化,从而求得超参数的边缘似然分布:,其中的协方差。RVM方法中的模型权值的估计值由后验分布的均值给出,同时它也是权值的最大后验(MAP)估计。权值的MAP估计取决于超参数和噪声方差,
6、其估计值和可以通过最大化边缘似然分布得到。后验分布反映出的权值最优值的不确定性,可以表示模型预测的不确定性。若给定输入值,相应输出的概率分布为:服从高斯分布的形式,即:其中的预测均值和方差(不确定性)分别为: 3 RVM回归性能与核函数参数本文在Tipping的第二类极大似然法(type-II maximum likelihood)求解关联向量的基础上展开研究。给定一个核和一个训练集合,我们就能构成一个核矩阵K(xi,xj),这个矩阵起着信息瓶颈的作用,因为它提供核算法所需所有信息,担当着数据输入和学习模块之间的界面, 如图1所示。 图1 核矩阵数据界面核函数隐含着数据的相似性衡量尺度,核函数
7、参数起着“放大”与“缩小”的作用,严重影响RVM的回归性能,以Sinc数据为例,说明核函数参数对RVM泛化性能的影响:Sinc数据为:t=noise+sin(x)/x,x-10,10, noise为1/10水平的标准正态噪声。分别均匀获取100个样本点作为训练集,测试集。选用Gauss核函数(为其参数): 表1及图2中,RV-关联向量数,train_RMS-训练均方根误差,test_RMS-测试均方根误差,定义RVM回归性能综合评判标准Fitness:Fitness=(train_RMS*n1+test_RMS*n2)*RV/( n1+n2)其中:n1-训练集样本数、n2-测试集样本数,可以看
8、出Fitness兼顾了train_RMS、test_RMS以及它们各自的样本量、RV个数,Fitness的最小值使得核参数要在训练误差、测试误差求得折中,并且RV较少。从表1及图2可以看出,严重影响RVM回归性能:从0.1-6.0,随着的增长,test_RMS呈现出下降-增长的走势,train_RMS呈现出增长-下降的走势,RV呈现出下降-增长的走势,Fitness呈现出下降-增长的走势,但约在2,5区间取得极小值,使得RV较少,test_RMS较低,train_RMS较高,牺牲了部分经验风险值,换取了较高的泛化性能,同时稀疏性较好。表2 对RVM回归性能的影响RVTrain_RMSTest_
9、RMSFitnessRVTrain_RMSTest_RMSFitness0.11000.0000.219210.9600 3.060.09050.11310.6108 0.5210.0670.14492.2250 4.060.08920.11430.6105 1.0100.08190.12051.0120 5.070.09010.11760.7270 2.070.08840.11390.7081 6.080.09010.11910.8368 注:在0.1,6.0内可以观察出各项指标走势,故只计算了此范围内的各项值 图2 对RVM回归性能的影响在Fitness最小意义下,如何取得最优值,与数据及
10、应用环境相关,目前尚无解析解理论指导。本文尝试使用遗传算法获取数值解。4 RVM核参数优化的遗传算法遗传算法是一类随机优化算法,模拟了自然选择和遗传中发生的复制、交叉和变异等现象,从任一初始种群出发,通过随机选择、交叉和变异操作,产生一群更适应环境的个体,使群体进化到搜索空间中越来越好的区域,这样一代一代地不断繁衍进化,最后收敛到一群最适应环境的个体,求得问题的最优解6。使用第2章中相同的训练及测试数据,选用Gauss核函数,改进Tipping的RVM实验程序,以为自变量,test RMS作为因变量构造适应度函数,利用 Matlab7遗传算法工具箱,重要参数设置(其他为默认值)为:Initia
11、l Range: 0,1, PopulationType: doubleVector, PopInitRange: 2x1 double, PopulationSize:5, EliteCount: 2, CrossoverFraction:0.8000, MigrationDirection: forward, MigrationInterval:20, MigrationFraction:0.2000, Generations:100, TimeLimit:Inf, FitnessLimit:-Inf, StallGenLimit:50, StallTimeLimit:20, Initia
12、lPopulation:, InitialScores:, CreationFcn:gacreationuniform, FitnessScalingFcn:fitscalingrank, SelectionFcn:selectionstochunif, CrossoverFcn:crossoverscattered, MutationFcn:1x1 function_handle 0.1000, HybridFcn: 计算结果见表3:表3 遗传算法10次运算结果序号RVtrain_RMStest_RMSFitness序号RVtrain_RMStest_RMSFitness13.48 60.0
13、893 0.1135 0.6084 63.52 60.0894 0.1133 0.6080 23.43 60.0893 0.1134 0.6083 71.83 70.0874 0.1140 0.7048 33.52 60.0894 0.1133 0.6080 82.65 60.0903 0.1128 0.6094 43.35 60.0895 0.1132 0.6079 93.38 60.0894 0.1132 0.6080 53.65 60.0895 0.1133 0.6085 103.52 60.0894 0.1133 0.6080 实验表明以较高的概率(0.8)收敛在最优值附近,采用多次计
14、算或依据较优解确定初始范围的办法,可以更准确地获取最优解。其他核函数,例如poly,hpoly等具有2个参数,使得遗传算法更具实用性。5结束语RVM是贝叶斯框架下的新兴统计学习方法,具有一些SVM不具备的优点。RVM利用核函数将回归线性化,求得稀疏解,在当前核函数下避免过拟合,实验表明核函数的参数严重影响RVM回归的综合性能。遗传算法是一类随机优化算法,模拟了自然选择和遗传中发生的复制、交叉和变异等现象 ,经过迭代进化,最后收敛到一群最适应环境的个体,自动但不茫然,高效率地求得问题的最优解。本文在定义RVM回归性能综合评判标准Fitness的基础上,提出利用遗传算法获最优核函数参数,利用mat
15、lab遗传算法工具箱和改进的Tipping程序实验证明此法的可行。特别对于具有较多参数的核函数更具实用性。实验Sinc训练集、测试集数据可以向作者索取,以供验证。参考文献1(英)AndrewRWebb.统计模式识别(第二版)M. 电子工业出版社.2004.15-162John Shawe-Taylor,Nello Cristianini .Kernel methods for Pattern Analysis M.Cambridge University Press.2004,3(美)瓦普尼克著,张学工译.统计学习理论的本质M. 清华大学出版社.2004,24-264 Michael E. T
16、ipping. Sparse Bayesian Learning and the Relevance Vector MachineJ. Journal of Machine Learning Research, 1 (2001) 211-2445 Michael E. Tipping. The Relevance Vector MachineJ. Advances in Neural Information Processing Systems 12, 652658. Cambridge, Mass: MIT Press6 雷英杰. MATLAB遗传算法工具箱及应用M. 西安电子科技大学出版社
17、 2005.4-5GA Optimizing Method to kernel function parameters of RVM LiGang1,2,XingShu-Bao1,XUE Hui-feng1(1College of Automation,Northwestern Polytechnical University,Xian 710072,China;2School of Economics & Management, Xian Technological University, Xian Shaanxi 710032,China)Abstract:Relevance Vector
18、 Machine (RVM) is a new Statistical Learning method based on Supporting Vector Machine (SVM). Using kernel function to make line regression,RVM get sparse solution,avoid overfitting. The parameter of kernel function influences the integrative performance of RVM gravely. GA is a kind of random optimi
19、zing algorithm, get solution efficiently through iteration evolution. Based on defining the integrative judge criterion “Fitness” on regression, put forward a method to get excellent kernel function parameter solution to RVM by GA, testify its feasibility through experiment.Key words:RVM; kernel function parameters; integrative judge criterion; GA;基金辅助:陕西省教育厅专项科研计划项目 08JK312作者简介:李刚(1971-),男(汉族),湖北襄樊人,西安工业大学讲师,西北工业大学博士生,主要研究方向:数据挖掘、统计学习;Email:lg21c手机:13193384135; *通讯作者:李刚,lg21c 6
限制150内