对应用统计方法评估核函数分类能力的研究.doc
《对应用统计方法评估核函数分类能力的研究.doc》由会员分享,可在线阅读,更多相关《对应用统计方法评估核函数分类能力的研究.doc(27页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、应用统计方法综合评估核函数分类能力的研究*)王 泳1,2 胡包钢1,21(中国科学院自动化研究所模式识别国家重点实验室 北京 100190)2(中国科学院研究生院 北京 100049)摘要 本文应用统计方法对支持向量机方法中核函数选择问题进行了研究.文中将“纠正重复取样t测试”引入到核函数选择中,通过其与k-折交叉验证、配对t测试等多种统计方法的综合应用,对九个常用核函数的分类能力进行了定量研究.同时,文中还提出了基于信息增益的评估核函数模式识别能力的定量评估准则,证明了该准则是传统评估准则的非线性函数.数值实验表明,不同模型评估准则之间存在差异,但应用统计方法可以从这些差异中发现一些规律.同
2、时,不同统计方法之间也存在显著差异,且这种差异对模型评估的影响要大于由于评估准则的不同而产生的影响.因此,只有应用综合的评估方法和准则才能对不同核函数的分类能力进行客观评估.关键词核函数选择;模式识别;纠正重复取样t测试;信息增益;非线性函数中图法分类号 TP3911引言在支持向量机(Support Vector Machines,SVMs)1方法中,核函数选择十分重要.研究表明1,针对同一分类问题,选择不同的核函数,分类性能可能会相差很大.这主要是因为构成核函数的非线性映射是隐函数,且这些隐函数的类型是多样可变的.所以当人们对特定问题没有任何先验知识的时候,很难确定应该选择哪一类核函数进行计
3、算.虽然利用泰勒级数展开和傅立叶级数展开的方法,已经证明了存在一类最优核,它所对应的特征映射可以确保任意两个不连接的有界闭集在特征空间中线性可分2,但如何构造这类最优核至今却还缺乏行之有效的方法.众多学者从不同的角度对核函数选择3,4和构造5-8问题进行了有益的探讨,但综合性的评估研究仍是缺乏的.一般说来,核函数的评估指标可以分为两大类:一类来自实际数据的实验验证结果;一类来自理论分析所给出的界.根据统计学习理论,核函数推广能力的强弱与由该函数计算得到的分类超平面集合的VC维(Vapnik-Chervonenkis dimension)相关, VC维,泛化误差和特征空间中训练样本集与超平面的最
4、短距离之间存在以下关系1, (1)是特征空间中包含所有训练样本的最小超球的半径,是训练样本的个数,是特征空间的维数.因此,VC维越小,函数的推广能力越强.但遗憾的是,目前尚没有关于如何计算任意函数集的复杂性(VC维)以及推广性界的一般性理论,能够得到的只是一些估计值1,7 .所以在解决实际问题时,通常还是以实际数据的实验验证结果作为核函数评估的数量指标.根据有限数据的实验验证结果进行分类预测性能评估是机器学习领域的一个存在较多争议的研究领域,这不仅是因为在分类模型预测性能评估体系中存在很多模型评估准则,而且还存在许多不同的模型评估方法(图1).在实践中,应用k-折交叉验证方法(k-fold C
5、ross-Validation)和准确率准则对分类模型进行预测性能评估是最为常规的方法,但需要注意的是交叉验证技术是一个启发式技术,未必对各种情况都适用9,尤其是当确定一个学习模型对某个具体问题的解决是否真的优于另一个学习模型,就需要证明模型之间的这种性能差别不只是评估过程中所产生的偶然结果,这通常是一项给出置信边界的统计实验工作.图分类模型预测性能评估体系文章的其它章节组织如下:第2节对模型预测性能评估的三种统计方法k-折交叉验证、配对t测试(paired t-test)10、纠正重复取样t测试(corrected resample t-test)11进行了对比分析,引入并讨论了纠正重复取样
6、t测试对模型预测性能评估的适用性;第3节提出了基于信息增益12的评估核函数模式识别能力的定量评估准则,并证明了该准则在一定程度上可以弥补其它评估准则的不足;第4节是实验与分析;第5节对文章内容进行了总结并对进一步研究的方向进行了展望.2模型预测性能评估方法k-折交叉验证其基本思想是把样本集(其中)随机划分为k个不相交的子集,且每个子集都有个样本点.分类器T要迭代训练k次,每次都用集合中的数据进行训练,而用集合中的数据进行验证.k-折交叉验证估计出的分类器T的泛化误差率是k次验证误差率的平均值.令代表包含样本的子集,代表分类器T对样本进行分类的结果,则k-折交叉验证估计出的分类器T的泛化误差率是
7、: (2) (3)定理1. 给定样本集D和分类器T,分类器T真实但未知的分类误差率是p,如果在k-折交叉验证中删除D中任意的样本并不影响估计出的分类器T的泛化误差率,则k-折交叉验证评估出的泛化误差率是真实误差率的无偏估计.证明: 因为删除D中任意的样本并不影响的取值,所以D中样本是从样本空间中随机选取且与T相互独立,所以是满足二项分布的随机变量,因此证毕但通常情况下,D中样本有限,因此很难保证分类器T与D相互独立,所以直接将交叉验证估计出的泛化误差率当作模型的真实误差率对模型预测性能进行评估是有误差的,但可以用置信区间(confidence interval)估计的方法对这种误差进行估计.根
8、据中心极限定理,当且时,随机变量可以用,的正态分布近似.所以,为了得到的置信区间,m的最小取值应满足下式: (4)是标准正态分布右尾被分割出面积的分割点处的z值,是置信区间的宽度.配对t测试虽然,增加样本数m可以增加k-折交叉验证的置信度,但这种数量的增加是有限度的.研究表明13,单纯增加m会导致交叉验证的渐进有偏.所以,要想保证k-折交叉验证方法的有效性,关键是增加样本集D和分类器T之间的独立性.另外,应用k-折交叉验证对学习模型进行评估仅考察了模型之间的均值差异,模型评估的另一个重要考察指标是模型之间的方差差异10,11,这可以用统计学中的配对t测试方法实现10.设第一组样本是学习模型X根
9、据某种性能评估准则在不同的数据集上得到的估计值(所有数据集大小相同,且来源于同一个领域),第二组样本是学习模型Y根据同样的性能评估准则在同样的数据集上得到的估计值,即和是使用相同的数据集产生的,和也是如此,依此类推.第一组样本的平均值用来表示,第二组样本的平均值用来表示,因此学习模型X和Y的比较就是要判定和是否有显著的差别,由于实验中两种学习模型在每个数据集上的实验都能获得配对的结果,因此这种统计测试被称为配对的t测试.表1列出了在小样本情况下配对t检验方法.当时就是对“两个均值相等”这一零假设的检验方法,即比较模型X和模型Y学习性能是否一样的检验方法.表1 小样本情况下配对t检验方法双侧检验
10、左侧检验右侧检验假设形式检验统计量,自由度:k-1a与拒绝域P值决策准则,拒绝假定条件1. 差值总体的相对频数分布接近正态分布2. 配对差由差值总体随机选出:第i个配对样本数据的差值,即 ;:配对样本数据差值的平均值,即 ;:配对样本数据差值的准则差,即 ;:配对样本数据差值的总体准则差,即 ;(表示第一组样本数据的总体准则差,表示第二组样本数据的总体准则差,表示两组样本的相关程度)a:置信度(显著性水平);P:观察到的显著性水平.改进的配对t测试标准配对t检验方法的假定条件1要求差值总体的相对频数分布接近正态分布,而配对数据越多,其差值总体的相对频数分布越接近正态分布,因此数据来源越多,检验
11、所获得的结果越可靠.但在实践中,通常只有一个容量有限的数据集可用,虽然通过增加交叉验证的次数可以增加配对样本的数目,但重复利用原始数据集得出的交叉验证估计不是独立的,因此使得配对数据之间具有很强的相关性,造成配对t检验方法的假定条件2无法满足.实际上,通过增加交叉验证次数来增加样本数目,最终将导致产生明显差异,因为t统计量在毫无限制的增加着,而这种差异的产生是由于样本的重复使用造成的,并没有真实反映出样本总体的性质.近年来提出的纠正重复取样t测试方法11可以很好地解决这个问题.该方法使用重复旁置法来代替交叉验证法,此时k-折交叉验证只是一个特例.它将数据集进行不同的随机分割k次,每次用个样本训
12、练,用个样本测试,差值则根据在测试数据上的性能计算得出.纠正重复取样t测试使用经修改后的统计量: (5)可以看出,此时t统计量不再容易随着k值的增加而快速增长了.对于重复的10次10折交叉验证,k100,则基于100个差值计算得到.3模型预测性能评估准则信息增益准则定义1. 假设数据集(其中)中包含的w个样本属于不同的K类,由每类样本构成的集合中包含有wi个样本,则数据集D的信息量(熵)为: (6)是对数据集D的不确定性的度量.当数据集中样本都属于同一类别k时,属于其它类别的样本数都为0,此时数据集D完全确定,(因为,所以定义).当属于不同类别的样本数都相等时,不确定性最大,所以对含有K类样本
13、的数据集D来说: (7)定义2. 假设通过分类模型f对数据集D进行分类,由分类结果可以构成新的数据集(其中与不一定相等).根据分类结果中每类样本的分布情况,将数据集划分为K个子集合,其中第i个子集合由被分为第i类的样本组成,表示由原本是第j类但却被分为第i类的样本组成的集合,集合中的样本数是wij个.此时数据集的信息量(熵)为: (8)定义3. 信息增益(information gain)度量的是分类模型f从数据集D中挖掘出的知识多少,其定义为: (9)任意分类数据集都可以看成是具有一定不确定性的系统,一个好的分类器f应该表现出最大程度上减少了这个系统的不确定性,而这种不确定性的减少,从信息学
14、的角度看就是f具有最大的信息增益,由此可以得出定义4.定义4. 对于分类模型f1和f2,如果,则f1比f2更能减少分类数据集的不确定性.信息增益准则与其它准则的对比针对模式识别问题,实际中常用的模型评估准则有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F测量(F-measure)等14.对一个yes和no的二类分类问题,一个预测可能产生四种不同的结果(表2),正确的肯定TP(True Positive)、正确的否定TN(True Negative)、错误的肯定FP(False Positive)和错误的否定FN(False Negative).表2 二类分
15、类预测的不同结果预测类YesNo正确的肯定 TP错误的否定 FNYes真实类错误的肯定 FP正确的否定 TNNo准确率、精确率、召回率和F测量分别是根据它们的数值计算获得:准确率: (10)精确率: (11)召回率: (12)F测量: (13)例1. 应用不同分类模型解决二类分类问题,样本总量是100个,其中肯定类是50个,否定类是50个.根据不同模型的分类结果计算信息增益,并分析信息增益与准确率、精确率、召回率和F测量的关系.表3 根据不同模型的分类结果计算各种评估准则(基于例1正负样本比例相等的数据)ModelTPFPTNFNAccuracyPrecisionRecallFInformat
16、ion GainI25545250.70.83330.50.6250.1468II301040200.70.750.60.66670.1245III15545350.60.750.30.42860.0468IV15455350.20.250.30.27270.2958V122624380.360.31580.240.27270.0611VI261238240.640.68420.520.59090.0611(a) 信息增益与准确率 (b) 信息增益与精确率(c) 信息增益与召回率 (d) 信息增益与F测量 图2 信息增益准则与其它准则的对比(基于例1正负样本比例相等的数据)例2. 应用不同分类
17、模型解决二类分类问题,样本总量是100个,其中肯定类是20个,否定类是80个.根据不同模型的分类结果计算信息增益,并分析信息增益与准确率、精确率、召回率和F测量的关系.表4 根据不同模型的分类结果计算各种评估准则(基于例2正负样本比例不相等的数据)ModelTPFPTNFNAccuracyPrecisionRecallFInformation GainI53545150.50.1250.250.16670.0177II83842120.50.17390.40.24240.0026III1676440.20.17390.80.28570.0287IV1680040.160.16670.80.27
18、590.0979V83050120.580.21050.40.27590.0003VI1575190.760.16670.050.07690.0003(a) 信息增益与准确率 (b) 信息增益与精确率(c) 信息增益与召回率 (d) 信息增益与F测量 图3 信息增益准则与其它准则的对比(基于例2正负样本比例不相等的数据)例1和例2说明,不同模型在某个评估准则下的评估结果可能相同,但同时,总可以运用其它评估准则来分辨它们的优劣.同时,从图2和图3中还可以看出信息增益与准确率、精确率、召回率和F测量之间存在着复杂的非线性函数簇的关系.定理2. 针对两类分类问题,信息增益是准确率、精确率和召回率的非
19、线性函数.证明: 根据公式(10)(12)可知 (14) (15) (16)根据公式(8)和(9)可知两类分类问题中的信息增益可表示为 (17)将公式(14)(16)带入公式(17)得 (18)所以,针对两类分类问题,信息增益是准确率、精确率和召回率的非线性函数.需要特别说明的是,定理2的证明是在TP、TN、FP和FN都不为零的一般情况下进行的.它们中有为零的情况是特殊情况,可以证明结论依然成立。文献1516对信息增益与传统模型评估准则之间的关系及其在分类问题中的应用做了进一步的论述.证毕性质1. 一般情况下,只有当准确率、精确率和召回率三个变量值全部给定后,信息增益值才可唯一确定.性质2.
20、当准确率为1或0时,信息增益的值被唯一确定,且是最大值.不同于应用分类精度为单一准则,信息增益给出了更为综合的模型预测性能评估指标,它相当于以非线性方式平衡了各种准则,因此它可以反映出模型更多的信息,例如:l 信息增益准则可以反映出其它评估准则的评估能力.精确率和召回率可以反映出模型较多的信息,因此精确率和召回率评估模型的能力较强,而准确率反映出的模型的信息最少,所以将准确率当作模型评估的单一准则是不恰当的;l 信息增益准则的适用范围更广.F测量准则适用于样本比例严重不平衡的数据集(即针对小概率事件的数据集),而信息增益准则能够反映出它的这种特性,因此也同样适用于这种情况. 所以信息增益在一定
21、程度上可以弥补其它单一评估准则的不足.4实验与分析为了阐明不同统计方法和不同模型评准则之间的差异,本文在Weka14软件平台上,对九个常用核函数(表5,取默认参数)在21个标准数据集(表6)上进行了10次10折交叉验证,并对实验结果进行统计分析 需要特别说明的是,实验中得出的关于核函数分类能力的结论只针对参与实验的数据,并非一般意义下关于核函数分类能力的结论。.表6 参与实验的数据集数据集特征数数据量数据来源Breast-Cancer-Wisconsin9699UCI数据库 17DUPA-Liver-Disorders6345UCI数据库 17Diabetes_Pima8768UCI数据库 1
22、7Heart-Statlog13270UCI数据库 17Hepatitis19155UCI数据库 17Ionosphere34351UCI数据库 17Monks-Problems-16432UCI数据库 17Monks-Problems-26432UCI数据库 17Monks-Problems-36432UCI数据库 17Musk-Clean-1166476UCI数据库 17Sonar60208UCI数据库 17CPS_85_Wages10534Statlib数据库 18Plasma_Retinol13315Statlib数据库 18Prnn_Crabs7200Statlib数据库 18Prn
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 统计 方法 评估 函数 分类 能力 研究
限制150内