对应用统计方法评估核函数分类能力的研究.doc
应用统计方法综合评估核函数分类能力的研究*)王 泳1,2 胡包钢1,21(中国科学院自动化研究所模式识别国家重点实验室 北京 100190)2(中国科学院研究生院 北京 100049)摘要 本文应用统计方法对支持向量机方法中核函数选择问题进行了研究.文中将“纠正重复取样t测试”引入到核函数选择中,通过其与k-折交叉验证、配对t测试等多种统计方法的综合应用,对九个常用核函数的分类能力进行了定量研究.同时,文中还提出了基于信息增益的评估核函数模式识别能力的定量评估准则,证明了该准则是传统评估准则的非线性函数.数值实验表明,不同模型评估准则之间存在差异,但应用统计方法可以从这些差异中发现一些规律.同时,不同统计方法之间也存在显著差异,且这种差异对模型评估的影响要大于由于评估准则的不同而产生的影响.因此,只有应用综合的评估方法和准则才能对不同核函数的分类能力进行客观评估.关键词核函数选择;模式识别;纠正重复取样t测试;信息增益;非线性函数中图法分类号 TP3911引言在支持向量机(Support Vector Machines,SVMs)1方法中,核函数选择十分重要.研究表明1,针对同一分类问题,选择不同的核函数,分类性能可能会相差很大.这主要是因为构成核函数的非线性映射是隐函数,且这些隐函数的类型是多样可变的.所以当人们对特定问题没有任何先验知识的时候,很难确定应该选择哪一类核函数进行计算.虽然利用泰勒级数展开和傅立叶级数展开的方法,已经证明了存在一类最优核,它所对应的特征映射可以确保任意两个不连接的有界闭集在特征空间中线性可分2,但如何构造这类最优核至今却还缺乏行之有效的方法.众多学者从不同的角度对核函数选择3,4和构造5-8问题进行了有益的探讨,但综合性的评估研究仍是缺乏的.一般说来,核函数的评估指标可以分为两大类:一类来自实际数据的实验验证结果;一类来自理论分析所给出的界.根据统计学习理论,核函数推广能力的强弱与由该函数计算得到的分类超平面集合的VC维(Vapnik-Chervonenkis dimension)相关, VC维,泛化误差和特征空间中训练样本集与超平面的最短距离之间存在以下关系1, (1)是特征空间中包含所有训练样本的最小超球的半径,是训练样本的个数,是特征空间的维数.因此,VC维越小,函数的推广能力越强.但遗憾的是,目前尚没有关于如何计算任意函数集的复杂性(VC维)以及推广性界的一般性理论,能够得到的只是一些估计值1,7 .所以在解决实际问题时,通常还是以实际数据的实验验证结果作为核函数评估的数量指标.根据有限数据的实验验证结果进行分类预测性能评估是机器学习领域的一个存在较多争议的研究领域,这不仅是因为在分类模型预测性能评估体系中存在很多模型评估准则,而且还存在许多不同的模型评估方法(图1).在实践中,应用k-折交叉验证方法(k-fold Cross-Validation)和准确率准则对分类模型进行预测性能评估是最为常规的方法,但需要注意的是交叉验证技术是一个启发式技术,未必对各种情况都适用9,尤其是当确定一个学习模型对某个具体问题的解决是否真的优于另一个学习模型,就需要证明模型之间的这种性能差别不只是评估过程中所产生的偶然结果,这通常是一项给出置信边界的统计实验工作.图分类模型预测性能评估体系文章的其它章节组织如下:第2节对模型预测性能评估的三种统计方法k-折交叉验证、配对t测试(paired t-test)10、纠正重复取样t测试(corrected resample t-test)11进行了对比分析,引入并讨论了纠正重复取样t测试对模型预测性能评估的适用性;第3节提出了基于信息增益12的评估核函数模式识别能力的定量评估准则,并证明了该准则在一定程度上可以弥补其它评估准则的不足;第4节是实验与分析;第5节对文章内容进行了总结并对进一步研究的方向进行了展望.2模型预测性能评估方法k-折交叉验证其基本思想是把样本集(其中)随机划分为k个不相交的子集,且每个子集都有个样本点.分类器T要迭代训练k次,每次都用集合中的数据进行训练,而用集合中的数据进行验证.k-折交叉验证估计出的分类器T的泛化误差率是k次验证误差率的平均值.令代表包含样本的子集,代表分类器T对样本进行分类的结果,则k-折交叉验证估计出的分类器T的泛化误差率是: (2) (3)定理1. 给定样本集D和分类器T,分类器T真实但未知的分类误差率是p,如果在k-折交叉验证中删除D中任意的样本并不影响估计出的分类器T的泛化误差率,则k-折交叉验证评估出的泛化误差率是真实误差率的无偏估计.证明: 因为删除D中任意的样本并不影响的取值,所以D中样本是从样本空间中随机选取且与T相互独立,所以是满足二项分布的随机变量,因此证毕但通常情况下,D中样本有限,因此很难保证分类器T与D相互独立,所以直接将交叉验证估计出的泛化误差率当作模型的真实误差率对模型预测性能进行评估是有误差的,但可以用置信区间(confidence interval)估计的方法对这种误差进行估计.根据中心极限定理,当且时,随机变量可以用,的正态分布近似.所以,为了得到的置信区间,m的最小取值应满足下式: (4)是标准正态分布右尾被分割出面积的分割点处的z值,是置信区间的宽度.配对t测试虽然,增加样本数m可以增加k-折交叉验证的置信度,但这种数量的增加是有限度的.研究表明13,单纯增加m会导致交叉验证的渐进有偏.所以,要想保证k-折交叉验证方法的有效性,关键是增加样本集D和分类器T之间的独立性.另外,应用k-折交叉验证对学习模型进行评估仅考察了模型之间的均值差异,模型评估的另一个重要考察指标是模型之间的方差差异10,11,这可以用统计学中的配对t测试方法实现10.设第一组样本是学习模型X根据某种性能评估准则在不同的数据集上得到的估计值(所有数据集大小相同,且来源于同一个领域),第二组样本是学习模型Y根据同样的性能评估准则在同样的数据集上得到的估计值,即和是使用相同的数据集产生的,和也是如此,依此类推.第一组样本的平均值用来表示,第二组样本的平均值用来表示,因此学习模型X和Y的比较就是要判定和是否有显著的差别,由于实验中两种学习模型在每个数据集上的实验都能获得配对的结果,因此这种统计测试被称为配对的t测试.表1列出了在小样本情况下配对t检验方法.当时就是对“两个均值相等”这一零假设的检验方法,即比较模型X和模型Y学习性能是否一样的检验方法.表1 小样本情况下配对t检验方法双侧检验左侧检验右侧检验假设形式检验统计量,自由度:k-1a与拒绝域P值决策准则,拒绝假定条件1. 差值总体的相对频数分布接近正态分布2. 配对差由差值总体随机选出:第i个配对样本数据的差值,即 ;:配对样本数据差值的平均值,即 ;:配对样本数据差值的准则差,即 ;:配对样本数据差值的总体准则差,即 ;(表示第一组样本数据的总体准则差,表示第二组样本数据的总体准则差,表示两组样本的相关程度)a:置信度(显著性水平);P:观察到的显著性水平.改进的配对t测试标准配对t检验方法的假定条件1要求差值总体的相对频数分布接近正态分布,而配对数据越多,其差值总体的相对频数分布越接近正态分布,因此数据来源越多,检验所获得的结果越可靠.但在实践中,通常只有一个容量有限的数据集可用,虽然通过增加交叉验证的次数可以增加配对样本的数目,但重复利用原始数据集得出的交叉验证估计不是独立的,因此使得配对数据之间具有很强的相关性,造成配对t检验方法的假定条件2无法满足.实际上,通过增加交叉验证次数来增加样本数目,最终将导致产生明显差异,因为t统计量在毫无限制的增加着,而这种差异的产生是由于样本的重复使用造成的,并没有真实反映出样本总体的性质.近年来提出的纠正重复取样t测试方法11可以很好地解决这个问题.该方法使用重复旁置法来代替交叉验证法,此时k-折交叉验证只是一个特例.它将数据集进行不同的随机分割k次,每次用个样本训练,用个样本测试,差值则根据在测试数据上的性能计算得出.纠正重复取样t测试使用经修改后的统计量: (5)可以看出,此时t统计量不再容易随着k值的增加而快速增长了.对于重复的10次10折交叉验证,k100,则基于100个差值计算得到.3模型预测性能评估准则信息增益准则定义1. 假设数据集(其中)中包含的w个样本属于不同的K类,由每类样本构成的集合中包含有wi个样本,则数据集D的信息量(熵)为: (6)是对数据集D的不确定性的度量.当数据集中样本都属于同一类别k时,属于其它类别的样本数都为0,此时数据集D完全确定,(因为,所以定义).当属于不同类别的样本数都相等时,不确定性最大,所以对含有K类样本的数据集D来说: (7)定义2. 假设通过分类模型f对数据集D进行分类,由分类结果可以构成新的数据集(其中与不一定相等).根据分类结果中每类样本的分布情况,将数据集划分为K个子集合,其中第i个子集合由被分为第i类的样本组成,表示由原本是第j类但却被分为第i类的样本组成的集合,集合中的样本数是wij个.此时数据集的信息量(熵)为: (8)定义3. 信息增益(information gain)度量的是分类模型f从数据集D中挖掘出的知识多少,其定义为: (9)任意分类数据集都可以看成是具有一定不确定性的系统,一个好的分类器f应该表现出最大程度上减少了这个系统的不确定性,而这种不确定性的减少,从信息学的角度看就是f具有最大的信息增益,由此可以得出定义4.定义4. 对于分类模型f1和f2,如果,则f1比f2更能减少分类数据集的不确定性.信息增益准则与其它准则的对比针对模式识别问题,实际中常用的模型评估准则有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F测量(F-measure)等14.对一个yes和no的二类分类问题,一个预测可能产生四种不同的结果(表2),正确的肯定TP(True Positive)、正确的否定TN(True Negative)、错误的肯定FP(False Positive)和错误的否定FN(False Negative).表2 二类分类预测的不同结果预测类YesNo正确的肯定 TP错误的否定 FNYes真实类错误的肯定 FP正确的否定 TNNo准确率、精确率、召回率和F测量分别是根据它们的数值计算获得:准确率: (10)精确率: (11)召回率: (12)F测量: (13)例1. 应用不同分类模型解决二类分类问题,样本总量是100个,其中肯定类是50个,否定类是50个.根据不同模型的分类结果计算信息增益,并分析信息增益与准确率、精确率、召回率和F测量的关系.表3 根据不同模型的分类结果计算各种评估准则(基于例1正负样本比例相等的数据)ModelTPFPTNFNAccuracyPrecisionRecallFInformation GainI25545250.70.83330.50.6250.1468II301040200.70.750.60.66670.1245III15545350.60.750.30.42860.0468IV15455350.20.250.30.27270.2958V122624380.360.31580.240.27270.0611VI261238240.640.68420.520.59090.0611(a) 信息增益与准确率 (b) 信息增益与精确率(c) 信息增益与召回率 (d) 信息增益与F测量 图2 信息增益准则与其它准则的对比(基于例1正负样本比例相等的数据)例2. 应用不同分类模型解决二类分类问题,样本总量是100个,其中肯定类是20个,否定类是80个.根据不同模型的分类结果计算信息增益,并分析信息增益与准确率、精确率、召回率和F测量的关系.表4 根据不同模型的分类结果计算各种评估准则(基于例2正负样本比例不相等的数据)ModelTPFPTNFNAccuracyPrecisionRecallFInformation GainI53545150.50.1250.250.16670.0177II83842120.50.17390.40.24240.0026III1676440.20.17390.80.28570.0287IV1680040.160.16670.80.27590.0979V83050120.580.21050.40.27590.0003VI1575190.760.16670.050.07690.0003(a) 信息增益与准确率 (b) 信息增益与精确率(c) 信息增益与召回率 (d) 信息增益与F测量 图3 信息增益准则与其它准则的对比(基于例2正负样本比例不相等的数据)例1和例2说明,不同模型在某个评估准则下的评估结果可能相同,但同时,总可以运用其它评估准则来分辨它们的优劣.同时,从图2和图3中还可以看出信息增益与准确率、精确率、召回率和F测量之间存在着复杂的非线性函数簇的关系.定理2. 针对两类分类问题,信息增益是准确率、精确率和召回率的非线性函数.证明: 根据公式(10)(12)可知 (14) (15) (16)根据公式(8)和(9)可知两类分类问题中的信息增益可表示为 (17)将公式(14)(16)带入公式(17)得 (18)所以,针对两类分类问题,信息增益是准确率、精确率和召回率的非线性函数.需要特别说明的是,定理2的证明是在TP、TN、FP和FN都不为零的一般情况下进行的.它们中有为零的情况是特殊情况,可以证明结论依然成立。文献1516对信息增益与传统模型评估准则之间的关系及其在分类问题中的应用做了进一步的论述.证毕性质1. 一般情况下,只有当准确率、精确率和召回率三个变量值全部给定后,信息增益值才可唯一确定.性质2. 当准确率为1或0时,信息增益的值被唯一确定,且是最大值.不同于应用分类精度为单一准则,信息增益给出了更为综合的模型预测性能评估指标,它相当于以非线性方式平衡了各种准则,因此它可以反映出模型更多的信息,例如:l 信息增益准则可以反映出其它评估准则的评估能力.精确率和召回率可以反映出模型较多的信息,因此精确率和召回率评估模型的能力较强,而准确率反映出的模型的信息最少,所以将准确率当作模型评估的单一准则是不恰当的;l 信息增益准则的适用范围更广.F测量准则适用于样本比例严重不平衡的数据集(即针对小概率事件的数据集),而信息增益准则能够反映出它的这种特性,因此也同样适用于这种情况. 所以信息增益在一定程度上可以弥补其它单一评估准则的不足.4实验与分析为了阐明不同统计方法和不同模型评准则之间的差异,本文在Weka14软件平台上,对九个常用核函数(表5,取默认参数)在21个标准数据集(表6)上进行了10次10折交叉验证,并对实验结果进行统计分析 需要特别说明的是,实验中得出的关于核函数分类能力的结论只针对参与实验的数据,并非一般意义下关于核函数分类能力的结论。.表6 参与实验的数据集数据集特征数数据量数据来源Breast-Cancer-Wisconsin9699UCI数据库 17DUPA-Liver-Disorders6345UCI数据库 17Diabetes_Pima8768UCI数据库 17Heart-Statlog13270UCI数据库 17Hepatitis19155UCI数据库 17Ionosphere34351UCI数据库 17Monks-Problems-16432UCI数据库 17Monks-Problems-26432UCI数据库 17Monks-Problems-36432UCI数据库 17Musk-Clean-1166476UCI数据库 17Sonar60208UCI数据库 17CPS_85_Wages10534Statlib数据库 18Plasma_Retinol13315Statlib数据库 18Prnn_Crabs7200Statlib数据库 18Prnn_Synth_TE21000Statlib数据库 18Prnn_Synth_TR2250Statlib数据库 18Schizo14340Statlib数据库 18Veteran7137Statlib数据库 18Nonlineardata1002100基准测试数据 19Nonlineardata100021000基准测试数据 19Two-Spirals2194基准测试数据 20实验1: 对模型预测性能评估的三种统计方法(交叉验证、配对t测试和纠正重复取样t测试)进行对比分析.图4图8分别显示了在准确率、精确率、召回率、F测量和信息增益准则下RBF核函数与其它核函数进行对比时,不同统计方法所得到的统计结果.图中符号(V、和L)代表对比核函数的分类结果好于(V)、等于(=)还是差于(L)RBF核函数,图中数据代表相应的次数,统计显著性水平5%.(图中符号(V、和L)代表对比核函数的分类结果好于(V)、等于(=)还是差于(L)RBF核函数,数据代表相应的次数,统计显著性水平5%)图4 在准确率准则下对比三种统计方法(图中符号(V、和L)代表对比核函数的分类结果好于(V)、等于(=)还是差于(L)RBF核函数,数据代表相应的次数,统计显著性水平5%)图5 在精确率准则下对比三种统计方法(图中符号(V、和L)代表对比核函数的分类结果好于(V)、等于(=)还是差于(L)RBF核函数,数据代表相应的次数,统计显著性水平5%)图6 在召回率准则下对比三种统计方法(图中符号(V、和L)代表对比核函数的分类结果好于(V)、等于(=)还是差于(L)RBF核函数,数据代表相应的次数,统计显著性水平5%)图7 在F测量准则下对比三种统计方法(图中符号(V、和L)代表对比核函数的分类结果好于(V)、等于(=)还是差于(L)RBF核函数,数据代表相应的次数,统计显著性水平5%)图8 在信息增益准则下对比三种统计方法从图4图8的统计结果中可以看出,三种统计方法之间存在较大差异.例如,图4中,在准确率准则下,交叉验证的统计结果表明,Linear的分类能力接近于RBF,但配对t测试方法和纠正重复取样t测试的统计结果表明,Linear的分类能力远远不如RBF.又例如,图5中,在精确率准则下,交叉验证和配对t测试方法的统计结果表明,CF的分类能力不如RBF,但纠正重复取样t测试的统计结果表明,CF的分类能力接近RBF.当不同统计结果出现矛盾时,需要在应用多种统计方法的基础上,综合考评多种评估准则,然后根据大多数评估结果做出最后评判,真正好的分类模型在所有评估准则下所获得的结果都应当是最好的.所以,综合图4图8的统计结果可以得出以下结论:(1) Linear、HTF和STF的分类能力都远远不如RBF(取默认参数);(2) CF的分类能力最接近RBF(取默认参数).而这一结论与图8在信息增益准则下的统计结果最为相符,由此看出,信息增益准则最接近综合考评得出的结果.实验2: 对模型预测性能评估的多种评估准则(准确率、精确率、召回率、F测量和信息增益)进行对比分析.表7显示了应用纠正重复取样t测试方法(统计显著性水平5%)进行核函数两两对比时,根据不同评估准则所得到的统计结果.第一列Criteria是评估准则,第二列到第十列是参与评估的九个核函数,、表中数据代表核函数两两对比的获胜次数与失败次数之差,括号内的数字指明该核函数在当前评估准则下的排名.表7 应用纠正重复取样t测试方法对比五种评估准则CriteriaRBFCFHSFHTFLFLinearPolySSCFSTFAccuracy55 (1)44 (2)27 (5)-146 (9)34 (3)0 (7)31 (4)18 (6)-63 (8)Precision51 (1)46 (2)37 (4)-133 (9)39 (3)-21 (7)31 (5)22 (6)-72 (8)Recall44 (1)33 (3)16 (4)-123 (9)16 (4)-11 (7)38 (2)12 (6)-22 (8)F Measure54 (1)45 (2)31 (4)-132 (9)31 (4)-16 (7)39 (3)22 (6)-74 (8)Information Gain47 (1)40 (2)21 (4)-61 (8)18 (5)-15 (7)31 (3)6 (6)-87 (9)(表中数据代表核函数两两对比的获胜次数与失败次数之差,括号内的数字指明该核函数在当前评估准则下的排名)从表7的统计结果中可以得出以下结论:(1) 虽然根据核函数两两对比的获胜次数与失败次数之差对核函数分类能力进行排序时,不同评估准则在具体数值上存在差异,但应用统计方法所获得的核函数排序是大体一致的;(2) 对核函数分类能力的评估结论与实验1中结论一致.5讨论核函数选择的准则和方法作为核方法及其应用的核心内容之一,目前在国际上还没有形成一个统一的模式,在解决实际问题时,人们往往只能是凭借经验,并采用试凑方式,由此产生较大的随意性.因而有必要对各种常用的核函数进行分类能力的综合评估.有关评估结论对于在没有先验知识情况下选择核函数具有重要的指导意义.本文尝试将纠正重复取样 t 测试的统计方法应用到核函数选择中,提出了通过多种评估准则的综合应用来选择核函数的方法.数值实验表明不同模型评估准则之间存在差异,但应用统计方法可以从这些差异中发现一些规律.同时,不同统计方法之间也存在差异,且这种差异对模型评估的影响要大于由于评估准则的不同而产生的影响.所以,判断核函数分类能力要在应用多种统计方法的基础上,综合考评准确率、精确率、召回率、F 测量和信息增益等多种评估准则,真正好的核函数分类模型在所有评估准则下所获得的结果都应当是优良的,如针对本文中的实验数据发现RBF核函数在各种准则与方法考察中总体最优.但需要指出的是, 统计方法是计算密集型的方法,为了缩短运算时间,可以考虑数据压缩以减少参加运算的数据量.第 27 页 共 27 页表5 实验中使用的核函数 8 英文名称缩写数学表达式参数定义参考函数Linear FunctionLinearPolynomial FunctionPF,default 3Radial Basis Function or Gaussian FunctionRBF,default 1Symmetric Triangle FunctionSTF,default 3Cauchy FunctionCF,default 3Laplace FunctionLF,default 3Hyperbolic Secant FunctionHSF,default 3Squared Sin Cardinal Function or Squared Sinc FunctionSSCF,default 3Hyperbolic Tangent Function or Sigmoid FunctionHTF,default 1参考文献1 Vapnik V. The nature of statistical learning theory, Second Edition, New York: Springer-Verlag, 2000.2 Steinwart I. On the influence of the kernel on the consistency of support vector machines. Journal of Machine Learning Research, 2002, 2: 67-93.3 Chalimourda A., Schölkopf B., Smola A. Experimentally optimal v in support vector regression for different noise models and parameter settings. Neural Networks, 2004, 17(1): 127-141.4 Liu X.-D., Luo B., Chen Z.-Q. Optimal model selection for support vector machines. Journal of Computer Research and Development, 2005, 42(4): 576-581 (in Chinese)(刘向东, 骆斌, 陈兆乾. 支持向量机最优模型选择的研究. 计算机研究与发展, 2005, 42(4): 576-581)5 Wang L., Bo L.-F., Liu F., Jiao L.-C. Least squares hidden space support vector machines. Chinese Journal of Computers, 2005, 28(8): 1302-1307 (in Chinese)(王玲, 薄列峰, 刘芳, 焦李成. 最小二乘隐空间支持向量机. 计算机学报, 2005, 28(8): 1302-1307)6 Wu T., He H.-G., He M.-K. Interpolation based kernel functions construction. Chinese Journal of Computers, 2003, 26(8): 990-996 (in Chinese)(吴涛, 贺汉根, 贺明科. 基于插值的核函数构造. 计算机学报, 2003, 26(8): 990-996)7 Tan Y., Wang J. A support vector machine with a hybrid kernel and minimal vapnik-chervonenkis dimension. IEEE Trans. on Knowledge and Data Engineering, 2004, 16(4): 385-395.8 Chen Y.-X., Wang J.-Z. Support vector learning for fuzzy rule-based classification systems. IEEE Trans. on Fuzzy System, 2003, 11(6): 716-728.9 Browne M.W. Cross-validation methods. Journal of Mathematical Psychology, 2000, 44: 108-132.10 Sincich T. Business statistics by example, Fifth Edition. New Jersey: Prentice Hall, 1996.11 Nadeau C., Bengio Y. Inference for the generalization error. Machine Learning, 2003, 52(3): 239-281.12 Cover T.M. Elements of information theory, Second Edition. New Jersey: John Wiley & Sons, 2006.13 Racine J. Consistent cross-validatory model-selection for dependent data: hv-block cross-validation. Journal of Econometrics, 2000, 99(1): 39-61. 14 Witten I.H., Frank E. Data mining: practical machine learning tools and techniques, Second Edition. San Francisco: Morgan Kaufmann, 2005.(董琳 等译. 数据挖掘实用机器学习技术(第二版). 机械工业出版社, 2006)15 Yong Wang, Hu B.-G. Study of the relationship between normalized information gain and accuracy、precision and recall. Beijing, 2007 Chinese Conference on Pattern Recognition (CCPR 2007), Beijing, Science Press, 2007: 27-34 (in Chinese)(王泳, 胡包钢. 归一化信息增益准则与准确率、精确率、召回率的非线性关系研究. 2007年全国模式识别学术会议(CCPR2007),北京,2007年12月,科学出版社, 2007: 27-34)16 Hu B.-G., Yong Wang. Applications of Mutual Information Criteria in Classification Problems. Beijing, 2007 Chinese Conference on Pattern Recognition (CCPR 2007), Beijing, Science Press, 2007: 35-45 (in Chinese)(胡包钢, 王泳. 关于互信息学习准则在分类问题中的应用. 2007年全国模式识别学术会议(CCPR2007),北京, 2007年12月, 科学出版社, 2007: 35-45)17 Newman D.J., Hettich S., Blake C.L., Merz C.J. UCI repository of machine learning databases http:/www.ics.uci.edu/mlearn/MLRepository.html. Irvine, CA: University of California, Department of Information and Computer Science, 1998.18 Statlib Data, Software and News from the Statistics Community. http:/lib.stat.cmu.edu/datasets/19 Cauwenberghs G., Poggio T. Incremental and decremental support vector machine learning. Advances in Neural Information Processing Systems (NIPS-13), 2000: 409-415.20 Kevin J.L., Michael J.W. Learning to tell two spirals apart. Proceedings of the 1988 Connectionist Models Summer School, Morgan Kaufmann, 1988: 52-59.A Study on Integrated Evaluating Kernel Classification Performance Using Statistical MethodsWang Yong1, 2 Hu Bao-Gang1, 21 National Laboratory of Pattern RecognitionInstitute of Automation, Chinese Academy of Sciences, Beijing 1001902 Beijing Graduate School, Chinese Academy of Sciences, Beijing 100080Abstract This article explores the research on evaluating kernel classification performance using statistica