基于roc的三元再编码研究-雷蕾.pdf
《基于roc的三元再编码研究-雷蕾.pdf》由会员分享,可在线阅读,更多相关《基于roc的三元再编码研究-雷蕾.pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第38卷第10期 电 子 与 信 息 学 报 Vol. 38No.10 2016年10月 Journal of Electronics & Information Technology . Oct. 2016 基于ROC的三元再编码研究 雷 蕾王晓丹*罗 玺(空军工程大学防空反导学院 西安 710051 ) (空军工程大学信息与导航学院 西安 710077) 摘 要:针对三元编码矩阵中基分类器不包含被忽略样本类别先验知识的问题,该文提出一种基于接收机工作特性(ROC)曲线的矩阵再编码方法。首先基于ROC曲线寻找构造拒绝域的阈值对,从而获得最优分类器;然后利用最优分类器对训练样本中被忽略的类别进
2、行分类,将经典的二值输出变为三值输出,从而对初始编码矩阵的码元“0”进行重新编码。在解码阶段,采用经典的汉明距离解码方法对未知样本进行决策。该方法能够避免基分类器的二次训练,适用于任意的三元纠错输出编码,具有良好的普适性和实用性。基于人工和UCI公共数据集的实验结果表明该方法简单高效,在不增加训练时间的基础上,能够提高解码的速度和精度,促进分类效果的提升。 关键词:三元纠错输出编码;二次编码;最优分类器;拒绝域;接收机工作特性 中图分类号:TP391 文献标识码:A 文章编号:1009-5896(2016)10-2515-08 DOI: 10.11999/JEIT151343 Recoding
3、 Error-correcting Output Codes Based on Receiver Operating Characteristics LEI LeiWAGN XiaodanLUO Xi(Institute of Air and Missile Defense, Aire Force Engineering University, Xian 710051, China) (Institute of Information and Navigation, Aire Force Engineering University, Xian 710077, China) Abstract:
4、 As to the problem that the base classifiers in ternary Error Correcting Output Codes (ECOC) matrix do not contain the prior information of classes which are ignored in binary splits, a new recoding ECOC based on Receiver Operating Characteristic (ROC) curve is presented. To recode the ternary matri
5、x, the two thresholds of reject region are obtained based on ROC to build the optimal classifiers. Then, the optimal classifiers are used to classify the ignored classes based on bipartition in training phase. In so doing, the classical two-symbol output expands to three-symbol to recode the zeros.
6、Finally, the Hamming decoding strategy is adopted for decision in decoding. This method can avoid a second training and is applied to any kind of ternary matrix. The experiments based on Synthetic and UCI datasets validate the better efficiency and remarkable promotion without increasing training co
7、mplexity of the proposed approach. Key words: Ternary error-correcting output codes; Recoding; Optimal classifier; Reject option; Receiver Operating Characteristics (ROC) 1 引言纠错输出编码(Error- Correcting Output Codes, ECOC)1,作为一种分而治之的多类与二类分类问题的连接桥梁,已成功应用到生物学数据识别2、疾病诊断3和计算机视觉识别4等诸多领域。而三元纠错输出编码(ternary EC
8、OC )5作为一种更为通用的ECOC类型,几乎能统一现有的所有多类分类框架。收稿日期:2015-12-01;改回日期:2016-06-06;网络出版:2016-08-26 *通信作者:王晓丹 afeu- 基金项目:国家自然科学基金(61273275, 61503407) Foundation Items: The National Natural Science Foundation of China (61273275, 61503407) 矩阵中“0”符号的引入增加了二类划分的多样性和基分类器之间的差异性,使ECOC在多类分类问题领域的性能得以提升,并已受到众多学者的关注。文献6讨论了一种
9、新的编码设计准则最大化三符号编码距离准则(ternary distance),通过该准则作者提出了一种新的稀疏编码矩阵,实验结果表明基于该准则获得的ECOC分类效果有显著提高,且与解码方法的选取相关性较小。2008年,文献7针对样本集线性不可分问题,提出对基类子集再分割的Subclass ECOC编码方法(SECOC )。文献8利用数据分布的先验知识,基于混淆矩阵和Fisher准则得到最优的子类划分,对子类采用“一对多”划万方数据2516 电 子 与 信 息 学 报 第38卷 分方法;在单个子类内部每次只选择两种类别作为正负类,而子类的其他类别将被忽略,即在矩阵中编码为“0”,从而弥补了单个基
10、分类器识别的误差。文献9认为利用编码矩阵中二类划分的先验原始类结构信息可以提高ECOC分类性能,并给出了在流形假设和聚类假设的情况下将先验结构信息融入基分类器决策函数的方法。文献10针对经典的“一对一”三符号编码矩阵中码元“0”会引入分类偏差的问题,提出了避免二次训练的码元“0”再编码方法,并将该分类结果作为权值融入基于损失函数的解码过程中。文献11利用遗传算法来优化编码矩阵的构造,将初始ECOC编码矩阵看作遗传个体,经过交叉和变异形成新的编码矩阵。相关的研究还有文献12-14等,这些成果都有力地促进了三元 ECOC多类分类的发展。 在三元编码矩阵中,码元“0”所对应的类别不参与训练,因此构造
11、得到的基分类器将不包含此类样本的先验信息。故当该基分类器作用于测试样本时,就有可能因为信息缺失而输出片面的结果,导致分类错误。本文针对此分类偏差问题,提出了一种基于ROC的再编码方法(re-coding error-correcting output codes based on ROC)。该方法能够在不进行二次训练的基础上,通过基于ROC构造的最优基分类器对码元“0”进行重新编码,使得矩阵尽可能包含所有类别样本的结构信息;同时拒绝域的构造实现了三元 ECOC对样本的选择性分类,矩阵中的“0”也在解码过程中变得更为具体,从而减小解码误差。决策时,将输出向量与新的类别编码进行Hamming距离解
12、码。该方法采用的初始编码矩阵可以为任意的三元纠错输出编码矩阵,具有很好的普适性。 论文结构安排如下:第2节首先简要介绍基于ROC的三元再编码思想;第3节提出基于ROC再编码思想的步骤和方法,并对该方法存在的问题进行一一阐述;第4节给出实验结果和分析;最后给出总结说明。 2 再编码思想 ECOC框架中基分类器不能对样本进行选择性分类,而对于未参与基分类器训练的样本而言,直接对其分类将引入误差。 问题1 假设有符合高斯混合分布的5类数据(ecoli数据集1),如图1所示。当采用“一对一”方法对其进行编码时,由1C和5C作为训练样本产生的基分类器的决策面也能在一定程度上对类别2C ,3C1)对eco
13、li数据集进行了归一化处理,并删除了一些样本数很小的类 和4C进行正确的划分。这样,基分类器15h就能在测试时对其做出正确的硬判决输出。针对此问题,文献10提出了一种不需要重新训练的再编码方法,通过已训练的基分类器对码元“0”所对应的类别进行分类,通过设定分类正确率的阈值,将其重新编码为1, -1。但对于编码矩阵中遗留的码元“0”仍采用传统的损失函数进行解码。 问题2 假设一个三元编码矩阵47M和输出向量x。 从图2中可以看出,根据Hamming距离解码和欧式距离解码,未知样本x被判定为1C。但事实上x属于第2类。因为只有当2C类在基分类器训练中没有被忽略时,其类别属性与2C类一致;当2C类被
14、忽略时基分类器的决策面不能对样本x进行正确识别。出现这样的情况是由于编码矩阵中码元“0”的干扰,使训练得到的分类器不包含对应类别的分布信息,在解码过程中引入了偏差,从而不能做出正确的判决。本文结合问题1和问题2,将“拒绝域”引入每一个基分类器,对样本输出值落入拒绝域中的样本予以拒绝,不对其进行分类识别,使基分类器的输出由二元值扩展到三元值,从而减少基分类器对“0”标识的类别样本直接分类带来的误差。具体来讲:就是用训练好的基分类器对码元0 所对应的样本进行分类,根据一定的拒绝域准则,将“0”重新编码为“1”或“-1”;如果码元“0”所对应样本的输出落入拒绝域,此时选择性拒判就产生了,此类别在新的
15、编码矩阵中码元依旧为“ 0”,这样就从本质上减小了利用Hamming距离解码时带来的误差,从而克服了问题2。 图1 5类数据集分布 12345671247 3HD ED1 1 1 1 1 1 1 1 41 1 0 0 0 0 0 2.5 51 1 1 1 1 1 1 6 h h h hhh hCCC M4120 1 1 0 1 1 1 4 81 1 1 1 1 1 1C x图 2 47M编码矩阵 万方数据第10期 雷 蕾等: 基于ROC的三元再编码研究 2517 要实现选择性拒判,关键是构造拒绝域。作为分类器性能评估的有效手段,ROC曲线判决直观、概念清楚,对样本数据的先验分布知识和错分代价矩
16、阵都不敏感,为解决前面提到的拒绝判决问题提供了强大的工具。为此本文引入ROC来设计拒绝域,构造最优分类器进行再编码设计。根据以上分析,图3给出了基于ROC的三元再编码的多类分类结构框图。其中TS和VS分别代表训练样本的训练子集和验证子集。值得注意的是,再编码过程仍然在样本训练阶段进行,这样就避免了二次训练,减少了训练时间。 3 基于ROC的三元再编码研究方法 本节利用ROC构造阈值对,进而得到带拒绝域的最优分类器,通过其对训练阶段所忽略的类别样本进行分类再编码,最终得到新的编码矩阵。 3.1 基于ROC的最优分类器 为了说明ROC的生成及相关特性,首先简要介绍两类样本混淆矩阵的相关概念。混淆矩
17、阵描绘了样本数据的真实类别属性与识别结果之间的关系,是评价分类器性能的一种常用的有效方法。假定一个二分器的分类结果为一个22的混淆矩阵,如表1所示,其中行元素代表样本的真实属性,列元素代表分类器的分类结果。矩阵中:TP为正确分类的正类样本数;FP为被错误分类的负类样本数;FN为被错误分类的正类样本数;TN为正确分类的负类样本数。定义代价矩阵MC,其中TP和TN的分类代价为0。21 12cr cc为代价矩阵的费效比(cost ratio)。由此定义该分类器的分类损失代价为 12 21FN FPcostTP+FN+FP+TNcc (1) 图 3 基于ROC的三元再编码多类分类结构框图 表1 混淆矩
18、阵和代价矩阵 混淆矩阵C (b) 代价矩阵MC + - + - 0 + TP FN P + 0 12c 13c - FP TN N - 21c 0 23c 其中,FP+TN=N , TP+FN=P。ROC为一个2维图形,如图4所示,y轴表示为 tp=TP/(TP+FN) , x轴表示为fp FP/(FP+TN)。利用式(1)对FP求 导,并令其等于0可得:*ROC(fp ) crNfP。 对于带拒绝域的基分类器而言,要找到最优的阈值对*(fp ,tp ),文献15探讨了一系列算法,本文就对其采用的方法进行简单介绍. 假设ROC曲线上两点(fp ,tp )和(fp ,tp )对应的基分类器为C和
19、C,设fp fa,如图4。C和C是分类器根据不同阈值设定而得到的,属于一个家族,其数据分布具有一致性,即使存在分类不一致的情况,对分类结果也不会产生太大的影响。故通过此ROC曲线得到的最优分类器optC能满足下列条件: opt, ( ) 0, , CCCx C CCC (2) 同时假设C和C的混淆矩阵为(TP ,FN ,FP , TN )和 TP ,FN ,FP ,TN ,分类代价矩阵为MC,式(1)的分类损失代价函数可改写为 23 13, disagree, , disagree,21 12FP for bothFN for both13 21 23rc( ) FP FP FN FNFP F
20、NFN FPCC CCNP c cccc cc 12 13 23ROC 13 21 23ROC 12 13 23FN FNFP1 FPFP1 FPcc cP f c ccNP f cc cN (3) 可以看出式(3)是关于FP和FP两个变量的函数,为了得到局部最小值利用式(3)分别对该两个变量求偏导可得: 图4 ROC曲线特性 万方数据2518 电 子 与 信 息 学 报 第38卷 ROC 13 21 23ROC 12 13 23FPrc( )=FPFPrc( )=FPPNP f c c cNNPNP f c c cNN (4) 令式(4)等于0得到最终结果为 * 21 23ROC13* 23
21、ROC12 13fpfpccNfcPc Nfc cP(5) 由式(5)就可获得ROC曲线上满足要求的两点,以此作为该基分类器产生拒绝域的阈值对*(fp ,fp )。由前面的假设可知*fp fp , *ROC ROC(fp ) (fp )ff。由于ROC的凸包是递增和凸的,所以它的一阶导数是非负和非增的,也就是*ROC ROC(fp ) (fp ) 0ff。所以代价矩阵MC需要满足以下条件: 21 23 12 13 21 12 21 13 23 12( )( )( )c c c c cc cc cc (6) 3.2 新编码矩阵的生成 上一节通过ROC曲线构造出带拒绝域的基分类器并获得阈值对*(f
22、p ,fp )。其再编码过程为 *1, fp( , ) 0, fp fp1, fpjijijicMij cc (7) 其中, jic为利用编码矩阵第 j列对应的最优分类器对“0”标识的第 i类的分类正确率。表2给出了基于再编码的多类分类方法的具体实现步骤。初始编码矩阵经过带拒绝域的基分类器重新编码以后,矩阵中码元“0”的个数会有所下降,而基分类器对未知样本的输出不再只有两种输出,即正类输出和负类输出,而是出现第3种输出结果,即拒绝做出判决(用“0”标示)。对此我们可以直接利用经典的汉明距离进行解码。 下面将重点通过实验验证该方法所得的编码矩阵在分类中的应用效果。 4 实验 本节采用人工数据集和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 roc 三元 编码 研究 雷蕾
限制150内