剪枝网格采样的非平衡数据集分类算法.doc





《剪枝网格采样的非平衡数据集分类算法.doc》由会员分享,可在线阅读,更多相关《剪枝网格采样的非平衡数据集分类算法.doc(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流剪枝网格采样的非平衡数据集分类算法.精品文档.摘 要非平衡数据集分类问题是模式识别、机器学习和数据挖掘领域中的常见问题,也是热点问题,吸引着众多学者的眼球。非平衡数据集是指数据集类别之间存在倾斜,某一类别样本比其它类别样本要多。传统分类器为了追求高准确率,侧重于非平衡数据集中的多数类样本分类的准确性。而恰恰相反,非平衡数据集中的少数类样本往往是我们所要关心的,这时分类性能不仅要考虑分类精度高低,同时要考虑分类代价大小。传统分类器对这种非平衡数据的处理会更多关注多数类别的样本,导致大量重要的少数类别的样本错分且真实信息受损。因此,研究非平衡数据
2、处理问题是非常重要。目前,国内外学者在非平衡数据集分类问题上的研究已取得一定的成就,主要表现在数据预处理和算法两大层面上,在算法层面上,主要是试图改进传统算法,提高在非平衡数据集上的分类性能。而在数据预处理层面上,学者们研究大体是对负类样本进行欠采样,去除噪声数据和远离分类面数据,对正类样本过采样,加入噪声数据以至于达到数据平衡,再采用已有分类器进行分类,试图提高准确率。然而,去除数据还是加入数据,不同学者处理的方法也是不同的。本文在前人研究基础上,进一步对处理非平衡数据集分类的采样方法进行研究,防止一般欠采样方法所带来的重要信息数据的丢失,结合园艺工人们培植盆景的技巧,提出一种新的欠采样方法
3、剪枝网格采样方法,通过剪枝技术将多数类样本分类,分成绝对安全数据、边缘数据和噪声数据三类,然后进行网格采样,再利用自适应增强法对采样后数据进行学习。以ROC曲线为评价标准,对人造数据和典型的UCI数据集分别进行验证,其AUC值要大于其他几类算法,说明该模型具有良好的性能。接着,又将该方法和Random-SMOTE方法结合,提出混合采样方法,利用ROC曲线评价标准,通过两组数据对模型进行性能测试,结果发现该模型性能也很优越。关键字:非平衡数据集;剪枝;网格采样;自适应增强法;ROC曲线AbstractImbalanced data sets classification problem is c
4、ommon problems in the field of pattern recognition, machine learning and data mining as well as a hot issue. Imbalanced data set is a data set of categories because of the presence of skew, namely a kind of category samples more than other categories of sample. The traditional classifiers in order t
5、o pursue a high rate of accuracy focus on classification accuracy of the majority class samples of Imbalanced data sets, on the other hand the minority class samples of imbalanced data sets should be considered because of the cost of classification and its true information. Therefore, research of Im
6、balanced data processing problem is very important.At present, domestic and foreign scholars have obtained some achievements in data preprocessing and algorithms of two level about imbalanced data sets classification problem. Scholars are trying to improve the traditional algorithms and improve the
7、classification performance in Imbalanced data set on the algorithm level. In the data pretreatment level, scholars generally remove the negative samples of noise data and separate from the classification of surface data in under-sampling, otherwise they add noise data to over-sampling data in order
8、to balance. In a word , many methods are different on data reduction or data additionIn this paper, new sampling methods about imbalanced data sets classification are considered in order to prevent the important data loss from general under-sampling method on the basis of previous studies. Grid samp
9、ling method by pruning puts forward , namely the majority class of the samples will be divided into absolute safety data, data of edge and noise data before grid sampling basing on adaptive boosting method to carry out sampling data learning. The artificial data and typical UCI data sets are verifie
10、d with ROC curve as the evaluation criterion by test. In light of test conclusion, the AUC value is greater than the other types of algorithms, which shows the model has good performance. The other new method , namely the mixed sampling on the Random-SMOTE method, put forward and is valid by test.Ke
11、ywords: Imbalanced data sets; Pruning; Grid sampling; AdaBoost; ROC curve目 录摘 要IABSTRACTII第一章 绪论11.1研究背景及意义11.2非平衡数据集分类方法的研究现状31.3本文的主要工作及结构安排4第二章 基于采样技术的数据预处理方法52.1欠采样技术理论与方法52.2过采样技术理论与方法112.3本章小结15第三章 增强分类器算法和K-近邻算法153.1模式分类的概念153.2合并分类器的增强法(Boosting)理论163.3 k-近邻算法203.4本章小结21第四章 基于剪枝网格采样的非平衡数据集分类
12、算法224.1剪枝技术224.2非平衡数据集的采样处理技术254.3基于采样技术的非平衡数据集的增强分类算法324.4本章小结33第五章 算法性能分析345.1非平衡数据集分类器的性能评价标准345.2人工数据集上的实验365.3典型UCI数据集上的实验40第六章 总结与展望436.1本文相关工作的总结436.2对未来的展望43参考文献44攻读硕士学位期间的主要工作48致 谢49第一章 绪论1.1研究背景及意义分类是模式识别、机器学习和数据挖掘中的一个重要研究内容,已取得一定的成果。各种分类算法层出不穷,现有的分类算法有贝叶斯分类、BP神经网络、决策树、聚类和支持向量机等。这些经典而又传统的分
13、类算法在现实世界中都有着广泛的应用,但是随着应用的深入,使得这些经典的分类算法面临着极大考验和挑战。在分类问题中,就有这样一类数据集,待分的数据集各类别之间严重倾斜,某一类别数据远多于其它类别,把这样的数据集称为非平衡数据集。其中,数据集中样本比另外一类别多的类别称为多数类样本,也称为负类样本;数据集中样本比另外一类别少的类别称为少数类样本,也称为正类样本1。就两类分类问题举一个例子说明非平衡数据集分类问题的特殊性,在现实生活中,信用卡欺诈用户一般只有2%,而98%是正常的信用卡用户。如果全部检测为正常的信用卡用户,这样的分类精确度也达到了98%,显然这个结果是毫无价值的。即便只有这2%的欺诈
14、用户被检测错误也会给银行带来巨大损失,这是因为,如果把正常的信用卡用户检测为欺诈用户,那么银行要投入大量的人力和财力,但是如果把这2%的欺诈用户误分为正常的信用卡用户,那么会使银行经济损失远远大于银行检测正常的信用卡用户所要投入的人力和财力。非平衡数据集中少数类样本分类的正确性,往往比多数类样本分类的正确性要重要的多。不幸地是,在如今世界里,这种非平衡数据分类问题是随处可见,广泛存在于各个领域中。如在医疗诊断领域中,进行体内感染监测问题2,进行心脏护理问题3和阐明蛋白质蛋白质相互作用问题4以及科学与工程领域中的检测欺诈问题5,6,检测网络入侵问题7和管理电信问题8等等,都涉及非平衡数据分类问题
15、。我们在看一个例子,在医疗诊断方面,如果把正常人(多数类样本)误诊为病人(少数类样本),会给正常人带来一些精神打击,但是一旦把病人误诊为正常人,就会影响病人治病,可能错过最佳治疗期,会要人家的性命的。在这些应用领域中,人们关心的都是少数类样本,因为她的误分会导致巨大的代价损失。正如一些研究学者这样认为:非平衡数据集分类问题研究具有重要的商业价值和环保意义。由于非平衡数据集存在如下分类困难的原因:1. 不恰当的采样方法现存的采样技术,不管是欠采样还是过采样都存在一定的缺陷,如欠采样,当随机的去掉一些多数类样本时,那么一些潜在的有用信息也同时被去掉,这样会导致一些多数类样本数据的重要信息丢失;过采
16、样随机的复制样本也有可能会导致数据的过度拟合。因此如何选择一种适当的采样方法以改变非平衡数据集的不平衡程度是目前分类的一个难题。2. 不科学的性能评价指标目前常用的分类器评估标准就是准确率、查准率和查全率。他们不适合对非平衡数据集分类器的评价,需要另外选择评估度量,最通用的是进行 ROC曲线分析以及用 AUC(ROC曲线的下区域)来进行性能评估。3. 噪声数据在现实世界中,我们得到的数据集会或多或少的出现一类影响分类器分类性能的数据,即噪声数据。在非平衡数据集中不例外的存在这种噪声数据,它在非平衡数据集分类问题中严重的影响着少数类样本的正确分类。如果噪声数据偏向于少数类样本的区域中,想正确识别
17、少数类样本更是难上加难了。如何去噪,也是非平衡数据集分类问题的一个难题。4. 归纳偏置应用不当有时在进行数据处理时会对数据集进行归纳偏置,提高处理方法的泛化能力。但是在非平衡数据集分类时,这种操作不仅提高不了学习的能力,反而使得对正类的学习更加困难。不幸的是,传统分类算法的设计者当时是在类平衡的前提下设计算法的,未能足够的考虑到非平衡数据集分类问题,导致传统的分类算法在非平衡数据集分类问题面前显得捉襟见肘了。例如在检测网路入侵问题时,网络入侵的概率一般不到0.01%,传统分类器比如决策树算法,还有神经网络算法为了考虑整体的精确度,即便把所有的网路访问都分为正常的网路访问,其分类精确度也达到99
18、.9%。但是这肯定不是我们想要的结果,而我们想要的是那0.01%重要的少数类样本正确分类。如何有效的解决非平衡数据集分类问题,在保障分类整体的准确性下,突出少数类样本分类的重要性。她已成为模式识别、机器学习和数据挖掘中的一个重要研究课题,具有一定的研究价值。1.2非平衡数据集分类方法的研究现状随着时代的进步,数据信息的处理问题成为科技领域的一个重要问题。有一类数据的处理问题渐渐成为数据挖掘、模式识别和机器学习领域9,10,11的热点问题,它就是非平衡数据集分类问题。纵观国内外学者对非平衡数据集问题的研究成果,总的来说,对非平衡数据集处理分类问题的研究主要在两个层面上,一个是在前期的数据预处理层
19、面上,另一个层面上就是对已有算法的修正。非平衡数据集分类问题的数据预处理层面主要思想是克服训练集的类别不平衡状况,消除或减少类别间的倾斜程度。常见的方法有过采样方法(Over-sampling)和欠采样方法(Under-sampling)。欠采样方法具体做法是对非平衡数据集中的多数类样本进行压缩,文献12中就是一个典型的欠采样方法,运用粒度计算的理论知识和主要思想,对多数类样本进行粒度计算,减少其样本数量,试图改变不平衡的状况。Show-Jane Yen等13人提出的聚类欠采样方法,还有Kubat.M等人14提出one-sided selection方法,也是常见而又典型的处理非平衡数据集分类
20、问题的预处理方法。另一方面就是过采样方法,具体做法恰恰相反,它是对少数类样本进行添加。最具代表的是Chawla.N等15人提出了一种经典的Synthetic Minority Over-sampling Technique过采样方法,运用插值的方法,在少数类样本间添加新样本改变平衡性。接着他们又进行改进提出了SMOTEBoost方法16 ,还有学者H.Han等17人也对其进行修改,它仅对分类器决策面处样本进行采样处理,提出了Borderline-smote方法。算法修正层面主要思想是改进和修正已有的算法,克服在非平衡数据集分类问题上的弊端,提高算法性能。最常见的是对支持向量机(SVM)算法进行
21、改进,如文献18中优化SVM算法中参数因子,结合遗传算法优化参数,提高 SVM算法在非平衡数据集分类问题上的效果,Wu Gang等19人以及Japkowicz等20人基于SVM算法进行了修正。也有学者对Boost做了进一步的改进提出SMOTEBoost方法。1.3本文的主要工作及结构安排本文的主要工作是研究基于采用技术的非平衡数据集分类问题,结合前人已有的经验做法和园艺工人培植盆景的剪枝技巧,为非平衡数据集分类问题添加一种新的采样思路剪枝和k-近邻密度网格相结合采样方法,提出剪枝和采样相结合的非平衡数据集分类算法模型,并结合实验对分类模型的有效性进行了验证。本文结构内容安排如下:第一章绪论,介
22、绍了非平衡数据集分类问题的研究背景、意义和现状。第二章基于采样技术的数据预处理方法,阐述了欠采样和过采样方法的思想和具体算法。第三章增强分类器算法和k-近邻算法,详细介绍了本文将要使用的两类分类算法主要思想和理论推导过程。第四章基于采样技术的非平衡数据集增强分类算法,重点叙述了剪枝技术和k-近邻密度网格采样及其在非平衡数据集分类中运用。第五章算法性能分析,对本文提出的模型进行实验验证。第六章总论,对全文的研究工作进一步总结。第二章 基于采样技术的数据预处理方法现实世界中数据大都是不完整,残缺或含有噪声数据,无法直接进行数据分析和研究。为了提高数据分析和研究的质量必须进行数据预处理。 数据预处理
23、有多种方法:清理数据,集成数据,变换数据,归约数据等。采样技术也是数据预处理的一个重要方法与手段。目前,采样技术形式虽然多种多样,但是都归结两大类采样技术:欠采样技术和过采样技术,有时人们根据需要还结合两类采样技术对数据进行预处理,即混合专家模型22,混合专家模型由学者Japkowicz提出,它把对两类样本进行不同倍率采样作为训练样本的众多分类器组合,使分类结果更好。这些数据处理技术在数据分析和研究之前使用,有效地提高了数据分析和研究的质量,降低实际分析和研究所需要的时间和成本。2.1欠采样技术理论与方法欠采样技术(Under-sampling Technology)也称向下采样,通过采样减少
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 剪枝 网格 采样 平衡 数据 分类 算法

限制150内