基于特征选择的数据降维算法研究-余大龙.pdf
《基于特征选择的数据降维算法研究-余大龙.pdf》由会员分享,可在线阅读,更多相关《基于特征选择的数据降维算法研究-余大龙.pdf(57页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、害氆吠孽硕士学位论文密 级保密期限基于特征选择的数据降维算法研究Research on Data Dimension Reduction AlgorithmBased on Feature Selection学 号姓 名学位类别学科专业(工程领域)指导教师完成时间答辩委员会主席签名P14201102余大龙工学硕士信号与信息处理唐俊教授2017年5月万方数据独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得安徽大学或其他教育机构的学位或证书而使用过的材料。与
2、我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名: A呔砬 签字日期: 矽,7年 岁月 秽日学位论文版权使用授权书本学位论文作者完全了解安徽大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权安徽大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名: A呔砬 导师签名:秀发签字日期:矽,、7年 夕月 秽 日 签字曰期:矽,、7年岁月 矽 日万方数据摘要计算机技术的飞速发展使
3、得我们所获得的信息呈现爆炸式的增长,有调查显示,人类近半个世纪以来获得的数据量是以往漫长人类历史上获得数据的总和,我们正处在大数据的包围之中。这些数据通常都是高维的,数据维度的膨胀为后续的计算任务带来了巨大的负担,将会导致维数灾难。为了有效地从这些数据中获得有价值的信息,特征选择和数据降维等一系列机器学习算法便应运而生,并且逐渐成为研究热点之一。数据降维方法的基本思路:在输入空间中对样本数据进行某种变换操作,将高维样本数据映射到低维空间中,最终在低维度空间得到关于原数据空间的低维表示。目前,数据降维己成为机器学习、数据挖掘、人工智能以及计算机视觉中的重要方法。本文在ReliefF特征选择算法的
4、基础上,融合了两种不同的数据降维算法和子模优化的性质,研究了基于特征选择的数据降维算法在文本和图像特征选取中的应用。本论文研究的主要内容和创新点:(1)提出了基于PCAICA和ReliefF相结合的用于人脸图像特征选取的方法。考虑到PCA算法不能保留人脸图像的高阶信息的缺点,本文在对人脸图像处理中,先使用ReliefF算法进行最优特征子集选择,经过PCA降维,再应用ICA对降维之后的数据进行处理,并将两次数据降维算法操作后的图像特征集合送入到分类器进行训练,最终的实验结果证明选取的特征子集用于图像的分类效果比ASU上提供的特征选择算法提取的特征子集效果较好。(2)提出了基于子模优化的特征选择方
5、法用于文本特征选取。首先将文本特征集进行预处理,然后利用子模函数最大化求解的性质,通过贪心算法选出最终的特征子集用来做分类训练,最终的实验结果证明该特征子集用于文本特征提取效果比ASU上提供的特征选择算法提取的特征子集效果较好。关键词:特征选择;ReliefF算法;子模优化;图像分类万方数据AbstractThe rapid development of computer technology has led to an explosive growth ininformation we obtainA survey shows that the amount of data acquired
6、 by humansover the past half century is the SUlTI of the data obtained in the past long history ofhuman beingsWe are surrounded by big dataThese data are usuallyK曲一dimensional,the expansion of data dimensionality has brought a huge burden forthe subsequent calculation task,leading to curse of dimens
7、ionalityTo obtain valuableinformation from data,feature selection and data dimensionality reduction become oneof the hotspotsThe basic idea of data dimensionality reduction methods is totransform high-dimensional samples in input space into low-dimensional space,andfinally get the low-dimensional re
8、presentation of original data in the low-dimensionalspaceAt present,data dimensionality reduction has become an important method inmachine learning,data mining,artificial intelligence and computer visionBased on the ReliefF feature selection algorithm,this thesis combines twodi艉rent data reduction a
9、lgorithms and the properties of submodular optimization,andstudies the application of featurebased data dimension reduction algorithm in text andimage feature selection刀始main content and innovation of this thesis:(1)The method of feature selection based on PCA-ICA and ReliefF for faceimage feature s
10、election is proposedConsidering the shortcomings of PCA algorithmCall not preserve the highorder information of face images,in face image processing,the RetiefF algorithm is firstly used to select the optimal feature subsetAfter PCA isreduced,ICA is used to process the data after dimensionality redu
11、ctionAnd the imagefeature set after the operation of the two data reduction algorithm is sent to theclassifier for trainingThe final experimental results show that the selected imagefeature subset used for the classification is better than the feature selection algorithmprovided on the ASU(2)A featu
12、re selection method based on submodular optimization is proposed fortext feature selectionFirstly,the text feature set is preprocessed,and then theproperties of the solution are maximized by the submodular functionThe final featuresubset is selected by the greedy algorithmThe final experimental resu
13、lt proves that thefeature subset used for text feature extraction is better than the feature subset extracted万方数据by the feature selection algorithm provided on the ASUKeywords:Feature Selection;ReliefF Algorithm;Submodular Optimization;ImageclassificationIII万方数据目录第一章绪论l11研究背景及意义112数据降维的含义2121降维技术概述2
14、122降维算法分类3123降维中的特征选择413本文研究的内容和组织结构5第二章特征选择和数据降维算法721特征选择的概念72。11特征选择的概述7212特征的相关性822特征选择算法。9221过滤法(Filter Methods)10222封装法(Wrapper Methods)10223嵌入法(Embedded Methods)1123数据降维算法13231主成分分析(PCA)13232独立成分分析(ICA)1424本章小结15第三章基于改进的特征选择算法的图像特征提取。1631引言1632 PCA和ICA在人脸图像分类中的应用1733 ReliefF特征选择算法1 834系统组成2034
15、1基于PCAICA改进的特征选择算法21341 SVM分类器2235实验与分析24351实验数据集24352实验结果及分析2535本章小结29第四章基于子模优化的文本特征选取304。1引言30lV万方数据42子模函数3 1421子模函数的定义一31422子模函数的优化3 143文本特征提取。32431文本特征的表示32432图的邻接矩阵33433子模方法的特征提取3444实验与分析36441实验数据集36442基于ReliefF算法的数据预处理36443实验步骤。38444实验结果与分析3845本章小结41第五章总结与展望4251论文总结4252研究展望43参考文献44致谢49攻读硕士研究生期
16、间参与的科研项目50V万方数据安徽大学硕士学位论文 绪论11研究背景及意义第一章绪论近半个世纪以来,计算机和智能化设备的快速发展,给人们的生活带来了极大丰富。与此同时,随着现代化采集技术日趋成熟,人们获取和收集数据的能力得到了极大的提高。大量的数据使人们更加清晰的认识我们所处的客观世界,但也给数据处理带来了更多的难题。在模式识别、文档检测、图像处理、机器学习、农业大数据等领域大量数据被产生,这些丰富的数据为技术的再发展提供了支撑,但数据维度增加将会导致“维数灾难”问题。“维数灾难是指在给定精度下,要准确的对某些变量的函数进行估计,所需样本会随着样本维数的增加而呈现指数形式增长【21。下面简单给
17、出机器学习中在图像和文本处理中所遇到的高维数据的例子:a)图像处理:随着计算机技术的发展,我们获取的图像的分辨率越来越高,大量的图像数据存储和处理给我们带来了难题。例如,我们对一个256*256大小的图像进行处理,若将单幅图像比作图像处理中的一个点,那么该点的维度就高达65536维,随着图像分辨率的增大,我们获得的图像维度将会更大。如若对成千上万张这样的图片进行处理,对计算机的硬件存储和运行速度提出了更高的要求,同时目前算法性能将会下降。b)文本数据:在信息检索领域,一般文档中的信息被表示成向量空间中的一个特征词向量【3】,特征词向量中的每个元素通过一种打分机制,通过获得分数的高低来决定元素对
18、文档的贡献率。在现实世界中,我们每天都产生大量的文本数据用来记录生产与生活,对于一个普通中等程度的文档集表示文档特征词的向量就高达数十万,也就是说,用来表示的向量维度就达到了几十万维度。这种高维度数据对我们来说并非是有意义的,而且主流的机器学习方法也是无法有效处理如此高维的数据。高维度的数据给机器学习和模式识别以及相关领域研究带来了巨大的挑战,如何有效对这些高维数据进行利用处理依旧是一大难题。“信息丰富,知识匮乏”【4】正是我们目前所面临的问题,我们有大量的数据,而我们却很难有效的从中提取关键的信息。因此,如何对丰富的数据资源进行有效的分析,在保持数据信息万方数据安徽大学硕士学位论文 基于特征
19、选择的数据降维算法研究足够完整的前提下从海量数据集中提取有效而又合理的约简数据已经成为目前研究人员亟待解决的问题。高维数据通常具有稀疏性,由实验经验我们可知并非所有的高维数据属性都是重要的,有意义的,数据降维方法便应运而生。低维数据与高维数据相比,在某些方面具有不同的特性。因此,在对高维数据进行处理之前,我们需要采用降维方法对高维度的数据进行降维,获得空间上较低的数据维度,然后基于低维度空间再对数据进行处理,从而可以有效的提高实验效率。在降低数据维度的同时,保证其中包含的主要信息是相似的(即保证有效信息最大化)。数据降维的意义包括以下几个方面:获取原数据的本质特征,去除无用噪声,降低了数据维度
20、从而克服维数灾难,对存储空间更能进行有效的应用。目前,数据降维算法主要应用在文档分类【5】,图像处理,人脸检澳jt6j,数据挖掘,基因序列检测,工业检测等领域。许多学者和研究人员在SCI和著名的期刊上发布了很多种关于数据降维方法的应用12,13171。12数据降维的含义121降维技术概述 一在机器学习和模式识别中,我们经常对大量的数据进行处理。由上节概述可知,目前这些数据都是高维度数据。如果我们不经过任何操作直接对这些数据进行处理,我们将会面临维数灾难(Curse of Dimensionality)和“集中现象【7】”(Concentration Phenomenon),“集中现象”揭露了样
21、本数据点之间距离的度量可区分性随着样本数据维度的增加反而减弱。如果直接对这些高维数据进行处理,因为这些复杂的维度信息并没有反映出数据的本质特征,我们就不会得到理想的实验效果。图1-1是采自维基百科中关于维数灾难的含义。根据图示,我们可知,随着特征维度的增加,实验最终的分类精度反而会大幅度降低。因此,首先对高维数据进行降维处理就显得尤为必要。先对高维数据进行降维处理,然后再在低维度上对数据进行操作。2万方数据安徽大学硕士学位论文 绪论O厂I:Optimal number of features图1-1维数灾难的定义(图像来自维基百科)Fig11 Meaning ofCurse ofDimensi
22、onality(Image from Wikipedia)如何从高维数据中发现存在于其中的对我们有用的关键信息给人们提出了挑战。降维的意义也即是通过寻求数据的低维表示,能够尽可能的发现隐藏在高维数据中的规律和特征之间的相互关联信息,使我们更好的理解数据。数据降维具有以下意义【8】:a)进行数据压缩,减少数据存储所需空间;b)去除特征中噪声的影响;C)从数据中提取特征以便于看清数据的分布;d)维度减少同时带来的是计算量的减少,从而减少计算所需时间;e)去除了不必要的冗余特征,提高模型性能。数据降维技术最经典的应用是在模式识别和机器学习问题中,进行关键信息的特征选择对于获得更好的分类和回归效果是有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 特征 选择 数据 算法 研究 余大龙
限制150内