特征选择技术在大数据背景下的挑战.docx
《特征选择技术在大数据背景下的挑战.docx》由会员分享,可在线阅读,更多相关《特征选择技术在大数据背景下的挑战.docx(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精品文档,仅供学习与交流,如有侵权请联系网站删除特征选择技术在大数据背景下的挑战1 介绍在一个增长的时代数据复杂性和体积和大数据的出现,特征选择扮演一个关键的角色在帮助降低高维机器学习问题。我们讨论最近的起源和特征选择的重要性和轮廓的贡献在一系列应用程序中,从DNA微阵列分析人脸识别。近年来大量数据集的创建,显然,这些只会继续增长的规模和数量。这个新的大数据场景特征选择的研究人员提供了机遇和挑战,随着越来越多的需要还可伸缩的有效的特征选择方法,考虑到现有的方法可能不够充分。“大数据”现象展现在我们面前,其转型自然是毫无疑问的。黎明之间的时间总共2003人类生成5艾字节的数据,到2008年这一数
2、字已经增加了两倍,至14.7艾字节。现在5 eb的数据产生每2相互产量持续上升的步伐。因为体积、速度数据的多样性和复杂性不断增加,机器学习技术已经成为不可或缺的为了从大量的否则无意义的数据中提取有用的信息。特征选择是一个机器学习的技巧(FS),即属性,允许一个问题是明确的选择,虽然无关紧要或冗余数据将被忽略。特征选择方法传统上被归类为过滤方法,包装方法或嵌入的方法1,尽管新方法,结合现有的方法或基于其他机器学习技术处理不断出现的挑战今天的数据集。在过去的几年里,特征选择已成功应用在不同的场景中涉及大量的数据,如DNA微阵列分析、图像分类、人脸识别、文本分类。但是,大数据的出现为研究者提出了前所
3、未有的挑战。本文概述了特征选择研究的热点,旨在鼓励科学界寻求和接受最近出现的新机遇和挑战。本文的其余部分组织如下。第二部分解释了为什么特征选择最重要的现在,第三节简要描述了特征选择的历史和评论最先进的方法,第四部分回顾最近的应用,第五节描述了特征选择的研究人员需要满足新兴挑战在未来几年,最后,第六节总结了纸。2 特征选择的必要性近年来,大多数企业和组织以一种系统化的方式存储大量的数据,但没有明确其潜在有用性的想法。此外,互联网的日益普及产生了许多不同的格式的数据(文本、多媒体等)和许多不同的来源(系统、传感器、移动设备等)。能够从这些数据中提取有用的信息,我们需要新的分析和处理工具。这些数据已
4、经生成最后几来我们继续每天生成的字节结构2。大的大数据量和超高维度现在各种机器学习应用领域的循环特性,文本挖掘、信息检索等3。温伯格et al。4,例如,协作的垃圾邮件过滤任务进行了一项研究有16万亿独特的特性,而谭et al .3的研究是基于广泛的合成和数以百万的真实数据集的数据点O1014特性。大型的数据集提出了一个有趣的挑战为研究社区;引用Donoho等。5“我们的任务是找到一个海里捞针,梳理相关信息大量堆过剩”。超高维度意味着巨大的内存需求和培训的高计算成本。泛化能力也被称为“维度”的诅咒。根据Donoho et al .5,贝尔曼在1957年创造了这个五彩缤纷的词来形容的困难优化通过
5、详尽的列举产品空间6。这个术语是指时出现的各种现象分析和组织数据在高维空间中(与成百上千的维度)不发生在低维的设置。数据集通常是由一个矩阵的行记录实例(或样品)和列的属性(或特性)代表手边的问题。为了解决维数问题,找到“窄”的数据集可以概括矩阵在某种意义上接近于原始。因为这些窄矩阵有一个小数量的样品和/或特性,它们可以更有效的利用比原来的矩阵。找到这些狭窄的矩阵的过程称为降维。超高维度不仅带来难以忍受的内存需求和高计算成本的培训,而且恶化的泛化能力,因为“诅咒维度”的问题。根据5,1957年贝尔曼6创造了丰富多彩的项维度的诅咒,在优化的难度通过详尽的列举产品的空间。这种现象出现在分析和组织不发
6、生在低维的数据在高维空间的设置。任何数据集通常是由一个矩阵的行记录的实例或样本和列的属性/功能要求代表手边的问题。因此,解决维数问题的诅咒,数据集可以总结为发现“窄”矩阵,在某种意义上接近于原始。这些狭窄的矩阵只有少量的样品和/或少量的属性,因此可以更有效地比原来的大矩阵。找到这些狭窄的矩阵的过程称为降维。特征提取是一种降维技术,解决了问题,找到最紧凑和丰富的功能对于一个给定的问题,提高数据存储和处理效率。特征提取的步骤分解为建设和选择。功能施工方法补充人类专家在“原始”数据转换成一组有用的功能使用预处理变换过程如标准化、规范化,离散化,信号增强,局部特征提取。一些施工方法不改变空间维度,而其
7、他扩大,减少或两者兼而有之。不丢失信息是至关重要的在施工阶段的特征;第二,Elisseeff7建议最好总是宁可过于包容而不是丢弃有用的信息的风险。增加功能看似合理但这是要付出代价的:模式的维度的增加带来损失的风险相关信息的可能无关紧要,嘈杂的或冗余的特性。特征选择方法的目标是减少数量的初始特征,选择一个子集保留足够的信息来获得令人满意的结果。在一个社会,需要处理大量的数据和特性在各种各样的学科,目前迫切需要解决必不可少的特征选择问题。要理解,研究人员所面临的挑战,下一节将简要描述特征选择的起源和最近的贡献。3一个简短的历史特征选择的过程被定义为检测相关特性和丢弃不相关和冗余特性获取的目标特性的
8、一个子集,准确地描述一个给定的最低性能退化的问题1。从理论上讲,有大量的输入特性似乎是可取的,但维度不仅是一种内在的诅咒的高维数据的问题,但更多的联合数据和算法的应用问题。出于这个原因,研究人员开始在预处理阶段选择特性,试图将他们的数据转换成一个低维的形式。第一个特征选择的研究可以追溯到1960年代8。休斯9使用一种通用的参数模型来研究贝叶斯分类器的精度的函数特性,得出结论如下:“测量选择,不像发达技术。提出了减少和组合相反,它们是说明了一个框架,用于进一步的调查”。此后,特征选择的研究提出了许多挑战,一些研究者高度怀疑进展;在“米勒博士的论文讨论”10,例如,RL的管理者说:“如果没有解决变
9、量消除高速计算的帮助下经过两年的工作,那么也许是时候将焦点转移到其他问题”。在1990年代,著名的进步是在特征选择用来解决机器学习问题(11 - 13)。如今,特征选择是承认起到至关重要的作用在减少实际问题的维数,可以在越来越多的出版物在这个问题(1、7、14、15)。开发的新的特征选择方法在过去几个decades-classified过滤器、包装或嵌入方法是基于特征选择算法之间的关系和归纳学习方法用来推断模型1。特征选择方法也可以根据个人评价和子集分类评价方法16;former-also称为特性排名评估的特征通过分配权重根据相关性,而后者产生候选特征子集基于一个特定的搜索策略随后评估的一些措
10、施。鉴于其能力提高学习算法的性能,特征选择吸引了机器学习领域的兴趣越来越浓,在集群等过程(17、18),回归(19、20)和分类(12、21),是否监督或无监督。可用的众多特征选择算法,一些已成为研究人员中非常流行。表1简要列出了最常用的特征选择方法,表明他们是否单变量或多变量,是否返回一个排名或子集,原出版参考和计算复杂性(其中n是样本的数量和m是功能)的数量。这些广泛使用的方法是特征选择的艺术的状态。多元方法通常比单变量方法来获得更好的结果,但在更大的计算成本。没有统一的方法,因为每个更适合特定类型的问题。以前的工作32,我们回顾了一些先进的算法的性能在一个人工控制的情况下,检查他们的效率
11、在处理等问题之间的冗余特性,非线性、噪声的输入和输出和更多的功能比样品(如发生在DNA微阵列分类)。表2总结了我们的结论(星号意味着更好的适合一个给定的问题)。注意,版本的SVM-RFE线性和非线性内核进行了测试,但后者(SVM-RFE-nl) 不是申请计算与成千上万的理由一个场景功能。ReliefF,一个很好的选择独立问题的特殊性,著称的健壮和能够处理不完整和嘈杂的数据。它可以被应用在大多数情况下,较低的偏见,包括之间的交互特性,可以捕捉当地依赖其他方法可能小姐SVM-RFE也表现良好,虽然其计算复杂度可以防止使用非常高维数据集,特别是当使用非线性的内核。mRMR也表现可接受除了与大量数据集
12、的特性。尽管该产品的研发得到了去除冗余的概念,mRMR无法丢弃冗余特性实验的人造DNA微阵列数据集,冗余是一个承认的问题。最后,可怜的相关性和冗余的结果得到与慢性疲劳综合症、一致性、互动与流行的畜栏InfoGain评估数据集,它有四个二进制值预测和类,所需的额外特性相关的类标签75%。这四个方法选择相关功能但丢弃的四个真正相关的特性。然而,它们非常有效地不选择冗余特征与成千上万的面对场景特性32。可以看到,现有特征选择方法有其优缺点。请注意,计算时间不是我们之前考虑的分析32。然而,如今这个因素起着至关重要的作用在大数据问题。一般来说,单变量方法有一个重要的可伸缩性优势,但代价忽视功能依赖和有
13、辱人格的分类性能。相比之下,多元技术提高分类性能,但其计算负担往往意味着他们不能被应用到大数据。很明显,特征选择研究人员需要适应现有的方法或提出新的为了应对大数据的爆炸带来的挑战(第5部分中讨论)。4最近的贡献人们不断地开发出新的特征选择方法有广泛的套件提供给研究人员。下面我们评估最近的事态发展在解决高维问题等领域的集群(33、34),回归第35 - 37()和分类(38、39)。使用不同的功能类型和组合成为今天的许多真实的应用程序的标准,导致爆炸一个名副其实的特性给出计算和信息技术的飞速发展2。传统上,由于处理非常高维数据的必要性,大多数新特征选择方法过滤方法。尽管如此,嵌入的方法增加了流行
14、在过去的几年里,因为它们允许同时特征选择和分类(40-42)。至于包装方法,这些得到的关注更少,由于沉重的计算负担和过度拟合的高风险样本的数量是不够的。还有一个趋势结合算法,以混合的形式方法43-46或合奏47-51。除了我们自己的审查32,说在前面的小节中,其他作品回顾了使用最广泛的特征选择方法,过去的几年里。莫利纳等。52评估基本特征选择算法的性能在控制的情况下,考虑到数据集的相关性,无关和冗余。Saeys等。53创造了一个经典的基本分类特征选择技术,讨论他们在生物信息学的应用程序使用。华等。54在设置一些基本的特征选择方法相比涉及成千上万的特性,使用基于模型的合成数据和实际数据。布朗et
15、 al。55提供了一个统一框架理论特征选择的信息,带来了近二十年的研究启发式过滤标准在一个单一的理论的保护伞之下。最后,加西亚et al。56专用的数据预处理的书一章讨论特征选择和分析其主要方面和方法。另一个观点是专注于特定的问题时,获得与研究人员应用不同的特征选择技术,以提高性能。在这种情况下,方法是高度依赖于手头的问题。最具代表性的应用程序下面讨论。4.1。应用程序特征选择方法目前被应用于不同领域的问题。下面我们描述的一些最受欢迎的应用推广这些方法的使用。4.1.1。微阵列分析DNA微阵列基因表达差异的用于收集信息组织和细胞样本,可以用于疾病诊断或区分特定类型的肿瘤。样本容量通常是小(通常
16、少于100名患者)但原始数据测量基因表达集体的特性可能从6000年到60000年。在这种情况下,特征选择不可避免地成为一个必不可少的预处理步骤。最早的在这一领域的研究工作,在2000年代53,主要是单变量范式(57-59),这是快速和可伸缩的,但忽略了特征依赖性。然而,一些与多元方法也尝试,因为这些可以依赖模型特性,尽管他们是慢,可伸缩低于一元技术32。多变量筛选方法(60 - 63)和使用更复杂的技术,如包装和嵌入式方法64 - 67。一个完整的回顾最新的特征选择方法用于微阵列数据可以在68,这表明自2008年以来许多贡献属于过滤器一类,主要是基于信息理论(见图1)。包装器方法在很大程度上避
17、免了由于沉重的计算资源的消费和过度拟合的高风险。尽管嵌入式方法没有收到关注婴儿的微阵列数据分类,近年来出现了几点建议。最后,值得注意的是,最近的文献揭示了倾向于结合算法混合或合奏方法(图1中表示为“其他”)。4.1.2。图像分类影像分类已成为一个热门研究领域,鉴于需求有效的方法对图像分类进行分类。图像特征的数值属性通常是分析来确定自己属于哪一类。与最近图像捕获和储存和互联网技术的进步,大量的图像数据已成为向公众开放,从智能手机照片收藏网站甚至视频数据库。自图像处理通常需要大量的计算机内存和权力,特征选择所需的功能可以帮助减少为了能够正确分类的图像。尽管数据证明的爆炸特征选择适当的技术来处理数以
18、百万计的图像,需要清楚地知道哪些特性提取每个像素出现几十年前。这个领域的一个常见问题是,文学是指许多模型从一个给定的图像,提取纹理特征,如马尔可夫随机域和同现的特性。然而,随着Ohanian杜布指出69,没有普遍的最佳特征子集。出于这个原因,特征选择的任务必须是特定于每个问题,以决定使用哪种类型的特性。Jain和Zongker70随后也试图确定合成孔径雷达图像的分类错误率可以减少通过特征选择一组18特性来自四个不同的纹理模型为每个像素。最近,几个过滤器被应用于特征提取与五种不同的纹理分析技术71,尽管如此,在这种情况下,作者并没有那么多感兴趣使用哪个纹理特征,而是在减少计算时间必要提取特征。当
19、特征提取和加工的数量降低,所需的时间也减少了在一致,这通常可以实现用最小的性能下降。特征选择也适用于自动图像标注。提出了两种加权特征选择算法(72、73)帮助聚类算法处理大量数据的维度和实现扩展到大量的关键词。高et al。74杨和金75引入了一个解决方案基于分层特征选择算法解决问题的自动特征提取和图像分类器训练和特征子集的选择,使用多分辨率网格框架和增强算法支持向量机在高维特征空间中,分别。陆等。76后提出了一个遗传算法包装器方法来选择MPEG-7特征描述符。与此同时,小和鲁格77提出了一种非参数密度估计算法评估方法的特征子集。最近,马云等。78提出了一种新颖的方法,基于sparsity-b
20、ased模型,共同选择最相关的特征从所有数据点同时发现共享子空间的原始特性(有利于多标记学习)。4.1.3。人脸识别识别人脸是一个复杂的视觉识别的问题。在过去的几十年里,人脸识别已成为最活跃的研究领域之一,由于其众多的商业和法律应用程序。一个常见的应用程序是确定或验证一个人从数字图像或video-sourced框架通过比较选定的面部特征的图像与面部特征数据库。在这个领域一个重要的问题是确定哪些图像特性最信息用于识别目的。不幸的是,这不是简单的任务,因为存在冗余对象图像;此外,面部数据库包含大量特性但减少数量的样本。特征选择算法对人脸识别最近被建议作为一种方法来解决这些问题。特征选择的过滤方法是
21、一种常见的选择,主要是由于其低计算成本与包装或嵌入方法。杨et al。79提出的方法基于物理意义的广义费舍尔则为了选择最歧视特性识别。陆等。76提出了一个新颖的方法来选择一个子集包含最基本的原始特性的信息;叫主特征分析(PFA),它类似于主成分分析(PCA)方法。德马托斯et al。80介绍了人脸识别的方法基于离散余弦变换(DCT)系数的选择。最近,李et al。81引入了一个新的彩色人脸识别方法,使用顺序向前浮动搜索(设定触发器)获得一组最优颜色组件用于识别目的。同样值得注意的是,一些提出的方法基于进化计算技术被证明是成功的在这个领域(82 - 85)。4.1.4。文本分类文本分类的目标是对
22、文档进行分类为固定数量的预定义的类别或标签。这个问题已经成为垃圾邮件检测特别相关的互联网应用和购物和拍卖网站。每一个独特的词在文档中被认为是一个特性。然而,因为这意味着输入特性远比示例(通常超过一个数量级),有必要选择词汇的一小部分,所以允许学习算法减少计算,存储和/或带宽需求。预处理阶段通常是应用特征选择之前消除难得单词和单词形式,如复数和动词结合合并到相同的术语。有几种方法可以表示特性值,例如,一个布尔值来指示如果存在一个词或缺失或包括词的出现次数计数。即使这个预处理步骤中,在文档中可能的单词数量,可能仍然很高,所以特征选择是至关重要的。许多技术已经开发和应用于近年来这个问题。福尔曼86提
23、出了一种新颖的特征选择度量,叫做bi-normal分离(bn),它是一个有用的启发式增加使用时可伸缩性与包装技术的文本分类。金等。87几种新颖的特征选择方法应用于集群数据,而Dasgupta et al。88提出了一种无监督特征选择策略,从理论上保证了泛化能力的分类函数的分类函数基于的所有特性。福尔曼89进行一系列的过滤器应用于二进制、多级和分层的文本分类问题,尤其关注可伸缩性。Ug是乌斯43随后提出一个两阶段的文本分类特征选择方法使用InfoGain,PCA和遗传算法,获得较高的分类效果有两个经典的基准数据集。商等。90最近提出了一个新颖的指标称为全球信息增益(演出),避免了冗余自然,还介绍
24、了一种有效的全球信息增益特征选择方法称为最大化(MGIG),已被证明是有效的特征选择的文本域。最近,Baccianella等。91提出了六个小说专门为顺序设计的文本分类特征选择方法。可以看到,大多数机器学习方法可以利用的特征选择预处理的目的,因为它通常提高模式识别的精度,降低了计算成本。我们的简短回顾了特征选择的应用程序更受欢迎,但文学作品描述了许多更多的应用领域,包括入侵检测9293和机械故障诊断。5 热点:特征选择下一个什么?这篇文章开始提到的,计算机技术的不断进步使研究人员和工程师收集数据速度越来越快。解决的挑战,分析这些数据,特征选择成为一个必要的预处理步骤,需要适应和改进能够处理高维
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 特征 选择 技术 数据 背景 挑战
限制150内