基于粒化-融合的海量高维数据特征选择算法-冀素琴.pdf
《基于粒化-融合的海量高维数据特征选择算法-冀素琴.pdf》由会员分享,可在线阅读,更多相关《基于粒化-融合的海量高维数据特征选择算法-冀素琴.pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第29卷第7期2016年7月模式识别与人工智能PRAIV0129 No7Jul 2016基于粒化一融合的海量高维数据特征选择算法冀素琴 石洪波 吕亚丽 郭 珉(山西财经大学信息管理学院太原030006)摘要基于粒计算视角,提出粒化一融合框架下的海量高维数据特征选择算法运用BLB(Bag of Little Bootstrap)的思想,首先将原始海量数据集粒化为小规模数据子集(粒),然后在每个粒上构建多个自助子集的套索模型,实现粒特征选择,最后,各粒特征选择结果按权重融合、排序,得到原始数据集的有序特征选择结果人工数据集和真实数据集上的实验表明文中算法对海量高维数据集进行特征选择的可行性和有效性
2、关键词海量高维数据,特征选择,粒计算,套索(LASSO)中图法分类号TP 31113 DOI 1016451jcnkiissnl003-6059201607002引用格式冀素琴,石洪波,吕亚丽,郭珉基于粒化一融合的海量高维数据特征选择算法模式识别与人工智能,2016,29(7):590597Feature Selection Algorithm Based onGranulation-Fusion for Massive High-Dimension DataJI Suqin,SHI Hongbo,Lt2 Yali,GUO Min(Faculty of Information Manageme
3、nt,Shanxi University of Finance and Economics,Taiyuan 030006)ABSTRACTFrom a granular computing perspective,a feature selection algorithm based on granulation-fusion formassive and high-dimension data is proposedBy applying bag of little Bootstrap(BLB),the originalmassive dataset is granulated into s
4、mall subsets of data(granularity),and then features are selected byconstructing multiple least absolute shrinkage and selection operator(LASSO)models on eachgranularityFinally,features selected on each granularity are fused with different weights,and featureselection results are obtained on original
5、 dataset through orderingExperimental results on artificialdatasets and real datasets show that the proposed algorithmis feasible and effective for massivehigh-dimension datasetsKey Words Massive High-Dimensional Data,Feature Selection,Granular Computing,Least AbsoluteShrinkage and Selection Operato
6、r(LASSO)$国家自然科学基金项目(No60873100)、山西省自然科学基金项目(No20140110222,20130110164)、中国博士后科学基金面上项目(No2016M591409)资助Supposed by National Natural Science Foundation of China(No60873 100),Natural Science Foundation of Shanxi Province(No201401 10222,201301 10164)。General Program of China Postdoctoral Science Foundati
7、on(No2016M591409)收稿日期:20160208;修回日期:20160415;录用日期:20160421Manuscript received February 8,2016;revised April 15,2016;accepted April 21,2016万方数据第7期 冀素琴等:基于粒化一融合的海量高维数据特征选择算法 591Citation JI S Q,SHI H B,L0 Y L,GUO MFeature Selection Algorithm Based on GranulationFusion for Massive HighDimensional DataPa
8、uem Recognition and Artificial Intelligence,2016,29(7):590597特征选择作为数据分析、挖掘的预处理步骤之一,广泛应用于机器学习、模式识别等领域。7 J随着网络和数据采集技术的飞速发展,具有超高维数和海量规模的数据集不断涌现超高维数据通常具有大量冗余、无关特征,使得特征选择变得更重要而数据的海量规模极大影响特征选择的计算效率,有时普通微型计算机甚至无法装入全部数据因此,探索更高效、可行的面向海量高维数据的特征选择算法具有重要的理论和现实意义粒计算理论研究大数据分析的非精确解,在保证数据价值的前提下,缩小数据规模,将问题的输人从原始大数据集
9、转换为多个信息粒,大幅降低数据量旧J。应用粒计算理论进行大规模数据处理受到众多研究者的关注Yang等一1利用聚类技术粒化云平台上的大数据,在降低数据信息损失的同时,提高时间效率和资源利用率Ruan等叫针对大规模时间序列数据,使用模糊信息粒化方法进行粒化,在粒上运用支持向量机进行回归分析和预测,提高时间序列数据分析的速度Liang等1基于粒计算思想,运用随机抽样理论计算整个数据集上的方差,确定子集(粒)的规模,将大规模数据集划分成多个粒,在每个粒上进行特征选择,然后合并结果冀素琴等【_在文献5方法的基础上面向海量数据进行属性约减,改进粒化过程,运用分层抽样理论实现大数据集的粒化,减小粒化的计算复
10、杂度受上述研究的启发,本文提出基于粒化一融合的面向海量高维数据的特征选择算法,首先依据Kleiner等刈的BLB(Bag of Little Bootstrap)对海量数据进行粒化,相比文献5方法和文献7方法,大为简化粒化流程,然后在粒上运用目前较为通用的厶范数正则化方法进行特征选择,最后,融合各粒特征选择结果,在提高特征选择稳定性的同时,得到整个数据集上的特征选择结果人工数据集和真实数据集的实验表明本文算法对海量高维数据进行特征选择的可行性和有效性1 相关知识11 BLBBLB3是在经典的统计学抽样方法Bootstrap基础上进行改进的方法,它融合Bootstrap和二次抽样的优点,适合大规
11、模数据统计分析,具有较高的计算效率已知1个包含个数据的数据集X,0为关注的未知统计量从数据集X中无放回地抽取样本,得到P个样本量为商=y(o5r09)的子集茏(p=1,2,P),在每个样本子集戈。上进行蒙特卡洛模拟,即重复Q轮抽样,每轮抽样有放回地执行次,形成自助子集霹e(g=1,2,Q),在霹-上计算统 计量0的估计值0;,评估每个子集不上得到的Q个估计量0;,结果为弗,最终输出P个子集上的评估结果均值fBLB原理如图l所示,圆括号中符号表示相应的数据集中的数据个数图1 BLB原理Fig1 Principle of BLBKleiner等u指出,BLB继承Bootstrap的理论性质,并从理
12、论上证明其具备渐近一致性和高阶正确性相比Bootstrap,BLB具有许多计算上的优势:只需要重复计算原始数据的小子集,避免Bootstrap进行与原数据等数量级的重复估计计算;数据子集及自助子集的构建过程与数据的具体描述无关同时,BLB只需要较小的计算成本即能达到与Bootstrap同等的计算精度由此可见,运用BLB可以分解海量规模数据,形成较小规模的数据子集(粒),进而在粒上实现相应的数据分析和处理换言之,基于BLB对海量数据进行粒化处理可行12 套索经典的特征选择方法,如最小信息准则(Akaike Information Criterion,AIC)、贝叶斯信息准则(Bayesian I
13、nformation Criterion,BIC)等无法万方数据模式识别与人工智能 第29卷达到海量高维数据分析建模的要求,因为它们需要求解一个NP组合优化问题2|近年通用的套索(Least Absolute Shrinkage and Selection Operator,LASSO)成为解决上述问题的有效工具,LASSO是在回归系数的绝对值之和不超过某一常数的约束下,使残差平方和最小,进而产生一系列严格等于0的回归系数,得到可以解释的模型:台=arg min寺|1 YZXm#。”A 11#I|。,其中Y=(Yl,Y2,Y,v)1为真实标签,X。=(戈1。,戈2。,戈M)1为特征向量,卢R肘
14、为回归系数向量,A0为可M调参数,”0:为L:范数,11 9 0,=I卢。】为厶范数罚LASSO在实现自动特征选择的同时,还能直接估计特征在模型中的权重,相比过滤型和封装型框架下的特征选择,开销锐减,因此,LASSO成为近年备受关注的特征选择工具,这也是本文将LASSO作为粒特征选择算法的原因2粒计算视角下基于粒化一融合的特征选择算法面对海量高维数据带给传统特征选择算法的严峻挑战,基于粒计算视角,文章提出粒化一融合框架下基于BLB和LASSO的特征选择算法该算法主要分为3步:粒化,在粒上进行特征选择,融合各粒特征选择结果21粒化基于粒计算理论对大规模数据集进行特征选择15j,其中粒化过程中运用
15、统计学的随机抽样理论对原始大规模数据集进行拆分,在确定粒的大小时,需要计算整个数据集上的方差,对海量规模的数据集计算成本较高文献7方法实现海量数据属性约简,采用分层抽样理论粒化海量规模数据集在确定粒的大小时,仅需要计算各决策分块(相同类标签的数据为一决策分块)的数据方差,相比文献5方法,在降低计算成本的同时能得到更小的粒上述方法在统计学理论的指导下均能实现对海量数据的粒化,其缺陷是粒化过程需要较高的计算成本本文基于BLB实现海量数据粒化,粒的大小可以根据原始数据集的大小和给定的参数r直接计算得出,这将极大提高海量数据粒化效率,同时大为减少每个粒中包含的数据量,保证后续单机环境下粒特征选择的可行
16、性算法1粒化算法输入 样本容量为的数据集x输出P个粒戈。(p=1,2,P)step 1 P=1;while(I x I葡)随机无放回地从x中选取=Nr(05r09)个数据,表示为戈。;X=X一兄;P=P+l:step 2 P=Pl,返回P个粒,算法结束算法1实现粒化过程中涉及参数r,文献11给出r的取值范围,并通过实验得出一般取07较为合理,因此本文实验也采用此值对于粒的个数P,文献11并未给出明确的取值范围为使尽可能多的数据参与到运算中,文中P由数据集规模和粒的大小共同决定,即P=LNNr322 基于套索的粒特征选择在上述粒化操作完成的基础上,实施基于LASSO的粒特征选择LASSO基本思想
17、是通过惩罚回归系数的绝对值之和以压缩回归系数值,使某些特征的回归系数压缩为0,从而去除这些特征以实现特征选择3。Xu等41指出,稀疏算法通常不稳定,最终影响模型的泛化误差而集成学习是提高机器学习稳定性的常用方法因此,依据BLB原理,在每个粒上进行Q轮有放回抽样,每轮抽样执行次,得到Q个自助样本,这些自助样本由于来自同一个粒,既有一定的相似性,又有抽样造成的差异性,实质上就是通过数据扰动形成具有差异性的基学习器最后集成Q个自助样本特征选择结果时,采用将对应特征的系数求取平均值的方式实现,进而得到稳定的粒特征选择结果算法描述如下算法2 基于LASSO的粒特征选择算法输入 给定粒X。(p=1,2,P
18、)输出 戈。的特征选择结果F。万方数据第7期 冀素琴等:基于粒化一融合的海量高维数据特征选择算法 593step 1 在粒毫上得到Q个稀疏解:for 9=1 to Q在粒夏上进行次有放回抽样,生成自助样本集霹;在霹构建LASSO模型,解此模型得到特征选择结果E;step 2 集成Q个稀疏解E,得到粒X。特征选择结果F。:for m=1 to肘将Q个稀疏解中第m维特征系数求平均值;step 3 将M个平均值依次放入特征系数向量step 4 输出F。算法2首先在每个粒上进行Q轮抽样,而每轮抽样都要进行次,实质上是通过蒙特卡洛模拟使自助抽样子集的分布近似于原始数据集的分布与原始数据集相比,该自助子集
19、最多包含个数据,当N=1 000 000,N=J770=3 781,存储空问仅为原存储空间的04,这使后续运用LASSO实现特征选择时计算量减少step 2将O个自助子集上的M维特征选择结果进行集成,缓解直接在粒上运行LASSO造成的解的不稳定性的缺陷实际上,数据集中所有的特征值不可能都是连续型的,还会包括一些离散型特征对于离散型特征,统计学中一般将该离散型特征的各个值转换为一组虚拟特征处理,而这一组虚拟特征在特征选择过程中应该统一保留或剔除此种情况可以采用文献15给出的稀疏组LASSO模型实现粒特征选择23 粒特征选择结果融合上述得到的各粒特征选择结果需要进一步融合,以形成整个数据集的特征选
20、择结果在粒上利用LASSO进行特征选择,由于不同粒上惩罚系数不相等,导致同一特征在不同粒特征选择结果中受到的惩罚程度不同因此,在融合各粒特征选择结果时,考虑每个特征占其所在粒上所有特征回归系数的比重,即将每个粒上特征的回归系数进行归一化处理,消除同一特征在不同粒特征选择结果中因惩罚系数不同而造成的影响最终所有粒特征选择结果中特征的并集构成整个数据的特征选择结果,由不同粒结果中该特征的归一化回归系数相加得到特征系数假如某粒的特征选择结果为特征1、特征2、特征4、特征5,对应的回归系数分别为0。5、04、0。3、18,另一个粒特征选择结果为特征1、特征2、特征3、特征5,对应的回归系数分别为25、
21、08、33、12,那么在融合时,特征1、特征2、特征3、特征4、特征5将作为原数据集特征选择结果,各特征对应的系数为049、024、042、01、075,其中特征1的系数05 25i五百了五函而+曩五百虿函而2049算法3 融合算法输入 所有粒特征选择结果F。(p=1,2,P)输出 数据集x特征选择结果Fstep 1 F=矽,加。=0(W。为特征fa,m=1,2,M的系数)step 2for m=1 to Mfor P=1 to P对凡中第m维特征系数作归一化处理;累加归一化后的第m维特征系数到w。;step 3 依据W。的值对特征进行降序排列,置入F,step 4 输出数据集x特征选择结果F
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 融合 海量 数据 特征 选择 算法 冀素琴
限制150内