一种基于投影稀疏表示的基因选择方法.pdf
《一种基于投影稀疏表示的基因选择方法.pdf》由会员分享,可在线阅读,更多相关《一种基于投影稀疏表示的基因选择方法.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第32卷第8期2011年8月哈尔滨工程大学学报Journal of Harbin Engineering UniversityV01328Aug2011doi:103969jissn1006-7043201 10801 1一种基于投影稀疏表示的基因选择方法耿耀君,张军英(西安电子科技大学计算机学院,陕西西安710071)摘要:现有基于稀疏表示的基因选择方法通过回归类标的值确定基因的相关性对于同一个问题,类标的取值不同,对应的基因选择结果也不同针对这一问题,提出了一种基于稀疏表示基因表达数据一维投影的基因选择方法该方法用稀疏表示技术回归基因表达数据在其最可分的方向上的投影,并根据回归得到的基因集
2、的相关性向量选择基因,在6组基凶表达数据上的实验结果表明:所提方法的运行时间适中,选择的基因集识别率高的同时冗余度也比较低关键词:基因选择;稀疏表示;基因表达数据;间隔最大化判别分析中图分类号:TP391 文献标识码:A文章编号:1006-7043(2011)081024-05A gene selection method based on a sparse representation projectionGENG Yaojun,ZHANG Junying(School of Computer Science and Technology,Xidian University,Xikn 710
3、071,China)Abstract:Existing gene selection methods based on sparse representation determine the relevance of a gene by regressing the value of a class labelFor the same problem,the class label takes different values;the correspondinggene selection result is also differentTo solve this problem,a gene
4、 selection method based on sparse representationof a one dimensional projection of microarray gene expression data was proposedThe presented method used asparse representation technique to regress the projeetion in the most separable direction of microarray gene expression data,selecting genes accor
5、ding to the relevance vector which was obtained by regression for the gene setEx-pefimental results on six microarray gene expression data sets show that the running time of the presented method issuitable for gene selection and the gene set selected by the proposed method has not only a high recogn
6、ition rate butalso a low redundancyKeywords:gene selection;sparse representation;mieroarray gene expression data;margin maximizing discrimina-tion analysis微阵列技术可以在一次实验中标记成千上万个基因,为研究基因与疾病的关系提供了很好的基础,但基因表达数据往往样本数非常少而维数却非常高,且大多数基因与疾病没有关系传统统计学方法和机器学习方法直接处理这种数据时往往陷入了“维数灾难”的困境因此从成千上万个基因中选出一部分重要基因是进一步研究基因与
7、疾病关系的必要步骤目前基因选择方法大致可分为3类:Filter方法、Wrapper方法和Embedded方法。Filter方法选收稿日期:2010-05-30基金项目:国家自然科学基金资助项目(61070137);国家自然科学基金重点资助项目(60933009);陕西省科技攻关资助项目(2009K01-56)作者简介:耿耀君(1982一)。男,博士研究生,Email:gengyaojUllgmailcom;张军英(1961),女,教授,博士生导师通信作者:耿耀君,择基因时不依赖分类器,而是根据基因本身的特性来选择基因,它又分为单变量Filter方法和多变量Filter方法单变量Filter方法
8、通常采用某种度量评估基因集合中各个基因与类标的相关性,按相关性由高到低选择前M个基因作为选择结果悼引多变量Filter方法在选择基因的过程中同时考虑基因与类标及基因与基因之间的相关性m1 J由于它考虑了基因间的相关性,速度慢于单变量Filter方法Wrapper方法以分类器的识别率为指导,在全体基因集的所有子集中搜索,将获得最高识别率的基因子集作为选择结果坤J由于搜索空间巨大,Wrapper方法速度慢,容易产生过拟合Embedded方法将基因选择和分类器的训练融为一体,在训练分类器的同时选择基因,其效率界于Filter方法和Wrapper方法之间一。0|本文主要考虑单变量Filter方法文献1
9、112提出了一种基于稀疏表示技术的万方数据第8期 耿耀君,等:一种基于投影稀疏表示的基因选择方法 1025单变量Filter方法由于它稀疏表示的目标是类标的值,因此存在类标取值的不同,选择到基因也不同的问题为此本文提出基于基因表达数据稀疏表示其最可分方向的投影来选择基因的方法解决了文献1112所提方法受类标取值影响的问题在6组常用的基因表达数据上的实验结果表明了该方法的有效性1 间隔最大化判别分析SVM(support vector machines)是一种有坚实统计学理论基础的模式识别方法由于它可以找到数据的最优分类面且对数据的特征数不敏感,已被广泛应用于生物信息学的诸多方面H1 0J本文使
10、用的SVM的数学模型为、1 三mip寺|1 w II 22+C邑,stfyi(w1妒(工i)+6)1一孝i, (1)Lfi0,i=1,2,It间隔最大化判别分析是一种基于SVM的降维方法,它依次提取数据中的最可分分量1 5I第1个分量是SVM分类面的法方向,即式(1)中的W假设W。,W:,W。是间隔最大化判别分析提取的前t+1个分量且已被单位化,第t+1个分量可以通过求解式(2)获得mi9 ll w;+-旷+c蠡,。tf咒(以-妒(置)+6)1一直磊o, (2)twTwt+l=0,q 3 1,t式(2)只比式(1)多了个要求各分量相互正交的约束它也可以转化为个与数挢雉数无关的优化问题来求解因此
11、MMDA非常适合于,J峭率高维数据的特征提取2基于投影稀疏表示的基因选择方法本部分提出了基于投影稀疏表示的基因选择方法:GSPSR(gene selection based on projection sparse representa-tion)GSPSR假没基因表达数据是线性可分的,因此MM-DA中的核函数采用了线性核函数由于MI)A只适合于处理两类问题,因此下面将分两类和多类两种隋况介绍GSPSIL首先考虑两类问题假设s是通过MMDA求得的基因表达数届蜞最可分方向上的投影,则s和x的关系可以由下述线性模型表示:s=地 (3)将s作黼作为字典,希望找到个向量A,它尽可能的稀疏,即其0范数I
12、I口忆尽可能的小满足这一要求的口可以通过求解式(4)获得min II口II o subject to Xtr=s (4)式(4)可以用匹配追踪等算法求解,但由于它是一个非凸问题,很难找到全局最优解因此式(4)通常被转化为式(5),使得问题变成凸问题min 0 a 0 l subject to Xtr=s (5)式(5)可以用基追踪方法来求解考虑到效率问题,本文使用SPGLl方法钊来求解式(5)由式(5)得到稀疏系数向量口后,基因集的相关性向量茁可以通过式(6)求得左=abs(tr) (6)认为面(J1,2,p)的大小反映了第歹个基因与s的相关性程度,面的值越大,第J个基因的分类能力越强因此本文
13、方法根据面1,2,p从大到小的顺序排列对应基因,将前M个基因作为选择结果对两类问题的基因选择算法如下:GSPSR(B)算法:输入:微阵列基因数据x,类标Y。,Y2,Y。,选择基因个数M输出:m个基因过程:1)归一并中心化X2)用MMDA求解x在其最可分方向的投影s3)由式(5)求解稀疏系数向量m4)由式(6)求得基因集的相关性向量五5)根据茁(J1,2,P)从大到小的顺序排列对应基因,选择前肘个基因对于多类问题,用oneagainstall策略将一个蠡类问题分解成忌个两类问题对第i个两类问题,用MMDA将基因表达数据x投向对此两类问题来讲最可分的方向得到投影s。然后求解式(7)获得投影si的稀
14、疏系数向量啦rain ll啦0 sabject to Xtri=si (7)待得到所有的gigi后,由式(8)算出基因集的相关性向量k茁=罗abs(tri) (8)再对多类问题的基因选择算法如下:GSPSR(M)算法:输入:微阵列基因数据x,类标Y,Y2,Y。,选择基因个数M输出:肘个基因过程:1)归一并中心化置2)对第i(i1,2,|)个两分类问题:用MMDA求解x对第i个两类问题来讲最可分方万方数据1026- 哈尔滨工程大学学报 第32卷向的投影si3)对每一个Si=1,2,k用式(7)求解与其对应的稀疏系数向量啦4)由式(8)求得基因集的相关性向量茁5)根据面1,2,P从大到小的顺序排列
15、对应基因,选择前肼个基因3 实验结果及分析为了验证本文提出方法的有效性,将它与基于互信息的单变量Filter方法,以顺序向前选择为搜索策略,以SVM为分类器的Wrapper方法(实验中记为WrapSVM)和SVMRFE做了比较比较的方面包括:算法选择的基因集的冗余度,识别率和算法的运行时间WrapSVM和SVMRFE中的分量器使用了SVM,其核参数设为线性核,c的值通过10-折交叉验证设为100对于多类问题使用了oneagainstall策略为了减少WrapSVM和SVMRFE的计算量,在运行它们之前,首先用t检验选择l 000个与类标最相关的基因,然后在由选择的基因组成的数据上运行WrapS
16、VM和SVMRFE实验的软件环境是Mat-lab760,硬件环境是Xeon E5504,6G内存实验中用到的数据是:前列腺癌17】,白血病8|,肺癌【拇】,淋巴瘤川,小圆蓝细胞瘤211和脑癌引,它们的信魁娱泼息如表1所示表1实验数据集Table 1 Experimental data set31 基因集的冗余度比较GSPSR本质是通过将求解稀疏表示问题来确定基因的相关性的,这与其他3个方法确定基因相关眭的理念是不同的因此有必要比较4种方法选择基因集的冗余度,以进一步了解GSPSR选择的基因集的特性判断所选基因集冗余程度的准则如式(9)所示:_】Ifl 村RD=芝:2 mi(g;,g) (9)i
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 投影 稀疏 表示 基因 选择 方法
限制150内