基于邻域粗糙集与鱼群智能的基因选择方法.pdf
《基于邻域粗糙集与鱼群智能的基因选择方法.pdf》由会员分享,可在线阅读,更多相关《基于邻域粗糙集与鱼群智能的基因选择方法.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 第 47 卷 第 1 期 电 子 科 技 大 学 学 报 Vol.47 No.1 2018年 1月 Journal of University of Electronic Science and Technology of China Jan. 2018 基于邻域粗糙集与鱼群智能的基因选择方法 陈玉明1,2,朱清新2,曾志强1,孙金华1,唐朝辉1,2(1. 厦门理工学院计算机与信息工程学院 福建 厦门 361024; 2. 电子科技大学计算机科学与工程学院 成都 611731) 【 摘要 】 针对高维、小样本及不确定性的基因表达数据,融合模糊可容忍性的邻域粒化技术与具有全局寻优能力的鱼群智能
2、算法,提出基于邻域粗糙集与鱼群智能的基因选择方法。首先,采用邻域粗糙集对基因数据进行邻域粒化,形成邻域粒子;其次,提出基于邻域分类精度的不确定性评价函数,用以评价邻域粒子的不确定性,分辨关键性基因;进一步融合鱼群智能方法,设计一种基因选择算法,选取分类性强的少量关键基因;最后,在两个癌症基因数据集中进行基因选择,采用 SVM分类器对获取的关键基因组进行分类实验。实验结果表明,采用该方法获取的基因组具有较低的冗余度及较好的分类性能。 关 键 词 鱼群算法 ; 基因选择 ; 粒计算 ; 邻域粗糙集 ; 粗糙集 中图分类号 TP181 文献标志码 A doi:10.3969/j.issn.1001-
3、0548.2018.01.015 Gene Selection Method Based on Neighborhood Rough Sets and Fish Swarm Intelligence CHEN Yu-ming1,2, ZHU Qing-xin2, ZENG Zhi-qiang1, SUN Jin-hua1, and TANG Chao-hui1,2(1. School of Computer and Information Engineering, Xiamen University of Technology Xiamen Fujian 361024; 2. School o
4、f Computer Science and Engineering, University of Electronic Science and Technology of China Chengdu 611731) Abstract Facing the gene expression data with high dimension, small samples and uncertainty, a gene selection method based on neighborhood rough sets and fish swarm intelligence is proposed b
5、y fusing a fuzzy tolerance granulation technology and a fish swarm intelligence algorithm with global optimization ability. Firstly, the neighborhood rough sets are used to granulate the gene data and form some neighborhood particles. Secondly, the neighborhood classification accuracy is presented a
6、s an uncertainty evaluation function that aims to judge these neighborhood particles and distinguish key genes. Furthermore, a gene selection algorithm based on artificial fish swarm intelligence is designed. Finally, some gene selection experiments are carried out on two tumor gene data sets. The c
7、lassification experiments of a small number of selected key genes are conducted by using SVM classifier. The experimental results show that the genes selected by our proposed method have a low redundancy and a better classification performance. Key words fish swarm algorithm; gene selection; granula
8、r computing; neighborhood rough sets; rough sets 收稿日期: 2016 - 11 - 28;修回日期: 2017 - 03 - 30 基金项目:国家自然科学基金 (61573297);福建省自然科学基金 (2015J01277) 作者简介:陈玉明 (1977 - ),男,博士,副教授,主要从事粗糙集、基因数据分析及特征选择方面的研究 . 微阵列技术的快速发展积累了大量的基因表达数据。基因表达数据具有高维、小样本及不确定性的特点。用传统的统计分析方法与机器学习方法选择最佳基因时,往往陷入维数灾难的困境1。基因选择是从众多的基因中选择一个基因子集使得
9、基因样本分类最优化。基因子集的评价依赖于具体的评价函数。根据评价函数的不同,基因选择方法主要分为两类: Filter方法 (筛选器 )2和 Wrapper方法 (封装器 )3。 Filter方法不依赖于具体的分类器,根据度量准则筛选出最优的基因子集。常用的度量方法有 t检验4、信息增益5、距离度量6、相关性分析7等。依据上述度量方法评估每个基因或多个基因与类别的相关性,按照相关性从高到低排序,选择排在前面的少数基因作为最佳基因组。这类方法简单、时间复杂度低,但没有考虑基因的分类性能,使得选择后的基因子集冗余度高, 分类精度不是特别理想。Wrapper方法以分类精度为评价标准, 在所有的基因子集
10、中搜索,以分类精度最高的基因子集作为基因选择的结果。按照搜索策略的不同,基因选择可分为前向选择8、后向删除9、启发式搜索10等算法。Wrapper方法获取的基因子集分类性能较好,冗余度低,但时间复杂度较高,存在过拟合的现象。 万方数据 电 子 科 技 大 学 学 报 第 47 卷 100粒计算是智能信息处理的一种新方法,涵盖粗糙集11、邻域粗糙集12、模糊集13、商空间14、覆盖粗糙集15等理论,能够处理不同粒度层次上的不精确、不完整与不确定的数据。邻域粗糙集以 邻域构造上下近似集来度量一个不确定性的集合。文献 16提出了基于邻域粗糙集的邻域分类算法, 并把该方法应用于特征选择领域12。文献
11、5研究了模糊粗糙集的不确定性度量,并成功应用于癌症基因的选择。文献 17研究了邻域粗糙集与神经网络模型,并用于基因表达数据的分类研究。 文献 18提出的鱼群算法具有并行性、跟踪性、随机性、简单性的特点,是一种解决全局优化问题的有效工具。这种方法模仿自然界鱼群觅食行为,采用自下而上的寻优模式,通过鱼群中各个体的局部寻优,使得全局最优值在群体中突现出来。 面对高维、冗余、不确定性的基因表达数据,需要降低基因数据的复杂性,建立具备并行计算能力的基因选择理论与方法。为此,针对基因数据分析系统存在的维数灾难与不确定性问题,提出了基于邻域粗糙集与鱼群智能的基因选择方法。采用邻域关系粒化连续型的基因表达数据
12、,利用鱼群智能算法提高基因选择的并行处理能力与寻优能力,设计基于邻域粒化与鱼群智能的基因选择算法。在两个高维基因数据集上进行基因选择,并对选择的基因进行了分类实验。 1 邻域粗糙集粒化与基因选择 对于广泛存在的连续型基因数据分析系统,引入邻域粗糙集模型16粒化连续型的基因数据,用于基因选择领域。 定义 1 设五元组 IS (,)UAVf= 为邻域基因表达数据系统,其中 U 为基因样本集, A表示有限个基因,aA aVV= ,aV 表示基因 a 的表达水平值域, :f UA V是一个信息映射函数,即对,x Ua A ,有 (,)af xa V , 0,1 为邻域粒化参数。 定义 2 设五元组 I
13、S (,)UAVf= 为邻域基因表达数据系统,对于任一基因样本 ,x yU , 基因子集 BA ,其中 B=a1,a2, ,an,定义 B 上的距离函数 (, )BD xy满足如下条件: 1) ( , ) 0BDxy, 非负; 2) ( , ) 0BDxy= , 当且仅当 x y= ; 3) ( , ) ( , )BBD xy D yx= , 对称; 4) ( , )BD xy+ (,) (,)BBD yz D xz ,三角不等式。 其中1/1(, ) (| (, ) (, )|)pnpBiiiDxy fxa fya=-,当 1p = 时,称为曼哈顿距离,当 2p = 时,称为欧氏距离。 定义
14、 3 设五元组 IS (,)UAVf= 为邻域基因表达数据系统,对于任一基因样本 x U ,基因子集 BA ,定义 x在 B 上的 邻域 ()Bnx为: () | , , (, ) BBnx yxyUDxy= 根据距离函数的定义,邻域 ()Bnx满足性质: 1) ()Bnx ; 2) ()Bx nx ; 3) ()Bynx ()Bx ny ; 4) ()xU Bnx U= 。 定义 4 设五元组 IS (,)UAVf= 为邻域基因表达数据系统,任一基因子集 BA 决定了一个邻域参数 上的邻域关系 NR ( )B: NR ( )B= ( , ) | ( , ) Bxy U U D xy 。 /N
15、R ( )UB构成了 U的一个邻域划分,称其为 U 上的一簇邻域知识,其中邻域划分的子集称为一个邻域类或者邻域知识。上述邻域 ()Bnx即为一个邻域类。 定义 5 设 DT ( , , , , )UC DV f= 为邻域基因表达数据决策表,其中 C 为基因集合,其值为连续型的数据,邻域参数为 ,其邻域划分为12/NR ( ) , , , mUCXXX= , D 为决策分类信息,为离散型的数据,以等价关系划分为12/,nUD YY Y= 。 定义 6 设 DT ( , , , , )UC DV f= 为邻域基因表达数据决策表, BC , XU , 记 /NR ( )UB= 12, , ,iBB
16、B , 则称*() | /NR(),iiBX BB U B= iBX 为 X 关于 B 的邻域下近似集,称*()BX= | /NR(), ii iBB U BB X 为 X 关于 B 的邻域上近似集。 定义 7 设 DT ( , , , , )UC DV f= 为邻域基因表达数据决策表。定义 D 对 C 的邻域分类精度为*() | ()| |CD CD U = ,其中 |U 表示集合 U 的 基数。 定义 8 设 DT ( , , , , )UC DV f= 为邻域基因表达数据决策表,对 bBC ,若 ()BD ()BbD-,则称 b 为 B 中相对于 D 是必要的;否则称 b 为 B 中相对
17、于 D 是不必要的。对 BC ,若 B中任一元素相对于 D 都是必要的,则称 B 相对于 D是独立的。 定义 9 设 DT ( , , , , )UC DV f= 为邻域基因表达数据决策表, 若 BC , () ()BCD D = 且 B相对于 D 是独立的,则称 B 是选取的关键基因组,万方数据 第 1期 陈玉明,等 : 基于邻域粗糙集与鱼群智能的基因选择方法 101 这一过程称为邻域基因选择。 性质 1 设 DT ( , , , , )UC DV f= 为邻域基因表达数据决策表,若12BB C ,则120() () ()1BB CDD D 。 根据定义 9可知, 基因选择过程即是保持邻域分
18、类精度不变的基因冗余降低过程, 性质 1说明邻域分类精度具有单调性的特点。 关键基因组可能有多个,其中基数最小的为最优关键基因组, 其冗余度最小。最优关键基因组的计算与搜索过程是一个典型的优化问题,可采用启发式搜索方式求解,但容易陷入局部最优。因此,下面引入鱼群智能优化原理,用于最优关键基因组的搜索过程。 2 基于鱼群智能的基因选择方法 2.1 鱼群智能优化原理 基因表达数据集具有高维的特点,设基因表达数据集有 n个基因, 则基因的组合就达到 2n种方式,搜索空间达到指数级别。采用穷举法搜索出最优的关键基因组,显然是不可行的。而启发式贪婪搜索方法却很容易陷入局部解。鱼群算法具有较好的全局寻优能
19、力与优越的并行计算的特点18,因此,有必要采用鱼群算法搜索出最佳的关键特征组。 鱼群算法是一种模拟鱼群觅食行为的群智能算法,主要涉及鱼群的 3种行为:觅食行为、聚集行为与追尾行为18。 1) 觅食行为 鱼觅食时总是在自己可视的邻域范围内往食物浓度高的地方游动。觅食行为数学上表示如下: next( ) , FS FS| |jiijijiXXXXRSXX-=+ -, next()iXXRS=+ 式中,iX 表示一条鱼所处的 i 位置,代表目前的解;nextX 表示鱼要选择的下一个位置,表示下一个更优的解; ()RS 表示随机移动步长; FSi表示位置 i 的食物浓度。 如果满足 FS FSj i
20、, 则鱼向食物浓度高的 j位置的方向上游动一步,否则,向随机方向游动一步。 2) 聚集行为 鱼聚集时总是在自己可视的邻域范围内往鱼群的中心位置游动,条件是中心位置食物浓度高且并不拥挤。聚集行为数学上表示如下: next() , FS FS| |ciiciciXXXXRSXX-=+ -, and /snn-, and /snn=3) 评价函数 基于鱼群优化的基因选择算法中,每条人工鱼分头并行去寻找最优基因子集。基因子集的评价采用邻域分类精度与基因子集长度的加权值作为评价函数,定义如下: 万方数据 电 子 科 技 大 学 学 报 第 47 卷 102|fitness( ) * ( ) (1 )|R
21、C| RXDC =+-式中, |C 表示所有的基因个数; |R 表示选择的基因个数; 0,1 表示权重参数。 4) 搜索停止过程 最佳关键基因组的搜索过程是一个不断迭代的过程,每次迭代随机生成 k 条人工鱼,分头去寻找局部最优解,迭代一次完成后获得暂时的全局最优解, 当迭代次数达到最大值或全局最优解连续 3次迭代都不再进化时,搜索关键基因组过程停止,输出全局最优解。 2.3 基于邻域粒化与鱼群智能的基因选择算法 根据邻域粗糙集理论和鱼群智能搜索原理,提出基于邻域粗糙集与鱼群智能的基因选择算法,具体描述如下: 算法 1 NFSAGS (neighborhood and FSA based gen
22、e selection) 输入: 基因表达数据集 DS ( , , , , )UC DV f= ,最大迭代次数 maxcycle 。 输出: 最优关键基因组 minR 及基因个数 minL 。 1) 初始化 minRC= , min |C|L = ; 2) 对基因表达数据进行邻域粒化,形成粒域类,并计算邻域正域 POS ( )CD; 3) 计算邻域分类精度 ()CD = |POS ( ) | | |CD U; 4) 若迭代次数 t 小于 maxcycle 或者未达到满意解,则循环执行如下操作: 产生 k 条人工鱼,kR = ; 每条人工鱼分别随机选择一个基因ka ,kkkRRa= ; 每条人工
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 邻域 粗糙 鱼群 智能 基因 选择 方法
限制150内