2010研究生数学建模(A题).pdf
《2010研究生数学建模(A题).pdf》由会员分享,可在线阅读,更多相关《2010研究生数学建模(A题).pdf(41页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 全全全全国国国国第第第第七七七七届届届届研研研研究究究究生生生生数数数数学学学学建建建建模模模模竞竞竞竞赛赛赛赛 题 目 基于 SVM 和 LDA-GA 的基因图谱信息提取方法的研究 摘 要: 本文针对提取基因图谱信息的问题,运用浮动顺序搜索算法、RBF 支持向量机和遗 传线性判别算法(LDA-GA)等方法,在不处理噪声、降噪以及融入其他有价值的信息 三种条件下分别建立能够有效提取样本基因图谱信息的模型, 并利用样本数据针对每种 条件下得到的基因“标签”的分类能力进行测试和分析。 针对问题 1, 首先以 Bhattacharyya 距离为评价函数, 对样本中 2000 个基因进行无关 基因的
2、剔除,得到 388 个信息基因;然后,在信息基因集合中,根据浮动顺序搜索算法 搜索得到 35 个候选分类特征子集,为问题 2 中基因标签的筛选提供必要条件。 针对问题 2,根据样本数据,利用候选分类特征子集对 RBF 支持向量机进行训练, 采用“留一法”和“独立测试实验”对所建支持向量机进行测试。通过对测试结果的分 析与评价,筛选出具有最佳分类效果的特征子集,作为基因“标签”。通过实验得到的 基因“标签”为 7 维向量。 针对问题 3, 分析 NT_I 及 NT_两类噪声, 建立噪声模型并对样本数据进行降噪处 理。运用处理后的样本数据,确定新的基因“标签”。实验结果表明,新的基因“标签” 具有
3、更高的分类精度。 针对问题 4,根据有助于诊断肿瘤的相关信息,利用 LDA-GA 方法对有价值的生理 基因进行筛选得到最优生理基因向量,与候选分类子集组合形成广义候选分类子集,并 通过支持向量机对其筛选,确定广义基因“标签”。实验结果表明,广义基因“标签” 为 4 维向量,且具有更佳的分类效果。 关键词:Bhattacharyya 距离,浮动式顺序搜索算法,RBF 支持向量机,NT_I 及 NT_ 噪声模型,LDA-GA 算法 参赛队号 队员姓名 参赛密码 (由组委会填写由组委会填写) 2 一一、 问题重述问题重述 癌症起源于正常组织在物理或化学致癌物的诱导下,基因组发生的突变。而基因在 结构
4、上发生碱基对的组成或排列顺序的改变,更改了基因原来的正常分布。因此,探讨 基因分布的改变与癌症发生之间的关系具有深远的意义。 DNA 微阵列是指固定有称之为探针的核苷酸序列的固体基片或膜,它是能够快速、 高效地检测 DNA 片段序列和基因表达水平的新技术。根据核苷酸分子在形成双链时所 遵循的碱基互补原则,可以检测出样本中与探针阵列中互补的核苷酸片段,从而得到样 本中关于基因表达的信息,即基因表达谱。随着大规模基因表达谱技术的发展,已经获 得人类各组织的正常的基因表达谱,为各类病人的基因表达谱提供了参考基准。如果可 以在分子水平上利用基因表达谱准确地辨别是否患有肿瘤, 对诊断和治疗肿瘤具有重要
5、意义。因为正常人和肿瘤患者均具有其基因的特征表达谱,所以从 DNA 微阵列测量的 成千上万个基因中找出决定样本类别的一组基因“标签”,即“信息基因”,能够从分 子水平上准确识别是否患有肿瘤,且为医学诊断、简化实验分析及抗癌药物研制提供便 捷和帮助。 然而,由于基因数目很大,在判断肿瘤基因标签的过程中,需要剔除掉大量“无关 基因”,从而大大缩小需要搜索的致癌基因范围。事实上,在基因表达谱中,一些基因 的表达水平在所有样本中都非常接近,可以认为这些基因与样本类别无关,没有对样本 类型的判别提供有用信息,反而增加信息基因搜索的计算复杂度,所以首先必须对这些 “无关基因”进行剔除,然后有效地提取基因图
6、谱信息得到基因标签。 此外,肿瘤是致癌基因、抑癌基因、促癌基因和蛋白质通过多种方式作用的结果, 因此在确定肿瘤的基因标签时,应该设法充分利用其他有价值的信息,例如将与临床问 题相关的主要生理学信息融合到基因分类研究中。 因此,本文需要完成以下几个问题: 1 由于基因表示之间存在着很强的相关性,所以对于某种特定的肿瘤,似乎会有 大量的基因都与该肿瘤类型识别相关, 但一般认为与一种肿瘤直接相关的突变基因数目 很少。如何根据上述观点,利用附件中的数据,选择最好的分类因素; 2 对于给定的结肠癌数据,如何从分类的角度确定相应的基因“标签”; 3 基因表达谱中不可避免地含有噪声,对含有噪声的基因表达谱提
7、取信息时会产 生偏差。通过建立噪声模型,分析给定数据中的噪声能否对确定基因标签产生有利的影 响; 4 在肿瘤研究领域通常会已知若干个信息基因与某种癌症的关系密切,建立融入 了肿瘤研究领域中有助于诊断肿瘤信息的确定基因“标签”的数学模型。 3 二二、 问题分析问题分析 基因表达谱作为描绘特定细胞或组织在特定状态下的基因表达种类和丰度信 息,能够提供丰富的信息进行正常和患有肿瘤两类样本的辨别,为医学诊断及抗 癌药物研制便捷。目前,肿瘤分类领域的一个目标是采用尽可能少的信息基因以 获得尽可能高的样本分类准确率,这是因为:(1)选择尽可能少的信息基因意味着 尽可能多地去掉了包含在样本中的噪音;(2)意
8、味着减少肿瘤诊断的成本;(3)分类 准确率高的信息基因通常与肿瘤的发生发展存在紧密的联系。然而,仅仅采取一 种基因选择方法很难选出满足条件的信息基因子集,因此需要进行两个阶段,即 初选阶段和复选阶段。初选阶段利用适当的条件限制先从成千上万个基因中选出 信息基因,从而大幅降低基因的搜索空间,然后进行复选得到能有效判别正常与 患有肿瘤的基因标签。 该题首先需要参赛者解决的问题是:根据 DNA 微阵列测定得到的基因表达谱,采用 有效的算法,得到准确辨别正常和患有肿瘤的两类样本的基因标签,并对附件中提供的 样本进行准确辨别。另外,基因表达谱中不可避免地含有噪声,会影响基因表达谱的提 取,因此需要建立适
9、当的噪声模型对基因标签筛选过程进行优化。最后,由于肿瘤是多 种因素共同作用的结果,因此在确定肿瘤标签时,还要充分考虑其他有价值的信息。具 体来说,需要考虑的问题如下: 1 信息基因的初选-“无关基因”的剔除 对于某特定组织的基因表达谱,含有数量庞大的基因,其中绝大部分的基因在正常 和患有肿瘤两种状态下的基因表达水平具有相似性,无法对辨别作出贡献。这类基因被 称为“无关基因”。对于问题 1,首先需要选取一定标准,作为衡量某基因是否为“无 关基因”的判断条件,然后对样本的基因表达谱进行筛选,剔除“无关基因”,并利用 浮动顺序搜索算法得到候选分类特征子集。 2 基因标签的选取 与患有肿瘤相关的基因数
10、目可能含有若干个, 对于问题 2, 需要在问题 1 的处理结果 组成的基因子集空间中,选取适当的算法,搜索得到能够准确判断正常或者患有肿瘤的 基因标签。 能够使用的算法包含:支持向量机、多指标评价模型等。为了得到更为准确的基因 标签,避免某次搜索受样本噪声等问题的干扰,可以进行多次搜索,每次均将支持向量 机和多指标评价模型相结合进行筛选, 通过对结果的分析与评价,筛选出具有最佳分 类效果的基因集合,即为基因“标签”。 3 噪声模型的引入 对于问题 3,将噪声干扰考虑到基因表达谱的分析中,分析可能存在的各种噪声,如 实验过程中的随机干扰等噪声,如果确定患有肿瘤的基因标签中某基因所占比率很小, 那
11、么在受到噪声干扰时则容易产生辨别偏差。 而通过引入噪声模型排除或削弱该基因在 辨别是否患有肿瘤的过程中的贡献,从而提高了分类的正确性,因此噪声模型的建立可 能会对基因标签的确定产生有利的影响。 4 在模型中融入肿瘤研究领域中有利信息 在肿瘤的研究领域内,已经存在若干有利于构建更完善的确定基因标签的信息,对于问 题 4,通过完善上述数学模型,将这类信息融入到前面建立的模型中,增强基因标签判 4 断的准确性。通常我们会想到很多判别模型,比如:Fisher 判别法、贝叶斯判别法、支 持向量机判别法等模型,在对有助于诊断肿瘤的信息具体分析后,即可尝试建立相应的 判别模型。 三三、 模型假设模型假设 假
12、设一:样本中的数据真实,来源可靠,能够作为检验模型准确性的样本; 假设二:样本具有普遍性,能够作为寻找基因“标签”的依据; 假设三:样本数据里的噪声具有一般性。 5 四四、 符号说明符号说明 符号 含义 指定的 Bhattacharyya 距离的阈值 _ maxi D 有i个基因的特征子集中具有最大评价函数值的 基因集合 i J D 有i个基因特征子集的 Bhattacharyya 距离 , i K x x 核函数 )1( i f 分类准确度 )2( i f 被选基因数目 “留一法”权值 i V 基因表达水平 iG 基因i的表达向量 V S 协方差矩阵 I 染色体 二进制向量 实数向量 B S
13、 类间散布矩阵 W S 类内散布矩阵 6 五五、 模型模型的的建立与解答建立与解答 5.1 问题问题 1 5.1.1 理论分析 因为基因表示之间存在很强的相关性,所以对于某种特定的肿瘤,可能会有大量的 基因都与该肿瘤类型识别相关。然而,在基因表达谱中,含有大量对样本类别的判别影 响很小的基因。这些基因的表达水平在所有样本中都非常接近,不会为样本类型的判别 提供有效的信息,反而会增加信息基因搜索的计算复杂度1。例如附件中给出的基因表 达谱中,某些基因在健康状况正常和患有癌症两个类别里的分布,无论其均值还是方差 均无明显差别,对样本类别的判定贡献很小。因此,需要剔除无关基因,缩小搜索的有 效范围。
14、 作为对基因的初选过程,需要一种适用性强、判别效率较高且容易实现的算法。因 此,选择以 Bhattacharyya 距离为评价函数及浮动顺序搜索算法作为问题 1 的解决方案。 5.1.2 基于 Bhattacharyya 距离和浮动顺序搜索算法的基因分类方法 分类错误概率是模式识别中特征有效性的最佳度量,在降维空间中,特征选择的理 想目标是达到分类错误概率最小,然而这点往往难于做到。因此,使得错误概率上界最 小常常是一种合理的选择7。由 Chernoff 提出的错误概率上界是最小的,称为 Chernoff 上界。 根据 Chernoff 上界2,3得到误差的上边界,即: 11 ijij P e
15、rrorPPpxpxdx (1) 其中01, i 和 j 为需要判别的类别,P error为分类错误概率,积分部分覆 盖所有特征空间,并可以等价为: 1k ij pxpxdxe (2) 其中, 1 1 1 11 1ln 22 T ij ijijij ij k , i 和 j 为相应的协方差。 当0.5时,分类错误概率误差具有 Bhattacharyya 边界,并由此时 k表达式化 简得到基因的 Bhattacharyya 距离2,即: 22 12 22 12 12 11 0.5ln 422 ij Bk (3) 上式的 Bhattacharyya 距离能够度量基因中含有的类别信息量,其由两部分组
16、成,第 一项表现了基因在两个类别中分布均值的差异对样本分类的作用; 第二项体现了分布方 7 差的不同对样本分类的作用。这两部分具有相互促进的作用,即使基因在两类不同样本 中分布的均值相同,只要分布的方差具有较大差异,仍然可以获得较大的 Bhattacharyya 距离值。而且,由式(3)可知,当某个基因的 Bhattacharyya 距离具有较大值时, k e 项具有较小值,从而分类错误概率的上界具有较小值。从模式分类2的角度看,某个基 因的 Bhattacharyya 距离越大,表示可以利用该基因的信息进行越好的分类。 因此, 利用 Bhattacharyya 距离作为衡量指标, 能够较好地
17、对样本中基因谱进行初选, 剔除无关基因,得到对判别是否患有肿瘤具有帮助的信息基因集合。 附件提供的基因表达谱中,共有 62 个样本,每个样本均含有 2000 个基因的表达数 据。其中,22 个样本被诊断为健康状况正常,40 个样本被诊断为患有癌症。针对两类 样本,对每个基因进行 Bhattacharyya 距离计算,并作出基因的 Bhattacharyya 距离分布 的直方图,如图 1 所示。 图 1 候选基因的 Bhattacharyya 距离分布直方图 根据基因所含样本类别信息的多少,选取阈值并将基因分为“信息基因”和“无关 基因”两类。设 1 S 为信息基因集合, 2 S 为无关基因集合
18、,则“信息基因”与“无关基因” 可以定义如下: 1 2 ( ) SB s s SB s 其中s为基因, B s为基因s的 Bhattacharyya 距离,为指定的 Bhattacharyya 距离 的阈值。从图 1 可知,绝大部分基因的 Bhattacharyya 距离小于 0.1。这些基因在样本中 两个类别中的分布的均值和方差均无较大差异,因此可以作为无关基因被剔除。 基因表达谱中基因 Bhattacharyya 距离的详细分布情况如表 1 所示。 根据表 1 和式子 可知: 在阈值为0.1时, 在 2000 个基因中, 信息基因数为 388 个, 无关基因数为 1612 个。其中,388
19、 个信息基因均在一定程度上具有样本的分类信息,可以作为进一步分类 的基础。 8 表 1 基因 Bhattacharyya 距离分布情况 Bhattacharyya 距离 基因个数 所占百分比 00.1 1612 80.6% 0.10.2 302 15.1% 0.20.3 63 3.15% 0.30.5 20 1% 0.51.0 3 0.15% 根据初步筛选得到的 388 个信息基因,可以形成 388116 26.304 10个不同的基因组 合,每个组合称为一个特征子集。考虑到最优搜索算法的复杂度,采用次优搜索算法, 即浮动顺序搜索算法4对特征子集所构成的空间进行搜索,进一步得到维数不同的候选
20、特征基因子集。 浮动顺序搜索算法(Floating Sequential Search Algorithm,FSSA),又称增l减r算法, 该算法避免了顺序前进法和后退法中特征被选入(或剔除)就无法再剔除(或选入)的 缺点,在选择过程中增加了局部回溯过程5。 类似地,采用特征子集的 Bhattacharyya 距离 i J D作为浮动顺序搜索算法的评价函 数,评估特征子集对样本分类的贡献,即: 12 1 12 1212 12 112 ln 822 T i J D (4) 其中)( i DJ表示具有i个基因特征子集 i F 的 Bhattacharyya 距离。 1 和 2 为特征子集 i D
21、中的基因在正常和患有癌症两个类别样本中分布的均值向量, 1 和 2 为对应的协方 差矩阵。 令 _maxi D为含有i个基因的特征子集中具有最大评价函数值的基因集合, 它是所 有维数为i的特征基因子集中对分类贡献最大的基因集合。 利用浮动顺序搜索算法在特征子集空间中进行搜索,得到具有不同维数的候选特征 子集 _maxi D。 _max ,dim,1,2, i i FFSA nDDi in算法具体步骤如下: step1:初始化 i=2,n=50,, 21max_2 ggD 21,g g为 388 个候选基因集 0 G 中 Bhattacharyya 距离最大的两个基因; step2: max_2
22、0 DGG,G即为候选基因集中去掉当前基因子集的其余基因组成的几 何; 9 step3:建立新子集 max_max_)1( gDD ii ,其中Gg 并且)(max)( max_)1( DJDJ i , , 1)dim(| 0111 GDiDDD iii ; step4:搜索新的子集 max_) 1(max_ ii GG,使)(arg(max( max_ DJGi,其中 ,)dim(| max_)1( iiii GGiGGD; step5:若)()( max_max_ii DJDJ,则1 ii,转 step7;否则令 max_max_ii DD ; step6:如果2i,转到 step2;否则
23、,1 ii,转到 step4 ; step7:如果ni 或 Bhattacharyya 距离评价函数中开始出现奇异协方差矩阵,退 出;否则,转 step2。 浮动顺序搜索算法的算法流程图如图 2 所示。 10 2_max12 ,Dg g 12 ,g g 02_max GGD G (1)_max_max ii DDg gG (1)_max ()max() i J DJ D 1110 |dim()1, iii DDDiDG _max(1)_maxii GG _max arg(max( () i GJ D (1)_max |dim(), iiii DGGi GG _max_max ()() ii J
24、 DJ D _max_maxii D D 2i 1ii 1ii in 图 2 浮动顺序搜索算法流程图 附件样本中有正常样本 22 个,肿瘤样本 40 个,在执行浮动顺序搜索算法过程中, 式(3)中的协方差矩阵 1 出现奇异,根据该算法中 step7 的截止条件,程序运行结束, 此时36i ,因此候选特征基因子集的最大维数为 36,并得到 35 个具有维数不同的候 选基因特征子集 _max, 2,3,36 i Di ,如附表 1 所示。 5.1.3 小结 11 对于第 1 问,首先利用 Bhattacharyya 距离作为评价指标进行基因的初选,剔除无关 基因,从样本中的 2000 个基因中得到
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 研究生 数学 建模
限制150内