利用“融合-提炼方法”提取肿瘤信息基因.doc
《利用“融合-提炼方法”提取肿瘤信息基因.doc》由会员分享,可在线阅读,更多相关《利用“融合-提炼方法”提取肿瘤信息基因.doc(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、利用“融合-提炼方法”提取肿瘤信息基因云南大学 杨晓洁、赵留明、田丰摘要:本文基于2010年9月全国研究生数学建模竞赛A题附带的关于“22个正常人和40个结肠癌患者在2000个基因片段上的基因表达数据”,紧扣“肿瘤信息基因提取”这一主题,提出了一种“融合-提炼方法”,从数目庞大的基因中提炼出3个最显著的“信息基因”用于肿瘤的识别,并从统计假设检验和对真实样本数据的样本类别判定的角度,证明了该方法的有效性和科学性。具体说来,该方法从三个角度切入问题,逐层筛选,目标直指“搜索在正常人和结肠癌患者中表达水平差异较大的信息基因”。首先,从基因与样本类别的相关性角度出发,采用单因子多变量方差分析法进行基
2、因的重要性分析,剔除了那些对样本类别的决定没有贡献的基因。其次,从相似性角度出发,首次引入模糊数学中的算术平均贴近度,来衡量某个基因在正常人和结肠癌患者中表达水平的接近程度,在上一步的基础上剔除了接近程度很高的基因。值得注意的是,在这一部分的方法细节上,一方面创造性地构造出适合于本文研究问题的隶属度函数,并论证了该函数的合理性;另一方面通过“训练集轮换”的模拟研究方法证明了用算术平均贴近度提取重要基因的稳定性,即从经验上证明了该方法对于样本的替换并不敏感。再次,从因果关系的角度出发,又在上一步的基础上采用Logistic 回归分类模型提炼出与肿瘤识别有关的最显著的“信息基因”。鉴于该方法具有综
3、合性和多样性,并层层推进,本文命名这一提取“信息基因”的过程为“融合-提炼方法”。最后,本文采用logistic回归方程分类预测法和Fisher线性判别准则来评价所提取的3个“信息基因”对于肿瘤的识别效果,两种方法均具有较高的正确识别率且识别结果大致相同,一方面说明所提取的3个“信息基因”对于不同性质的样本分类方法具有相当的稳定性和普适性;另一方面,两种方法在进行样本分类时两相校正,所得结论也较为可靠。关键字:肿瘤信息基因提取 融合-提炼方法 单因子多变量方法差分析 算术平均贴近度Logistic 回归 Fisher线性判别准则目 录1.问题的提出11.1 研究背景11.2 研究现状11.3
4、本文的研究思路22.数据描述32.1 数据来源32.2 数据整理32.3 建模数据的说明43.模型的假设54.基因的重要性分析模型54.1 变量重要性分析的一般方法54.2 基因的重要性分析模型54.3 基因的重要性分析结果55.算术平均贴近度筛选模型65.1 算术平均贴近度简介65.1.1 模糊子集与隶属度函数65.1.2 算术平均贴近度75.2本文自定义的隶属度函数85.2.1 基因特性的分类85.2.2 自定义的隶属度函数85.3算术平均贴近度的计算125.4利用算术平均贴近度计算值剔除无关基因136.Logistic回归分类模型136.1 Logistic回归模型的建立146.1.1
5、Logistic回归模型的估计及检验146.1.2 Logistic回归模型提练的“信息基因”的重要程度分析166.2Logistic回归模型的分类效果167.“信息基因”的平均差异性的假设检验178. Fisher判别准则的识别效果19Fisher判别准则分类效果209. “融合-提炼方法”的评价219.1 “融合-提炼方法”的优点219.2 “融合-提炼方法”的缺点21参考文献22附录23附录一 matlab程序231. 问题的提出1.1 研究背景随着大规模基因表达谱技术(譬如DNA微阵列技术)的发展,人体一些组织的基因表达的正常范围已经被获悉,这就使得与之相应的某些疾病(主要是肿瘤)的基
6、因表达分布图有了参考的依据。如果可以利用基因表达分布图准确地进行肿瘤的识别,将对诊断和治疗肿瘤都具有深远意义。由于每一种肿瘤都有其基因的特征表达谱,从DNA芯片所测量的成千上万个基因中,找出决定样本类别(即属于正常人还是结肠癌患者)的一组基因“标签”,可称为“信息基因”(informative genes)是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在,同时也能为抗癌药物的研制提供捷径。通常情况下,在基因表达谱中,一些基因的表达水平在所有样本中都非常接近。例如,不少基因在急性白血病亚型(ALL,AML)两个类别中的分布无论其均值还是方差均无明显差别,可以认为这些基因与样本类别无关,没
7、有对样本类型的判别提供有用信息,反而增加“信息基因”搜索的难度。因此,要挑选一组能决定样本来别的“信息基因”,首先必须对“无关基因”进行剔除,进而缩小搜索肿瘤基因的范围。1.2 研究现状1999 年Science发表了Golub等针对急性白血病亚型识别与信息基因选取问题的研究结果。Golub等以“信噪比”(Signal to noise ratio)指标作为衡量基因对样本分类贡献大小的量度,采用加权投票法进行亚型的识别,仅根据72个样本就从7 129个基因中选出了50 个可能与肿瘤亚型分类相关的信息基因。Golub 的工作大大缩小了决定急性白血病亚型差异的基因范围,给出了亚型识别的基因依据,富
8、有创造性。但信噪比肯定不是衡量基因对样本分类贡献大小的唯一标准,肿瘤是致癌基因、抑癌基因、促癌基因和蛋白质通过多种方式作用的结果,在确定某种肿瘤的基因标签时,应该设法充分利用其他有价值的信息。之后,Guyon等人提出了递归基因消减(Recursive Feature Elimination, PRE )算法,采用支持向量机分类器再从中选出了8个可能的信息基因。而Huerta等人则以遗传算法(genetic algorithms, GA)和支持向量机结合的混合模型对经典的白血病和大肠癌数据进行了分类处理,筛选特征基因集。事实上,可以将现有的文献中所提到的基因芯片数据分析方法分为三大类:差异基因表
9、达分析法、聚类分析法以及判别分析法。不同的方法各有其优缺点,如差异基因表达分析中的倍数分析法,其优点是需要的芯片少,节约研究成本,但是结论过于简单,而且对于变化小的基因的可靠性就值得怀疑;聚类分析中如K-均值聚类法计算速度快,适合于大规模的数据计算,但它对初始凝聚点比较敏感。1.3 本文的研究思路显然,以上论述成为了本文研究的动机。接下来,本文欲主要从以下三个角度对肿瘤信息基因的提取方法进行研究,以期能改善前人研究结果的同时,给出一些类似问题的研究方法。1、 如何选取恰当的标准和方法剔除“无关基因”?据前所述,信噪比或者某些文献中提到的基因B距离并非绝对标准,且其优缺点无从评价。本文将在文章的
10、第4部分针对这一问题给出研究方法,该研究方法的本质是:基于带有样本类别的基因表达数据进行单因子多变量方差分析,给出各个变量的重要性排序,从而排除“无关基因”。2、如何选取恰当的标准和方法从可能与肿瘤类别相关的基因中提取决定样本类别的“信息基因”?本文将在文章第5部分和第6部分给出提取“信息基因”的过程。该过程采用逐步筛选的思路,第5部分从相似性角度出发,首次将模糊数学中两个模糊集的贴近度计算方法应用到基因表达数据中,并将算术平均贴近度作为进一步剔除那些可能由于基因之间的相关性而被掩盖的无关基因的标准;第6部分则从因果关系的角度出发,在第6部分处理的基础上,采用Logistic回归方程分类模型提
11、取最终的“信息基因”。在后续的第7部分和第8部分中将对所提取的“信息基因”进行两个方面的检验:所提取的“信息基因”的表达水平是否真的在正常人和结肠癌患者中有显著差别?采用的方法为单因子多变量方差分析法。所提取的“信息基因”的识别肿瘤患者的效果如何?本文结合Logistic回归方程的分类效果和Fisher判别方法,给出利用所提取到的“信息基因”进行肿瘤识别的误判率,来评价本文所提出的方法的合理性、可靠性以及有效性。本文的研究思路可由下面的流程图来概括:2345Logistic回归分类模型 “信息基因”的平均差异性检验 识别效果分析(Logistic回归 Fisher判别) 1基因的重要性分析模型
12、 的速度 算术平均贴近度筛选模型 利用单因子多变量方差分析法剔除对样本类别决定没有贡献的基因 的速度 在上一步保留的基因中寻找差异较大的重要基因 的速度 消除共线性并提取最显著基因 的速度 单因子多变量方差分析验证“信息基因”是否在正常人和结肠癌人中有差异 的速度 计算误判率来评价提取信息基因方法的有效性和可靠性 的速度 2. 数据描述2.1 数据来源 本文数据来自于2010年全国研究生数学建模竞赛A题附带的数据。该数据文件提供了22个正常人和40个结肠癌患者在2000个基因片段上的基因表达数据,所给的资料提示提供者对基因表达数据进行了变换,即采用“”代表基因的表达水平,详见“附件1原始数据”
13、。注意到,在62个样本单元(人)中,某些样本单元包含重复观测数据;在2000个基因中,也包含重复基因。也就是说,有的样本单元在同一个基因上有多个观测值(资料提示用不同的DNA探针探测得到),建立模型之前需要对其进行妥善处理。2.2 数据整理在建立模型之前,本文对重复数据进行了整理,方法为取重复观测数据的均值作为相应的样本单元在相应基因上的表达水平。经整理后,基因数目缩减为1901个,详见“附件2删除重复观测后的数据-1902”。注意到,模型的建立要求对整理后的数据进行转置,转置后的样本组织形式可用如下矩阵形式表示: 这里:0表示正常人;1表示结肠癌患者;表示第个正常人在第个基因上的表达水平;表
14、示第个结肠癌患者在第个基因上的表达水平。2.3 建模数据的说明为了评价所提取到的“信息基因”的可靠性和有效性,采用基于事先选定的随机种子进行运算进而产生随机数的方法,将整个样本数据集随机地剖分为两部分:训练集和测试集。其中,训练集占全部样本数据的60%,用于推断肿瘤识别的“信息基因”;而测试集占40%,用于计算利用提取的“信息基因”识别肿瘤的准确率(或者误判率)。也就是说,“信息基因”的提取过程完全基于训练集,而测试集仅仅用在模型检验的过程中。本文训练集和测试集的剖分如下: 训练集 测试集正常人(13)结肠癌患者(24)正常人(9)结肠癌患者(16) 详细剖分结果见“附件3训练集数据”和“附件
15、4测试集数据”。 需说明,第4部分“基因的重要性分析”所采用的是全部样本数据,因为在本文中这一步作为探索性数据分析,应尽可能利用样本的信息。训练集则应用于第4部分和第5部分来寻找“信息基因”。3. 模型的假设假设1:假设所给数据真实可靠,并且资料说明中提到的数据含义即确实能反映基因的表达水平;假设2:假设所给的2000个基因中确实包含导致结肠癌的基因;假设3:假设数据中所指的正常人是绝对的正常,而癌症患者指的仅仅是结肠癌患者。4. 基因的重要性分析模型众所周知,基因数目通常很大,基因表达数据的分析与建模往往面临海量的数据,因此,浓缩和提炼数据就显得尤为必要。在分类预测问题中,浓缩和提炼数据的过
16、程实际上是对变量的重要性进行分析的过程,其目的是为了找出对输出变量(样本类别)的分类预测有重要贡献的变量,保留它们同时剔除那些对输出变量没有意义的变量。4.1 变量重要性分析的一般方法变量的重要性分析可以从两个方面联合考察:第一,从变量本身考虑,用方差度量变量携带信息的多少;第二,从输入变量与输出变量的相关角度考察,通常用Person相关系数检验、方差分析、似然比-卡方检验、Lambda检验等来判定输入变量与输出变量的相关性是否显著,并给出各个输入变量的重要性排序。用于衡量变量重要性的指标为:各种假设检验的1-P值,该值越大,说明假设检验越显著,即说明输入变量与输出变量的相关性越强,对应的变量
17、也就越重要。4.2 基因的重要性分析模型本文着重从基因与样本类别的相关角度考察基因的重要性。那么,重要性分析模型的输入变量为1901个基因,输出变量为二元分类变量(0代表正常人,1代表结肠癌患者),可以利用单因子多变量方差分析的方法,系统性地分析各个基因表达水平的均值在不同样本类别中是否存在显著性差异。4.3 基因的重要性分析结果这一部分采用Clementine数据挖掘软件进行基因的重要性分析,Clementine将自动计算F统计量的值以及与之相应的1-P值。考虑到基因表达数据的复杂性以及内部系统误差,这一步仅仅是一个探索性的数据分析。为慎重起见,选取0.6(1-P值)为临界值,即保留1-P值
18、在0.6以上的基因,相当于将针对某些基因的方差分析的显著性水平设定为0.4。这样一来,这一步共保留了866个基因,其软件输出的相关结果见“附件5重要性排序-866”。5. 算术平均贴近度筛选模型针对上一步“基因的重要性分析”所保留下来的可能与肿瘤有关的866个基因,需提出更精细的指标,作为进一步剔除那些可能由于基因之间的相关性或者系统性误差而被掩盖的“无关基因”的标准,从而减少用于样本分类的“信息基因”数量,进一步提高分类模型的实用性。本文采用模糊数学中的算术平均贴近度来衡量同一个基因上,正常人基因表达水平的模糊集与结肠癌患者的基因表达水平的模糊集的接近程度,越接近,则说明在该基因上正常人的基
19、因表达水平和结肠癌患者的基因表达水平的差异性越不显著,那么,该基因也可视为“无关基因”被剔除。事实上,基因的重要性分析是从输入变量与输出变量的相关性角度剔除“无关基因”,可视为一种探索性数据分析方法,而算术平均贴近度则是从相似性的角度剔除“无关基因”,具体说来是抓住了“无关基因”在正常人和结肠癌患者中的表达水平相近这一特性来剔除“无关基因”。5.1 算术平均贴近度简介模糊数学中,贴近度常用来反映两个模糊集合的相近程度,贴近度越接近于1,则表明两模糊集越接近,否则,两模糊集越远。因此,利用模糊数学中的贴近度指标可以在一定程度上反映同一个基因上正常人和结肠癌患者基因表达水平的相近程度。5.1.1
20、模糊子集与隶属度函数对于某一集合A,元素要么属于A,要么不属于A,二者必居其一,且仅居其一。这是经典集合的特征。对于这一特征,经典集合A中的元素与集合A的关系可以用特征函数来刻画。集合A的特征函数表示为: 然而,在实际生活中,我们常遇到不属于“非此即彼”的情况,而是介于“是”与“不是”之间,表现出“亦此亦彼”的特征。比如,对于某种商品的质量,有人认为很好,有人认为一般,也有人认为较差。因此,我们很难用好或不好来形容该商品的质量。为了解决实际生活中的这类问题,我们必须把元素属于集合的概念模糊化,变经典集合的“非此即彼”关系为“亦此亦彼”关系,即承认论域上存在并非完全属于该集合的元素,使经典结合的
21、绝对属于变为相对属于的概念。定义1: 给定论域,所谓上的一个模糊子集指:对于任意的,都能确定,用这个数来表示属于的程度,同时称映射为隶属度函数。隶属度函数表示属于的程度,越接近于0,表示隶属于的程度越小;越接近于1,表示隶属于的程度越大;若越接近于0.5,则表示隶属于模糊集合的程度越模糊。此外,结合经典集合的定义可知,隶属度函数,表示完全属于;隶属度函数,表示完全不属于。事实上,中的元素隶属于模糊集合的程度可视为隶属于的概率。5.1.2 算术平均贴近度贴近度的计算公式很多,本文采用算术平均贴近度来衡量两个模糊集的接近程度,其计算公式为: 其中: 表示取小运算符。 从上述公式可以直观地看到:若隶
22、属于A的隶属度与隶属于B的隶属度差别不大,一方面可以说明A、B两个集合很接近;另一方面使得贴近度的分子和分母差距不大,从而使得倾向于接近1,也验证了A、B两个集合很接近。这就证明了贴近度用于度量两个集合接近程度的合理性。5.2 本文自定义的隶属度函数5.2.1 基因特性的分类考虑到致癌基因的表达水平可能高于或低于正常人相应基因的表达水平,因此,借鉴试验设计中指标特性分类的方法,将基因分为两类:望小型基因和望大型基因。也就是说望大特性和望小特性是针对致癌基因的表现特点来划分的。为解释分类标准,引入如下记号:训练样本中,第i个基因上正常人基因表达水平的均值估计;:训练样本中,第i个基因上结肠癌患者
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 利用 融合 提炼 方法 提取 肿瘤 信息 基因
限制150内