利用“融合-提炼方法”提取肿瘤信息基因.doc
利用“融合-提炼方法”提取肿瘤信息基因云南大学 杨晓洁、赵留明、田丰摘要:本文基于2010年9月全国研究生数学建模竞赛A题附带的关于“22个正常人和40个结肠癌患者在2000个基因片段上的基因表达数据”,紧扣“肿瘤信息基因提取”这一主题,提出了一种“融合-提炼方法”,从数目庞大的基因中提炼出3个最显著的“信息基因”用于肿瘤的识别,并从统计假设检验和对真实样本数据的样本类别判定的角度,证明了该方法的有效性和科学性。具体说来,该方法从三个角度切入问题,逐层筛选,目标直指“搜索在正常人和结肠癌患者中表达水平差异较大的信息基因”。首先,从基因与样本类别的相关性角度出发,采用单因子多变量方差分析法进行基因的重要性分析,剔除了那些对样本类别的决定没有贡献的基因。其次,从相似性角度出发,首次引入模糊数学中的算术平均贴近度,来衡量某个基因在正常人和结肠癌患者中表达水平的接近程度,在上一步的基础上剔除了接近程度很高的基因。值得注意的是,在这一部分的方法细节上,一方面创造性地构造出适合于本文研究问题的隶属度函数,并论证了该函数的合理性;另一方面通过“训练集轮换”的模拟研究方法证明了用算术平均贴近度提取重要基因的稳定性,即从经验上证明了该方法对于样本的替换并不敏感。再次,从因果关系的角度出发,又在上一步的基础上采用Logistic 回归分类模型提炼出与肿瘤识别有关的最显著的“信息基因”。鉴于该方法具有综合性和多样性,并层层推进,本文命名这一提取“信息基因”的过程为“融合-提炼方法”。最后,本文采用logistic回归方程分类预测法和Fisher线性判别准则来评价所提取的3个“信息基因”对于肿瘤的识别效果,两种方法均具有较高的正确识别率且识别结果大致相同,一方面说明所提取的3个“信息基因”对于不同性质的样本分类方法具有相当的稳定性和普适性;另一方面,两种方法在进行样本分类时两相校正,所得结论也较为可靠。关键字:肿瘤信息基因提取 融合-提炼方法 单因子多变量方法差分析 算术平均贴近度Logistic 回归 Fisher线性判别准则目 录1.问题的提出11.1 研究背景11.2 研究现状11.3 本文的研究思路22.数据描述32.1 数据来源32.2 数据整理32.3 建模数据的说明43.模型的假设54.基因的重要性分析模型54.1 变量重要性分析的一般方法54.2 基因的重要性分析模型54.3 基因的重要性分析结果55.算术平均贴近度筛选模型65.1 算术平均贴近度简介65.1.1 模糊子集与隶属度函数65.1.2 算术平均贴近度75.2本文自定义的隶属度函数85.2.1 基因特性的分类85.2.2 自定义的隶属度函数85.3算术平均贴近度的计算125.4利用算术平均贴近度计算值剔除无关基因136.Logistic回归分类模型136.1 Logistic回归模型的建立146.1.1 Logistic回归模型的估计及检验146.1.2 Logistic回归模型提练的“信息基因”的重要程度分析166.2Logistic回归模型的分类效果167.“信息基因”的平均差异性的假设检验178. Fisher判别准则的识别效果19Fisher判别准则分类效果209. “融合-提炼方法”的评价219.1 “融合-提炼方法”的优点219.2 “融合-提炼方法”的缺点21参考文献22附录23附录一 matlab程序231. 问题的提出1.1 研究背景随着大规模基因表达谱技术(譬如DNA微阵列技术)的发展,人体一些组织的基因表达的正常范围已经被获悉,这就使得与之相应的某些疾病(主要是肿瘤)的基因表达分布图有了参考的依据。如果可以利用基因表达分布图准确地进行肿瘤的识别,将对诊断和治疗肿瘤都具有深远意义。由于每一种肿瘤都有其基因的特征表达谱,从DNA芯片所测量的成千上万个基因中,找出决定样本类别(即属于正常人还是结肠癌患者)的一组基因“标签”,可称为“信息基因”(informative genes)是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在,同时也能为抗癌药物的研制提供捷径。通常情况下,在基因表达谱中,一些基因的表达水平在所有样本中都非常接近。例如,不少基因在急性白血病亚型(ALL,AML)两个类别中的分布无论其均值还是方差均无明显差别,可以认为这些基因与样本类别无关,没有对样本类型的判别提供有用信息,反而增加“信息基因”搜索的难度。因此,要挑选一组能决定样本来别的“信息基因”,首先必须对“无关基因”进行剔除,进而缩小搜索肿瘤基因的范围。1.2 研究现状1999 年Science发表了Golub等针对急性白血病亚型识别与信息基因选取问题的研究结果。Golub等以“信噪比”(Signal to noise ratio)指标作为衡量基因对样本分类贡献大小的量度,采用加权投票法进行亚型的识别,仅根据72个样本就从7 129个基因中选出了50 个可能与肿瘤亚型分类相关的信息基因。Golub 的工作大大缩小了决定急性白血病亚型差异的基因范围,给出了亚型识别的基因依据,富有创造性。但信噪比肯定不是衡量基因对样本分类贡献大小的唯一标准,肿瘤是致癌基因、抑癌基因、促癌基因和蛋白质通过多种方式作用的结果,在确定某种肿瘤的基因标签时,应该设法充分利用其他有价值的信息。之后,Guyon等人提出了递归基因消减(Recursive Feature Elimination, PRE )算法,采用支持向量机分类器再从中选出了8个可能的信息基因。而Huerta等人则以遗传算法(genetic algorithms, GA)和支持向量机结合的混合模型对经典的白血病和大肠癌数据进行了分类处理,筛选特征基因集。事实上,可以将现有的文献中所提到的基因芯片数据分析方法分为三大类:差异基因表达分析法、聚类分析法以及判别分析法。不同的方法各有其优缺点,如差异基因表达分析中的倍数分析法,其优点是需要的芯片少,节约研究成本,但是结论过于简单,而且对于变化小的基因的可靠性就值得怀疑;聚类分析中如K-均值聚类法计算速度快,适合于大规模的数据计算,但它对初始凝聚点比较敏感。1.3 本文的研究思路显然,以上论述成为了本文研究的动机。接下来,本文欲主要从以下三个角度对肿瘤信息基因的提取方法进行研究,以期能改善前人研究结果的同时,给出一些类似问题的研究方法。1、 如何选取恰当的标准和方法剔除“无关基因”?据前所述,信噪比或者某些文献中提到的基因B距离并非绝对标准,且其优缺点无从评价。本文将在文章的第4部分针对这一问题给出研究方法,该研究方法的本质是:基于带有样本类别的基因表达数据进行单因子多变量方差分析,给出各个变量的重要性排序,从而排除“无关基因”。2、如何选取恰当的标准和方法从可能与肿瘤类别相关的基因中提取决定样本类别的“信息基因”?本文将在文章第5部分和第6部分给出提取“信息基因”的过程。该过程采用逐步筛选的思路,第5部分从相似性角度出发,首次将模糊数学中两个模糊集的贴近度计算方法应用到基因表达数据中,并将算术平均贴近度作为进一步剔除那些可能由于基因之间的相关性而被掩盖的无关基因的标准;第6部分则从因果关系的角度出发,在第6部分处理的基础上,采用Logistic回归方程分类模型提取最终的“信息基因”。在后续的第7部分和第8部分中将对所提取的“信息基因”进行两个方面的检验:所提取的“信息基因”的表达水平是否真的在正常人和结肠癌患者中有显著差别?采用的方法为单因子多变量方差分析法。所提取的“信息基因”的识别肿瘤患者的效果如何?本文结合Logistic回归方程的分类效果和Fisher判别方法,给出利用所提取到的“信息基因”进行肿瘤识别的误判率,来评价本文所提出的方法的合理性、可靠性以及有效性。本文的研究思路可由下面的流程图来概括:2345Logistic回归分类模型 “信息基因”的平均差异性检验 识别效果分析(Logistic回归 Fisher判别) 1基因的重要性分析模型 的速度 算术平均贴近度筛选模型 利用单因子多变量方差分析法剔除对样本类别决定没有贡献的基因 的速度 在上一步保留的基因中寻找差异较大的重要基因 的速度 消除共线性并提取最显著基因 的速度 单因子多变量方差分析验证“信息基因”是否在正常人和结肠癌人中有差异 的速度 计算误判率来评价提取信息基因方法的有效性和可靠性 的速度 2. 数据描述2.1 数据来源 本文数据来自于2010年全国研究生数学建模竞赛A题附带的数据。该数据文件提供了22个正常人和40个结肠癌患者在2000个基因片段上的基因表达数据,所给的资料提示提供者对基因表达数据进行了变换,即采用“”代表基因的表达水平,详见“附件1原始数据”。注意到,在62个样本单元(人)中,某些样本单元包含重复观测数据;在2000个基因中,也包含重复基因。也就是说,有的样本单元在同一个基因上有多个观测值(资料提示用不同的DNA探针探测得到),建立模型之前需要对其进行妥善处理。2.2 数据整理在建立模型之前,本文对重复数据进行了整理,方法为取重复观测数据的均值作为相应的样本单元在相应基因上的表达水平。经整理后,基因数目缩减为1901个,详见“附件2删除重复观测后的数据-1902”。注意到,模型的建立要求对整理后的数据进行转置,转置后的样本组织形式可用如下矩阵形式表示: 这里:0表示正常人;1表示结肠癌患者;表示第个正常人在第个基因上的表达水平;表示第个结肠癌患者在第个基因上的表达水平。2.3 建模数据的说明为了评价所提取到的“信息基因”的可靠性和有效性,采用基于事先选定的随机种子进行运算进而产生随机数的方法,将整个样本数据集随机地剖分为两部分:训练集和测试集。其中,训练集占全部样本数据的60%,用于推断肿瘤识别的“信息基因”;而测试集占40%,用于计算利用提取的“信息基因”识别肿瘤的准确率(或者误判率)。也就是说,“信息基因”的提取过程完全基于训练集,而测试集仅仅用在模型检验的过程中。本文训练集和测试集的剖分如下: 训练集 测试集正常人(13)结肠癌患者(24)正常人(9)结肠癌患者(16) 详细剖分结果见“附件3训练集数据”和“附件4测试集数据”。 需说明,第4部分“基因的重要性分析”所采用的是全部样本数据,因为在本文中这一步作为探索性数据分析,应尽可能利用样本的信息。训练集则应用于第4部分和第5部分来寻找“信息基因”。3. 模型的假设假设1:假设所给数据真实可靠,并且资料说明中提到的数据含义即确实能反映基因的表达水平;假设2:假设所给的2000个基因中确实包含导致结肠癌的基因;假设3:假设数据中所指的正常人是绝对的正常,而癌症患者指的仅仅是结肠癌患者。4. 基因的重要性分析模型众所周知,基因数目通常很大,基因表达数据的分析与建模往往面临海量的数据,因此,浓缩和提炼数据就显得尤为必要。在分类预测问题中,浓缩和提炼数据的过程实际上是对变量的重要性进行分析的过程,其目的是为了找出对输出变量(样本类别)的分类预测有重要贡献的变量,保留它们同时剔除那些对输出变量没有意义的变量。4.1 变量重要性分析的一般方法变量的重要性分析可以从两个方面联合考察:第一,从变量本身考虑,用方差度量变量携带信息的多少;第二,从输入变量与输出变量的相关角度考察,通常用Person相关系数检验、方差分析、似然比-卡方检验、Lambda检验等来判定输入变量与输出变量的相关性是否显著,并给出各个输入变量的重要性排序。用于衡量变量重要性的指标为:各种假设检验的1-P值,该值越大,说明假设检验越显著,即说明输入变量与输出变量的相关性越强,对应的变量也就越重要。4.2 基因的重要性分析模型本文着重从基因与样本类别的相关角度考察基因的重要性。那么,重要性分析模型的输入变量为1901个基因,输出变量为二元分类变量(0代表正常人,1代表结肠癌患者),可以利用单因子多变量方差分析的方法,系统性地分析各个基因表达水平的均值在不同样本类别中是否存在显著性差异。4.3 基因的重要性分析结果这一部分采用Clementine数据挖掘软件进行基因的重要性分析,Clementine将自动计算F统计量的值以及与之相应的1-P值。考虑到基因表达数据的复杂性以及内部系统误差,这一步仅仅是一个探索性的数据分析。为慎重起见,选取0.6(1-P值)为临界值,即保留1-P值在0.6以上的基因,相当于将针对某些基因的方差分析的显著性水平设定为0.4。这样一来,这一步共保留了866个基因,其软件输出的相关结果见“附件5重要性排序-866”。5. 算术平均贴近度筛选模型针对上一步“基因的重要性分析”所保留下来的可能与肿瘤有关的866个基因,需提出更精细的指标,作为进一步剔除那些可能由于基因之间的相关性或者系统性误差而被掩盖的“无关基因”的标准,从而减少用于样本分类的“信息基因”数量,进一步提高分类模型的实用性。本文采用模糊数学中的算术平均贴近度来衡量同一个基因上,正常人基因表达水平的模糊集与结肠癌患者的基因表达水平的模糊集的接近程度,越接近,则说明在该基因上正常人的基因表达水平和结肠癌患者的基因表达水平的差异性越不显著,那么,该基因也可视为“无关基因”被剔除。事实上,基因的重要性分析是从输入变量与输出变量的相关性角度剔除“无关基因”,可视为一种探索性数据分析方法,而算术平均贴近度则是从相似性的角度剔除“无关基因”,具体说来是抓住了“无关基因”在正常人和结肠癌患者中的表达水平相近这一特性来剔除“无关基因”。5.1 算术平均贴近度简介模糊数学中,贴近度常用来反映两个模糊集合的相近程度,贴近度越接近于1,则表明两模糊集越接近,否则,两模糊集越远。因此,利用模糊数学中的贴近度指标可以在一定程度上反映同一个基因上正常人和结肠癌患者基因表达水平的相近程度。5.1.1 模糊子集与隶属度函数对于某一集合A,元素要么属于A,要么不属于A,二者必居其一,且仅居其一。这是经典集合的特征。对于这一特征,经典集合A中的元素与集合A的关系可以用特征函数来刻画。集合A的特征函数表示为: 然而,在实际生活中,我们常遇到不属于“非此即彼”的情况,而是介于“是”与“不是”之间,表现出“亦此亦彼”的特征。比如,对于某种商品的质量,有人认为很好,有人认为一般,也有人认为较差。因此,我们很难用好或不好来形容该商品的质量。为了解决实际生活中的这类问题,我们必须把元素属于集合的概念模糊化,变经典集合的“非此即彼”关系为“亦此亦彼”关系,即承认论域上存在并非完全属于该集合的元素,使经典结合的绝对属于变为相对属于的概念。定义1: 给定论域,所谓上的一个模糊子集指:对于任意的,都能确定,用这个数来表示属于的程度,同时称映射为隶属度函数。隶属度函数表示属于的程度,越接近于0,表示隶属于的程度越小;越接近于1,表示隶属于的程度越大;若越接近于0.5,则表示隶属于模糊集合的程度越模糊。此外,结合经典集合的定义可知,隶属度函数,表示完全属于;隶属度函数,表示完全不属于。事实上,中的元素隶属于模糊集合的程度可视为隶属于的概率。5.1.2 算术平均贴近度贴近度的计算公式很多,本文采用算术平均贴近度来衡量两个模糊集的接近程度,其计算公式为: 其中: 表示取小运算符。 从上述公式可以直观地看到:若隶属于A的隶属度与隶属于B的隶属度差别不大,一方面可以说明A、B两个集合很接近;另一方面使得贴近度的分子和分母差距不大,从而使得倾向于接近1,也验证了A、B两个集合很接近。这就证明了贴近度用于度量两个集合接近程度的合理性。5.2 本文自定义的隶属度函数5.2.1 基因特性的分类考虑到致癌基因的表达水平可能高于或低于正常人相应基因的表达水平,因此,借鉴试验设计中指标特性分类的方法,将基因分为两类:望小型基因和望大型基因。也就是说望大特性和望小特性是针对致癌基因的表现特点来划分的。为解释分类标准,引入如下记号:训练样本中,第i个基因上正常人基因表达水平的均值估计;:训练样本中,第i个基因上结肠癌患者基因表达水平的均值估计;那么,分类标准如下:(1)若,则第i个基因是望小型基因。对于望小型基因,其表达水平值越小,属于结肠癌的可能性越大。(2)若,则第i个基因是望大型型基因。对于望大型基因,其表达水平值越大,属于结肠癌的可能性越大。根据望小型基因和望大型基因的定义,经计算,866个基因中,共有663个望大型基因,203个望小型基因,具体分类情况可参看“附件6望大(663)望小(203)基因分类结果”。 5.2.2 自定义的隶属度函数根据定义,模糊集隶属度函的数值域为0,1,类比于随机变量的分布函数,也称其为模糊集的分布函数。常用的模糊集分布函数有正态型分布、半梯形分布、梯形分布、K次抛物线分布、Cauchy分布以及S型分布等,具体内容可查看参考文献5、6、7。为了定义符合本文研究问题的隶属度函数,先引入如下记号: 考虑到现有的确定隶属度函数的方法,比如模糊统计法和二元对比排序法,更适用于离散化数据,因此,在本文中,结合本文研究问题和相关数据的实际情况以及相关的统计思想,并参照常用的模糊集分布函数,定义本文的隶属度函数图像应具有如下特征:图像说明:1、 fig.(a)和fig.(b),max、min、mean、s和n分别表示相应基因上的正常人样本或结肠癌样本的最大值、最小值、均值、标准差和样本容量。2、 图中分段函数各段定义域的构造方法借鉴了一些统计思想:一个随机变量会以很大的概率取以为中心的自身1倍标准差()之间的数值,那么,随机变量在以为中心的的1倍标准差()之间取值的概率将更大,这是为了符合模糊集隶属度函数的定义所做的调整;一般认为,一个随机变量在以为中心的自身3倍标准差()之外取值的概率微乎其微,同样是为了符合模糊集隶属度函数的定义。用max和min在上限和下限处作调整3、 为方便说明,先解释图中水平线的含义:对应于正常人构成的样本和结肠癌患者构成的样本(隶属度函数形式不变,只是max、min、mean、s和n在变),水平线分别表示落入区间的观测值以1的隶属度隶属于正常人和结肠癌患者。4、 在fig.(a)中:针对望小型基因,考虑隶属于A=正常人的程度:不论是来自正常人的样本还是来自结肠癌患者的样本,偏大的观测值(水平线右端)比起偏小的观测值(水平线左端)对于A=正常人有较大的隶属度,因此水平线右端采用开口向下的二次抛物线,水平线左端采用开口向上的二次抛物线。针对望大型基因,考虑隶属于B=结肠癌患者的程度,不论是来自正常人的样本还是来自结肠癌患者的样本,偏大的观测值(水平线右端)比起偏大的观测值(水平线左端)对于B=结肠癌患者有较大的隶属度,因此水平线右端采用开口向下的二次抛物线,水平线左端采用开口向上的二次抛物线。5、 在fig.(b)中:针对望大型基因,考虑隶属于A=正常人的程度:不论是来自正常人的样本还是来自结肠癌患者的样本,偏小的观测值(水平线左端)比起偏大的观测值(水平线右端)对于A=正常人有较大的隶属度,因此水平线左端采用开口向下的二次抛物线,水平线右端采用开口向上的二次抛物线。针对望小型基因,考虑隶属于B=结肠癌患者的程度,不论是来自正常人的样本还是来自结肠癌患者的样本,偏小的观测值(水平线左端)比起偏大的观测值(水平线右端)对于B=结肠癌患者有较大的隶属度,因此水平线左端采用开口向下的二次抛物线,水平线右端采用开口向上的二次抛物线。因此,如上述分析,不论是望大型基因上的观测值还是望小型基因上的观测值,其对于A=正常人或B=结肠癌患者的隶属度函数均可以归结为以上两类,具体表达式如下表所示:望大型基因上的观测值对于或的隶属度函数表达式定义域隶属度函数其他10定义域隶属度函数其他10望小型基因上的观测值对于或的隶属度函数表达式定义域隶属度函数其他10定义域隶属度函数其他10注意到,区间的端点取法:当时,意味着当样本容量很大时,只有均值本身对于A=正常人或B=结肠癌患者具有1的隶属度,也就是说完全隶属于A=正常人或B=结肠癌患者的集合为单点集,与现实情况不符;而当很小时,的区间长度偏大,意味着有一定数量的观测值对于A=正常人或B=结肠癌患者具有1的隶属度,易产生较大偏差。本文对此进行了模拟研究(方法:产生类似于该问题的数据,调整为,取不同的值,计算隶属度,评价所得隶属度的合理性),发现当之间时,取与所得结果较为相似,因此 ,当样本容量很小或很大时,推荐使用取代,隶属度能获得合理的取值。需说明,模拟研究只不过是一种经验做法,所获得的也只是一种经验结果,关于本文自定义的隶属度函数的自变量取值范围的划分还有待进一步理论研究。至此,本文完成了对自定义隶属度函数的函数形式以及自变量取值范围划分的合理性的论述,以期为类似问题的研究提供参考。然而,该函数的性质以及理论推导的严密性还有待进一步研究。5.3 算术平均贴近度的计算本文采用matlab编程实现算术平均贴近度的计算,程序见“附录matlab程序”。现将算术平均贴近度的计算过程归纳如下1、计算隶属度如前所述,训练集具有如下的数据组织形式如下:区分望大型基因和望小型基因,恰当选取自定义的两类隶属度函数,分别计算每一个基因上,每一个观测值对于A=正常人或B=结肠癌患者的隶属度,可用如下流程图反映这一过程(例如:最上方的水平方向箭头表示用计算来自于正常人的样本观测单元属于A=正常人的程度):结肠癌正常正常结肠癌结肠癌结肠癌正常正常正常人样本隶属于结肠癌患者的隶属度函数隶属于正常人的隶属度函数结肠癌患者样本2、 计算算术平均贴近度按照公式(5.1)计算每一个基因上,A=正常人与B=结肠癌患者的算术平均贴近度,所得结果见“附件7望大望小基因及贴近度”。5.4 利用算术平均贴近度计算值剔除无关基因从算术平均贴近度的计算值不难看出:在663个望大型基因上,=正常人与=结肠癌患者的算术平均贴近度均在0.6以上,选取0.7779为临界值(本文欲选0.8,然而,有相当一部分贴近度数值落入区间0.78,0.8中,不能认为这部分贴近度数值与0.8有较大差别,又注意到与0.78极为接近的数据有0.7798、0.7798、0.7796、0.7791、0.7791、0.7779六个,故选取0.7779作为临界值),即认为大于0.7779的算术平均贴近度值所对应的基因在结肠癌患者和正常人两个类别中的分布非常接近,可作为无关基因剔除。同理,在203个望小型基因中,=正常人与=结肠癌患者的算术平均贴近度均在0.8以上,则选取0.85为临界值。应用上述标准剔除无关基因后,保留望大型基因132个、望小型基因8个,共计保留基因140个,详细结果见“附件8保留的基因-望大132+望小8”。事实上,虽然关于“贴近度应该取什么值能够认为两个模糊集比较接近”没有统一的标准,虽然本文提到的临界值也具有一定的主观性,但从贴近度数值的分布情况看来,本文临界值的选取具有相当的保守性。值得一提的是,为评估该方法的稳定性,我们又从62个样本单元中重新抽取了37个样本单元作为新的测试集,在该测试集上执行上述过程,发现最终保留下来的基因的种类和数目与上述结果几乎没有差别,这至少从经验上证明了该方法对于样本的替换并不敏感,该方法具有相当的稳定性。关于“贴近度该取什么值能够认为两个模糊集比较接近”,有待进一步的理论研究。6. Logistic回归分类模型从考虑基因与样本类别的相关性并进行基因的重要性分析,到考虑“无关基因”在正常人和结肠癌患者中表达水平的相似性并引入算术平均贴近度衡量相似程度,虽然方法的侧重点不同,但目标都是试图寻找在正常人和结肠癌患者中表达水平差异较大的重要基因。考虑问题的思路是多角度的,还可以从其他的角度出发从众多可能与结肠癌相关的重要基因中提炼“信息基因”。6.1 Logistic回归模型的建立从因果关系的角度出发,我们可以考虑这样的问题:那些重要的“信息基因”在多大程度上导致了结肠癌。基于这样的考虑,我们以样本类别(0正常人;1结肠癌患者)作为二元分类响应变量,以上一步筛选出的140个重要基因作为解释变量,并采用逐步回归法进行Logistic回归。其一,希望通过建立的回归模型判定这些信息基因对于肿瘤识别的重要程度;希望采用逐步回归的方法进一步剔除那些可能由于基因之间的相关性而被掩盖的“无关基因”,从140个重要基因中提取相对而言最重用的信息基因;其二,希望以Logistic回归模型作为判别函数,识别肿瘤。事实上,用逐步回归法“提炼信息基因”恰恰考虑了各个基因之间的相关性,因为具有高度相关关系的基因是不会同时进入最终模型的。6.1.1 Logistic回归模型的估计及检验这一部分联合SPSS16.0以及其附带的数据挖掘软件Clementine建立Logistic回归模型,完成具有较强相关关系的基因的筛选和回归模型参数的估计及检验等。下表展示了用Logistic进行逐步向前回归的解释变量筛选过程:Logistic逐步回归模型系数统计表BS.E.WalddfSig.Exp(B)Step 1aHsa.1804-2.8911.0487.6091.006.055Constant25.2458.9757.9121.0059.203E10Step 2bHsa.8102.4101.1424.4561.03511.138Hsa.1804-4.1641.6466.4001.011.016Constant20.5939.7374.4731.0348.783E8Step 3cHsa.81034.6574973.308.0001.9941.126E15Hsa.312193.1418378.093.0001.9912.822E40Hsa.1804-57.9436413.601.0001.993.000Constant-530.12676329.170.0001.994.000Step 4cHsa.31216.0863.5502.9391.086439.798Hsa.1804-4.5912.2384.2091.040.010Constant-12.03015.033.6401.424.000a. Variable(s) entered on step 1: Hsa.1804.b. Variable(s) entered on step 2: Hsa.810.c. Variable(s) entered on step 3: Hsa.3121.注意到上表中的Step3,即第三个回归模型,Wald检验的p值在第二步后接近于1,这是因为在众多基因变量之间存在着严重的多重共线性,以至于使Wald统计量随着回归步骤的增加迅速升到1,这并不能说明要接受模型系数为0的原假设。这一点可以在Step4(即第四个回归模型)中得到验证,Step4相当于在Step3的基础上剔除了基因Hsa.810,Wald检验随即变得显著,那就说明了确实是因为Hsa.810、Hsa.804、Hsa.3121这三个基因之间存在多重共线性,才使得Wald检验极其的不显著。那么,对于Step4和Step3的模型取舍问题,可以从两个方面进行考虑。第一,从信息量的角度:Step3的模型虽然存在多重共线性,但相对于Step4含有更充分的信息量;第二,从模型的拟合优度的层面:从下表可以看到,Step3的模型中,-2倍对数似然值为0,且对Cox & Snell 进行修正后的Nagelkerke ,说明Hsa.810、Hsa.804、Hsa.3121这三个基因在理论上能100%解释响应变量的变动,模型的整体拟合优度近乎完美;而Step4的模型中,-2倍对数似然值急剧增至11.564,且Cox & Snell和Nagelkerke都明显的低于Step3的模型。Logistic逐步回归模型概述Step-2 Log likelihoodCox & Snell R SquareNagelkerke R Square123.529a.483.665211.609b.626.8613.000c.7271.000411.564d.626.862a. Estimation terminated at iteration number 7 because parameter estimates changed by less than .001.b. Estimation terminated at iteration number 8 because parameter estimates changed by less than .001.c. Estimation terminated at iteration number 20 because maximum iterations has been reached. Final solution cannot be found.d. Estimation terminated at iteration number 9 because parameter estimates changed by less than .001.因此,综合上述两个方面的考虑,可以认为Step3的模型在整体上确实具有显著性和有效性。也就是说,针对Step3的情况,特别的对于Logistic回归模型,我们仍然接受模型整体上是显著的。选取Step3的模型为最终的logistic回归模型,其具体形式为:6.1.2 Logistic回归模型提练的“信息基因”的重要程度分析如前所述,利用Logistic逐步回归过程,确实有效地从140个可能与肿瘤相关的重要基因中提炼出了与肿瘤识别高度相关的3个“信息基因”,还可以进一步从信息量的角度分析这三个“信息基因”的重要程度。下图直观地显示了模型中3个“信息基因”所携带的信息量的大小。可以看出信息基因Has.3121将近携带了肿瘤信息的35%,Has.1804和Has.810也携带了超过30%的信息量,三者几乎平分秋色。至此,本研究提炼出Has.3121、Has.1804和Has.810为最终的三个“肿瘤信息基因”,以期它们能在结肠癌的识别、预防、监控和治疗过程中发挥重要的作用。6.2 Logistic回归模型的分类效果Logistic模型可看作3个信息基因按照Logistic回归方程形式构成的一个综合指标,从而可用作判别函数。它返回闭区间上的任一值,表示任一样本单元是结肠癌患者的概率。当然,Logistic回归判别函数来源于样本,对总体中的样本单元进行推断必然存在误判,但控制误判和给出误判的概率有待进一步研究。Logistic回归判别函数的判别规则为:相应于样本单元Has.3121、Has.1804和Has.810三个基因的取值,评定函数返回值大于0.5所对应的样本单元为结肠癌患者。按照前述的判别规则对对训练集和测试集中的样本单元进行样本类别判定,其中训练集样本识别率达到91.8%,测试集样本识别率达到84%,具体情况汇总如下:Logistic回归模型分类效果观察频数预测值Type误判率识别率01训练集Type01122/1311/1311231/2423/24训练集误判率1/122/253/3734/37测试集Type0811/98/913133/1613/16测试集误判率3/111/144/2521/257. “信息基因”的平均差异性的假设检验对于前述的“融合提炼”方法经过3个步骤(基因的重要性分析模型算术平均贴近度筛选模型Logistic回归分类模型)提取出来的3个“信息基因”,需要检验“这三个基因的表达水平是否真的在正常人和结肠癌患者中存在显著差别”。本文考虑采用“单因子多变量方差分析方法”,来检验三个基因各自表达水平的均值是否在正常人和结肠癌患者中存在显著差别。值得一提的是,这里没有采用“单因子单变量方差分析方法”分别对每一个基因的平均表达水平差异进行检验,是为了从整体上控制犯第一类错误的概率。相关检验结果的SPSS表格输出摘录如下:3个基因整体在不同样本类别中的均值差异性检验 Multivariate TestsbEffectValueFHypothesis dfError dfSig.Y(0-1型)Pillai's Trace.59516.135a3.00033.000.000Wilks' Lambda.40516.135a3.00033.000.000Hotelling's Trace1.46716.135a3.00033.000.000Roy's Largest Root1.46716.135a3.00033.000.000 本文以Wilks Lambda检验结果为评价“均值差异性”的依据,其他检验结果可进行类似分析。由上表可知,Wilks 值为0.405,P-value=0.000<0.01。在统计上,这说明:从整体上讲,Has.3121、Has.1804和Has.810这三个基因在正常人和结肠癌患者中确实存在差