《诊断肾炎问题》word版.doc
《《诊断肾炎问题》word版.doc》由会员分享,可在线阅读,更多相关《《诊断肾炎问题》word版.doc(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、诊断肾炎问题罗隆琪(数理学院) 钟 文(数理学院) 黄礼斌(信息科学与传媒学院)诊断问题摘要 本文首先提出距离判别法和判别法判别属于肾炎病人或非肾炎病人,根据已确诊的病例的化验结果分别列出距离判别法和判别法的判别函数。然后将已确诊的病例化验结果数据回代入判别函数中,得到距离判别法判别法的回代准确率为回代效果高,判别法的回代准确率为准确率也较高。且通过观察回代函数值知在距离判别法中可根据判别函数值的正负判别是肾炎病人还是非肾炎病人,判别函数值为正表示为肾炎病人,为负则为非肾炎病人。在判别法中首先我们计算出它的阀值,代入判别函数其值小于阀值的为肾炎病人,大于阀值的为非肾炎病人。对于判定表二中的30
2、名就诊人员的是肾炎病人还是非肾炎病人的问题,我们将表二中的就诊人员的化验结果数据分别代入距离判别法和判别法的判别函数中,通过计算得出:运用距离判别法得出的结果为:肾炎病人:;非肾炎病人:;运用判别法得出的结果为:肾炎病人:;非肾炎病人:;就问题三确定哪些指标是影响人们患肾炎的主要因素,我们采用主成分分析法进行分析,再利用进行求解。可取到前两主成分,即:故可判定是影响人们患肾炎的关键或主要因素,求得:而问题四跟据问题三的结果和患病与非患病的特点判定号病例是否患病:肾炎病人:;非肾炎病人:;最后,通过对的分析,分别对距离判别法、判别法和主成分分析法进行数据处理、比较,得出主成分分析法得出的结果是最
3、准确的,距离判别法其次。关键字 距离判别法、判别法、主成分分析法一、问题的重述人们到医院就诊时,通常要化验一些指标来协助医生的诊断。诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量。表1是确诊病例的化验结果,其中130号病例是已经确诊为肾炎病人的化验结果;3160号病例是已经确定为非肾炎病人的结果。表2是就诊人员的化验结果。我们的问题是:1.根据表1中的数据,提出一种或多种简便的判别方法,判别属于肾炎病人或非肾炎病人的方法,并检验你提出方法的正确性;2.按照1提出的方法,判断表2中的30名就诊人员的化验结果进行判别,判定他(她)们是肾炎病人还是非肾炎病人;3.能否根据表表1的数据特征,确定
4、哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验的指标;4.根据3的结果,重复2的工作;5.对2和4的结果作进一步的分析。病例表详见附录。二、模型的假设和符号说明2.1模型的假设(1)两总体肾炎病人和非肾炎病人化验结果中各元素的期望值,标准差和由数据给出的样本的统计量是一致的;(2)两总体的各元素服从正态分布;(3)两总体肾炎病人和非肾炎病人的数量之比为一个确定的值;(4)化验结果中每个元素的值之间没有影响。2.2符号的说明表示表中各元素的编号;表示各个总体的样本均值向量;表示各总体的离差矩阵;表示阀值;表示总体的协方差矩阵。其它变量符号在文中使用时给出说明。三、问题的分析3.1问题一、
5、二的问题分析:对于判别属于肾炎病人或非肾炎病人的方法的问题,我们选用距离判别法和判别法进行判别,首先我们考虑运用距离判别法并根据已给的确诊病例的化验结果的特征对表二中的就诊人员进行判别。根据确诊病例的化验结果列出观测矩阵及样本容量,计算出样本的均值向量和各总体的样本离差矩阵,对化验结果中的各种元素建立判别函数,依据的正负做出归类结论,为正表示该就诊人员为肾炎患者,若为负表示该就诊人员为非肾炎患者。对于原确诊的病例回代到中,检验回代效果。对于表二中的30名就诊人员的化验结果中的各检测元素代入中并计算出它的值,根据的正负判定就诊人员是肾炎患者或非肾炎患者。对于判别法,列出样本观测矩阵,同一类别的样
6、本在特征空间中聚集在一起,计算出样本的均值向量,写出判别法的判别函数,根据已确定的就诊人员检测的各元素的含量求出阀值,将确诊病例的各元素的值回代到判别函数中并算出函数值与阀值进行比较,比阀值小的为肾炎患者,否则为非肾炎患者。对于待判定的就诊人员,将其检测的各元素的值代入判定函数中计算出函数值与阀值比较确定肾炎患者和非肾炎患者的分类问题。3.2问题三和问题四的问题分析原数据中有个指标影响着患者,其中有些指标影响少,可对其进行删减,选出比原始变量个数少,能主要影响肾炎的几个指标,即主成分,故这利用主成分分析法来进行计算。用分别表示的系数,现只考虑的影响,我们对其附表一中位肾炎患者和位非肾炎患者进行
7、比较,其图如下:图一由图可看出对是否是肾炎患者几乎无区别,对是否是肾炎患者有很大区别,所以我们有必要对其进行删减,选出其主成分。选出其主成分后,分别对肾炎患者和非肾炎患者进行数据处理,对其进行分析找出其区别,再对需要判定的人进行数据处理,判定其是否是肾炎患者。3.3问题五的问题分析:由问题三的问题分析和图一可知,对是否是肾炎患者的区别很大,大致可认为肾炎患者的的含量大约在以下,而非肾炎患者的的含量大约在以上,所以我们对于问题二和问题四的结果作进一步分析可以认为是对的含量分析,来判定是否患病,进而与问题二和问题四的结果进行比较来判定它们的大致准确性。四、建模前的准备4.1距离判别法:按样品到总体
8、的最近“距离”来进行分类。设是从均值向量,协方差矩阵为的总体中取出的两个样品(若对每个样品,有种观测资料,则每个样品可用中的一个点来表示);1、与两点间的 (马氏)距离:2、点与总体的距离为:3、设两总体的均值向量分别为,协方差矩阵分别为都为已知,建立判别函数:若则判别,若则判别4、实际中统计量的估计:实际中是常常不知道的,则可根据样本观测矩阵分别算出它们的无偏估计再进行判别。例如:设从两总体中各抽取样本容量的样本即则 若两总体的协方差阵是相同的,则其中若当未知时,可用代替上式中的再依的正负进行判别。4.2 Fisher(费歇尔)判别法设有个总体相应的均值向量和协方差矩阵分别为,且为正定矩阵从
9、中抽取容量为的样本则为在轴上的投影,记这里分别为组内平均向量及点平均向量:组内差为:其中:,即为样本离差矩阵。组间差为: ;其中:。令,现在要求使达到最大关键是选择,但至于的长度无关紧要,为保证解的唯一性,附加一条件,利用Lagrange乘数法,令;由于均为对称矩阵于是;令为解方程组,将第一式两边左乘,并用第二式使得,要使得最大,等价于最大,而当可逆时,用右乘两边,得:而,这表明的最大特征值,为最大特征向量,这样判别函数就可求出Fisher判别法具体步骤:(1)列出样本观测阵;(2)求出各个总体的样本均值向量及总平均向量;(3)计算;(4)计算;(5)计;(6)求的最大特征值及对应的特征向量,
10、当时,可算出;(7)写出判别函数,并求出阀值阀值的求法:将代入得再将按从小到大排列,例如设,则相邻两类,的阀值为或;(8)回代样本,进行判别,对给定的样品,若相应的介于与之间,则判属于。4.3问题三的准备:主成分分析法的计算步骤:1) 计算相关系数矩阵在公式(3)中,为原来变量与的相关系数,其计算公式为因为是实对称矩阵(即),所以只需计算其上三角元素或下三角元素即可。2) 计算特征值与特征向量首先解特征方程求出特征值,并使其按大小顺序排列,即;然后分别求出特征值的特征向量。3) 计算主成分贡献率及累计贡献率主成分贡献率:,累计贡献率:一般取累计贡献率达85%-95%的特征值所对应的第一,第二,
11、第个主成分。4)计算主成分载荷由此可以进一步计算主成分得分:以上步骤我们可以用求解:其中表示为协方差矩阵。五、模型的建立与求解5.1问题一与问题二模型的建立与求解5.1.1距离判别法提取特征,就诊人员的化验结果的每种元素为一特征特征编号 计算各个总体的样本均值向量,确诊为肾炎患者样本的均值向量:确诊为非肾炎患者的样本均值向量:计算肾炎患者和非肾炎患者样本的离差矩阵类似的计算出非肾炎患者样本的离差矩阵,则判别函数为:根据已知确诊病例样品的样本值代入中值的符号,可知回代效果准确率达到以上,因此回代效果明显,对于待判对象表二中的30位就诊人员,将其化验元素结果代入中,得到的值依次为61-703.93
12、41.271-0.5814.6551.8200.593-3.3670.6201.978-4.41371-802.056 3.747 3.221 -2.252 0.500 2.597 -0.617 -1.351 2.287 -3.932 81-90-5.964 -3.650 4.481 -1.499 2.947 -3.667 -0.175 -6.881 -13.616 -1.353 为正表示该就诊人员是肾炎患者,为负表示该就诊人员是非肾炎患者。因此根据上表可得病例号为肾炎患者,病例号,为非肾炎患者。5.1.2判别法样本空间为2,故可取判别函数为记取判别阀值为对确诊病例进行回代回代效果准确率达到,
13、回代效果显著,且根据其数据特征知判别函数值大于阀值的为非肾炎患者,小于阀值为肾炎患者。将待确诊的就诊人员的化验结果代入判别函数中得到为非肾炎病人,其余的为肾炎病人。5.2问题三的模型建立与求解以附表前行列为总体主成分矩阵,根据模型建立和问题分析,利用求解可得:各样本主成分的贡献率分别为前两个主成分的累计贡献率达到,故在实际中只取前两主成分。即: 由此可知,第一主成分与有较大的负相关,第二主成分与有较大的负相关,与有较大的正相关,故可认为是影响人们患肾炎的关键或主要因素,进而可以只考虑的影响关系。根据此前的步骤,以前60行特定5列为总体主成分,同理可得:第一主成分的贡献率达到,符合其标准,所以在
14、实际中只取第一主成分为:5.3问题四的求解设则附表前30行特定5列(即肾炎患者的的系数)与B相乘,所得结果大都是3位数,见附表,附表第31行到60行特定5列(即非肾炎患者的的系数)与B相乘,所得结果大都是4位数,所以用附表后30行特定5列(需要判别的的系数)相乘得到一系列数据,因此可判定为肾炎患者。5.4问题五的求解我们对号病例中进行分析,为了观测方便,我们把所有的数据作图,如下图:图二由图二与问题五的分析可判定是肾炎患者,这完全与问题四的结果一样,用距离判别法所求结果肾炎患者是,它与的相似率为,再考虑用判别法所求的结果,它所求出的肾炎患者是,它与第五问所求的相似率为。又因为在问题三中我们可知
15、是最主要的影响因素,所以我们可以认定用主成分分析法的结果更准确,距离判别法其次,判别法更差一点。六、结果分析根据问题一提出的两种判别方法对待判定的就诊人员的化验结果进行判定,根据距离判别法知为肾炎患者,其余的均为非肾炎患者,而根据判别法知为非肾炎患者,其余的为肾炎患者。由于两种判别方法的回代效果都未达到100%因此判定结果存在偏差。由问题三的结果可知,如果选取其中相关系数绝对值最大者作为作表,则是,它在决定是否患有肾炎有绝对的代表权。我们从医学上了解,影响患肾炎的因素有,而在我们所求得的结果中,这三种因素都有,所有我们可以认定,问题三的结果符合实际情况。由第三问中选出的主成分来判定出来的结果,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 诊断肾炎问题 诊断 肾炎 问题 word
限制150内