关于肾炎判别的研究毕业论文.doc
《关于肾炎判别的研究毕业论文.doc》由会员分享,可在线阅读,更多相关《关于肾炎判别的研究毕业论文.doc(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2011数模培训练习一组员:曹绍军 刘强 刘小双关于肾炎判别的研究摘要本文利用01拟合和Fisher判别分析,根据人体内各种关键元素的含量,对就诊人员是否患有肾炎做出合理的判断。针对问题一,为得到拟合优度较高的模型,本文把样本容量确定为25。首先令1为健康,0为患病进行01拟合,得出判别表达式。然后和1、0比较,若接近于1,则表示健康;接近于0,表示患有肾炎。为保证结果的可靠性,本文又引入了Fisher判别分析借助于SPSS软件对检测人员进行诊断判别。接着,利用剩余5个数据对两种方法所得结果进行检验,结果较为准确,但具体到所算出的因变量的值,与临界值很接近,故考虑对7个因素中偏离均值最大的值进
2、行剔除。进而利用有效数据对判别表达式参数进行修正。最后,对待诊断的30个病例中各元素的含量代入,检验出61、62、63、64、65、68、69、70、71、72、73、76、83、85、87号为患者,66、67、74、75、77、78、79、80、81、82、84、86、88、89、90号为健康人(加粗表示Fisher判别得到了相反结果的人员)。 针对问题二,考虑到有些因素对其是否为患者的影响不大,通过多元向后筛选法选出了影响肾炎的关键因素,进一步通过Fisher判别分析对待检测人员进行诊断,同样用5个数据对所得结果进行检验,结果拟合度高,对待检测者进行诊断,检测出61、62、63、64、65
3、、66、67、68、69、71、72、73、76、79、83、85、87号为患者,70、74、75、77、78、80、81、82、84、86、88、89、90为健康人(加粗表示与问题一结果相反)。问题一与问题二中的结果非常接近,可以认为,人体内各种元素的含量对身体是否健康都会存在一定的影响,只是有些元素的含量对一些疾病的影响较小。关键词:01拟合 Fisher判别分析 数据剔除 多元逐步分析一、 问题重述人们到医院就诊时,通常要化验一些指标来协助医生的诊断。诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量。本题给出确诊病例的化验结果,其中130号病例是已经确诊为肾炎病人的化验结果;3160
4、号病例是已经确定为健康人的结果。表B.2是就诊人员的化验结果。问题一:根据表B.1中的数据,提出一种或多种简便的判别方法,判别属于患者或健康人的方法,并检验你提出方法的正确性。按照建立的模型判断表B.2中的30名就诊人员的化验结果进行判别,判定他(她)们是肾炎病人还是健康人。问题二:根据表B.1的数据特征,确定哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验的指标。根据关键因素,对他(她)们是否为肾炎病人进行分析,并对问题一、二结果作进一步的分析。其中表B.1、表B.2见附录。二、 问题分析本题是根据医院化验指标,判断诊断人员是否患肾炎的问题,问题一利用0-1拟合与Fisher判别分析方
5、法进行判别。首先通过样本得出相应表达式,又利用剩余数据对其进行检验。通过检验结果与真实情况进行比较,若判别方法准确率低,则舍弃。若两种方法都比较准确,则应具体到所算出的因变量的值,与临界值进行比较,若过于接近,则说明根据数据所得参数存在一定的偏差,所给数据并不是真实可信的,可能在化验过程中可能出现错误,否则,所给数据准确。数据处理框图如下图所示。针对问题二,利用多元变量向后筛选对七个变量进行筛选,重新利用Fisher判别分析,通过筛选后的数据得到模型,并将待测数据代入,对其进行判断。对问题一、二进行比较分析,判断去掉非关键因素对判别结果是否有影响,能否只检查其中的部分元素来判别病例,若影响不大
6、,医生在诊断时,就不用全部化验那些指标,不仅可以减少工作量,而且工作效率也会得以提高。方法显示结果不准确,分析原因,做相应操作因变量过于接近临界值,所给数据不准确剔除数据两种方法都较准确因变量与临界值进行比较两种判别方法进行比较将表B.1的数据分为样本和检验数据得出相应表达式检验(结果准确结束)因变量不接近临界值,所给数据准确图2-1 数据处理框图三、 模型假设1. 假设问题中所提供的已确诊的60个病例,是从许多确诊的病例中随机抽取的,没有特殊的情况,属于一般规律。2. 假设是否患有肾炎只与题目中所给元素的含量有关,与人体内其他的元素的含量无关。3. 假设各元素的含量对人体是否患有肾炎的影响是
7、相互独立的。4. 假设题目中所给的样本只患肾炎或者是健康体,没有患其他的疾病。四、 符号说明依次分别表示人体内元素Zn、Cu、Fe、Ca、Na、K、Mg的含量修正前因变量患者样本因变量均值患者健康人样本因变量均值患者样本容量。 健康人样本容量。修正后因变量判断临界值(阈值)逐步剔除分析的回归方程判别分析修正后的判别表达式五、 模型一建立与求解问题一:5.1 数据分类根据题意可将数据分为两大类。表B.1是确诊病例的化验结果的数据,表B.2是就诊人员的化验结果。根据题意对B.1中数据进行分析得出相应的结果,然后对B.2中数据进行判断。一方面,为了得出可以准确判断出结果的表达式需要更多的数据,另一方
8、面,在对表达式的检验过程中也需要尽可能多的数据。在对B.1样本容量进行初步分析后,选取50组数据用于表达式的计算,剩下的10组数据用于对所得到的表达式进行检验。由于B.1中数据具有随机性,根据分层取样原理,直接选取每组编号最后的五组数据用于检验。5.2 模型建立5.2.1 模型简介01拟合:首先令0为患病,1为健康进行01拟合使用表B.1中用于求取表达式的50组数据,得出判别表达式。然后将用于检验的10组数据代入表达式,将得到的结果和0、1比较,若结果接近于0,则表示患有肾炎病;若结果接近于1,则表示健康。(结果若小于0.5界定为患有肾炎病,结果大于0.5界定为健康,若结果为0.5则无法做出判
9、断)Fisher判别法:从两个总体中抽取具有P个指标的样品观测数据,借助于方差分析的思想构造一个线性判别函数。数据使用同01拟合,对得到的结果与阈值进行比较,当结果小于阈值时界定为患有肾炎病,结果大于阈值界定为健康,若结果等于阈值则无法做出判断。5.2.2 模型建立与求解0-1拟合以就诊人员体内各元素的含量为自变量;就诊人员是否患病为因变量。设0-1拟合模型的一般形式为:(5-1)其中:因变量,为7个对有显著影响的自变量,是8个待估参数,是随机误差项。将用于求取表达式的50组样本数据代入(5-1)式,通过Mathematica软件得到表达式如下(5-2)将用于检验的10组数据代入表达式,检测结
10、果如下表(函数值小于0.5界定为0为患者,函数值大于0.5界定为1为健康人):表5.1 0-1拟合判断结果序号2627282930函数值0.0348946-0.0160506-0.01605060.1840690.0898412判断结果00000序号5657585960函数值1.072281.270810.8612390.6938620.448216判断结果11110Fisher判别分析以就诊人员体内各元素的含量为自变量,为函数值,设判别式如下式:其中:系数确定的原则是使两组间的组间离差最大,而每个组的组内离差最小,即最小。当建立了判别式以后,对一个新的样品值,将其p个指标值代入判别式中求出y
11、值,然后与某个临界值(阈值)比较,就可以将该样品归某类。用SPSS软件对用于求取表达式的50组样本数据进行fisher判别分析得到结果如下表5.2:标准化的典型判别式函数系数函数1Zn.061Cu-1.205Fe.372Ca1.165Mg.524K.052Na-.350表5.2由上表可得表达式如下:(5-3)分类结果a类别预测组成员合计.001.00初始计数.00300301.0042630%.00100.0.0100.01.0013.386.7100.0a. 已对初始分组案例中的 93.3% 个进行了正确分类。表5.3如表中所述:已对初始分组案例中的 93.3% 个进行了正确分类。将患病与健
12、康两组各种元素的均值(见下表)代入以上(53)式可得出判断临界值(阈值)(5-4)其中:、分别表示患者样本、健康人样本因变量均值,、分别表示患者样本、健康人样本容量。采用Excel进行相应数据处理,得到临界值为1267.055。组统计量类别均值标准差有效的 N(列表状态)未加权的已加权的.00Zn143.103353.680433030.000Cu12.33435.052653030.000Fe23.066713.749543030.000Ca698.1667270.195603030.000Mg113.393346.846063030.000K201.1333259.782603030.00
13、0Na526.8333300.583693030.0001.00Zn186.600029.682923030.000Cu21.923723.754923030.000Fe62.011775.778483030.000Ca2511.13331271.604493030.000Mg295.1367177.568853030.000K90.370051.318133030.000Na367.2100244.242973030.000合计Zn164.851748.274766060.000Cu17.129017.700086060.000Fe42.539257.454786060.000Ca1604.
14、65001290.856036060.000Mg204.2650158.033036060.000K145.7517193.868896060.000Na447.0217283.212346060.000表5.4得到的结果如下表5.5:病例号ZnCuFeCaMgKNa判别函数值判断结果2611315.847.362653.6168627552.112患病2750.511.66.360858.958.9139685.0425患病2878.614.69.742170.8133464362.8902患病29903.278.1762252.3770852498.46409患病3017828.832.4
15、99211270.21691147.0752患病5618217.324.8307324650.71093672.9165健康572112417383642873.53514564.459健康5824621.593.2211235471.71952605.2233健康5916416.138213515264.32402491.0061健康601792135156022647.93301821.4488健康表5.5 Fisher判别分析结果根据表5.5判别函数值列与临界值比较可知:剩余用于检验的病例26、27、28、29、30为患病组。56、57、58、59、60为正常组,准确度为100%。 5.
16、3 结果分析两种方法的拟合度虽然很高,从一定程度上说明本文所给判别方法可行。然而,有些输出结果很接近临界值,表达式参数并不是很精确,样本数据并不是真实可信。机体内所有元素都存在直接或者间接的联系,彼此相互影响,处于平衡状态,但通过观察数据波动图(如下),有些检测者的部分元素含量偏离均值很大,故认为检验者在化验过程中可能出现异常。我们需要采用相应方法对异常数据进行剔除。5.4 模型改进5.4.1剔除数据 在数据的处理过程中我们发现同一种元素在人体内的波动性很大,为了结果的更优,我们觉得有必要对异常数据进行剔除处理。选择每一种元素中偏离所有样本均值最大的个体进行剔除,由于异常数据的集中最终剔除11
17、、24、40三组数据。5.4.2模型改进在剔除11、24、40号数据,得到0-1拟合修正后的判别表达式如下:(5-4)判定结果如下表5.6:序号2627282930函数值0.1309430.4710940.201087-0.1185730.386861判断结果00000序号5657585960函数值1.079531.337331.069910.7150120.642139判断结果11111表5.6 0-1拟合修正后判断结果准确率由90%升至100%,说明剔除工作使模型更加优化。在剔除异常数据后采用fisher模型分析得到Fisher判别分析修正后的判别表达式如下:(5-5)得出临界值为852.
18、8785ZnCuFeCaMgKNa判别值判断结果2611315.847.362653.616862773.7005患病2750.511.66.360858.958.9139341.2865患病2878.614.69.742170.813346435.7791患病29903.278.1762252.3770852-55.179患病3017828.832.499211270.2169589.222患病5618217.324.8307324650.71092049.557健康572112417383642873.53512507.201健康5824621.593.2211235471.7195146
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关于 肾炎 判别 研究 毕业论文
限制150内