关于肾炎判别的研究毕业论文.doc
2011数模培训练习一组员:曹绍军 刘强 刘小双关于肾炎判别的研究摘要本文利用01拟合和Fisher判别分析,根据人体内各种关键元素的含量,对就诊人员是否患有肾炎做出合理的判断。针对问题一,为得到拟合优度较高的模型,本文把样本容量确定为25。首先令1为健康,0为患病进行01拟合,得出判别表达式。然后和1、0比较,若接近于1,则表示健康;接近于0,表示患有肾炎。为保证结果的可靠性,本文又引入了Fisher判别分析借助于SPSS软件对检测人员进行诊断判别。接着,利用剩余5个数据对两种方法所得结果进行检验,结果较为准确,但具体到所算出的因变量的值,与临界值很接近,故考虑对7个因素中偏离均值最大的值进行剔除。进而利用有效数据对判别表达式参数进行修正。最后,对待诊断的30个病例中各元素的含量代入,检验出61、62、63、64、65、68、69、70、71、72、73、76、83、85、87号为患者,66、67、74、75、77、78、79、80、81、82、84、86、88、89、90号为健康人(加粗表示Fisher判别得到了相反结果的人员)。 针对问题二,考虑到有些因素对其是否为患者的影响不大,通过多元向后筛选法选出了影响肾炎的关键因素,进一步通过Fisher判别分析对待检测人员进行诊断,同样用5个数据对所得结果进行检验,结果拟合度高,对待检测者进行诊断,检测出61、62、63、64、65、66、67、68、69、71、72、73、76、79、83、85、87号为患者,70、74、75、77、78、80、81、82、84、86、88、89、90为健康人(加粗表示与问题一结果相反)。问题一与问题二中的结果非常接近,可以认为,人体内各种元素的含量对身体是否健康都会存在一定的影响,只是有些元素的含量对一些疾病的影响较小。关键词:01拟合 Fisher判别分析 数据剔除 多元逐步分析一、 问题重述人们到医院就诊时,通常要化验一些指标来协助医生的诊断。诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量。本题给出确诊病例的化验结果,其中130号病例是已经确诊为肾炎病人的化验结果;3160号病例是已经确定为健康人的结果。表B.2是就诊人员的化验结果。问题一:根据表B.1中的数据,提出一种或多种简便的判别方法,判别属于患者或健康人的方法,并检验你提出方法的正确性。按照建立的模型判断表B.2中的30名就诊人员的化验结果进行判别,判定他(她)们是肾炎病人还是健康人。问题二:根据表B.1的数据特征,确定哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验的指标。根据关键因素,对他(她)们是否为肾炎病人进行分析,并对问题一、二结果作进一步的分析。其中表B.1、表B.2见附录。二、 问题分析本题是根据医院化验指标,判断诊断人员是否患肾炎的问题,问题一利用0-1拟合与Fisher判别分析方法进行判别。首先通过样本得出相应表达式,又利用剩余数据对其进行检验。通过检验结果与真实情况进行比较,若判别方法准确率低,则舍弃。若两种方法都比较准确,则应具体到所算出的因变量的值,与临界值进行比较,若过于接近,则说明根据数据所得参数存在一定的偏差,所给数据并不是真实可信的,可能在化验过程中可能出现错误,否则,所给数据准确。数据处理框图如下图所示。针对问题二,利用多元变量向后筛选对七个变量进行筛选,重新利用Fisher判别分析,通过筛选后的数据得到模型,并将待测数据代入,对其进行判断。对问题一、二进行比较分析,判断去掉非关键因素对判别结果是否有影响,能否只检查其中的部分元素来判别病例,若影响不大,医生在诊断时,就不用全部化验那些指标,不仅可以减少工作量,而且工作效率也会得以提高。方法显示结果不准确,分析原因,做相应操作因变量过于接近临界值,所给数据不准确剔除数据两种方法都较准确因变量与临界值进行比较两种判别方法进行比较将表B.1的数据分为样本和检验数据得出相应表达式检验(结果准确结束)因变量不接近临界值,所给数据准确图2-1 数据处理框图三、 模型假设1. 假设问题中所提供的已确诊的60个病例,是从许多确诊的病例中随机抽取的,没有特殊的情况,属于一般规律。2. 假设是否患有肾炎只与题目中所给元素的含量有关,与人体内其他的元素的含量无关。3. 假设各元素的含量对人体是否患有肾炎的影响是相互独立的。4. 假设题目中所给的样本只患肾炎或者是健康体,没有患其他的疾病。四、 符号说明依次分别表示人体内元素Zn、Cu、Fe、Ca、Na、K、Mg的含量修正前因变量患者样本因变量均值患者健康人样本因变量均值患者样本容量。 健康人样本容量。修正后因变量判断临界值(阈值)逐步剔除分析的回归方程判别分析修正后的判别表达式五、 模型一建立与求解问题一:5.1 数据分类根据题意可将数据分为两大类。表B.1是确诊病例的化验结果的数据,表B.2是就诊人员的化验结果。根据题意对B.1中数据进行分析得出相应的结果,然后对B.2中数据进行判断。一方面,为了得出可以准确判断出结果的表达式需要更多的数据,另一方面,在对表达式的检验过程中也需要尽可能多的数据。在对B.1样本容量进行初步分析后,选取50组数据用于表达式的计算,剩下的10组数据用于对所得到的表达式进行检验。由于B.1中数据具有随机性,根据分层取样原理,直接选取每组编号最后的五组数据用于检验。5.2 模型建立5.2.1 模型简介01拟合:首先令0为患病,1为健康进行01拟合使用表B.1中用于求取表达式的50组数据,得出判别表达式。然后将用于检验的10组数据代入表达式,将得到的结果和0、1比较,若结果接近于0,则表示患有肾炎病;若结果接近于1,则表示健康。(结果若小于0.5界定为患有肾炎病,结果大于0.5界定为健康,若结果为0.5则无法做出判断)Fisher判别法:从两个总体中抽取具有P个指标的样品观测数据,借助于方差分析的思想构造一个线性判别函数。数据使用同01拟合,对得到的结果与阈值进行比较,当结果小于阈值时界定为患有肾炎病,结果大于阈值界定为健康,若结果等于阈值则无法做出判断。5.2.2 模型建立与求解0-1拟合以就诊人员体内各元素的含量为自变量;就诊人员是否患病为因变量。设0-1拟合模型的一般形式为:(5-1)其中:因变量,为7个对有显著影响的自变量,是8个待估参数,是随机误差项。将用于求取表达式的50组样本数据代入(5-1)式,通过Mathematica软件得到表达式如下(5-2)将用于检验的10组数据代入表达式,检测结果如下表(函数值小于0.5界定为0为患者,函数值大于0.5界定为1为健康人):表5.1 0-1拟合判断结果序号2627282930函数值0.0348946-0.0160506-0.01605060.1840690.0898412判断结果00000序号5657585960函数值1.072281.270810.8612390.6938620.448216判断结果11110Fisher判别分析以就诊人员体内各元素的含量为自变量,为函数值,设判别式如下式:其中:系数确定的原则是使两组间的组间离差最大,而每个组的组内离差最小,即最小。当建立了判别式以后,对一个新的样品值,将其p个指标值代入判别式中求出y值,然后与某个临界值(阈值)比较,就可以将该样品归某类。用SPSS软件对用于求取表达式的50组样本数据进行fisher判别分析得到结果如下表5.2:标准化的典型判别式函数系数函数1Zn.061Cu-1.205Fe.372Ca1.165Mg.524K.052Na-.350表5.2由上表可得表达式如下:(5-3)分类结果a类别预测组成员合计.001.00初始计数.00300301.0042630%.00100.0.0100.01.0013.386.7100.0a. 已对初始分组案例中的 93.3% 个进行了正确分类。表5.3如表中所述:已对初始分组案例中的 93.3% 个进行了正确分类。将患病与健康两组各种元素的均值(见下表)代入以上(53)式可得出判断临界值(阈值)(5-4)其中:、分别表示患者样本、健康人样本因变量均值,、分别表示患者样本、健康人样本容量。采用Excel进行相应数据处理,得到临界值为1267.055。组统计量类别均值标准差有效的 N(列表状态)未加权的已加权的.00Zn143.103353.680433030.000Cu12.33435.052653030.000Fe23.066713.749543030.000Ca698.1667270.195603030.000Mg113.393346.846063030.000K201.1333259.782603030.000Na526.8333300.583693030.0001.00Zn186.600029.682923030.000Cu21.923723.754923030.000Fe62.011775.778483030.000Ca2511.13331271.604493030.000Mg295.1367177.568853030.000K90.370051.318133030.000Na367.2100244.242973030.000合计Zn164.851748.274766060.000Cu17.129017.700086060.000Fe42.539257.454786060.000Ca1604.65001290.856036060.000Mg204.2650158.033036060.000K145.7517193.868896060.000Na447.0217283.212346060.000表5.4得到的结果如下表5.5:病例号ZnCuFeCaMgKNa判别函数值判断结果2611315.847.362653.6168627552.112患病2750.511.66.360858.958.9139685.0425患病2878.614.69.742170.8133464362.8902患病29903.278.1762252.3770852498.46409患病3017828.832.499211270.21691147.0752患病5618217.324.8307324650.71093672.9165健康572112417383642873.53514564.459健康5824621.593.2211235471.71952605.2233健康5916416.138213515264.32402491.0061健康601792135156022647.93301821.4488健康表5.5 Fisher判别分析结果根据表5.5判别函数值列与临界值比较可知:剩余用于检验的病例26、27、28、29、30为患病组。56、57、58、59、60为正常组,准确度为100%。 5.3 结果分析两种方法的拟合度虽然很高,从一定程度上说明本文所给判别方法可行。然而,有些输出结果很接近临界值,表达式参数并不是很精确,样本数据并不是真实可信。机体内所有元素都存在直接或者间接的联系,彼此相互影响,处于平衡状态,但通过观察数据波动图(如下),有些检测者的部分元素含量偏离均值很大,故认为检验者在化验过程中可能出现异常。我们需要采用相应方法对异常数据进行剔除。5.4 模型改进5.4.1剔除数据 在数据的处理过程中我们发现同一种元素在人体内的波动性很大,为了结果的更优,我们觉得有必要对异常数据进行剔除处理。选择每一种元素中偏离所有样本均值最大的个体进行剔除,由于异常数据的集中最终剔除11、24、40三组数据。5.4.2模型改进在剔除11、24、40号数据,得到0-1拟合修正后的判别表达式如下:(5-4)判定结果如下表5.6:序号2627282930函数值0.1309430.4710940.201087-0.1185730.386861判断结果00000序号5657585960函数值1.079531.337331.069910.7150120.642139判断结果11111表5.6 0-1拟合修正后判断结果准确率由90%升至100%,说明剔除工作使模型更加优化。在剔除异常数据后采用fisher模型分析得到Fisher判别分析修正后的判别表达式如下:(5-5)得出临界值为852.8785ZnCuFeCaMgKNa判别值判断结果2611315.847.362653.616862773.7005患病2750.511.66.360858.958.9139341.2865患病2878.614.69.742170.813346435.7791患病29903.278.1762252.3770852-55.179患病3017828.832.499211270.2169589.222患病5618217.324.8307324650.71092049.557健康572112417383642873.53512507.201健康5824621.593.2211235471.71951469.224健康5916416.138213515264.32401318.211健康601792135156022647.9330936.4989健康表5.7 Fisher判别分析修正结果由结果分析表可知模型已对初始分组案例中的 正确分类由93.3%上升至96.5%,对检验数据的判定准确率保持在100%,剔除也使得模型更加优化。问题二5.5 对待检测者结果分析5.5.1纵向比较将就诊人员的数据代入(5-4)式,得出结果如下表5.8所示:表5.8提出异常数据后01拟合对待测者的判断序号61626364656667686970函数值0.3855870.478520.3417740.0044760.282080.5825381.179370.3455060.2363350.795217判断结果0000011000序号71727374757677787980函数值-0.228310.1315770.2339010.6671650.5563590.3345110.6458240.5788560.551530.878191判断结果0001101111序号81828384858687888990函数值0.9257470.968370.0165181.075030.0557280.6240760.3120611.028691.540740.509404判断结果1101010111就诊人员30人,其中15人患肾炎,15人健康,患病率为50%。将就诊人员的数据代入(5-5)式,得出结果如下表5.9所示:表5.9提出异常数据后Fisher判别分析对待测者的判断序号ZnCuFeCaMgKNa判别值判断结果6158.25.4229.73231381795134.26344患病621061.8740.5542177184427216.8724患病631520.812.51332176128646572.5341患病6485.51.73.9950362.3238762.6-90.5435患病651440.715.154779.771218.5255.4092患病6685.71.094.279017045.8257.9453.4837患病671440.39.1141755249.5141.5517.6793患病681704.169.32943260155680.8350.3903患病691760.5727.331813399.4318.883.53809患病701927.0632.919693431035531145.364健康711888.2822.6120823113141372136.288患病721535.8734.8328163264672.5-84.7112患病731432.8415.726512373347.526.22508患病7421319.136.2222024962465.81291.702健康7519220.123.81606156401681007.404健康7617110.530.567214547330.5312.2575健康7716213.219.8152116636.2133984.83健康782031390.8154416298.9394.5872.3928健康7916420.128.9106216147.3134.5688.0232患病8016713.114.1227821236.596.51520.272健康8116412.918.6299319765.5237.81892.896健康821671527205626044.8721428.701健康8315814.4371025101180899.5188.1843患病8413322.831.316334012282891133.68健康85169830.8106899.153817254.6099患病8624717.38.65255424177.5373.51535.934健康871853.931.31211190134649.8503.2802患病882096.4386.9215728874219.81448.286健康891826.4961.73870432143367.52555.077健康9023515.623.4180616668.91881123.425健康就诊人员30人,其中16人患肾炎,14人健康,患病率为53.33%。5.5.2 横向比较两种方法均检验出61、62、63、64、65、68、69、71、72、73、83、85、87号为患者,74、75、77、78、80、81、82、84、86、88、89、90号为健康人;而66、67、70、76、79得出判断结果不同。对两种方法进行横向比较结果如下表5.10所示:表5.10剔除异常数据后01拟合与Fisher判别判断结果比较序号616263646566676869700-1拟合患病患病患病患 病患病健康健康患病患病患病Fisher判别患病健康患病患 病患病患病患病患病患病健康序号717273747576777879800-1拟合患病患病患病健 康健康患病健康健康健康健康Fisher判别患病患病患病健 康健康健康健康健康患病健康序号818283848586878889900-1拟合健康健康患病健 康患病健康患病健康健康健康Fisher判别健康健康患病健 康患病健康患病健康健康健康六、 模型二建立与求解问题三6.1 模型建立6.1.1 多元逐步回归向后筛选策略考虑全部自变量中按其对因变量作用大小, 显著程度大小或者说贡献大小, 由大到小地逐个剔除回归方程, 而对那些对因变量作用显著的变量可能始终保留在回归方程。从回归方程中剔除一个变量都为逐步回归的一步, 每一步都要进行F检验, 以保证在剔除新变量后回归方程中只含有对因变量影响显著的变量, 而不显著的变量已被剔除。由于有些化验指标对结果的影响并不大,为降低人力、物力成本,利用较少的、具有代表性的因子对肾炎的检测进行判断,采用多元逐步回归找出关键因素。用SPSS软件作多元逐步回归,得到结果汇总如下表6.1:模型汇总e模型RR 方调整 R 方标准 估计的误差更改统计量R 方更改F 更改df1df2Sig. F 更改1.844a.713.672.28895.71317.375749.0002.844b.713.678.28609.000.015149.9033.842c.709.681.28491-.003.580150.4504.838d.701.679.28598-.0081.391151.244a. 预测变量: (常量), Na, Mg, Fe, Cu, Zn, K, Ca。b. 预测变量: (常量), Na, Mg, Fe, Cu, Zn, Ca。c. 预测变量: (常量), Na, Mg, Fe, Zn, Ca。d. 预测变量: (常量), Na, Mg, Fe, Ca。e. 因变量: 类别表6.1 多元逐步回归结果汇总该表格显示逐步回归的四个模型的复相关系数(R)及决定系数(R方)和校正的决定系数。从表中可以看出,随着引入自变量的减少,模型能解释的比率(校正的R方)也没有多大变化,说明可以剔除该因素的影响,此模型可以很好地找到关键因素。系数a模型非标准化系数标准系数tSig.相关性共线性统计量B标准 误差试用版零阶偏部分容差VIF1(常量).211.223.946.349Zn-.001.001-.107-1.001.322.444-.142-.077.5131.951Cu-.004.006-.073-.688.495.320-.098-.053.5191.926Fe.003.001.2362.962.005.330.390.227.9211.086Ca.000.000.4402.834.007.749.375.217.2434.118Mg.002.001.4152.917.005.711.385.223.2903.454K6.230E-5.001.015.123.903-.339.018.009.4012.497Na-.001.000-.278-2.250.029-.310-.306-.172.3842.6072(常量).220.2061.072.289Zn-.001.001-.111-1.083.284.444-.151-.082.5521.813Cu-.004.006-.077-.761.450.320-.107-.058.5651.770Fe.003.001.2352.994.004.330.390.227.9301.075Ca.000.000.4453.004.004.749.391.228.2613.825Mg.002.001.4112.997.004.711.390.227.3053.274Na-.001.000-.268-2.874.006-.310-.376-.218.6591.5183(常量).212.2051.038.304Zn-.001.001-.119-1.180.244.444-.163-.089.5581.791Fe.003.001.2443.158.003.330.404.238.9521.051Ca.000.000.3883.052.004.749.393.230.3532.834Mg.002.001.4243.128.003.711.401.236.3103.224Na-.001.000-.290-3.287.002-.310-.418-.248.7301.3714(常量).005.106.052.959Fe.003.001.2303.000.004.330.384.227.9751.025Ca.000.000.3903.061.003.749.391.232.3532.833Mg.002.001.3632.886.006.711.372.219.3622.761Na.000.000-.242-3.082.003-.310-.393-.233.9321.073a. 因变量: 类别表6.2各个系数的检验首先剔除偏回归系数最小的K变量(模型1),剩下的变量在固定了Na, Mg, Fe, Cu, Zn, Ca的影响后再进行分析,找到偏回归系数最小的,并进行显著性检验,只有在变量不具有统计学意义的时候才能剔除,从而依次剔出了Cu(模型2)、Zn(模型3)。K因检验不具有统计学意义,最开始便剔除。综合以上表格,可以得出逐步剔除分析的回归方程依次为:(61)(62)(63)(64)最后一个方程即为最优的回归方程。从回归方程也可以看出,Na, Mg, Fe, Ca线性关系。问题四6.1.2 模型建立在剔除异常数据后采用fisher模型分析得到Fisher判别分析修正后的判别表达式如下:(65)6.2 模型求解6.2.1 模型求解采用Excel进行相应数据处理,得到临界值为781.4556判断结果如下表:表6.3 Fisher判别分析结果FeCaMgNa判断值判断结果2647.362653.662790.7389患病276.360858.9139309.5206患病289.742170.846448.6577患病298.1762252.3852-44.00955患病3032.4992112169553.471患病5624.830732461091830.712健康571738364283512238.114健康5893.221123541951337.351健康593821351522401188.573健康60351560226330858.369健康6129.732313851315.7055患病6240.5542177427209.6295患病6312.51332176646531.9635患病643.9950362.3762.6-62.6719患病6515.154779.7218.5250.8743患病664.2790170257.9413.6513患病679.11417552141.5477.3258患病689.32943260680.8340.1196患病6927.3318133318.8106.6281患病7032.919693435531041.691健康7122.612082311372132.268患病7234.8328163672.5-45.3005患病7315.7265123347.551.147患病7436.22220249465.81176.389健康7523.81606156168921.395健康7630.5672145330.5308.981患病7719.81521166133894.665健康7890.81544162394.5807.6145健康7928.91062161134.5636.103患病8014.1227821296.51363.736健康8118.62993197237.81690.39健康82272056260721283.589健康83371025101899.5200.7105患病8431.316334012891016.305健康8530.8106899.1817262.4959患病868.652554241373.51393.967健康8731.31211190649.8478.4431患病8886.92157288219.81310.415健康8961.73870432367.52272.493健康9023.418061661881029.735健康问题五6.2.2 模型分析将找出关键元素前后使用相同的fisher模型分析方法处理的结果比较如下表6.4:序号26272829305657585960问题二患病患病患病患病患病健康健康健康健康健康问题四患病患病患病患病患病健康健康健康健康健康序号61626364656667686970问题二患病患病患病患病患病患病患病患病患病健康问题四患病患病患病患病患病患病患病患病患病健康序号717273747576