2022年医学专题—肝手术病人模型.docx
《2022年医学专题—肝手术病人模型.docx》由会员分享,可在线阅读,更多相关《2022年医学专题—肝手术病人模型.docx(22页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、肝手术病人生存时间的预测模型第三队白 璇 罗基莉 张晓辉 (女) (女) (男)肝手术病人生存时间的预测模型摘 要 本文针对肝手术病人四项指标与生存时间的关系数据进行了分析计算. 运用多项式拟合的方法,建立多元线性回归模型,并经过多次改进,最终得出病人生存时间的预测模型.首先,利用题中所给数据,分别做出凝血值,预后指数,酵素化验值,肝功化验值与病人生存时间的散点图,由图像拟合得出此四项指标与生存时间的线性回归模型. 在此基础上,考虑交叉项的影响,建立多元非线性回归模型一,利用MATLAB计算出模型一的自变量系数,置信区间和检验统计量,依此判断模型中各参量对生存时间的影响程度,得出交叉项对生存时
2、间影响不太显著,没有必要引入模型.其次,不考虑交叉项的影响做出以生存时间为因变量,四项指标为自变量的多元线性回归模型二,利用与模型一同样的求解方法得出肝功化验值对生存时间的影响不显著,故将其在模型中剔除,建立改进后的模型三. 利用同样的方法计算出结果并剔除异常数据后,最终得出预测模型四.再次,利用表数据拟合模型四得到预测生存时间,与真实生存时间进行对比分析,从而验证了模型四的合理性和精确度. 得出凝血值,预后指数,酵素化验值对生存时间的灵敏度依次增大的结论. 最后,本文对模型进行了分析评价, 然后将该模型推广到其它预测问题中.关键词 线性回归 检验统计量 预测模型一问题重述为了对做过某一类型肝
3、手术病人的生存时间做预测,某医院外科随机的选取了位需要做此手术的病人为研究对象.对每位病人手术前考察了下列四个指标:凝血值;预后指数;酵素化验值;肝功化验值.根据题目中表 给出的数据,建立合适的数学模型,以预测病人手术后的生存时间.并解答以下问题:1.考虑自变量交互项对模型结果的影响,并判断有无将其引入模型的必要.2.在此分析的基础上建立模型.模型建立后,需说明模型的合理性. 3.使用残差图分析的方法,分析剔除肝功能化验值对模型结果的影响,以改进模型. 4. 评估关于误差正态性假定的合理性.5引入其他有用的数据进行分析.根据题目中表所给的数据,首先拟合问题1.2中所选择的模型,得出相关数据,并
4、与原来所得数据进行比较,以评价所选择模型的稳定性和预测能力.最后,综合表和表中的数据,对所选择模型的精细和确认性分析,对所得结果进行评价.二 问题分析为较为准确地预测做过某一类肝手术病人的生存时间,需运用曲线拟合的方法,建立以病人手术前的四项指标(凝血值,预后指数,酵素化验值,肝功化验值)为回归变量,手术后生存时间对数变换值为因变量的回归模型. 针对问题1.1,要确定最终的回归模型中是否引入自变量交叉项,需考虑引入自变量交叉项对因变量的影响程度,如果影响不显著,则不需引入;反之,则需要引入. 针对问题1.2,建立合理模型不仅需考虑交叉项对模型结果的影响,还需考虑某项指标对模型结果的影响,是否引
5、入该项亦须考虑其影响的显著程度. 验证模型合理性只需将自变量值代入预测模型当中,比较预测值与实际值间的差值,即可验证.针对问题1.3,根据问题1.2的求解过程,可画出剔除肝功化验值前后模型的残差图. 对比两个残差图,若变化明显,则不可剔除肝功化验值;反之,则可剔除.针对问题1.4,可对问题1.2中的残差值画出残差图和残差正态分布图,观察图像即可评估误差正态性假定的合理性.针对问题1.5,肝手术后生存时间还与其他指标相关,搜索相关指标的数据,并将其作为新的自变量进行曲线拟合,对模型进行修正. 针对问题2.1,首先运用曲线拟合的方法对问题一中所选模型进行拟合,并与模型一中各自变量的回归系数以及检验
6、统计量进行比较,以此判断所选模型的合理性. 针对问题2.2,要评价模型的预报能力,须将表2中的自变量代入问题一中的预测模型中,计算出预测值与真实之间的误差,以此为依据评价所选模型的准确性. 针对问题2.3,要对模型做出精细性分析,可以考虑自变量的灵敏度. 分别剔除一个自变量后,计算出模型的检验统计值,与模型三作比较,以此为参考得出各自变量的灵敏度.三 基本假设1. 仅考虑题中所给指标对手术后生存时间的影响;2. 患者无其他病变和意外情况发生;3. 残差大致符合均值为零的正态分布.四 符号表示 病人编号第位病人的凝血值第位病人的预后指数第位病人的酵素化验值第位病人的肝功化验值病人生存时间对数变换
7、值病人生存时间对数变换预测值模型拟合产生的随机误差普通残差. 即实际观测值与回归值的偏差模型中自变量的系数回归模型的决定系数模型的统计量值统计量值对应的概率值模型的置信水平随机误差的方差方差的无偏估计值五 模型建立与求解根据题目所给表格,确定四项指标与病人生存时间对数值的关系,然后分析模型的合理性并给出预测. 首先考察各自变量对因变量的影响,为了大致地分析与,的关系,利用表1的数据分别作出对,的散点图(见图1).0510151.522.530501001.522.530501001501.522.53024681.522.53图1 对,的散点图从图可以发现,随着的增加,值有较明显的线性增长趋势
8、,图中的直线是用线性模型拟合得到,综合四个图可建立线性回归模型如下: 式右端的称为回归变量,是给定凝血值,预后指数,酵素化验值,肝功化验值时,生存时间对数的平均值,其中的参数为回归系数,由表的数据估计,影响的其它因素作用都包含在随机误差中,如果模型选择的合适,应大致服从均值为零的正态分布.5.1 问题1.1的求解: 为考察自变量交互作用对病人生存时间的影响,不妨建立包括各交互项的回归模型,通过对交互项回归系数及置信区间的观察,判断有无必要将这些交叉项引入到模型中. 模型一建立:从图可以发现,随着,的增加,的值有比较明显的线性增长趋势,故建立如下的回归模型: 在这个模型中,的均值与及它们的交叉项
9、有关,由系数确定. 模型一求解:直接利用MATLAB统计工具箱中的命令regress求解,得到模型一的回归系数及其置信区间(置信水平)、检验统计量,的结果见表:表 模型一的计算结果参数参数估计值参数置信区间 表显示,指因变量(生存时间的对数变换值)的可由模型确定,值远远超过检验的临界值(),值远小于,因而模型一从整体来看是可用的.表的回归系数给出了模型一中的到的估计值.检查它们的置信区间发现,的置信区间均包含零点(且区间两端端点距零点很近),表明回归变量的各交叉项对因变量的影响不显著,故各交叉项可不引入到模型中.5.2 问题1.2的求解: 由问题1.1中的分析可得,在建立回归模型时,可不引入各
10、交叉项.即只需建立与回归变量线性相关的回归模型. 模型二建立:回归变量,对因变量的影响是相互独立的,即病人生存时间的对数平均值与凝血值,预后指数,酵素化验值,肝功化验值的关系分别由回归系数,确定,得到: 在这个模型中,的均值与给定凝血值,预后指数,酵素化验值,肝功化验值有关. 模型二求解: 直接利用MATLAB统计工具箱中的命令regress求解,得到模型二的回归系数及其置信区间(置信水平)、检验统计量,的结果见表: 表 模型二的计算结果参数参数估计值参数置信区间 表显示,指因变量(生存时间的对数变换值)的可由模型确定,值远远超过检验的临界值(),值远小于,因而模型二从整体来看是可用的.表的回
11、归系数给出了模型一中的,的估计值,即,.检查它们的置信区间发现,只有的置信区间包含零点(但区间左端点距零点很近),表明回归变量(对因变量的影响)不太显著,模型需进行改进.对模型二各回归变量的回归系数以及置信区间进行考察可以看出,(肝功化验值)对影响不太显著. 故在改进模型时,可将剔除. 模型三建立:如果剔除肝功能化验值,模型变为: 在这个模型中,的均值仅与给定凝血值,预后指数,酵素化验值有关,由系数确定. 模型三求解:利用MATLAB统计工具箱中的命令regress求解,得到模型三的回归系数及其置信区间(置信水平)、检验统计量,的结果见表:表 模型三的计算结果参数参数估计值参数置信区间 对比表
12、和表可以看出,剔除后的值变化微小,而且的值增大,所有参数的置信区间不包含零点,由此判断,剔除肝功能化验值对模型的预测影响不大,但相比模型二更合理.为了对残差进行分析,图给出模型三的残差图.图 模型三的残差图从图可发现两个异常点,为了使个别的数据不影响整个模型,应该将这个异常数据去掉,对模型三重新估计回归系数,得到的结果如表,残差图见图,可以看出,去掉异常点数据后结果有所改善. 图 模型三去掉异常数据后的残差图表 模型三去掉异常数据后的计算结果参数参数估计值参数置信区间 对比表和表 可以看出,剔除两个异常数据后,得到的和均有所增大,所有参数的置信区间不包含零点,由此可以得出该问题的最优预测模型,
13、称为模型四: 将组数据代入预测模型得到的预测值与真实值进行比较(比较结果见附录表),得出平均偏差为,所以,模型三去除两个异常点后建立的预测模型四相对符合实际,更合理.5.3 问题1.3的求解:模型四中已经剔除掉肝功化验值,为了对残差进行分析,下面给出了模型二和模型三的残差图: 图 模型二的残差图 图 模型三的残差图 对比模型二和模型四的残差图可看出,模型二和模型四的残差图差别很小,而且图中的残差分布相对集中,说明肝功化验值对预测模型的影响很小,可以不考虑.5.4 问题1.4的求解:对模型三的残差从小到大排序后,利用MATLAB统计工具箱中提供的图检验其是否符合正态分布,模型四的残差图如下图:图
14、 模型三残差图检验由图中可以看到,模型三的残差点近似分布在一条直线上,则可认为它符合正态分布,则误差正态性假定是合理的,下面给出模型三的残差正态分布图:图 模型三残差正态分布图5.5 问题1.5的求解:做过肝手术病人的生存时间除了和凝血值,预后指数,酵素化验值,肝功化验值有关外,还与抗凝指标值,纤溶指标值等有关系.5.6 问题2.1求解:问题一中所选模型为 根据表中的数据,运用MATLAB统计工具箱中的命令regress重新求解,得到模型三的回归系数及其置信区间(置信水平),检验统计量,的结果见表: 表 用表中的数据拟合模型三的计算结果参数参数估计值参数置信区间 得到预测模型如下: 利用式对表
15、中所给的指标进行预测,所得预测值与真实值进行比较(见附录表),平均偏差为,表明所选模型比较稳定,未出现较大程度的偏差. 再将表与表中的各项数据进行比较,发现各项数据的变化较小,说明模型三的精确度高,稳定性好对表数据的残差图(图)进行分析可见数据分布集中,这也说明模型三精确度高,能够较准确的预测病人生存时间 图 用表数据拟合模型三所得残差图5.7 问题2.2的求解:对一个实际问题建立起多元线性回归方程后,一个重要应用就是利用方程去预测. 除了要知道预测值外,还希望知道预测精度,即更希望能给出的一个预测范围(预测区间),使这个区间包含的概率达到指定的. 随机误差的方差的无偏估计值为:则的置信水平达
16、到和的近似预测区间分别为:和由上式可知,近似预测范围较大,故模型精确度高,即模型准确性高,预报能力强. 5.8 问题2.3的求解: 为了对模型做出更精细的分析,可分别考虑模型三中凝血值,预后指数,酵素化验值的灵敏度.在模型三中剔除凝血值后,模型变为: 运用MATLAB统计工具箱中的命令regress求解,得到该模型的回归系数及其置信区间(置信水平),检验统计量,的结果见表:表 模型三中剔除的计算结果参数参数估计值参数置信区间 对比表和表可以发现,去除后和都有明显的下降,参数置信区间也增大,从而可以得出对模型的灵敏度较大,即凝血值对病人的生存时间影响较大.在模型三中剔除预后指数后,模型变为: 运
17、用MATLAB统计工具箱中的命令regress求解,得到该模型的回归系数及其置信区间(置信水平),检验统计量,的结果见表:表 模型三中剔除的计算结果参数参数估计值参数置信区间 对比表和表可以发现,去除后和都有明显的下降,参数置信区间也增大,从而可以得出对模型的灵敏度较大,即预后指数对病人的生存时间影响较大.在模型三中剔除酵素化验值后,模型变为: 运用MATLAB统计工具箱中的命令regress求解,得到该模型的回归系数及其置信区间(置信水平)、检验统计量,的结果见表:表 模型三中剔除的计算结果参数参数估计值参数置信区间 对比表和表可以发现,去除后和都有很大程度的下降,参数置信区间也明显增大,从
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 医学 专题 手术 病人 模型
限制150内