Logisitic 回归模型应用研究.docx
《Logisitic 回归模型应用研究.docx》由会员分享,可在线阅读,更多相关《Logisitic 回归模型应用研究.docx(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于Logistic回归的高血压影响因素研究摘要 高血压疾病是一种常见可防可控的慢性心脑血管疾病,在我国,每年因高血压导致死亡的案例也非常多见。它的临床并发症主要包括有急性脑卒中、心力衰竭及慢性的肾脏病等等。因此,建立合理有效的疾病诊断模型和探究引发高血压的致病因素对个人和医疗机构就显得尤为重要。建立合适的Logistic模型,对高血压的影响危险因素的估计和预测模型对数据的准确性进行了分析,采用传统的回归分析法对其模型进行了变量的筛选;对模型参数的分析和估计采用极大似然的方法,得到了患有高血压危险人群死亡概率的估计和logistic回归方程,并对其进行了预测。进而有效的引导和警醒了人们对于高血
2、压的正确认知,提出了合理化的建议,有效的预防和控制了高血压的发生和患病率。关键词 Logistic回归 高血压 患病率 影响因素Study on the Influencing Factors of Hypertension Based on Logistic RegressionAbstract Hypertension is a common preventable and controllable chronic cardiovascular and cerebrovascular disease. In our country, there are many cases of deat
3、h caused by hypertension every year. Its clinical complications mainly include acute stroke, heart failure and chronic kidney disease. Therefore, it is very important for individuals and medical institutions to establish a reasonable and effective disease diagnosis model and explore the pathogenic f
4、actors of hypertension. Establish a suitable logistic model, analyze the accuracy of the data by the estimation and prediction model of the risk factors of hypertension, and screen the variables by the traditional regression analysis method; analyze and estimate the parameters of the model by the ma
5、ximum likelihood method, and obtain the estimation of the death probability and logistic regression equation of the population at risk of hypertension, It is predicted. And then effectively guide and alert people to the correct cognition of hypertension, put forward reasonable suggestions, effective
6、ly prevent and control the occurrence and prevalence of hypertension.Key words Logistic regression Hypertension Prevalence influence factor目 录引 言11.Logistic线性回归模型21.1Logistic回归概念21.2适用条件31.3Logistic分布函数31.4Logistic的模型41.5回归系数的假设检验51.6Logistic回归模型的拟合优度检验52.基于Logistic回归的高血压患病模型62.1数据的分析和处理62.2Logistic
7、高血压预测模型62.2.1变量的筛选62.2.2模型的建立92.2.3模型的预测102.2.4模型的检验11结 论11参考文献12致 谢13附 录14引 言高血压是一种可防可控的慢性疾病,但每年因患有高血压而丧失生命的人也数不胜数,脑卒中、慢性肾脏病及心力衰竭是其主要并发症,它是引发慢性心脑血管系统疾病最主要的病因。由于高血压的死亡率较高,所以探究引发高血压致病的重要因素以及如何建立合理有效的高血压疾病诊断的模型对个人及相关的医疗机构就显得尤为重要。本研究论文在系统介绍了Logistic高血压回归疾病诊断模型的原理和其方法的基础上,探索了Logistic高血压回归疾病诊断模型在系统分析个人高血
8、压的发生致病性和危险因素上的重要性和应用。本论文利用统计软件,分析某地区个人高血压的患病数据,找出了造成高血压患病率的重要危险因素,从而为研究者提出了合理化的建议,有效的预防和控制了高血压的发生和患病率。本文通过建立Logistic回归模型,对导致引发高血压因素进行分析采用极大似然估计法得到预测患有高血压的回归方程。本论文通过体重指数,饮食习惯,是否有高血压家族史,是否吸烟,是否喝酒,是否熬夜,睡眠状况和心率等几个方面来建立二元Logistic线性回归模型1,分析这几个方面是否对高血压有显著的影响,得出主要因素,对人们的生活习惯给出合理化建议,降低高血压患病率。Logistic线性回归模型是一
9、种广义的线性回归模型。这种回归模型被科学家和人们常用在对疾病的早期诊断、经济上的风险预测、数据和信息的挖掘等医学研究领域。举个例子来说,医疗专家们提前研究了可能影响疾病发生的危险因素,并根据影响因素预测疾病发生的概率等。对于Logistic的回归理论和模型回归模型的诊断研究主要以下几方面:(1)模型诊断研究,周菲等(2014)先后提出了关于Logistic的回归理论和模型多重共线性的诊断及在临床医学研究中的实际应用;2017年,曾婕等(2017)对Logistic回归模型的统计诊断做了综述;(2)分析方法研究,何秀丽等(2004)对Logistic回归中的加权最小二乘估计做了研究;陈芝(201
10、6)模拟退火结合Logistic算法在分类中的应用;刘明(2012)提出了Logistic模型预测的新思路。(3)模型应用方面,沈斌峰(2009)用回归结合logistic多元类型线性回归模型综合分析了体质健康指数BMI和回归年龄对是否患心血病的直接影响;王平(2009)用Logistic回归分析了篮球比赛每节比分对胜负的影响,李涛等(2009)对多元线性回归与Logistic回归分析的正确应用作了分析。宋佳莹等(2018)研究了Logistic回归在二分类型任务定价类型中的应用。论文安排:(1)知识复习。复习二项分布知识和二项分布应用,掌握一般线性回归原理与方法,学会统计分析的一般手段。(2
11、)文献研究。查阅资料,了解关于模型Logistic应用和回归的实际应用,掌握了Logistic应用和回归的基本研究方法和其原理,学会了如何对模型和数据进行了检验和分析;通过查阅高血压医学相关文献,了解关于致病危险因素导致原发性高血压的,包括体重指数,饮食习惯,是否有高血压家族史,是否吸烟,是否喝酒,是否熬夜,睡眠状况和心率等。(3)统计调查。学会数据收集与整理。(4)统计分析。学习统计软件使用,掌握Logistic回归方法,能对数据进行分析,能对模型给解释。1. Logistic线性回归模型1.1 Logistic回归概念Logistic线性回归分析模型它是一种较为广义的连续线性事件的回归分析
12、模型2。它的一个实质原理就是将具有发生某一事件概率的因变量除以没有某一事件发生的概率。计算出来的结果,再对结果取对数,通过采取这一概率对数变换,改变了原来回归模型的取值区间之间的矛盾,也从根本上改变了因变量自变量之间的曲线关系。通过采用取对数的方法的往往可以使得变量之间的关系呈现出线性的关系。Logistic线性回归分析模型在实际意义上也是一种概率模型,它指的是某一种连续事物以其是否具有发生的事件概率为因变量,以某一事件影响的因素为一个自变量建立线性回归模型,分析的问题是某一个连续事件发生的概率与某一事件自量之间的线性关系问题。Logistic线性回归常被专家和研究人员用于经济的预测,数据的挖
13、掘,疾病的自动诊断等。本文Logistic回归分析主要处理的问题是单一变量与多变量之间的关系问题。这些变量和变量之间有两种常见的关系:一种是变量之间的确定性关系,这些变量之间的某些关系是完全确定的,称为变量之间的确定性关系3,可以用函数来表示,给定后,的值就对应的确定下来了。而另外一类称为变量之间的相关关系:这些变量间虽然有一定的关系,但不能用函数间的关系式来表示,医学上就常常都会遇到这种密切相关的关系,利用这种关系,给出一些具有经验性的公式和方法来进行确定,比如一个人到底是否曾经患病等等,本文主要研究的是Logistic回归形式分析,研究的就是这种变量之间密切相关的关系。虽然所研究的这些变量
14、间的这种相关关系不能用大家都熟悉而又完全确定的函数关系式表示出来,但它们在某种情况下有一定的关系,可以通过这种关系,用表达式表示出来,本文回归分析的主要研究任务就是寻找这种关系来建立表达式然后建立合适的模型,对其进行分析与预测4。二元Logistic回归的分类与特征如表1所示5P128表 1 二元Logistic回归的分类与特征二元Logistic回归主要分为:1. 二项logistic回归,此回归的因变量为二分类的logistic回归,2. 多项式logistic回归,此回归的因变量为无序多分类得logistic回归,3. 累积logistic回归或序次logistic回归,此回归存在具有有
15、序多类因变量的logistic回归。 例如,疾病的严重程度为高,中,低等。1.2 适用条件Logistic回归模型的适用条件如表2所示表 2 Logistic回归模型的适用条件Logistic回归模型的适用条件(1) 回归模型的因变量为二分类的分类变量或者是某一事件的发生概率,并且这些变量是数值型变量。重复计数现象指标不适用于Logistic回归。(2) 回归模型的残差和因变量都要服从二项分布。二项分布对应的是分类变量,不是正态分布,进而不能用用最小二乘法,而是用最大似然法来解决方程的估计和检验问题。(3)回归模型的自变量和Logistic概率是呈线性关系。(4)各观测对象间相互独立6。 Lo
16、gistic回归模型的原理: Logistic回归中如果直接采用线性的回归模型,给定确定是函数关系式,那么将会带来下面两个问题,一是使得变量之间产生普遍的非直线关系,二是使得方程的左右二边取值范围不同。Logistic回归方程中的因变量为概率,它的取值范围为,但是方程右边的取值范围是或者。这就是为什么引入Logistic回归。71.3 Logistic分布函数 (1) 的取值范围在,函数值在之间取值,且函数图像是单调递增的 型曲线8。这种函数特征可应用于临床医学和流行病学描述其发生概率与影响因素之间的关系中。函数图像如下图:图 1 Logistic分布函数图1.4 Logistic的模型对元线
17、性回归模型9 (2)其中未知参数称为偏回归系数,显然有 (3)式(3)称为 对的回归函数。当因变量是一个二元变量,只取0与1两个值时, 是因变量,对其做Logistic变换,得 (4)称为Logistic线性回归。极大似然估计就是选取的估计值使得式(4)达到极大。由此得到Logistic回归模型为: (5)1.5 回归系数的假设检验对于回归系数的假设检验,就是检验总体回归系数是否为零。10P326检验方法有:似然比检验(1) 首先检验引入的变量对模型是否具有贡献;(2) 其次对模型的回归系数进行整体的检验。(3) 似然比检验 (6)为方程中个自变量的对数似然函数值;为增加一个自变量后的对数似然
18、函数值。服从自由度为1的分布。若,则可以认为在检验水准下有统计学意义,可以引入方程,否则不能引入方程。Wald检验 (7)计分检验通过比较似然比检验、Wald检验和计分检验,可以看出似然比检验是最可靠的。它是基于整个模型的拟合。而Wald检验考虑了所有因素的综合影响,当存在共线因素时,结果不可靠,因此Wald检验最差。计分检验结果与似然比检验结果基本一致11。1.6 Logistic回归模型的拟合优度检验Logistic回归模型预测的理论频数分布是否符合实际的理论频数分布的检验常用方法如下12P224:表 3 预测与实际的理论频数分布检验方法常用方法如下:(1) 偏差检验 对样本含量的理论频数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Logisitic 回归模型应用研究 回归 模型 应用 研究
限制150内