部分协变量缺失下的线性回归分析及其应用(共34页).doc
《部分协变量缺失下的线性回归分析及其应用(共34页).doc》由会员分享,可在线阅读,更多相关《部分协变量缺失下的线性回归分析及其应用(共34页).doc(34页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上毕业论文题 目部分协变量缺失下的线性回归分析及其应用学 院基础科学学院专业班级学 号姓 名吴佳桐指导教师袁晓惠二一五年六月四日专心-专注-专业中 文 摘 要在目前的各个领域的研究调查中,由于受到各种已知或者未知因素的影响,经常会导致缺失数据出现的情况。而由于缺失数据的存在,不但会增加研究者分析数据的难度,而且会造成分析结果的偏差,从而降低研究者统计计算工作的效率。因此考虑如何消除或者尽可能的减少这些缺失数据的影响就变的越来越重要了。文章首先介绍了回归模型及其基本概念并介绍了使用方法;然后介绍了国内外对缺失数据的研究现状,并简单介绍了数据缺失机制的三种形式,指出解决数据
2、缺失的一般性方法。并在接下来的文章中介绍了在协变量缺失下的线性回归模型,最后是利用R程序对数据进行实证分析。为了有效地解决缺失数据带来的问题,本文使用了其中三种方法对缺失数据集做了相应的处理。首先使用的是剔除法即将含有缺失数据列直接删除;第二种方法是对数据集做逆概率加权;第三种方法是使用回归补值法,对缺失数据集进行填补,从而形成一个完整的数据集,然后对填补后的数据集进行相应的统计分析。本文研究的重点是部分析变量缺失下的回归分析,对不同的样本量做数值模拟,研究在两种缺失程度的数据(15%、30%的随机缺失)通过对比,针对本文的数据研究发现逆概率加权法更好。关键词 线性回归 缺失值 缺失机制 填补
3、方法Title Linear regression analysis with missing covariates and its applicationAbstractIn the present investigation of various fields, because of the influence of various known or unknown factors, it often leads to the missing data. Because of the existence of missing data, it not only increases the
4、difficulty of the researchers to analyze the data, but also can lead to the deviation of the results of the analysis, which can reduce the efficiency of the study. So it becomes more and more important to consider how to eliminate or minimize the impact of these missing data. At first, the paper int
5、roduces the regression model and the basic concept and describes the methodology used; then introduces the research status at home and abroad for the missing data, and introduces three forms of the missing data mechanism, it is pointed out that to solve the general methods of missing data. In the ne
6、xt article, the linear regression model is introduced, and the data is analyzed by R program. In order to solve the problem caused by the missing data, three methods are used to deal with the missing data sets. The first use of elimination will contain missing data directly to a column removed; the
7、second method is to data sets to do the inverse probability weighted; the third method is using regression imputation method, to fill the missing data set, so as to form a complete data set, and then the corresponding statistical analysis to fill the data set.The focus of this paper is analysis of m
8、issing variables regression analysis, to the different amount of sample numerical simulation study in two levels of missing data (15%, 30% of the missing at random) by contrast, according to the data of the study found inverse probability weighting method is better.Key words Linear regression Missin
9、g value Missing mechanism Imputation method目 录1 绪论1.1 回归分析的发展历程回归分析是处理变量与之间的关系的一种统计方法和技术。回归分析的基本思想和方法以及“回归”名称的由来归功于英国统计学家F.高尔顿。高尔顿和他的学生K.皮尔逊在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,以每对夫妇的平均身高作为,而取他们的一个成年儿子的身高作为,将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线。计算出的回归直线方程为这种趋势及回归方程总的表明父母平均身高每增加一个单位,其儿子的成年儿子的身高也平均增加0.516个单位。这个结果表明,
10、虽然高个子父辈确有生高个子儿子的趋势,但父辈身高增加一个单位,儿子身高仅增加半个单位左右。这个例子生动地说明了生物学中“种”的概念的稳定性。正是为了描述这种有趣的现象,高尔顿引进了“回归”这个名词来描述父辈的身高与子辈身高的关系。尽管“回归”这个名词的由来具有其特定的含义,人们在研究大量的问题中,其变量与之间的关系并不总是具有这种“回归”的含义,但借用这个名词把研究变量与间统计关系的量化方法称为“回归”分析也算是对高尔顿这个伟大的统计学家的纪念1。1.2 多元线性回归模型的一般形式设随机变量与一般变量,的线性回归模型为 (1.1)其中,,.,是个未知参数,称为回归常数,.,称为回归系数。称为被
11、解释变量(因变量),,是个可以精确测量并控制的一般变量,称为解释变量(自变量)。是随机误差,对随机误差项我们常假定 (1.2)称 (1.3)为理论回归方程。对一个实际问题,如果我们获得组观测数据(,;)(=1,2,),则线性回归模型(1.1)式可表示为 (1.4)写成矩阵形式为 (1.5)其中 (1.6) 是一个阶矩阵,称为回归设计矩阵或者资料矩阵。在实验设计中的元素是预先设定并可以控制的,人的主观因素可作用其中,因而称为设计矩阵。1.3 多元线性回归模型的基本假定为了方便地进行模型的参数估计,对回归方程(1.4)式有如下一些基本假定:(1)解释变量,是确定性变量,不是随机变量,且要求。这里的
12、,表明设计矩阵中的自变量列之间不相关,样本量的个数应大于解释变量的个数,是一满秩矩阵。(2)随机误差项具有零均值和等方差,即 (1.7)这个假定常称为高斯马尔柯夫条件。,即假设观测值没有系统误差,随机误差项的平均值为零。随机误差项的协方差为零,表明随机误差项在不同样本之间是不相关的(在正态假定下即为独立的),不存在序列相关,并且有相同的精度。(3)正态分布的假定条件为 (1.8)对于多元线性回归的矩阵模型(1.5)式,这个条件便可表示为 (1.9)由上述假定和多元正态分布的性质可知,随机向量服从维正态分布,回归模型(1.5)式的期望向量 (1.10) (1.11)因此 (1.12)1.4 回归
13、参数的估计的主要方法 1、回归参数的普通最小二乘估计多元线性回归方程未知参数的估计与一元线性回归方程的参数估计原理一样,仍然可以采用最小二乘估计。对于(1.5)式表示的回归模型,所谓最小二乘法,就是寻找参数的估计值,使离差平方和达到极小,即寻找满足 (1.13)依照(1.13)式求出就成为回归参数的最小二乘估计。得出用矩阵形式表示的正规方程组移项得,当存在时,即得到回归参数的最小二乘估计为 (1.14)称为经验回归方程。2、回归参数的最大似然估计极大似然估计是统计中最重要,应用最广泛的方法之一,最初被德国数学家高斯在1821年提出时,并未引起重视,直到1922年费舍尔提出了极大似然思想并得以得
14、出性质后,才广为研究和应用。多元线性回归参数的最大似然估计与一元线性回归参数的最大似然估计的思想一致。对于(1.5)式所表示的模型,即服从多变量正态分布,那么的概率分布为 这时,似然函数为 (1.16)其中的未知参数是和,最大似然估计就是选取似然函数达到最大的和。要使达到最大,对(1.16)式两边同时取自然对数,得 (1.17)在(1.17)式中,仅在最后一项中含有,显然使(1.17)式达到最大,等价于达到最小,这又完全与普通最小二乘估计相同,即误差项方差的最大似然估计为 (1.18)这是的有偏估计,但他满足一致性。在大样本的情况下,这是的渐近无偏估计。1.5 回归分析研究的主要内容回归分析研
15、究的主要对象是客观事物变量间的统计关系,它是建立在对客观事物进行大量实验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的方法。回归分析方法是通过建立统计模型研究变量间相互关系的密切程度、结构状态及进行模型预测的一种有效的工具。回归分析方法在生产实践中的广泛应用是它发展和完善的根本动力。如果从19世纪初高斯提出的最小二乘法算起,回归分析的历史已有200年。从经典的回归分析方法到近代的回归分析方法,他们所研究的内容已非常丰富。2 缺失数据的介绍2.1研究缺失数据的背景和意义缺失数据是分析数据中的一个基本问题。最常见的例子是在做调查的时候没有响应,我们要向在一项统计调查中要得到
16、百分之百的有效答卷是相当困难的,因为有很多因素产生影响,主要有:在调查初始阶段,可能由于种种原因调查人员无法和被调查人员接触;在调查进行阶段,被调查者拒绝接受调查是很常见的现象。拒绝的主要原因有很多种,例如被调查者没有时间,或者对调查的问题不感兴趣,或者处于被调查者的安全考虑拒绝调查人员的调查,或者被调查者拒绝回答某些重要的问题;在研究的整理阶段,研究人员将不和逻辑的数据剔除出去会造成数据的缺失。如果把缺失数据用无回答表示,当今的实践表明,在现在的调查研究中的缺失数据。其实,在如今这种信息爆炸的时代完整的和正确的数据是很难获得的。考虑到调查研究中数据的重要性,我们在研究工作中需要不断地采集数据
17、,从大量的数据中抽取出对我们有用的知识来指导我们的实践,但是,收集的数据量越大,可能造成缺失数据的情况就越严重,这本身就是一对矛盾。对此,这不仅仅是必须针对大量的数据进行分析处理得到正确结果的问题,同时也需要对缺失数据给出适当的填补措施,使得数据的分析更加有意义。2.2 国内外研究情况2.2.1 国外研究情况外国学术界对缺失数据的问题研究早就开始了,关于统计调查中缺失数据问题的研究大致可分为三个阶段2:第一阶段是启动期(1915年20世纪40年代)有关学者开始了对缺失数据问题的初步研究,强调处理无回答问题的重要性。第二阶段是专题研究、方法发展期(20世纪40年代中期20世纪90年代初)这一时期
18、许多学者对缺失数据问题进行了大量的专题研究,提出了对缺失数据进行处理补救的经典方法。要减少调查中的缺失数据,主要从事前预防和事后补救两方面入手。事前预防也许是处理缺失数据最简单且有效的方法,早期学者也较多的关注减少缺失数据的事前预防方法和措施。但是人们逐步认识到,现实中由于种种原因和条件的限制,这种事先预防的方法并不能使问题得到完全解决。因此,对缺失数据的补救越来越受到重视。第三阶段是方法的完善期(20世纪90年代初至今)这一时期,较少有学者提出关于无回答处理的全新思想,但很多学者或者提出了方法的改进和扩展,或者研究如何使用插补后的数据进行方差估计。此外,大量现代统计方法在缺失数据研究领域的应
19、用,带动了这一领域的蓬勃发展。近20年来涌现出众多关于处理缺失数据的研究文献,对缺失数据进行调整的统计方法取得了很多突破,方法不断完善。至今处理缺失数据仍为抽样应用和理论界的热点专题之一3。2.2.2 国内研究背景概况缺失数据是一个普遍现象,在我国同样存在。解决统计调查中的缺失数据,是提高数据质量的一个重要方面。目前从国内情况来看,我们对缺失数据虽有研究,但国内尚未见对填补方法以及其应用的深入研究,在对缺失值处理研究较前沿的医学卫生领域也未见对缺失值处理统计方法的深入研究。我国对于有关缺失数据的填补与调整的原创性学术研究还很有限,主要成果还只是对国外相关研究资料的译介和文献综述等方面。在过去因
20、为采集数据所花费的代价太高,所以人们经常是基于有限的信息进行决策。随着信息时代的到来,人们把数据挖掘技术作为一种发现和寻找有用信息的技术,正在迅猛发展并在商业决策支持、经济、管理、统计以及计算机科学中发挥着巨大的作用,它使用许多计算方法,如决策树、聚类、人工神经网络和回归算法等。处理缺失数据在统计领域中并不是一个新的课题,然而遗憾的是,传统的统计方法不能正确的解决某些特定数据的缺失问题,例如具有很大的缺失窗口的时间序列数据,这就需要我们根据实际问题的需要采用新的方法。统计学数据主要来自于两个方面:调查的数据和实验数据。统计调查中的数据缺失是影响统计数据质量的一个重要方面,在概率抽样中,缺失数据
21、将导致统计推论中出现估计量偏差和估计方差增大,在其他调查方式中,缺失数据也会对统计数据的质量产生影响,使统计数据的说服力降低。况且,种类调查特别是抽样调查应用的领域越来越广阔,各种干扰项调查的因素也逐步凸显,调查研究中出现的缺失数据也会带来相同的后果。这种现象是普遍性的,正是因为如此,对缺失数据问题的研究,一直是国际统计学届热点讨论的课题之一。国内对缺失数据问题的研究虽有发展,但与国外相比,仍有很大差距。主要表现在理论讨论方面缺乏原创性,基本上是介绍国外已有方法,即便如此,介绍的也不够全面和丰富,而在应用方面则几乎是空白。2.3 缺失的原因在各种科学研究中,数据的缺失现象很普遍,不完备数据给数
22、据的使用和分析带来了很大的困难,也是造成信息系统不确定的主要原因之一。总结了一些不完备数据的定义:数据传输或采集中的错误、空值、超出范围或者不符合要求的值。造成数据缺失的原因是多方面的,主要可能有以下几种4:1、有些信息暂时无法获取。例如在医疗数据库中,并非所有病人的所有临床检验结果都能在给定的时间内得到,就致使一部分属性值空缺出来。又如在申请表数据中,对某些问题的反映依赖于对其他问题的回答。2、有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障和一些人为因素等原因而丢失了。3、有些对象的某个或某些属
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 部分 变量 缺失 线性 回归 分析 及其 应用 34
限制150内