数据带扭曲测量误差条件下乘积回归模型的统计分析.docx
《数据带扭曲测量误差条件下乘积回归模型的统计分析.docx》由会员分享,可在线阅读,更多相关《数据带扭曲测量误差条件下乘积回归模型的统计分析.docx(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、摘 要在对带有测量误差的数据进行回归建模时,如果直接分析观测到的数据,忽略测量误差,那么估计结果往往是有偏甚至不相合的。因此,对于这类问题,我们要用相应的测量误差模型来处理。测量误差模型主要有两种:第一种是具有可加结构的一些测量误差模型;第二种是具有相乘结构的一些测量误差模型,我们称之为扭曲测量误差模型。在本文中,我们主要讨论数据带扭曲测量误差条件下的乘积回归模型。本文研究数据带扭曲测量误差条件下乘积回归模型的估计和假设检验问题。通过理论和模拟研究,讨论了估计量的估计效果。我们考虑了当响应变量和协变量都不能直接观测到,但被一个可观测的混淆变量的未知函数所扭曲时,乘积线性回归模型的估计。在对响应
2、变量进行对数变换后,提出了一种参数估计方法,即最小二乘估计。另一种是无对数变换的最小乘积相对误差估计。对于参数分量的假设检验,提出了零假设和检验统计量下的约束估计。建立了估计量和检验统计量的渐近性质。提出了一种计算临界值的自助法。模拟仿真研究表明了该方法的有效性,并将该方法应用于一组实际数据进行统计分析。论文主要研究乘积回归模型中自变量和响应变量均受到扭曲因子的污染而不可观测的统计分析问题。我们所做的主要工作如下:(1)对数据带扭曲测量误差条件下乘积回归模型的介绍及变量校准过程的介绍。我们使用直接插入法1,2,3获取校准过的协变量和校准过的响应变量。(2)运用校准之后的变量,提出了无对数变换的
3、最小乘积相对误差()估计。我们考虑对进行假设检验来考察是否满足某些线性组合。为了模拟检验统计量的零分布,提出了自助法来定义值。(3)基于对数变换的最小二乘估计的介绍。我们研究了提出的估计量、检验统计量和约束估计量的大样本性质,并通过理论证明了最小二乘估计量和估计量的有效性。(4)使用本文提出的方法对模拟数据和实际数据进行统计分析,并给出数据分析结果。关键词:扭曲测量误差;最小乘积相对误差估计;最小二乘估计;自助法;约束估计量Multiplicative regression models with distortion measurement errorsAbstractWhen we dea
4、l with the measurement error data, the naive procedure by simply ignoring measurement errors always leads to a biased and inconsistent estimator. As a result, we should solve such practical problems by choosing some proper measurement error models. There are two types of measurement error data. One
5、is the additive measurement error model. Another one has a multiplicative fashion, which we call the distortion measurement error model. In this paper we consider the distortion measurement error model.This paper studies the estimation and hypothesis test of multiplicative linear regression model wi
6、th distortion measurement error. Through theoretical and simulation research, the estimation effect of the estimators are discussed. This paper considers estimation for multiplicative linear regression models when neither the response variable nor the covariates can be directly observed, but are dis
7、torted by unknown functions of a commonly observable confounding variable. After taking logarithmic transformation on the response variable, we propose an estimation methods for the parameter. That is the least squares estimator. Another is the least product relative error estimator without logarith
8、mic transformation. For the hypothesis testing of parametric components, restricted estimators under the null hypothesis and test statistics are proposed. The asymptotic properties for the estimators and test statistics are established. A bootstrap procedure is proposed to calculate critical values.
9、 Simulation studies demonstrate the performance of the proposed procedure and a real example is analyzed to illustrate its practical usage.The main work we have done is as follows: Firstly, we propose the product linear regression model with distortion measurement error and variable calibration proc
10、ess. We use the direct plug-in method (Cui et al. 2009; Delaigle et al. 2016; Zhao and Xie 2018) to obtain calibrated covariates and calibrated response variable. Secondly, by using the calibrated variables, we propose the LPRE estimator without logarithmic transformation. We consider statistical in
11、ference for to test whether satisfies some linear combinations or not. To mimic the null distribution of the test statistic, a bootstrap procedure is proposed to define p-values. Thirdly, we propose the least square estimation with logarithmic transformation. We investigate the large sample properti
12、es for the proposed estimators, test statistics and restricted estimators. And we prove the asymptotic properties of least square estimator and LPRE estimator by theory. Lastly, we conduct Monte Carlo simulation and real data analysis to illustrate our proposed methods.Key words: Distortion measurem
13、ent errors;Least product relative error estimator;Least squares estimator;Bootstrap;Restricted estimators.III数据带扭曲测量误差条件下乘积回归模型的统计分析目 录摘要IAbstractII第 1 章 引言11.1 研究背景及模型介绍11.2 研究意义和现状21.3 本文的主要内容3第 2 章 最小乘积相对误差估计52.1校准过程52.2定理条件62.3最小乘积相对误差估计72.3.1估计方法72.3.2假设检验8第 3章 基于对数变换的最小二乘估计113.1最小二乘估计113.2假设检验
14、12第 4 章 实验模拟分析15第 5 章 真实数据分析19第 6 章 总结与展望236.1 论文总结236.2 未来展望24参 考 文 献25附录28引理28定理1的证明28定理2的证明31定理3的证明32定理4的证明33致谢36攻读硕士学位期间的研究成果37第 1 章 引言1.1 研究背景及模型介绍在现实生活中,我们经常要利用数学模型分析数据,但是,很多收集到的数据集并不精确,往往含有测量误差。测量误差是我们在进行数据分析时经常遇到的问题。由于观测者的技术水平、外界环境、仪器校准不正确等原因,测量误差问题很常见并存在于多学科领域中,如医学、健康科学、经济学等领域。对一些已经存在测量误差的变
15、量,如果忽略其测量误差,直接使用观察到的数据进行参数估计,那么得到的估计结果往往有很大偏差甚至在大样本中也是不相合的。例如,Fuller et al.4就曾研究此问题,在简单线性回归建模中,如果直接使用观察到的数据,忽略测量误差,那么建模得到的估计系数是被低估的,即所得估计是带有衰减偏差的估计。在非线性模型中,偏差的结构则更加复杂,详见Carroll et al.5。因此,必须精确处理带有测量误差的数据,才能得到更加准确的估计。一般情况下,对测量误差模型的估计和假设检验是非常具有挑战性的,因为我们在估计目标参数时要特别考虑如何消除这种偏差。此外,相比于线性回归模型,乘积回归模型也更加复杂。因此
16、,在这种情况下,乘积回归模型与测量误差的结合使得我们所研究的统计推断问题具有很大的挑战性。在许多回归分析的应用中,很多变量可能受到测量误差的影响而不可直接观测到。统计学上测量误差主要有两种形式,一种是测量误差与待关心的不可观测变量之间是相加结构,另一种是测量误差与待关心的不可观测变量之间是相乘结构,本文主要研究后者。一类我们感兴趣的扭曲测量误差条件下乘积回归模型可以写成:(1.1)其中是不可观测的响应变量,是一个不可观测的连续协变量(“T”在这里是代表矩阵或向量转置符),Y和X是观测到的响应变量和协变量向量,即是我们感兴趣但观察不到的真实变量,我们能观测到的是被污染后的数据(X,Y)。在这里,
17、和是关于可观测变量的扭曲函数,是一个维的对角矩阵:对角元素为,其中和是未知的连续扭曲函数。混淆变量是可观测的且与真实变量相互独立。的对角线结构表明,混淆变量以乘积的方式扭曲不可观测的变量。模型(1.1)中的误差是一个正的随机变量,并且满足和。条件用于识别截距,因为模型(1.1)可以写成。条件用于最小乘积相对误差估计24。参数是待估计的未知参数。模型(1.1)中的可观察变量,也就是扭曲变量对我们所要研究的真实变量有一种相乘或者相加的作用。比如在医学各项指标的测量中,通常将扭曲变量选取为体重指数(BMI)、身高或者体重。目前关于测量误差模型的研究成果有很多,主要研究数据带传统意义下的可加结构测量误
18、差回归模型的统计分析。而这种带有相乘结构的测量误差模型最先是由和6提出来的,近几年也有很多文献讨论扭曲测量误差模型的参数估计,假设检验和变量选择等研究问题。本文将扭曲测量误差模型引入乘积模型中,考虑模型中的参数的有效性估计问题和假设检验。 1.2 研究意义和现状乘积回归模型的研究在数学和应用统计学中具有重要意义。乘积回归模型用于分析金融或生物医学研究中特别常见的具有正响应变量的数据,如股价或生命周期。最小二乘或最小绝对偏差是回归模型统计估计中应用最广泛的准则之一。然而在许多实际应用中,相对误差的大小,而不是误差本身的大小,是实践者关注的中心问题。另外在实际应用中,一些响应变量和协变量是不能直接
19、观察到的,因此,我们研究数据带扭曲测量误差条件下乘积回归模型的相关问题。文献中有关测量误差问题的研究一直没有间断过。最近,国内外很多学者在一些参数和半参数模型上都研究了数据带测量误差的情况。如Delaigle et al.2利用了非参数的估计方法来估计数据带相乘结构测量误差的非参数回归模型。Cui et al.1研究了带扭曲测量误差的非线性回归模型。Li et al.8提出了带扭曲测量误差的部分线性回归模型,其中带相乘结构测量误差的是模型的线性部分;Li和Lu9则用了Lasso法和适应性Lasso法来对模型进行变量选择以及参数估计;Li et al.10通过平滑削边绝对偏差法来进行变量选择;L
20、iang et al.11研究了数据带有测量误差的部分线性模型的变量选择问题;Senturk和Muller12,13最早提出了数据带可加结构测量误差的模型,他们还考虑了带扭曲测量误差的线性回归模型以及广义线性模型;Zhao et al.3考虑了扭曲测量误差模型的非参数检验;Zhang et al.14研究了两组带可加结构测量误差的数据之间的相关系数估计。还有很多测量误差模型的相关文献,具体读者可以参阅Nguyen et al.15,Nguyen和Senturk16,17,Senturk和Muller18以及Senturk和Nguyen19,20,21。带扭曲测量误差数据在生物医学研究和健康相关
21、研究中经常出现。例如, Kaysen et al.22首先通过体重指数()将血液透析患者的纤维蛋白原水平正常化,研究其与血清转铁蛋白水平之间的关系。这说明未观测到的主变量与混淆变量()之间可能存在乘积关系。在实践中,收集的数据通常需要通过一些身体指标来调整,如体重指数(),身体表面积,身高等。由于混淆变量与主变量之间的确切关系未知,直接把观测到的变量除以混淆变量这种“正则化”方式可能过于粗糙,导致模型中参数的估计不相合。作为补救措施,和6通过未知的光滑扭曲函数和引入了一种灵活的乘积调整。最近,大量的文献主要研究模型误差和模型均值是可加结构下的扭曲测量误差模型。现有的文献并没有考虑在数据带扭曲测
22、量误差条件下对乘积回归模型(1.1)的参数估计和假设检验等统计推断问题。在没有扭曲测量误差且变量可精确观测时,将模型(1.1)进行对数变换成为经典线性回归模型23,24。这样的对数运算变换直观上是合理的,因为对数变换后的模型在理论和计算上都很简单。其次模型(1.1)也是乘积线性回归模型或加速失效模型的推广。为了估计乘积回归模型,Chen et al.23,24提出了最小绝对相对误差()估计和最小乘积相对误差()估计。准则是最小化 ,准则是最小化,后者相当于最小化。估计是稳健、无尺度的,但该准则不光滑并且计算非常复杂24。此外,在估计参数的置信区间中,需要用到的渐近协方差矩阵中含有未知的模型误差
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 扭曲 测量误差 条件下 乘积 回归 模型 统计分析
限制150内