第6章 概率统计方法模型(下).doc
《第6章 概率统计方法模型(下).doc》由会员分享,可在线阅读,更多相关《第6章 概率统计方法模型(下).doc(41页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第6章概率统计方法模型6.4非线性回归模型非线性回归模型按变量个数也可以分为一元非线性回归模型和多元非线性回归模型。曲线的形式也因实际情况不同而有多种形式,如指数曲线、双曲线、S形曲线等。下面我们列出几类典型的非线性回归模型的函数形式: (1)双曲线模型: (6.4.1)(2)多项式模型: (6.4.2)(3)对数模型: (6.4.3)(4)三角函数模型: (6.4.4)(5)指数模型: (6.4.5) (6.4.6)(6)幂函数模型: (6.4.7)我们将上述非线性回归模型分为两类来处理:第一类:直接换元型。这类非线性回归模型通过简单的变量代换可直接转化为线性回归模型,如式(6.4.1)、式
2、(6.4.2)、式(6.4.3)和式(6.4.4)。第二类:间接代换型。这类非线性回归模型通过对数变形代换可间接地转化为线性回归模型,如:式(6.4.5)、式(6.46)和式(6.4.7)。对于式(6.1.1)、式(6.1.2)、式(6.1.3)和式(6.1.4)所示的非线性回归模型,虽然包含有非线性变量,但因变量与待估计系数之间的关系却是线性的。对于此类模型,可以直接通过变量代换将其化为线性模型,具体代换方法见表6.4.1。表 6.4.1 变量代换表原模型模型代换代换后模型参数估计一元线性回归OLS法多元线性回归OLS法一元线性回归OLS法一元线性回归OLS法对于式(6.4.5)、式(6.4
3、.6)和式(6.4.7)所示的非线性回归模型,因变量与待估计参数之间的关系也是非线性的。因此不能通过直接换元化为线性模型。对此类模型,可通过对回归方程两边取对数转换为可以直接换元的形式。这种先取对数再进行变量代换的方法称为间接换元法。为使取对数后回归方程的形式更为简捷,我们不妨将式(6.4.5)和式(6.4.7)中随机扰动项的形式进行变换,将式(6.4.5)和式(6.4.7)改写为: (6.4.5) (6.4.7)对(6.1.5)、式(6.1.6)和式(6.1.7)两边取对数,得 (6.4.8) (6.4.9) (6.4.10)式(6.4.8)、式(6.4.9)和式(6.4.10)皆可经过适当
4、的换元直接转化为线性回归方程,通过线性回归的方法来进行参数估计。下面,我们来研究不能通过上述两种方法来处理的非线性回归模型。设非线性回归模型具有如下形式: (6.4.11)其中,。设()是的n次独立观测值,则多元非线性模型(6.4.11)可表示为 (6.4.12)其中,且独立同分布。为方便起见,将式(6.4.12)简写为,其中,。为求参数的估计值,转化为求解最小二乘问题 (6.4.13)式(6.4.13)的解作为参数的估计值。可以证明,的最小二乘估计也是其最大似然估计。在R软件中,一般通过函数nls( )求解非线性最小二乘问题,下面通过例子来说明求解过程。例 6.4.1 在化学工业的可靠性研究
5、中,对象是某种产品A。在对产品进行制造的过程中,单位产品中必须含有0.50的有效氯气,产品中的氯气随着时间的增加而减少,在产品到达用户之前的最初8周内,氯气含量衰减到0.49。但由于随后出现了许多无法控制的因素,因而在后8周理论的计算对有效氯气的进一步预报是不可靠的。为有利于管理,需要决定产品中所含的有效氯气随时间的变化规律。在一段时间中观测若干盒产品得到的数据如表6.4.1。假定非线性模型:利用非线性最小二乘法进行参数估计。表6.4.1 单位产品有效氯气百分数序号生产后时间有效氯气序号生产后时间有效氯气180.4910260.412100.4811270.403120.4612280.404
6、140.4313300.415160.4414320.406180.4615340.407200.4216360.428220.4117380.389240.4218400.39R编程如下: data nls.sol summary(nls.sol)Formula: y a + (0.49 - a) * exp(-b * (x - 8)Parameters: Estimate Std. Error t value Pr(|t|) a 0.38668 0.01099 35.172 xfit yfit plot(data$x,data$y) lines(xfit,yfit)图6.4.1 函数的拟合
7、曲线6.5方差分析模型在实际的应用中,影响一件事的因素是很多的,人们总是希望通过随机试验来观察各种因素对实验结果的影响。方差分析是基于一定的统计数据,定量地分析一个或多个因素对某个(些)响应变量影响和作用的显著性,这种显著性是基于一定概率条件下而言的,其前提是各因素的作用下,响应变量的分布具有正态性和等方差性。因此,本节先给出样本的正态性检验方法,然后分别介绍单因素和双因素的方差分析。6.5.1样本分布的正态性检验设是来自总体X的样本,我们先通过直方图,核密度估计曲线和经验分布来描述样本数据的分布,然后对其进行正态性检验。(1) 直方图对于数据分布,经常用直方图进行描述,首先将数据的取值范围分
8、成若干区间。在等间隔的情况下,每个区间的长度称为组距。考察数据落入每一区间的频数与频率,在每个区间上画一个矩形,它的宽度是组距,高度是频数或者频率。我们应该注意的是,组距对直方图的形态有很大的影响,组距太小,每组的频数较少,由于随机性的影响,临近区间上的频数可能相差很大;组距太大,直方图所反映的数据形态就不够灵敏。步骤如下:Step 1 找出数据的最大和最小值,即和;Step 2 确定数据分布的区间;Step 3 将区间m等分,即:;Step 4 统计数据落入区间中的频数,;Step 5 画图。(2)核密度估计与直方图相配套的是核密度估计(kernal density estimate)函数,
9、其目的是用已知样本去估计其密度。核密度估计是一种从数据样本本身出发研究数据分布特征的方法,在R软件中,利用非参数方法进行核密度估计得函数为density( )。下面举例说明其用法。例6.5.1 某班有50名学生,随机抽取20人进行语文测验,考试成绩如下:75 66 84 80 92 74 70 88 90 9565 83 72 77 69 64 81 77 73 79用hist函数,画20个样本的直方图和核密度估计图。编程如下:x-c(75, 66, 84, 80, 92, 74, 70, 88, 90, 95, 65, 83, 72, 77, 69, 64, 81, 77, 73, 79)h
10、ist(x,breaks=c(5*12:19),freq=FALSE, col=yellow, border=red) #频率直方图lines(density(x),col=black,lty=3,lwd=2) #核密度估计a-65:95lines(a, dnorm(a, mean(x), sd(x), col =blue, lty =2,lwd=2) #正态分布概率密度函数得到如图6.5.1所示。图 6.5.1 考试成绩直方图、密度估计曲线(虚线)与正态分布概率密度曲线(虚线)通过图6.5.1可以看出,成绩的直方图和核密度估计曲线均反映了20名学生考试成绩的分布特点,注意到密度估计曲线与正态
11、分布的概率密度曲线还有一定的区别。(3)经验分布直方图适合于总体为连续性分布的场合。对于更加一般的总体分布,若要估计它的总体分布函数,可用经验分布函数作估计。设是来自总体X的样本,则称 (6.5.1)为验分布函数 (expirical distribution),其中表示中不大于的个数。经验分布函数也可以表示成, (6.5.2)是一个跳跃函数,其跳跃点是样本观测值,在每个跳跃点处跳跃度均为。在R软件中,用函数ecdf( )绘制样本的经验分布函数。绘制例6.5.1中20名同学考试成绩的经验分布和相应的正态分布图。编程如下:plot (ecdf (x), verticals=T, do.p=F)a
12、-64:95lines ( a, pnorm ( a, mean(x), sd(x) #正态分布函数曲线其中,verticals是逻辑变量,当verticals=T时,表示画竖线,否则不画竖线。do.p是逻辑变量,当do.p=FALSE时,表示不画点处的记号;否则画记号。运行程序,得到图6.5.2。可见正态分布曲线与经验分布函数具有一致性。图6.5.2 考试成绩的经验分布图和正态分布曲线(4)Q-Q图Q-Q图可以帮助我们鉴别样本的分布是否近似某种类型的分布。对于正态Q-Q图检验来说,若为随机变量X的n个观测样本,将其由小到大排序后的顺序统计量为.根据经验分布函数,若,则应该有 (6.5.3)又
13、因,则由(这里将修正为为了避免出现1的情况)确定的分位数()应近似满足。因此,与具有线性相关关系。作正态Q-Q图的步骤如下:Step 1 将样本的观测值排序:;Step 2 计算样本分位数对应的概率值 ,;Step 3 计算标准正态分布对应的分位数满足 ,;Step 4 将数对,画在直角坐标系中,若呈直线状,则认为是正态的;否则认为是非正态数据。下面我们通过R软件中的qqnorm( )和qqline( )函数画正态Q-Q图和相应的直线。根据正态Q-Q图,对例6.5.1中的数据进行正态性检验。编程如下:x-c(75,66,84,80,92,74,70,88,90,95,65,83,72,77,6
14、9,64,81,77,73,79)qqnorm (x)qqline (x)得到正态Q-Q图,如图6.5.3所示。从正态Q-Q图来看,样本数据基本上可以看成来自正态总体。可以使用相关系数法,记与的相关系数为,对任意的显著性水平,若,则拒绝正态性假设,即认为数据不是来自正态总体;反之,当则接受原假设,认为数据来自正态总体。图 6.5.3 学生成绩样本数据正态Q-Q图(4)Shapiro-Wilk W统计量检验利用Shapiro-Wilk W统计量作正态性检验,因此称这种检验方法为正态W检验方法。该方法是Shapiro和Wilk于1965年提出的一种灵敏度高,计算简单,需要的样本容量较小的正态性检验
15、方法,这一方法是由样本的顺序统计量所构成的统计量W。 (6.5.4)其中 (6.5.5)这里当n为偶数时,取l=n/2;当n为奇数时,取l=(n+1)/2。可以证明对于任何分布,W的值都介于0和1之间,越接近正态分布,W的值就越接近于1,的取值可通过查表取得,进一步可查得样本容量为n时W的下侧临界值,当时,接受总体为正态分布的假设,否则拒绝正态性假设。在R软件中,函数shapiro.test( )提供W统计量和相应的p值,当p值小于某个显著性水平时(例如0.05),则认为样本不是来自正态分布的总体;否则认为样本是来自正态分布的总体。对于例6.5.1中的数据,利用Shapiro-Wilk W统计
16、量进行正态性检验,编程如下:x df df X A1 0.236 12 0.238 13 0.248 14 0.245 15 0.243 16 0.257 27 0.253 28 0.255 29 0.254 210 0.261 211 0.258 212 0.264 313 0.259 314 0.267 315 0.262 3 df.aov summary(df.aov) Df Sum Sq Mean Sq F value Pr(F) A 2 0.0010700 5.35e-04 36.62 7.79e-06 *Residuals 12 0.0001753 1.46e-05 -Signif
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第6章 概率统计方法模型下 概率 统计 方法 模型
限制150内