概率论与数理统计 优秀PPT.ppt
概率论与数理统计 1你现在浏览的是第一页,共37页 “回归”一词的历史渊源“回归回归”一词最早由一词最早由Francis Galton引入。引入。十九世纪,英国生物学家兼统计学家高尔顿研究发现:十九世纪,英国生物学家兼统计学家高尔顿研究发现:其中其中x表示父亲身高,表示父亲身高,y 表示成年儿子的身高(单位:英表示成年儿子的身高(单位:英寸,寸,1英寸英寸=2.54厘米)。这表明子代的平均高度有向中心厘米)。这表明子代的平均高度有向中心回归的意思,使得一段时间内人的身高相对稳定。之后回回归的意思,使得一段时间内人的身高相对稳定。之后回归分析的思想渗透到了数理统计的其它分支中。归分析的思想渗透到了数理统计的其它分支中。2你现在浏览的是第二页,共37页9.19.1回归分析的基本概念回归分析的基本概念变量之间的关系确定性关系非确定性关系(相关关系)3你现在浏览的是第三页,共37页对变量间对变量间统计依赖关系统计依赖关系的考察主要是通过的考察主要是通过相关分析相关分析(correlation analysis)(correlation analysis)或或回归分析回归分析(regression analysis)(regression analysis)来完成的。来完成的。对于相关关系,虽然不能求出变量之间精确的函数关系式,对于相关关系,虽然不能求出变量之间精确的函数关系式,但是通过大量的观测数据,可以发现它们之间存在一定的但是通过大量的观测数据,可以发现它们之间存在一定的统计规律性。统计规律性。4你现在浏览的是第四页,共37页回归分析回归分析是研究一个变量关于另一个(些)变量的具体依赖关系是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。的计算方法和理论。分为:一元线性回归、多元线性回归、可线性化的非线性归分为:一元线性回归、多元线性回归、可线性化的非线性归(双曲线、指数、对数、二次、幂函数等)(双曲线、指数、对数、二次、幂函数等)5你现在浏览的是第五页,共37页基本方法基本方法考察随机变量考察随机变量Y Y与普通变量与普通变量x x之间的相关关系之间的相关关系.例例1.1.在农业生产中小麦的亩产量在农业生产中小麦的亩产量Y Y与所施肥料量与所施肥料量x x有一定关系,有一定关系,在一定范围内,若施肥量大,亩产也较高。在一定范围内,若施肥量大,亩产也较高。问题:问题:Y Y是怎样依赖施肥料量是怎样依赖施肥料量x x的变化的。的变化的。问题的特征:问题的特征:x x是普通变量是普通变量,Y,Y是随机变量是随机变量.处理方法:处理方法:按数理统计处理问题的方法。按数理统计处理问题的方法。6你现在浏览的是第六页,共37页(1)(1)先进行一些试验,先进行一些试验,分别取不同的值分别取不同的值Y Y也得到也得到 个相应观察值个相应观察值得到得到n n对数据对,称为样本数据点对数据对,称为样本数据点(2)(2)散点图散点图 Yxo7你现在浏览的是第七页,共37页(3)(3)寻找寻找Y Y与与x x的数量关系:的数量关系:其中其中一般地,一般地,8你现在浏览的是第八页,共37页 例例1 合金的强度合金的强度y(107Pa)与合金中碳的含与合金中碳的含量量x(%)有关。为研究两个变量间的关系。有关。为研究两个变量间的关系。首先是收集数据,我们把收集到的数据记为首先是收集数据,我们把收集到的数据记为(xi,yi),i=1,2,n。本例中,我们收集到。本例中,我们收集到12组组数据,列于表数据,列于表1中中 进行回归分析首先是回归函数形式的选择。当只有一个自变量时,通常可采用画散点图 的方法进行选择。9你现在浏览的是第九页,共37页表1 合金钢强度y与碳含量x的数据 序号x(%)y(107Pa)序号x(%)y(107Pa)10.1042.070.1649.020.1143.080.1753.030.1245.090.1850.040.1345.0100.2055.050.1445.0110.2155.060.1547.5120.2360.010你现在浏览的是第十页,共37页 为找出两个量为找出两个量间存在的回归函间存在的回归函数的形式,可以数的形式,可以画一张图:把每画一张图:把每一对数一对数(xi,yi)看成看成直角坐标系中的直角坐标系中的一个点,在图上一个点,在图上画出画出n个点,称这个点,称这张图为散点图,张图为散点图,见右图。见右图。11你现在浏览的是第十一页,共37页 从散点图我们发现从散点图我们发现1212个点基本在一条直线附近,这说明两个点基本在一条直线附近,这说明两个变量之间有一个线性相关关系,这个相关关系可以表示个变量之间有一个线性相关关系,这个相关关系可以表示为为 这便是这便是y y关于关于x x的一元线性回归的数据结构式。通常假定的一元线性回归的数据结构式。通常假定 在对未知参数作区间估计或假设检验时,还需要假定误在对未知参数作区间估计或假设检验时,还需要假定误差服从正态分布,即差服从正态分布,即显然假定(显然假定(2 2)比假定()比假定(1 1)强)强 12你现在浏览的是第十二页,共37页由于由于 0 0,1 1均未知,需要我们从收集到的数据均未知,需要我们从收集到的数据(x xi i,y yi i),i=i=1,2,1,2,n n,出发进行估计。在收集数据时,我们一般要求,出发进行估计。在收集数据时,我们一般要求观察独立地进行,观察独立地进行,即假定即假定y y1 1,y y2 2,y yn n,相互独立。综合上述诸项假定,我相互独立。综合上述诸项假定,我们可以给出最简单、常用的一元线性回归的数学模型:们可以给出最简单、常用的一元线性回归的数学模型:13你现在浏览的是第十三页,共37页9.2 9.2 一元线性回归一元线性回归1.本节考虑的模型是其中都是未知参数,为回归系数,分别是直线的截距和斜率。称为Y关于x的经验回归函数。方程 称为Y关于x的经验线性回归方程,或经验回归方程,其相应的图形称为经验回归直线。此模型称为一元线性回归模型,基于此种模型的统计分析称为一元线性回归分析.14你现在浏览的是第十四页,共37页2.下面用最小二乘法来求对于自变量x和因变量y的n对观察值的最小二乘估计的最小二乘估计其中是对观察时的随机误差.的估计。15你现在浏览的是第十五页,共37页使得成立的 和 称为和的最小二乘估计。16你现在浏览的是第十六页,共37页于是得方程组17你现在浏览的是第十七页,共37页解得,记于是 18你现在浏览的是第十八页,共37页例例9.2.19.2.1设某化学过程的得率Y Y与该过程的温度x有关.现作了10次测量,其数据如下表所示.x/38434954606671778288y/%20.420.922.523.024.224.326.226.628.028.9解解故于是得线性回归方程19你现在浏览的是第十九页,共37页由此给出回归方程为:例2 使用例1种合金钢强度和碳含量数据求回归方程。解20你现在浏览的是第二十页,共37页,.21你现在浏览的是第二十一页,共37页残差显然残差的平方和定理定理9.2.29.2.2 是 的无偏估计。22你现在浏览的是第二十二页,共37页例:求出例9.2.1中误差方差中误差方差 的无偏估计的无偏估计 解例9.2.1中已求出 所以23你现在浏览的是第二十三页,共37页定理定理9.2.3对对一元一元线线性回性回归归模型(模型(9.2.3),若进一步假定随机误差,则有(1).(2)RSS与和相互独立.24你现在浏览的是第二十四页,共37页4 回归方程的显著性检验 在在使使用用回回归归方方程程作作进进一一步步的的分分析析以以前前,首首先先应应对对回回归归方方程程是否有意义进行判断。是否有意义进行判断。如如果果 1=0,那那么么不不管管x如如何何变变化化,E(y)不不随随x的的变变化化作作线线性性变变化化,那那么么这这时时求求得得的的一一元元线线性性回回归归方方程程就就没没有有意意义义,称称回回归归方方程程不不显显著著。如如果果 1 0,E(y)随随x的的变变化化作作线线性性变变化,称回归方程是化,称回归方程是显著显著的。的。综综上上,对对回回归归方方程程是是否否有有意意义义作作判判断断就就是是要要作作如如下下的的显显著著性检验:性检验:H0:1=0 vs H1:1 0 拒绝拒绝H0表示回归方程是显著的。表示回归方程是显著的。25你现在浏览的是第二十五页,共37页需要检验需要检验假设假设方法:方法:26你现在浏览的是第二十六页,共37页t检验法检验法27你现在浏览的是第二十七页,共37页例例9.2.3 试说明例9.2.1中的线性回归效果是否显著解解要在水平 下检验如下假设故查表知 因为 24.12603.3554,所以拒绝,线性回归效果是显著的.28你现在浏览的是第二十八页,共37页5.回归系数的置信区间的置信水平为 的置信区间为例例 9.2.4 求例9.2.1中回归系数 的置信水平为95%的置信区间.解解29你现在浏览的是第二十九页,共37页如果经检验,回归方程的线性回归效果是显著的,那么就可以用已经获得的回归方程 进行预测.6.预测所谓预测(或称预报),就是以一定的置信水平预测与 对应的 的取值范围.称为 的置信水平为 的预测区间,也称为置信区间.30你现在浏览的是第三十页,共37页方法方法通过适当的变量变换通过适当的变量变换,化成一元线性化成一元线性回归问题进行分析处理回归问题进行分析处理.两边取对数两边取对数 9.3、可化为一元线性回归的问题31你现在浏览的是第三十一页,共37页,曲线变换变换后的线性式1双曲函数2幂函数3指数函数4对数函数5倒指数函数6S型曲线32你现在浏览的是第三十二页,共37页配曲线的一般方法是:配曲线的一般方法是:33你现在浏览的是第三十三页,共37页例例9.3.1一只红铃虫的产卵数Y和温度x有关.经观测获得一组红铃虫产卵数与温度的数据如下表所示.试求Y关于x的回归方程.编号1234567温度x/21232527293235产卵数y71121246611532534你现在浏览的是第三十四页,共37页解1.根据这组数据画出散点图.2.选择模型作变换于是得到3.线性化35你现在浏览的是第三十五页,共37页编号1234567x212325272932351.94592.39793.04453.17814.18974.74495.7838根据这些数据可算得与的最小二乘估计.经计算于是得U关于x的回归方程 36你现在浏览的是第三十六页,共37页4.非线性化 化为Y关于x的回归方程为37你现在浏览的是第三十七页,共37页