[高等教育]8统计回归模型课件.ppt
《[高等教育]8统计回归模型课件.ppt》由会员分享,可在线阅读,更多相关《[高等教育]8统计回归模型课件.ppt(62页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 在工程问题中,常常需要根据两个变量的在工程问题中,常常需要根据两个变量的几组实验数值几组实验数值实验数据,来找出这两个变实验数据,来找出这两个变量的函数关系的近似表达式通常把这样得到量的函数关系的近似表达式通常把这样得到的函数的近似表达式叫做的函数的近似表达式叫做经验公式经验公式. .一、经验公式问题:问题:如何得到经验公式,常用的方法是什么?如何得到经验公式,常用的方法是什么?第六部分第六部分 统计回归模型统计回归模型二、最小二乘法例例1 1为了测定刀具的磨损速度,我们做这样的为了测定刀具的磨损速度,我们做这样的实验:经过一定时间实验:经过一定时间( (如每隔一小时如每隔一小时) ),测量
2、一,测量一次刀具的厚度次刀具的厚度, ,得到一组试验数据如下:得到一组试验数据如下:顺序编号顺序编号i01234567时间时间it(小时小时)01234567刀具厚度刀具厚度iy(毫米毫米)27.0 26.8 26.5 26.3 26.1 25.7 25.3 24.3试根据上面的试验数据建立试根据上面的试验数据建立 y 和和 t 之间的经验公之间的经验公式式)(tfy= =. . 观观察察可可以以认认为为)(tfy = =是是线线性性函函数数, ,并并设设,)(battf = =其其中中a和和b是是待待定定常常数数. .tyo1 247356824252627如图,在坐标纸上画出如图,在坐标纸
3、上画出这些点,这些点,因为这些点本来不在一条直线上,我们只因为这些点本来不在一条直线上,我们只能要求选取这样的能要求选取这样的 ,使得,使得 在在 处的函数值与实验数据处的函数值与实验数据 相相差都很小差都很小ba,battf = =)(710,ttt710,yyy解解首先确定首先确定)(tf的类型的类型. .就是要使偏差就是要使偏差 )7 , 2 , 1 , 0()(= = itfyii都很小都很小.因此可以考虑选取常数因此可以考虑选取常数 ,使得,使得 ba, = = = =702)(iiibatyM定义定义这种根据偏差的平方和为最小的条件来选这种根据偏差的平方和为最小的条件来选择常数择常
4、数 的方法叫做的方法叫做最小二乘法最小二乘法ba,这种确定常数的方法是通常所采用的这种确定常数的方法是通常所采用的.最小来保证每个偏差的绝对值都很小最小来保证每个偏差的绝对值都很小M把看成自变量把看成自变量 和和 的一个二元函数,的一个二元函数,ab那么问题就可归结为求函数那么问题就可归结为求函数 在那在那些点处取得最小值些点处取得最小值.),(baMM = = = = = = = = = = = = =7070; 0)(2, 0)(2iiiiiiibatybMtbatyaM令令代入方程组得代入方程组得 = = = = . 5 .208828,71728140baba解此方程组,得到解此方程组
5、,得到.125.27,3036. 0= = = =ba这样便得到所求经验公式为这样便得到所求经验公式为)2(.125.273036. 0)( = = =ttfy由(由(2)式算出的函数值)式算出的函数值 与实测与实测 的有的有一定的偏差一定的偏差.现列表比较如下:现列表比较如下:)(itfiyit01234567实实测测iy27.026.826.526.326.125.725.324.3算算得得)(itf27.125 26.821 26.518 26.214 25.911 25.607 25.303 25.000偏偏差差-0.125-0.021-0.018-0.0860.1890.093-0.
6、003-0.200偏差的平方和偏差的平方和 ,它的平方根它的平方根 108165. 0= =M329. 0= =M我们把我们把 称为称为均方误差均方误差,它的大小在一定,它的大小在一定程度上反映了用经验公式来近似表达原来函数关程度上反映了用经验公式来近似表达原来函数关系的近似程度的好坏系的近似程度的好坏M设经实际测量已得设经实际测量已得 到到n组数据(组数据(xi , yi),),i=1, n。将数据。将数据画在平面直角坐标系中,见画在平面直角坐标系中,见 图。如果建模者判断图。如果建模者判断 这这n个点很个点很象是分布在某条直线附近,令象是分布在某条直线附近,令 该直线方程该直线方程 为为y
7、=ax+b,进而,进而利用数据来求参利用数据来求参 数数a和和b。由于该直线只是数据近似满足的。由于该直线只是数据近似满足的关系式,故关系式,故 yi-(axi+b)=0一般不成立,但我们希望一般不成立,但我们希望 =niiibaxy12)(最小最小此式对此式对a和和b的偏导数均的偏导数均 为为0,解相应方程组,求得:解相应方程组,求得: =xaybxxyyxxaniiniii121)()(y=ax+byO(xi ,yi)x其中其中 和和 分别为分别为xi和和yi的平均值的平均值 xyabax yx xLLyx=11()()nnx yiiiiiiLxxyyx ynx y=22211()nnxx
8、iiiiLxxxnx=其中:其中: 例例2.在某种产品表面进行腐蚀刻线试验,在某种产品表面进行腐蚀刻线试验,得到腐蚀深度与腐蚀时间对应的一组数据得到腐蚀深度与腐蚀时间对应的一组数据求回归方程?求回归方程?xy (秒)(秒)5101520304050607090120 (微米)(微米)610101316171923252946解:解:Matlab命令:命令:5.31820.3049yx=回归方程:x=5 10 15 20 30 4050 60 70 90 120;y=6 10 10 13 16 17 19 23 25 29 46;p=polyfit(x, y,1) 显示:P= 0.3049 5.
9、31820204060801001205101520253035404550 x=5 10 15 20 30 40 50 60 70 90 120;y=6 10 10 13 16 17 19 23 25 29 46;x1=0:0.2:120;y1=0.304*x1+5.344;plot(x,y,*);hold on plot(x1,y1,r);例例3 3 在研究单分子化学反应速度时,得到下列数据:在研究单分子化学反应速度时,得到下列数据:6.58.912.216.622.731.041.957.6242118151296387654321ii iy其中其中 表示从实验开始算起的时间,表示从实验
10、开始算起的时间, 表示时刻表示时刻反应物的量试定出经验公式反应物的量试定出经验公式 y).( fy = = 解解)( fy = = 由化学反应速度的理论知道,由化学反应速度的理论知道, 应是应是指数函数:指数函数:, mkey = =其中其中 和和 是待定常数是待定常数.km将他们代入方程组得将他们代入方程组得 = = = = . 3 .108108,1221081836baba解这方程组,得解这方程组,得 = = = = = =.8964. 1lg,045. 04343. 0kbma.78.78,1036. 0= = = =km因此所求经验公式为因此所求经验公式为.78.781036. 0
11、= =ey由于由于,lgbay = = 讨论:讨论:我们希望建立一个我们希望建立一个 体重体重与与身高身高之间的关系式,不难看出两者之间的关系式,不难看出两者之间的关系不易通过机理的分析得出,不妨可以采取之间的关系不易通过机理的分析得出,不妨可以采取 统计统计方法方法,用数据来拟合出与实际情况较为相符的经验公式。,用数据来拟合出与实际情况较为相符的经验公式。 为为此,我们先作一番抽样调查,测量了十五个不同高度的人的此,我们先作一番抽样调查,测量了十五个不同高度的人的体重,列成了体重,列成了 下表,在抽样时,各高度的人都需经适当挑选,下表,在抽样时,各高度的人都需经适当挑选,既不要太胖也不要太瘦
12、。既不要太胖也不要太瘦。例例4 体重与身高的关系体重与身高的关系将表中的数画将表中的数画 到到h-w平面上,你会发现这些数据分布很接近某平面上,你会发现这些数据分布很接近某一指数曲线。为此,一指数曲线。为此, 对对h和和w均取对数,令均取对数,令x=lnh,y=lnw,将,将(xi,yi)再画到)再画到x-y平面中去(平面中去(i=1,15),这次你会发现这),这次你会发现这些点几乎就分布在一条直线附近,令此直线的些点几乎就分布在一条直线附近,令此直线的 方程为方程为y=ax+b,用最小二乘法求,用最小二乘法求 得得a2.3,b2.82,故可取,故可取y=2.32x+2.84,即,即lnw=2
13、.32lnh+2.84,故有,故有w=17.1h2.327566595451体重体重 w(公斤)(公斤)1.851.781.711.671.63身高身高 h(米)(米)5048413527体重体重 w(公斤)(公斤)1.601.551.511.351.26身高身高 h(米)(米)2017151210体重体重 w(公斤)(公斤)1.121.080.960.860.75身高身高 h(米)(米)三、小结用的一种用的一种,其中最小二乘法是常,其中最小二乘法是常作曲线拟合有多种方法作曲线拟合有多种方法,给定平面上一组点给定平面上一组点), 3 , 2 , 1(),(niyxii= =最小二乘法的原理:最
14、小二乘法的原理: 达到最小达到最小,使,使求求 = = = =niiibatyMtf12)()(注意:计算机与数据拟合注意:计算机与数据拟合练练 习习 题题:(%)0的数据如下表的数据如下表与与,由实验测得,由实验测得为为,其溶解温度,其溶解温度为为比比某种合金的含铅量百分某种合金的含铅量百分 pCp之间的经验公式之间的经验公式与与试用最小二乘法建立试用最小二乘法建立bapp = = %pC0 9 .367 .467 .631812351972922832708 .770 .845 .87建立牙膏销售量与价格、广告投入之间的模型;预测在不建立牙膏销售量与价格、广告投入之间的模型;预测在不同价格
15、和广告费用下的牙膏销售量。同价格和广告费用下的牙膏销售量。 问问题题为此收集了为此收集了30个销售周期本公司牙膏销售量、价格、广个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价。(下表)告费用,及同期其它厂家同类牙膏的平均售价。(下表)实例一实例一. .牙膏的销售量牙膏的销售量9.260.556.804.253.70307.930.055.803.853.80298.510.256.754.003.7527.38-0.055.503.803.851销售量销售量(百万支百万支)价格差价格差(元)(元)广告费用广告费用(百万元百万元)其它厂家其它厂家价格价格(元元)本公
16、司价本公司价格格(元元)销售销售周期周期基本模型基本模型y 公司牙膏销售量公司牙膏销售量x1其它厂家与本公司其它厂家与本公司价格差价格差x2公司广告费用公司广告费用=110 xy=222210 xxy55.566.577.577.588.599.510 x2y-0.200.20.40.677.588.599.510 x1y=22322110 xxxyx1, x2解释变量解释变量(回归变量回归变量, 自变量自变量) y被解释变量(因变量)被解释变量(因变量) 0, 1 , 2 , 3 回归系数回归系数 随机随机误差(误差(均值为零的均值为零的正态分布随机变量)正态分布随机变量)MATLAB 统计
17、工具箱统计工具箱 模型求解模型求解b,bint,r,rint,stats=regress(y,x,alpha) 输入输入 x= n 4数数据矩阵据矩阵, 第第1列为全列为全1向量向量1 2221xxxalpha(置信置信水平水平,0.05) =22322110 xxxyb 的的估计值估计值 bintb的置信区间的置信区间 r 残差向量残差向量y-xb rintr的置信区间的置信区间 Stats检验统计量检验统计量 R2,F, p yn维数据向量维数据向量输出输出 由数据由数据 y,x1,x2估计估计 参数参数参数估计值参数估计值置信区间置信区间17.32445.7282 28.92061.30
18、700.6829 1.9311 -3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p=0.0000 0 1 2 3结果分析结果分析y的的90.54%可由模型确定可由模型确定 参数参数参数估计值参数估计值置信区间置信区间17.32445.7282 28.92061.30700.6829 1.9311 -3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p=0.0000 0 1 2 3=22322110 xxxyF远超过远超过F检验的临界值检验的临界值
19、p远小于远小于 =0.05 2的置信区间包含零点的置信区间包含零点(右端点距零点很近右端点距零点很近) x2对因变量对因变量y 的的影响不太显著影响不太显著x22项显著项显著 模型从整体上看成立模型从整体上看成立可将可将x22留在模型留在模型22322110 xxxy=销售量预测销售量预测 价格差价格差x1=其它厂家其它厂家价格价格x3-本公司本公司价格价格x4估计估计x3调整调整x4控制价格差控制价格差x1=0.2元,投入广告费元,投入广告费x2=650万元万元销售量预测区间为销售量预测区间为 7.8230,8.7636(置信度(置信度95%)上限用作库存管理的目标值上限用作库存管理的目标值
20、 下限用来把握公司的现金流下限用来把握公司的现金流 若估计若估计x3=3.9,设定,设定x4=3.7,则可以,则可以95%的把握的把握知道销售额在知道销售额在 7.8320 3.7 29(百万元)以上(百万元)以上控制控制x1通过通过x1, x2预测预测y2933.822322110=xxxy(百万支百万支)模型改进模型改进x1和和x2对对y的的影响独立影响独立 =22322110 xxxy=21422322110 xxxxxy参数参数参数估计值参数估计值置信区间置信区间17.32445.7282 28.92061.30700.6829 1.9311 -3.6956-7.4989 0.1077
21、 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p=0.0000 0 1 2 3参数参数参数估计值参数估计值置信区间置信区间29.113313.7013 44.525211.13421.9778 20.2906 -7.6080-12.6932 -2.5228 0.67120.2538 1.0887 -1.4777-2.8518 -0.1037 R2=0.9209 F=72.7771 p=0.0000 3 0 1 2 4x1和和x2对对y的影响有的影响有交互作用交互作用两模型销售量预测两模型销售量预测比较比较21422322110 xxxxxy=22322110
22、 xxxy=2933. 8 =y(百万支百万支)区间区间 7.8230,8.7636区间区间 7.8953,8.7592 3272. 8 =y(百万支百万支)控制价格差控制价格差x1=0.2元,投入广告费元,投入广告费x2=6.5百万元百万元预测区间长度更短预测区间长度更短 略有增加略有增加 y x2=6.5x1=0.2 -0.200.20.40.67.588.59x1y -0.200.20.40.67.588.59x1y 56787.588.599.510 x2y 567888.599.51010.5x2y 22322110 xxxy=21422322110 xxxxxy=两模型两模型 与与
23、x1, ,x2关系的关系的比较比较y 交互作用影响的讨论交互作用影响的讨论2221 . 06712. 07558. 72267.301xxyx=价格差价格差 x1=0.1 价格差价格差 x1=0.32223 . 06712. 00513. 84535.321xxyx=21422322110 xxxxxy=5357. 72x加大广告投入使销售量增加加大广告投入使销售量增加 ( x2大于大于6百万元)百万元)价格差较小时增加价格差较小时增加的速率更大的速率更大 56787.588.599.51010.5x1=0.1x1=0.3x2y 1 . 03 . 011=xxyy价格优势会使销售量增加价格优势
24、会使销售量增加 价格差较小时更需要靠广告价格差较小时更需要靠广告来吸引顾客的眼球来吸引顾客的眼球 完全二次多项式模型完全二次多项式模型 =22521421322110 xxxxxxyMATLAB中有命令中有命令rstool直接求解直接求解00.20.47.588.599.5105.566.57x1x2y ),(543210=从输出从输出 Export 可得可得 从这个实例我们看到,建立回归模型可以从这个实例我们看到,建立回归模型可以先根据已知的数据,从常识和经验进行分析,辅先根据已知的数据,从常识和经验进行分析,辅以作图,决定取哪几个回归变量,及它们的函数以作图,决定取哪几个回归变量,及它们的
25、函数形式(如线性的、二次的)。用软件(形式(如线性的、二次的)。用软件(MATLABMATLAB)来解后,作统计分析,来解后,作统计分析, 、 、 值的大小是对值的大小是对模型整体的评价,每个回归系数置信区间是否包模型整体的评价,每个回归系数置信区间是否包含零点,可以用来检验对应的因变量的影响是否含零点,可以用来检验对应的因变量的影响是否显著(若包含零点则不显著)。如果对结果不够显著(若包含零点则不显著)。如果对结果不够满意,则应改进模型,如添加二次项、交互相等。满意,则应改进模型,如添加二次项、交互相等。2RFp资历资历 从事专业工作的年数;管理从事专业工作的年数;管理 1= =管理人员,管
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 高等教育 统计 回归 模型 课件
限制150内