2022年概率论与数理统计课程设计方案一元线性回归分析.docx
精品学习资源切削机房进行金属品加工时为了适当地调整机床,测量刀具的磨损速度与测量刀具的厚度间的关系摘要数理统计是具有广泛应用的数学分支,而区间估量和假设检验问题在其中占有很重要的位置;对于正态总体期望和方差的区间估量和假设检验问题已有完备的结论;对于非正态总体期望和方差的区间估量和假设检验问题,在大样本的情形下,可利用中心极限定理转化为正态总体来解决;但实际问题中常常遇到非正态总体,而且是小样本的情形,因此对它的区间估量和假设检验是一个值得讨论的问题本文利用概率纶与数理统计中的所学的回来分析学问,对用切削机房进行金属品加工时为了适当地调整机床,测量刀具的磨损速度与测量刀具的厚度间的关系建立数学模型,利用这些数据做出刀具厚度x 关于时间 y 的线性回来方程,并 MATLAB 与 EXCEL软件对验数据进行分析处理,得出线性回来系数与拟合系数等数据,并用 F 检验法检验了方法的可行性,同时用分布参数置信区间和假设检验问题,得出了刀具厚度 x 关于时间 y 的线性关系显著,并进行了深化讨论,提出了小样本常用分布参数的置信区间与假设检验的解决方法;关键词: 统计量法;置信区间;假设检验;线性关系;回来分析欢迎下载精品学习资源目录一设计目的 2二设计问题 2三设计原理 3四方法实现 7五设计总结 16参考文献 17致谢 17欢迎下载精品学习资源一设计目的明白一元回来方程,回来系数的检验方法及应用一元回来方程进行猜测的 方法;学会应用 MATLAB软件进行一元回来试验的分析方法;同时更好的明白概率论与数理统计的学问,娴熟把握概率论与数理统计在实际问题上的应用,并 将所学的学问结合 Excel对数据的处懂得决实际问题;本设计是利用一元线性回来理论对用切削机房进行金属品加工时为了适当地调整机床,测量刀具的磨损速度与测量刀具的厚度间的关系建立数学模型,并用Excel分析工具库中的回来分析软件进行解算;二设计问题用切削机床进行金属加工时,为了适当地调剂机床,需要测定刀具的磨损速度;在肯定时间(例如每隔一小时)测量刀具的厚度,得到数据如下:切削时间刀具厚度切削时间刀具厚度xihy icmx ihy icm030.01524.8129.11624.0228.41723.7328.11823.1428.01922.9527.72022.6627.52122.3727.22222.1827.02321.7926.82421.51026.52521.31126.32621.01226.12720.61325.72820.31425.32920.1欢迎下载精品学习资源由此,我们利用这些数据做出刀具厚度x 关于时间 y 的线性回来方程;三设计原理在实际问题中,常常会显现两个变量之间的相关关系不是线性的(即直线 型),而是非线性的(即曲线型);设其中有两个变量x 与y ,我们可以用欢迎下载精品学习资源一个确定函数关系式: xy x 欢迎下载精品学习资源欢迎下载精品学习资源大致的描述 y 与 x 之间的相关关系,函数u x 称为 y 关于 x 的回来函数,欢迎下载精品学习资源欢迎下载精品学习资源方程 yu x 欢迎下载精品学习资源成为 y 关于 x 的回来方程;一元线性回来处理的是两个变量x 与 y 之间的线性关系,可以设想 y的值由两部分构成:一部分由自变量x 的线性影响所致,表示 x 的线性函数欢迎下载精品学习资源abx;另一部分就由众多其他因素,包括随机因素的影响所致,这一欢迎下载精品学习资源部分可以视为随机误差项,记为;可得一元线性回来模型欢迎下载精品学习资源yabx1欢迎下载精品学习资源式中,自变量 x 是可以掌握的随机变量,成为回来变量;固定的未知参数a,b成为回来系数; y 称为响应变量或因变量;由于是随机误差,依据中心极欢迎下载精品学习资源限定理,通常假定 N 0,22,是未知参数;欢迎下载精品学习资源确定 y 与 x 之间的关系前,可依据专业学问或散点图,挑选适当的曲线回来方程,而这些方程往往可以化为线性方程或者就是线性方程,因此我们欢迎下载精品学习资源可以用线性方程: yabx欢迎下载精品学习资源大致描述变量 y 与 x 之间的关系;欢迎下载精品学习资源1) 模型回来系数的估量为了估量回来系数,假定试验得到两个变量x 与 y的 n 个数据对欢迎下载精品学习资源xi , y i , i1,2,3n, 我们将这 n 对观测值代入式( 1),得欢迎下载精品学习资源欢迎下载精品学习资源y iabxin , i1,2,3, n欢迎下载精品学习资源这 里 1,2 ,n 互 独 立 的 随 机 变 量 , 军 服 从 正 态 分 布 , 即欢迎下载精品学习资源N0,2 , i1,2,3, n欢迎下载精品学习资源回来系数估量的方法有多种,其中使用最广泛的是最小二乘法,即要求选2取的 a , b , 的值使得述随机误差 的平方和达到最小,即求使得函数欢迎下载精品学习资源Qa, b取得最小值的 a , b ;n2niy ii1i1abxi欢迎下载精品学习资源欢迎下载精品学习资源由于Q a, b是 a , b 的二元函数,利用微积分中的函数存在极值的必要欢迎下载精品学习资源欢迎下载精品学习资源条件,分别对Q a, b求a , b 偏导数,并令其为 0,构成二元一次方程组欢迎下载精品学习资源欢迎下载精品学习资源n y ii0abxi 0 ,欢迎下载精品学习资源欢迎下载精品学习资源i0 y ii1abx ix i0 ,欢迎下载精品学习资源化简后得到如下正规方程组欢迎下载精品学习资源nnax i bi1ny i ,i1欢迎下载精品学习资源欢迎下载精品学习资源naxi ai1n2x ibi1nxi y i .i1欢迎下载精品学习资源欢迎下载精品学习资源解方程组得到总体参数a, b估量量欢迎下载精品学习资源欢迎下载精品学习资源a.1nb. 1yinx i , b.nxi y ixn2ix iy i2xi 欢迎下载精品学习资源这里,x i 和y i i1,2n 均已有的观测数据;欢迎下载精品学习资源由此得到回来方程欢迎下载精品学习资源y.ab.x欢迎下载精品学习资源欢迎下载精品学习资源带入观测 x i,得到值y i 称为回来猜测值;方程的直线称为回来直线;欢迎下载精品学习资源2) 回来方程显著性检验建立一元线性回来方程当且仅当变量之间存在线性相关关系时才是有意义的,因此必需对变量之间的线性相关的显著性进行检验,即对建立的回来模型进行显著性检验;我们第一引入几个概念:欢迎下载精品学习资源(1)SSTn y ii1y 2,称为SST总偏差平方和,它表示观测值y i 总欢迎下载精品学习资源的分散程度;欢迎下载精品学习资源(2)SSRn y.ii1y 2,称 SSR 为回来平方和,它是由回来变量 x 的变欢迎下载精品学习资源化引起的,放映了回来变量 x 对变量 y 线性关系的亲密程度;欢迎下载精品学习资源(3)SSEn y ii1y.i2 ,称SSE为残差(剩余)平方和,它是由观测欢迎下载精品学习资源误差等其他因素起误差,它的值越小说明回来方程与原数据拟合越好;可以证明以下关系成立欢迎下载精品学习资源SS TSS RSS E欢迎下载精品学习资源n即 y ii1y 2 =in y.i1y 2 +n yii1y.i 欢迎下载精品学习资源欢迎下载精品学习资源2我们主要考虑回来平方和在总偏差和中所占的比重,记R2SSR ;SST欢迎下载精品学习资源0<=R<=1, 称 R 为复相关系数,用R 的大小来评判模型的有效性, R 越大,就反映回来变量与相应变量之间的线性函数关系越亲密;引入F 统计量;欢迎下载精品学习资源定义FSSESSR,可知 FF(1,n-2 ). 对于给定的显著水平 a 一般这欢迎下载精品学习资源 n2里取 0.05 或 0.01 ,查表可得临界值 Fa ( 1,n-2 )假如 F> F( 1,n-2 ) , 就认为 y 与 x 之间的线性关系显著;假如F<= F( 1,n-2 ),就认为 y 与 x 之间的线性关系不显著,或者不存在线性关系,在实际应用中也可以通过 F 对应的概率 P<来说明 y 与 x 之间的线性相关性显著;3) 回来系数的置信区间欢迎下载精品学习资源回来方程( 1)的回来系统a , b 是一个点估量值,给定置信水平1-后,欢迎下载精品学习资源可得到他们对应的置信区间,并且回来区间越短越好,假如摸个回来系数的置 信区间包含 0 点,就说明该回来变量的影响不显著,需要进一步地修改回来方程,尽量是每个回来系数的置信区间都不包含0 点;4) 利用模型猜测0在对所建立的回来模型进行相关程度检验与分析之后,假如猜测变量y 与相关变量 x 的每一个给定值 x,带入回来模型,就可以求得一个相对应的回来欢迎下载精品学习资源猜测值y0 ,y 0 称为模型的点估量值;欢迎下载精品学习资源四方法实现(1) )输入数据,并输入作散点图命令:>> y=30 29.1 28.4 28.1 28.0 27.7 27.5 27.2 27.0 26.8 26.5 26.3 26.1 25.7 25.3 24.824.0 23.7 23.1 22.9 22.6 22.3 22.1 21.7 21.5 21.3 21.0 20.6 20.3 20.;1>> x=0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29;>> plotx,y,'*'生成图( 1),可以看出 x 和 y 大体成线性关系;图 1 散点图(横轴: X 纵轴 Y)(2) )作一元回来分析,输入:>> n=lengthy;>> X=onesn,1,x';>> b,bint,r,rint,s=regressy',X;>> b,bint,s b =29.5501-0.3329bint =欢迎下载精品学习资源29.332629.7676-0.3458-0.3200s = 1.0e+003 *0.00102.801900.0001这个结果可整理成表 1 的形式;回来系数01回来系数估量值29.5501-0.3329回来系数置信区间29.3326,29.7676-0.3458,-0.3200R 21 F2801. 9 p0. 001表 1 MATLAB 回来分析结果表一元回来方程为:y29. 55010. 3329x从几个方面都可以检验模型是有效的:F 检验 P-接近于 0; 1 的置信区间不含 零 点 ; p; 用MATLAB命 令finv0.95,1,28 计 算 得 到F0 . 95 1,284. 1960F ,F 为统计量观测值,所以 X 与 Y的相关性显著;残差及其置信区间作图代码输入:rcoplotr,rint结果如图 2 所示:欢迎下载精品学习资源Residual Case Order Plot10.80.60.4als0.2du0i s e R-0.2-0.4-0.6-0.8-151015202530Case Number图 2 残差图(横轴:削磨时间 纵轴:残差分析值)所谓残差是指实际观看值与回来估量值的差,残差分析就是通过残差所供应的信息,分析出数据的牢靠性、周期性或其它干扰;从残差图可以看 出,数据的残差离零点较近,且残差的置信区间均包含零点,这说明回来模型欢迎下载精品学习资源y29. 55010. 3329x能很好的符合原始数据;欢迎下载精品学习资源欢迎下载精品学习资源(3) )讲上面的回来系数估量值029. 5501, 1- 0. 3329 带入回来方程,欢迎下载精品学习资源.刀具磨损速度的测试中,对时间间隔为30/h的刀具厚度进行猜测,得到y.019.5631 ;欢迎下载精品学习资源在0. 05 ,刀具的厚度猜测区间简化为y.0us,12y.0u1s,输入计2欢迎下载精品学习资源算指令:>> t1=19.5631-norminv0.0975,0,1*sqrtsumr.2/16 t1 =20.0742>> t2=19.5631+norminv0.0975,0,1*sqrtsumr.2/16欢迎下载精品学习资源t2 =19.0520即时间间隔为 30/h 的刀具磨损速度测试中,刀具厚度的置信度为0.95 的猜测区间为 19. 0520,20. 0742 ;也可以用命令:>> y=30 29.1 28.4 28.1 28.0 27.7 27.5 27.2 27.0 26.8 26.5 26.3 26.1 25.7 25.3 24.824.0 23.7 23.1 22.9 22.6 22.3 22.1 21.7 21.5 21.3 21.0 20.6 20.3 20.;1>> x=0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29;>> polytoolx,y,1,0.05作出散点图及拟合曲线,并对 x30 时的 y 进行预报,结果如图 3 所示;图 3 散点图及拟合曲线如图 3 所示,红线表示为数据离合区间,蓝色“+”表示为数据散点分布,绿色表示为拟合曲线;4 下面用 Excel “分析工具库”供应的“回来”工具,找出线性回来方程,并检验其显著性;1、详细步骤如下:1>在【工具】菜单中选中【数据分析】,就会弹出【数据分析】对话框, 然后“分析工具”中挑选“回来”选项,如图二所示;单击【确定】后,就弹欢迎下载精品学习资源出【回来】对话框,如图 <5>所示;2>填写【回来】对话框;如图 <6>所示,该对话框的内容较多,可以依据需要,挑选相关工程;在“ X值输入区域”内输入队因变量数据区域的引用,该区域必需有单列数据 组成,如此题中组分 B;在“ Y 只输入区域”输入对自变量数据区域的引用,如此题中组分 C;“标志” :假如输入区域的第一行中包含标志项,就选中此复选框,此题中的输入区域包含标志项;假如在输入区域中没有标志项,就应清晰此复选框,Excel 将在输出表中生成合适的数据标志;“置信度” :假如需要在汇总输出表中包含附件的置信度信息,就选中此复选框,然后在右侧的编辑框中,输入所要使用的置信度;Excel 默认的置信度为95%,相当于显著性水平 a=0.05 ;“常数为零”:假如要强制回来线通过原点,就选中此复选框; “输出选项”:挑选“输出区域”,在此输出对输出表左上角单元格的引用;3>“残差” :假如需要以残差输出表形式查看残差,就选中此复选框;“标准残差”:假如需要在残差输出表中包含标准残差,就选中此复选框;“残差图” :假如需要生成一张图表,绘制每个自变量及其残差,就选中此复选框;“线性拟合图” :假如需要为猜测值和观看值生成和观测值生车一个图表,就选中此复选框;“正态概率图” :假如需要绘制正态概率图,就选中此复选框;欢迎下载精品学习资源图 4 散点图图 5 Excel 数据分析工具图<5>Excel 数据分析工具欢迎下载精品学习资源图 6 回来分析工具界面回来分析工具运行结果:Multiple R0.995041R Square0.990106AdjustedRSquare0.989752标准误差0.298135观测值30表 2 回来统计表 2 中,“ MultipleR”是线性回来的系数“R Square”是拟合系数“ Adjusted RSquare”调整后的拟合系数;欢迎下载精品学习资源回来分dfSSMSFSignificanceF欢迎下载精品学习资源析1249.0449249.04492801.8981.29E-29残差282.4887620.088884总计29251.5337Coefficients标准误差t StatP-valueLower95%Upper95%下限95.0%Intercept29.550110.106197278.25759.73E-5029.3325729.7676429.3325表 3 方差分析欢迎下载精品学习资源X Variable1-0.332880.006289-52.9331.29E-29-0.34576-0.32-0.34576表 4 回来分析结果 1RESIDUAL OUTPUTPROBABILITY OUTPUT观测值猜测 Y标准残残差差百分比排位Y129.550110.4498921.5357341.66666720.1229.21723-0.11723-0.40016520.3328.88435-0.48435-1.653348.33333320.6428.55146-0.45146-1.541111.6666721528.21858-0.21858-0.746151521.3627.8857-0.1857-0.6339118.3333321.5727.55282-0.05282-0.1803121.6666721.7827.21994-0.01994-0.068072522.1926.887060.112940.38552828.3333322.31026.554180.2458210.83912531.6666722.61126.22130.2787020.9513663522.91225.888420.4115831.40496338.3333323.11325.555540.5444641.8585641.6666723.71425.222650.4773451.62944645241524.889770.4102261.40033148.3333324.81624.556890.2431070.8298651.6666725.31724.22401-0.22401-0.764685525.71823.89113-0.19113-0.6524458.3333326.11923.55825-0.45825-1.5642661.6666726.32023.22537-0.32537-1.110676526.52122.89249-0.29249-0.9984268.3333326.82222.55961-0.25961-0.8861871.66667272322.22673-0.12673-0.432597527.22421.89385-0.19385-0.661778.3333327.52521.56096-0.06096-0.208181.6666727.72621.228080.0719170.24549385282720.89520.1047980.35773488.3333328.12820.562320.0376790.12861991.6666728.42920.229440.070560.240869529.13019.896560.2034410.69445798.3333330表 5 回来分析结果 残差与标准残差观测值猜测Y残差129.550110.449892229.21723-0.11723328.88435-0.48435428.55146-0.45146528.21858-0.21858欢迎下载精品学习资源627.8857-0.1857727.55282-0.05282827.21994-0.01994926.887060.112941026.554180.2458211126.22130.2787021225.888420.4115831325.555540.5444641425.222650.4773451524.889770.4102261624.556890.2431071724.22401-0.224011823.89113-0.191131923.55825-0.458252023.22537-0.325372122.89249-0.292492222.55961-0.259612322.22673-0.126732421.89385-0.193852521.56096-0.060962621.228080.0719172720.89520.1047982820.562320.0376792920.229440.070563019.896560.203441表 6 回来分析结果3用EXCE作L 出散点图度 40 厚 具 20 道Y猜测 YY001020X 消磨时间3040图 7 EXCEL处理数据得出的散点图欢迎下载精品学习资源欢迎下载精品学习资源10.50差残X Variable 1 Residual Plot欢迎下载精品学习资源-0.5-1010203040X Variable 1欢迎下载精品学习资源图 8 用 EXCEL处理数据得出的残差分布图由表 3 所知,如保留四位有效数字,该回来方程的截距是29.5501 ,斜率欢迎下载精品学习资源为-0.3329 ,所以回来方程的表达式为:y29.55010. 3329 x;依据回来统欢迎下载精品学习资源欢迎下载精品学习资源计结果,知打算系数2R=0.9898,即相关系数 r=0.9231 ,说明自变量与因变量之欢迎下载精品学习资源间有较高的相关性;依据方差分析的结果,F=2801.9,有效的 F<0.01,所以建立的回来方程特别显著;在表五中,除了列出了回来系数,仍有标准误差等工程;其中“标准误差”表示的事对应回来系数的标准误差,其中偏回来系数的标准误差;“t Stat ”就是 t检验时的统计量t ;假如多元线性回来,就可直接依据“t Stat ”的大小,判定因素的主次次序;“ P-value ”表示 t 检验偏回来系数不显著的概率,假如 P-value<0.01 ,就可认为该系数对应的变量对试验结果影响特别显著( * * ),假如 0.01< P-value <0.05,就可认为该系数对应的变量对实 验结果影响显著( *);对于常数项, P-value 就表示常数项为零的几率;由表 3 所知,如保留四位有效数字,该回来方程的截距是29.5501,斜率为 -欢迎下载精品学习资源0.3329,所以所回来方程的表达式为: y29. 55010. 3329x;依据回来统计欢迎下载精品学习资源欢迎下载精品学习资源结果,知打算系数 x间有有着五设计总结0. 9898即相关系数 r0. 9231 ,说明自变量与因变量之欢迎下载精品学习资源通过对概率论与数理统计的这道实际问题的解决,不仅使我更加深刻的懂得了概率论与数理统计的基础学问,而且使我对这些学问在实际中的应用产生 了深厚的爱好,同时对我学习好概率论与数理统计这门课有很大帮忙;在实现 这道题的过程中我应用了 Excel 软件,学会了该软件的一些新的应用,更加熟欢迎下载精品学习资源练的操作该软件进行一些数据上的处理;参考文献1 沈恒范.概率论与数理统计教程 M. 第四版 .北京:高等训练出版社 ,2003.4:140- 1962 朱燕堂、赵选民、徐伟 .应用概率统计方法M. 第 2 版.西北工业高校出版社,2000 年元月.西安3 章栋恩、马玉兰、李双、徐元平.MATLAB 高等数学数据分析 M. 西北工业高校出版社 ,2002.北京致 谢本论文是张玉春老师指导下完成的;她庄重的科学态度,严谨的治学精神,精益求精的工作作风,深深地感染和鼓励着我;在此,我向张老师致以诚欢迎下载精品学习资源挚的谢意和崇高的敬意;同时我仍要感谢我的同学们,在论文设计中,他们给了我许多的建议和帮忙;我仍要感谢我的论文中被我引用或参考的文献的作者;欢迎下载