哈工大数理统计大作业.docx
数理统计作业学号:14S109063 姓名:孙巍学院:材料学院 专业:材料工程 类别:应用型异常值 Qi-1 -5IQR=392.5975-1 .5X 142.6075=178.68625 异常值 Q3+l.5IQR=535.2050+l.5 X 142.6075=749.11625 所以该组数据没有异常值此外低于400的硬度值较少,硬度值普遍较高。绘制材料硬度的直方图:宜方图oo350.00400.00450.00500.00550.00600.00650.00强度均值=477.08标很偏蜕=87.538N=14姓名:孙巍学号:14sl09063学院:材料学院外表处理材料的硬度与距离材料外表距离的关系-基于一元线性回归分析方法的实例研究摘要:经过外表处理后的材料硬度随着距离材料的外表距离的不断变化而变化, 为了更好的研究材料的外表性质,我们需要确定出距离与维氏硬度的关系。因此, 我们数据,运用一元线性回归方法,同时利用统计软件SPSS对距离对硬度 的影响进行研究,为外表硬度的相关研究提供参考。关键词:SPSS 一元线性回归 外表维氏硬度距离外表距离一.一元线性回归分析的理论介绍一般地,当随机变量丫与普通变量X之间有线性关系时,可设y = /?o+/?lX + * £N(0,o2),其中及),用为待定系数。设(西,乂),(X2,为),(为,工7)是取自总体(X,丫)的一组样本, (不弘),。%),(当,为)是该样本的观察值,在样本和它的观察值中的,与是取定的不完全相同的数值,而样本中的,工在试验 前为随机变量,在试验或观测后是具体的数值。一次抽样的结果可以取得对数据(项),(、2,%),(的,儿),那么有M+ PXi , i = 1,2 , - ,n其中与,邑,邑相互独立。在线性模型中,由假设知YN+限 o2), £(7)二4+片X回归分析就是根据样本观察值寻求为,片的估计A), A。八八八那么对于确定的瓦,自,当给定x值时,就取丫=4)作为£(丫)=氏+ PX的估计,该估计方程就称为y关于x的线性回归方程,其图 像称为回归直线,A称为回归系数。那么,现在的问题是怎么去求解这里的60,61概率论与数理统计中我们学会了应用最小二乘法求解60,A,大致过程如下:对样本的一组观察值(为/1),(12, 火),,(/),对每个9,由线性回归 方程可以确定一回归值八八Si = 00 + P Xi,这个回归值土与实际观察值乂之差/X% 一京=乃-,0 +,1毛刻画了匕与回归直线/ = /()+61%的偏离度.一个自然的想法就是:对所有,假设丹与yi的偏离越小,那么认为直线与所有试验点拟和得越好。)1令。(人=£(3)21=八上式表示所有观察值上与回归直线匕的偏离平方和,刻划了所有观察值与回 归直线的偏离度。所谓最小二乘法就是寻求 用与£1的估计 瓦,自,使 0(A),/i) = minQ3),,J利用微分的方法,求。关于4),片的偏导数,并令其值为零,得 二 一2£(% 一4一月巧)=。明) 日 <雪=-2弋(z - A - 4七)七二0明 /=1整理得z=l1=1、>闩 00 +01 =解得B、= Z、-2一 nx/i JL1Zz-假设记defL xynZ (x, - x)(九- z = ln£ Xiy i - n x y i=defL XXV1 2-2> x i - n x i = 1Bo = y - xBi八P - L*y IL xx叫做a,用的最小二乘估计.而那么为所求的y关于x的一元线性回归方程. 下面我们来看一下回归方程的显著性检验:前面关于线性回归方程j = 6() +31X的讨论是在线性假设y = #o+,/ + £, £N(0,o"2)下进行的。这个线性回归方程是否有实用 价值,那么要根据实际观察得到的数据运用假设检验的方法来判断.由线性回归模型丫 =为+,1% + £ , £N(0,,)可知,当月二。时,就认 为y与x之间不存在线性回归关系,故需检验如下假设:H。邙、=0, H:0 产 0.为了检验假设,先分析对样本观察值1,2, .,的差异,它可以用总的 偏差平方和来度量,记为. _St =Z(yT)2=/»,Z = 1几_另外:St =Z(%一6+反一 V)2Z = 1=£ (匕-女)2 +-Z = 1Z = 1令 s& = £(%-», = (»%),那么有 i=i=ST=SRS其中:Sr称为回归平方和,它由普通变量X的变化引起的,它的大小(在与误差相比下)反映了普遍变量X的重要程度;称为残差平方和,它是由试验误差以及 其它未加控制因素引起的,它的大小反映了试验误差及其它因素对试验结果的影 响.这里简明的介绍一下:在线性模型假设下,当成立时,,1与S剩相互独 立,且凡/。22( 2), S/.,这里的n-2和1均为自由度,n即为数据个数。n_最后再次申明:St =Z(» 一歹)2, Sr=Z(%»,%)、 i=z=li=当为真时,取统计量F =旦尸(1, 2 )Se /(n - 2)由给定显著性水平a ,查表得片_。(1,-2),根据试验数据 (西,乃),(%2,% ),(% /)计算尸的值,假设尸2月F (1, - 2)时, 拒绝”0,说明回归效果显著;假设F < R_a(5-2)时, 接受0,此时回归 效果不显著。二:SPSS求解实例问题SPSS基于以上的最小二乘法理论基础,快速的求出所有的值,非常直观地便可 以分出研究的现实问题,对于本文中需要研究的距离对硬度的影响,我们便可以 通过以下的SPSS操作来分析。下表是我们为本次实例求解提供的数据:距离硬度10.00619.19230.00598.26360.00559.4690.00527.125120.00518.796150.00524.327180.00510.658210.00489.869240.00424.25270.00406.5511300.00400.9012330.00367.6913360.00366.0614445.00366.06选取维氏硬度值作为因变量Y,距离外表距离作自变量X进行回归分析。通过在SPSS中输入数据,得到散点图如下:650.00-600.00-550.00-逐 500.00-450.00-400.00-350.00-0.00100.00200.00300.00即肉400.00500.00通过所作的散点图,可以发现,外表硬度与距离外表的距离大致呈线性关系。因此,我们可以进一步做直线回归与相关分析。(1)通过在spss软件按Analyze Regression Linear顺序展开线性模型主对 话框。(2)在左侧的源变量框中选择变量硬度作为因变量进入Dependent框中。选择 距离变量作为自变量进入Independents框中。并选取相关参数。(3)单击ok,得到以下结果:输入/移去的变量b模型输入的变量移去的变量方法1距离a输入a.已输入所有请求的变量。b.因变量:硬度模型汇总b模型RR方调整R方标准估计的误 差1.968a.936.93122.98771a.预测变量:(常量),距离。b.因变量:硬度Anovab模型平方和dfFSig.1回归93276.642193276.642176.515.000a残差6341.21912528.435总计99617.86013a.预测变量:(常量),距离。b.因变量:硬度系数,模型非标准化系数标准系数B的95.0%置信区间B标准误差试用版tSig.下限上限1(常量)604.04011.36053.171.000579.288628.792距离-.638.048-.968-13.286.000-.743-.534a.因变量:硬度残差统计量a极小值极大值均值标准偏差N预测值320.0388604.0401477.082984.7061214残差-26.6208646.02118.0000022.0858814标准预测值-1.8541.499.0001.00014标准残差-1.1582.002.000.96114a.因变量:硬度从方差分析表来看,硬度和距离之间具有显著的(sig. = 0.000)线性关系(y= a + bx)o 从Model summary来看,R是回归分析的决定系数,线性拟合度较好(RA2=0.936), 说明所有的点和拟合的直线偏离不大。从coefficients这个表来看,拟合公式为:硬度距离y=-0.638x+604.04材料外表硬度数据箱线图及直方图在SPSS软件中输入上述硬度值,对该组数据进行数据汇总,数据如下:0619.19, 598.26, 559.46, 527.12, 518.79, 524.32, 510.65, 489.86424.25, 406.55, 400.9, 367.69, 366.06计算结果如下:统计福度有效缺失中值500.2550百分位数 25392.5975500.2550 535.2050绘制材料的箱线图:650.00-600.00-550.00-500.00-450.00-400.00-350.00-数据中位数为500.2550IQR=5352050-3925975=1426075