《回归分析方法.doc》由会员分享,可在线阅读,更多相关《回归分析方法.doc(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、回归分析方法 回归分析方法是统计分析的重要组成部分,用回归分析方法来研究建模问题是一种常用的有效方法.什么是回归分析呢?大家知道:数学分析(或高等数学)是研究连续变量之间的关系,泛函分析是研究函数集之间的关系,而回归分析是研究随机变量之间的关系. 回归分析方法一般与实际联系比较密切,因为随机变量的取值是随机的,大多数是通过试验得到的,这种来自于实际中与随机变量相关的数学模型的准确度(可信度)如何,需通过进一步的统计试验来判断其模型中随机变量(回归变量)的显著性,而且,往往需要经过反复地进行检验和修改模型,直到得到最佳的结果,最后应用于实际中去。回归分析的主要内容是:(1) 从一组数据出发,确定
2、这些变量(参数)间的定量关系(回归模型);(2) 对模型的可信度进行统计检验;(3) 从有关的许多变量中,判断变量的显著性(即哪些是显著的,哪些不是,显著的保留,不显著的忽略);(4) 应用结果是对实际问题作出的判断.多元线性回归模型的一般形式为 (1) 其中为随机误差,且均为实际问题的解释变量,是已知函数.实证分析例1 模型与假设我们将以某地区消费者对当地某品牌电子手表的销售量随价格与平均收入变动的资料进行回归分析,并对估计模型进行检验。解释变量:商品价格x1(单位:元/件),人均月收入x2 (单位:元),被解释变量:商品销售量y(单位:件)。我们仅利用x1 和x2来建立y的预测模型。数据如
3、下表:年份1996199719981999200020012002商品价格76786571605245人月均收入560530600680750830880销售量5800489062007300835087609100年份20032004200520062007200820092010商品价格5632455245383935人月均收入830980110012301270135014501480销售量90209840921097008750935087708320基本模型 为了大致分析y与x1 和x2的关系,先作出y对x1 和x2的散点图(见图1和图2中的圆点)。 图1 y对x1的散点图 图2 y
4、对x2的散点图从图1可以看出,随着x1 的增加,y的值有比较明显的线性减少趋势,因此考虑如下线性模型: (1)来拟合,是随机误差,而在图2中,当x2增大时,y有向下弯曲减少的趋势,故考虑如下模型来拟合: (2)综合上述的分析,结合模型(1)和(2)简历如下回归模型 (3)(3)式右端的x1和x2称为回归变量,是给定商品价格 x1,人均月收入x2时,手表销售量y的平均值,其中称为回归系数,运用SPSS计算得他们的估计值如表1,影响y的其他因素作用都包含在随机误差中,如果模型选择得合适,应大致服从均值为零的正态分布。表1系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)-3687
5、.1202443.293-1.509.159x1-18.48115.181-.183-1.217.249x225.7663.3655.6217.657.000X3-.012.001-5.139-7.881.000a. 因变量: y表2模型汇总模型RR 方调整 R 方标准 估计的误差1.977a.955.942358.688a. 预测变量: (常量), X3, x1, x2。表3Anovab模型平方和df均方FSig.1回归2.984E739948244.06177.324.000a残差1415227.81811128657.074总计3.126E714a. 预测变量: (常量), X3, x1
6、, x2。b. 因变量: y注:表中的x3=。结果分析:表2显示:指因变量y的95.5%可由模型,表3中F值远远超过F检验的临界值,p远远小于,因而从整体来说模型是可用的。销售量的预测 将回归系数的估计值代入模型(3),即可预测未来某个时期手表的销售量,将预测值记作,得到模型(3)的预测方程为 (4)只需要知道该年份手表的销售价格x1和人均收入x2,就可以计算预测值。例如:若某年手表销售价格x1=50,人均收入x2=1500,则销售量的估计值=7037.83例2 模型与假设初中升入高中的升学率,不仅受个人特征的制约,而且要受家庭特征和学校以及一些外部力量(如国家政策等)通过一定的中介因素对学生
7、的升学产生影响。学校是学生学习的主要场所,老师的期望和学校的一些特征(如毕业生数、招生目标、学校历年升学率等)都可能是影响学生升学率的一些重要因素。总体来看,影响初中升入高中人数的因素有很多方面,假定有人口特征、国家教育投入、教育资源以及教育背景等几类因素。因此选取如下变量作为解释变量,参与回归模型分析。选取的7个主要自变量如下:X1:6岁及6岁以上人口数,X2:国家教育总经费,X3:初中毕业人数,X4:高中学校数,X5:高中师生比,X6:每10万人口高中在校生数,X7:居民受教育程度为大专及以上的人数。其中以6岁及6岁以上人口数代表人口特征,国家教育经费代表政府教育投入,初中毕业人数、高中生
8、师比、高中学校数以及每10外人口高中在校生数作为教育规模代表指标,最后以居民受教育程度为大专及以上的人数作为教育背景代表指标。原始统计数据表升入高中数6岁及6岁以上人口数教育总经费初中毕业人数高中学校数普通高中师生比每10万人口高中在校生数居民受教育程度为大专及以上的人数北 京6598314406469016610181130510.2724754433天 津608711006820608439687321812.5130401713河 北44723257559558491499074666116.0136983233山 西27788228680332840461537454415.66444
9、42198内蒙古17433820356262552728870030616.6936441619辽 宁24827136994479231147549542616.4929474371吉 林15882023274271419530261926216.9630531913黑龙江20792732556338655143633543015.1628982131上 海558421629648230269988427310.5119823855江 苏45606264329996427296284871014.4236774995浙 江30020843157797283459148758214.143151
10、4335安 徽4247435064943837321E+0676920.4436872360福 建23847529789389854147791160613.7437252918江 西25095335686333317151906547616.2636162447山 东50024878686774914899566463213.9933304728河 南6450157770665615232E+0686819.1941494006湖 北42378647978451959392375962218.1844803662湖 南35652153010506605069329368415.2832053
11、254广 东71790080247116615541E+06102016.2339505512广 西26259439345347622364490547818.1630811613海 南54829700892898115274110817.103611482重 庆22089923672266258040748826719.6740281300四 川5153216837365783381E+0675818.6234423844贵 州21906231262270913861549645118.5126471035云 南22032537602342293262076245715.3925781152
12、西 藏138842375494122424012414.11208240陕 西33488731717380616866322558617.7949012885甘 肃21698222002231020046337246317.3039691053青 海3657145616080346571212614.343763403宁 夏480845083702612932318216.444167425新 疆14886917442250166135496941314.19320816581 原始拟合模型 利用SPSS进行回归分析,首先采用变量强制进入模型法,建立模型1、原始模型如下:Y=-152385.1
13、88+2.427X1+0.009X2+0.207X3+45.259X4+3157.465X5+ 29.253X6+ 2.375X7。2、拟合优度检验分析:由上表可以看出,R及R方反映了回归方程与样本观测值的拟合优度,相关系数R为0.996,决定系数为0.990,接近于1,表明拟合优度很好。3、自相关性检验 上表中给出了杜宾沃森检验值,DW=1.940表明无自相关性,即每个观测值之间不相关。4、方程显著性检验 模型的方差分析表如下所示:Anovab模型平方和df均方FSig.1回归9.718E1171.388E11408.342.000a残差7.820E9233.400E8总计9.797E113
14、0a. 预测变量: (常量), V6岁及6岁以上人口数, 每10万人口高中在校生数, 普通高中师生比, 居民受教育程度为大专及以上的人数, 高中学校数, 教育总经费, 初中毕业人数。b. 因变量: 初中升入高中数方差分析表显示F值为408.342,P值为0.000,查表可知=4.17,而408.3424.17,所以认为这个统计模型是有意义的。5、参数显著性检验根据spss计算结果,可得系数表如下:已知显著性可由p10时该变量会在模型中产生共线性。所以由上表可看出:高中学校数、初中毕业人数、教育总经费、6岁及6岁以上人数几个变量均存在共线性;高中学校数、高中师生比、教育总经费、居民受教育程度为大
15、专及以上的人数几个变量均不显著,然而整体的方程显著性却很高,这说明可能部分解释变量对预测变量的显著性被变量间的共线性隐藏了。 下面看一下=变量间的共线性诊断表如下共线性诊断a模型维数特征值条件索引方差比例(常量)高中学校数初中毕业人数普通高中师生比每10万人口高中在校生数教育总经费居民受教育程度为大专及以上的人数V6岁及6岁以上人口数1dimension117.3371.000.00.00.00.00.00.00.00.002.4424.075.00.00.00.00.01.01.00.003.1546.896.00.00.02.00.00.02.09.014.02517.246.03.18.
16、00.02.20.09.11.105.01721.081.00.05.00.01.04.76.61.096.01522.161.05.59.04.00.47.04.01.017.00732.096.00.09.52.12.29.02.17.768.00346.414.92.08.40.84.00.06.02.03a. 因变量: 初中升入高中数由上表看出,最大的条件索引值为46.41430,说明变量间有中等相关性,条件索引最大值对应的行中,6岁及6岁以上人口数和高中专任教师数的方差比例超过了0.5,因此认为二者构成了一个相关变量集,在修正模型时可删去二者之一。一、 模型检验与修正剔除不显著及共线
17、性高的变量 由上面的分析,考虑剔除由上一节的分析,考虑剔除部分显著性不高或共线性高的变量。初步剔除高中学校数和居民受教育程度为大专及以上几个变量,得到模型2:.Y=-140083.79+2.488X1+0.011X2+0.226X3+2416.459X5+31.005X6。模型汇总b模型RR 方调整 R 方标准 估计的误差更改统计量Durbin-WatsonR 方更改F 更改df1df2Sig. F 更改1.996a.992.9901.81865E4.992587.390525.0001.761a. 预测变量: (常量), V6岁及6岁以上人口数, 每10万人口高中在校生数, 普通高中师生比,
18、 教育总经费, 初中毕业人数。由分析表得出如下检验值:1、拟合优度R方=0.996,拟合良好;2、DW值=1.761,自相关性较低;3、F=587.390,方程显著性高;变量检验及共线性检验如下表:系数a模型非标准化系数标准系数tSig.B 的 95.0% 置信区间共线性统计量B标准 误差试用版下限上限容差VIF1(常量)-1.401E53.694E4-3.792.001-2.162E5-6.400E4初中毕业人数.226.035.5106.530.000.154.297.05518.067普通高中师生比2416.4592.326E3.0321.039.309-2374.2617207.179
19、.3482.870每10万人口高中在校生数31.0056.175.1175.021.00018.28643.723.6171.622教育总经费.011.003.1543.298.003.004.017.1556.470V6岁及6岁以上人口数2.488.661.3103.765.0011.1273.849.05020.085a. 因变量: 初中升入高中数可见变量显著性和多重共线性都有比较明显的改善,但不够完善二、 模型的评价分析根据模型3,由多元线性回归分析、拟合优度检验、回归方程的显著性检验及回归系数的显著性检验,可以看出,2009年我国各地区初中升入高等中学人数与初中毕业人数、教育总经费、每10万人口在校生数等指标呈正相关,即教育规模越大,初中学生毕业生数量越多,初中升高中人数越多。而与受教育程度和人口特征无显著的统计关系,这与预期有所不同。即父母受教育程度并不必然的影响初中升学人数,这可能是由于父母受教育程度与升学率无直接关系造成的。此外,还应考虑政府政策,教育结构等因素,以完善模型。基础教育与国民经济发展及精神文明建设等直接相关,提高基础教育水平至关重要。从模型可以看出,教育规模对初中升学人数有很大影响,因此,应扩大基础教育包括高中教育规模,不仅在学校数量、师生比等数量上增加,更要在师资力量、教学环境、学术研究等各方面完善提高。
限制150内