回归、判别分析(12页).doc
-回归、判别分析-第 12 页天津理工大学实验报告学院(系)名称:计算机与通信工程学院姓名学号专业班级实验项目回归分析与判别分析课程名称数据分析及其应用软件课程代码0665106实验时间2016年4月6号3、4节,中午实验地点7号楼216批改意见成绩教师签字: 实验内容:回归分析: 1研究货运总量(万吨)与工业总值(亿元)、农业总产值(亿元)、居民非商品支出(亿元)的关系。数据见下表编号货运总量Y工业总产值x1农业总产值x2居民非商品支出x3116070351.0 226075402.4 321065402.0 426574423.0 524072381.2 622068451.5 727578424.0 816066362.0 927570443.2 1025065423.0 设变量x1表示工业总产值,变量x2表示农业总产值,变量x3表示居民非商品支出,y表示货运总量。假设因变量y和自变量x1,x2,x3的线性回归模型为 判别分析: 2.为研究某地区人口死亡状况,已按某种方法将15个已知样品分为3类,指标及原始数据如下表。利用费歇线性判别函数,判定另外4个待判样品属于哪一类?某地区人口死亡状况指标及原始数据表组别序号X1=0岁组死亡概率X2=1岁组死亡概率X3=10岁组死亡概率X4=55岁组死亡概率X5=80岁组死亡概率X6=平均预期寿命第一组134.167.441.127.8795.1969.3233.066.341.086.7794.0869.7336.269.241.048.9797.368.8440.1713.451.4313.88101.266.2550.0623.032.8323.74112.5263.3第二组133.246.241.1822.9160.0165.4232.224.221.0620.7124.768.7341.1510.082.3232.84172.0665.85453.0425.744.0634.87152.0363.5538.0311.26.0727.84146.3266.8第三组134.035.410.075.290.169.5232.113.020.093.1485.1570.8344.1215.121.0815.15103.1264.8454.1725.032.1125.15110.1463.7528.072.010.073.0281.2268.3待判样品150.226.661.0822.54170.665.2234.647.331.117.7895.1669.3333.426.221.1222.95160.3168.3444.0215.361.0716.45105.364.2实验结果分析:回归分析:(1)描述统计量的结果,显示变量y和x1,x2,x3的均数、标准差和例数(N)。(2)相关分析的结果,货运总量和农业总产值,货运总量和居民非商品住处的相关系数分别为0.731,0.724,单尾单侧检验分别为P=0.008,P=0.009,相关程度高。(3)模型摘要,相关系数为R=0.898,判定系数为R Square=0.806,调整判定系数Adjusted R Square=0.708,估计值的标准误差 Std. Error of the Estimate=1.391(4)方差分析结果,回归的均方Regression Mean Square=4551.790,残差的均方Residual Mean Square=549.522,F=8.283,P=0.015<0.05,所以线性回归方程显著。(5)偏回归系数结果,常数项(Constant)=-348.280,工业总产值回归系数=3.754,回归系数的标准误差=1.933,回归系数的t检验值=0.385,P=0.100,农业总产值回归系数=7.101,回归系数的标准误差=2.880,回归系数的t检验值为2.465,P=0.049,居民非商品支出回归系数=12.477,回归系数的标准误差=10.569,回归系数的t检验值为1.178,P=0.284。故求的回归方程为y=-348.280+3.754+7.101+12.447(6)残差直方图,正态曲线被加载到直方图上,判断标准化残差呈正态分布。(7)save结果,增加新变量到正在使用的数据文件。 判别分析:(1) 将数据导入SPSS,根据要求,采用系统聚类方法,在SPSS中选择分析-分类-判别分析:(2) 进行判别分析,将X1到X6全部选入自变量中,分组变量为组别,如图:(3) 在统计量选项中选择均值,单变量,Boxs M等,如图,分类选项中勾选个案、摘要: (4) 检验各组的描述统计量和对各组均值是否相等:表1反映的是有效样本量为15,变量的缺失值为4。表2是对各组均值是否相等的检验,根据P值,我们可以在0.01的显著性水平上拒绝X4与X5在三组的均值相等的假设,即认为变量X4、X5在三组的均值是有显著差异的。(5) 典型判别函数: 由表3可以得出:第一判别函数解释了98.8%的方差,第二判别函数解释了1.2%的方差,两个判别函数解释了全部的方差。表4是对两个判别函数的显著性检验,由Wilkins Lambd检验,在0.05的显著性水平上,根据P值可以得到,第一个判别函数是显著的,第二个判别函数是不显著的。(6) 判别函数、判别载荷和各组的重心: 表5是标准化的判别函数,表示为: Y1=-17.046X1+14.757X2-1.306X3+6.381X4+1.332X5+4.315X6 Y2=-7.677X1+9.870X2-0.531X3-0.666X4+0.710X5+1.833X6 表6位结构矩阵,即判别载荷,表四是反映判别函数在各组的重心 表7是非标准化的判别函数,表示为: Y1=-78.896-1.950X1+1.748X2-0.930X3+0.825X4+0.102X5+1.662X6 Y2=-30.330-0.878X1+1.169X2-0.365X3-0.086X4+0.054X5+0.706X6 (7)分类的统计结果: 表8是每组的分类函数,也称费歇线性判别函数,三组的分类函数表示为: Y1=-5628.382-159.015X1+168.068X2-98.413X3+58.217X4+11.702X5+202.770X6 Y2=-6584.377-181.479X1+187.715X2-109.195X3-68.296X4+12.862X5+221.972X6 Y3=-5266.780-149.370X1+158.749X2-93.908X3+54.948X4+11.185X5+194.625X6 可以根据计算每个观测在各组的分类函数值,将观测分类到较大的分类函数值中。 表9位分类矩阵表,通过判别函数的预测,根据原数据的所属组关系,3组观测全被判对,未分组的变量中有一个待判样品判给第一组,有一个待判样品判给第二组,有两个待判样品判给第三组。在交叉验证中,第一组5个样品全部被判为对,第二组5个样品观测有4个被判对,第三组5个样品观测中有3个被判对。 根据图6的分类结果可以看出:第二组样品与第一组样品和第三组样品可以很清晰地区分开,而第一组与第三组样品存在重合区域,即存在误判。根据上表Casewise Statistic 结果可以得出:将待判样品1判给第三组,经待判样品2判给第一组,将待判样品3判给第二组,将待判样品4判给第三组。