数据分析课后习题实验一.pdf
《数据分析课后习题实验一.pdf》由会员分享,可在线阅读,更多相关《数据分析课后习题实验一.pdf(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、广东金融学院实验报告课程名称:实验编号及实验名称实验一系 另U姓 名张灿龙学 号班 级实验地点实验日期2017年10月8日实验时数2指导教师同组其他成员成绩一、实验目的及要求1.4 2002年11月以及1至I I月全国各省、市、区财政预算收入数据如表L 4所示(单位;亿元).设 m 为 II月预算收入,不为1 至 11月预算收入.分别对5)的观测值计算;(1)均值、方差、标准差、变异系数、偏度、峰度;(2)中位数、上、下四分位数、四分位极差;(3)作出直方图;(4)作出经验分布函数图;(5)的观测值的Pe a r s o n 相关系数与Sp e a r m a n 相关系数.1 7 表 1.6
2、是人体的胸部、腹部、手臂部分皮肤的有关数据,相应指标记为占,4,月.(1)计算观测数据均值向量和中位数向量M ;(2)计算观测数据的Pe a r s o n 相关矩阵R,Sp e a r m a n 相关矩阵Q 及各元素对应的检验p值,并做相关性的显著性检验.2.4 某公司管理人员为了解某化妆品在一个城市的月梢售量y(单位:箱)与该城市中适合使用该化妆品的人数为(单位:千人)以及他们人均月收入Z(单位:元)之间的关系,在某个月中对15个城市作了调查,得上述各量的观测值如表2 J 2 所示.假 设,与X,X1之间满足线性回归关系r.=A+/怎|+,=1.2,15其中(i=1.2,-,15)独立同
3、分布于N(0,1/).(1)求回归系数。,仇,仇的最小一乘估计和误差方差1的估计,写出网归方程并对回归系数作解释;(2)求出方差分析表.解释对线性回归大系显著性检验的结果.求复相关系数的平方出的值并解秆其意义;(3)分别求其和自的置信度为95%的置信区间:(4)对a=0.05,分别检验人数及收入X,对销量丫的影响是否显著,利用与回归系数有关的一般假设检验方法检验X,和X?的交互作用(即乐X?)对丫的影响是否显著;(5)该公司欲在一个适宜使用该化妆品的人数而,=220,人均月收入电=2500的新的城市中销售该化妆品,求其箱集的预测值及其置信度为95%的置信区间;(6)求丫的拟合值,残差及学乍化残
4、差.根据对学生化残差正态性的赧率检验及正态QQ图检验说明模型误差项的正态性假定是否合理,有序学生化残差与相应标准正态分布的分位数的相关系数是多少?作出各种残差图,分析模型有关假定的合理性.2 5 表 2.1 3 中的数据是由某特定模型Y=*)+8 产生的20组模拟数据.表2.13 模 拟 数 据一n(|)首 先 拟 合 丫 关 于 x的线性回归模型,结果如何?通过残差分析(尤其是残差图分析)并参考y与 x的触点图,选择你认为合理的回归函数形式.拟合你所选择的回归模型,再通过残差分析考察所设定的模型的合理性.最后,将你所拟合的回归方程与真实模型(丫=5+(X-I)+,e .v(0,0.625)比
5、较,你是否给出了正确的模型形式.z;实验环境及相关情况(包含使用软件、实验设备、主要仪器及材料等)sas9.2,office2010,windows8三、实验内容的详细代码、清单、步骤及流程习 题 1-4:首先导入数据,然后根据题目要求,先用proc uninvariate命令来求出各个变量xl,x2的各个基本统计量,在第三四问中用proc capability data=exercisel_4 graphics noprint;来作出两个变量的直方图和经验分布图。在第五问中,用 proc corr data=exersicell_4 pearson spearman cov;来求 pears
6、on 和 spearman 的相关系数。习 题 1-7:首先导入数据,也是根据题目要求,先用proc univariate来求出各个变量的基本统计量,然后根据第二问,用了 proc corr data=exersicel_7 pearson spearman cov;去计算 pearson 和 spearman 的相关矩阵。习题2-4:导入数据后,根据第一二问,采用proc re g 过程对数据进行了线性回归分析,根据第三问,求置信区间采用了 tinv函数来求解。第四间检验x l 和 x2的相合作用对于y 的影响,这里我重新构造了一列数据,x l和 x2的乘积,然后再用procreg过程对数据
7、再进行了一次线性回归分析。在第五问中,直接将题目数据带入到之前所得到的回归方程即可得到结果。为了得出残差,学生化残差,我对数据进行了回归分析的时候取了 model y=xl x2/r;以便求出学生化残差。最后利用proc capability和 proc gplot过程对作出正态q q 图和各种残差图。习题2-5(第一问)导入数据后,对数据进行了 proc reg回归线性分析,拟合出丫关于X 的线性回归模型,然后通过procgplot过程作出各种残差图和丫和X 的散点图进行分析。详细的程序代码见附录:四,实验 结 果(包 括 程 序、图 表、结 论 陈 述、数 据 记 录 及 分 析 等)习
8、题 14:(1)运行 p r o c u n i v a r i a t e 程序,UNIVARIATE PROCEDURE变更:XI矩进行简单统计量分析,得到下列结果:UNIVARIATE PROCEDURE费里:X2矩31246.193226232.9720981.915956993507224.1894.6297758317631.9954275.99824.385232711828279.9541.8430239和玄差袋3119.168451619.79976642.5153518323148.8614103.30428831594.16332.030758.2869893911760
9、.92253.55614303和ii差Nn均可以得出x l 和 x 2的均值,方差,标准差,变异系数,偏度和峰度如下表所示:均值方差标准差变异系数偏度峰度xl1 9.1 6 6 4 5 1 63 9 2.0 3 0 7 51 9.7 9 9 7 6 6 41 0 3.3 0 4 2 8 82.5 1 5 3 5 1 8 38.2 6 6 9 8 9 3 9x22 4 6.1 9 3 2 2 65 4 2 7 62 3 2.9 7 2 0 9 89 4.6 2 9 7 7 5 81.9 1 5 9 5 6 9 94.3 8 5 2 3 2 7 1(2)由(1)结果截图有:基本统计刑度 基本统计测
10、度位置 变异性 位置 变异性数均史从18.1664514.77000标方极四19.79 9 773 9 2.03 0759 8.5500014.10000246.19 3 2179.4100H极四23 2.9 7210542761074169.48000差差差护位差极位分位数(定 义5)分位数(定 义5)分位数估计值分位数估计值100%最大值9 9.3 2100%最大值1080.269 9 X9 9.3 29 9 X1080.269 5K49.729 5X656.9 59 0X40.269 0X552.7475%Q320.3 475*03273.295 0%中位数14.775 0 X中位数17
11、9.4125X Q16.2425X Q1103.8110X3.2410%3 9.515X1.215X18.3 0IX0.77IX6.08o x最小值0.770 X最小值6.08可以得出xl的中位数、上、下四分位数、四分位极差为:1 4.7 7 0 0 0、2 0.3 4、6.2 4、1 4.1 0 0 0 0。x2 的中位数、上、下四分位数、四分位极差为:1 7 9.4 1 0、2 7 3.2 9、1 0 3.8 1、1 6 9.4 8 0 0 0。(3)直方图xl的直方图 x2 的直方图Curve-MK M I If Sam0?n*7)1000(4)经验分布图:x l的经验分布图100 x
12、2的经验分布图KM320O2,100808320ii朱 lr|XIX2XI1.000000.9 7625.0001X20.9 7625 lrXIX2XI1.000000.9 2782.0001X20.9 2782|r|x3xlx2xl1.000000.619 3 0.00010.519 520.0001xl1.000000.54551.00010.506880.0002x20.619 3 0.00011.000000.461490.0007x20.54551.00011.000000.529 51.0001x30.519 520.00010.461490.00071.00000 x30.506
13、680.00020.529 51.00011.00000-10.619300.51952-1 0.545510.50668由结果可以看出相关矩阵R=(.0001)0.0001(.0001)(0.0002)0.6193010.46149,Q-0.54551 10.52951(.0001)(0.0007)(.0001).00010.519520.4614910.50668 0.529511(0.0001)(0.0007)(0.0002)(|t|Interc ept13.452612.43 0651.420.1809xl10.49 6000.0060581.9 2.0001x210.009 200.
14、0009 68119.50 FMod elErrorC orrec ted Tota l53 845269 225679.47 FMod el253 845269 225679.47|t|Interc ept13.452612.43 0651.420.1809xl10.49 6000.0060581.9 2.0001x210.009 200.0009 68119.50 FMod el353 845179 483 480.75 片)=(尸(L 1 2)0.0 3 4 4)=0.8 559 6 ,p 0 远大于一般显著性水平,因此认为X i 和 X2的交叉项对于丫的影响不显著的,即模型中没有必塑I
15、 交叉项一(5)该公司欲在一个适宜使用该化妆品的的人数X oi=2 2 O,人均月收入X o2=2 50 0 的新的城市中销售该化妆品,求其销量的预测值及其置信度为9 5%的置信区间。解:点估计可直接根据回归方程y=3.4 52 6 1 +0.4 9 6 x,+0.0 0 9 2 x2 给出,得到估计值yo=l 3 5.57 2 6.而置信度为0.9 5的置信区间为:y0+%9 7 5(1 2 MMS E(1+X oI xT X)-/。)其中 y。=1 3 5.2 7 2 6,t0 9 7 5(1 2)=2.7 1 9,J 标=2.1 7 7 2 2,X 为设计矩阵,解得置信区间为(1 2 8
16、.7 7 0 3,1 4 1,。7 7 4 9)(6)解:根据回归方程,可以得出丫的拟合值,结果如下:Obs yl1161.8972122.6693224.431458131.24267.701169.687779.73489189.673119.833101153.293253.71712228.69313144.98114100.53415210.939用新的数据集进行re g过程,并且输入model y=x l x 2/r得到残差和学生化残差,结果如下:The REG ProcedureModel:M ODEL 1Dependent Variable:yOutput Statistics
17、ObsDependentVariablePredictedValueStd Error Std ErrorMean Predict Residual ResidualStudentResidual-2-112CooksD123456789101112131415162.0000120.0000223.0000131.000067.0000169.000081.0000192.0000116.000055.0000252.0000232.0000144.0000103.0000212.0000181.8957122.6673224.4294131.240667.8998169.684379.73
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 课后 习题 实验
限制150内