数据分析方法课程设计报告.docx
数据分析方法课程设计报告 数据分析方法 课程实验报告 1.实验内容 (1)掌握回归分析的思想和计算步骤; (2)编写程序完成回归分析的计算,包括后续的显著性检验、残差分析、Box-Cox 变换等内容。 2.模型建立与求解(数据结构与算法描述) 3.实验数据与实验结果 解:根据所建立的模型在MATLAB中输入程序(程序见附录)得到以下结果:(1)回归方程为: 说明该化妆品的消量和该城市人群收入情况关系不大,轻微影响,与使用该化妆品的人数有关。 的无偏估计: (2)方差分析表如下表: 方差来源自由度平方和均方值 回归() 2 5384526922 56795 2.28 误差()12 56.883 4.703 总和()14 53902 从分析表中可以看出:值远大于的值。所以回归关系显著。 复相关,所以回归效果显著。 解:根据所建立的模型,在MATLAB中输入程序(程序见附录)得到如下结果:(1)回归方程为: 在MTLAB中计算学生化残差(见程序清单二),所得到的学生化残差r的值由残差可知得到的r的值在(-1,1)的概率为0.645,在(-1.5,1.5)的概率为0.871,在(-2,2)之间的概率为0.968. 而服从正态分布的随机变量取值在(-1,1)之间的概率为0.68,在(-1.5,1.5)之间的概率为0.87,在(-2.2)之间的概率为0.95,所以相差较大,所以残差分析不合理,需要对数据变换。 取=0.6进行Box-Cox变换 在MATLAB中输入程序(见程序代码清单二) 取,所以得到r的值(r的值见附录二)其值在(-1,1)之间的个数大约为20/31=0.65,大致符合正态分布,所以重新拟合为: 拟合函数为: 通过F值,R值可以检验到,回归效果显著 (3)某医院为了了解病人对医院工作的满意程度和病人的年龄,病情的严重程度和病人的忧虑程度之间的关系,随机调查了该医院的23位病人,得数据如下表: (1)拟合线性回归模型,通过残差分析与考察模型及有关误差分布正态性假定的合理性; (2)若(1)中模型合理,分别在,准则下选择最优回归方程,各准则下的选择结果是否一致? (3)对,用逐步回归法选择最优回归方程,其结果和(2)中的数否一致?(4)对选择的最优回归方程作残差分析,与(1)中的相应结果比较,有何变化? 习题2.6 解:(1)回归参数的的最小二乘估计为:。 在MATLAB中输入程序(见程序代码清单二)可得: , 所以回归方程为: 对数据做Box-Cox变换,(由于的取值在能力范围不好确定,所以经测试, 取=0.6进行Box-Cox变换 在MATLAB中输入程序(见程序代码清单二) 取,所以得到r的值(r的值见附录二)其值在(-1,1)之间的个数大约为20/31=0.65,大致符合正态分布,所以重新拟合为: 拟合函数为: 通过F值,R值可以检验到,回归效果显著 习题2.9 解:根据所建立的模型,在MATLAB中输入程序,得到以下结果: (1)所得到的回归方程为: (2)所得到的学生化残差见附录,通过对残差的分析,很明显不符合正态分布所以(1)中所建立的模型不合理。 4程序代码清单: 习题2.4 x=1 274 2450 1 180 3254 1 375 3802 1 205 2838 1 86 2347 1 265 3782 1 98 3008 1 330 2450 1 195 2137 1 53 2560 1 430 4020 1 37 2 4427 1 236 2660 1 157 2088 1 370 2605; y=162 120 223 131 67 169 81 192 116 55 252 232 144 103 212; n=15;p=3 b=inv(x'*x)*x'*y h=x*inv(x'*x)*x' sse=y'*(eye(n,n)-h)*y d2=1/(n-p)*y'*(eye(n,n)-h)*y sst=y'*(eye(n,n)-(1/n)*ones(n,n)*y ssr=y'*(h-1/n*ones(n,n)*y msr=ssr/(p-1) mse=sse/(n-p) f=msr/mse r2=1-sse/sst 习题2.6 x=1 8.3 70 1 8.6 65 1 8.8 63 1 10.5 72 1 10.7 81 1 10.8 83 1 11.0 66 1 11.0 75 1 11.1 80 1 11. 2 75 1 11.3 79 1 11.4 76 1 11.4 76 1 11.7 69 1 12.0 75 1 12.9 74 1 12.9 85 1 13.3 86 1 13.7 71 1 13.8 64 1 14.0 78 1 14. 2 80 1 14.5 74 1 16.0 72 1 16.3 77 1 17.3 81 1 17.5 82 1 17.9 80 1 18.0 80 1 18.0 80 1 20.6 87 ; y=10.3 10.3 10.2 16.4 18.8 19.7 15.6 18.2 22.6 19.9 24.2 21.0 21.4 21.3 19.1 22.2 33.8 27.4 25.7 24.9 34.5 31.7 36.3 38.3 42.6 55.4 55.7 58.3 51.5 51.0 77.0; n=31;p=3; b=inv(x'*x)*x'*y; h=x*inv(x'*x)*x' sst=y'*(eye(n,n)-(1/n)*ones(n,n)*y sse=y'*(eye(n,n)-h)*y mse=sse/(n-p) ssr=y'*(h-1/n*ones(n,n)*y msr=ssr/(p-1) f=msr/mse r2=1-sse/sst for i=1:n a=h(2*(i-1)+i) end t=sqrt(mse-mse*a) q=y-(-57.9877+4.7082*x(:,2:2)+0.3393*x(:,3:3) r=q/t 程序三 x=1 8.3 70 1 8.6 65 1 8.8 63 1 10.5 72 1 10.7 81 1 10.8 83 1 11.0 66 1 11.0 75 1 11.1 80 1 11. 2 75 1 11.3 79 1 11.4 76 1 11.4 76 1 11.7 69 1 12.0 75 1 12.9 74 1 12.9 85 1 13.3 86 1 13.7 71 1 13.8 64 1 14.0 78 1 14. 2 80 1 14.5 74 1 16.0 72 1 16.3 77 1 17.3 81 1 17.5 82 1 17.9 80 1 18.0 80 1 18.0 80 1 20.6 87 ; y=10.3 10.3 10.2 16.4 18.8 19.7 15.6 18.2 22.6 19.9 24.2 21.0 21.4 21.3 19.1 22.2 33.8 27.4 25.7 24.9 34.5 31.7 36.3 38.3 42.6 55.4 55.7 58.3 51.5 51.0 77.0; n=31;p=3; m=0:0.01:1; y=(y.m-1)/m b=inv(x'*x)*x'*y h=x*inv(x'*x)*x' sse=y'*(eye(n,n)-h)*y mse=sse/(n-p) f=msr/mse r2=1-sse/sst for i=1:n a=h(2*(i-1)+i) end t=sqrt(mse-mse*a) q=y-(-57.9877+4.7082*x(:,2:2)+0.3393*x(:,3:3) r=q/t 习题2.9 a= 1 50 51 2.3 48 1 36 46 2.3 57 1 40 48 2. 2 66 1 41 44 1.8 70 1 28 43 1.8 89 1 49 54 2.9 36 1 4 2 50 2.2 46 1 45 48 2.4 54 1 5 2 62 2.9 26 1 29 50 2.1 77 1 29 48 2.4 89 1 43 53 2.4 67 1 38 55 2. 2 47 1 34 51 2.3 51 1 53 54 2. 2 57 1 36 49 2.0 66 1 33 56 2.5 79 1 29 46 1.9 88 1 33 49 2.1 60 1 55 51 2.4 49 1 29 5 2 2. 3 77 1 44 58 2.9 52 1 43 50 2.3 60 y=a(:,5:5) x=a(:,1:4) n=23;p=4; b=inv(x'*x)*x'*y h=x*inv(x'*x)*x' sst=y'*(eye(n,n)-(1/n)*ones(n,n)*y sse=y'*(eye(n,n)-h)*y mse=sse/(n-p) ssr=y'*(h-1/n*ones(n,n)*y msr=ssr/(p-1) f=msr/mse r2=1-sse/sst for i=1:n a=h(2*(i-1)+i) end t=sqrt(mse-mse*a) q=y-(162.8575-1.2103*x(:,2:2)-0.6659*x(:,3:3)-8.613*x(:,4:4) r=q/t 附录: 习题2.6学生化残差 r= 1.3857 1.4578 1.3656 0.1325 -0.2725 -0.3358 -0.1514 -0.2665 0.3002 -0.0740 0.5535 -0.1200 -0.0184 0.2022 -1.2333 -1.4358 0.5614 -1.6275 -1.2451 -0.9648 0.0273 -1.0948 0.2312 -0.8816 -0.5793 1.1303 0.8813 1.2355 -0.6102 -0.7372 2.1526 习题2.9学生化残差r = -0.0558 -1.1563 0.2408 0.1530 0.4069 -0.6459 -1.3453 -0.1718 -0.7476 0.0609 1.3545 1.1860 -1.3953 -1.6533 1.2882 -0.3350 1.4551 0.7065 -1.1911 0.7166 0.3590 0.5853 0.2236 1.实验内容 (1)掌握主成份分析与典型相关分析的思想和计算步骤; (2)编写程序完成主成份分析与典型相关性分析的计算; 2.模型建立与求解(数据结构与算法描述) 1.计算样本主成分的步骤: (1)计算样本协方差矩阵S和相关系数矩阵R: (2)计算S的特征值和相应的正交化特征向量:, (3)第K个样本的得分样本方差: (4)前M个样本主成分的累加贡献率: (5)选取m(m 以前m个主成分的得分代替原始数据,这样便可达到降低原始数据维数的目的,同时也不致损失原始数据太多信息。 2计算样本典型变量相关系数的步骤: (1)计算样本的协方差矩阵: (2)计算A,B矩阵的特征值和正交化向量 (3)第K个样本典型相关变量为: 3.实验数据与实验结果 习题4.5 解:在MATLAB中输入程序(见附录) 样本相关系数矩阵R为: 1 0.3336 -0.0545 -0.0613 -0.2894 0.1988 0.3487 0.3187