实验报告一主成分分析.pdf
《实验报告一主成分分析.pdf》由会员分享,可在线阅读,更多相关《实验报告一主成分分析.pdf(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多元统计分析 实验报告 姓 名:张 莉 萍 学 号:176121113 日 期:2017年11月10日 评分标准 序号 数学原理(5分)程序(20分)结果分析(20分)写作(5分)总分 题 目1 序号 数学原理(5分)程序(20分)结果分析(20分)写作(5分)题 目2 实验报告一 主成分分析 实验目的:1、熟练掌握利用 MATLAB 进行主成分分析的计算步骤。2、掌握选择主成分个数的原则以及利用特征值建立权向量的方法。3、能根据主成分的数学公式,针对实际问题给出主成分的合理解释。4、掌握典型相关分析的方法。表 5-12 各地区国有及国有控股工业企业主要经济效益指标(2007 年)地区 工业增
2、加值率 总资产贡献率 资产负债率 流动资产周转次数 工业成本费用利润率 产品销售率 北京 25.92 5.52 34.04 2.05 7.93 99.19 天津 34.29 16.18 62.66 2.62 12.44 99.58 河北 29.46 11.87 61.02 2.53 7.23 99.34 山西 37.58 11.28 67.65 1.95 8.68 98.18 内蒙古 47.36 11.43 62.23 2.21 13.8 99.08 辽宁 28.73 8.86 60.88 2.17 4.14 99.21 吉林 30.31 15.14 58.53 2.66 9.26 95.97
3、 黑龙江 52.12 33.67 55.26 2.56 32.94 99.21 上海 27.39 12.42 45.62 2.13 8.04 99.26 江苏 26.45 14.02 58.99 2.88 6.91 99.64 浙江 24.48 14.82 58.81 3.18 6.17 99.65 安徽 35.13 10.63 65.65 2.39 4.95 98.4 福建 29.76 12.67 59.34 2.41 8.11 99.54 江西 26.75 12 65.12 2.51 5.6 98.69 山东 31.6 17.64 59.02 2.94 9.91 99.36 河南 37.7
4、 13.02 65.02 2.68 6.86 98.58 湖北 33.75 10.65 54.28 2.17 9.87 98.56 湖南 35.96 16.62 62.35 2.62 7 99.32 广东 32.84 17.68 48.65 2.88 12.85 99.36 广西 32.31 12.12 64.04 2.45 7.72 101.2 海南 35.02 13.59 49.41 2.34 14.5 101.23 重庆 32.96 11.97 59.24 2.03 5.97 96.58 四川 37 10.72 63.54 1.7 8.62 98.8 贵州 37.49 12.52 65.
5、69 1.86 8.97 98.35 云南 41.22 20.94 49.16 1.85 12.44 99.42 西藏 63.03 3.32 20.4 0.53 10.76 90.38 陕西 43.67 16.61 57.28 1.91 17.82 98.36 甘肃 26.57 13.42 58.38 2.54 7.51 98.31 青海 41.62 14.58 63.15 1.92 26.59 98.11 宁夏 38.98 8.27 63.53 1.83 5.07 98.53 新疆 45.58 25.84 49.36 3.16 29.88 100.29 (1)根据指标的属性将原始数据统一趋势
6、化。(2)利用协方差、相关系数矩阵进行主成分分析,可否只用第一主成分排名。(3)构造新的实对称矩阵,使得可以只用第一主成分排名。(4)排名的结果是否合理?为什么?解:(1)A=25.92,5.52,34.04,2.05,7.93,99.19;34.29,16.18,62.66,2.62,12.44,99.58;45.58,25.84,49.36,3.16,29.88,100.29 令:r=corrcoef(A);%计算矩阵 A 的相关系数矩阵 得到的相关系数矩阵为:r=1.0000 0.2121 -0.3414 -0.5342 0.5812 -0.4993 0.2121 1.0000 0.13
7、77 0.5214 0.7293 0.3818 -0.3414 0.1377 1.0000 0.3994 -0.1695 0.4629 -0.5342 0.5214 0.3994 1.0000 0.0838 0.6592 0.5812 0.7293 -0.1695 0.0838 1.0000 0.0909 -0.4993 0.3818 0.4629 0.6592 0.0909 1.0000 表明各个变量之间无明显的共性关系,可以进一步进行主成分分析的命令。对原始数据进行数据统一趋势化,将资产负债率转化成效益型,其变换公式为 B=(),=()()(效益型)()()(成本型)(|)|(适度型)令:
8、m,n=size(A)A1=(A(:,1)-min(A(:,1)./(max(A(:,1)-min(A(:,1);A2=(A(:,2)-min(A(:,2)./(max(A(:,2)-min(A(:,2);A3=(max(A(:,3)-A(:,3)./(max(A(:,3)-min(A(:,3);A4=(A(:,4)-min(A(:,4)./(max(A(:,4)-min(A(:,4);A5=(A(:,5)-min(A(:,5)./(max(A(:,5)-min(A(:,5);A6=(A(:,6)-min(A(:,6)./(max(A(:,6)-min(A(:,6);B=A1,A2,A3,A4
9、,A5,A6 得到矩阵 B 为:B=0.0374 0.0725 0.7113 0.5736 0.1316 0.8120 0.2545 0.4237 0.1056 0.7887 0.2882 0.8479 0.1292 0.2817 0.1403 0.7547 0.1073 0.8258 0.3398 0.2623 0 0.5358 0.1576 0.7189 0.5935 0.2672 0.1147 0.6340 0.3354 0.8018 0.1102 0.1825 0.1433 0.6189 0 0.8138 0.1512 0.3895 0.1930 0.8038 0.1778 0.515
10、2 0.7170 1.0000 0.2622 0.7660 1.0000 0.8138 0.0755 0.2998 0.4662 0.6038 0.1354 0.8184 0.0511 0.3526 0.1833 0.8868 0.0962 0.8535 0 0.3789 0.1871 1.0000 0.0705 0.8544 0.2763 0.2409 0.0423 0.7019 0.0281 0.7392 0.1370 0.3081 0.1759 0.7094 0.1378 0.8442 0.0589 0.2860 0.0535 0.7472 0.0507 0.7659 0.1847 0.
11、4718 0.1826 0.9094 0.2003 0.8276 0.3429 0.3196 0.0557 0.8113 0.0944 0.7558 0.2405 0.2415 0.2830 0.6189 0.1990 0.7539 0.2978 0.4382 0.1122 0.7887 0.0993 0.8240 0.2169 0.4731 0.4021 0.8868 0.3024 0.8276 0.2031 0.2900 0.0764 0.7245 0.1243 0.9972 0.2734 0.3384 0.3860 0.6830 0.3597 1.0000 0.2200 0.2850 0
12、.1780 0.5660 0.0635 0.5714 0.3248 0.2438 0.0870 0.4415 0.1556 0.7760 0.3375 0.3031 0.0415 0.5019 0.1677 0.7346 0.4342 0.5806 0.3913 0.4981 0.2882 0.8332 1.0000 0 1.0000 0 0.2299 0 0.4978 0.4379 0.2195 0.5208 0.4750 0.7355 0.0542 0.3328 0.1962 0.7585 0.1170 0.7309 0.4446 0.3710 0.0952 0.5245 0.7795 0
13、.7124 0.3761 0.1631 0.0872 0.4906 0.0323 0.7512 0.5473 0.7420 0.3871 0.9925 0.8938 0.9134(2)令 R=corrcoef(B)%计算矩阵 B 的相关系数矩阵 得到的相关系数矩阵为:R=1.0000 0.2121 0.3414 -0.5342 0.5812 -0.4993 0.2121 1.0000 -0.1377 0.5214 0.7293 0.3818 0.3414 -0.1377 1.0000 -0.3994 0.1695 -0.4629 -0.5342 0.5214 -0.3994 1.0000 0.
14、0838 0.6592 0.5812 0.7293 0.1695 0.0838 1.0000 0.0909 -0.4993 0.3818 -0.4629 0.6592 0.0909 1.0000 表明各个变量之间无明显的共性关系,可以进一步进行主成分分析的命令。a.利用相关系数矩阵进行主成分分析 令:v1,d1=eig(corrcoef(B)%样本相关系数矩阵的特征值 得到结果如下:v1=0.3973 0.4564 -0.3541 0.0499 -0.6454 -0.2990 -0.2931 0.5722 0.0316 -0.2765 -0.1388 0.7000 0.4030 0.1312
15、0.8834 0.1228 -0.1528 0.0399 -0.5513 0.0765 0.2943 -0.4985 -0.2307 -0.5494 -0.0061 0.6631 0.0031 0.1927 0.6371 -0.3423 -0.5384 0.0377 0.0813 0.7876 -0.2860 -0.0055 d1=2.5989 0 0 0 0 0 0 2.0777 0 0 0 0 0 0 0.6831 0 0 0 0 0 0 0.3671 0 0 0 0 0 0 0.1405 0 0 0 0 0 0 0.1327 因为,最大的特征值对应的不是正向量,所以不能用第一主成分进行排
16、名。b.利用协方差矩阵进行主成分分析 令:v2,d2=eig(cov(B)%样本协方差矩阵的特征值 得到结果如下:v2=0.3165 -0.5994 -0.1127 -0.3839 -0.0469 -0.6150 -0.7289 -0.2252 -0.3177 0.0564 0.5328 -0.1733 -0.0180 -0.1808 0.0602 0.8683 -0.2758 -0.3652 0.5653 -0.1391 -0.5057 0.2953 0.4787 0.2983 0.2160 0.5656 0.2651 0.0348 0.5102 -0.5493 0.0453 -0.4670
17、 0.7462 0.0837 0.3852 0.2601 d2=0.0050 0 0 0 0 0 0 0.0067 0 0 0 0 0 0 0.0122 0 0 0 0 0 0 0.0301 0 0 0 0 0 0 0.0931 0 0 0 0 0 0 0.1068 因为,最大的特征值对应的不是正向量,所以不能用第一主成分进行排名。(3)利用 R 矩阵进行主成分分析 m,n=size(B);%计算原始数据维数 fori=1:n forj=1:n R(i,j)=2*dot(B(:,i),B(:,j)./sum(B(:,i).2)+sum(B(:,j).2)%计算 R 矩阵 v3,d3=eig(R
18、);%R 矩阵的特征值和特征向量 q=sum(d3)/sum(sum(d3)%计算贡献率 得到结果如下:v3=0.0573 0.1700 0.8123 -0.0311 -0.3650 0.4169 -0.2457 0.6976 -0.3708 -0.3348 0.0048 0.4510 -0.0216 -0.0427 -0.3306 0.7663 -0.4179 0.3558 0.7370 0.0253 -0.0286 0.1050 0.5246 0.4112 0.0936 -0.6149 -0.2584 -0.5160 -0.3343 0.4103 -0.6196 -0.3223 0.160
19、6 0.1501 0.5524 0.3985 d3=0.0199 0 0 0 0 0 0 0.0947 0 0 0 0 0 0 0.1897 0 0 0 0 0 0 0.4629 0 0 0 0 0 0 0.9318 0 0 0 0 0 0 4.3011 q=0.0033 0.0158 0.0316 0.0771 0.1553 0.7168 输出的结果显示,最大特征值(4.3011)对应的是正向量,且其贡献率为 71.68%,所以能用第一主成分得分进行排名。(4)令 F=B-ones(m,1)*mean(B)*d3(:,6);%计算主成分得分 F2,I1=sort(F,descend);%I1
20、 给出各名次的序号 F2,I2=sort(I1);%I2 给出各地区的排名 Plot(1:m,F,*);%主成分得分图 得到结果如下:地区 序号 得分(F)排名(I2)地区 序号 得分(F)排名(I2)北京 1 0.1945 16 湖北 17-0.0552 21 天津 2 0.3491 6 湖南 18 0.246 12 河北 3 0.254 11 广东 19 0.2619 10 山西 4-0.2059 27 广西 20 0.9913 2 内蒙古 5 0.1509 17 海南 21 1.0032 1 辽宁 6 0.2024 14 重庆 22-0.8401 29 吉林 7-1.0819 30 四川
21、 23 0.0399 18 黑龙江 8 0.2024 15 贵州 24-0.1385 25 上海 9 0.2222 13 云南 25 0.2857 8 江苏 10 0.3729 5 西藏 26-3.2979 31 浙江 11 0.3768 4 陕西 27-0.1345 24 安徽 12-0.1187 23 甘肃 28-0.1543 26 福建 13 0.3332 7 青海 29-0.2336 28 江西 14-0.0037 19 宁夏 30-0.0671 22 山东 15 0.2619 9 新疆 31 0.6306 3 河南 16-0.0473 20 排名的结果是合理的,因为第一主成分分析的贡
22、献率为 71.68%,可以用第一主成分代替原来的六个变量,对样本总体进行排名。实验报告二 聚类方法与聚类有效性 实验目的 1、熟练掌握应用 MATLAB 软件计算谱系聚类与 K 均值聚类的命令。2、熟练掌握模糊 C 均值类与模糊减法聚类的 MATLAB 实现。3、掌握最优聚类数的理论及其实现。实验数据与内容 2008 年我国 34 个地区中的 29 个地区的城镇居民人均收入见表 6-6。解决以下问题:表 6-6 城镇居民人均收入 (单位:元/人)省(区、市)工薪收入 经营净收入 财产性收入 转移性收入 北京 18738.96 778.36 452.75 7707.87 河北 8891.5 10
23、78.67 224.86 3946.39 山西 9019.35 983.21 202.31 3654.11 内蒙古 10284.43 1555.31 324.64 3031.05 辽宁 9494.59 1483.3 248.04 4610.32 黑龙江 7393.39 1241.37 122.83 3506.48 上海 21791.11 1399.14 369.12 6199.77 江苏 12319.86 1999.61 307.31 5548.78 浙江 15538.83 3161.87 1324.94 4955.14 安徽 9302.38 959.43 293.92 3603.72 福建
24、12668.82 2185.13 952.91 3879.29 江西 9105.96 1106.31 265.35 2985.96 山东 12940.62 1194.4 346.9 3067.05 河南 9043.52 1161.96 156.46 3545.86 湖北 9474.81 1114.68 244.13 3340.65 湖南 9070.97 1575.08 316.48 3614.74 广东 15188.39 2405.92 701.25 3382.95 广西 10321.2 1314.4 441.15 3316.44 海南 8999.75 1311.38 396.89 2890.
25、59 重庆 10957.62 788.26 205.94 3265.92 四川 9117 1040.14 262.9 3265.06 贵州 7811.16 770.86 110.9 3492.7 云南 8596.88 1165.96 849.45 3505.74 西藏 12314.69 303.34 138.08 891.42 陕西 9794.82 544 151.46 3356.85 甘肃 8354.63 638.76 65.33 2610.61 青海 8595.48 763.07 50.17 3458.63 宁夏 8793.54 1856.94 182.67 3285.49 新疆 9422
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实验 报告 成分 分析
限制150内