《多元统计分析课程设计题目(10页).doc》由会员分享,可在线阅读,更多相关《多元统计分析课程设计题目(10页).doc(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-课程设计题目1. 下表给出了1991年我国30个省、区、市城镇居民的月平均消费数据,所考察的八个指标如下(单位均为 元/人)X1 :人均粮食支出; X2 :人均副食支出; X3 :人均烟酒茶支出; X4 :人均其他副食支出; X5 :人均衣着商品支出; X6 :人均日用品支出;X7 :人均燃料支出; X8 :人均非商品支出;问题:(1)求样品相关系数矩阵R;(2)从R 出发做主成分分析,求各主成分的贡献率,及前两个主成分的累积贡献率;(3)求出前两个主成分并解释其意义.按第一主成分将30个省、区、市排序,结果如何? 表一 1991年我国30个省、区、市城镇居民的月平均消费数据省市X1X2X3
2、X4X5X6X7X81山西8.3523.537.518.6217.4210.001.0411.212内蒙古9.2523.756.619.1917.7710.481.7210.513吉林8.1930.504.729.7816.287.602.5210.324黑龙江7.7329.205.429.4319.298.492.5210.005河南9.4227.938.208.1416.179.421.559.766甘肃9.1627.989.019.3215.999.101.8211.357青海10.0628.6410.5210.0516.188.391.9610.818河北9.0928.127.409.
3、6217.2611.122.4912.659陕西9.4128.205.7710.8016.3611.561.5312.1710宁夏8.7028.127.2110.5319.4513.301.6611.9611新疆6.9329.854.549.4916.6210.651.8813.6112湖北8.6736.057.317.7516.6711.682.3812.8813云南9.9837.697.018.9416.1511.080.8311.6714湖南6.7738.696.018.8214.7911.441.7413.2315安徽8.1437.759.618.4913.159.761.2811.2
4、816贵州7.6735.718.048.3115.137.761.4113.2517辽宁7.9039.778.4912.9419.2711.052.0413.2918四川7.1840.917.328.9417.6012.751.1414.8019山东8.8233.707.5910.9818.8214.731.7810.1020江西6.2535.024.726.2810.037.151.9310.3921福建10.6052.417.709.9812.5311.702.3114.6922广西7.2752.653.849.1613.0315.261.9814.5723海南13.4555.855.50
5、7.459.559.522.2116.3024天津10.8544.687.3214.5117.1312.081.2611.5725江苏7.2145.797.6610.3616.5612.862.2511.6926浙江7.6850.3711.3513.3019.2514.592.7514.8727北京7.7848.448.0020.5122.1215.731.1516.6128西藏7.9439.6520.9720.8222.5212.411.757.9029上海8.2864.348.0022.2220.0615.120.7222.8930广东12.4776.395.5211.2414.5222.
6、005.4625.502. 下表是49位女性在空腹情况下三个不同时刻的血糖含量(用X1 ,X2 ,X3表示)和摄入等量食糖一小时后的三个时刻的血糖含量(用小X4 ,X5 ,X6表示)的观测值(单位:mg/100ml).问题:分别从样本协方差阵S和样本相关系数矩阵R出发做主成分分析,求主成分的贡献率和各个主成分. 在两种情况下,你认为应保留几个主成分?其意义如何解释?就此而言,你认为基于S和R的分析那个结果更为合理?表二 49位女性在空腹和摄入食糖后三个不同时刻的血糖含量编号空腹摄入食糖X1X2X3X4X5X61606962976998256538410378107380697666991304
7、558090808511456275681161309167464701091011037647166771021308737064115110109968677576851191069827472133127116067611301341211270747815015810013667478150131142148370749998105156866901198510916786375164981381710377771601171211877687414471153196677687782892070707211493122217565717770109229174931181151502
8、366757317014712124758276153132115257471661431051002676706411411312927749086731061162874778011681772967716963877030787580105132803164667183941333271807681878633637573120895934901037410710910135607661991119836487775113124973766939713611212238747076109881053960747172907140637566130101904166808613011714
9、4427767748392107437067100150142146447376811191201194578907712215514946736880102901224772836810469964865607011994894952707692941003. 考察1985年至2000年全国如下各价格指数:X1 :商品零售价格指数; X2 :居民消费价格指数; X3 :城市居民消费价格指数;X4 :农村居民消费价格指数; X5 :农产品收购价格指数; X6 :农村工业品零售价格指数;观测数据见下表.问题: 按年份用下列方法进行系统聚类分析,画出谱系聚类图,并给出聚为3类的结果.(a)最短距离
10、法;(b)最长距离法;(c)类平均距离法;表三 全国各年度各种价格指数年份X1X2X3X4X5X61985128.1100.0134.2100.0166.8111.11986135.8106.5143.6106.1177.5114.71987145.7114.3156.2112.7198.8120.21988172.7135.8188.5132.4244.5138.51989203.4160.2219.2157.9281.2164.41990207.7162.2222.0165.1273.9172.01991213.7170.8233.3168.9268.4177.21992225.7181.
11、7253.4176.8277.5182.71993254.9208.4294.2201.0314.7204.31994310.2258.6367.8248.0440.3239.41995356.1302.8429.6291.4527.9274.61996377.8327.9467.4314.4550.1291.61997380.8337.1481.9322.3525.3294.81998370.9334.4479.0319.1483.3288.31999359.8329.7472.8314.3424.3280.52000354.4331.0476.6314.0409.0277.14. 考察19
12、85年至2000年全国如下各价格指数:X1 :商品零售价格指数; X2 :居民消费价格指数; X3 :城市居民消费价格指数;X4 :农村居民消费价格指数; X5 :农产品收购价格指数; X6 :农村工业品零售价格指数;观测数据见下表.问题: 先将数据标准化,再按年份用下列方法进行系统聚类分析,画出谱系聚类图,并给出聚为3类的结果.(a)最短距离法;(b)最长距离法;(c)重心距离法. 表四 全国各年度各种价格指数年份X1X2X3X4X5X61985128.1100.0134.2100.0166.8111.11986135.8106.5143.6106.1177.5114.71987145.71
13、14.3156.2112.7198.8120.21988172.7135.8188.5132.4244.5138.51989203.4160.2219.2157.9281.2164.41990207.7162.2222.0165.1273.9172.01991213.7170.8233.3168.9268.4177.21992225.7181.7253.4176.8277.5182.71993254.9208.4294.2201.0314.7204.31994310.2258.6367.8248.0440.3239.41995356.1302.8429.6291.4527.9274.61996
14、377.8327.9467.4314.4550.1291.61997380.8337.1481.9322.3525.3294.81998370.9334.4479.0319.1483.3288.31999359.8329.7472.8314.3424.3280.52000354.4331.0476.6314.0409.0277.15. 研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)。居民非商品支出x3(亿元)的关系。数据见表。编号货运总量y (万吨)工业总产值x1(亿元)农业总产值x2(亿元)居民非商品支出x3(亿元)11607035102260754024321065
15、402042657442305240723812622068451572757842408160663620927570443210250654230 (1)计算出y,x1,x2,x3的相关系数矩阵; (2)求y关于x1 ,x2,x3的三元线性回归方程; (3)对回归方程作显著性检验; (4)对每一个回归系数作显著性检验; (5)如果有的回归系数没通过显著性检验,将其剔除,重新建立回归方程,再作回归方程的显著性检验和回归系数的显著性检验; (6)当x1、 x2 、x3的值为:68, 43, 2.5时,试对货运总量作出预测。6. 某科学基金会的管理人员欲了解从事研究工作的数学家的年工资额y与他们
16、的研究成果(论文、著作等)的质量指标x1、从事研究工作的时间x2,以及能成功获得资助的指标x3之间的关系。为此,按一定的设计方案调查了24位此类型的数学家,得数据见下表。编号yx1x2x3133.23.596.1240.35.3206.4338.75.1187.4446.85.8336.7541.44.2317.5637.56.0135.9739.06.8256.0840.75.5304.0930.13.155.81052.97.2478.31138.24.5255.01231.84.9116.41343.38.0237.61444.15.6357.01542.86.6395.01633.63
17、.7214.41734.26.275.51848.07.0407.01938.04.0356.02035.94.5233.52140.45.9334.92236.85.6274.32345.24.8348.02435.13.9155.0 (1)计算出y,x1,x2,x3的相关系数矩阵; (2)求y关于x1 ,x2,x3的三元线性回归方程; (3)对回归方程作显著性检验; (4)对每一个回归系数作显著性检验;(5)如果有的回归系数没通过显著性检验,将其剔除,重新建立回归方程,再作回归方程的显著性检验和回归系数的显著性检验;(6)假设某位数学家的关于x1、 x2 、x3的值为:5.1, 20, 7
18、.2,试预测他得年工资额。7. 在某地区抽取了14块岩石标本,其中7块含矿,7块不含矿。每块岩石测定了Cu,Ag,Bi三种化学成分,数据如下:含矿编号CuAgBi12.580.900.9522.901.231.0033.551.151.0042.351.150.7953.541.850.7962.702.231.3072.701.700.48不含矿12.251.981.0622.161.801.0632.331.741.1041.961.481.0451.941.401.0063.001.301.0072.781.701.48(1)生成SAS数据集; (2)用DISCRIM程序进行判别分析(假
19、定先验概率相等,两类样本协差阵相等);(3)在显著性水平下讨论已知类型的两组企业特征是否有显著差异;(4)写出距离判别的线性判别函数;(5)现在取一块岩石标本测得Cu、Ag、Bi分别为:2.95、2.15和1.54,试判别这块岩石标本是含矿还是不含矿,并统计已知类别样品的错判概率。8. 为了研究中小企业的破产模型,选定4个经济指标:X1总负债率(现金收益/总负债)、X2收益性指标(纯收入/总财产)、X3短期支付能力(流动资产/流动负债)、X4生产效率性指标(流动资产/纯销售额)。 对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,调查资料下表,试对这些指标作判别分析。(1)生成S
20、AS数据集;(2)用DISCRIM程序进行判别分析(假定先验概率相等,两类样本协差阵相等);(3)在显著性水平讨论已知类型的两组企业特征是否有显著差异;(4)写出距离判别的线性判别函数;(5)利用后验概率对8个待判企业(*)进行判别归类,并统计已知类别样品的错判概率。(注:将下列图片数据转换成表格数据)9表1中的1995年到2007年我国国民经济数据(数据来自于中国统计年鉴),通过典型相关分析来来找出邮电业和国民经济之间相互影响的内在规律,根据这个规律,给决策者提供一个当前如何发展邮电业的参考。采用如下指标来衡量我国各年份的邮电业:函件(亿件):快递(万件):移动电话年末用户(万户):固定电话
21、年末用户(万户),采用下面的指标来衡量我国各年份的经济(单位都是万亿):第一产业:工业:建筑业:第三产业(1)生成SAS数据集;(2)数据预处理;(3)在显著性水平讨论已知类型的两组特征数据是否有显著差异;(4)给出典型相关变量;(5)给出典型相关系数;(6)给决策者提供一个当前如何发展邮电业的参考。-第 10 页-年份199579.555562.7362.94070.612135.824950.63728.819978.5199678.687096.6685.35494.714015.429447.64387.423326.2199768.556878.91323.37031.014441.
22、932921.44621.626988.1199865.517331.82386.38742.114817.634018.44985.830580.5199960.529091.34329.610871.614770.035861.55172.133873.4200077.7111031.48453.314482.914944.740033.65522.338714.0200186.9312652.714522.218036.815781.343580.65931.744361.6200220032004106.0114036.220600.521422.216537.047431.36465
23、.549898.9103.8417237.826995.326274.717381.754945.57490.856004.782.8119771.933482.431175.621412.765210.08694.364561.3200573.5122880.339340.635044.522420.077230.810133.873432.9200671.3126988.046105.836778.624040.091310.911851.184721.4200769.50120189.654730.636563.728095.0107367.214014.1100053.510自1990年12月上海证券交易所和深圳证券交易所先后挂牌交易以来,中国证券市场走过了近十七个年头,证券市场已经成为中国经济生活的重要组成部分,是中国经济发展的重要推动力量。表1为搜集金融上市公司所公布的各年份的利润及资产负债数据。试用因子分析对金融上市公司在一定时期经营绩效的优劣程度进行系统分析。(1)生成SAS数据集;(2)数据预处理;(3)计算原始变量相关系数阵以及提取因子的特征值、特征向量、各个因子的贡献率及累计贡献率;(4)对结果进行分析:根据各因子得分以及他们的排名,来评价一下这些上市公司的经营状况,给决策者提供一个当前企业运营状况的参考。(注:将下列图片数据转换成表格数据)
限制150内