多元统计分析课程设计.doc
《多元统计分析课程设计.doc》由会员分享,可在线阅读,更多相关《多元统计分析课程设计.doc(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流多元统计分析课程设计.精品文档.课 程 设 计 报 告课程名称 多元统计分析 专 业 统 计 学 班 级 统计学0901 学 号 200910020109 姓 名 李宗藩 指导教师 戴 婷 2011年 12 月 19 日湖南工程学院课 程 设 计 任 务 书课程名称 多元统计分析 课 题 多元统计分析 专业班级 统计学0901 学生姓名 李宗藩 学 号 200910020109 指导老师 戴 婷 审 批 任务书下达日期 2011 年 12 月 19 日任务完成日期 2011年 12 月 30日目录一:课程设计准备3(1) 建立数据库3(2)
2、分析数据库3二:聚类分析和判别分析3(1) 聚类分析的步骤3(2) 判别分析的步骤3(3) 聚类分析的结果4(4) 判别分析的的结果及分析4三:因子分析10(1) 是否可进行因子分析的判断10(2) 因子分析的步骤10(3) 因子分析的结果及其分析11四:参考文献16五:总结17六:评分表18七:附录表19一:课程设计准备(1):建立和打开数据库建立或打开数据文件,数据窗中输入待分析的数据,或利用File菜单中的Open功能打开已经存在的数据文件。2010年各地区按主要行业分的全社会固定资产投资。(2):分析数据库样本数据来自中国2010年各地区按主要行业分的全社会固定资产投资,见附表。在这里
3、选取了我国的三十一个省份作为样本,描述固定资产投资行业的变量有十九个:农、林、牧、副、渔业(x1),采矿业(x2),制造业(x3),电力、燃气及水的生产和供应业(x4),建筑业(x5),交通运输、储蓄和邮政业(x6),信息传输、计算机服务和软件业(x7),批发和零售业(x8),住宿和餐饮业(x9),金融业(x10),房地产业(x11),租赁和商务服务业(x12),科学研究、技术服务、地质勘察(x13),水利、环境、公共设施(x14),居民服务和其他服务业(x15),教育(x16),卫生、社会保障和福利业(x17),文化、体育、娱乐业(x18),公共管理和社会组织(x19)。二:聚类分析和判别分
4、析 (一)聚类分析的步骤1. 按AnalyzeClassifyK-means-cluster顺序单击菜单项,打开聚类分析主对话框。2. 选择分析变量送到右边的Variables栏中。3. 在“Number of Cluster”中选择3,在Method选项中选择“Classify only”4. 单击Save按钮,在对话框栏内选择Cluster membership选项,5. 单击Option按钮,在对话框Statistics栏内选择Initial cluster centers选项,在对话框Missing Values栏内选择Exclude cases listwise选项(二) 判别分析的
5、步骤1. 按AnalyzeClassifyDiscriminant顺序单击菜单项,打开判别分析主对话框。2. 主对话框左边的矩形框中选定分类变量,并用上面一个箭头按钮将其移到“Grouping Variable”框中。然后用其下面的“Define Range” 输入最小变量和最大变量3.选择判别变量送到右边的Independents栏中。在主对话框中选择“Enter independents together”4. 在主对话框中单击“Statistics”按钮可以打开选择输出统计量的对话框,在对话框Description栏内选择Means选项,在对话框Function Coefficints栏
6、内选择Fishers和unstandardized选项,在对话框Matrices栏内选择Within-groups covariance选项。5. 在主对话框中单击“classification”按钮,打开选择分类参数与分类结果对话框,除系统默认之外,在对话框Display栏内选择和Casewise results选项和Summary table选项,在对话框Plots栏内选择三种。6. 在主对话框中单击“Save.”可打开选择将各样品的判别结果保存于数据文件的对话框,选中“Predicted group membership”可保存各样品的预报(判别)分类;选中“Discriminant s
7、cores”可保存各样品的典型判别函数值;选中“Probabilities of group membership”可保存各样品的后验概率。(三)聚类分析的结果快速聚类整理表:类别 地区第一类北京 天津 山西内蒙古 黑龙江 上海 广西海南 重庆 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆第二类河北 辽宁 吉林 浙江 安徽 福建江西 河南 湖北 湖南 广东 四川第三类江苏 山东(四):判别分析的的结果各类的均值:地区第一类均值第二类均值第三类均值农、林、牧、渔业153.8799299.0844344.9445采矿业271.5194289.2842304.3328制造业749.01123381
8、.79678649.0746电力、燃气及水的生产和供应业354.5886571.5384605.5636建筑业40.036568.7633243.34交通运输、储蓄和邮政业470.2504847.42081026.35信息传输、计算机服务和软件业61.2263110.7646109.4647批发和零售业63.6769236.4418606.5013住宿和餐饮业33.4261130.2939246.8029金融业6.890517.4316.9265房地产业859.60592225.91174017.1351租赁和商务、服务业34.325390.568182.916科学研究、技术服务和地质勘查业2
9、3.25245.3526126.5754水利、环境和公共设施管理业366.3587905.9471311.6814居民服务和其他服务业10.086734.8087106.375教育68.6707157.3901232.5481卫生、社会保障和社会福利业30.953792.5174111.1115文化、体育和娱乐业38.15499.1365272.5649公共管理和社会组织109.5961158.9508477.9933Eigenvalues(特征值)FunctionEigenvalue% of VarianceCumulative %Canonical Correlation156.435(a
10、)89.189.1.99126.893(a)10.9100.0.935a First 2 canonical discriminant functions were used in the analysis.两个典型判别分析,特征值(Eigenvalue)分别为56.435和6.89,典型相关系数(Canonical Correlation)分别为0.991和0.935,Wilks LambdaTest of Function(s)Wilks LambdaChi-squaredfSig.1 through 2.002116.21738.0002.12739.25418.003根据Wilks L
11、ambda 表,可知:=0.002和0.127很小,近视分布=116.217和39.254,相伴概率为7.418568558275e-010和0.03,小于0.01,高度显著,所以各类的样本均值向量有显著性差异,因此判别有效。Classification Function Coefficients分类函数系数Cluster Number of Case123农、林、牧、渔业.006-.088-.482采矿业.005.003-.071制造业.001.010.062电力、燃气及水的生产和供应业-.001-.023-.065建筑业.017.061.266交通运输、储蓄和邮政业.012.055.279
12、信息传输、计算机服务和软件业-.021-.013.427批发和零售业-.019.108.807住宿和餐饮业.040.266.443金融业-.022-.248-4.632房地产业.001-.006-.032租赁和商务、服务业.020-.010-.546科学研究、技术服务和地质勘查业-.009-.265-.699水利、环境和公共设施管理业-.009-.058-.278居民服务和其他服务业-.028.1482.607教育.011.1161.310卫生、社会保障和社会福利业-.039.242-2.637文化、体育和娱乐业-.018-.084.096公共管理和社会组织.006.002.084农、林、牧、
13、渔业-3.782-30.072-451.326Fishers linear discriminant functionsStandardized Canonical Discriminant Function CoefficientsFunction12农、林、牧、渔业-2.655.588采矿业-.631-.486制造业1.775.157电力、燃气及水的生产和供应业-.574.608建筑业.574-.064交通运输、储蓄和邮政业2.729-.096信息传输、计算机服务和软件业.829.680批发和零售业2.457.017住宿和餐饮业.446-.959金融业-1.115-.695房地产业-.85
14、8.321租赁和商务、服务业-.872-.523科学研究、技术服务和地质勘查业-.587.697水利、环境和公共设施管理业-2.348.366居民服务和其他服务业1.335.691教育2.5821.113卫生、社会保障和社会福利业-2.159-3.450文化、体育和娱乐业.161.800公共管理和社会组织.315.396判别函数Functions at Group Centroids(各组重心的函数值)Cluster Number of CaseFunction121-3.6831.8632.905-3.124325.8812.909Unstandardized canonical discr
15、iminant functions evaluated at group means Casewise Statistics(各数据统计量)地区Actual GroupHighest GroupSecond Highest GroupDiscriminant ScoresPredicted Group2P(G=g | D=d)Squared Mahalanobis Distance to CentroidGroupP(G=g | D=d)Squared Mahalanobis Distance to CentroidFunction 1Function 2pdf 北 京110.44221.00
16、01.63320.00064.846-4.4992.846 天 津110.61121.0000.98520.00055.535-3.5542.847 河 北220.47121.0001.50810.00063.4861.943-3.779 山 西110.03721.0006.57220.00028.774-1.1201.844 内蒙古110.25921.0002.70620.00065.223-5.3212.021 辽 宁220.17221.0003.52110.00064.3322.768-2.903 吉 林220.10321.0004.54910.00022.193-0.182-1.288
17、 黑龙江110.91621.0000.17620.00047.917-4.0671.693 上 海110.66321.0000.82320.00044.687-4.2391.146 江 苏330.81121.0000.42020.000641.15925.6362.309 浙 江220.84521.0000.33610.00054.0991.323-3.526 安 徽220.29921.0002.41810.00050.309-0.136-4.279 福 建220.07521.0005.16810.00027.7860.835-0.852 江 西220.90421.0000.20110.000
18、50.5561.352-3.157 山 东330.81121.0000.42020.000680.14126.1273.508 河 南220.89021.0000.23410.00052.6901.205-3.503 湖 北220.26221.0002.67810.00036.668-0.707-3.410 湖 南220.49721.0001.39710.00052.0110.308-4.144 广 东220.70021.0000.71310.00057.9531.381-3.821 广 西110.01020.9999.30720.00123.235-3.508-1.183 海 南110.91
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 课程设计
限制150内