应用多元统计分析实验报告(42页).docx
《应用多元统计分析实验报告(42页).docx》由会员分享,可在线阅读,更多相关《应用多元统计分析实验报告(42页).docx(44页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-应用多元统计分析实验报告-第 44 页多元统计分析实验报告学院名称 理学院 专业班级 应用统计学14-2 学生姓名 学 号 第一章 多元正态分布1.1 从某企业全部职工中随机抽取一容量为6的样本,该样本中个职工的目前工资、受教育年限、初始工资和工作经验资料如下表所示:职工编号目前工资(美元)受教育年限(年)初始工资(美元)工作经验(月)12345657000420021450219004500028350151612815827000187501200013200021000120001443638119013826设职工总体的以上变量服从多元正态分布,根据样本资料利用SPSS软件求出均值向
2、量和协方差矩阵的最大似然估计。注1:最大似然估计公式为: ,;一SPSS操作步骤:第一步:利用spss建立数据集第二步:分析-描述统计-描述 计算样本均值向量第三步:分析-相关-双变量 计算样本协方差阵与样本相关系数二输出结果:描述性统计量均值标准差N目前工资29650.0018763.4756受教育年限12.333.6156初始工资37125.0046827.2766工作经验152.50129.2106相关性目前工资受教育年限初始工资工作经验目前工资Pearson 相关性1.184-.126.042显著性(双侧).727.812.937平方与叉积的和1760340000.00062500.0
3、00-553387500.000510000.000协方差352068000.00012500.000-110677500.000102000.000N6666受教育年限Pearson 相关性.1841-.510-.077显著性(双侧).727.302.885平方与叉积的和62500.00065.333-431250.000-179.000协方差12500.00013.067-86250.000-35.800N6666初始工资Pearson 相关性-.126-.5101.114显著性(双侧).812.302.829平方与叉积的和-553387500.000-431250.00010963968
4、750.0003455625.000协方差-110677500.000-86250.0002192793750.000691125.000N6666工作经验Pearson 相关性.042-.077.1141显著性(双侧).937.885.829平方与叉积的和510000.000-179.0003455625.00083475.500协方差102000.000-35.800691125.00016695.100N6666三实验结果分析:样本均值为 样本的协方差 如此就可以按照极大似然估计方程: ,得出均值向量与协方差向量的最大似然估计结果。第三章 聚类分析3.1 下表是15个上市公司2001年的
5、一些主要财务指标,使用系统聚类法和K均值法利用SPSS软件分别对这些公司进行聚类,并对结果进行比较分析。公司编号净资产收益率每股净利润总资产周转率资产负债率流动负债比率每股净资产净利润增长率总资产增长率111.090.210.0596.9870.531.86-44.0481.99211.960.590.7451.7890.734.957.0216.11300.030.03181.99100-2.98103.3321.18411.580.130.1746.0792.181.146.55-56.325-6.19-0.090.0343.382.241.52-1713.5-3.366100.470.4
6、868.4864.7-11.560.85710.490.110.3582.9899.871.02100.2330.32811.12-1.690.12132.14100-0.66-4454.39-62.7593.410.040.267.8698.511.25-11.25-11.43101.160.010.5443.71001.03-87.18-7.411130.220.160.487.3694.880.53729.41-9.97128.190.220.3830.311002.73-12.31-2.771395.79-5.20.5252.3499.34-5.42-9816.52-46.821416
7、.550.350.9372.3184.052.14115.95123.4115-24.18-1.160.7956.2697.84.81-533.89-27.74一、实验原理:1.系统聚类的基本思想是:首先,每个样品(或变量)先聚成一类,然后,选择距离公式计算类与类之间的距离,把距离相近的样品(或变量)先聚成类,距离相远的后聚成类,该过程一直进行下去,每个样品(或变量)总能聚到合适的类中,最后,所有的样品(或变量)聚成一类。打开SPSS软件,在数据窗口依次定义变量,并输入以上数据。2.K-均值聚类法:K-均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的,但是两者的不同之处也是明显的:
8、系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。二SPSS操作步骤:(一)系统聚类基本操作步骤如下:1.点击分析分类系统聚类,进入系统聚类对话框。2.将净资产收益率、每股净利润、总资产周转率、资产负债率、流动负债比率、每股净资产、净利润增长率、总资产增长率8个变量选入变量框中,将公司编号选入标注个案框中。输出框中保持默认选项,选中统计量和图。3.统计量部分保持默认选项,点击继续按钮;点击绘制按钮,进入系统聚类-绘制对话框,选中树状图,其他部
9、分保持默认,点击继续按钮;点击方法按钮,进入聚类分析-方法对话框,转换值框中标准化选择Z得分,其他部分保持默认选项,点击继续按钮;保存部分保持默认选项,点击继续按钮。4.最后点击确定按钮,得系统聚类结果。(二)K-均值法基本操作步骤如下:1. 点击分析分类K-均值聚类,进入K-均值聚类对话框。2.将净资产收益率、每股净利润、总资产周转率、资产负债率、流动负债比率、每股净资产、净利润增长率、总资产增长率8个变量选入变量框中,将公司编号选入标注个案框中。根据系统聚类的结果,聚类数改为3,其他部分保持默认选项。3.迭代部分保持默认选项,点击继续按钮;点击保存按钮,选中聚类成员、与聚类中心的距离,点击
10、继续按钮;选项部分中保持默认选项,点击继续。 4.最后点击确定按钮,得K-均值聚类结果。三输出结果:系统聚类法:表1 案例处理汇总a,b案例有效缺失总计N百分比N百分比N百分比12100.00.012100.0a. 平方 Euclidean 距离 已使用b. 平均联结(组之间)表2 聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 2169363.2800022261189.69701332121492.5322044243976.32830552107995.87440767149315.36000871213588.43405881728034.879769911153
11、0499.9898010101820618287.32690111111391730894.8611000K均值法:表3 初始聚类中心聚类123净资产收益率95.7911.1230.22每股净利润-5.20-1.69.16总资产周转率.50.12.40资产负债率252.34132.1487.36流动负债率99.34100.0094.88每股净资产-5.42-.66.53净利润增长率-9816.52-4454.39729.41总资产增长率-46.82-62.75-9.97表4 迭代历史记录a迭代聚类中心内的更改1231.000.000834.1342.000.000.000a. 由于聚类中心内没
12、有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 2。初始中心间的最小距离为 5184.300。表5最终聚类中心聚类123净资产收益率95.7911.126.48每股净利润-5.20-1.69.08总资产周转率.50.12.39资产负债率252.34132.1471.48流动负债率99.34100.0092.06每股净资产-5.42-.661.90净利润增长率-9816.52-4454.39-103.94总资产增长率-46.82-62.7511.91表6 每个聚类中的案例数聚类11.00021.000313.000有效15.000缺失.000四,实验结果分析:(一
13、)系统聚类法:表2聚类表是对每一阶段聚类结果的反应。图1冰状图,图2树状图,是反应样品聚类情况的图,从图中可以由分类个数得到分类情况。如果选择分为2类,分类结果为:13号公司单独一类,1-12号公司为一类;如果选择分为3类,分类结果为:13、1、14、2、3、4、5、6、7、8、9、10、11、12、15。由表中数据可以发现,13号公司资产负债率最高,净利润增长率最低,1号和14号公司的主要财务指标都比较好,可以认为系统聚类根据经营情况对公司进行分类的。(二)K均值法:表3出始聚类中心,表示最初种类的重心,也就是种子点。表5最终聚类中心,表示K-均值聚类之后各类的重心,可以看到,1类资产负债率
14、高,净利润增长率低,3类各项指标值都比较好。由数据集输出结果知分类结果为:1类13、2类8、3类1、2、3、4、5、6、7、9、10、11、12、14、15。与系统聚类的结果不完全相同,K-均值聚类将8号公司单独作为一类。由数据表可以发现8号公司资产负债率较高,净利润增长率较低,与其他公司之间有较大差别,单独分为一类也比较符合实际。3.2 下表是2003年我国省会城市和计划单列市的主要经济指标:人均GDP(元)、人均工业产值(元)、客运总量(万人)、货运总量(万吨)、地方财政预算内收入(亿元)、固定资产投资总额(亿元)、在岗职工占总人口的比例()、在岗职工人均工资额(元)、城乡居民年底储蓄余额
15、(亿元)。试利用SPSS软件进行系统聚类分析,并比较何种方法与人们观察到的实际情况较接近。城市北京31886331683052030671593200037.8253126441天津264334373235073467920593418.8186481825石家庄15134131591184310008494169.5123061044太原15752158312975152483319722.812679660呼和浩特1899111257350841552118213.514116255沈阳23268154466612146368155714.8149611423大连2914527615110
16、012108111140714.7175601310长春18630210456999108924629412.513870831哈尔滨148257561645895187642317.7124511154上海4658677083721263861899227421.0273056055南京2754743853167901480513679415.4221901134杭州3266749823213491681515071711.8246671466宁波3254347904249381379713955510.9236911060合肥106211171460344641362458.3139013
17、59福州2228121310968082506737611.815053876厦门5359093126444130557023838.619024397南昌142219205572844543121011.013913483济南23437226345810143547642913.516027758青岛2470535506146663055312054814.515335908郑州16674140231070978476637312.7135381048武汉212781708311882166108062317.4137301286长沙15446887310609106316043410.01
18、6987705广州48220554042975128859275108925.1288053727深圳19183834751910989679329187569.6310532199南宁8176339070165893361708.313171451海口1644214553132843304129916.514819284重庆71905076582903245016211876.5124401897成都17914928972793287989078811.9152741494贵阳11046103501851153184023115.812181345昆明16215116015126123386
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 多元 统计分析 实验 报告 42
限制150内