多元统计分析(聚类分析,判别分析,对应分析).ppt
-
资源ID:62994673
资源大小:286.28KB
全文页数:18页
- 资源格式: PPT
下载积分:15金币
快捷下载
![游客一键下载](/images/hot.gif)
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
多元统计分析(聚类分析,判别分析,对应分析).ppt
组员:邹俊逸组员:邹俊逸刘晓阳刘晓阳拓锦鑫拓锦鑫对一所重点学校某个班成绩的综合分析(综合创新思维训练与实践)随着社会竞争的越来越激烈,家长和老师对于学生成绩的态度愈加重视,对于学生将来的发展与前途也同样感到一丝忧虑,因此及时公布学生的学习成绩并且能够增其长补其短对于学生将会有很大的帮助。本文利用某所重点学校某个班的成绩单来分析这个班学生成绩的优劣,以达到取长补短的目的,主要应用了SPSS软件对成绩进行了综合性的分析。目 录聚类分析判别分析对应分析数据结论聚类分析聚类分析定义聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。聚类分析又称群分析,它是研究对样品或指标进行分类的一种多元统计方法。所谓的“类”,通俗地说就是相似元素的集合。聚类分析聚类分析基本步骤(1)计算n个样品两两间的距离,得样品间的距离矩阵。类与类之间的距离本文应用的是类平均法。所谓类平均法就是:两类样品两两之间平方距离的平均作为类之间的距离,即:采用这种类间距离的聚类方法,称为类平均法。(2)初始(第一步:i=1)n个样本各自构成一类,类的个数k=n,第t类(t=1,2,n)。此时类间的距离就是样品间的距离(即)。(3)对步骤i得到的距离矩阵,合并类间距离最小的两类为一新类。此时类的总个数k减少1类,即k=n-i+1.(4)计算新类与其他类的距离,得新的距离矩阵。若合并后类的总个数k扔大于1,重新步骤(3)和(4);直到类的总个数为1时转到步骤(5)。(5)画谱系聚类图;(6)决定总类的个数及各类的成员。聚类分析聚类分析结果分析返回判别分析判别分析概述判别分析是用于判断个体所属类别的一种统计方法。根据已知观测对象的分类和若干表明观测对象特征的变量值,建立判别函数和判别准则,并使其错判率最小,对于一个未知分类的样本,将所测指标代入判别方程,从而判断它来自哪个总体。当然,这种准则在某种意义上是最优的,如错判概率最小或错判损失最小等。其前提是总体均值有显著差异,否则错分率大,判别分析无意义。判别分析判别分析操作步骤输入数据,选择分析分类判别,然后把“概况”选入分组变量中,再点击“定义范围”来定义范围为1(最小数值)到4(最大数值),然后将“语文”、“数学”、“外语”、“体育”选入自变量中,然后点击“Statistics”,在出现的对话框中勾选平均值与Fishers,其余选项为默认,点击继续,确定运行。判别分析判别分析特徵值特徵值函數特徵值變異的%累加%典型相關性110.291a99.399.3.9552.057a.699.9.2333.010a.1100.0.100a.前3個典型區別函數用於分析。反映了判别函数的特征根,解释方差的比例和典型相关系数,第一判别函数解释了99.3%的方差,第二判别函数解释了0.6%的方差,第三判别函数解释了0.1%的方差。结果分析Wilks Lambda(Wilks Lambda()函數的檢定Wilks Lambda()卡方df顯著性1 至3.08387.14212.0002 至3.9362.3026.8903.990.3522.839是对三个判别函数的显著性检验,看出第一判别函数在0.05的显著性水平上是显著的,第二与第三判别函数不显著。判别分析判别分析標準化典型區別函數係數標準化典型區別函數係數函數123语文.903.134.539数学1.387-.246-.578外语1.463-.268.392体育.772.947.024该部分可以看出判别系数表示为:結構矩陣結構矩陣函數123体育.142.952*-.126数学.282-.218-.879*外语.288-.226.604*语文.086-.113.479*该部分是结构矩阵,即判别载荷,由权重和判别载荷可以看出,外语对判别函数1与判别函数3的贡献较大,体育对判别函数2的贡献较大。判别分析判别分析群組重心的函數群組重心的函數概况函數123优4.568-.216.119良1.191.064-.101及格-2.343.244.090不及格-5.289-.450-.021根据结果,判别函数在y=1这一组的重心为(4.568,-0.216,0.119),在y=2这一组的重心为(1.191,0.064,-0.101),在y=3这一组的重心为(-2.343,0.244,0.09),在y=4这一组的重心为(-5.289,-0.45,-0.021),这样我们就可以根据每个观测的判别Z得分对观测进行分类。对应分析对应分析概述对应分析的重要输出结果之一在于,把变量与样品同时反映到相同坐标轴(因子轴)的一张图形上,结合计算结果,在绘出的图形上能够直观地观察变量之间的关系、样品之间的关系以及变量与样品之间的对应关系。为此也有人认为,对应分析的实质是将变量、样品的交叉表变换成为一张散点图,从而将表格中包含的变量、样品的关联信息用各散点空间位置关系的形式表现出来。对应分析对应分析操作步骤(1)打开SPSS文件,在表格下方有两个选项,分别是数据试图和变量视图,点击变量视图选项,在前三行分别输入“学号”、“科目”、“成绩”,其中学号与科目的值项需要做如下设置:在弹出的值标签对话框里,在值这一项里输入“1”,标签输入“1”,再点击“添加”按钮,依次添加到40为止,在科目的值标签对话框内,在值这一项中输入“1”,标签输入“语文”,点击“添加”按钮,再依次添加“2”对应标签为“数学”,“3”对应标签为“外语”,“4”对应标签为“体育”,综上分别完成对1号至40号学号以及4项科目进行数字的赋值。然后点击数据视图进行数据输入,数据输入按照成绩单输入,如:第一行第一列输入“1”,第二列输入“1”,第三列输入“82”,第二行第一列输入“2”,第二列输入“1”,第三列输入“81”,以此类推,共输入160行数据。在SPSS的数据视图中输入数据后,再依次点选数据加权个案,进入加权个案的对话框,系统默认是对观测值不使用权重,选中加权个案选项,此时下面的频率变量被激活,选中成绩并点击箭头,使变量成绩充当权数的作用,点击确定。(2)数据输入完成后,选择分析降维对应分析,然后把“学号”选入“行”,再点击“定义范围”来定义范围为1(最小数值)到40(最大数值),之后点击更新,再点击继续。之后同样地,把“科目”选入“列”,并定义其范围为14。然后点选“模型”,在出现的对话框中选择数据标准化方法,本次分析距离度量点选Eucliden,下面的标准化方法选择选项被激活,有5种可供选择的数据标准化方法,本次分析选择第5种:使列总和相等,删除均值,其余选项为默认,点击确定运行。(3)图表编辑:根据SPSS对数据的计算,会得到一系列的表格,对对后一张叠加散点图进行部分操作,双击叠加散点图会弹出一个图表编辑器,点击“向X轴添加参考线”又会弹出一个属性对话框,把位置坐标改为0,关闭对话框,点击“向Y轴添加参考线”,同上步骤将位置坐标改为0,关闭图表编辑器,此时叠加散点图被分为4各区域,方便于接下来的结果分析。对应分析对应分析对应表对应表学号科目语文数学外语体育有效边际182.000120.00071.00095.000368.000281.000119.00077.00090.000367.000383.000115.00069.00091.500358.500472.000115.00075.00095.000357.000汇总汇总维数惯量比例置信奇异值相关奇异值惯量解释累积标准差21.075.006.548.548.002-.0412.052.003.264.813.0023.044.002.1871.000总计.0101.0001.000输出的第一部分对应表是由原始数据学号与科目分类的列联表,可以看出观测总数n=40,说明原始数据中没有记录缺失,有效边际为行列数的总和。第二部分汇总表给出了总惯量以及每一维度所揭示的总惯量的百分比的信息。可知总惯量为0.01,卡方值为0.4,有关系式:总惯量=卡方值*观测总数(0.4=0.01*40),由此可以清楚地看到总惯量与卡方值的关系,同时说明总惯量描述了列联表行与列之间总的相关关系。结果分析对应分析对应分析概述概述列点列点a科目维中的得分贡献点对维惯量维对点惯量质量12惯量1212总计语文.250.000-.143.002.000.099.000.135.135数学.250.082-.427.003.022.880.047.887.934外语.250.540.065.005.975.021.989.010.999体育.250.029-.013.000.003.001.039.006.045有效总计1.000.0101.0001.000概述行点概述行点a学号维中的得分贡献点对维惯量维对点惯量质量12惯量1212总计1.025.242-.385.000.020.071.348.611.9592.025.403-.322.000.054.050.659.293.9523.025.168-.301.000.009.044.259.575.8354.025.341-.172.000.039.014.767.136.903第三部分是对列联表行与列个状态有关信息的概括(概述行点只截取了部分数据)。其中,质量部分分别指列联表中行与列的边缘概率。维中的得分是各维度的分值,指行列各状态在二维图中的坐标值。如语文坐标为(-0.00,-0.143)。惯量是每一行(列)与其重心的加权距离的平方,可以看出I=J=0.01,即行剖面的总惯量等与列剖面的总惯量。贡献部分是指行(列)的每一状态对每一维度(公共因子)特征值的贡献及每一维度对行(列)各个状态的特征值等贡献。如第一维度中,外语对应的数值最大,为0.975,说明外语这一状态对第一维度的贡献最大。对应分析对应分析由以上两张坐标表可以得出如下的叠加散点图,也是输出的最后一部分,是学号各状态与科目各状态同时在一张二维图上的投影。在图上既可以看到每一变量内部各状态之间的相关关系,又可以同时考察两变量之间的相关关系。在同一变量内部,在各学科间,体育与各状态之间距离相近,而外语可以单独归为一类,对于语文,各学号之间的距离均很近,语文与体育距离比较相近,则可以将体育和语文归为一类,外语分为一类,数学分为一类,很明显的形成了三大类。同时考察两变量各状态,可以看出这个班的同学的成绩语文与体育偏好,周围的学号也较为集中,分数比较接近,也就是说这个班语文成绩与体育成绩没有特别显著的特点。学号7与学号36离数学较远,说明他与数学的相关性越小,学号28、学号26与学号35离外语较远,说明他与位于的相关性越小,换言之,他们该科成绩较低。而再观察学号较为集中的区域内,也说明大部分学号都与体育和语文的相关性较大。对应分析对应分析运用向量分析了解学科偏好排序。我们可以从中心向任意点连线作向量,例如从中心向语文做向量,然后让所有的学号往这条向量及延长线上作垂线,垂点越靠近向量正向的表示越偏好这种学科。即偏好语文的学生学号依次是9号、1号、2号、3号等等。依次类推,也可以从中心往所有的学号作向量,得到每一个学生在选择4学科上的偏好排名,如28号的偏科情况为数学、语文、体育、外语。接着,我们可以从向量夹角的角度看不同学科或不同学生之间的相似情况,从余弦定理的角度看相似性。从图上我们可以看出,当我们从中心向任意两个学号(相同类别)做向量的时候,夹角是锐角的话表示两个学生具有相似性,锐角越小越相似。也就是说,2号和5号是相似成绩,当然也是竞争者,也具有替代性;我们也看出数学与外语就有非常大的差异了。因为如果作向量他们是几乎是直角了。返回返回