统计学对应分析课件.ppt
《统计学对应分析课件.ppt》由会员分享,可在线阅读,更多相关《统计学对应分析课件.ppt(90页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计学从数据到结论第十四章 对应分析 行和列变量的相关问题 在因子分析中,或者只对变量(列中的变量)进行分析,或者只对样品(观测值或行中的变量)进行分析;而且利用载荷图来描述各个变量之间的接近程度。典型相关分析也只研究列中两组变量之间的关系。行和列变量的相关问题 然而,在很多情况下,所关心的不仅仅是行或列本身变量之间的关系,而是行变量和列变量的相互关系;这就是因子分析等方法所没有说明的了。先看一个例子。例子(数据ChMath.txt)该数据关于汉字读写能力的变量有三个水平:“纯汉字”意味着可以完全自由使用纯汉字读写,“半汉字”意味着读写中只有部分汉字(比如日文),而“纯英文”意味着只能够读写英
2、文而不会汉字。而数学成绩有4个水平(A、B、C、D)。人们可以对这个列联表进行前面所说的c2检验来考察行变量和列变量是否独立。结果在下面表中(通过AnalyzeDescriptiveStatisticsCrosstabs)所有的检验都很显著,看来两个变量的确不独立。对应分析但是如何用象因子分析的载荷图那样的直观方法来展示这两个变量各个水平之间的关系呢?这就是对应分析(correspondenceanalysis)方法。对应分析方法被普遍认为是探索性数据分析的内容,因此,读者只要能够会用数据画出描述性的点图,并能够理解图中包含的信息即可。对应分析 在对应分析中,根据各行变量的因子载荷和各列变量的
3、因子载荷之间的关系,行因子载荷和列因子载荷之间可以两两配对。如果对每组变量选择前两列因子载荷,则两组变量就可画出两因子载荷的散点图。由于这两个图所表示的载荷可以配对,于是就可以把这两个因子载荷的两个散点图画到同一张图中,并以此来直观地显示各行变量和各列变量之间的关系。对应分析 由于列联表数据形式和一般的连续变量的数据形式类似,所以也可以用对应分析的数学方法来研究行变量各个水平和列变量各个水平之间的关系;虽然对不同数据类型所产生结果的解释有所不同,数学的原理是一样的。下面通过对ChMath.txt数据的计算和结果分析来介绍对应分析。对应分析的数学原理是什么?表中的术语 Inertia惯量,为每一
4、维到其重心的加权距离的平方。它度量行列关系的强度。SingularValue奇异值(是惯量的平方根),反映了是行与列各水平在二维图中分量的相关程度,是对行与列进行因子分析产生的新的综合变量的典型相关系数。ChiSquare就是关于列联表行列独立性 c2检验的 c2统计量的值,和前面表中的相同。其后面的Sig为在行列独立的零假设下的p-值,注释表明自由度为(4-1)(3-1)=6,Sig.值很小说明列联表的行与列之间有较强的相关性。ProportionofInertia惯量比例,是各维度(公因子)分别解释总惯量的比例及累计百分比,类似于因子分析中公因子解释能力的说明。解释 从该表可以看出,由于第
5、一维的惯量比例占了总比例的93.9%,因此,其他维的重要性可以忽略(虽然画图时需要两维,但主要看第一维横坐标)。在SPSS的输出中还有另外两个表分别给出了画图中两套散点图所需要的两套坐标。解释 该表给出了图中三个汉字使用点的坐标:纯汉字(-.897,-.240),半汉字(.102,.491),纯英文(.970,-.338),以及四个数学成绩点的坐标:数学A(-.693,-.345),数学B(-.340,.438),数学C(.928,.203),数学C(1.140,-.479)。两表中的概念不必记;其中Mass为行与列的边缘概率;ScoreinDimension是各维度的分值(二维图中的坐标);
6、Inertia:就是前面所提到的惯量,为每一行/列到其重心的加权距离的平方。SPSS的实现 打开ChMath.sav数据,其形式和本章开始的列联表有些不同。其中ch列代表汉字使用的三个水平;而math列代表数学成绩的四个水平;第一列count实际上是ch和math两个变量各个水平组合的出现数目,也就是列联表中间的数目。由于count把很大的本应有232行的原始数据简化成只有12行的汇总数据,在进行计算之前必须进行加权。也就是点击图标中的小天平,再按照count加权即可。SPSS的实现 加权之后,选择AnalyzeDataReductionCorrespondenceAnalysis,然后把“汉
7、字使用”选入Row(行),再点击DefineRange来定义其范围为1(Minimumvalue)到3(Maximumvalue),之后点击Update。类似地,点击Continue之后,把“数学成绩”选入Column(列),并以同样方式定义其范围为1到4。由于其他选项可以用默认值,就可以直接点击OK来运行了。这样就得到上述表格和点图。附录对应分析的数学因子分析对变量和对样品要分别对待.对应分析把变量和样本同时反映到相同坐标轴(因子轴)的一张图形上.数学上,令A=aij为np矩阵,x=xi为n-(列)向量,y=yj为p-(列)向量.那么(r,x,y)称为对应分析问题C0(A)的解,如果记R=d
8、iag(ai.),C=diag(a.i),R1/2=diag(a.i1/2),则上面式子为rx=R-1Ay;ry=C-1Ax或rR1/2x=(R-1/2AC-1/2)C1/2y;rC1/2y=(C-1/2AR-1/2)R1/2x=(R-1/2AC-1/2)R1/2xX为一个解的条件是下面特征值问题有解(最大特征值为1是平凡解,两组非零特征值相同!)令前面的特征值问题可以写成两个特征值问题有同样的非零特征值.如U是ZZ的特征向量,则ZU是ZZ的特征向量.ZZ的特征根为l1 l2 lp;ZZ相应的特征向量为u1,u2,up.ZZ相应的特征向量为v1,v2,vn.对最大的m个特征值得因子载荷阵可以对
9、变量和样品作两两因子载荷图.返回 一家食品生产企业以生产袋装食品为主,每天的产量约为8000袋左右。按规定每袋的重量应不低于100克,否则即为不合格。为对产量质量进行检测,企业设有质量检查科专门负责质量检验,并经常向企业高层领导提交质检报告。质检的内容之一就是每袋重量是否符合要求。由于产品的数量大,进行全面的检验是不可能的,可行的办法是抽样,然后用样本数据估计平均每袋的重量。质检科从某天生产的一批食品中随机抽取了25袋,下表1是对每袋食品重量的检验结果。实践中的统计 根据表1的数据,质检科估计出该天生产的食品每袋的平均重量在101.38109.34克之间,其中,估计的可信程度为95%,估计误差
10、不超过4克。产品的合格率在96.07%73.93%之间,其中,估计的可信程度为95%,估计误差不超过16%。表1 25袋食品的重量(克)112.5102.6100.0116.6136.8101.0107.5123.595.4102.8103.095.0102.097.8101.5102.010808101.6108.498.4100.5115.6102.2105.093.3本章重点本章重点1、抽样误差的概率表述;2、区间估计的基本原理;3、小样本下的总体参数估计方法;4、样本容量的确定方法;本章难点本章难点1、一般正态分布标准正态分布;2、t分布;3、区间估计的原理;4、分层抽样、整群抽样中总
11、方差的分解。点估计的缺点:不能反映估计的误差和精确程度区间估计:利用样本统计量和抽样分布估计总体参数的可能区间【例1】CJW公司是一家专营体育设备和附件的公司,为了监控公司的服务质量,CJW公司每月都要随即的抽取一个顾客样本进行调查以了解顾客的满意分数。根据以往的调查,满意分数的标准差稳定在20分左右。最近一次对100名顾客的抽样显示,满意分数的样本均值为82分,试建立总体满意分数的区间。8.1.1抽样误差抽样误差:一个无偏估计与其对应的总体参数之差的绝对值。抽样误差=(实际未知)8.1总体均值的区间估计(大样本n30)要进行区间估计,关键是将抽样误差 求解。若 已知,则区间可表示为:此时,可
12、以利用样本均值的抽样分布对抽样误差的大小进行描述。上例中,已知,样本容量n=100,总体标准差,根据中心极限定理可知,此时样本均值服从均值为,标准差为 的正态分布。即:8.1.2抽样误差的概率表述 由概率论可知,服从标准正态分布,即,有以下关系式成立:一般称,为置信度,可靠程度等,反映估计结果的可信程度。若事先给定一个置信度,则可根据标准正态分布找到其对应的临界值。进而计算抽样误差若,则查标准正态分布表可得,抽样误差 此时抽样误差的意义可表述为:以样本均值为中心的3.92的区间包含总体均值的概率是95%,或者说,样本均值产生的抽样误差是3.92或更小的概率是0.95。常用的置信度还有90%,9
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 对应 分析 课件
限制150内