《应用统计学对应分析等讲稿.ppt》由会员分享,可在线阅读,更多相关《应用统计学对应分析等讲稿.ppt(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、应用统计学对应分析等第一页,讲稿共十九页哦当属性变量当属性变量A A和和B B的状态较多时,很难透过列联表作出判的状态较多时,很难透过列联表作出判断。断。怎样简化列联表的结构?怎样简化列联表的结构?利用降维的思想利用降维的思想。如因子分析和主成分分析。如因子分析和主成分分析。但因子分析但因子分析的缺陷的缺陷是在于无法同时进行是在于无法同时进行R R型因子分析和型因子分析和Q Q型因子分析。型因子分析。怎么办?怎么办?精细建模:对数线性模型精细建模:对数线性模型直观展示:对应分析直观展示:对应分析第二页,讲稿共十九页哦*对应分析的基本理论对应分析的基本理论v1 1、什么是对应分析?、什么是对应分
2、析?对应分析是利用对应分析是利用“降维降维”的方法,以两变量的的方法,以两变量的交叉列联表交叉列联表为研究对象,通过图形的方式,直接揭示变量之间以及变量的为研究对象,通过图形的方式,直接揭示变量之间以及变量的不同类别之间的联系,特别适合于多分类属性变量研究的一种不同类别之间的联系,特别适合于多分类属性变量研究的一种多元统计分析方法。多元统计分析方法。v2 2、对应分析的基本思想:、对应分析的基本思想:首先,编制两品质型变量的交叉列联表,将交叉列联表中的每个数据单元看成首先,编制两品质型变量的交叉列联表,将交叉列联表中的每个数据单元看成两变量在相应类别上的对应点;两变量在相应类别上的对应点;然后
3、,对应分析将变量及变量之间的联系同时反映在一张二维或三维的散然后,对应分析将变量及变量之间的联系同时反映在一张二维或三维的散点图上,并使联系密切的类别点较集中,联系疏远的类别点较分散;点图上,并使联系密切的类别点较集中,联系疏远的类别点较分散;最后,通过观察对应分布图就能直观地把握变量类别之间的联系最后,通过观察对应分布图就能直观地把握变量类别之间的联系第三页,讲稿共十九页哦方法特点是多维图示分析技术之一,结果直观、简单与因子分析有关 分类资料的典型相关分析用于展示两个/多个分类变量各类间的关系高收入、黑人、男性倾向于反对开战研究较多分类变量间关系时较佳各个变量的类别较多时较佳均为四类以上p局
4、限性不能进行变量间相关关系的检验仍然只是一种统计描述方法解决方案的所需维度需要研究者决定对极端值敏感 对于小样本不推荐使用第四页,讲稿共十九页哦v3 3、方法优点:、方法优点:可以在一张二维图上同时表示出两类属性变量的各种状态,以直可以在一张二维图上同时表示出两类属性变量的各种状态,以直观描述原始数据结构。观描述原始数据结构。v4 4、关键问题:、关键问题:l如何将多个类别点表示在低维空间中,以便于直接观察如何将多个类别点表示在低维空间中,以便于直接观察l如何确定各类别点的坐标,以易于鉴别类别间联系的强弱如何确定各类别点的坐标,以易于鉴别类别间联系的强弱第五页,讲稿共十九页哦原理以列联表为分析
5、基础,计算基于H0假设的单元格残差将每行看成是一条记录,基于列变量相关系数阵进行因子分析,计算出列变量各类别的负荷值将每列看成是一条记录,基于行变量相关系数阵进编制交叉列联表并计算概率矩阵编制交叉列联表并计算概率矩阵根据矩阵确定数据点坐标根据矩阵确定数据点坐标行变量和列变量的分类降维处理行变量和列变量的分类降维处理步骤第六页,讲稿共十九页哦对应分析图的阅读p每个维度可能代表了一种特征每个维度可能代表了一种特征实际上就是一个提取出的主成分,但由于分类变量的信息较少,可能找不到合理的解释1考察同一变量的区分度:如果同一变量不同类别在某个方向上靠得较近,则说明这些类别在该维度上区别不大。2考察不同变
6、量的类别联系:一般而言,落在从图形原点(0,0)处出发相同方位上大致相同区域内的不同变量的分类点彼此有联系。散点间距离越近,说明关联倾向越明显;散点离原点越远,也说明关联倾向越明显。第七页,讲稿共十九页哦典型相关分析典型相关分析canonical correlation analysis现实中:现实中:如鸡蛋、猪肉的价格(作为第一组变量)和相应产品如鸡蛋、猪肉的价格(作为第一组变量)和相应产品的销量(第二组变量)有相关关系。如投资性变量(劳力投入、的销量(第二组变量)有相关关系。如投资性变量(劳力投入、财力投入、固定资产投资等)与国民收入(工农业收入、建筑财力投入、固定资产投资等)与国民收入(
7、工农业收入、建筑业收入、等)具有相关关系。业收入、等)具有相关关系。如何研究两组变量之间的相关关系?如何研究两组变量之间的相关关系?设两组变量用设两组变量用X X1 1,X,X2 2.,X.,XP P以及以及Y Y1 1,Y,Y2 2Y YP P表示。表示。(1 1)分别研究)分别研究X Xi i和和Y Yj j之间的相关关系,列出相关系数表。之间的相关关系,列出相关系数表。其缺陷:其缺陷:当两组变量较多时,处理较烦琐,不易抓住问题的实质。(当两组变量较多时,处理较烦琐,不易抓住问题的实质。(2 2)采)采用主成分分析的方法,每组变量分别提取主成分,再通过主成分用主成分分析的方法,每组变量分别
8、提取主成分,再通过主成分之间的关系反映两组变量之间的关系。之间的关系反映两组变量之间的关系。第八页,讲稿共十九页哦例:鸡蛋、猪肉的价格用例:鸡蛋、猪肉的价格用X X1 1和和X X2 2表示;鸡蛋、猪肉的销量用表示;鸡蛋、猪肉的销量用Y Y1 1和和Y Y2 2表示。表示。构造第一组和第二组变量的线性组合:构造第一组和第二组变量的线性组合:F F1 1=a=a1111X X1 1+a+a1212X X2 2 Z Z1 1=a=a1111Y Y1 1+a+a1212Y Y2 2 满足满足F F1 1和和Z Z1 1的相关性最大化。的相关性最大化。典型相关分析典型相关分析第九页,讲稿共十九页哦v、
9、什么是典型相关分析?、什么是典型相关分析?v典型相关分析是研究两组变量之间相关关系的多元统典型相关分析是研究两组变量之间相关关系的多元统计分析方法它计分析方法它借用主成分分析降维的思想借用主成分分析降维的思想,分别对,分别对两组变量提取主成分,且使两组变量提取的主成分两组变量提取主成分,且使两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的之间的相关程度达到最大,而从同一组内部提取的各主成分之间互不相关,用从两组之间分别提取的各主成分之间互不相关,用从两组之间分别提取的主成分的相关性来描述两组变量整体的线性相关关主成分的相关性来描述两组变量整体的线性相关关系系第十页,讲稿共十九页
10、哦典型相关关系研究两组变量之间整体的线性相关关系,它是将每一组变量作为一个整体来进行研究而不是分析每一组变量内部的各个变量所研究的两组变量可以是一组为自变量,而另一组变量为因变量;两组变量也可以是同等的地位,但典型相关关系要求两组变量都至少是间隔尺度MANOVA led hed net WITH arti com man/DISCRIM ALL ALPHA(1)/PRINT=SIG(EIGEN DIM).第十一页,讲稿共十九页哦信度分析信度分析用于探索研究事物间的相似性信度分析用于探索研究事物间的相似性用于评价问卷这种测量工具的稳定性或可靠性,具体来说用于评价问卷这种测量工具的稳定性或可靠性,
11、具体来说就是用问卷对同一事物进行重复测量时,所得结果的一致就是用问卷对同一事物进行重复测量时,所得结果的一致性程度。性程度。内在信度:调查表中的一组问题(或整个调查表)是否测量的是同一个概念,也就是这些问题之间的内在一致性如何。最常用的内在信度系数为克朗巴哈系数和折半信度。外在信度:在不同时间进行测量时调查表结果的一致性程度。最常用的外在信度指标是重测信度,即用同一问卷在不同时间对同一对象进行重复测量,然后计算一致程度。信度分类第十二页,讲稿共十九页哦信度的判断标准没有统一的标准,通常:没有统一的标准,通常:信度系数如果在0.9以上,则该测验或量表的信度甚佳;信度系数在0.8以上都是可接受的;
12、如果在0.7以上,则该量表应进行较大修订,但仍不失其价值;如果低于0.7,问卷的测量效果非常差!p注意注意:在大型量表中,往往一组问题用来集中测量某一方面的信息。此时信度分析应当按问题组来进行,即测量同一信息的一组问题间信度如何,而不是直接测量整个量表的信度。第十三页,讲稿共十九页哦重测信度p特别适用于事实性量表。相关分析得到的相关系数也就是重测信度系数,一般要求达到0.7以上。p缺点对同一样本进行重复测定不一定可行;对同一样本进行重复测定不一定可行;其被调查者的情况可能随时间发生变化;其被调查者的情况可能随时间发生变化;重复测定可能会受前一次测定的影响。重复测定可能会受前一次测定的影响。多数
13、学者认为重测间隔一般以多数学者认为重测间隔一般以2424周为宜。周为宜。第十四页,讲稿共十九页哦折半信度p在不可能进行重复调查的情况下,将题目分为两半,然后计算两部分各自的信度,以及之间的相关性,以此为标准来衡量整个量表的信度,相关性高则意味着信度好,而相应的信度指标就是折半信度。题目的分半方法有很多种,SPSS采取的是前后分半的方式,如果项目个数为奇数的,则前一半多一个。第十五页,讲稿共十九页哦评分者信度p考察不同评分人之间对实际得分的影响。所以在数据格式上我们分析的就是每一行,即每一位评分者对得分的影响,而不是每一列的影响。F test:适用于题目分值为连续性测量尺度。Friedman c
14、hi-square:适用于分值不呈正态或为有序分类时。Cochran chi-square:适用于题目分值为二分类无序分类时。第十六页,讲稿共十九页哦定性数据的分析定性数据的分析 对定性变量间关系的描述可用交叉列联表。但交叉列联表对定性变量间关系的描述可用交叉列联表。但交叉列联表存在以下缺陷:存在以下缺陷:(1 1)不能充分分析多变量交互效应,不能有效分析多变量之)不能充分分析多变量交互效应,不能有效分析多变量之间的关联。间的关联。(2 2)在进行两个变量之间的关联分析时缺乏对其他变量影响的有)在进行两个变量之间的关联分析时缺乏对其他变量影响的有效控制。效控制。(3 3)不能准确定量描述一个变
15、量对另一个变量的作用幅度。)不能准确定量描述一个变量对另一个变量的作用幅度。如何避免以上缺陷,充分揭示出定性变量之间的复杂关系?如何避免以上缺陷,充分揭示出定性变量之间的复杂关系?第十七页,讲稿共十九页哦 (1 1)对数线性模型)对数线性模型将概率取对数后分解处理:将概率取对数后分解处理:第十八页,讲稿共十九页哦 其优点是可以把方差分析和线性模型方法相结合,估计模其优点是可以把方差分析和线性模型方法相结合,估计模型中各个参数,而这些参数值使各个变量的效应和变量间的交型中各个参数,而这些参数值使各个变量的效应和变量间的交互作用效应得以数量化。互作用效应得以数量化。(2 2)Logistic Logistic 模型模型 是将概率比取对数后,再进行参数化而获得。设因变量是将概率比取对数后,再进行参数化而获得。设因变量y y为二值为二值定性变量,用定性变量,用0 0和和1 1表示两个不同状态,表示两个不同状态,y=1y=1的概率的概率p pP P(y=1)y=1)是是研究对象。若有多个因素影响研究对象。若有多个因素影响y y的取值,这些因素就是自变量,记为:的取值,这些因素就是自变量,记为:x1,x2x1,x2xk(xk(既可以是定性变量也可以是定量变量)。既可以是定性变量也可以是定量变量)。Logistic Logistic 线性回归模型:线性回归模型:第十九页,讲稿共十九页哦
限制150内