《分类数据分析.ppt》由会员分享,可在线阅读,更多相关《分类数据分析.ppt(42页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Analysis of nominal data分类数据分析分类数据分析简介n分类数据也称名义数据,是社会科学研究的组成部分,其数据信息仅代表数据类别。例如种族,1=白种人,2=黄种人,3=黑人。n根据每个类别的数量,可以分析它们之间的关系。n分类数据的分析要求研究者应首先决定如何分类。分类数据分析的应用范围n政治学领域:研究政治立场是否影响政治派别。n社会学和心理学领域:分析不同类别的人不同的心理特征。n公共政策分析领域:研究不同政策在不同地区产生的效果。n文化传播领域:研究人们对媒体的看法。n分类数据分析是社会科学中最重要的课题之一。一方面因为它的用途广泛,另一方面因为它解决的是基本问题
2、一些简单概念的解释n分类:最理想的分类是这些类别相互区别并且没有遗漏。统计过程中都假设分类是有意义的。n自变量和因变量:区别在于是否引起另外一个变量的变化。n取样:从总体抽取的简单随机样本。n符号:I、J表示表格的行数和列数,X、Y、Z表示变量。表1:党派和立场间的关系民主党独立党共和党革命的33%(193)30%(161)11%(46)400中立的41%(241)37%(199)33%(134)574保守的26%(153)34%(182)56%(229)564100%(587)100%(542)100%(409)1538X:党派Y:立场表2:受党派和地区影响的立场民主党独立党共和党革命的26
3、.8%(62)26.8%(37)10.0%(10)109中立的40.7%(94)33.3%(46)33.3%(33)173保守的32.5%(75)39.9%(55)56.6%(56)186100%(231)100%(138)100%(99)468Z:地区=西部X:党派Y:立场民主党独立党共和党革命的36.8%(131)30.7%(124)11.6%(36)291中立的41.3%(147)37.9%(153)32.6%(101)401保守的21.9%(78)31.4%(127)55.8%(173)378100%(356)100%(404)100%(310)1070Z:地区=非西部X:党派Y:立场
4、表3:标准IJ表格X:自变量Y:因变量12jJTotals1n11n12n1j n1Jn1+2n21n22 n2j n2Jn2+ini1ni2 nij niJni+InI1nI2nIj nIJnI+Totalsn+1n+2 n+j n+Jn相关程度的测量n相关程度的测量方法是用一个系数来表示变量间的相关程度。选择何种方法要考虑三个方面:n测量方法是否对称:是否可以确定自变量和因变量。n系数如何解释:取决于不同的测量方法制定的标准。n测量方法的敏感度:尽量使用敏感度较低的方法。表5:完全相关的三种类型X500000500500505050 Y TotalsX5000500050505015050
5、50 Y TotalsX050050Y5000000500Totals50505050a 严格完全相关b 隐含完全相关c 弱完全相关干扰因素和解决办法n边际分布不均匀(如表6):调整数据 将表格标准化 选择对边际总数不敏感的测量方法n行列不相等:选择可以达到最大值的测量方法。表6:不同边际分布,相同相关程度XTotals60%(60)20%(200)10%(10)270Y30%(30)60%(600)30%(30)66010%(10)20%(200)60%(60)270Totals100%(100)100%(1000)100%(100)1200XTotals60%(180)20%(120)10
6、%(30)330Y30%(90)60%(360)30%(90)54010%(30)20%(120)60%(180)330Totals100%(300)100%(600)100%(300)1200(a)(b)22表格的测量方法1、百分比法2、差额比率法3、Yules Q4、Yules Y5、6、相关系数百分比法n如果因变量在自变量的一个分类中的百分比发生了变化,那么这两个变量就是相关的;如果不发生变化,就是独立的。n百分比法的性质:对因变量的边际总数不敏感。需要较大的样本容量。百分比法X0.9(45)0.4(20)Y0.1(5)0.6(30)1.0(50)1.0(50)0.90.4=0.5差额比
7、率法X:党派民主党共和党革命的19346239保守的153229382346275621Y:立场差额比率法的性质ab10050251002520020050125250225150差额比率法的性质abXX751575015Y10100Y10010085115850115差额比率的性质abXX20002000Y0200Y200200200200400200差额比率的性质n差额比率的取值范围是从0到,等于1.0说明独立,小于1.0表示消极相关,大于1.0表示积极相关n差额比率对边际总数不敏感。n差额比率是对称的n差额比率在弱完全相关时就达到了最大值。差额比率的方差 当样本容量大于25时,我们可以计
8、算出差额比率的方差。我们可以计算置信区间Yules QYules Q是差额比率的一个函数,定义如下:它的方差可以由以下公式计算:Yules Q的性质n因为Q是差额比率的一个函数,因此基本具有和差额比率相同的性质。nQ的取值范围是从-1.0到1.0,0说明独立。nQ在弱完全相关就取到最大值。nQ是对称的。Yules Y Yules Y也是差额比率的一个简单函数,定义如下:它的方差可以由以下公式计算:基于 的测量方法定义:性质:取值范围是从0到1.0。0说明独立,只有严格完全相 关时才达到最大值。对边际总数敏感。它是对称的。相关系数相关系数 的性质取值范围是从-1.0到1.0。0说明独立,在严格
9、完全相关时取得最大值。平方表示因变量受自变量影响的百分比对边际总数敏感行列交换不改变结果的大小,只改变符号。IJ表格的测量方法IJ表格的测量方法大致可以分成三类:n基于差额比率的方法n基于 的方法n错误减少比例方法(PRE)IJ表格中的差额比率法 IJ表格包含着t=(I-1)(J-1)个22表格,对于每一个22表格都可以计算出 和 。差额比率的基本形式是:i=1,2,I-1;j=1,2,J-1是估计值公式,与22表格中有着相同的解释。基于 的测量方法几种 函数的模型 错误减少比例方法(PRE)n对于样本个体,我们可以在两种情况下预测:第一种情况,不知道样本在X中的类别;第二种情况,知道样本在X
10、中的类别。nPRE就是比较两种情况下预测错误的比例。PRE的性质n取值范围是从0到1.0。0说明独立,1.0说明完全相关。nPRE是不对称的,即需要区分自变量和因变量。n在样本高度不均匀时,会出现不独立但是结果为0的情况。Goodman and Kruskals LambdaXcdTotalsYa0.30.10.4b0.20.40.6Totals0.50.51.0Lambda方法是PRE方法的一种,原理是分别计算在两种情况下预测错误的比例,然后进行比较。第一种情况下的错误比例:第二种情况下的错误比例:Goodman and Kruskals Lambda根据PRE的原理,我们定义:Lambda
11、的方差其中 的含义是恰好在 这行上的每列最大值之和。根据方差我们可以计算出置信区间:Lambda的对称形式n最常见的方法就是将个体随机地对半分给X和Y。n第一种情况下,预测Y的正确率是 ,预测X的正确率是 ,错误率是n第二种情况下,预测Y的正确率是 ,预测X的正确率是 ,错误率是 Lambda的对称形式那么错误降低比例就是:经过整理后:Goodman和Kruskals TauTau是另外一种PRE方法,同样是在两种情况下进行预测。不同的是Tau中猜测的样本要保持原始数据的分布。公式:表1:党派和立场间的关系民主党独立党共和党革命的33%(193)30%(161)11%(46)400中立的41%
12、(241)37%(199)33%(134)574保守的26%(153)34%(182)56%(229)564100%(587)100%(542)100%(409)1538X:党派Y:立场Tau方法的算例n第一种情况:1538人中,一共有574+564=1138人不是革命派,比例是1138/1538=0.74。因此在400人中,大约有4000.74=295.97人是预测错误的。同理,我们可以算出大概有359.78人在预测中立派时预测错误,357.18人在预测保守派时预测错误。于是总共的错误数是:295.97+359.73+357.18=1012.93n第二种情况:对于民主党人士,民主党人士非革命
13、派有241+153=394人,394/587=0.67,因此应该有193*0.67=129.54人预测错误。同理计算出中立派和保守派的错误数量分别是142.05和113.12。于是对于民主党人士预测错误的数量是129.54+142.05+113.12=384.71n相同的方法计算独立党和共和党n最后得出第二种情况的总共的错误数量是:384.71+360.00+231.71=976.42 于是根据PRE的原理我们定义:各种测量方法的总结n尽管变量间相关程度的测量方法有很多种,但是仍然难以避免各种各样的干扰因素。n比如表1,表1样本的分布一方面取决于总体真实的分布,但是我们还要考虑到其它因素。n总的说来,对于变量分类越多,测量结果的值就越大。各种测量方法的总结两条结论:n因为每种方法都有它的优点和缺点,在我们测量变量间的相关程度时,应该用多种方法测量,综合结果得出结论。n单独用测量结果解释问题略显不足,应该结合专家的经验和其它相关知识综合评价。谢谢!
限制150内