第三讲相关测量法..ppt
)(2)(yxyxyxMMnMMmmyyyyMnMm(对称形式)(非对称形式)其中:My是Y变量的众数次数。 Mx是X变量的众数次数。 mx是Y变量的每个值(类别)之下X变量的众值次数。 my是X变量的每个值(类别)之下X变量的众值次数。 n 是全部样本数目。 yxyx 性别X总数男女快乐家庭103040理想工作401050增广见闻10010总数6040100资料表明性别与志愿是非对称关系,性别为自变量,志愿为因变量,二者都是定类变量,故要应用系数来计算相关情况。 根据的系数公式和表1的次数资料,可知M=50, m=40+30=70,n=100, 该统计量表明,以X解释或预测Y,可以消减40%的误差。 y40. 0501005070y12121)()(EEEytauFffFEnFFnExxyy其中:E1为不知道X而预测Y时的全部误差,E2为知道X预测Y时的误差。n为全部个案数目, f为某条件次数, Fy为Y变量的某个边缘次数, Fx为X变量的某个边缘次数。 y x4540)040(0)1040(10)3040(3060)1060(10)4060(40)1060(1058100)10100(10100)50100(50100)40100(4021EE根据表1的研究资料。全部样本数目(n)是100。性别是自变量(X),边缘次数(Fx)分别是60和40;志愿是因变量(Y),边缘次数(Fy)分别是40、50和10。表内有六个条件次数,每者都代表同属于某项Y值与某项X值的样本数目(f)。 x y 这个数值不但能表示性别与志愿的相关程度,而且可以解释为以性别来预测或估计志愿,能够消减22.4%的误差。 由于tau-y测量法是考虑全部次数,故其敏感度高于Lambda测量法。tauy = (58-45)/58=22.4%学生成绩等级数学英文A42B33C21D14G=(Ns-Nd)/(Ns+Nd)D=(Ns-Nd)/(Ns-Nd+Ty)工厂工人积极性与产量积极性等级产量等级A55B33C41D1.53E1.53n21(1)22()(1)sdsdsdxsdysdNNtauan nNNtaubNNTNNTm NNtaucnm其中,Ns是同序对,Nd是异序对,n是全部个案数目,m是交互分类表的行数(r)与列数(c)中的较小者。2261(1)sDrn n 26(87.5)10.4710(101)sr 由于实际值是Y,则预测误差便是:e = Y- Y1。将全部样本个案的各个e相加起来就是误差总数,但这样做的结果会引起正负值相抵消的问题。为了克服“正负抵消”问题,我们将e的平方值相加起来,再使之最小,这就是所谓的“最小二乘法准则”。222)()()()()()(XXnYXXYnXXYYXXb通过求极值得到b解:222222)()()()()()(YYnXXnYXXYnYYXXYYXXr=2、积距相关测量法 尽管通过b值的作用,使我们能够以X的变化来预测Y的变化。但由于b值没有上限,难以判断变量之间的相关强弱。因此需要应用皮尔逊(pearson)的积距相关系数(r),公式如下:r系数与b系数的区别,是r系数假定X与Y的关系是对称的,而且r的统计值是由-1至+1,同时r的平方值具有消减误差的意义。这个r值,称为决定系数。例:语文水平与职业的关系2222222222222()()()7 (84.29)8(61.75)5(79.60)20(74.1)0.7011283420(74.1)0.700.84iiiYYYYEYYn YnYYYE上表是研究20名学生的家庭职业背景(分为干部工人和农民三类对其语文能力(由0至100分)的影响. 家庭职业背景是自变量,属于定类测量层次.而语文水平是因变量,属于定距测量层次,故可用Eta统计量.2121111 .)(1)(1)(yxyxxyxyrrrrrr21 . 221 . 21 . 21 . 21 .12.)(1)(1)(yxyxxyxyrrrrrr212. 3212. 312. 312. 312.123.)(1)(1)(yxyxxyxyrrrrrr