第13章-SPSS列联表及对数线性模型ppt课件.ppt
《第13章-SPSS列联表及对数线性模型ppt课件.ppt》由会员分享,可在线阅读,更多相关《第13章-SPSS列联表及对数线性模型ppt课件.ppt(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第八章第八章 列联表、列联表、c c2检验和对数线性模型检验和对数线性模型 三维列联表(关于某项政策调查所得结果:table7.txt)观点:赞成观点:不赞成低收入中等收入高收入低收入中等收入高收入男201055810女25157279列联表前面就是一个所谓的三维前面就是一个所谓的三维列联表列联表(contingency table).这些变量中这些变量中每个都有两个或更多的可能取值每个都有两个或更多的可能取值。这些取值也称为。这些取值也称为水水平平;比如收入有三个水平,观点有两个水平,性别有两个水平等。;比如收入有三个水平,观点有两个水平,性别有两个水平等。该表为该表为322列联表列联表在下
2、面在下面SPSS数据中,表就和上面的不同,收入的数据中,表就和上面的不同,收入的“低低”、“中中”、“高高”用代码用代码1、2、3代表;性别的代表;性别的“女女”、“男男”用用代码代码0、1代表;观点代表;观点“赞成赞成”和和“不赞成不赞成”用用1、0代表。有些计代表。有些计算机数据对于这些代码的形式不限(算机数据对于这些代码的形式不限(可以是数字,也可以是字符可以是数字,也可以是字符串串)。)。列联表列联表的中间各个变量不同水平的交汇处,就是这种水列联表的中间各个变量不同水平的交汇处,就是这种水平组合出现的频数或平组合出现的频数或计数计数(count)。)。二维的列联表又称为二维的列联表又称
3、为交叉表交叉表(cross table)。)。列联表可以有很多维。维数多的叫做列联表可以有很多维。维数多的叫做高维列联表。高维列联表。注意前面这个列联表的变量都是定性变量注意前面这个列联表的变量都是定性变量;但列联表也会但列联表也会带有带有定量变量作为协变量。定量变量作为协变量。二维列联表的检验 研究列联表的一个主要目的是看这些变量是否相研究列联表的一个主要目的是看这些变量是否相关。比如关。比如前面例子中的前面例子中的收入和观点收入和观点是否相关是否相关。这需要形式上的检验这需要形式上的检验二维列联表的检验 下面表是把该例的三维表简化成下面表是把该例的三维表简化成只有收入和观点只有收入和观点的
4、二维表的二维表( (这是这是SPSS自动转化的自动转化的: :Analyze-Descriptive Statistics-Crosstabs-.).OPINION * INCOME CrosstabulationCount71519414525128252403112301OPINIONTotal123INCOMETotal二维列联表的检验二维列联表的检验对于上面那样的二维表。我们检验的零假设和备选对于上面那样的二维表。我们检验的零假设和备选假设为假设为H H0 0:观点和收入这两个变量不相关观点和收入这两个变量不相关;H H1 1:这两个变量相关。这两个变量相关。这里的检验统计量在零假设下
5、有(大样本时)这里的检验统计量在零假设下有(大样本时)近似近似的的c c2 2分布。分布。当该统计量很大时或当该统计量很大时或p p- -值很小时,就可以拒绝零假值很小时,就可以拒绝零假设,认为两个变量相关。设,认为两个变量相关。二维列联表的检验二维列联表的检验实际上有不止一个实际上有不止一个c c2 2检验统计量。包括检验统计量。包括Pearson c c2 2统计量统计量和和似然比似然比(likelihood ratio)c c2 2统计量统计量;它们都有渐近的;它们都有渐近的c c2 2分布。分布。对于我们的数据,根据计算可以得到(对于对于我们的数据,根据计算可以得到(对于这两个统计量均
6、有)这两个统计量均有)p p- -值小于值小于0.0010.001。因此。因此可以说,收入高低的确影响观点。可以说,收入高低的确影响观点。 21niiiiOEQE12lnniiiiOTOEPearson c c2 2统计量统计量似然比似然比c c2 2统计量统计量二维列联表的检验二维列联表的检验刚才说,这些刚才说,这些c c2 2统计量是近似的,那么统计量是近似的,那么有没有精有没有精确的统计量呢?确的统计量呢?当然有。这个检验称为当然有。这个检验称为FisherFisher精确检验精确检验;它不是;它不是c c2 2分布,而是分布,而是超几何分布超几何分布。对本问题对本问题, ,计算计算Fi
7、sherFisher统计量得到的统计量得到的p p- -值也小于值也小于0.0010.001。FisherFisher精确检验的又一例子精确检验的又一例子二维列联表的检验二维列联表的检验聪明的同学必然会问,既然有精确检验聪明的同学必然会问,既然有精确检验为什么为什么还要用近似的还要用近似的c c2 2检验呢?检验呢?这是因为当数目很大时,超几何分布计算相当缓慢(比近似这是因为当数目很大时,超几何分布计算相当缓慢(比近似计算会差很多倍的时间);而且在计算机速度不快时,根本计算会差很多倍的时间);而且在计算机速度不快时,根本无法计算。因此人们多用大样本近似的无法计算。因此人们多用大样本近似的c c
8、2 2统计量。而列联表统计量。而列联表的有关检验也和的有关检验也和c c2 2检验联系起来了。检验联系起来了。具体运算:先具体运算:先加权加权,加权之后,按照次序选,加权之后,按照次序选AnalyzeDescriptive StatisticsCrosstabs。在打开的对话框中,把在打开的对话框中,把opinion和和income分别选入分别选入Row(行)(行)和和Column(列);至于哪个放入行或哪个放入列是没有关系(列);至于哪个放入行或哪个放入列是没有关系的。的。如果要如果要Fisher精确检验则可以点精确检验则可以点Exact,另外在,另外在Statistics中选择中选择Chi
9、-square,以得到,以得到c c2检验结果。检验结果。最后点击最后点击OK之后,就得到之后,就得到有关有关Pearson c c2统计量、似然比统计量、似然比c c2统计量以及统计量以及Fisher统计量的统计量的输出了输出了( (这里的这里的Sig就是就是p-值值) )。 Chi-Square Tests20.456a2.000.00021.1902.000.00020.713.00020.290b1.000.000.000.000123Pearson Chi-SquareLikelihood RatioFishers Exact TestLinear-by-LinearAssociat
10、ionN of Valid CasesValuedfAsymp. Sig.(2-sided)Exact Sig.(2-sided)Exact Sig.(1-sided)PointProbability0 cells (.0%) have expected count less than 5. The minimum expected count is 10.33.a. The standardized statistic is -4.504.b. 下面就是下面就是SPSSSPSS计算机对于这个问题的输出计算机对于这个问题的输出高维列联表和高维列联表和( (多项分布多项分布) )对数线性模型对数
11、线性模型 前面例子前面例子原始数据是个三维列联表,其检验和对两维原始数据是个三维列联表,其检验和对两维类似。类似。但高维列联表在计算机软件的选项上有所不同,而且但高维列联表在计算机软件的选项上有所不同,而且可以构造一个所谓可以构造一个所谓( (多项分布多项分布) )对数线性模型对数线性模型(loglinear model)来进行分析。来进行分析。利用对数线性模型的好处是不仅可以直接进行预测,利用对数线性模型的好处是不仅可以直接进行预测,而且可以增加而且可以增加定量变量作为模型自变量的一部分。定量变量作为模型自变量的一部分。对数线性模型对数线性模型现在简单直观地通过二维表介绍一下对数线性模型,假
12、现在简单直观地通过二维表介绍一下对数线性模型,假定不同的行代表第一个变量的不同水平,而不同的列代定不同的行代表第一个变量的不同水平,而不同的列代表第二个变量的不同水平。用表第二个变量的不同水平。用mij代表二维列联表第代表二维列联表第i行,行,第第j列的频数。人们常假定这个频数可以用下面的公式来列的频数。人们常假定这个频数可以用下面的公式来确定:确定:ln()ijijijm这就是所谓的对数线性模型。这里这就是所谓的对数线性模型。这里 i i为行变量的第为行变量的第i个水平对个水平对ln(mln(mijij) )的影响,而的影响,而 j j为列变量的第为列变量的第j个水平对个水平对ln(mln(
13、mijij) )的影响,这两的影响,这两个影响称个影响称为主效应(为主效应(main effect); ijij代表随机误差。代表随机误差。 ( (多项分布多项分布) )对数线性模型对数线性模型该模型看上去和回归模型很象,但由于分布假设不同,不能简单该模型看上去和回归模型很象,但由于分布假设不同,不能简单地用线性回归的方法来套用地用线性回归的方法来套用( (和和LogisticLogistic回归类似回归类似) );计算过程也;计算过程也很不一样很不一样( (把这个留给计算机去操心把这个留给计算机去操心) )。只要利用数据来拟合这个。只要利用数据来拟合这个模型就可以得到对于参数模型就可以得到对
14、于参数m m的估计的估计( (没有意义没有意义) ),以及,以及 i i和和 j j的的“估估计计”。有了估计的参数,就可以预测出任何有了估计的参数,就可以预测出任何i i,j j水平组合的频数水平组合的频数m mijij了了( (通过对数通过对数) )( (多项分布多项分布) )对数线性模型对数线性模型注意,这里的估计之所以打引号是因为一个变量注意,这里的估计之所以打引号是因为一个变量的各个水平的影响是相对的的各个水平的影响是相对的, ,只有事先固定一个参数值只有事先固定一个参数值( (比如比如 1 1=0=0),),或者设定或者设定类似于类似于SSi i=0=0这样的约束,才可能估计出各个
15、的这样的约束,才可能估计出各个的值。值。没有约束,这些参数是估计不出来的。没有约束,这些参数是估计不出来的。 (多项分布)对数线性模型(多项分布)对数线性模型二维列联表的更完全的对数线性模型为二维列联表的更完全的对数线性模型为ln()()ijijijijm 这里的这里的( (ijij代表第一个变量的第代表第一个变量的第i i个水平和第二个变个水平和第二个变量的第量的第j j个水平对个水平对ln(mln(mijij) )的共同影响,称为的共同影响,称为交叉效应交叉效应。即当单独作用时,每变量的某水平对即当单独作用时,每变量的某水平对ln(mln(mijij) )的影响只的影响只有有 i i( (
16、或或 j j) )大,但如这两个变量共同影响就不仅是大,但如这两个变量共同影响就不仅是 i i+ + j j,而且还多出一项。,而且还多出一项。 这里的交叉项的诸参数的大小也是相对的,也需要这里的交叉项的诸参数的大小也是相对的,也需要约束约束条件条件来得到其来得到其“估计估计” ” 。用用table7.txttable7.txt数据拟合对数线性模型数据拟合对数线性模型假定(多项分布)对数线性模型为假定(多项分布)对数线性模型为 这里这里 i为收入(为收入(i1,2,31,2,3代表收入的低、中、高三个水平),代表收入的低、中、高三个水平), j为为观点(观点(j1,21,2代表不赞成和赞成两个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 13 SPSS 列联表 对数 线性 模型 ppt 课件
限制150内