书签分享收藏举报版权申诉 / 36

立即下载

当前位置：首页 > 教育专区 > 教案示例 > 第13章-SPSS列联表及对数线性模型ppt课件.ppt

第13章-SPSS列联表及对数线性模型ppt课件.ppt

上传人：飞****2

文档编号：32827230

上传时间：2022-08-09

格式：PPT

页数：36

大小：1.39MB

( 4.5 )

《第13章-SPSS列联表及对数线性模型ppt课件.ppt》由会员分享，可在线阅读，更多相关《第13章-SPSS列联表及对数线性模型ppt课件.ppt（36页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、第八章第八章列联表、列联表、c c2检验和对数线性模型检验和对数线性模型三维列联表（关于某项政策调查所得结果:table7.txt）观点：赞成观点：不赞成低收入中等收入高收入低收入中等收入高收入男201055810女25157279列联表前面就是一个所谓的三维前面就是一个所谓的三维列联表列联表(contingency table).这些变量中这些变量中每个都有两个或更多的可能取值每个都有两个或更多的可能取值。这些取值也称为。这些取值也称为水水平平；比如收入有三个水平，观点有两个水平，性别有两个水平等。；比如收入有三个水平，观点有两个水平，性别有两个水平等。该表为该表为322列联表列联表在下

2、面在下面SPSS数据中，表就和上面的不同，收入的数据中，表就和上面的不同，收入的“低低”、“中中”、“高高”用代码用代码1、2、3代表；性别的代表；性别的“女女”、“男男”用用代码代码0、1代表；观点代表；观点“赞成赞成”和和“不赞成不赞成”用用1、0代表。有些计代表。有些计算机数据对于这些代码的形式不限（算机数据对于这些代码的形式不限（可以是数字，也可以是字符可以是数字，也可以是字符串串）。）。列联表列联表的中间各个变量不同水平的交汇处，就是这种水列联表的中间各个变量不同水平的交汇处，就是这种水平组合出现的频数或平组合出现的频数或计数计数（count）。）。二维的列联表又称为二维的列联表又称

3、为交叉表交叉表（cross table）。）。列联表可以有很多维。维数多的叫做列联表可以有很多维。维数多的叫做高维列联表。高维列联表。注意前面这个列联表的变量都是定性变量注意前面这个列联表的变量都是定性变量;但列联表也会但列联表也会带有带有定量变量作为协变量。定量变量作为协变量。二维列联表的检验研究列联表的一个主要目的是看这些变量是否相研究列联表的一个主要目的是看这些变量是否相关。比如关。比如前面例子中的前面例子中的收入和观点收入和观点是否相关是否相关。这需要形式上的检验这需要形式上的检验二维列联表的检验下面表是把该例的三维表简化成下面表是把该例的三维表简化成只有收入和观点只有收入和观点的

4、二维表的二维表( (这是这是SPSS自动转化的自动转化的: :Analyze-Descriptive Statistics-Crosstabs-.).OPINION * INCOME CrosstabulationCount71519414525128252403112301OPINIONTotal123INCOMETotal二维列联表的检验二维列联表的检验对于上面那样的二维表。我们检验的零假设和备选对于上面那样的二维表。我们检验的零假设和备选假设为假设为H H0 0:观点和收入这两个变量不相关观点和收入这两个变量不相关;H H1 1:这两个变量相关。这两个变量相关。这里的检验统计量在零假设下

5、有（大样本时）这里的检验统计量在零假设下有（大样本时）近似近似的的c c2 2分布。分布。当该统计量很大时或当该统计量很大时或p p- -值很小时，就可以拒绝零假值很小时，就可以拒绝零假设，认为两个变量相关。设，认为两个变量相关。二维列联表的检验二维列联表的检验实际上有不止一个实际上有不止一个c c2 2检验统计量。包括检验统计量。包括Pearson c c2 2统计量统计量和和似然比似然比（likelihood ratio）c c2 2统计量统计量；它们都有渐近的；它们都有渐近的c c2 2分布。分布。对于我们的数据，根据计算可以得到（对于对于我们的数据，根据计算可以得到（对于这两个统计量均

6、有）这两个统计量均有）p p- -值小于值小于0.0010.001。因此。因此可以说，收入高低的确影响观点。可以说，收入高低的确影响观点。 21niiiiOEQE12lnniiiiOTOEPearson c c2 2统计量统计量似然比似然比c c2 2统计量统计量二维列联表的检验二维列联表的检验刚才说，这些刚才说，这些c c2 2统计量是近似的，那么统计量是近似的，那么有没有精有没有精确的统计量呢？确的统计量呢？当然有。这个检验称为当然有。这个检验称为FisherFisher精确检验精确检验；它不是；它不是c c2 2分布，而是分布，而是超几何分布超几何分布。对本问题对本问题, ,计算计算Fi

7、sherFisher统计量得到的统计量得到的p p- -值也小于值也小于0.0010.001。FisherFisher精确检验的又一例子精确检验的又一例子二维列联表的检验二维列联表的检验聪明的同学必然会问，既然有精确检验聪明的同学必然会问，既然有精确检验为什么为什么还要用近似的还要用近似的c c2 2检验呢？检验呢？这是因为当数目很大时，超几何分布计算相当缓慢（比近似这是因为当数目很大时，超几何分布计算相当缓慢（比近似计算会差很多倍的时间）；而且在计算机速度不快时，根本计算会差很多倍的时间）；而且在计算机速度不快时，根本无法计算。因此人们多用大样本近似的无法计算。因此人们多用大样本近似的c c

8、2 2统计量。而列联表统计量。而列联表的有关检验也和的有关检验也和c c2 2检验联系起来了。检验联系起来了。具体运算：先具体运算：先加权加权，加权之后，按照次序选，加权之后，按照次序选AnalyzeDescriptive StatisticsCrosstabs。在打开的对话框中，把在打开的对话框中，把opinion和和income分别选入分别选入Row（行）（行）和和Column（列）；至于哪个放入行或哪个放入列是没有关系（列）；至于哪个放入行或哪个放入列是没有关系的。的。如果要如果要Fisher精确检验则可以点精确检验则可以点Exact，另外在，另外在Statistics中选择中选择Chi

9、-square，以得到，以得到c c2检验结果。检验结果。最后点击最后点击OK之后，就得到之后，就得到有关有关Pearson c c2统计量、似然比统计量、似然比c c2统计量以及统计量以及Fisher统计量的统计量的输出了输出了( (这里的这里的Sig就是就是p-值值) )。 Chi-Square Tests20.456a2.000.00021.1902.000.00020.713.00020.290b1.000.000.000.000123Pearson Chi-SquareLikelihood RatioFishers Exact TestLinear-by-LinearAssociat

10、ionN of Valid CasesValuedfAsymp. Sig.(2-sided)Exact Sig.(2-sided)Exact Sig.(1-sided)PointProbability0 cells (.0%) have expected count less than 5. The minimum expected count is 10.33.a. The standardized statistic is -4.504.b. 下面就是下面就是SPSSSPSS计算机对于这个问题的输出计算机对于这个问题的输出高维列联表和高维列联表和( (多项分布多项分布) )对数线性模型对数

11、线性模型前面例子前面例子原始数据是个三维列联表，其检验和对两维原始数据是个三维列联表，其检验和对两维类似。类似。但高维列联表在计算机软件的选项上有所不同，而且但高维列联表在计算机软件的选项上有所不同，而且可以构造一个所谓可以构造一个所谓( (多项分布多项分布) )对数线性模型对数线性模型(loglinear model)来进行分析。来进行分析。利用对数线性模型的好处是不仅可以直接进行预测，利用对数线性模型的好处是不仅可以直接进行预测，而且可以增加而且可以增加定量变量作为模型自变量的一部分。定量变量作为模型自变量的一部分。对数线性模型对数线性模型现在简单直观地通过二维表介绍一下对数线性模型，假

12、现在简单直观地通过二维表介绍一下对数线性模型，假定不同的行代表第一个变量的不同水平，而不同的列代定不同的行代表第一个变量的不同水平，而不同的列代表第二个变量的不同水平。用表第二个变量的不同水平。用mij代表二维列联表第代表二维列联表第i行，行，第第j列的频数。人们常假定这个频数可以用下面的公式来列的频数。人们常假定这个频数可以用下面的公式来确定：确定：ln()ijijijm这就是所谓的对数线性模型。这里这就是所谓的对数线性模型。这里 i i为行变量的第为行变量的第i个水平对个水平对ln(mln(mijij) )的影响，而的影响，而 j j为列变量的第为列变量的第j个水平对个水平对ln(mln(

13、mijij) )的影响，这两的影响，这两个影响称个影响称为主效应（为主效应（main effect）； ijij代表随机误差。代表随机误差。 ( (多项分布多项分布) )对数线性模型对数线性模型该模型看上去和回归模型很象，但由于分布假设不同，不能简单该模型看上去和回归模型很象，但由于分布假设不同，不能简单地用线性回归的方法来套用地用线性回归的方法来套用( (和和LogisticLogistic回归类似回归类似) )；计算过程也；计算过程也很不一样很不一样( (把这个留给计算机去操心把这个留给计算机去操心) )。只要利用数据来拟合这个。只要利用数据来拟合这个模型就可以得到对于参数模型就可以得到对

14、于参数m m的估计的估计( (没有意义没有意义) )，以及，以及 i i和和 j j的的“估估计计”。有了估计的参数，就可以预测出任何有了估计的参数，就可以预测出任何i i，j j水平组合的频数水平组合的频数m mijij了了( (通过对数通过对数) )( (多项分布多项分布) )对数线性模型对数线性模型注意，这里的估计之所以打引号是因为一个变量注意，这里的估计之所以打引号是因为一个变量的各个水平的影响是相对的的各个水平的影响是相对的, ,只有事先固定一个参数值只有事先固定一个参数值( (比如比如 1 1=0=0),),或者设定或者设定类似于类似于SSi i=0=0这样的约束，才可能估计出各个

15、的这样的约束，才可能估计出各个的值。值。没有约束，这些参数是估计不出来的。没有约束，这些参数是估计不出来的。（多项分布）对数线性模型（多项分布）对数线性模型二维列联表的更完全的对数线性模型为二维列联表的更完全的对数线性模型为ln()()ijijijijm 这里的这里的( (ijij代表第一个变量的第代表第一个变量的第i i个水平和第二个变个水平和第二个变量的第量的第j j个水平对个水平对ln(mln(mijij) )的共同影响，称为的共同影响，称为交叉效应交叉效应。即当单独作用时，每变量的某水平对即当单独作用时，每变量的某水平对ln(mln(mijij) )的影响只的影响只有有 i i( (

16、或或 j j) )大，但如这两个变量共同影响就不仅是大，但如这两个变量共同影响就不仅是 i i+ + j j，而且还多出一项。，而且还多出一项。这里的交叉项的诸参数的大小也是相对的，也需要这里的交叉项的诸参数的大小也是相对的，也需要约束约束条件条件来得到其来得到其“估计估计” ” 。用用table7.txttable7.txt数据拟合对数线性模型数据拟合对数线性模型假定（多项分布）对数线性模型为假定（多项分布）对数线性模型为这里这里 i为收入（为收入（i1,2,31,2,3代表收入的低、中、高三个水平），代表收入的低、中、高三个水平）， j为为观点（观点（j1,21,2代表不赞成和赞成两个

17、水平），代表不赞成和赞成两个水平），g gk为性别（为性别（k1,21,2代代表女性和男性两个水平）表女性和男性两个水平）, , mijk代表三维列联表对于三个变量的第代表三维列联表对于三个变量的第ijk水平组合的出现次数，水平组合的出现次数， ijk为残差为残差而从相应的参数估计输出结果，可以得到对而从相应的参数估计输出结果，可以得到对 i i的三个值的估计为的三个值的估计为0.5173, 0.2549,0.0000,0.5173, 0.2549,0.0000,对对 j j的两个值的估计为的两个值的估计为- -0.6931,0.0000,0.6931,0.0000,对对g gk k的两个值

18、的估计为的两个值的估计为 0.1139,0.00000.1139,0.0000。( (多项多项对数线性模型无常数项对数线性模型无常数项) )ln()ijkijkijkmg对数线性模型对数线性模型高维表的检验统计量和二维表一样也包含了高维表的检验统计量和二维表一样也包含了Pearson c c2统计量和似然统计量和似然比比c c2统计量统计量, , 检验对数线性模型拟合检验对数线性模型拟合的好坏程度的。的好坏程度的。就我们这里的三维列联表问题，如果只考虑各个变量就我们这里的三维列联表问题，如果只考虑各个变量单独的影响，而不考虑变量组合的综合影响，计算机单独的影响，而不考虑变量组合的综合影响，计

19、算机输出的输出的Pearson c c2统计量和似然比统计量和似然比c c2统计量得到的统计量得到的p-值分别为值分别为0.0029和和0.0011。多项分布对数线性模型的SPSS实现数据数据table7.sav 假定已经加权假定已经加权 (加权一次并存盘了既可加权一次并存盘了既可) 这时的选项为这时的选项为AnalyzeLoglinearGeneral,首先选择格子中频数的分布首先选择格子中频数的分布,这里是多项分布这里是多项分布 (其默认值是其默认值是Poisson对数线性模型对数线性模型).然后把三个变量然后把三个变量(sex,opinion,income)选入选入Factors(因子

20、因子);再选再选Model(模型模型)，如果选，如果选Saturated(饱和模型饱和模型),那就是所有交叉那就是所有交叉效应都要放入模型效应都要放入模型;但如果不想这样但如果不想这样,可以选可以选Custom(自定义自定义),在在Building Terms(构造模型的项构造模型的项)选选Main effect(主效应主效应),再把三个再把三个变量一个一个地选进来变量一个一个地选进来(如果两个或三个一同选入，等于选入交叉如果两个或三个一同选入，等于选入交叉效应效应).如果想要知道模型参数，在如果想要知道模型参数，在Options中选择中选择Estimates。最后最后Continue-OK即

21、可得出结果即可得出结果.在计算机输出的结果中可以找到我们感兴趣的结果。在计算机输出的结果中可以找到我们感兴趣的结果。如果如果SPSS的的Viewer输出不完全，可以选中不完全的输出，利用输出不完全，可以选中不完全的输出，利用Edit-Copy Objects来复制到例如记事本那样的文件中，就可以来复制到例如记事本那样的文件中，就可以看到完整输出了看到完整输出了注意，无论你对模型假定了多少种效应，并注意，无论你对模型假定了多少种效应，并不见得都有意义；有些可能是多余的。本来不见得都有意义；有些可能是多余的。本来没有交叉影响，但如果写入，也没有关系，没有交叉影响，但如果写入，也没有关系，在分析过程

22、中一般可以知道哪些影响是显著在分析过程中一般可以知道哪些影响是显著的，而那些是不显著的。然后可决定舍取变的，而那些是不显著的。然后可决定舍取变量。量。另一种对数线性模型另一种对数线性模型常用的对数线性模型主要是两种常用的对数线性模型主要是两种, ,我们已经介绍我们已经介绍了了多项分布多项分布对数线性模型对数线性模型(格子里面的频数满足格子里面的频数满足多项分布多项分布) )。另一类为另一类为PoissonPoisson对数线性模型对数线性模型. .它假定每个格子它假定每个格子里面的频数满足一里面的频数满足一个个PoissonPoisson分布分布. .在统计软件的选项中会有关于分布的选项的。

23、在统计软件的选项中会有关于分布的选项的。 Poison Poison对数线性模型对数线性模型有的时候，类似的高维表并不一定满足多项分布对数线性模型。下面例子是有的时候，类似的高维表并不一定满足多项分布对数线性模型。下面例子是关于哮喘病人个数和空气污染程度，年龄和性别的数据（关于哮喘病人个数和空气污染程度，年龄和性别的数据（asthma.txt）数据为某地在一段时间记录下来的数据为某地在一段时间记录下来的60组在不同空气污染状态的不同年龄及组在不同空气污染状态的不同年龄及不同性别的人的发生哮喘的人数。不同性别的人的发生哮喘的人数。 Poison Poison对数线性模型对数线性模型其中性别为

24、定性变量其中性别为定性变量S（sex, 1代表女性，代表女性，2代表男性），代表男性），空气污染程度空气污染程度P也是定性变量（也是定性变量（polut, 1、2、3分别代表分别代表轻度、中度和严重污染），轻度、中度和严重污染），年龄年龄A (age)为定量变量，为那一组人的平均年龄；为定量变量，为那一组人的平均年龄；数目数目C (count)为相应组的哮喘人数。为相应组的哮喘人数。该表格和前面的列联表的不同点在于每一格的计数并不该表格和前面的列联表的不同点在于每一格的计数并不简单是前面三个变量的组合的数目（某个年龄段，某种简单是前面三个变量的组合的数目（某个年龄段，某种性别及某种污染下的人数

25、），而是代表了某个年龄段，性别及某种污染下的人数），而是代表了某个年龄段，某种性别及某种污染下发生哮喘的人数。某种性别及某种污染下发生哮喘的人数。 Poisson对数线性模型假定哮喘发生服从假定哮喘发生服从PoissonPoisson分布；但是由于条件不同，分布；但是由于条件不同，PoissonPoisson分布的参数分布的参数l l也应该随着条件的变化而改变。这里的也应该随着条件的变化而改变。这里的条件就是给出的性别、空气污染程度与年龄。当然，如何影条件就是给出的性别、空气污染程度与年龄。当然，如何影响以及这些条件影响是否显著则是我们所关心的。这个模型响以及这些条件影响是否显著则是我们所关心

26、的。这个模型可以写成可以写成这里这里m m为常数项，为常数项， i i为性别（为性别（i=1,2i=1,2分别代表女性和男性两个水分别代表女性和男性两个水平），平）， j j为空气污染程度（为空气污染程度（j=1,2,3j=1,2,3代表低、中高三个污染水代表低、中高三个污染水平），平），x x为连续变量年龄，而为连续变量年龄，而g g为年龄前面的系数，为年龄前面的系数， ijij为残差项。为残差项。 ln( )ijijxlmgPoissonPoisson对数线性模型对数线性模型从对于数据从对于数据(asthma.txt(asthma.txt) )的的PoissonPoisson对数线性模型

27、对数线性模型的相应的相应SPSSSPSS输出，可以得到对输出，可以得到对m m的估计为的估计为4.98204.9820，对对 i i的两个值的的两个值的“估计估计”为为-0.0608-0.0608、 0.00000.0000，对对 j j的三个值的的三个值的“估计估计”为为-0.1484-0.1484，0.12230.1223、0.00000.0000，对，对g g的估计为的估计为 0.01260.0126。注意，这里的对主效应注意，这里的对主效应 I I和和 j j的估计只有相对意的估计只有相对意义；它们在一个参数为义；它们在一个参数为0 0的约束条件下得到的。的约束条件下得到的。Poiss

28、onPoisson对数线性模型对数线性模型看来，年龄和性别对哮喘影响不很显著。轻度污染显看来，年龄和性别对哮喘影响不很显著。轻度污染显然比中度污染和严重污染哮喘要好。但是似乎严重污然比中度污染和严重污染哮喘要好。但是似乎严重污染时哮喘稍微比中度污染少些染时哮喘稍微比中度污染少些( (不显著不显著) )。通过更进一步的分析通过更进一步的分析(这里略这里略)，可以发现，中度和严，可以发现，中度和严重空气污染（无论单独还是一起）和轻度空气污染比重空气污染（无论单独还是一起）和轻度空气污染比较都显著增加哮喘人数，而中度及严重污染时的哮喘较都显著增加哮喘人数，而中度及严重污染时的哮喘人数并没有显著区别。

29、人数并没有显著区别。Poisson对数线性模型的对数线性模型的SPSS实现实现数据数据asthma.sav 假定已经加权假定已经加权这时的选项为这时的选项为AnalyzeLoglinearGeneral,首先选择格子中频数的分布首先选择格子中频数的分布,这里是这里是Poisson分布。分布。然后把两个变量（然后把两个变量（sex，polut）选入）选入Factors（因子），把（因子），把age选入选入Cell Covariate(s)。再选再选Model（模型），这里以选（模型），这里以选Custom（自定义），在（自定义），在Building Terms（构造模型的项）选（构造模型的项）

30、选Main effect（主效应），再把三个变量一个一个地选（主效应），再把三个变量一个一个地选进来。进来。如果想要知道模型参数，在如果想要知道模型参数，在Options中选择中选择Estimates。最后。最后Continue-OK即可得出结果。即可得出结果。在结果中可以找到有关在结果中可以找到有关Pearson c c2统计量和似然比统计量和似然比c c2统计量的检验结果及统计量的检验结果及参数的估计（如果参数的估计（如果SPSS的的Viewer输出不完全，可以选中不完全的输出，输出不完全，可以选中不完全的输出，利用利用Edit-Copy Objects来复制到例如记事本那样的文件中，就可

31、以看到完来复制到例如记事本那样的文件中，就可以看到完整输出了）。整输出了）。思考：列联表与Poisson对数线性模型，以及后面要介绍的试验设计的数据表有什么区别？Fisher精确检验一例精确检验一例Chi-Square TestsChi-Square Tests10.288b1.001.002.0019.1071.00310.4961.001.002.001.002.001113Pearson Chi-SquareContinuity CorrectionaLikelihood RatioFishers Exact TestN of Valid CasesValuedfAsymp. Sig.(

32、2-sided)Exact Sig.(2-sided)Exact Sig.(1-sided)Computed only for a 2x2 tablea. 0 cells (.0%) have expected count less than 5. The minimum expected count is23.45.b. SPSS: Weight-Describ-crosstab-exact返回返回table7.txt 其中有变量性别其中有变量性别( (sex) )、观点、观点( (opinion) )和收入和收入( (income) )；每一列相应于其代表的变量的每一列相应于其代表的变量的

33、水平水平; ;每一行为一种水平的组合每一行为一种水平的组合( (共有共有23212种组合种组合( (12行行),),而每种组合的数目而每种组合的数目( (也就是列联表中的频数也就是列联表中的频数) )在在number那一列上面，这就是每种组合的权重那一列上面，这就是每种组合的权重( (weight),),需要把这个数目考虑进去需要把这个数目考虑进去, ,称为加权称为加权( (weight).).如果不加权，最后结果按照所有组合只如果不加权，最后结果按照所有组合只出现一次来算出现一次来算( (也就是说，按照列联表每一格的频也就是说，按照列联表每一格的频数为数为1).).由于在后面的选项中没有加权的机会由于在后面的选项中没有加权的机会, ,因因此在一开始就要加权此在一开始就要加权. .方法是点击图标中的小天平方法是点击图标中的小天平(“(“权权”就是天平的意思就是天平的意思),),出现对话框之后点击出现对话框之后点击Weught cases，然后把，然后把“number”选入即可。选入即可。返返回回

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 13 SPSS 列联表对数线性模型 ppt 课件

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：第13章-SPSS列联表及对数线性模型ppt课件.ppt
链接地址：https://www.taowenge.com/p-32827230.html