第6章 二维列联表ppt课件(完整版).pptx
《第6章 二维列联表ppt课件(完整版).pptx》由会员分享,可在线阅读,更多相关《第6章 二维列联表ppt课件(完整版).pptx(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第6章 二维列联表ppt课件(完整版)第6章 二维列联表6.1 列联分析的基本问题在医学统计中,对变量较多而病例较少的数据进行处理时,可以先使用列联表寻找与被关注变量显著相关的变量。首先看一个例子,对患者按病程分组,521例患者按病程长短分组得到表6-1的结果。病程小于1年1至5年5至10年10至15年15年以上合计人数(人)9087134104106521百分比(%)17.2716.725.7219.9620.35100表6-1从表6-1可以看出,521例患者病程分布相对比较均匀,5至10年的人数略多。研究还希望了解这些患者病情的严重程度,可以按病情严重程度分组,得到表6-2。病情人数(人)
2、百分比(%)较轻529.98一般较重合计16330652131.2958.73100表6-2从表6-2可以看出,521例患者中病情严重的人数最多,占近60%。但是,病情严重是否就是病程长的?它们之间有什么关系?分布规律如何?将上面两张表的数据进行列联分析,可以得到表6-3的结果。从表6-3可以得到比表6-1和表6-2更多的信息。病程10年以上的患者总的来说,病情较重。210名病程10年以上患者中病情较重的有165人,占78.57%;在病情较重的306名患者中,病程在10年以上的有165人,占53.93%。 表6-3中有两个变量,分别以X和Y表示病程和病情。病程病情小于1年1至5年5至10年10
3、至15年 15年以上合计较轻1618135052一般3733532911163较重3736687095306合计9087134104106521列联表中的X和Y是否独立,是二维列联表独立性检验要解决的问题。如果两者独立就没有必要做过多的分析;如果不独立,那么两者相依程度有多大?X影响Y和Y影响X的程度是否相同?这是二维列联表相关性度量要解决的问题。如果两个变量没有因果关系,或研究中不考察是X影响Y,还是Y影响X,称为对称关系。 这种情况下哪个变量为X,哪个为Y均可,两者地位平等。 但若两个变量之间存在因果关系,并且要研究这种关系,则需将考察或预测的变量记作Y,称为因变量,常列入表的横行,如表6
4、-3中的病情;另一变量称为自变量,记作X,列入表的纵列,如表6-3中的病程。这种情况是考察病程对病情的影响,称为不对称关系。列联表可以清楚地反映在X变量条件下,Y的次数分布情况。因此,列联表又称作条件次数表。表的最下端是每列的总次数,称为行边缘次数,表的最右列是每行的总次数,称为列边缘次数。表中的次数,称为条件次数。表示在自变量每个条件下,因变量各个值的数目。例如,在表6-1中,病程小于1年的有90人,这是边缘次数,从表6-3可知,其中病情较轻的有16人,这是条件次数。由表6-3中可以看出,病程确实对病情有影响。不同病程的患者,其病情有所不同。病程长的患者,更多的病情较重,而病程较短的患者,相
5、对来说,则更多的倾向于病情较轻。表6-3是一个二维联列表,只有两个变量,变量病情有三个类别,是三行,变量病程有五个类别,是五列,构成二维的35列联表,最简单的列联表是2行和2列,称为22列联表,也称为四格表。 合计合计表6-4:从条件次数表虽然可以知道在X条件下,Y变量值的次数,但难于比较不同条件下的次数分布,因为作为基数的边缘次数不相同。如表6-3中,病程小于1年的患者有16人的病情较轻,而病程在1至5年的患者有18人,这是否表明,病程较长的患者病情倾向于较轻?观察边缘次数发现,病程1年和1至5年总人数不同,比较的基数不同,因而不宜作出结论。为了能在相同的基础上比较,使列联表的数据提供更多的
6、信息,可以将绝对次数转化成以百分数表示的相对次数,即将条件次数变为百分数。这样的表称为条件百分表,如表6-5。病程病情小于1年1至5年5至10年10至15年15年以上合计较轻30.77%34.62%25%9.61%0100%一般22.7%20.25%32.51%17.79%6.75%100%较重12.09%11.76%22.22%22.88%31.05%100%合计17.27%16.7%25.72%19.96%20.35%100%表6-5在很多时候,研究的是不对称关系,目的是了解自变量X对因变量Y的影响。因此,条件百分数多按自变量X的方向计算,如表6-3。研究病程对病情的影响,沿自变量X的方向
7、计算百分数,如表6-5。这一结果表明在不同病程水平下病情的变化情况。从表6-5可以看出,病程不同,病情的百分数分布也不同,这就是病程长短对病情的影响。有时由于某种原因可能使因变量在样本内的分布不能代表其在总体内的分布,例如为满足资料分析的需要,抽样时扩大了因变量的某个值的数目,使其样本内的分布不同于总体中的分布。这时,以自变量的方向计算百分数会歪曲数据的结果,需要按因变量的方向计算。条件百分表比条件次数表能够提供更多的信息,因此较为有用。但当rc很大时,百分数的个数会很多,不容易分析两个变量之间的关系。因此,在列联表的相关测量中有许多更实用的方法可供选择研究。6.2.1 独立性检验和齐性检验1
8、. 独立性检验(1)基本方法二维列联表的独立性检验是检验行变量(Y)与列变量(X)是否独立。表6-6为两个随机变量的联合分布表,其中每个格子是联合概率,横行合计是X的边缘分布,纵列合计是Y的边缘分布。建立假设组该假设组用概率的语言描述为 合计合计表6-6(2)应用【例6.1】检验表6-3数据行变量与列变量之间的独立性。2. 齐性检验(1)基本方法二维列联表的齐性检验要检验的目标是:给定列,条件行分布是否相同;或者给定行,条件列分布是否相同。如果满足齐性,则应该有对于给定列,条件行分布都相同,即表6-7的每行分别相等。 合计11表6-7建立二维列联表的假设组:在原假设成立的条件下,对于表6-7的
9、第i行都相等,记第i行的值为这说明,二维列联表的齐性检验本质上是独立性检验。因此采用的检验统计量和计算p值的方法都用独立性检验相同。(2)应用【例6.2】对表6-3数据进行齐性检验。对表6-3数据进行齐性检验,即检验在不同的病程条件下,病情的条件分布是否相同。建立假设组:3. 独立性检验和齐性检验独立性检验和齐性检验的检验统计量完全相同,但两者的统计意义不同。独立性检验要检验行变量与列变量是否独立,两个变量地位平等,没有考虑因果关系。齐性检验要检验的是条件分布的齐一性,待检验的两个变量地位是不平等的,包含着因果关系,一般作为条件的变量是自变量,例如病程;另一个变量是因变量,例如病情。在应用中,
10、应根据实际问题选择独立性检验还是选择齐性检验。YX 2. 皮尔逊(Pearson)列联相关系数当列联表的行和列独立时,C系数的值为0;当列联表的行和列不独立时,C系数不会随着r或c的增大而增大,它的值永远小于1。对列联相关C系数可以进行显著性检验。但检验不是利用C系数的抽样分布,而是利用检验统计量Q。因为在计算C系数值的过程中先计算了Q的值,Q值可以作为C系数显著性的一个简单而合适的指标。即只要检验了Q的显著性,就等于检验了由Q计算的C的显著性。检验方法就是前面介绍的独立性检验,这里不再赘述。列联相关C系数的局限性一般而言,一个令人满意的相关系数至少应该满足两个特点:变量完全相关时,系数为1;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第6章 二维列联表ppt课件完整版 二维 列联表 ppt 课件 完整版
限制150内