医学统计学第十章线性相关课件.ppt
Linear correlation 第十章 线性相关例:某医院欲研究儿童的体重与体表面积的关系,测量了10名3岁男童体重与体表面积,数据见下表编号 X(X,kg)Y(Y,103cm2)1 11.0 5.2832 11.8 5.2993 12.0 5.3584 12.3 5.2925 13.1 5.6026 13.7 6.0147 14.4 5.8308 14.9 6.1029 15.2 6.07510 16.0 6.411合计 133.4 57.266内容n 相关关系与确定性关系n 定量资料的相关n 定性资料的相关n 等级资料的相关n 相关分析的正确应用10.1 相关关系与确定性关系n 确定性关系:两变量间的函数关系 圆的周长与半径的关系:C2 R 速度、时间与路程的关系:LST X与Y的函数关系:Ya+bX n 非确定性关系:两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄的关系;年龄与血脂的关系;身高与体重的关系;体重与体表面积的关系;药物浓度与反应率的关系;相关关系与确定性关系(2)n 当对事物的规律了解加深时,相关关系可以转变为确定性关系。n 父亲患白化病X,(X=是,否);n 子女患白化病Y,(Y=是,否);n X与Y的关系不确定。n 当母亲患白化病时,X与Y的关系确定:X=是,则Y=是;X=否,则Y=否。(父亲为异常基因的携带者出外。)相关关系(correlation)n 当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,或相关(correlation)。两个变量有共变现象,称为有相关关系。n 相关关系不一定是因果关系。10.2 定量资料的相关n 反映两定量指标间的相关关系用 Pearson 相关系数。(Pearson correlation coefficient)例10.1 10名3岁男童体重与体表面积的关系 编号 体重(X,kg)体表面积(Y,103cm2)1 11.0 5.2832 11.8 5.2993 12.0 5.3584 12.3 5.2925 13.1 5.6026 13.7 6.0147 14.4 5.8308 14.9 6.1029 15.2 6.075 10 16.0 6.411 合计 133.4 57.266分析步骤n 散点图n 相关系数计算n 相关系数的假设检验10名3岁男童体重与体表面积散点图11 12 13 14 15 165.05.56.06.5体重(kg),X体表面积Y(103cm2)Pearson相关系数的计算X 的离均差平方和:Y 的离均差平方和:X与Y 间的离均差积和:离均差平方和、离均差积和的展开:相关系数的性质n 总体相关系数 n-1 r 1n r0为正相关n r0为负相关n r0为零相关或无相关r=0(h)r 0(f)r-1(d)r1(b)0r1(a)-1r0(c)r 0(e)r 0(g)零相关 正相关 负相关完全正相关 完全负相关 零相关 零相关零相关相关关系示意图相关系数的含义 符号:相关系数小于0 为负相关;大于0 为正相关;等于0 为零相关。数值:相关系数的绝对值越大,表示两变量间的相关程度越密切;相关系数越接近于0,表示相关越不密切。表达两变量间线性相关的程度和方向的一个统计指标 例10.1资料相关系数的计算10.2.2 相关系数的假设检验H 0:0,体重与体表面积无相关关系;H 1:0,体重与体表面积有相关关系。=0.05t 服从自由度为n-2的 t 分布。例10.1资料相关系数的假设检验自由度102,P0.001拒绝H0,接受H1。可以认为3岁男童体重与体表面积之间有正相关关系。10.2.3 总体相关系数的区间估计n 相关系数 分布q 相关系数=0 n 样本相关系数的分布是对称的,当样本含量较大时,近似正态分布 q 相关系数不等于0 n 样本相关系数的分布是偏态-0.8-0.6-0.4-0.2 0.00100200300-1.00 0.5 1.0 1.5 2.0050100150200-2-1 0 1 2050100150200 0 1 2 3 4050100150200250 0 0.2 0.4 0.6 0.8 1.00100200300=0=-0.8=0.8(e)z(d)z(f)zz变换(双曲正切变换)n R.A.Fisher(1921)提出的其反变换 的区间估计 n z值 的分布q 变换值z近似服从均数为q 标准差为 的正态分布n 将相关系数r变换为z值,并按正态分布原理估计z的 100(1-)%的可信限然后再进行反变换,求出的可信区间以例10.1数据为例,试计算总体相关系数 的95%及99%可信区间 n z的95%可信区间:1.91981.960.3780=(1.1789,2.6607)n z的99%可信区间:1.91982.580.3780=(0.9446,2.8950)的95%可信区间:0.8271 0.9903;的99%可信区间:0.7373 0.9939 10.2.4 两样本相关系数的比较n 例10.3 某医院分别测定正常成年男子12人和正常成年女子12人的心率(X,次/分)与心脏左室电机械收缩时间QS(Y,毫秒)的数据见表10.2,试比较男子和女子的心率(次/分)与心脏左室电机械收缩时间QS(毫秒)的相关是否相同。表10.2 24名成年男女的心率(X)与收缩时间(Y)男子 女子心率,X(次/分)收缩时间,Y(毫秒)心率,X(次/分)收缩时间,Y(毫秒)57 405 56 39161 393 59 41063 397 63 38766 400 67 37467 380 67 38568 383 68 37669 376 70 37870 382 72 38475 388 75 37079 366 79 35083 370 87 35786 345 94 329分析思路n 分析男、女心率与机械收缩时间是否有关q 散点图q 相关系数q 相关系数假设检验(?)n 比较两相关系数是否相同(1)散点图 50 60 70 80 90 100300350400450心率(次/分)收缩时间(毫秒)50 60 70 80 90300350400450100心率(次/分)收缩时间(毫秒)男女(2)分别计算两样本相关系数r n 男性n 女性(3)对两相关系数进行假设检验 n 统计量男女=122=10,则P10.001,P20.001。故可以认为无论男子和女子,其心率与心脏左室电机械收缩时间均呈负相关关系(4)比较两总体相关系数是否相等 n H0:男子心率与心脏左室电机械收缩时间的相关与女子的相等,12;H1:男子心率与心脏左室电机械收缩时间的相关与女子的不等,1 2。n=0.10。作z变换,然后对z值进行分析 P0.20,故尚不能认为男子和女子的心率与心脏左室电机械收缩时间间的相关系数不等。10.3 定性资料的相关n 列联系数(contingency coefficient)10.3.1 四格表的列联系数 甲法乙法 a b c d-1 rn+1例10.4 两种方法观察舌象结果的相关性n 某中医师采用两种方法观察舌象200例,观察结果如下,试分析两种观察方法的结果有无联系?甲法 乙法 84(a)16(b)20(c)80(d)10.3.2 列联表的列联系数Cramr修正列联系数 rC:R,C分别是列联表的行数和列数。2是列联表的2检验的2 值。0 rC 1