卫生统计学线性相关与回归幻灯片.ppt
卫生统计学线性相关与回归中医科研设计与统计湖北中医学院卫生教研室1第1页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室2第十章第十章 线性相关与回归线性相关与回归 第一节第一节 线性相关线性相关 第二节第二节 线性回归线性回归 第三节第三节 线性相关和回归的区别与联系线性相关和回归的区别与联系 第四节第四节 等级相关等级相关第2页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室3概述概述“回归回归”名称的由来:最早由英国遗传学家弗朗西斯名称的由来:最早由英国遗传学家弗朗西斯高高尔顿尔顿(Francis Galton)(Francis Galton)引入。在一篇著名的论文引入。在一篇著名的论文“Family Likeness in StatureFamily Likeness in Stature”中,高尔顿发现,虽然中,高尔顿发现,虽然有一个趋势:父母高,子女也高;父母矮,子女也矮,即有一个趋势:父母高,子女也高;父母矮,子女也矮,即父母的身高对子女的身高起到决定性作用。但给定父母的父母的身高对子女的身高起到决定性作用。但给定父母的身高,子女的平均身高却趋向于或者身高,子女的平均身高却趋向于或者“回归回归”到种族人到种族人群的平均身高。群的平均身高。换言之,尽管父母都非常高或非常矮,但儿女的身高却换言之,尽管父母都非常高或非常矮,但儿女的身高却有回归到人群总体平均身高的趋势。这就是有回归到人群总体平均身高的趋势。这就是GaltonGalton的普遍的普遍回归定律(回归定律(law of universal regression)law of universal regression)。第3页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室4第4页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室5现代统计学奠基人卡尔现代统计学奠基人卡尔皮尔逊(皮尔逊(Karl PearsonKarl Pearson)也)也证明了子女身高确实证明了子女身高确实“回归到中等回归到中等”(regression regression to mediocrityto mediocrity)。他发现,对于一个父亲高的群体,)。他发现,对于一个父亲高的群体,儿子的平均身高通常低于他们父辈的身高;而对于儿子的平均身高通常低于他们父辈的身高;而对于一个父亲矮的群体,儿子的平均身高通常高于其父一个父亲矮的群体,儿子的平均身高通常高于其父辈的身高。即高的和矮的儿子身高一同辈的身高。即高的和矮的儿子身高一同“回归回归”到到所有男性的平均身高。所有男性的平均身高。皮尔逊观察了皮尔逊观察了10781078对夫妇,以每对夫妇中父亲的身对夫妇,以每对夫妇中父亲的身高作为解释变量高作为解释变量X X(自变量),取他们的一个成年儿(自变量),取他们的一个成年儿子的身高作为被解释变量子的身高作为被解释变量Y Y(应变量),将结果在平(应变量),将结果在平面直角坐标系上绘成散点图,发现散点的趋势近乎面直角坐标系上绘成散点图,发现散点的趋势近乎一条直线。计算出直线回归方程为:一条直线。计算出直线回归方程为:第5页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室6第6页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室7回归的现代释义回归的现代释义 在普遍回归定律中,高尔顿的兴趣在于发现为什么人在普遍回归定律中,高尔顿的兴趣在于发现为什么人口的身高分布有一种稳定性。但是现代统计学并不关口的身高分布有一种稳定性。但是现代统计学并不关心这种解释,我们关心的是知道了父辈的身高,怎样心这种解释,我们关心的是知道了父辈的身高,怎样去估计或预测子女的身高。去估计或预测子女的身高。回归的现代解释和应用大致上可以这样说:回归分析是研回归的现代解释和应用大致上可以这样说:回归分析是研究一种叫做被解释变量(或称究一种叫做被解释变量(或称应变量应变量:Dependent Dependent VariableVariable)的变量对另一种叫做解释变量(或称)的变量对另一种叫做解释变量(或称自变量自变量:Independent VariableIndependent Variable)的变量之间依赖关系的统计)的变量之间依赖关系的统计方法,方法,当解释变量取某个当解释变量取某个已知或设定值已知或设定值时,能够时,能够估计或估计或预测出预测出与之相关的被解释变量所有可能出现对应值的与之相关的被解释变量所有可能出现对应值的(总体)(总体)均值。均值。第7页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室8变量关联性分析变量关联性分析变量关系变量关系函数关系:有精确数学表达式(函数关系:有精确数学表达式(S S R R,C C2 2 R R)统计关系统计关系(非确定性关系)(非确定性关系)相关分析相关分析(确定性关系)(确定性关系)(平等关系)(平等关系)多元相关分析多元相关分析复相关分析复相关分析偏相关分析偏相关分析简单相关分析:简单相关分析:直线相关分析直线相关分析回归分析回归分析(因果关系)(因果关系)一元回归分析一元回归分析多元回归分析多元回归分析直线回归分析直线回归分析曲线回归分析曲线回归分析多元非线性回归分析多元非线性回归分析多元线性回归分析多元线性回归分析第8页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室9直线直线相关与回归的区别相关与回归的区别直线相关分析直线相关分析:研究两随机变量之间的是否研究两随机变量之间的是否存在线性关系,存在线性关系,以及以及线性线性关关系的性质和强弱;系的性质和强弱;分析的两变量没有自变量和分析的两变量没有自变量和应应变量之分;变量之分;两变量间是共变关系(双向),地位是平等的;两变量间是共变关系(双向),地位是平等的;不能用一个变量去预测或控制另一个变量的变化。不能用一个变量去预测或控制另一个变量的变化。直线直线回归分析:回归分析:研究两研究两相关变量之间相关变量之间是否是否存在线性依存关系,存在线性依存关系,以及以及依存依存关系的数量比例关系;关系的数量比例关系;分析的分析的两两变量有自变量和应变量之分;变量有自变量和应变量之分;两变量间是因果关系(单向),地位不平等的;两变量间是因果关系(单向),地位不平等的;可以用自变量来预测或控制应变量。可以用自变量来预测或控制应变量。第9页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室10第一节第一节 线性相关线性相关一、二维散点图一、二维散点图例例1 1:一个产科医师发现孕妇尿中雌三醇含量与新生儿的体:一个产科医师发现孕妇尿中雌三醇含量与新生儿的体重有关。于是设想,通过测量待产孕妇尿液中雌三醇含量,重有关。于是设想,通过测量待产孕妇尿液中雌三醇含量,是否可以预测新生儿体重,以便对低体重新生儿进行预防是否可以预测新生儿体重,以便对低体重新生儿进行预防准备。因此收集了准备。因此收集了3131例待产孕妇例待产孕妇2424小时的尿液,测量其中小时的尿液,测量其中的雌三醇含量,同时记录新生儿的体重。数据记录如表的雌三醇含量,同时记录新生儿的体重。数据记录如表1 1所所示:示:第10页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室113131例待产妇尿雌三醇含量(例待产妇尿雌三醇含量(mg/24hmg/24h)与新生儿的体重()与新生儿的体重(kgkg)编号编号尿雌三醇尿雌三醇产儿体重产儿体重编号编号尿雌三醇尿雌三醇产儿体重产儿体重1 17 72.52.5171717173.23.22 29 92.52.5181825253.23.23 39 92.52.5191927273.43.44 412122.72.7202015153.43.45 514142.72.7212115153.43.46 616162.72.7222215153.53.57 716162.42.4232316163.53.58 814143.03.0242419193.43.49 916163.03.0252518183.53.5101016163.13.1262617173.63.6111117173.03.0272718183.73.7121219193.13.1282820203.83.8131321213.03.0292922224.04.0141424242.82.8303025253.93.9151515153.23.2313124244.34.3161616163.23.2第11页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室12第12页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室13二、相关关系的度量:二、相关关系的度量:离均差乘积和离均差乘积和(简称乘积和,(简称乘积和,Sum of productsSum of products)1.1.SPSPxyxy0 0:正相关:正相关2.2.SPSPxyxy0 0:负相关:负相关3.3.SPSPxyxy0 0:无相关或非线性相关:无相关或非线性相关缺点缺点:SPSPxyxy的大小与样本含量有关的大小与样本含量有关第13页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室14协方差协方差(covariancecovariance):):离均差离均差乘积和除以自由度乘积和除以自由度1.1.CovCov(x,yx,y)0 0:正相关:正相关2.2.CovCov(x,yx,y)0 0:负相关:负相关3.3.CovCov(x,yx,y)0 0:无相关或非线性相关:无相关或非线性相关缺点缺点:CovCov的大小受变量取值尺度(数量级)的影响的大小受变量取值尺度(数量级)的影响 Cov Cov有单位(量纲),不同单位资料不能比较有单位(量纲),不同单位资料不能比较 第14页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室15皮尔逊相关系数皮尔逊相关系数:将协方差标准化:将协方差标准化(Pearson correlation coefficientPearson correlation coefficient)又称为又称为皮尔逊积差相关系数皮尔逊积差相关系数(Pearson product moment Pearson product moment correlation coefficientcorrelation coefficient)第15页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室16相关系数的性质相关系数的性质相关系数的定义阈相关系数的定义阈:-1r1-1r1,其中,其中绝对值大小绝对值大小反映了反映了两随机变量之间相关关系的密切程度,而两随机变量之间相关关系的密切程度,而正负正负则反映了则反映了相关关系的方向。相关关系的方向。1.1.1 1r r0 0:正相关:正相关2.2.1 1r r0 0:负相关:负相关3.3.r r0 0:零相关或无相关:零相关或无相关4.4.r r+1+1:完全正相关:完全正相关5.5.r r-1-1:完全负相关:完全负相关生生物物界界影影响响因因素素众众多多,r r值值为为l l的的机机会会极极为为罕罕见见,因因而而很很少少有有完完全全相相关关。在在医医学学数数据据中中经经常常见见到到的的是是r r值值介介于于-1-1与与+l+l之间,即不完全相关。之间,即不完全相关。第16页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室17相关关系示意图相关关系示意图r r0 0(h)(h)r r0 0(g)(g)r r-1-1(d)(d)r r1 1(c)(c)0 0r r1 1(a)(a)-1-1r r0 0(b)(b)r r 0 0(e)(e)r r 0 0(f)(f)零相关零相关正相关正相关负相关负相关完全正相关完全正相关完全负相关完全负相关零相关零相关零相关零相关零相关零相关第17页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室18计算例计算例1 1资料的相关系数资料的相关系数x=534x=534,y=99.2y=99.2xx2 2=9876=9876,y y2 2=324.18=324.18,xy=1750 xy=1750,n=31n=31从计算结果可以知道,从计算结果可以知道,3131例待产妇尿中雌三醇含量与例待产妇尿中雌三醇含量与新生儿体重之间呈正相关,相关系数是新生儿体重之间呈正相关,相关系数是0.60970.6097。问题问题:能否得出结论,即待产妇尿中雌三醇含量与新生儿:能否得出结论,即待产妇尿中雌三醇含量与新生儿体重之间呈正相关,相关系数就是体重之间呈正相关,相关系数就是0.60970.6097?第18页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室19相关系数的假设检验相关系数的假设检验上例中的相关系数上例中的相关系数r r等于等于0.60970.6097不为不为0 0,说明了,说明了3131例样本例样本中雌三醇含量与出生体重之间存在相关关系。但是,这中雌三醇含量与出生体重之间存在相关关系。但是,这3131例只是总体中的一个样本,由此得到的相关系数必然会例只是总体中的一个样本,由此得到的相关系数必然会存在抽样误差。存在抽样误差。因为:即使总体相关系数因为:即使总体相关系数 为零时,由于抽样误差,从为零时,由于抽样误差,从总体抽出的总体抽出的3131例样本,其相关系数例样本,其相关系数r r也可能不等于零。也可能不等于零。所以,我们必须对该样本所代表总体的相关系数所以,我们必须对该样本所代表总体的相关系数 是否为是否为0 0进行假设检验,判断进行假设检验,判断r r不等于零是由于抽样误差所致,不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。还是两个变量之间确实存在相关关系。第19页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室201.1.查表法查表法:以自由度:以自由度v vn n2 2直接查直接查r r界值表。界值表。查查t t界值表界值表t t0.05(29)0.05(29)2.0452.045v v双侧双侧0.500.500.200.200.100.100.050.050.020.020.010.010.0050.0050.0020.0020.0010.001单侧单侧0.250.250.100.100.050.050.0250.0250.010.010.0050.0050.00250.00250.0010.0010.00050.000526260.1330.1330.2500.2500.3170.3170.3740.3740.4370.4370.4790.4790.5150.5150.5590.5590.5880.58827270.1310.1310.2450.2450.3110.3110.3670.3670.4300.4300.4710.4710.5070.5070.5500.5500.5790.57928280.1280.1280.2410.2410.3060.3060.3610.3610.4230.4230.4630.4630.4990.4990.5410.5410.5700.57029290.1260.1260.2370.2370.3010.3010.3550.3550.4160.4160.4560.4560.4910.4910.5330.5330.5620.56230300.1240.1240.2330.2330.2960.2960.3490.3490.4090.4090.4490.4490.4840.4840.5260.5260.5540.554第20页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室212.2.t t检验检验:H H0 0:0 0,雌三醇含量与出生体重不存在相关关系,雌三醇含量与出生体重不存在相关关系H H1 1:00,雌三醇含量与出生体重存在相关关系,雌三醇含量与出生体重存在相关关系=0.05=0.05查查t t界值表界值表t t0.05(29)0.05(29)2.0452.045t t,在,在0.050.05水准拒水准拒绝绝H H0 0,认为总体相关系数,认为总体相关系数不不为零,雌三醇含量与新为零,雌三醇含量与新生儿出生体重之间存在线性相关关系。生儿出生体重之间存在线性相关关系。第21页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室223.3.F F检验检验(方差分析):(方差分析):F F0.05(10.05(1,29)29)4.184.18将将y y的总平方和分解为相关平方和和非相关平方和。的总平方和分解为相关平方和和非相关平方和。第22页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室23t t检验和检验和F F检验的关系检验的关系t t4.1424.142t t0.05(29)0.05(29)2.0452.045F F17.1617.16F F0.05(10.05(1,29)29)4.184.18可以看到相关系数的可以看到相关系数的t t检验和检验和F F检验的结果完全等价检验的结果完全等价条件条件:分子的自由度为:分子的自由度为1 1,即两变量分析,即两变量分析第23页,共24页,编辑于2022年,星期五中医科研设计与统计湖北中医学院卫生教研室24The class is overThe class is overThanksThanks!第24页,共24页,编辑于2022年,星期五