简单线性相关与回归优秀课件.ppt
《简单线性相关与回归优秀课件.ppt》由会员分享,可在线阅读,更多相关《简单线性相关与回归优秀课件.ppt(77页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、简单线性相关与回归简单线性相关与回归第1页,本讲稿共77页简单线性相关与回归简单线性相关与回归20122012年年11 11月月2929日日大理学院大理学院 巫秀美巫秀美第2页,本讲稿共77页 在在医医学学科科学学研研究究中中,常常常常要要分分析析两两个个变变量量之之间间的的关关系系,例例如如身身高高和和体体重重、年年龄龄和和血血压压、体体温温和和脉脉搏搏、药药物物剂剂量量和和疗疗效效等等问问题题,因因此此涉涉及及到到研研究究两两个个变变量量的的相相互互关关系系。这这时时就就涉涉及及到到两两个个变变 量量 之之 间间 的的 相相 关关(correlation)与与回回 归归(regressio
2、n)。第3页,本讲稿共77页简单线性相关与回归简单线性相关与回归Correlation&Regression相关的意义、概念和种类相关的意义、概念和种类相关图表、相关系数和相关分析相关图表、相关系数和相关分析简单线性回归简单线性回归相关分析和回归分析中应注意的问题相关分析和回归分析中应注意的问题第4页,本讲稿共77页相关的意义、概念和种类相关的意义、概念和种类在总体中,如果对变量在总体中,如果对变量x x的每一个数值,相应还的每一个数值,相应还有第二个变量有第二个变量y y的数值,则各对变量的变量值所的数值,则各对变量的变量值所组成的总体称为二元总体;由二个以上相互对应组成的总体称为二元总体;
3、由二个以上相互对应的变量组成的总体,称为多元总体。的变量组成的总体,称为多元总体。二元总体中二元总体中两变量是不是存在关系?两变量是不是存在关系?关系的密切程度如何?关系的密切程度如何?关系的具体形式是什么?关系的具体形式是什么?怎样根据一个变量的变动来估计另一变量的怎样根据一个变量的变动来估计另一变量的变动?变动?第5页,本讲稿共77页Correlation相关分析就是对二元总体中确实具有联相关分析就是对二元总体中确实具有联系的标志进行分析。系的标志进行分析。现象总体的依存关系类型:现象总体的依存关系类型:一个变量取一定值时另一个变量有确定值与一个变量取一定值时另一个变量有确定值与之对应,这
4、种变量间一一对应的确定性关系之对应,这种变量间一一对应的确定性关系称为称为函数关系函数关系函数关系函数关系,y y =f f(x x)。一个变量取一定值时,与之对应的另一个变一个变量取一定值时,与之对应的另一个变量的值虽然不确定,但它按某种规律在一定量的值虽然不确定,但它按某种规律在一定范围内变化,这种变量间的不确定性对应关范围内变化,这种变量间的不确定性对应关系称为系称为相关关系,相关关系,相关关系,相关关系,y=f f(x x)+(为随机变量)为随机变量)。第6页,本讲稿共77页圆的面积与半径;圆的面积与半径;计件工资总额与零件数量;计件工资总额与零件数量;收入水平与受教育程度;收入水平与
5、受教育程度;看书时间和学习成绩;看书时间和学习成绩;父亲身高与子女身高。父亲身高与子女身高。函数关系函数关系 v.s.相关关系相关关系第7页,本讲稿共77页相关关系的种类相关关系的种类按相关的因素按相关的因素 单相关单相关 复相关(多元相关;偏相关)复相关(多元相关;偏相关)按相关的形式按相关的形式 线性相关(直线相关)线性相关(直线相关)非线性相关(曲线相关)非线性相关(曲线相关)按相关的方向按相关的方向 正相关正相关 负相关负相关按相关的程度按相关的程度 完全相关完全相关 不完全相关不完全相关 不相关不相关第8页,本讲稿共77页相关关系的散点图(相关关系的散点图(scatter diagr
6、am)不相关不相关不相关不相关不相关不相关 负线性相关负线性相关负线性相关负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关正线性相关正线性相关正线性相关 非线性相关非线性相关非线性相关非线性相关非线性相关非线性相关 完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关 第9页,本讲稿共77页相关分析相关分析 v.s.相关系数相关系数 相关分析:描述和测度变量间相关关系类型和相关程度相关分析:描述和测度变量间相关关系类型和相关程度的分析方法的分析方法 相关分析的目的:
7、相关分析的目的:通过相关系数通过相关系数来描述和度量两变来描述和度量两变量线性联系的程度和方向量线性联系的程度和方向 所有变量都假定是随机变量,不存在解释变量和被解所有变量都假定是随机变量,不存在解释变量和被解释变量的关系,即不考虑因果关系释变量的关系,即不考虑因果关系 相关系数:对变量之间关系密切程度的度量;适用相关系数:对变量之间关系密切程度的度量;适用于双变量正态分布(于双变量正态分布(Bivariate Normal Distribution)资料)资料第10页,本讲稿共77页二元正态分布的概率密度图 当 时二元正态分布的钟形密度曲如下图。第11页,本讲稿共77页相关分析相关分析 v.
8、s.相关系数相关系数连续变量的相关指标:积差相关系数连续变量的相关指标:积差相关系数(Pearsons Correlation Coefficient)总体相关系数:总体相关系数:样本相关系数:样本相关系数:r相关系数的取值在相关系数的取值在-1 与与 1 之间。之间。样本相关系数样本相关系数 r 不等于零,并不表示总体相关不等于零,并不表示总体相关系数系数 不等于零,还要作假设检验(显著性不等于零,还要作假设检验(显著性检验)检验)第12页,本讲稿共77页相关系数的计算相关系数的计算 X和Y的离均差积和X的离均差平方和第13页,本讲稿共77页,令 第14页,本讲稿共77页相关系数的特点相关系
9、数的特点 当 r=0 时,表明X与Y没有线性相关关系。当 时,表明X与Y存在一定的线性相关关系:若 r 0 表明X与Y为正相关;若 r 0 表明X与Y为负相关。当 时,表明X与Y完全线性相关:若 r=1,称X与Y完全正相关;若 r=-1,称X与Y完全负相关。第15页,本讲稿共77页相关关系的散点图(相关关系的散点图(scatter diagram)r rr=0=0=0 r r r 0 0 0 0 0 r rr=-1=-1=-1r rr=1=1=1 第16页,本讲稿共77页统计检验的必要性:统计检验的必要性:r 0 抽样误差?两总体确实存在相关关系?检验的依据:检验的依据:如果 x 和 y 都服
10、从正态分布,在总体相关系数=0 的假设下,与样本相关系数 r 有关的t 统计量服从自由度为n-2 的t 分布:相关系数的检验 第17页,本讲稿共77页 相关系数的假设检验 样本相关系数的标准误查t界值表,得P值第18页,本讲稿共77页给定显著性水平,查自由度为 n-2 的临界值t/2(p.483);若t t/2,表明相关系数 r 在统计上是显著的,应否定 =0而接受 0的假设;若 t t/2,还不能拒绝 =0的假设。第19页,本讲稿共77页例10.1 为研究一种饲料的营养价值,观察10只体重相近的大白鼠的进食量与体重增加的关系。(表10-1,p.180)第20页,本讲稿共77页直接查 r 表:
11、按自由度=n2直接查 r界值表(p.499)相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回归分析第21页,本讲稿共77页线性相关中应注意的问题1.线性相关分析仅适用于二元正态分布资料.2.进行分析前先绘制散点图.3.出现异常值(离群值)时慎用相关.4.样本的相关系数接近零并不意味着两变量间一定无相关性.5.相关未必真有内在联系或因果关系.6.分层资料盲目合并易出假象.相关分析应用中应注意的问题第22页,本讲稿共77页图a中 有异常值,采用异常点似有相关性;图b两个无线性关系的分层资料,合并后似有相关性;图c两个分层资料原来均有相关性,合并后似无相关性;图d两个
12、分层资料原来均有正相关,合并后似变为负相关。第23页,本讲稿共77页适用条件:资料不服从双变量正态分布不宜作积差相关分析;总体分布型未知,一端或两端是不确定数值(如10岁,65岁)的资料;原始数据用等级表示的资料。Spearman秩相关(rank correlation)第24页,本讲稿共77页Spearman等级相关系数1.意义:说明具有线性关系的两变量间相关方向和密切程度的统计指标。2.取值:rs 的数值亦在-1与+1之间,正值表示正相关,负值表示负相关。第25页,本讲稿共77页3.计算步骤:(1)将X、Y 从小到大分别编秩,相同观察值在同一组取平均秩次。(2)计算秩次差d和d2。(3)计
13、算等级相关系数rs。第26页,本讲稿共77页例:某地研究27岁急性白血病患儿的血小板数与出血症状程度之间的相关性,结果见下表。第27页,本讲稿共77页病人编号 血小板数 秩次 p2 出血症状 秩次 q2 pq X p Y q(1)(2)(3)(4)(5)(6)(7)(8)=(3).(6)1 121 1 1 +11.5 132.25 11.52 138 2 4 +9.0 81 183 165 3 9 +7.0 49 214 310 4 16 -3.5 12.25 145 426 5 25 +9.0 81 456 540 6 36 +9.0 81 547 740 7 49 -3.5 2.25 24
14、.58 1060 8 64 -3.5 12.25 289 1260 9 81 -3.5 12.25 31.510 1290 10 100 -3.5 12.25 3511 1438 11 121 +11.5 132.25 126.2512 2004 12 144 -3.5 12.25 42合计 78 650 -78 630 451第28页,本讲稿共77页利用表利用表11-2中的数据容易算得中的数据容易算得 秩相关系数为负,说明两变量间有负相关关系秩相关系数为负,说明两变量间有负相关关系由样本算得的秩相关系数是否有统计学意义,也应做检验由样本算得的秩相关系数是否有统计学意义,也应做检验第29页,本
15、讲稿共77页秩相关系数的统计推断秩相关系数的统计推断检验步骤 1.建立假设、确定检验水准建立假设、确定检验水准 2.统计推断统计推断 当当 时,可查时,可查p.500的的 临界值表,若秩相关临界值表,若秩相关系数超过临界值,则拒绝系数超过临界值,则拒绝 ;当;当 时,也可采用公式式做时,也可采用公式式做t 检验检验第30页,本讲稿共77页描述x与y依存关系的直线方程:y 为应变量或因变量(dependent variable)为当 x 取某一定值时,因变量 y 的平均估平均估计值计值x 为自变量或解释变量(independent variable,explanatory variable)a
16、为截距(intercept),当x=0时,y 的平均估计值平均估计值b 为回归系数(regression coefficient):x 每改变一个单位,y 平均平均改变 b 个单位。第31页,本讲稿共77页回归的古典意义回归的古典意义高尔顿高尔顿(Francis Galton)遗传学的回归概念遗传学的回归概念 无论高个子或低个子的子女,其身高都有向无论高个子或低个子的子女,其身高都有向人的平均身高回归的趋势(人的平均身高回归的趋势(regression toward the mean)第32页,本讲稿共77页 x-每对夫妇的平均身高(英寸)y-成年儿子的身高(英寸)xy(xi,yi)给定一个x
17、值,则y服从正态分布xi与yi的均值呈线性关系第33页,本讲稿共77页回归的现代意义回归的现代意义一个因变量对若干解释变量依存关系的研究:由固定的自变量去估计因变量的平均值由固定的自变量去估计因变量的平均值样样样样本本本本总总总总体体体体自变量固定值自变量固定值自变量固定值自变量固定值自变量固定值自变量固定值估计因变估计因变量平均值量平均值第34页,本讲稿共77页回归的种类回归的种类按自变量的个数分:按自变量的个数分:一元回归:只有一个自变量,又称简单回一元回归:只有一个自变量,又称简单回归归多元回归:复回归;两个或两个以上自变多元回归:复回归;两个或两个以上自变量量按回归线的形状分:按回归线
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 简单 线性 相关 回归 优秀 课件
限制150内