研究生统计学讲义第11讲相关与回归.ppt
《研究生统计学讲义第11讲相关与回归.ppt》由会员分享,可在线阅读,更多相关《研究生统计学讲义第11讲相关与回归.ppt(74页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章第六章 一元线性相关与回归一元线性相关与回归 变量间的关系有确定性关系变量间的关系有确定性关系(函数关系函数关系)和随机性关和随机性关系。函数关系是指对于一个变量的每个可能取值,另系。函数关系是指对于一个变量的每个可能取值,另外的变量都有完全确定的值与之对应。随机性关系是外的变量都有完全确定的值与之对应。随机性关系是指变量间的关系以非确定性形式出现的情况。指变量间的关系以非确定性形式出现的情况。例如儿童身高与体重的关系;随着身高的增长,例如儿童身高与体重的关系;随着身高的增长,体重也增加,一般说,身高高的儿童,体重也重一些,体重也增加,一般说,身高高的儿童,体重也重一些,两者之间确实存在
2、着某种关系,但显然不是函数关系,两者之间确实存在着某种关系,但显然不是函数关系,因为身高相同的人体重也有的重,有的轻,身高和体因为身高相同的人体重也有的重,有的轻,身高和体重之间的客观联系存在于随机背景中,不能说某一身重之间的客观联系存在于随机背景中,不能说某一身高的儿童,其体重一定是多少。高的儿童,其体重一定是多少。第一节第一节 直线相关直线相关 相关分析用于测量观察到的任何一对变量之间的联相关分析用于测量观察到的任何一对变量之间的联合强度,我们主要关心两个变量是否互相依赖或共同变合强度,我们主要关心两个变量是否互相依赖或共同变化这里我们没有把变量表示成为其它函数,像回归分化这里我们没有把变
3、量表示成为其它函数,像回归分析一样并未暗示析一样并未暗示Y依赖于依赖于X X和和Y二者测量有误差并二者测量有误差并且我们希望估计这些变量共同变化的程度见图且我们希望估计这些变量共同变化的程度见图 相关与回归分析的种类很多,按变量个数划分,相关与回归分析的种类很多,按变量个数划分,有一个有一个 x 一个一个 y 的简单相关与回归分析,多个的简单相关与回归分析,多个 x 和和一个一个 y 的多元相关与回归分析,以及多个的多元相关与回归分析,以及多个 x 多个多个 y的的典型相关。本章介绍最简单的两变量间的直线相关典型相关。本章介绍最简单的两变量间的直线相关与回归,称为一元线性相关与回归与回归,称为
4、一元线性相关与回归1.散点图散点图 图图7.1 a)图说明图说明X 和和Y 之间具有正相关之间具有正相关b)图说明图说明 X 和和 Y 之间之间具有负相关具有负相关.c)图和图和d)图说明图说明 X 和和 Y 之间没有相关关系之间没有相关关系 双双变变量量相相关关分分析析步步骤骤是是先先作作原原始始数数据据的的散散点点图图,根根据据散散点点图图的的提提示示再再作作恰恰当当分分析析,如如两两变变量量有有直直线线趋趋势势,则则作作直直线线相相关关分分析析。从从散散点点图图可可初初步步看看出出变变量量分分布布非非正态时,应考虑作等级相关而不宜作积矩相关。正态时,应考虑作等级相关而不宜作积矩相关。并非
5、任何有联系的两个变量都是直线联系。例如,并非任何有联系的两个变量都是直线联系。例如,血压很高的人和很低的人死亡率均较高,而中等血压血压很高的人和很低的人死亡率均较高,而中等血压的人死亡率较低,死亡率和血压之间有如图的人死亡率较低,死亡率和血压之间有如图7-1(h)所示所示曲线关系,不适合作直线相关分析。曲线关系,不适合作直线相关分析。2.积矩相关系数积矩相关系数:Pearson积差积差相关系数相关系数,简称相关系数。简称相关系数。表示两个变量间直线关系密切程度和方向的统计指标。表示两个变量间直线关系密切程度和方向的统计指标。用用 r 表示,总体相关系数用表示,总体相关系数用表示,表示,r 是是
6、的点估计。的点估计。考虑考虑 X 和和 Y 的标准正态离差的标准正态离差:和和 把相应的离差同时相乘并求和时把相应的离差同时相乘并求和时,得到一个联合得到一个联合指标指标:这个指标具有下面的性质这个指标具有下面的性质:1如果大的如果大的X 值与大的值与大的Y 值相联系,小的值相联系,小的X 值与小的值与小的Y 值相联系,那么值相联系,那么 和和 二者符号相二者符号相同,在公式中它们的乘积为正同,在公式中它们的乘积为正 X 和和 Y 之间有正相关之间有正相关 2如果大的如果大的X 值与小的值与小的Y 值相联系,小的值相联系,小的X 值与大的值与大的Y 值相联系,那么值相联系,那么 和和 二者符号
7、相二者符号相反,在公式里符号为负反,在公式里符号为负.于是我们就说这种于是我们就说这种情形里情形里 X 和和 Y 之间有之间有负相关负相关 如果我们用如果我们用 n1 除公式除公式,就得到一个新指标就得到一个新指标,用用 r 表示表示,首先它满足两个条件且范围从首先它满足两个条件且范围从1到到+1(我们(我们将在随后验证)将在随后验证).有有 即即 r 是是 X 和和 Y 的修正积差除的修正积差除以以 X 和和 Y 的修正平方和乘积的修正平方和乘积的平方根注意的平方根注意 r 是参数是参数的的估计值,参数估计值,参数定义为定义为:希腊字母希腊字母(“rho”)表示变量表示变量 X 和和 Y 之
8、间真实的之间真实的总体关系总体关系 相关系数无单位相关系数无单位,取值范围为取值范围为1r1,r 的符号表的符号表示相关方向,示相关方向,r0称为正相关,称为正相关,rr,(df),则,则P,可按可按检验水准拒绝检验水准拒绝H0,认为认为 x 与与 y 之间有直之间有直线相关关系线相关关系,0.反之反之r越小越小,P值越大值越大,若若r,按按检验水准不能拒绝检验水准不能拒绝H0,从而认为从而认为x、y之间无直线相关关系。之间无直线相关关系。例例6.1 测得某地测得某地10名三岁儿童的体重与体表面积如下,名三岁儿童的体重与体表面积如下,试计算样本相关系数试计算样本相关系数r,并检验其是否来自,并
9、检验其是否来自0的总体的总体体重体重面积面积y(10-1m2):5.283 5.299 5.358 5.602 5.292 6.014 5.830 6.102 6.075 6.411 H0:总体相关系数:总体相关系数0,体重与体表面积间无直线相,体重与体表面积间无直线相关关系;关关系;H1:0。0.05。在直角坐标系上画出散点图在直角坐标系上画出散点图,有直线趋势有直线趋势,故进行直故进行直线相关分析线相关分析.使用程序型计算器时使用程序型计算器时,在线性回归在线性回归(LR)工工作方式下作方式下,成对地输入成对地输入x 与与y 后后,可直接输出可直接输出r=0.9568。无程序型计算器和计算
10、机时无程序型计算器和计算机时,用一般计算器可求出用一般计算器可求出n对对x与与y 的乘积之和的乘积之和xy=775.6606,=13.440,=5.7272,x、y 的样本标准差的样本标准差Sx=1.6635、Sy=0.4136,按公式计算相关按公式计算相关系数系数 r:=(775.6606-1013.4405.7272)/(10-1)1.66350.4136=5.92492/6.1922=0.9568。以作统计量以作统计量,用自用自由度由度df10-28,查附查附表表16得界值得界值r0.01(8)0.765,统计量统计量r r,P0.01,按水准拒绝按水准拒绝H0,接受接受H1,可以认为可
11、以认为某地三岁儿童体重某地三岁儿童体重(kg)与体表面积与体表面积(101m2)呈正向直线相关。呈正向直线相关。使用统计软件使用统计软件(3)进行直线相关分析)进行直线相关分析 Cross-product deviations and covarlances;输出结果:体重与体表面积的输出结果:体重与体表面积的Pearson相关系数相关系数r=0.923,双侧,双侧 P 值值=0.000,可认为直线相关有统计学,可认为直线相关有统计学意义。意义。三、直线相关分析应注意的问题三、直线相关分析应注意的问题 1判判断断两两个个变变量量间间是是否否存存在在相相关关关关系系,不不能能仅仅根根据据样本相关
12、关系的大小下结论,必须进行假设检验。样本相关关系的大小下结论,必须进行假设检验。2正正相相关关或或负负相相关关并并不不一一定定表表示示一一个个变变量量的的改改变变是是引引起起另另一一个个变变量量变变化化的的原原因因,可可能能同同受受另另一一个个因因素素的的影影响响。因因此此,事事物物间间有有相相关关关关系系,不不一一定定是是因因果果关关系系;但但如果两事物之间存在因果关系,则两者必然是相关的。如果两事物之间存在因果关系,则两者必然是相关的。3当样本含量不大时当样本含量不大时(如如nr 0.4(中中度度相相关关)或或r0.7(高高度度相相关关),都都有作回归分析的必要。有作回归分析的必要。0.4
13、r0.2(低低度度相相关关),是是否否有有作作回回归归分分析析的的必必要,有不同的看法。要,有不同的看法。4相关分析中对变量的选择及统计结果的解释要结相关分析中对变量的选择及统计结果的解释要结合专业背景。不要把合专业背景。不要把P值大小误解为相关程度,样本相值大小误解为相关程度,样本相关系数有统计学意义并不一定反映相关就很密切,需关系数有统计学意义并不一定反映相关就很密切,需要考虑专业意义或进一步结合决定系数来作实际意义要考虑专业意义或进一步结合决定系数来作实际意义解释。牢记:统计上显著性水平的高低,不能代表实解释。牢记:统计上显著性水平的高低,不能代表实际相关水平的高低。际相关水平的高低。第
14、三节第三节 直线回归直线回归 一、直线回归的模型一、直线回归的模型-简单线性回归简单线性回归 在线性回归里,一个变量的变化(因变量在线性回归里,一个变量的变化(因变量Y)是由)是由于另一个变量(自变量于另一个变量(自变量X)的变化所致明确地,我)的变化所致明确地,我们将寻找直线或寻找由们将寻找直线或寻找由X的变化而引起的变化而引起Y的线性变化的线性变化回归分析通常所处的位置是已经控制了变量回归分析通常所处的位置是已经控制了变量X并且并且基本上能够准确测量它当变量之间有曲线关系的时基本上能够准确测量它当变量之间有曲线关系的时候,也就是指数,抛物线或多项式,但我们限定所考候,也就是指数,抛物线或多
15、项式,但我们限定所考虑的是线性情形我们考虑简单线性回归虑的是线性情形我们考虑简单线性回归 分析目标是描述两变量之间的函数关系,这里分析目标是描述两变量之间的函数关系,这里 X 是是自变量而自变量而 Y 是应变量是应变量.假定假定 X 可测量而没有误差可测量而没有误差,而而且是可以重复测量的因为且是可以重复测量的因为Y 是应变量是应变量,它是自由多它是自由多变的变的.当我们把数据画图时当我们把数据画图时,如果数据表现出有线性如果数据表现出有线性关系关系,希望了解这个线性方程性质的真实参数希望了解这个线性方程性质的真实参数 二、直线回归方程的建立与检验二、直线回归方程的建立与检验 回归分析的内容包
16、括三个方面:回归分析的内容包括三个方面:(1)建建立立回回归归方方程程,是是根根据据样样本本数数据据判判定定回回归归方方程程的类型,建立回归方程的估计式。的类型,建立回归方程的估计式。(2)检检验验回回归归方方程程,是是判判断断建建立立的的回回归归方方程程能能否否使使用。用。(3)使使用用回回归归方方程程,是是在在样样本本数数据据范范围围内内,由由自自变变量量数数据据推推算算因因变变量量的的估估计计值值(称称预预测测),或或由由因因变变量量数据推算自变量的估计值(称控制数据推算自变量的估计值(称控制)。1直线回归方程的建立直线回归方程的建立 补充例题补充例题:一名学生想要确定温度与中国林蛙心律
17、之间一名学生想要确定温度与中国林蛙心律之间的关系的关系,调节温度范围从调节温度范围从2到到18,纪录每个温度下的纪录每个温度下的心律心律.数据如下表所示数据如下表所示 编号编号 1 2 3 4 5 6 7 8 9 对两变量之间的关系怎样进行处理描述呢对两变量之间的关系怎样进行处理描述呢?显然两显然两个变量有函数依赖个变量有函数依赖随着温度的增加随着温度的增加,心律也就增加心律也就增加.这里温度由学生控制这里温度由学生控制,且在使用不同蛙的其它实验里且在使用不同蛙的其它实验里能够准确测得相同值能够准确测得相同值(见下图见下图)温度是自变量或温度是自变量或“预预报报”变量变量.心律由温度确定心律由
18、温度确定,因此它是应变量或因此它是应变量或“反反应应”变量变量.以不同温度下心律预测为目标以不同温度下心律预测为目标,回归分析回归分析能够正确地分析这些资料能够正确地分析这些资料 X(温度温度)2 4 6 8 10 12 14 16 18Y(心律心律)5 11 11 14 22 23 32 29 32图图6.5 温度和心律数据用温度和心律数据用表示表示,这些数据接近所显示这些数据接近所显示的直线的直线,在相同温度下在相同温度下,如果重复如果重复7次实验次实验,数据是相数据是相似的似的,但是并非都一样但是并非都一样(见空心见空心).在实验运行中在实验运行中,因因为研究者控制了温度为研究者控制了温
19、度,所以这些点排列在垂线上所以这些点排列在垂线上 线性模型的假定线性模型的假定1.X 固定且测量无误差固定且测量无误差2.对对所所给给的的X,变变量量 Y 的的期期望望值值(或或平平均均值值)用用一一个线性函数来描述个线性函数来描述:E(Y)=Y|X=+X这里的这里的和和是实常数,且是实常数,且0 Y的期望值取决于的期望值取决于X 和参数和参数和和.注意这些注意这些和和与与前面使用的前面使用的型错误和型错误和型错误值不同型错误值不同.它们代表的它们代表的是截矩是截矩 intercept 和斜率和斜率slope,分别表示分别表示 Y 和和 X 之间之间的线性关系的线性关系3.对对任任何何固固定定
20、的的X值值,能能够够测测量量相相应应的的变变量量Y的的一一些些值值.(例例如如固固定定一一个个温温度度,测测量量一一些些蛙蛙的的心心律律值值)然然而而,我我们们假假定定对对任任何何的的X i,Y i 彼彼此此独独立立而而且且服服从从正正态态分分布布,(见图见图10.1垂直排列的数据垂直排列的数据)能够把每一个能够把每一个Yi 值表示为值表示为Y i=+X i +i 或或 Y i 被描述为期望值(被描述为期望值(+X i)加上一个来自于期望)加上一个来自于期望值的偏差值的偏差i 我们假定我们假定i 是具有均值为是具有均值为 0 的正态分布的的正态分布的误差项误差项 4对对不不同同的的X 值值,假
21、假定定 Y 的的分分布布的的方方差差相相等等.统统计计学家说它们是等方差!学家说它们是等方差!为为了了描描述述 Y 和和X 之之间间的的实实验验回回归归关关系系,需需要要执执行行下下列步骤:列步骤:1画散点图借以发现明显存在的线性关系画散点图借以发现明显存在的线性关系2为数据集寻找一条最合适的直线为数据集寻找一条最合适的直线3检验这条拟合的直线是否能解释检验这条拟合的直线是否能解释 Y 的变化的重要的变化的重要部分,也就是检验线性关系是否真实部分,也就是检验线性关系是否真实 作作一一个个初初步步的的散散点点图图以以获获得得两两变变量量之之间间是是否否有有存存在在任任何何联联系系的的印印象象,如
22、如果果是是这这样样,两两变变量量或或许许可可能能有有联联系系下下面面 a)图图表表示示在在 X 和和 Y 之之间间不不存存在在有有意意义义的的关关系系大大的的Y值与既大又小的两个值与既大又小的两个 X 值相联系值相联系图图b),c)和和d)表表示示在在变变量量之之间间有有关关系系,但但不不是是直直线线关关系系如如果果它它们们能能够够通通过过数数学学函函数数转转换换为为直直线线图图形形,回回归分析就能够对转换的数据进行描述归分析就能够对转换的数据进行描述 图图e)显示显示 Y 和和 X 之间有负的线性关系(即之间有负的线性关系(即 X 增加增加时,时,Y减少)而数据点不一定恰好在直线上,它们减少
23、)而数据点不一定恰好在直线上,它们给我们一个线性的印象图给我们一个线性的印象图10.3 f)表示变量之间有很)表示变量之间有很强的正线性关系(即强的正线性关系(即 X 增加,增加,Y 增加),与直线偏差增加),与直线偏差小线性回归只适合最后两种情形小线性回归只适合最后两种情形a)表示在表示在 X 和和 Y 之间不存在有意之间不存在有意义的关系义的关系b),c)和)和d)表表示在变量之间有示在变量之间有关系,但不是直关系,但不是直线关系线关系e)显示显示 Y 和和 X 之间有负的线性之间有负的线性关系关系f)表示变量之)表示变量之间有很强的正间有很强的正线性关系线性关系图图6.6 数据数据最佳直
24、线拟合最佳直线拟合一一旦旦确确定定适适合合作作回回归归分分析析,就就是是要要确确定定哪哪一一条条直直线线最最能能拟拟合合数数据据.在在下下图图拟拟合合了了a,b,c三三条条直直线线.很很明明显显,c 拟拟合合数数据据比比a 和和b 更更好好.这这些些数数据据有有正正的的倾倾向向:随随X的的增增加加,Y也也增增加加.而而直直线线 b 完完全全不不能能够够反反映映 Y 和和 X 之间的关系之间的关系,而且这条线暗指不存在关系而且这条线暗指不存在关系 图图6.7 如何确定哪条线最好拟合这些数据呢?如何确定哪条线最好拟合这些数据呢?在图在图6.8 里,考虑相同数据和两条直线里,考虑相同数据和两条直线c
25、与与d这个时候两条这个时候两条直线都顺着直线的正向为讨论这些直线哪条最能拟合数据直线都顺着直线的正向为讨论这些直线哪条最能拟合数据或者是否有一些其它直线能更好地拟合或者是否有一些其它直线能更好地拟合需要某些我们能够判需要某些我们能够判断其拟合的准则为了产生最满意的直线,下面我们制定这个断其拟合的准则为了产生最满意的直线,下面我们制定这个准则和方法准则和方法 回归的目的是预测回归的目的是预测 Y 的值开始瞬间,忽略变量的值开始瞬间,忽略变量 X,按照,按照前面单样本分析进行思考前面单样本分析进行思考Y的预测值将是的预测值将是E(Y)=Y,通过使,通过使用样本平均值用样本平均值 进行估计该直线有方
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 研究生 统计学 讲义 11 相关 回归
限制150内