《直线相关回归简单回归分析.ppt》由会员分享,可在线阅读,更多相关《直线相关回归简单回归分析.ppt(83页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、两变量关联性分析第十一章第一节 线性相关什么是相关?什么是相关?当所研究的两个事物或现象之间,既存当所研究的两个事物或现象之间,既存在着密切的数量关系,又不象函数关系那在着密切的数量关系,又不象函数关系那样,能以一个变量的数值精确地求出另一样,能以一个变量的数值精确地求出另一个变量的数值,我们称这类变量之间的关个变量的数值,我们称这类变量之间的关系为相关关系,简称系为相关关系,简称相关相关。目的:目的:研究事物或现象之间有无关系、关系研究事物或现象之间有无关系、关系的方向和密切程度。的方向和密切程度。线性相关线性相关(linear correlation)(linear correlation
2、)又称简单相关,又称简单相关,用于双变量正态分布资料。用于双变量正态分布资料。相关关系并不一定是因果关系,相关分析相关关系并不一定是因果关系,相关分析的任务就是对相关关系给以定量的描述。的任务就是对相关关系给以定量的描述。第一节 线性相关线性相关的性质和相关之间的密切程度:1.正相关正相关2.负相关负相关3.无相关无相关4.非线性相关非线性相关线性相关系数线性相关系数(一)相关系数的意义(一)相关系数的意义 相关系数相关系数(coefficient of correlation)(coefficient of correlation)又称又称积差相关系数积差相关系数(coefficient o
3、f product-(coefficient of product-moment correlation)moment correlation),以符号,以符号r r表示。表示。它是说明具有直线关系的两个变量间相它是说明具有直线关系的两个变量间相关密切程度和相关方向的统计指标。关密切程度和相关方向的统计指标。线性相关系数线性相关系数(一)相关系数的意义(一)相关系数的意义 r0r0:正相关;:正相关;r0r3.169t=3.583.169,P P0.010.01,按,按=0.05=0.05水准,拒绝水准,拒绝H H0 0,接受,接受H H1 1,故可以认为一,故可以认为一年级女大学生体重与肺活
4、量间呈正的直年级女大学生体重与肺活量间呈正的直线相关线相关 查表法:查表法:根据自由度根据自由度=n-2=12-2=10=n-2=12-2=10,查附表,查附表1313,r r界值表界值表r r 0.05(10)0.05(10)=0.576=0.576r=0.7495r=0.74950.5760.576,P P0.050.05,按,按=0.05=0.05水准,拒绝水准,拒绝H H0 0,接受,接受H H1 1,故可,故可以认为一年级女大学生体重与肺活量间以认为一年级女大学生体重与肺活量间呈正的直线相关呈正的直线相关进行相关分析时的注意事项进行相关分析时的注意事项1.1.线性相关表示两个变量之间
5、的关系线性相关表示两个变量之间的关系是双向的,当散点图出现直线趋势是双向的,当散点图出现直线趋势时,再作分析。时,再作分析。2.2.相关系数的计算只适用于两个变量相关系数的计算只适用于两个变量都服从正态分布的资料。都服从正态分布的资料。3.3.样本相关系数是总体相关系数的一样本相关系数是总体相关系数的一个估计值,与总体相关系数之间存个估计值,与总体相关系数之间存在着抽样误差,必须作假设检验。在着抽样误差,必须作假设检验。4.4.相关分析是用相关系数来描述两个相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向,变量间相互关系的密切程度和方向,相关关系不一定是因果关系。相关关系不一定是因
6、果关系。5.5.出现异常值时慎用相关。出现异常值时慎用相关。进行相关分析时的注意事项进行相关分析时的注意事项第二节 秩相关(Spearman秩相关)秩相关,又称秩相关,又称等级相关等级相关。适用于不服从正态分布的资料或总体分适用于不服从正态分布的资料或总体分布未知的资料,属非参数统计方法。布未知的资料,属非参数统计方法。一、秩相关的概念及其统计描述一、秩相关的概念及其统计描述例例11-411-4 某地研究某地研究2 27 7岁急性白血病岁急性白血病患儿的血小板数与出血症状程度之间患儿的血小板数与出血症状程度之间的相关性,结果见表的相关性,结果见表11-211-2。试用秩相。试用秩相关进行分析。
7、关进行分析。表表11-2 11-2 患儿的血小板和出血症状患儿的血小板和出血症状编号编号 血小板数血小板数 秩次秩次 出血症状出血症状 秩次秩次 pq pq 1 121 1 1 121 1 11.5 11.5 11.5 11.5 2 138 2 2 138 2 9.0 18 9.0 18 3 165 3 3 165 3 7.0 21 7.0 21 4 310 4 4 310 4 3.5 14 3.5 14 5 426 5 5 426 5 9.0 45 9.0 45 6 540 6 6 540 6 9.0 54 9.0 54 7 740 7 7 740 7 3.5 24.5 3.5 24.5 8
8、 1060 8 8 1060 8 3.5 28 3.5 28 9 1260 9 9 1260 9 3.5 31.5 3.5 31.510 1290 10 10 1290 10 3.5 35 3.5 3511 1438 11 11 1438 11 11.5 126.5 11.5 126.512 2004 12 12 2004 12 3.5 42 3.5 42合计合计 78 78 451 78 78 451步骤:步骤:1.1.将两变量将两变量X X、Y Y成对的观察值分别成对的观察值分别从小到大排序编秩,以从小到大排序编秩,以p pi i表示表示X Xi i的秩的秩次,以次,以q qi i表示表示
9、Y Yi i的秩次。的秩次。2.2.观察值相同的取平均秩次观察值相同的取平均秩次。3.3.将将p pi i、q qi i直接替换原始数据,计直接替换原始数据,计算秩相关系数算秩相关系数(r(rs s)。p=78,q=78,pp=78,q=78,p2 2=650,=650,qq2 2=630,pq=451=630,pq=451,n n1212二、秩相关系数的统计推断二、秩相关系数的统计推断=0.05=0.05 当当n50n50时,可查附表时,可查附表1414,r rs s界值表,界值表,若统计量若统计量r rs s大于临界值,则拒绝大于临界值,则拒绝H H0 0假假设。设。当当n n5050时,
10、可作时,可作t t检验。检验。例例11-411-4中,算得中,算得r rs s0.4220.422,n n1212,查,查r rs s界值表,界值表,r rs sr r12,0.112,0.1=0.503,P=0.503,P0.10.1,按,按0.050.05的水准,不拒绝的水准,不拒绝H H0 0,可认为急性白,可认为急性白血病患儿的出血症状与血小板数之血病患儿的出血症状与血小板数之间无相关关系。间无相关关系。第三节 分类变量的关联性分析例例11-611-6 为观察婴儿腹泻是否与喂养方为观察婴儿腹泻是否与喂养方式有关,某医院儿科随机收集了消化式有关,某医院儿科随机收集了消化不良的婴儿不良的婴
11、儿8282例,把该院儿科所有消例,把该院儿科所有消化不良的患儿视为一个总体的话,则化不良的患儿视为一个总体的话,则该该8282例患儿可看作一份随机样本,对例患儿可看作一份随机样本,对每个个体分别观察腹泻与否和喂养方每个个体分别观察腹泻与否和喂养方式两种属性,试分析两种属性的关联式两种属性,试分析两种属性的关联性。性。一、交叉分类一、交叉分类22表的关联分析表的关联分析表表11-3 11-3 婴儿腹泻与喂养方式的关系婴儿腹泻与喂养方式的关系喂养方式喂养方式 腹泻腹泻 合计合计 有有 无无 人工人工 30 10 40 30 10 40 母乳母乳 17 25 42 17 25 42 合计合计 47
12、35 82 47 35 82两种属性的关联性分析两种属性的关联性分析H0:喂养方式与婴儿腹泻间互相独立:喂养方式与婴儿腹泻间互相独立H1:喂养方式与婴儿腹泻间有关联:喂养方式与婴儿腹泻间有关联 0.05由于由于2 =9.98=9.98 2 0.05(1)0.05(1)=3.84=3.84,故故P P0.050.05,按,按=0.05=0.05 水准拒绝水准拒绝H H0 0,接受,接受H H1 1,故可以认为喂养方式与婴故可以认为喂养方式与婴儿腹泻间存在关联性。儿腹泻间存在关联性。两分类变量的关联程度,可用两分类变量的关联程度,可用pearson列联系数来描述。列联系数来描述。例例11-711-
13、7 有有5656份咽喉涂抹标本,把每份份咽喉涂抹标本,把每份标本一分为二,依同样的条件分别接标本一分为二,依同样的条件分别接种于甲、乙两种培养基上,观察白喉种于甲、乙两种培养基上,观察白喉杆菌的生长情况,结果见表杆菌的生长情况,结果见表11-511-5,问,问两种培养基的结果有无关联?两种培养基的结果有无关联?二、二、22配对资料的关联性分析配对资料的关联性分析表表11-5 11-5 两种培养基白喉杆菌生长情况两种培养基白喉杆菌生长情况 甲培养基甲培养基 乙培养基乙培养基 合合 计计 22(a)18(b)40 22(a)18(b)40 2(c)14(d)16 2(c)14(d)16合计合计 2
14、4 32 56 24 32 56检验步骤:检验步骤:1 1建立假设:建立假设:H H0 0 0 0:两种培养基的结果之间互相独立:两种培养基的结果之间互相独立H H1 1 1 1:两种培养基的结果之间互相关联:两种培养基的结果之间互相关联0.050.052 2计算计算2 2值值由于由于2 =8.43=8.43 2 0.05(1)0.05(1)=3.84=3.84,故故P P0.050.05,按,按=0.05=0.05 水准拒绝水准拒绝H H0 0,接受,接受H H1 1,故可认为两种培养基的结故可认为两种培养基的结果之间存在关联性。果之间存在关联性。pearson列联系数列联系数例例11-81
15、1-8 某地居民主要有三种祖籍,均某地居民主要有三种祖籍,均流行甲状腺肿。为探讨甲状腺肿类型流行甲状腺肿。为探讨甲状腺肿类型与祖籍是否有关联,现根据居民甲状与祖籍是否有关联,现根据居民甲状腺肿筛查结果,按甲状腺肿类型与祖腺肿筛查结果,按甲状腺肿类型与祖籍两种属性交叉分类,得表籍两种属性交叉分类,得表11-611-6的结的结果,问甲状腺肿类型与祖籍间有无关果,问甲状腺肿类型与祖籍间有无关联?联?三、三、RC表分类资料的关联性分析表分类资料的关联性分析表表11-6 11-6 甲状腺肿类型与祖籍的关系甲状腺肿类型与祖籍的关系祖籍祖籍 甲状腺肿甲状腺肿类型类型 合计合计 弥漫型弥漫型 结节型结节型 混
16、合型混合型甲甲 486 2 4 492 486 2 4 492乙乙 133 260 51 444 133 260 51 444丙丙 100 315 85 500 100 315 85 500合计合计 719 577 140 1436 719 577 140 1436两种属性的关联性分析两种属性的关联性分析H0:甲状腺肿类型与祖籍间无关联甲状腺肿类型与祖籍间无关联H1:甲状腺肿类型与祖籍间甲状腺肿类型与祖籍间有关联有关联 0.05由于由于2 =723.783=723.783 2 0.05(4)0.05(4)=9.499.49,故,故P P0.050.05,按,按=0.05=0.05 水准水准拒绝
17、拒绝H H0 0,接受,接受H H1 1,故可认为甲状腺肿故可认为甲状腺肿类型与祖籍间有关联。类型与祖籍间有关联。pearson列联系数列联系数线性相关的概念线性相关的概念线性相关线性相关(linear correlation)(linear correlation)又称又称简单相关,简单相关,用于双变量正态分布资料用于双变量正态分布资料。相关关系并不一定是因果关系,相关相关关系并不一定是因果关系,相关分析的任务就是对相关关系给以定量分析的任务就是对相关关系给以定量的描述。的描述。小小 结结相关系数的意义相关系数的意义 相关系数相关系数(coefficient of(coefficient o
18、f correlation)correlation)又称积差相关系数又称积差相关系数(coefficient of product-moment(coefficient of product-moment correlation)correlation),以符号,以符号r r表示。它是说表示。它是说明具有直线关系的两个变量间相关密明具有直线关系的两个变量间相关密切程度和相关方向的统计指标。切程度和相关方向的统计指标。小小 结结r r0 0:正相关;:正相关;r r0 0:负相关;:负相关;r r0 0:零相关;:零相关;|r|r|l l:完全相关。:完全相关。小小 结结线性相关系数的特点线性相
19、关系数的特点 1.相关系数r是一个无量纲的数值,且-1rl;2.r0为正相关,r0为负相关;3.|r|越接近于l,说明相关性越好,|r|越接近于0,说明相关性越差。小小 结结练习练习1 1 根据如下资料,试分析根据如下资料,试分析1616名男大名男大学生的身高与肺活量的线性相关关系。学生的身高与肺活量的线性相关关系。身高:身高:1.742 1.718 1.714 1.712 1.742 1.718 1.714 1.712 1.720 1.704 1.709 1.729 1.708 1.720 1.704 1.709 1.729 1.708 1.698 1.714 1.674 1.683 1.6
20、70 1.698 1.714 1.674 1.683 1.670 1.679 1.692 1.679 1.692肺活量:肺活量:4.650 4.278 4.420 4.3794.650 4.278 4.420 4.379 4.365 4.222 3.973 4.290 4.022 4.365 4.222 3.973 4.290 4.022 4.077 4.318 4.039 3.850 3.625 4.077 4.318 4.039 3.850 3.625 3.874 3.911 3.874 3.911X=27.266 Y=66.293,X=27.266 Y=66.293,XX2 2=46.4
21、71 Y=46.471 Y2 2=275.728,=275.728,XY=113.042 n=16 XY=113.042 n=16 相关系数假设检验相关系数假设检验=0.05=0.05=n2=n216162 21414,t t0.05(14)0.05(14)=2.145=2.145t=6.60t=6.602.2282.228,P P0.050.05,按,按=0.05=0.05水准,拒绝水准,拒绝H H0 0,接受,接受H H1 1,故,故可以认为男大学生身高与肺活量间可以认为男大学生身高与肺活量间呈正的直线相关呈正的直线相关 查表法:查表法:根据自由度根据自由度=n-2=16-2=14=n-2
22、=16-2=14,查附表,查附表1313,r r界值表界值表r r0.05(14)0.05(14)=0.497=0.497r=0.87r=0.870.4970.497,P P0.050.05,按,按=0.05=0.05水准,拒绝水准,拒绝H H0 0,接受,接受H H1 1,故,故可以认为男大学生身高与肺活量间可以认为男大学生身高与肺活量间呈正的直线相关呈正的直线相关练习练习2 2 判断题判断题1 1)r r0.80.8,就可以认为两变量相关,就可以认为两变量相关非常密切非常密切 ()2 2)相关系数的假设检验)相关系数的假设检验P P值越小说值越小说明明X X和和Y Y的关系越密切的关系越密
23、切 ()错误错误错误错误练习练习2 2 判断题判断题3 3)相关系数为)相关系数为0.780.78,P P0.050.05,说,说明两变量密切相关明两变量密切相关 ()4 4)根据样本算得一相关系数)根据样本算得一相关系数r,r,经经t t检验,检验,P P0.01,0.01,说明说明r r来自高度相关来自高度相关的总体的总体 ()错误错误正确正确练习练习3 3 单选题单选题1 1)计算积差相关系数要求)计算积差相关系数要求 ()()A只要一个变量服从正态分布只要一个变量服从正态分布B两变量均要求服从正态分布两变量均要求服从正态分布C两变量均不要求服从正态分布两变量均不要求服从正态分布D等级资
24、料等级资料2 2)相关系数检验的无效假设是)相关系数检验的无效假设是()A A 0 B 0 B 0 C=00 C=0D=1 E=-1D=1 E=-1练习练习3 3 单选题单选题简单回归分析第十二章第一节 线性回归线性回归的概念线性回归的概念 假设两个变量假设两个变量X X,Y Y中,当一个变量中,当一个变量X X改变时,改变时,另一个变量另一个变量Y Y也相应地改变,此时称也相应地改变,此时称X X为自变量为自变量(independent variable)(independent variable),Y Y为应变量为应变量(dependent(dependent variable)varia
25、ble)。当这两个变量之间存在着直线关系。当这两个变量之间存在着直线关系时,不仅可以用相关系数时,不仅可以用相关系数r r表示变量表示变量Y Y与与X X线性关线性关系的密切程度,也可以用系的密切程度,也可以用 来表示来表示Y Y与与X X的线性关系,称为的线性关系,称为线性回归线性回归(1inear(1inearregression)regression)。为了区别于一般函数方程,。为了区别于一般函数方程,我们将它称为我们将它称为直线回归方程直线回归方程。由图由图10.110.1可见,肺活量可见,肺活量Y Y 有随体重有随体重X X增加而增增加而增大的趋势,且散点呈直线趋势,但并非大的趋势,
26、且散点呈直线趋势,但并非1212个个点恰好全都在一直线上。点恰好全都在一直线上。直线回归方程的求法直线回归方程的求法 一般表达式一般表达式:a a为回归直线在为回归直线在Y Y轴上的截距轴上的截距(intercept)(intercept)。a a0 0:直线与纵轴的交点在原点的上方:直线与纵轴的交点在原点的上方a a0 0:则交点在原点的下方:则交点在原点的下方a a0 0:则回归线通过原点:则回归线通过原点 b b为为回回归归系系数数(regression(regression coefficient)coefficient),即即直直线的斜率线的斜率(slope)(slope)b b0
27、0:表表示示直直线线从从左左下下方方走走向向右右上上方方,即即Y Y随随X X增大而增大增大而增大b b0 0:表表示示直直线线从从左左上上方方走走向向右右下下方方,即即y y随随X X增大而减少增大而减少b b0 0:表表示示直直线线与与X X轴轴平平行行,即即X X与与Y Y无无直直线关系线关系b b的统计学意义是的统计学意义是X X每增每增(减减)一个单位,一个单位,Y Y平均改变平均改变b b个单位个单位根根据据数数学学上上的的最最小小二二乘乘法法(least(least square square method)method)原原理理(即即保保证证各各实实测测点点至至直直线线的的纵纵
28、向向距距离离的的平平方方和和最最小小),可可导导出出a a、b b的的算式如下:算式如下:就上例试求女大学生肺活量就上例试求女大学生肺活量Y Y对体重对体重X X的直线回归方程的直线回归方程 :回归方程:回归方程:直线回归方程的图示直线回归方程的图示 在自变量在自变量X X的的实测全距范围内实测全距范围内任取相距任取相距较远且易读数的两个较远且易读数的两个X X值,代入上式。值,代入上式。如上例取如上例取X X=42=42,得,得Y Y=2.47=2.47;取;取X X5858,得,得Y Y=3.41=3.41。在图上确定。在图上确定(42(42,2.47)2.47)和和(58(58,3.41
29、)3.41)两个点,以直线连接,两个点,以直线连接,即得直线式即得直线式 =0.000419+0.058826X =0.000419+0.058826X的的图形。图形。注意:所绘直线必然通过点注意:所绘直线必然通过点()(),若纵坐,若纵坐标、横坐标无折断号时,将此线左端延长标、横坐标无折断号时,将此线左端延长与纵轴相交,交点的纵坐标必等于截距与纵轴相交,交点的纵坐标必等于截距a a 直线回归方程的应用直线回归方程的应用 1.1.描述两变量间的依存关系描述两变量间的依存关系2.2.利用回归方程进行预测利用回归方程进行预测(forecast)(forecast)3.3.利用回归方程进行统计控制利
30、用回归方程进行统计控制(statistical(statistical control)control)回归系数的假设检验回归系数的假设检验 回归方程是否成立,即回归方程是否成立,即x x、y y是否有是否有直线关系,是回归分析要考虑的首直线关系,是回归分析要考虑的首要问题。即使要问题。即使x x、y y的总体回归系数的总体回归系数为零,由于抽样误差,其样本回为零,由于抽样误差,其样本回归系数归系数b b也不一定为零,因此需作也不一定为零,因此需作是否为零的假设检验,可用是否为零的假设检验,可用方差方差分析分析或或t t检验检验。目的:检验目的:检验目的:检验目的:检验b b b b是否来自总
31、体回归系数是否来自总体回归系数是否来自总体回归系数是否来自总体回归系数为零的总体为零的总体为零的总体为零的总体步骤步骤1.建立假设和确定检验水准:建立假设和确定检验水准:H0:=0 H1:0 =0.05回归系数的假设检验回归系数的假设检验 2.计算统计量计算统计量(一)方差分析(一)方差分析总 =n-1 回归=1 剩余=n-2 SS剩余剩余=SS总总-SS回归回归式中式中S Sb b为样本回归系数的标准误,为样本回归系数的标准误,S Sy.xy.x为为剩余标准差剩余标准差,是当,是当X X的影响被扣除后,的影响被扣除后,应变量应变量Y Y值对于回归直线的离散程度。值对于回归直线的离散程度。(二
32、)(二)t t检验检验2.计算统计量计算统计量回归系数与相关系数的假设检验是回归系数与相关系数的假设检验是等值的,即等值的,即tr=tb 应用直线回归应注意的问题应用直线回归应注意的问题(1 1)作作回回归归分分析析要要有有实实际际意意义义,不不能能把把毫毫无无关关联联的的两两种种现现象象作作回回归归分分析析,必必须须对对两两种种观观象象间间的的内内在在联联系系有有所所认识。认识。(2 2)作回归分析时,一般以)作回归分析时,一般以“因因”的变的变量为量为X X,以,以“果果”的变量为的变量为Y Y。若变。若变量之间无因果关系,则以容易测定、量之间无因果关系,则以容易测定、较稳定或变异较小者为
33、较稳定或变异较小者为X X。应用直线回归应注意的问题应用直线回归应注意的问题(3 3)应应变变量量是是随随机机变变量量。自自变变量量也也是是随随机机变变量量时时,两两者者均均应应服服从从正正态态分分布布;自自变变量量为为给给定定的的量量时时,与与每每个个X X取取值值相相对应的变量对应的变量Y Y必须服从正态分布。必须服从正态分布。(4 4)回归方程只有经过检验拒绝了无效假)回归方程只有经过检验拒绝了无效假设后才有意义。设后才有意义。应用直线回归应注意的问题应用直线回归应注意的问题(5 5)回归方程的适用范围有其限度,一般)回归方程的适用范围有其限度,一般仅适用于自变量仅适用于自变量X X的原
34、数据范围内,的原数据范围内,而不能任意外推。而不能任意外推。(6 6)在进行直线回归分析之前,应绘制散)在进行直线回归分析之前,应绘制散点图,当观察点的分布有直线趋势时,点图,当观察点的分布有直线趋势时,才适宜作直线回归分析,如散点图明才适宜作直线回归分析,如散点图明显呈曲线趋势,使之直线化再行分析。显呈曲线趋势,使之直线化再行分析。1.1.在在资资料料要要求求上上,回回归归要要求求因因变变量量Y Y服服从从正正态态分分布布;X X是是可可以以精精确确测测量量和和严严格格控控制制的的变变量量,一一般般称为称为I I型回归。型回归。第三节 直线相关与回归的区别和联系区别区别相相关关要要求求两两个
35、个变变量量X X、Y Y服服从从双双变变量量正正态态分分布布。这这种种资资料料若若进进行行回回归归分分析析称称为为型回归。可以计算两个回归方程。型回归。可以计算两个回归方程。由由X X推推Y Y的回归方程:的回归方程:由由Y Y推推X X的回归方程:的回归方程:2.2.在应用上,说明两变量间依存变化在应用上,说明两变量间依存变化的数量关系用回归,说明变量间双的数量关系用回归,说明变量间双向的相互关系时用相关。向的相互关系时用相关。区别区别联系联系 1.1.对一组数据若同时计算对一组数据若同时计算r r与与b b,它们的正,它们的正负号是一致的。负号是一致的。r r为正号说明两变量间为正号说明两
36、变量间的相互关系是同向变化的。的相互关系是同向变化的。b b为正,为正,说明说明X X增增(减减)一个单位,一个单位,Y Y平均增平均增(或减或减)b)b个单位。个单位。2.r 2.r和和b b的假设检验是等价的,即对同一样的假设检验是等价的,即对同一样本,二者的本,二者的t t值相等。值相等。3.3.回归与相关可互相解释。回归与相关可互相解释。r r2 2称为决定系数称为决定系数(Coefficient of(Coefficient ofdetermination)determination)。1、区别:、区别:(1)相关的两个变量都需服从正态分布)相关的两个变量都需服从正态分布 回归中回归
37、中Y必须服从正态分布,必须服从正态分布,X不一定不一定(2)相关表示相互关系(双向),)相关表示相互关系(双向),回归表示数量依存关系(单向)回归表示数量依存关系(单向)2、联系、联系(1)同一样本同一样本r与与b的正负号是一致的的正负号是一致的(2)同一样本同一样本r与与b的假设检验是等价的的假设检验是等价的(3)相关回归可互相解释相关回归可互相解释 r2 决定系数决定系数 小小 结结1.直线回归用来描述两变量间的依存关系,主要用途是预测和控制。2.根据回归方程绘制的直线是回归线,与纵坐标交点为截距,回归直线的斜率称为回归系数。3.应变量是随机变量。自变量也是随机变量时,两者均应服从正态分布
38、;自变量为给定的量时,与每个X取值相对应的变量Y必须服从正态分布。4.对于某些非线性资料可以通过变量变换使之直线化。5.回归与相关可互相解释。1 1)回归系数越大,两变量相关关系)回归系数越大,两变量相关关系越密切越密切 ()2 2)回归系数小于)回归系数小于0 0,且有统计学意,且有统计学意义,可以认为两变量负相关义,可以认为两变量负相关 ()3 3)同一样本的)同一样本的r r和和b b的假设检验结果的假设检验结果相同相同 ()练习练习1 1 判断题判断题错误错误正确正确正确正确 1)1)回回归归方方程程 =a+bx=a+bx中中,符符号号分分别别代代表意义如下,除了表意义如下,除了 ()
39、A A 为应变量为应变量 B Ba a 为常数项为常数项 C Cb b 为回归系数为回归系数 D DX X为应变量为应变量练习练习2 2 单选题单选题2)2)关关于于直直线线相相关关系系数数与与回回归归系系数数的的关系描述错误的是关系描述错误的是 ()A Ar r大,则大,则b b也一定大也一定大 B Br r不可能大于不可能大于1 1,b b则可大于则可大于1 1 C C同一组资料,同一组资料,r r 0 0,则,则b b 0 0 D D同一组资料,同一组资料,t tr r=t=tb b练习练习2 2 单选题单选题3 3)直线回归系数的假设检验,其自由)直线回归系数的假设检验,其自由度为度为 ()A.n B.n-1 C.n-2A.n B.n-1 C.n-2D.2n-1 E.2n-2D.2n-1 E.2n-24 4)回归系数检验的无效假设是()回归系数检验的无效假设是()A.A.0 B.0 B.0 C.0 C.=0=0D.b=0 E.b 0D.b=0 E.b 0练习练习2 2 单选题单选题5)5)两两 组组 资资 料料 中中,回回 归归 系系 数数 较较 大大 的的 一一 组组 ()A A则则r r也较大也较大B B则则r r也较小也较小 C C两变量关系较密切两变量关系较密切 D D则则r r可能大也可能小可能大也可能小 练习练习2 2 单选题单选题
限制150内