《统计基础第八章课件.ppt》由会员分享,可在线阅读,更多相关《统计基础第八章课件.ppt(76页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计基础统计基础 -谢家发谢家发12/25/20221第八章第八章相关分析与回归分析相关分析与回归分析n相关关系与相关分析的一般问题相关关系与相关分析的一般问题 n相关关系的判断相关关系的判断 n回归分析与线性回归回归分析与线性回归 n应用相关分析与回归分析应注意应用相关分析与回归分析应注意的问题的问题12/25/20222第一节第一节相关关系与相关相关关系与相关分析的一般问题分析的一般问题 n相关关系的一般问题相关关系的一般问题 n相关分析的一般问题相关分析的一般问题12/25/20223一、相关关系的一般问题一、相关关系的一般问题n相关关系的含义及特点相关关系的含义及特点 n相关关系的种类
2、相关关系的种类 12/25/20224(一)相关关系的含义及特点(一)相关关系的含义及特点n相关关系的含义相关关系的含义n相关关系的特点相关关系的特点12/25/202251.相关关系的含义n函数关系函数关系n是是指指变变量量之之间间客客观观存存在在的的、完完全全确确定定的的依依存存关关系。系。n就是说变量之间的关系值是固定的,即当自变量取一个值时,因变量就有一个完全确定的值与它对应。函数关系通常可以用数学公式确切地表现出来。n相关关系相关关系n是是指指现现象象之之间间客客观观存存在在的的、不不完完全全确确定定的的依存关系。依存关系。n就是说现象之间的关系值不是固定的,即当一个现象发生数量变化
3、时,与它相关联的另一个现象虽然也发生相应的数量变化,但其关系值却是不固定的,往往同时出现几个不同的数值,在一定范围内变动着,这些数值分布在它们的平均数周围。12/25/20226例如,例如,某地区有关国内生产总值与固定资某地区有关国内生产总值与固定资产投资资料产投资资料年份年份固定资产投资固定资产投资 GDP 固定资产投资增长量固定资产投资增长量 GDPGDP增长量增长量 198919901991199219931994199519961997199844455580130170200229249284169185216266346467584678744783-110255040302920
4、35-1631508012111794663912/25/202272.相关关系的特点n现象之间确实现象之间确实存在着数量上存在着数量上的依存关系的依存关系 n现象之间数量现象之间数量上的关系不是上的关系不是确定的确定的 12/25/20228(二)相关关系的种类12/25/20229例如12/25/20221012/25/20221112/25/202212二、相关分析的一般问题二、相关分析的一般问题n相关分析的含义相关分析的含义n相关分析的作用相关分析的作用n相关分析的内容相关分析的内容 12/25/202213(一)相关分析的含义n对现象之间相关关系密切程度和对现象之间相关关系密切程度和
5、变化规律的研究以及对现象变动变化规律的研究以及对现象变动的影响因素和作用程度的分析就的影响因素和作用程度的分析就叫叫相关分析相关分析。相关分析的研究对象是相关关系 函数关系是相关分析的工具 12/25/202214(二)相关分析的作用n确定现象之间是否存在依存关系确定现象之间是否存在依存关系 n确定相关关系的表现形式确定相关关系的表现形式 n判断相关关系的密切程度和方向判断相关关系的密切程度和方向 12/25/202215(三)相关分析的内容 n在在定定性性与与定定量量分分析析的的基基础础上上,正正确确选选择择变变量量,确确定定变变量量之之间间有有无无相相关关关关系系,并并确确定定相相关关关关
6、系系的的表表现现形形式式、密密切切程程度度、变变化化规规律律、变变动动方向等;方向等;n对对具具有有相相关关关关系系的的变变量量如如何何建建立立它它们们之之间间的的数数学学模模型型或或回回归归方方程程,并并对对建建立立的的数数学学模模型型以及参数或回归系数进行相关性检验;以及参数或回归系数进行相关性检验;n根根据据一一个个或或几几个个变变量量的的数数值值,预预测测或或控控制制另另一一个个变变量量的的数数值值,并并且且了了解解这这种种预预测测或或控控制制的精确度。的精确度。12/25/202216第二节第二节相关关系的判断相关关系的判断n定性分析判断定性分析判断 n相关图表判断相关图表判断 n相
7、关系数判断相关系数判断 12/25/202217一、定性分析判断定性分析判断 n在相关关系判断中,如果对客观现象和事物进行了定性分析之后,能够肯定它们之间确实没有什么内在联系,那么也就没有必要再去对它们进行相关分析了。12/25/202218二、相关图表判断相关图表判断 n相关表判断相关表判断n相关图判断相关图判断12/25/202219(一)相关表判断相关表判断 将现象之间的相互依存关系通过表格形式来反映,将现象之间的相互依存关系通过表格形式来反映,这样一种表格就叫相关表这样一种表格就叫相关表。编制相关表时,要求变量值编制相关表时,要求变量值按照大小顺序一一对应排列。按照大小顺序一一对应排列
8、。12/25/202220n简单相关表。它是指各个变量值没有进行分组归类,只是按照自变量数值从小到大顺序,因变量数值与之逐一对应排列的相关表。n单变量分组相关表。是指只按自变量分组并计算次数,而对应的因变量不分组,只计算与自变量数值所在组对应的因变量数值的平均数。n双变量分组相关表。是指对两个变量都进行分组,交叉排列,并列出两个变量各组间共同次数的分配数列,这种特殊的数列就叫双变量分组相关表。12/25/202221(二)相关图判断相关图判断 n运用图形的方式来反映客观现象之间的相互依存关运用图形的方式来反映客观现象之间的相互依存关系,从而直观判断各变量之间所存在的相关形态、系,从而直观判断各
9、变量之间所存在的相关形态、方向和密切程度,这种图形就叫相关图。方向和密切程度,这种图形就叫相关图。12/25/202222三、相关系数判断三、相关系数判断n相关系数的意义相关系数的意义 n相关系数的计算相关系数的计算 n用用CORREL函数求相关系数函数求相关系数 n相关系数的显著性检验相关系数的显著性检验 12/25/202223(一)相关系数的意义n相关系数则是专门用来说明两相关系数则是专门用来说明两个变量之间相关关系密切程度个变量之间相关关系密切程度的指标,它可以更概括、更准的指标,它可以更概括、更准确地说明其相关的程度。确地说明其相关的程度。12/25/202224(二)相关系数的计算
10、12/25/202225例,据例,据某公司员工的受教育时间以及收入水平某公司员工的受教育时间以及收入水平资料,计算相关系数,并进行相关分析判断。资料,计算相关系数,并进行相关分析判断。受受教育时间教育时间x收入水平(元)收入水平(元)yx2y2xy8121415161718192021160 24399258873162531685482265952765128725206431365000488310 641441962252562893243614004412700 59531120167013676910001406251003939225232574707635434637294241
11、65638452591504004136161969422500000027000707378 195192310644442750475275771616101195911723041377880128626013650008408880 12/25/202226解:12/25/202227相关系数的性质 n当当|r|r|=1时时,x与与y变变量量为为完完全全线线性性相相关关,x与与y之间存在着确定的函数关系。之间存在着确定的函数关系。n当当0|r|1r|1时时,表表示示x与与y存存在在着着一一定定的的线线性性相相关关。|r|r|的的数数值值越越大大,越越接接近近于于1 1,表表示示x与与y
12、直直线线相相关关程程度度越越高高;反反之之,|r|r|的的数数值值越越小小,越越接接近近于于0 0,表表示示x与与y直直线线相相关关程程度度越越低低。一一般划分为如下几个范围,即:般划分为如下几个范围,即:n|r|0.3r|0.3称为微弱相关称为微弱相关n0.3|r|0.5r|0.5称为低度相关称为低度相关n0.5|r|0.8r|0.8称为显著相关称为显著相关n0.8|r|1r|1称为高度相关称为高度相关12/25/202228(三)用CORREL函数求相关系数n在EXCEL中有一个专用于求相关系数的函数CORREL。使用此函数,只需输入两个变量所有原始数据的起止行列号,不必进行表上各项运算,
13、即可求得相关系数。特别在数组多并数据大的情况下,使用CORREL函数计算相关系数,则显得非常简便,结果准确。12/25/202229(四)相关系数的显著性检验n用样本相关系数估计总体相关系数时,就有一个它能否具有代表性的问题,这就需要对样本相关系数进行显著性检验。检验的方法是,先计算t统计量,其计算公式是:12/25/202230例如,依据上例资料,进行显著性检验。例如,依据上例资料,进行显著性检验。12/25/202231第三节第三节回归分析与线性回归回归分析与线性回归n回归分析与相关分析的区别回归分析与相关分析的区别和联系和联系 n一元线性回归模型一元线性回归模型 n估计标准误差估计标准误
14、差 n案例案例 n多元线性回归模型多元线性回归模型 n非线性回归模型非线性回归模型 12/25/202232一、回归分析与相关分析一、回归分析与相关分析 的区别和联系的区别和联系n回归分析的意义回归分析的意义 n回归分析与相关分析的区别与联系回归分析与相关分析的区别与联系 12/25/202233(一)回归分析的意义(一)回归分析的意义n回归分析就是针对存在相关关系的两个或两个以上变量之间数量变化的形态,选择一个合适的数学模型来描述它们之间的平均变化关系,并据此进行变量之间的相互推算和预测的一种统计分析方法。12/25/202234(二)回归分析与相关分析的区别与联系n区别区别n相关分析的各个
15、变量是对等的,而回归分析的各个变量必须明确谁是自变量,谁是因变量;n只有两个变量的依存关系中,在进行相关分析时,无论x与y的地位怎样变化,都只能计算一个而且相等的反映两个变量之间相关密切程度的相关系数,而在进行回归分析时,则会因x与y地位的改变,建立两个不同的回归方程;n相关分析时要求两个变量都是随机变量,而回归分析时则要求自变量是可以控制的的变量,因变量是随机变量。n联系联系n相关分析是回归分析的基础和前提;n回归分析是相关分析的深入和继续。12/25/202235二、一元线性回归模型二、一元线性回归模型n一元线性回归模型的概念 n配合最佳的回归直线模型的条件 n用未分组资料配合回归直线模型
16、 n用分组资料配合回归直线模型 n用INTERCEPT函数求截距,SLOPE函数求斜率 12/25/202236(一)一元线性回归模型的概念n通通过过测测定定相相关关系系数数,了了解解到到两两组组数数据据之之间间相相关关关关系系的的密密切切程程度度和和方方向向,并并且且在在相相关关图图上上各各相相关关点点近近似似地地表表现现为为一一条条直直线线,就就可可以以拟拟合合一一元元线性回归模型。其模型为:线性回归模型。其模型为:12/25/202237n式中,式中,a表示直线在表示直线在y轴上的截距,轴上的截距,即自变量即自变量x取值为取值为0时因变量时因变量y的估计的估计值;值;b表示直线的斜率,称
17、为表示直线的斜率,称为y对对x的的回归系数,表明回归系数,表明x每增加一个单位时,每增加一个单位时,影响影响y平均增加的数量;平均增加的数量;是在自变是在自变量量x取值一定时因变量取值一定时因变量y的估计值,的估计值,或称理论值、趋势值。其中:或称理论值、趋势值。其中:a和和b是表示确定回归直线模型的两个待是表示确定回归直线模型的两个待定参数。要确定上述具体的回归方定参数。要确定上述具体的回归方程,关键是求出程,关键是求出a、b两个参数的值。两个参数的值。12/25/202238求解求解a、b参数的公式为:参数的公式为:12/25/202239(二)配合最佳的回归直(二)配合最佳的回归直 线模
18、型的条件线模型的条件n配合最佳的回归直线模型的首要条件是两个变量之间确实存在显著的相关关系,并且是直线相关关系;其次是a、b两个参数运用了最小平方法来确定。12/25/202240(三)用未分组资料配合回归直线模型(三)用未分组资料配合回归直线模型n根据前例资料拟合直线回归模型如下:12/25/202241根据下列线性模型:根据下列线性模型:对前例进行回归推测不同受教育时间对前例进行回归推测不同受教育时间条件下的收入水平,结果见下表所示。条件下的收入水平,结果见下表所示。12/25/202242受教育时间(年)受教育时间(年)平均收入水平(元)平均收入水平(元)收入水平趋势值收入水平趋势值 8
19、121415161718192021 24399258873162531685482265952765128725206431365000 14775318034031744574488315308857345616026585970116 16048831048831012/25/20224312/25/202244(四)用分组资料配合回归直线模型(四)用分组资料配合回归直线模型n只只要要对对各各变变量量数数值值求求和和过过程程中中进进行行加加权权即即可可,其其计算计算a、b两个参数的计算公式可以表示为:两个参数的计算公式可以表示为:12/25/202245例如:例如:xfyxfyfx2fx
20、yf 8121415161718192021 531906116591192721 24399258873162531685482265952765128725206431365000 42422808417409441871625134021 1293147491853018975036754602845334654797586152195804012862665000 33922736011762610015104317929169747800441 1034517659022360265650055131900455253441113154910550736372027602572520
21、1365000 1604744883106395163148369021523550384512/25/202246解:12/25/202247根据上述线性模型对前例进行回归推测不同受根据上述线性模型对前例进行回归推测不同受教育时间条件下的收入水平,结果见下表所示。教育时间条件下的收入水平,结果见下表所示。xfyyf趋势值趋势值加权趋势值加权趋势值8121415161718192021 531906116591192721243992588731625316854822659527651287252064313650001293147491853018975036754602845334654
22、797586152195804012862665000 12948285883640840318442284813852047559575986763777 686260543170921844746768512609428529513468427151084811973463777 160474488310163148364422761631499312/25/202248(五)用INTERCEPT函数求截距,SLOPE函数求斜率n在在EXCEL中,有一个求截距的中,有一个求截距的函数函数INTERCEPT和一个求斜和一个求斜率的函数率的函数SLOPE。12/25/202249三、估计标准误
23、差三、估计标准误差n估计标准误差的意义估计标准误差的意义n估计标准误差的计算方法估计标准误差的计算方法 n估计标准误差与相关系数的关系估计标准误差与相关系数的关系n用用LINEST函函数数建建立立直直线线回回归归模模型型并并检验检验 12/25/202250(一)估计标准误差的意义n趋势值与真正的实际值之间可能没趋势值与真正的实际值之间可能没有误差,也可能误差很小,也可能有误差,也可能误差很小,也可能误差很大。数值越大说明拟合的直误差很大。数值越大说明拟合的直线回归方程代表性越强;估计标准线回归方程代表性越强;估计标准误差就是说明直线回归方程代表性误差就是说明直线回归方程代表性的指标。的指标。
24、12/25/202251(二)估计标准误差的计(二)估计标准误差的计算方法算方法12/25/202252例如,仍依据前例资料计算估计标准误差。例如,仍依据前例资料计算估计标准误差。12/25/202253(三)估计标准误差与相关系数的关系12/25/202254(四)用LINEST函数建立直线回归模型并检验n将前表三列资料依次输入到EXCEL工作表中的A列、B列和C列后,选定D、E两列的2至6行作为记录计算结果的位置;n在“插入”菜单中单击“函数”选项,打开“粘贴函数”对话框;n在“粘贴函数”对话框的左侧选择“统计”,右侧选择“LINEST”,回车进入“LINEST”对话框;n在“LINEST
25、”对话框中并列有四个框。在第一个Known-ys框中输入“C2:C11”,在第二个Known-xs框中输入“A2:A11”。在第三个Sonst框中输入“TRUE”,在第四个Stats框中输入“TRUE”;n按Ctrl+Shift+Enter组合键结束操作,得各种计算结果如下表所示。12/25/202255参数计算表参数计算表 斜 率4256.571429-19274.14截 距斜率的标准差743.703163212220.29截距的标准差判定系数0.8037206838799.6145估计标准误差F统计量32.758242528自由度回归平方和SSR2536576046619465722剩余平
26、方和SSE12/25/202256检验如下:12/25/202257四、案例四、案例n现有某公司下属12个企业的产量和生产费用资料如下表所示。要求充分运用EXCEL统计分析软件的运算功能,绘制相关图、计算相关系数、建立回归方程并估计各企业的生产费用、计算标准误差并在显著性水平为0.05条件下对系数、方程等进行显著性检验。12/25/202258某公司下属某公司下属12个企业的产量和生产费用资料个企业的产量和生产费用资料 企业编号企业编号产量(千件)产量(千件)生产费用(千元)生产费用(千元)123456789101112 40425055657884100116125130140 130150
27、155140150154165170167180175185 12/25/2022591.用EXCEL统计分析软件绘制相关图 12/25/2022602.用EXCEL统计分析软件计算相关系数 nr=0.92023212/25/2022613.用EXCEL统计分析软件建立回归方程 12/25/2022624.用EXCEL统计分析软件计算标准误差nsy=6.76212/25/2022635.用用EXCEL统计分析软件检验相统计分析软件检验相关系数、回归方程、回归系数的关系数、回归方程、回归系数的显著性显著性 n相关系数显著性检验相关系数显著性检验 n回归方程显著性检验回归方程显著性检验 n回归系数
28、显著性检验回归系数显著性检验 12/25/202264(1)相关系数显著性检验)相关系数显著性检验 n按自由度10,显著性水平0.05,查t分布表,得t临界值为1.81,t统计量大于t临界值,说明产量与生产费用之间的相关系数是显著的。12/25/202265(2)回归方程显著性检验)回归方程显著性检验 n按第一自由度1、第二自由度10,显著性水平0.05,查F分布表,得F临界值为4.96,F统计量远大于F临界值,即知道产量与生产费用之间的线性关系是显著的。12/25/202266(3)回归系数显著性检验)回归系数显著性检验n按自由度10,显著性水平0.05,查t分布表,得t临界值为1.81,t
29、统计量远大于t临界值,说明产量与生产费用之间的回归系数是显著的。12/25/202267五、多元线性回归模型五、多元线性回归模型n多多元元线线性性回回归归,就就是是一一个个因因变变量量的的变变动动同同时时要要受受到到两两个个或或两两个个以以上上自自变变量量变变动动的的影影响响,这这种种依依存存关关系系可可用用多多元元线性回归方程表示为:线性回归方程表示为:12/25/202268n在在上上式式中中,参参数数a表表示示截截距距,参参数数bi表表示示斜斜率率,求求此此参参数数要要涉涉及及多多个个变变量量,因因此此斜斜率率、截截距距的的计计算算其其难难度度和和复复杂杂程程度度都都是是很很大大的的。但
30、但如如果果运运用用EXCEL统统计计分分析析软软件件来来处处理理则则是是非非常常容容易易的的。但但需要注意的是,其回归模型与上式不同,即:需要注意的是,其回归模型与上式不同,即:12/25/202269六、非线性回归模型六、非线性回归模型n抛物线回归模型 n双曲线回归模型 n幂曲线回归模型n指数曲线回归模型n多项式曲线回归模型n龚珀兹曲线回归模型n皮尔曲线回归模型 12/25/202270(一)抛物线回归模型(一)抛物线回归模型n许多现象的变化往往会呈现近似于抛物线形态,适合于拟合抛物线模型。它的回归模型可表示为:12/25/202271例如,例如,某农业研究所研制出了一种特效复合肥,并进行了
31、试验,在其它条某农业研究所研制出了一种特效复合肥,并进行了试验,在其它条件相同的前提下,选择了件相同的前提下,选择了10个地块进行施用,结果如下表所示。个地块进行施用,结果如下表所示。施肥量施肥量x平均单产平均单产yx2x3x4xyx2y理论值理论值0 02 24 46 68 810101212141416161818 258258329329452452500500536536562562548548503503461461398398 0 04 4161636366464100100144144196196256256324324 0 08 864642162165125121000100
32、017281728274427444096409658325832 0 0161625625612961296409640961000010000207362073638416384166553665536104976104976 0 06586581808180830003000428842885620562065766576704270427376737671647164 0 0131613167232723218000180003430434304562005620078912789129858898588118016118016128952128952 2602602962963343
33、34376376420420467467517517569569625625683683 90904547454711401140162001620024532824532843532435325415205415204547454712/25/202272解:12/25/20227312/25/202274(二)双曲线回归模型(二)双曲线回归模型12/25/202275第四节第四节相关分析与回归分相关分析与回归分析中需注意的问题析中需注意的问题n定性分析是定量分析的基础定性分析是定量分析的基础 n要注意现象质的界限及相关关要注意现象质的界限及相关关系作用的范围系作用的范围 n从实际出发,具体问题具体分从实际出发,具体问题具体分析,不可机械照搬析,不可机械照搬 n要考虑社会经济现象的复杂性要考虑社会经济现象的复杂性 n对回归模型中计算出来的参数对回归模型中计算出来的参数的有效性应进行检验的有效性应进行检验 12/25/202276
限制150内