《8-第4章相关分析与回归分析(1).ppt》由会员分享,可在线阅读,更多相关《8-第4章相关分析与回归分析(1).ppt(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章第四章 相关分析与回归分析相关分析与回归分析n 4.1 简单相关分析简单相关分析n 4.2 回归分析回归分析n 4.3 非线性回归非线性回归 变量之间的关系?变量之间的关系?函数关系:变量间确定的对应关系函数关系:变量间确定的对应关系 相关关系:变量间某种非确定的依赖关系相关关系:变量间某种非确定的依赖关系相关分析:相关分析:寻找变量间相关关系的规律寻找变量间相关关系的规律回归分析:回归分析:借助于相应的函数描述上述规律借助于相应的函数描述上述规律 4.1 简单相关分析简单相关分析n 一、相关分析的基本概念一、相关分析的基本概念n 二、用二、用INSIGHT模块作相关分析模块作相关分析n
2、 三、用三、用“分析家分析家”作相关分析作相关分析一、相关分析的基本概念一、相关分析的基本概念1.散点图散点图散点图是描述变量之间关系的一种直观方法。散点图是描述变量之间关系的一种直观方法。一组观测数据一组观测数据(xi,yi),i=1,2,n,用坐标的横轴代表自变量用坐标的横轴代表自变量X,纵轴代表因变量,纵轴代表因变量Y,每个数据每个数据(xi,yi)在坐标系中用一个点表示,在坐标系中用一个点表示,从从散散点点图图可可以以直直观观地地看看出出变变量量之之间间的的关关系系形形态态及及关关系强度。系强度。(a)(b)(c)(d)线线性性相相关关:如如果果变变量量之之间间的的关关系系近近似似地地
3、表表现现为为一一条条直线,如图直线,如图(a)和和(b);非非线线性性相相关关或或曲曲线线相相关关:如如果果变变量量之之间间的的关关系系近近似似地表现为一条曲线,如图地表现为一条曲线,如图(c);完完全全不不相相关关:如如果果两两个个变变量量的的观观测测点点很很分分散散,无无任任何规律,则表示变量之间没有相关关系,如图何规律,则表示变量之间没有相关关系,如图(d)。2.相关系数相关系数相关系数是对相关系数是对变量之间关系密切程度变量之间关系密切程度的度量。的度量。1)总体相关系数总体相关系数:根据总体全部数据计算,:根据总体全部数据计算,其其中中COV(X,Y)为为变变量量X 和和Y 的的协协
4、方方差差,D(X)和和D(Y)分别为分别为X 和和Y 的方差。的方差。2)样本相关系数样本相关系数(简称(简称相关系数相关系数):根据样本数据):根据样本数据 计算的,计算的,一一般般情情况况下下,总总体体相相关关系系数数是是未未知知的的,通通常常是是将将样样本相关系数本相关系数r 作为作为的近似估计值。的近似估计值。相关系数相关系数r 有如下性质:有如下性质:取值范围:取值范围:1 r 1,0 r 1,表明,表明X与与Y之间存在之间存在正线性相关正线性相关关系,关系,1 r 0,表明,表明X与与Y之间存在之间存在负线性相关负线性相关关系。关系。r=1,完全正线性相关关系;完全正线性相关关系;
5、r=1,完全负线性相关关系;,完全负线性相关关系;r=0,不存在线性相关关系。不存在线性相关关系。|r|0.8,高度相关;,高度相关;0.5|r|0.8,中度相关;,中度相关;0.3|r|0.5,低度相关;,低度相关;|r|0.3,相关程度极弱,可视为不相关。,相关程度极弱,可视为不相关。3.相关系数的显著性检验相关系数的显著性检验即检验总体相关系数是否显著为即检验总体相关系数是否显著为0,通常采用费歇尔(通常采用费歇尔(Fisher)提出的)提出的t分布检验。分布检验。检验步骤:检验步骤:1)提提出出假假设设:假假设设样样本本是是从从一一个个不不相相关关的的总总体体中中抽出的,即抽出的,即H
6、0:=0;H1:01)提提出出假假设设:假假设设样样本本是是从从一一个个不不相相关关的的总总体体中中抽抽出的,即出的,即H0:=0;H1:02)由样本计算检验统计量:由样本计算检验统计量:p=P|t|t0|=2Pt|t0|3)进行决策:进行决策:p ,拒绝原假设,拒绝原假设H0;p ,不能拒绝原假设,不能拒绝原假设H0。4.置信椭圆置信椭圆 可以生成两类置信椭圆:可以生成两类置信椭圆:均值置信椭圆:均值置信椭圆:预测两变量均值的置信区域;预测两变量均值的置信区域;预预测测值值置置信信椭椭圆圆:预预测测两两变变量量分分布布个个别别观观测测值值的置信区域。的置信区域。关于预测值置信椭圆的两点说明:
7、关于预测值置信椭圆的两点说明:1)作作为为置置信信曲曲线线:数数据据以以设设定定的的百百分分率率(置置信信水水平平)落入的椭圆区域;)落入的椭圆区域;2)作为相关性指标:作为相关性指标:椭圆为圆椭圆为圆表明两个变量不相关,;表明两个变量不相关,;拉长的椭圆拉长的椭圆椭圆长短轴之比来衡量相关的程度。椭圆长短轴之比来衡量相关的程度。二、用二、用INSIGHT模块作相关分析模块作相关分析【例例4-1】一一家家大大型型商商业业银银行行在在多多个个地地区区设设有有分分行行,其其业业务务主主要要是是进进行行基基础础设设施施建建设设、国国家家重重点点项项目目建建设、固定资产投资等项目的贷款设、固定资产投资等
8、项目的贷款。近近年年来来,该该银银行行的的贷贷款款额额平平稳稳增增长长,但但不不良良贷贷款款额额也也有有较较大大比比例例的的提提高高,这这给给银银行行业业务务的的发发展展带带来来较较大压力。大压力。为为弄弄清清楚楚不不良良贷贷款款形形成成的的原原因因,希希望望利利用用银银行行业业务务的的有有关关数数据据做做些些定定量量分分析析,以以便便找找出出控控制制不不良良贷贷款款的办法。的办法。表表4-1是是该该银银行行所所属属的的25家家分分行行2002年年的的有有关关业业务务数数据。据。问问题题:(1)不不良良贷贷款款是是否否与与贷贷款款余余额额、应应收收贷贷款款、贷贷款款项项目的多少、固定资产投资等
9、因素有关目的多少、固定资产投资等因素有关?(2)如果有,是一种什么样的关系如果有,是一种什么样的关系?关系强度如何关系强度如何?分行编分行编号号不良贷款不良贷款(亿元亿元)Y)Y各项贷款余各项贷款余额额(亿元亿元)x1)x1本年累计应收本年累计应收贷款贷款(亿元亿元)x2)x2贷款项目个贷款项目个数数(个个)x3)x3本年固定资产投本年固定资产投资额资额(亿元亿元)x4)x41 10.90.967.367.36.86.85 551.951.92 21.11.1111.3111.319.819.8161690.990.93 34.84.8173.0173.07.77.7171773.773.74
10、 43.23.280.880.87.27.2101014.514.55 57.87.8199.7199.716.516.5191963.263.220206.86.8139.4139.47.27.2282864.364.3212111.611.6368.2368.216.816.83232163.9163.922221.61.695.795.73.83.8101044.544.523231.21.2109.6109.610.310.3141467.967.924247.27.2196.2196.215.815.8161639.739.725253.23.2102.2102.212.012.01
11、01097.197.1表表4-1 某商业银行某商业银行2002年的主要业务数据年的主要业务数据 二、用二、用INSIGHT模块作相关分析模块作相关分析1.制作散点图制作散点图 将表将表4-1中数据存放在数据集中数据存放在数据集Mylib.bldk中中。1)在在INSIGHT模块中,打开数据集模块中,打开数据集Mylib.bldk;2)选择菜单选择菜单“Analyze”“Scatter Plot(Y X)”;3)选定选定Y变量:变量:Y;选;选X变量:变量:x1、x2、x3、x4;4)单击单击“OK”按钮,得到变量的分析结果。按钮,得到变量的分析结果。1.不不良良贷贷款款(Y)与与x1、x2、x
12、3、x4之之间间都都具具有一定的线性关系。有一定的线性关系。2.Y 与与x1的的线线性性关关系系比较密切,比较密切,与与x4之之间间的的关关系系最最不不密切。密切。2.相关系数计算相关系数计算 1)在在INSIGHT模块中,打开数据集模块中,打开数据集Mylib.bldk;2)选择菜单选择菜单“Analyze(分析)(分析)”“Multivariate(Y X)(多变量)(多变量)”;3)选定选定Y变量:变量:Y;选选X变量:变量:x1、x2、x3、x4;4)单击单击“OK”按钮,得到分析结果。按钮,得到分析结果。结果显示结果显示各变量的统计量和相关(系数)矩阵,各变量的统计量和相关(系数)矩
13、阵,相相关关矩矩阵阵:不不良良贷贷款款Y与与贷贷款款余余额额(x1)的的相相关关系系数数最最大,与固定资产投资额大,与固定资产投资额(x4)的相关系数最小。的相关系数最小。5)检验各总体变量的相关系数是否为零检验各总体变量的相关系数是否为零选选择择菜菜单单:“Tables”“CORR p-values”,得得到到相相关系数为零的原假设的关系数为零的原假设的p值,如图所示。值,如图所示。基基于于这这些些p值值,拒拒绝绝原原假假设设H0:=0,即即不不良良贷贷款款与其他几个变量之间均存在着显著的正相关关系。与其他几个变量之间均存在着显著的正相关关系。3.置信椭圆置信椭圆6)选选择择菜菜单单:“Cu
14、rves”“Scatter Plot Cont Ellipse”“Prediction:95”,得得到到不不良良贷贷款款与与其其他他几几个个变变量的散点图及预测值的置信椭圆。量的散点图及预测值的置信椭圆。Y和和x1之之间间 有有 最最强强 的的 相相关性。关性。三、用三、用“分析家分析家”作相关分析作相关分析【例例4-2】通通常常用用单单位位面面积积的的营营业业额额Y来来评评价价商商业业中中心心经经营营好好坏坏,它它是是单单位位时时间间内内(通通常常为为一一年年)的的营营业业额额与与经营面积的比值。经营面积的比值。影影响响因因素素:单单位位小小时时车车流流量量x1、日日人人流流量量x2、居居民
15、民年年平平均均消消费费额额x3、消消费费者者对对商商场场的的环环境境x4、对对设设施施满满意意度度x5、对商品的丰富程度的满意度评分、对商品的丰富程度的满意度评分x6。x1、x2:同时对几个商业中心进行实地观测得到的。:同时对几个商业中心进行实地观测得到的。x3x5:通过随机采访顾客而得到的平均值数据。:通过随机采访顾客而得到的平均值数据。表表4-2为为从从某某市市随随机机抽抽取取的的20个个商商业业中中心心有有关关指指标标的的数数据,试据此说明变量间的相关程度。据,试据此说明变量间的相关程度。表表4-2 20个商业中心有关指标的数据个商业中心有关指标的数据商业中商业中心编号心编号单位面积年单
16、位面积年营业额营业额(万元万元/平方米平方米)Y)Y每小时机每小时机动车流量动车流量(万辆万辆)x1)x1日人流日人流量量 (万万人人)x2)x2居民年消居民年消费额费额(万万元元)x3)x3对商场环对商场环境满意度境满意度x4x4对商场设对商场设施满意度施满意度x5x5对商品丰对商品丰富程度满富程度满意度意度x6x61 12.52.50.510.513.903.901.941.947 79 96 62 23.23.20.260.264.244.242.862.867 74 46 63 32.52.50.720.724.544.541.631.638 88 87 74 43.43.41.231
17、.236.986.981.921.926 6101010105 51.81.80.690.694.214.210.710.718 84 47 76 60.90.90.360.362.912.910.620.625 56 65 515152.62.61.041.045.535.531.301.3010107 79 916162.72.71.181.185.985.981.281.288 87 79 917171.41.40.610.611.271.271.481.486 67 71 118183.23.21.051.055.775.772.162.167 710109 919192.92.91.
18、061.065.715.711.741.746 69 99 920202.52.50.580.584.114.111.851.857 79 96 6将表将表4-2数据保存在数据集数据保存在数据集Mylib.jyzk中。中。1.相关分析的设置相关分析的设置 1)在在“分析家分析家”中打开数据集中打开数据集Mylib.jyzk;2)选选择择主主菜菜单单“Statistics”“Descriptive(描述性统计)(描述性统计)”“Correlations(相关)(相关)”,在在“Correlations”对话框,设置分析变量及内容。对话框,设置分析变量及内容。2.结果分析结果分析首首先先给给出出各
19、各个个变变量量的的描描述述性性统统计计量量,包包括括观观测测总总数数、各变量的均值及标准差等。各变量的均值及标准差等。然后给出变量的相关系数矩阵,原假设然后给出变量的相关系数矩阵,原假设 H0:=0的检验结果,即的检验结果,即p值。值。分析分析:(1)Y与与x3、x2接近高度相关;接近高度相关;Y与与x1、x4、x5为低度相关;为低度相关;Y与与x6中度相关。中度相关。(2)Y与与x3、x2、x6、x5,p =0.05,接受接受H0。3.置信椭圆置信椭圆在分析家窗口的项目管理器中,在分析家窗口的项目管理器中,依依次次双双击击“Scatter Plots”下下的的“Confidence ellipse:Y X1”“Confidence ellipse:Y X6”项,项,得到各变量与单位面积营业额的散点图。得到各变量与单位面积营业额的散点图。Y与与x1、x2、x3、x4、x5、x6的散点图及置信椭圆的散点图及置信椭圆单位面积营业额单位面积营业额Y与各指标均与各指标均呈正相关呈正相关关系。关系。居居民民年年消消费费额额(x3)与与Y的的相相关关关关系系较较强强,置置信信椭椭圆圆较较扁长;扁长;顾顾客客对对商商场场设设施施的的满满意意度度(x4)与与Y的的相相关关程程度度较较小小,置信椭圆接近于圆。置信椭圆接近于圆。
限制150内