统计软件选讲ch4.ppt
《统计软件选讲ch4.ppt》由会员分享,可在线阅读,更多相关《统计软件选讲ch4.ppt(115页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章 相关分析与回归分析4.1 简单相关分析简单相关分析4.2 回归分析回归分析4.3 非线性回归非线性回归4.1 4.1 简单相关分析简单相关分析4.1.1 相关分析的基本概念相关分析的基本概念4.1.2 用用INSIGHT模块作相关分析模块作相关分析4.1.3 用用“分析家分析家”作相关分析作相关分析4.1.1 相关分析的基本概念相关分析的基本概念1.1.散点图散点图 散散点点图图是是描描述述变变量量之之间间关关系系的的一一种种直直观观方方法法。我我们们用用坐坐标标的的横横轴轴代代表表自自变变量量X,纵纵轴轴代代表表因因变变量量Y,每每组组数数据据(xi,yi)在在坐坐标标系系中中用用一
2、一个个点点表表示示,由由这这些些点点形形成成的的散散点点图图描描述述了了两两个个变变量量之之间间的的大大致致关关系系,从从中中可可以以直直观观地地看看出变量之间的关系形态及关系强度。出变量之间的关系形态及关系强度。图图4-1就是不同形态的散点图。就是不同形态的散点图。(a)(b)(c)(d)就就两两个个变变量量而而言言,如如果果变变量量之之间间的的关关系系近近似似地地表表现现为为一一条条直直线线,则则称称为为线线性性相相关关,如如图图4-1(a)和和(b);如如果果变变量量之之间间的的关关系系近近似似地地表表现现为为一一条条曲曲线线,则则称称为为非非线线性性相相关关或或曲曲线线相相关关;如如图
3、图4-1(c);如如果果两两个个变变量量的的观观测测点点很很分分散散,无无任任何何规规律律,则则表表示示变变量量之之间间没没有有相相关关关关系系,如如图图4-l(d)。2.2.相关系数相关系数 相相关关系系数数是是对对变变量量之之间间关关系系密密切切程程度度的的度度量量。若若相相关关系系数数是是根根据据总总体体全全部部数数据据计计算算的的,称称为为总总体体相相关关系系数数,记为记为;总体相关系数的计算公式为:;总体相关系数的计算公式为:其其中中COV(X,Y)为为变变量量X和和Y的的协协方方差差,D(X)和和D(Y)分分别别为为X和和Y的方差。的方差。若若相相关关系系数数是是根根据据样样本本数
4、数据据计计算算的的,则则称称为为样样本本相相关关系系数数(简简称称为为相相关关系系数数),记记为为r。样样本本相相关关系系数数的的计计算公式为:算公式为:一一般般情情况况下下,总总体体相相关关系系数数是是未未知知的的,我我们们通通常常是是将样本相关系数将样本相关系数r作为作为的近似估计值。的近似估计值。相关系数相关系数r有如下性质:有如下性质:相相关关系系数数的的取取值值范范围围:1 r 1,若若0 r 1,表表明明X与与Y之之间间存存在在正正线线性性相相关关关关系系,若若1 r 0,表表明明X与与Y之间存在负线性相关关系。之间存在负线性相关关系。若若r=1,表表明明X与与Y之之间间为为完完全
5、全正正线线性性相相关关关关系系;若若r=1,表表明明X与与Y之之间间为为完完全全负负线线性性相相关关关关系系;若若r=0,说明二者之间不存在线性相关关系。,说明二者之间不存在线性相关关系。相关系数相关系数r有如下性质:有如下性质:当当1 r 1时时,为为说说明明两两个个变变量量之之间间的的线线性性关关系系的的密密切切程程度度,通通常常将将相相关关程程度度分分为为以以下下几几种种情情况况:当当|r|0.8时时,可可视视为为高高度度相相关关;0.5|r|0.8时时,可可视视为为中中度度相相关关;0.3|r|0.5时时,视视为为低低度度相相关关;当当|r|0.3时时,说说明明两两个个变变量量之之间间
6、的的相相关关程程度度极极弱弱,可可视视为为不不相相关关。但但这这种种解解释释必必须须建建立立在在对对相相关关系系数数进进行行显显著著性性检检验验的的基基础础之上。之上。3.3.相关系数的显著性检验相关系数的显著性检验 相相关关系系数数的的显显著著性性检检验验也也就就是是检检验验总总体体相相关关系系数数是是否否显显著著为为0,通通常常采采用用费费歇歇尔尔(Fisher)提提出出的的t分分布布检检验验,该该检检验验可可以以用用于于小小样样本本,也也可可以以用用于于大大样样本本。检检验验的的具具体步骤如下:体步骤如下:1)提提出出假假设设:假假设设样样本本是是从从一一个个不不相相关关的的总总体体中中
7、抽抽出出的,即的,即H0:=0;H1:0 1)提提出出假假设设:假假设设样样本本是是从从一一个个不不相相关关的的总总体体中中抽抽出出的,即的,即H0:=0;H1:0 2)由样本观测值计算检验统计量:由样本观测值计算检验统计量:的观测值的观测值t0和衡量观测结果极端性的和衡量观测结果极端性的p值:值:p=P|t|t0|=2Pt|t0|3)进进行行决决策策:比比较较p和和检检验验水水平平 作作判判断断:p ,拒拒绝原假设绝原假设H0;p ,不能拒绝原假设,不能拒绝原假设H0。4.4.置信椭圆置信椭圆 可以生成两类置信椭圆:可以生成两类置信椭圆:均值置信椭圆:预测两变量均值的置信区域;均值置信椭圆:
8、预测两变量均值的置信区域;预预测测值值置置信信椭椭圆圆:预预测测两两变变量量分分布布个个别别观观测测值值的的置置信区域。信区域。关于预测值置信椭圆的两点说明:关于预测值置信椭圆的两点说明:1)作作为为置置信信曲曲线线,表表示示数数据据以以设设定定的的百百分分率率(置置信信水水平)落入的椭圆区域;平)落入的椭圆区域;2)作作为为相相关关性性指指标标。若若两两个个变变量量不不相相关关,椭椭圆圆应应该该为为圆圆;两两个个相相关关的的变变量量有有拉拉长长的的椭椭圆圆,可可以以用用椭椭圆圆长长短短轴轴之比来衡量相关的程度。之比来衡量相关的程度。4.1.2 用用INSIGHT模块作相关分析模块作相关分析【
9、例例4-1】一一家家大大型型商商业业银银行行在在多多个个地地区区设设有有分分行行,其其业业务务主主要要是是进进行行基基础础设设施施建建设设、国国家家重重点点项项目目建建设设、固固定定资资产产投投资资等等项项目目的的贷贷款款。近近年年来来,该该银银行行的的贷贷款款额额平平稳稳增增长长,但但不不良良贷贷款款额额也也有有较较大大比比例例的的提提高高,这这给给银银行行业业务务的的发发展展带带来来较较大大压压力力。为为弄弄清清楚楚不不良良贷贷款款形形成成的的原原因因,希希望望利利用用银银行行业业务务的的有有关关数数据据做做些些定定量量分分析析,以以便便找找出出控控制制不不良良贷贷款款的的办办法法。表表4
10、-1就就是是该该银银行行所所属属的的25家分行家分行2002年的有关业务数据。年的有关业务数据。表4-1 某商业银行2002年的主要业务数据银银行行想想知知道道,不不良良贷贷款款是是否否与与贷贷款款余余额额、应应收收贷贷款款、贷贷款款项项目目的的多多少少、固固定定资资产产投投资资等等因因素素有有关关?如如果果有有,是是一种什么样的关系一种什么样的关系?关系强度如何关系强度如何?分行编号不良贷款(亿元)x1各项贷款余额(亿元)x2本年累计应收贷款(亿元)x3贷款项目个数(个)x4本年固定资产投资额(亿元)x510.967.36.8551.921.1111.319.81690.934.8173.0
11、7.71773.743.280.87.21014.557.8199.716.51963.2206.8139.47.22864.32111.6368.216.832163.9221.695.73.81044.5231.2109.610.31467.9247.2196.215.81639.7253.2102.212.01097.1 设表设表4-1中数据已经存放在数据集中数据已经存放在数据集Mylib.bldk中。中。1.1.制作散点图制作散点图 首首先先制制作作变变量量之之间间的的散散点点图图,以以便便判判断断变变量量之之间间的的相相关性。步骤如下:关性。步骤如下:1)在在INSIGHT模块中,打
12、开数据集模块中,打开数据集Mylib.bldk;2)选选择择菜菜单单“Analyze(分分析析)”“Scatter Plot(Y X)(散点图)(散点图)”;3)在在打打开开的的“Scatter Plot(Y X)”对对话话框框中中选选定定Y变变量:量:Y;选定;选定X变量:变量:x1、x2、x3、x4;4)单击单击“OK”按钮,得到变量的分析结果。按钮,得到变量的分析结果。从从各各散散点点图图中中可可以以看看出出,不不良良贷贷款款(Y)与与贷贷款款余余额额(x1)、应应收收贷贷款款(x2)、贷贷款款项项目目多多少少(x3)、固固定定资资产产投投资资额额(x4)之之间间都都具具有有一一定定的的
13、线线性性关关系系。但但从从各各散散点点的的分分布布情情况况看看,与与贷贷款款余余额额(x1)的的线线性性关关系系比比较较密密切切,而而与与固固定定资资产产投投资资额额(x4)之之间间的的关关系最不密切。系最不密切。2.2.相关系数计算相关系数计算 1)在在INSIGHT模块中,打开数据集模块中,打开数据集Mylib.bldk;2)选选择择菜菜单单“Analyze(分分析析)”“Multivariate(Y X)(多变量)(多变量)”;3)在在打打开开的的“Multivariate(Y X)”对对话话框框中中选选定定Y变变量:量:Y;选定;选定X变量:变量:x1、x2、x3、x4;4)单击单击“
14、OK”按钮,得到分析结果。按钮,得到分析结果。结结果果显显示示各各变变量量的的统统计计量量和和相相关关(系系数数)矩矩阵阵,从从相相关关矩矩阵阵中中可可以以看看出出,在在不不良良贷贷款款Y与与其其他他几几个个变变量量的的关关系系中中,与与贷贷款款余余额额(x1)的的相相关关系系数数最最大大,而而与与固固定定资资产产投投资额资额(x4)的相关系数最小。的相关系数最小。5)为为了了检检验验各各总总体体变变量量的的相相关关系系数数是是否否为为零零,选选择择菜菜单单:“Tables”“CORR p-values”,得得到到相相关关系系数数为为零零的原假设的的原假设的p值,如图值,如图4-6所示。所示。
15、基基于于这这些些p值值,拒拒绝绝原原假假设设,即即不不良良贷贷款款与与其其他他几几个个变量之间均存在着显著的正相关关系。变量之间均存在着显著的正相关关系。3.3.置信椭圆置信椭圆 继续上述步骤。继续上述步骤。6)选选 择择 菜菜 单单:“Curves”“Scatter Plot Cont Ellipse”“Prediction:95”,得得到到不不良良贷贷款款与与其其他他几几个变量的散点图及预测值的置信椭圆,如图所示。个变量的散点图及预测值的置信椭圆,如图所示。变变量量Y和和x1间间散散点点图图上上的的这这个个椭椭圆圆被被拉拉得得很很长长,表表明明变变量量Y和和x1之间有很强的相关性。之间有很
16、强的相关性。4.1.3 用用“分析家分析家”作相关分析作相关分析【例例4-2】通通常常用用来来评评价价商商业业中中心心经经营营好好坏坏的的一一个个综综合合指指标标是是单单位位面面积积的的营营业业额额,它它是是单单位位时时间间内内(通通常常为为一一年年)的的营营业业额额与与经经营营面面积积的的比比值值。对对单单位位面面积积营营业业额额的的影影响响因因素素的的指指标标有有单单位位小小时时车车流流量量、日日人人流流量量、居居民民年年平平均均消消费费额额、消消费费者者对对商商场场的的环环境境、设设施施及及商商品品的的丰丰富富程程度度的的满满意意度度评评分分。这这几几个个指指标标中中车车流流量量和和人人
17、流流量量是是通通过过同同时时对对几几个个商商业业中中心心进进行行实实地地观观测测而而得得到到的的。而而居居民民年年平平均均消消费费额额、消消费费者者对对商商场场的的环环境境、设设施施及及商商品品的的丰丰富富程程度度的的满满意意度度评评分分是是通通过过随随机机采采访访顾顾客客而而得得到到的的平平均均值值数数据据。表表4-2为为从从某某市市随随机机抽抽取取的的20个个商商业业中中心心有有关关指标的数据,试据此说明变量间的相关程度。指标的数据,试据此说明变量间的相关程度。表4-2 20个商业中心有关指标的数据设表设表4-2数据已保存在数据集数据已保存在数据集Mylib.jyzk中。中。商业中心编号单
18、位面积年营业额(万元/平方米)Y每小时机动车流量(万辆)x1日人流量 (万人)x2居民年消费额(万元)x3对商场环境满意度x4对商场设施满意度x5对商场商品丰富程度满意度x612.50.513.901.9479623.20.264.242.8674632.50.724.541.6388743.41.236.981.926101051.80.694.210.7184760.90.362.910.62565152.61.045.531.301079162.71.185.981.28879171.40.611.271.48671183.21.055.772.167109192.91.065.711.
19、74699202.50.584.111.857961.1.相关分析的设置相关分析的设置 在在“分析家分析家”中作相关分析的步骤如下:中作相关分析的步骤如下:1)在在“分析家分析家”中打开数据集中打开数据集Mylib.jyzk;2)选选择择主主菜菜单单“Statistics”“Descriptive(描描述述性性统统计计)”“Correlations(相相关关)”,打打开开“Correlations”对对话话框框,按按图图4-8 设设置置分分析析变变量量及及内内容。容。2.2.结果分析结果分析 显显示示结结果果首首先先给给出出各各个个变变量量的的描描述述性性统统计计量量,包包括括观观测测总总数数
20、、各各变变量量的的均均值值及及标标准准差差等等。然然后后给给出出变变量量的的相相关关系系数数矩矩阵阵(分分析析变变量量中中任任两两者者之之间间的的相相关关系系数数),以以及及原原假假设设为为H0:Rho=0(即即H0:=0)的的检检验验结结果果(仅给出(仅给出p值),如图值),如图4-9所示。所示。从从相相关关系系数数的的取取值值来来看看,单单位位面面积积营营业业额额(Y)与与居居民民年年消消费费额额(x3)、日日人人流流量量(x2)接接近近高高度度相相关关;单单位位面面积积营营业业额额(Y)与与每每小小时时机机动动车车流流量量(x1)、对对商商场场环环境境的的满满意意度度(x4)、对对商商场
21、场设设施施的的满满意意度度(x5)为为低低度度相相关关;单单位位面面积积营营业业额额(Y)与与商商场场商商品品丰丰富富程程度度满意度(满意度(x6)则属于中度相关。)则属于中度相关。从从相相关关系系数数的的假假设设检检验验结结果果来来看看,单单位位面面积积营营业业额额(Y)与与居居民民年年消消费费额额(x3)、日日人人流流量量(x2)、商商场场商商品品的的丰丰富富程程度度满满意意度度(x6)、对对商商场场设设施施的的满满意意度度(x5)的的相相关关系系数数显显著著不不为为0(p 10即即可可认认为为模模型型有有很很强强的的共共线线问问题。题。8.8.利用回归方程进行预测利用回归方程进行预测(1
22、)点预测点预测 假设通过检验的假设通过检验的“最优最优”回归方程为回归方程为当当自自变变量量的的一一组组新新观观测测值值x0=(x01,x02,x0k)对对应应的的因变量的预测值为因变量的预测值为(2)区间预测区间预测 区间预测分为均值的预测区间和个体的预测区间。区间预测分为均值的预测区间和个体的预测区间。若若将将 理理解解为为E(y0)的的预预测测值值,则则在在给给定定的的显显著著水水平平 下,下,E(y0)的置信区间为的置信区间为其其中中,n为为观观测测次次数数,k为为自自变变量个数。量个数。若若将将 理理解解为为个个体体值值y0的的预预测测值值,则则在在给给定定的的显显著著水水平平 下,
23、下,y0的置信区间为的置信区间为4.2.2 用用INSIGHT模块作回归分析模块作回归分析【例例4-3】根根据据例例4-1的的数数据据集集Mylib.bldk,建建立立不不良良贷贷款的预测公式。款的预测公式。1.1.一元线性回归一元线性回归 建立不良贷款对贷款余额的回归方程。建立不良贷款对贷款余额的回归方程。(1)分析分析 1)在在INSIGHT模模块块中中打打开开数数据据集集Mylib.bldk。选选择择菜菜单单“Analyze”“Fit(Y X)”,打开,打开“Fit(Y X)”对话框;对话框;2)在在“Fit(Y X)”对对话话框框中中,将将Y设设为为响响应应变变量量,将将x1设为自变量
24、;设为自变量;3)单击单击“OK”按钮,得到分析结果。按钮,得到分析结果。显示的结果分为若干张表:显示的结果分为若干张表:第第一一张张表表提提供供关关于于拟拟合合模模型型的的一一般般信信息息,Y=x1表表示示这个分析是以这个分析是以Y为响应变量,为响应变量,x1为自变量的线性模型;为自变量的线性模型;第二张表给出回归方程:第二张表给出回归方程:第第三三张张表表是是带带有有回回归归直直线线的的散散点点图图,给给出出了了回回归归的的图图形表示,如图;形表示,如图;图图的的下下面面是是参参数数回回归归拟拟合合表表(图图4-14)。其其中中判判定定系系数数R-Square(R2)为为模模型型平平方方和
25、和占占总总平平方方和和的的比比例例,反反映了回归方程能够解释的信息占总信息的比例;映了回归方程能够解释的信息占总信息的比例;第第四四张张表表提提供供拟拟合合的的汇汇总总度度量量(图图4-15):Mean of Response(响响应应变变量量的的均均值值)是是变变量量Y的的平平均均值值,Root MSE(均均方方残残差差平平方方根根)是是对对各各观观测测点点在在直直线线周周围围分分散散程程度度的的一一个个度度量量值值,为为随随机机误误差差的的标标准准差差(也也是是实实测测值值Y的标准差)的标准差)的无偏估计。的无偏估计。第第五五张张方方差差分分析析表表(图图4-16)包包含含对对回回归归方方
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 软件 ch4
限制150内