第四章 相关分析与回归分析.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第四章 相关分析与回归分析.ppt》由会员分享,可在线阅读,更多相关《第四章 相关分析与回归分析.ppt(115页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程第四章 相关分析与回归分析n4.1 简单相关分析简单相关分析n4.2 回归分析回归分析n4.3 非线性回归非线性回归STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程n4.1 4.1 简单相关分析简单相关分析n4.1.1 相关分析的基本概念相关分析的基本概念n4.1.2 用用INSIGHT模块作相关分析模块作相关分析n4.1.3 用用“分析家分析家”作相关分析作相关分析STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.1.1 相关分析的基本概念相关分析
2、的基本概念1.1.散点图散点图 散散点点图图是是描描述述变变量量之之间间关关系系的的一一种种直直观观方方法法。我我们们用用坐坐标标的的横横轴轴代代表表自自变变量量X,纵纵轴轴代代表表因因变变量量Y,每每组组数数据据(xi,yi)在在坐坐标标系系中中用用一一个个点点表表示示,由由这这些些点点形形成成的的散散点点图图描描述述了了两两个个变变量量之之间间的的大大致致关关系系,从从中中可可以以直直观观地地看看出变量之间的关系形态及关系强度。出变量之间的关系形态及关系强度。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程图图4-1就是不同形态的散点图。就是不同形态的散点图
3、。(a)(b)(c)(d)就就两两个个变变量量而而言言,如如果果变变量量之之间间的的关关系系近近似似地地表表现现为为一一条条直直线线,则则称称为为线线性性相相关关,如如图图4-1(a)和和(b);如如果果变变量量之之间间的的关关系系近近似似地地表表现现为为一一条条曲曲线线,则则称称为为非非线线性性相相关关或或曲曲线线相相关关;如如图图4-1(c);如如果果两两个个变变量量的的观观测测点点很很分分散散,无无任任何何规规律律,则则表表示示变变量量之之间间没没有有相相关关关关系系,如如图图4-l(d)。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.相关系数相
4、关系数 相相关关系系数数是是对对变变量量之之间间关关系系密密切切程程度度的的度度量量。若若相相关关系系数数是是根根据据总总体体全全部部数数据据计计算算的的,称称为为总总体体相相关关系系数数,记为记为;总体相关系数的计算公式为:;总体相关系数的计算公式为:其其中中COV(X,Y)为为变变量量X和和Y的的协协方方差差,D(X)和和D(Y)分分别别为为X和和Y的方差。的方差。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 若若相相关关系系数数是是根根据据样样本本数数据据计计算算的的,则则称称为为样样本本相相关关系系数数(简简称称为为相相关关系系数数),记记为为r。样
5、样本本相相关关系系数数的的计计算公式为:算公式为:一一般般情情况况下下,总总体体相相关关系系数数是是未未知知的的,我我们们通通常常是是将样本相关系数将样本相关系数r作为作为的近似估计值。的近似估计值。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 相关系数相关系数r有如下性质:有如下性质:相相关关系系数数的的取取值值范范围围:1 r 1,若若0 r 1,表表明明X与与Y之之间间存存在在正正线线性性相相关关关关系系,若若1 r 0,表表明明X与与Y之间存在负线性相关关系。之间存在负线性相关关系。若若r=1,表表明明X与与Y之之间间为为完完全全正正线线性性相相关关
6、关关系系;若若r=1,表表明明X与与Y之之间间为为完完全全负负线线性性相相关关关关系系;若若r=0,说明二者之间不存在线性相关关系。,说明二者之间不存在线性相关关系。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 相关系数相关系数r有如下性质:有如下性质:当当1 r 1时时,为为说说明明两两个个变变量量之之间间的的线线性性关关系系的的密密切切程程度度,通通常常将将相相关关程程度度分分为为以以下下几几种种情情况况:当当|r|0.8时时,可可视视为为高高度度相相关关;0.5|r|0.8时时,可可视视为为中中度度相相关关;0.3|r|0.5时时,视视为为低低度度相相
7、关关;当当|r|0.3时时,说说明明两两个个变变量量之之间间的的相相关关程程度度极极弱弱,可可视视为为不不相相关关。但但这这种种解解释释必必须须建建立立在在对对相相关关系系数数进进行行显显著著性性检检验验的基础之上。的基础之上。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.相关系数的显著性检验相关系数的显著性检验 相相关关系系数数的的显显著著性性检检验验也也就就是是检检验验总总体体相相关关系系数数是是否否显显著著为为0,通通常常采采用用费费歇歇尔尔(Fisher)提提出出的的t分分布布检检验验,该该检检验验可可以以用用于于小小样样本本,也也可可以以用用
8、于于大大样样本本。检检验验的的具具体步骤如下:体步骤如下:1)提提出出假假设设:假假设设样样本本是是从从一一个个不不相相关关的的总总体体中中抽抽出出的,即的,即H0:=0;H1:0STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 1)提提出出假假设设:假假设设样样本本是是从从一一个个不不相相关关的的总总体体中中抽抽出出的,即的,即H0:=0;H1:0 2)由样本观测值计算检验统计量:由样本观测值计算检验统计量:的观测值的观测值t0和衡量观测结果极端性的和衡量观测结果极端性的p值:值:p=P|t|t0|=2Pt|t0|3)进进行行决决策策:比比较较p和和检检验验水
9、水平平 作作判判断断:p ,拒拒绝原假设绝原假设H0;p ,不能拒绝原假设,不能拒绝原假设H0。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.4.置信椭圆置信椭圆 可以生成两类置信椭圆:可以生成两类置信椭圆:均值置信椭圆:预测两变量均值的置信区域;均值置信椭圆:预测两变量均值的置信区域;预预测测值值置置信信椭椭圆圆:预预测测两两变变量量分分布布个个别别观观测测值值的的置置信区域。信区域。关于预测值置信椭圆的两点说明:关于预测值置信椭圆的两点说明:1)作作为为置置信信曲曲线线,表表示示数数据据以以设设定定的的百百分分率率(置置信信水水平)落入的椭圆区域;平)
10、落入的椭圆区域;2)作作为为相相关关性性指指标标。若若两两个个变变量量不不相相关关,椭椭圆圆应应该该为为圆圆;两两个个相相关关的的变变量量有有拉拉长长的的椭椭圆圆,可可以以用用椭椭圆圆长长短短轴轴之比来衡量相关的程度。之比来衡量相关的程度。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.1.2 用用INSIGHT模块作相关分析模块作相关分析【例例4-1】一一家家大大型型商商业业银银行行在在多多个个地地区区设设有有分分行行,其其业业务务主主要要是是进进行行基基础础设设施施建建设设、国国家家重重点点项项目目建建设设、固固定定资资产产投投资资等等项项目目的的贷贷款
11、款。近近年年来来,该该银银行行的的贷贷款款额额平平稳稳增增长长,但但不不良良贷贷款款额额也也有有较较大大比比例例的的提提高高,这这给给银银行行业业务务的的发发展展带带来来较较大大压压力力。为为弄弄清清楚楚不不良良贷贷款款形形成成的的原原因因,希希望望利利用用银银行行业业务务的的为为弄弄清清楚楚不不良良贷贷款款形形成成的的原原因因,希希望望利利用用银银行行业业务务的的有有关关数数据据做做些些定定量量分分析析,以以便便找找出出控控制制不不良良贷贷款款的的办办法法。表表4-1就就是是该该银银行行所所属属的的25家家分分行行2002年的有关业务数据。年的有关业务数据。STATSTATSTATSTATS
12、ASSAS软件与统计应用教程软件与统计应用教程表4-1 某商业银行2002年的主要业务数据银银行行想想知知道道,不不良良贷贷款款是是否否与与贷贷款款余余额额、应应收收贷贷款款、贷贷款款项项目目的的多多少少、固固定定资资产产投投资资等等因因素素有有关关?如如果果有有,是是一种什么样的关系一种什么样的关系?关系强度如何关系强度如何?分行编号不良贷款(亿元)x1各项贷款余额(亿元)x2本年累计应收贷款(亿元)x3贷款项目个数(个)x4本年固定资产投资额(亿元)x510.967.36.8551.921.1111.319.81690.934.8173.07.71773.743.280.87.21014.
13、557.8199.716.51963.2206.8139.47.22864.32111.6368.216.832163.9221.695.73.81044.5231.2109.610.31467.9247.2196.215.81639.7253.2102.212.01097.1STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 设表设表4-1中数据已经存放在数据集中数据已经存放在数据集Mylib.bldk中。中。1.1.制作散点图制作散点图 首首先先制制作作变变量量之之间间的的散散点点图图,以以便便判判断断变变量量之之间间的的相相关性。步骤如下:关性。步骤如下:1
14、)在在INSIGHT模块中,打开数据集模块中,打开数据集Mylib.bldk;2)选选择择菜菜单单“Analyze(分分析析)”“Scatter Plot(Y X)(散点图)(散点图)”;3)在在打打开开的的“Scatter Plot(Y X)”对对话话框框中中选选定定Y变变量:量:Y;选定;选定X变量:变量:x1、x2、x3、x4;4)单击单击“OK”按钮,得到变量的分析结果。按钮,得到变量的分析结果。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 从从各各散散点点图图中中可可以以看看出出,不不良良贷贷款款(Y)与与贷贷款款余余 额额(x1)、应应 收收 贷
15、贷 款款(x2)、贷贷 款款 项项 目目 多多 少少(x3)、固固定定资资产产投投资资额额(x4)之之间间都都具具有有一一定定的的线线性性关关系系。但但从从各各散散点点的的分分布布情情况况看看,与与贷贷款款余余额额(x1)的的线线性性关关系系比比较较密密切切,而而与与固固定定资资产产投投资资额额(x4)之之间间的的关关系系最不密切。最不密切。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.相关系数计算相关系数计算 1)在在INSIGHT模块中,打开数据集模块中,打开数据集Mylib.bldk;2)选选择择菜菜单单“Analyze(分分析析)”“Multi
16、variate(Y X)(多变量)(多变量)”;3)在在打打开开的的“Multivariate(Y X)”对对话话框框中中选选定定Y变变量:量:Y;选定;选定X变量:变量:x1、x2、x3、x4;4)单击单击“OK”按钮,得到分析结果。按钮,得到分析结果。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程结结果果显显示示各各变变量量的的统统计计量量和和相相关关(系系数数)矩矩阵阵,从从相相关关矩矩阵阵中中可可以以看看出出,在在不不良良贷贷款款Y与与其其他他几几个个变变量量的的关关系系中中,与与贷贷款款余余额额(x1)的的相相关关系系数数最最大大,而而与与固固定定资
17、资产产投投资额资额(x4)的相关系数最小。的相关系数最小。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 5)为为了了检检验验各各总总体体变变量量的的相相关关系系数数是是否否为为零零,选选择择菜菜单单:“Tables”“CORR p-values”,得得到到相相关关系系数数为为零零的原假设的的原假设的p值,如图值,如图4-6所示。所示。基基于于这这些些p值值,拒拒绝绝原原假假设设,即即不不良良贷贷款款与与其其他他几几个个变量之间均存在着显著的正相关关系。变量之间均存在着显著的正相关关系。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应
18、用教程3.3.置信椭圆置信椭圆 继续上述步骤。继续上述步骤。6)选选 择择 菜菜 单单:“Curves”“Scatter Plot Cont Ellipse”“Prediction:95”,得得到到不不良良贷贷款款与与其其他他几几个变量的散点图及预测值的置信椭圆,如图所示。个变量的散点图及预测值的置信椭圆,如图所示。变变量量Y和和x1间间散散点点图图上上的的这这个个椭椭圆圆被被拉拉得得很很长长,表表明明变变量量Y和和x1之间有很强的相关性。之间有很强的相关性。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.1.3 用用“分析家分析家”作相关分析作相关分析【例
19、例4-2】通通常常用用来来评评价价商商业业中中心心经经营营好好坏坏的的一一个个综综合合指指标标是是单单位位面面积积的的营营业业额额,它它是是单单位位时时间间内内(通通常常为为一一年年)的的营营业业额额与与经经营营面面积积的的比比值值。对对单单位位面面积积营营业业额额的的影影响响因因素素的的指指标标有有单单位位小小时时车车流流量量、日日人人流流量量、居居民民年年平平均均消消费费额额、消消费费者者对对商商场场的的环环境境、设设施施及及商商品品的的丰丰富富程程度度的的满满意意度度评评分分。这这几几个个指指标标中中车车流流量量和和人人流流量量是是通通过过同同时时对对几几个个商商业业中中心心进进行行实实
20、地地观观测测而而得得到到的的。而而居居民民年年平平均均消消费费额额、消消费费者者对对商商场场的的环环境境、设设施施及及商商品品的的丰丰富富程程度度的的满满意意度度评评分分是是通通过过随随机机采采访访顾顾客客而而得得到到的的平平均均值值数数据据。表表4-2为为从从某某市市随随机机抽抽取取的的20个个商商业业中中心心有有关关指标的数据,试据此说明变量间的相关程度。指标的数据,试据此说明变量间的相关程度。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程表4-2 20个商业中心有关指标的数据设表设表4-2数据已保存在数据集数据已保存在数据集Mylib.jyzk中。中。商
21、业中心编号单位面积年营业额(万元/平方米)Y每小时机动车流量(万辆)x1日人流量 (万人)x2居民年消费额(万元)x3对商场环境满意度x4对商场设施满意度x5对商场商品丰富程度满意度x612.50.513.901.9479623.20.264.242.8674632.50.724.541.6388743.41.236.981.926101051.80.694.210.7184760.90.362.910.62565152.61.045.531.301079162.71.185.981.28879171.40.611.271.48671183.21.055.772.167109192.91.06
22、5.711.74699202.50.584.111.85796STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1.1.相关分析的设置相关分析的设置 在在“分析家分析家”中作相关分析的步骤如下:中作相关分析的步骤如下:1)在在“分析家分析家”中打开数据集中打开数据集Mylib.jyzk;2)选选择择主主菜菜单单“Statistics”“Descriptive(描描述述性性统统计计)”“Correlations(相相关关)”,打打开开“Correlations”对对话话框框,按按图图4-8 设设置置分分析析变变量量及及内内容。容。STATSTATSTATSTATSA
23、SSAS软件与统计应用教程软件与统计应用教程2.2.结果分析结果分析 显显示示结结果果首首先先给给出出各各个个变变量量的的描描述述性性统统计计量量,包包括括观观测测总总数数、各各变变量量的的均均值值及及标标准准差差等等。然然后后给给出出变变量量的的相相关关系系数数矩矩阵阵(分分析析变变量量中中任任两两者者之之间间的的相相关关系系数数),以以及及原原假假设设为为H0:Rho=0(即即H0:=0)的的检检验验结结果果(仅给出(仅给出p值),如图值),如图4-9所示。所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 从从相相关关系系数数的的取取值值来来看看,单单
24、位位面面积积营营业业额额(Y)与与居居民民年年消消费费额额(x3)、日日人人流流量量(x2)接接近近高高度度相相关关;单单位位面面积积营营业业额额(Y)与与每每小小时时机机动动车车流流量量(x1)、对对商商场场环环境境的的满满意意度度(x4)、对对商商场场设设施施的的满满意意度度(x5)为为低低度度相相关关;单单位位面面积积营营业业额额(Y)与与商商场场商商品品丰丰富富程程度度满意度(满意度(x6)则属于中度相关。)则属于中度相关。从从相相关关系系数数的的假假设设检检验验结结果果来来看看,单单位位面面积积营营业业额额(Y)与与居居民民年年消消费费额额(x3)、日日人人流流量量(x2)、商商场场
25、商商品品的的丰丰富富程程度度满满意意度度(x6)、对对商商场场设设施施的的满满意意度度(x5)的的相相关关系系数数显显著著不不为为0(p 10即即可可认认为为模模型型有有很很强强的的共共线线问问题。题。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程8.8.利用回归方程进行预测利用回归方程进行预测(1)点预测点预测 假设通过检验的假设通过检验的“最优最优”回归方程为回归方程为当当自自变变量量的的一一组组新新观观测测值值x0=(x01,x02,x0k)对对应应的的因变量的预测值为因变量的预测值为STATSTATSTATSTATSASSAS软件与统计应用教程软件与统
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四章 相关分析与回归分析 第四 相关 分析 回归
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内