现代统计方法-回归分析.ppt
现代统计方法现代统计方法前言统计学的几个问题1、自1969年设立诺贝尔经济学奖以来,已有42名学者获奖,而其中有2/3的人是统计学家、计量经济学家、数学家。2、目前的研究趋势是:从一般的逻辑推理发展到重视实证研究;从理论论述发展到数量研究。3、硕士和博士的学位论文,如果没有数量模型和分析,其文章的水平会有问题。统计学的几个问题n李怀祖在管理学研究方法论中提到大量的统计研究方法:n描述统计n推断统计n结构方程建模n评估研究SEM(Structural Equation Modellingx1x2x3x4x5x6x712312y1y2y3y41432x11x21x31x32x42x52x63x7331213212r11r12r22r2312y11y11y32y42现代统计方法的种类一、分类分析方法:1、聚类分析 2、判别分析 3、定性资料分析二、结构简化方法:1、回归选元法 2、聚类分析 3、主成分分析 4、因子分析 5、对应分析现代统计方法的种类三、相关分析方法1、定性资料分析2、回归分析3、典型相关分析4、主成分分析5、因子分析6、对应分析现代统计方法的种类四、预测决策方法:1、回归分析2、判别分析3、定性资料分析4、聚类分析统计分析方法应用流程现实经济问题提炼具体问题确定欲达目标根据定性理论设计指标变量 搜集整理统计数据 选择统计方法构造理论模型 进行统计计算估计模型参数 修改NOYES应用分类研究分类研究结构简化结构简化研究研究相关分析相关分析研究研究预测决策预测决策研究研究教材统计软件简介nSPSSnSASnS-PLUSnMINITABnTSPnEVIEW关于SPSSnSPSS(Statistical Package for the Social Science)即“社会科学统计软件包”,是世界著名的统计分析软件。1968年,3位斯坦福大学的学生开发了最早的SPSS统计软件系统,并基于这一系统于1975年在芝加哥合伙成立了SPSS公司,1984年开发出世界第一个统计分析软件的微机版本。关于SPSSn于2000年正式将英文全称更改为Statistical Product and Service Solutions,意为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。n目前全球拥有25万用户,分布于通信、医疗、银行、证券、保险、制造、商业、市场研究、科研教育等领域。是世界上应用最广泛的专业统计软件关于SASnSAS系统全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的重要组成部分和核心功能。关于SASn经过多年的发展,SAS已被全世界120多个国家和地区的近三万家机构所采用,直接用户则超过三百万人,遍及金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,并在9697年度被评选为建立数据库的首选产品。堪称统计软件界的巨无霸。关于SASnSAS系统是一个组合软件系统,它由多个功能模块组合而成它们是:nBASE SAS nSAS/STAT(统计分析模块)nSAS/GRAPH(绘图模块)nSAS/QC(质量控制模块)nSAS/ETS(经济计量学和时间序列分析模)nSAS/OR(运筹学模块)nSAS/IML(交互式矩阵程序设计语言模块nSAS/FSP(快速数据处理的交互式菜单系统模块)nSAS/AF(交互式全屏幕软件应用系统模块)关于SASn由于SAS系统是从大型机上的系统发展而来,在设计上也是完全针对专业用户进行设计,因此其操作至今仍仍以以编编程程为为主主,人机对话界面不太友好,并且在编程操作时需要用户最好对所使用的统计方法有较清楚的了解,非统计专业人员掌握起来较为困难。而且,SAS极为高昂的价格和只租不卖的销售策略使得实力不足的个人和机构只能对他望而却步。关于S-PLUSnS,S-PLUS,R,S语言是由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。它的丰富的数据类型(向量、数组、列表、对象等)特别有利于实现新的统计算法,其交互式运行方式及强大的图形及交互图形功能使得我们可以方便的探索数据。目前S语言的实现版本主要就是S-PLUS。关于S-PLUSnS-PLUS基于S语言,并由MathSoft公司的统计科学部进一步完善。作为统计学家及一般研究人员的通用方法工具箱,S-PLUS强调演示图形、探索性数据分析、统计方法、开发新统计工具的计算方法,以及可扩展性。S-plus有微机版本和工作站版本,它是一个商业软件,可以直接用来进行标准的统计分析得到所需结果,但是它的主要的特点是它可以交互地从各个方面去发现数据中的信息,并可以很容易地实现一个新的统计方法。关于S-PLUSn另外Auckland大学的Robert Gentleman 和 Ross Ihaka 及其他志愿人员开发了一个R系统,其语法形式与S语言基本相同,但实现不同,两种语言的程序有一定的兼容性。R是一个GPL自由软件,现在的版本是1.00版,它比S-PLUS 还少许多功能,但已经具有了很强的实用性 关于MINITABnMinitab,Minitab同样是国际上流行的一个统计软件包,其特点是简单易懂,在国外大学统计学系开设的统计软件课程中,Minitab与SAS、BMDP并列,根据没有SPSS的份,甚至有的学术研究机构专门教授Minitab之概念及其使用。MiniTab for Windows统计软件比SAS、SPSS等小得多,但其功能并不弱,特别是它的试验设计及质量控制等功能。关于MINITABnMiniTab目前的最高版本为V14.1,它提供了对存储在二维工作表中的数据进行分析的多种功能,包括:基本统计分析、回归分析、方差分析、多元分析、非参数分析、时间序列分析、试验设计、质量控制、模拟、绘制高质量三维图形等,从功能来看,Minitab除各种统计模型外,还具有许多统计软件不具备的功能矩阵运算关于EViewsnEViews,EViews是美国GMS公司1981年发行第1版的Micro TSP的Windows版本,通常称为计量经济学软件包。EViews是Econometrics Views的缩写,它的本意是对社会经济关系与经济活动的数量规律,采用计量经济学方法与技术进行“观察”。计量经济学研究的核心是设计模型、收集资料、估计模型、检验模型、运用模型进行预测、求解模型和运用模型。EViews是完成上述任务得力的必不可少的工具 关于EViewsn正是由于EViews等计量经济学软件包的出现,使计量经济学取得了长足的进步,发展成为实用与严谨的经济学科。使用 EViews软件包可以对时间序列和非时间序列的数据进行分析,建立序列(变量)间的统计关系式,并用该关系式进行预测、模拟等等 关于EViewsnEViews。虽然 EViews是由经济学家开发的,并且大多数被用于经济学领域,但并意味着必须限制该软件包仅只用于处理经济方面的时间序列。EViews处理非时间序列数据照样得心应手。实际上,相当大型的非时间序列(截面数据)的项目也能在 EViews中进行处理关于TSPnTSPTM是一种用于经济模型估算和模拟的完整语言。它是一个用于经济估算的世界标准。虽然TSP主要由经济学家开发并发展,但它的设计并没仅把它限制在经济领域。任何由相同变量的重复观测得到的数据,都可用TSP分析 线性回归分析1回归分析第一节 回归分析的背景第二节 一元线性回归分析第三节 多元线性回归分析第三节 逐步回归分析第四节 回归诊断回归分析的相关背景1、回归分析的由来:英国统计学家F.GALTON(1822-1911)和其学生K.Pearson(1856-1936)观察了1078对夫妇,以每对夫妇的平均身高为X,而取他们成年的儿子的身高为Y,得到如下经验方程:Y=33.73+0.516X回归分析的相关背景2、自1969年设立诺贝尔经济学奖以来,已有42名学者获奖,而其中有2/3的人是统计学家、计量经济学家、数学家。由获奖者克莱因发起的国际连接系统使用了7447个方程和3368个外生变量。英国剑桥大学的多部门动态模型有2759个方程和7484个变量。回归分析的相关背景3、回归分析的几个发展方向:1)、统计学的重要方法与回归的关系密切 时间序列分析(BOX-JINKINS)、判别分析、主成分分析、因子分析、典型相关分析2)、回归分析自身的完善和发展 自变量选择、稳健回归、回归诊断、投影寻踪、非参数回归回归分析的相关背景3)、新的研究方法为回归分析提供了方法论 非参数统计、自助法、刀切法、经验贝 叶斯估计4)、各种有偏估计出现:岭估计、压缩估计、主成分估计、STEN 估计、特征根估计、偏最小二乘估计。一元线性回归分析1、一元线性回归模型2、回归模型的参数估计3、OLSE估计的性质4、回归方程的显著性检验5、回归方程的拟合优度6、残差分析7、回归系数的区间估计一元线性回归分析模型1、回归模型建模的实践背景2、一元线性回归模型的数学形式:1)、理论模型:一元线性回归模型的数学形式2)、样本回归模型对于n组观测值 有:一元线性回归模型的数学形式3)、模型的矩阵表达:回归分析的参数估计(OLSE)nOrdinary Least Square Estimation:对于已知n组观测值有:回归分析的参数估计(OLSE)回归分析的参数估计(OLSE)由此得回归方程:关于系数的几种表达方式关于回归方程估计的几个说明1、回归方程通过样本的中心点2、残差具有如下性质:回归方程的极大似然估计回归方程的极大似然估计OLSE的性质1、线性:OLSE的性质2、无偏性OLSE的性质3、参数的方差:上面的公式表明,参数的准确性除受总体的差异外,还受X值的范围影响,X取值范围越大,参数就越稳定OLSE的性质nGauss-Markov条件:如果参数的下列条件成立:回归方程的检验n在得到回归方程后,必须运用统计检验方法分析该方程是否真正描述了Y与X之间的统计规律之后,才能进行分析预测等各种运用,检验的基本假设前提是:T检验nT检验主要用于检验回归系数有效性的统计检验方法1、设置假设:T检验2、构造检验统计量:T检验3、检验过程:在给定显著性水平 ,双侧检验临界值为 ,当 ,拒绝原假设,反之,接受原假设,即回归方程不成立,T检验4、P值检验法:P值又称P-Value,基本的检验关系是:P()=P值其中t为检验统计量,服从t(n-2)的分布判别的标准是:用P值代替t 值的优越性1、直接对比P值与 的水平,不用查表2、用P值检验可比性较好。3、P值的意义明确,就是犯拒镇真错误的 概率。F检验1、回归方程平方和分解;见分解图YXF检验n由上图有:nSST-Sum of squares for TotalnSSE-Sum of squares for errornSSR-Sum of squares for Regression F检验2、回归方程显著性检验1)、设置假设:2)、构造统计量:F检验3)、检验标准:F检验方差来源自由度平方和均方F值P值回归1SSRSSR/1对比P与残差n-2SSESSE/n-2总和n-1SST三种检验的关系n可以证明,就一元回归方程而言,回归系数检验、相关系数检验和F检验是完全等价的。基本关系是:回归方程的拟合优度检验1、检验公式:2、基本意义:表现回归方程总平方和中能够为回归平方和解释部分的比重,该值越大则拟合优度越好。n但是,当观测值很大时,高度显著的检验结果可能对应较低的决定系数,产生这种结果的原因有:nX与Y存在的关系不是线性关系而是非线性的。nX与Y的线性相关关系确立,但是误差项方差 太大,导致样本决定系数很小。回归方程的拟合优度检验回归系数的区间估计在实际运用中,经常考虑回归系数的区间估计,由公式:1、区间估计的统计量:回归系数的区间估计2、概率度公式:回归系数的区间估计3、区间估计:回归方程预测与控制1、单值预测:回归方程预测与控制2、区间预测:1)、因变量新值的区间估计:回归方程预测与控制2)、因变量新值的平均值的区间估计一元线性回归模型的估计某地区月人均收入与月食品支出的资料恩格尔函数计算示例回归方程误差的估计n总体回归方程的误差与样本误差的关系为:n根据回归直线得到:回归均方误差与标准误差回归方程误差的估计最小二乘法估计量的性质最小二乘法估计量的性质一元线性回归模型的检验n回归方程必须通过检验才能实际应用回归方程必须通过检验才能实际应用n检验内容:检验内容:1、统计学检验:、统计学检验:拟合程度评价拟合程度评价-可决系数评价可决系数评价 显著性检验显著性检验-T检验,检验,F检验检验 2、计量经济学检验、计量经济学检验-DW,等级相关,等级相关检验检验可决系数的含义1、回归方程平方和分解;见分解图、回归方程平方和分解;见分解图YX可决系数的含义n由上图有:nSST-Sum of squares for TotalnSSE-Sum of squares for errornSSR-Sum of squares for Regression 可决系数的含义n由上面的公式有:由上面的公式有:可决系数的含义n可决系数定义为:可决系数定义为:n很显然,可决系数越大,方程的拟合度就越高。很显然,可决系数越大,方程的拟合度就越高。可决系数的应用可决系数的应用可决系数的特性:1、具有非负性2、取值范围为:3、可决系数是样本观测值的函数T检验nT检验主要用于检验回归系数用于检验回归系数 有效性有效性的统计检验方法1、设置假设:T检验2、构造检验统计量:T检验T检验T检验T检验3、检验过程:在给定显著性水平 ,双侧检验临界值为 ,当 ,拒绝原假设,反之,接受原假设,即回归方程不成立,T检验T检验T检验4、P值检验法:P值又称P-Value,基本的检验关系是:P()=P值其中t为检验统计量,服从t(n-2)的分布判别的标准是:用P值代替t 值的优越性1、直接对比P值与 的水平,不用查表2、用P值检验可比性较好。3、P值的意义明确,就是犯拒镇真错误的 概率。回归方程预测与控制1、单值预测:、单值预测:示例n假定某地区居民家庭的人均收入为假定某地区居民家庭的人均收入为200元,根据回归方程,有月食品支出预测元,根据回归方程,有月食品支出预测值:值:y=9.99+0.1802x y=9.99+0.1802200=46.03元元回归方程预测与控制2、区间预测:、区间预测:因变量新值的区间估计因变量新值的区间估计:回归方程预测与控制因变量预测值的估计区间因变量预测值的估计区间回归方程预测与控制由上例有:回归方程预测与控制一元线性回归分析1、一元线性回归模型(理论模型与经验模型)2、回归模型的参数估计(OLS估计与残差计算)3、回归方程的显著性检验(t回归系数的t检验)4、回归方程的拟合优度(可决系数,F检验)5、残差分析(回归诊断)6、回归系数的区间估计(单值预测与区间估计)第三节 相关分析n相关系数的定义n相关系数与可决系数n单相关系数的检验相关系数的定义n1、相关系数:是在直线相关的前提下,用以测量两个变量之间相关关系的密切程度的统计分析工具。2、相关系数的含义解释:1)、相关系数测定的原始公式:积差法公式:积差法公式的几何解释积差法公式的几何解释相关系数的测算公式:样本相关系数的计算样本相关系数的计算一元线性回归模型的估计某地区月人均收入与月食品支出的资料计算示例(P177)l低度相关,低度相关,l显著相关,显著相关,l0.8-1高度相关高度相关相关系数的基本性质相关系数的几个数量关系1、相关系数与可决系数的关系:在一元线性回归方程中,有:2、相关系数与回归系数的关系:相关系数的检验相关系数仅能表现两个变量之间的线性相关系数仅能表现两个变量之间的线性关系,而不能反映非线性关系。就是说,关系,而不能反映非线性关系。就是说,即使即使r=0,也不能说两个变量无关。也不能说两个变量无关。相关系数的接近相关系数的接近1的程度与观测数据的的程度与观测数据的容量密切相关,当数据较少时,无法通过容量密切相关,当数据较少时,无法通过相关系数的大小判别两个变量的相关程度相关系数的大小判别两个变量的相关程度Anscombe dataAnscombe dataAnscombe dataAnscombe data相关系数的检验1、提出假设:2、检验统计量:3、临界值为:计算示例n假设根据6对样本观测数据计算出某公司的股票价格与气温的样本相关系数r=0.50,试问是否可以根据5%的显著性水平认为该公司的股票与气温之间存在一定程度的线性相关关系?n将相关数据代入:相关系数的显著性检验1、相关系数的含义:相关系数的显著性检验2、相关系数的特征:相关系数仅能表现两个变量之间的线性关系,而不能反映非线性关系。就是说,即使r=0,也不能说两个变量无关。相关系数的接近1的程度与观测数据的容量密切相关,当数据较少时,无法通过相关系数的大小判别两个变量的相关程度。相关系数的显著性检验3、相关关系的判断-相关系数检验表当 大于检验表中的5%的值但小于1%值时,显示x与 y有显著的线性相关关系。当 大于检验表中1%的值,则显示两个变量之间有十分显著的线性相关关系。当 小于检验表中5%的值,则显示两个变量没有明显的线性关系。相关系数的显著性检验4、相关系数的符号:根据公式: