《第1章回归分析的性质精选文档.ppt》由会员分享,可在线阅读,更多相关《第1章回归分析的性质精选文档.ppt(22页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第1章回归分析的性质本讲稿第一页,共二十二页引言学习的目的是什么?以操作为主对基本概念的深入理解为主学习的方法?研究生要以研究为主,通过应用来掌握与理解;通过操作实习,在机房完成相关内容的操作本讲稿第二页,共二十二页第一章 回归分析的性质1.回归的含义2.统计关系与确定性关系3.回归与因果关系4.回归与相关5.术语与符号6.计量经济分析所用数据的性质与来源本讲稿第三页,共二十二页1.1回归的含义回归的古典含义皮尔逊的发现:两组样本:身高高于平均值的父亲及其子辈的身高,子辈平均身高要低于其父辈;身高低于平均值的父亲及其子辈的身高,子辈平均身高要高于其父辈。有回归到平均值的趋势。回归由此而得名回归
2、分析的现代含义而我们现在可能关心的是这样一个问题:给定父辈身高,子辈身高是怎样的。回归分析是关于研究应变量对另一个或多个解释变量的依赖关系,其用意在于通过解释变量(在重复抽样中)的已知或设定值,去估计和(或)预测应变量(总体)均值。本讲稿第四页,共二十二页XY0 x1 x2 x3 x4应变量与解释变量之间的关系本讲稿第五页,共二十二页给定解释变量,应变量是如何分布的给定父亲身高,儿子在一个假想人口总体总体中的身高分布。分布。给定年龄,男孩子身高总体总体的分布。给定税后或可支配收入,个人消费是如何分布的;这种分析有助于估计边际消费倾向(MPC),就是实际收入每美元价值的变化所引起的消费支出的平均
3、变化。失业率是怎样影响货币工资变化的。通货膨胀率如何影响人们以货币形式保存收入比例的变化。两个基本概念要强调:总体、分布本讲稿第六页,共二十二页1.2统计关系与确定性关系在经典物理学中变量之间的关系是确定的关系统计关系不是一种确定关系世界上真正存在的是什么关系?例如:决定需求的因素都有哪些?一般认为有如下四种因素,P,I,P0,T,但这些因素对需求的影响是统计的,而不是确定的。确定性关系是相对的,而可能统计性关系是绝对的。本讲稿第七页,共二十二页1.3回归与因果关系虽然回归分析研究一个变量对另一(些)变量的依赖关系,但它并不一定意味着因果关系回归分析可以给出变量之间的关系,但类似于因果关系则必
4、须诉诸先验的或理论上的先验的或理论上的思考。也就是说,我们在统计上没有理由认为变量之间存在类似因果关系这样的关系。例如,收入的多少决定消费的大小,而不是消费的大小决定收入的多少。这是通过经济理论得到的,而不是通过统计理由得到的。本讲稿第八页,共二十二页1.4回归与相关回归分析是解决变量之间的关系是怎样的,而相关分析(correlation analysis)则研究变量之间的关系强弱;相关性是用相关系数(correlation coefficient)这样一类量来测度的。应变量与解释变量在回归分析的处理中具有不对称性。应变量被当作是统计的,随机的,具有一定的概率分布。解释变量则被看作是取有固定值
5、的。用图形或例子来说明本讲稿第九页,共二十二页1.5术语与符号采用:应变量-解释变量(有一系列类似的术语)。国内在统计学中一般采用“相依变量”(Dependent)和“独立变量”(Independent)对于下表大家可以进一步理解,不同情况下术语的使用本讲稿第十页,共二十二页1.5术语与符号相依变量(Dependent)独立变量(Independent)应变量(Dependent variable)自变量(Independent variable)被解释变量(Explained variable)解释变量(Explanatory variable)预测子(Predictand)预测元(Pred
6、ictor)回归子(Regressand)回归元(Regressor)响应(Response)刺激或控制变量(Stimulus of control variable)内生(Endogenous)外生(Exogenous)本讲稿第十一页,共二十二页1.5术语与符号符号:字母Y表示应变量或被解释变量,x(x1,x2,xk)表示解释变量。其中xk(xk1,xk2,xkt)代表第k个解释变量。下标i或t则指第i次或第t次观测值。N或T 指总体中的观测值总个数(也称总体容量),而n或t则指样本中的观测值总个数(也称样本容量)。本讲稿第十二页,共二十二页1.5术语与符号横截面数据(cross-secti
7、onal data):用观测值下标i来表示,这是指在一个时间点上搜集的数据。时间序列数据(time series data),用下标t来表示,这是一个时期内收集的数据。本讲稿第十三页,共二十二页1.6计量经济分析所用数据的性质与来源数据类型有三类,时间序列、横截面以及混合数据。时间序列:一个时间序列是对一个变量在不同时间取值的一组观测结果。按一定的时间长度来收集数据(日、周、月、季、年、5年)。最大的问题是“平稳性”问题。横截面数据:对一个或多个变量在同一时间点上收集的数据(如人口普查数据)。最大的问题是“异方差”问题。混合数据(Panel Data)是兼有时间序列和横截面数据两种成份,下可以
8、称之为定点时序数据,指对相同的横截面单元在时间轴上进行跟踪调查的数据。所以这类数据既要考虑“平稳性”问题,还要考虑“异方差问题”。本讲稿第十四页,共二十二页年份美国联合王国日本德国法国19601.513.61.53.619611.13.45.42.33.419621.14.56.74.54.719631.22.57.734.819641.43.93.92.33.419651.64.66.53.42.619662.83.763.52.719672.82.441.52.719684.24.85.51.84.5196955.25.12.66.419705.96.57.63.75.519714.39.
9、56.35.35.519723.66.84.95.45.919736.28.41277.5197410.91624.671419759.224.211.75.911.719765.816.59.34.59.619776.415.98.13.79.419787.68.33.82.79.1197911.413.43.64.110.7198013.61885.513.35个工业化国家的通货膨胀率本讲稿第十五页,共二十二页1.6计量经济分析所用数据的性质与来源数据来源非实验性的:社会科学中的数据如GDP、失业、股票价格等。实验性的:自然科学中的数据例如研究肥胖对血压的影响时,要对饮食、烟酒习惯等变量进行控制(相同情况下)数据的准确性选择性偏误:观测误差、测量误差、非应答问卷与应答问卷研究结果不能比数据的质量更好。本讲稿第十六页,共二十二页练习1.1:5个国家的通货膨胀率本讲稿第十七页,共二十二页练习1.1本讲稿第十八页,共二十二页练习1.1本讲稿第十九页,共二十二页练习1.1本讲稿第二十页,共二十二页练习1.1本讲稿第二十一页,共二十二页讨论问题如何理解截面数据?什么是相关性?什么是因果关系?总体特征与样本特征之间的关系如何?本讲稿第二十二页,共二十二页
限制150内