2023年stata笔记.doc





《2023年stata笔记.doc》由会员分享,可在线阅读,更多相关《2023年stata笔记.doc(25页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1.一般检查 假设系数为0, t比较大则拒绝假设,认为系数不为0. 假设系数为0,P比较小则拒绝假设,认为系数不为0. 假设方程不显著,F比较大则拒绝假设,认为方程显著。2.小样本运用OLS进行估计的前提条件为: (1)线性假定。即解释变量与被解释变量之间为线性关系。这一前提可以通过将非线性转换为线性方程来解决。 (2)严格外生性。即随机扰动项独立于所有解释变量:与解释变量之间所有时候都是正交关系,随机扰动项盼望为0。(工具变量法解决) (3)不存在严格的多重共线性。一般在现实数据中不会出现,但是设立过多的虚拟变量时,也许会出现这种现象。Stata可以自动剔除。 (4)扰动项为球型扰动项,即随
2、即扰动项同方差,无自相关性。3.大样本估计时,一般规定数据在30个以上就可以称为大样本了。大样本的前提是(1)线性假定(2)渐进独立的平稳过程(3)前定解释变量,即解释变量与同期的扰动项正交。(4)E(XiXit)为非退化矩阵。(5)gt为鞅差分序列,且其协方差矩阵为非退化矩阵。与小样本相比,其不需要严格的外生性和正太随机扰动项的规定。4.命令 稳健标准差回归:reg y x1 x2 x3, robust 回归系数与OLS同样,但标准差存在差异。假如认为存在异方差,则使用稳健标准差。使用稳健标准差可以对大样本进行检查。只要样本容量足够大,在模型出现异方差的情况下,使用稳健标准差时参数估计、假设
3、检查等均可正常进行,即可以很大限度上消除异方差带来的副作用 对单个系数进行检查: test lnq=1 线性检查:testnl _blnpl=_blnq2 5.假如回归模型为非线性,不方便使用OLS,则可以采用最大似然估计法(MLE),或者非线性最小二乘法(NLS)6.违反经典假设,即存在异方差的情况。截面数据通常会出现异方差。 因此检查异方差可以:(1) 看残差图,但只是直观,也许并不准确。rvfplot (residual-versus-fitted plot) 与拟合值的散点图rvpplot varname (residual-versus-predictor plot) 与解释变量的散
4、点图扰动项的方差随观测值而变动,表达也许存在异方差。(2) 怀特检查:estat imtest, white (post-estimation information matrix test)P比较小,则拒绝同方差假设,表达存在异方差,不能用OLS。反之则证明为同方差。(3)BP检查 estat hettest,iid (默认设立为使用拟合值y) estat hettest, rhs iid (使用方程右边的解释变量,而不是y) estat hettest varlist,iid (使用某个指定的解释变量) P小,则拒绝原假设。假如存在异方差,则可以:(1)使用OLS+稳健标准差robust(
5、2)广义最小二乘法(GLS)(3)加权最小二乘法(WLS)predict el, res (预测残差)g e2=el2 辅助回归:g lne2=log(e2)reg lne2 lnq, nocpredict lne2f 计算辅助回归的拟合值g e2f=exp(lne2f) 去掉对数即权重之倒数reg lntc lnq lnpl lnpk lnpf aw=1/e2f reg y x1 x2 x3 aw=1/var (aw表达analytical weight, var表达随即扰动项的方差。)或者:predict u, residualspredict yf, xbgen lnu2=ln(u2)g
6、en yf2=yf2quietly reg lnu2 yf yf2predictnl u2f = exp (xb()gen sd=sqrt(u2f)vwls lntc lnq lnpl lnpf lnpk , sd(sd)(4)可行广义最小二乘法(FGLS) FGLS所做的过程和GLS同样,只是GLS假设扰动项的方差已知,若要用GLS,必须计算得到扰动项方差,而FGLS则是在未知方差的情况下求方差并最终通过将异方差转换为同方差后再运用OLS的结果。因此,GLS和FGLS在过程上是一致的。6.自相关 时间序列中容易出现自相关,而截面数据也也许存在空间自相关。人为解决数据如移动平均等做法也也许导致
7、自相关。 检查自相关可以:(1)作图,但并不严格。 定义滞后算子L.(只有时间序列数据和面板数据才干定义时间变量。) tsset yaear 一阶差分:D.x=xt-xt-1 D2. X=xt-xt-2 LD. 表达一阶差分的滞后值 画图:scatter el L.el ac el (看自相关图) pac el (看偏相关图)(2)BG检查 estat bgodfrey (默认p=1)estat bgodfrey,lags(p)estat bgodfrey, nomiss0 (使用不添加0的BG检查) 使用命令ac 查看自相关图,或者设立较大的p值进行显著性检查,t期不显著了,则选择P=T-1
8、 记录检查P值小,则拒绝假设。(3)box-pierce Q检查/ Ljung-Box Q reg y x1 x2 x3 predict el, resid wntestq el (使用stata提供的默认滞后期) wntestq el, lags(p) (使用自己设定的滞后期)(4)DW检查:现在已经不常用,由于其只能检查一阶自相关。 estat dwatson自相关的解决方法:(1)使用OLS+异方差自相关稳健的标准差(Heteroskedasticity and Autocorrelation Consistent Standard Error, HAC) newey y x1 x2 x
9、3, lag(p) (HAC标准差,必须制定滞后阶数p) 滞后期数选择n1/4(2)使用OLS+聚类稳健的标准差(cluster robust standard error)面板数据中经常使用聚类稳健的标准差。reg y x1 x2 x3, cluster(state) (聚类稳健标准差,假设“state”为聚类变量)(3)使用可行广义最小二乘法(FGLS)prais y x1 x2 x3 (使用默认的PW估计法)prais y x1 x2 x3, corc (使用CO估计法)(4)修改模型设定,也许自相关是由于漏掉了自相关的解释变量。7多重共线性 在回归后,使用命令VIF estat vif
10、 经验表达, vif =1978)如希望将每个省设立为虚拟变量,则需要 : tabulate province, generate(pr)回归简化为: reg y x1 x2 x3 pr2-pr3111.工具变量法 这可以解决扰动项与自变量的相关问题,设立的工具变量需要与扰动项无关而与内生解释变量相关。传统的工具变量法一般通过两阶段最小二乘法TSLS、2SLS(two stage least square)。第一阶段,工具变量对内生解释变量回归;第二阶段,被解释变量对工具变量的拟合值进行回归。多个工具变量的线性组合仍然可以作为工具变量。 命令:ivregress 2sls depvar var
11、list1 (varlist2=inslist) Depvar为被解释变量, varlist1为外生解释变量,varlist2为内生解释变量,instlist为工具变量。 如: ivregress 2sls y x1 (x2 = z1 z2) ivregress 2sls y x1 (x2 x3 = z1 z2 z3 z4), r first (r表达用异方差的标准差,first表达在结果中显示第一阶段的回归。)在面板数据中执行2SLS可以用:xtivreg depvar varlist1 (varlist_2=varlist_iv) (详见help xtivreg) 检查工具变量与解释变量的
12、相关性:即检查工具变量是否为弱工具变量, 命令:estat firststage, all forcenonrobust (all表达显示每个内生变量的记录量,而非仅仅所有内生变量综合的记录量,forcenonrobust表达及时在进行工具变量法时用了稳健标准差,也仍然允许计算estat firststage) 解决弱工具变量的方法涉及A 寻找更强的工具变量B 弱工具变量较多,则舍弃弱工具变量,C 用有限信息最大似然估计法(Limited information maximum likelihood estimation, LIML)LIML与2SLS渐进等价,但在弱工具变量的情况下,LIML
13、的小样本性质也许优于2SLS.命令为:ivregress liml depvar varlist 1 (varlist2 = instlist) 过度辨认(即多余的工具变量的个数)命令为:estat overid 但并不能告诉哪些工具变量无效。 使用工具变量的前提是存在内生解释变量(即解释变量与扰动项相关),这也需要检查。假如所有解释变量都是外生变量则用OLS比用工具变量法更有效,反之应当用工具变量法。豪斯曼检查就是假设所有解释变量都为外生变量。 豪斯曼检查的stata命令: reg y x1 x2estimates store ols (存储OLS的结果)ivregress 2sls y x
14、1 (x2= z1 z2) (假设怀疑x2为内生变量)estimates store iv (存储2SLS的结果)hausman iv ols, constant sigmamore (根据存储的结果进行豪斯曼检查)但uguo存在异方差,则OLS并不是最有效的,传统额豪斯曼检查不合用于异方差的情形,解决方法是“自助法”;或者使用“杜宾-吴-豪斯曼DWH检查”也可以合用于存在异方差的情况。命令: estat endogenous 在球型扰动项的假定下,2SLS是最有效的,但是假如扰动项存在异方差或者自相关,则广义矩估计(generalized method of moments, GMM)更有效
15、。GMM与2SLS的关系就相称于GLS与OLS之间的关系。GMM过程:scc install ivreg2 (安装程序ivreg2)scc install ranktest (安装此外一个在运营ivreg2时需要用到的辅助程序ranktest)use data xtset panelvar timevar (设立面板变量和时间变量)ivreg2 y x1(x2=z1 z2), gmm2s12.短面板:(固定效应和随机效应模型) N大T小的一般叫做短面板。面板数据的优点为:可以解决漏掉变量的问题,可以提供更多动态行为的信息,样本较多从而估计更准确。但面板数据一般不满足独立同分布的假设。解决面板数
16、据的一个方法是将面板数据当作横截面数据解决进行OLS回归,称为“混合回归”,但它忽略了同一个聚类存在的相关问题。虽然通常可以假定面板数据不同个体的扰动项的独立性,但是对于同一个体却存在固定效应和随机效应。固定效应模型通常可以采用组内估计法(FE)和一阶差分法(FD)。当T=2时,FD=FE;当T2,扰动项独立同分布时,FE优于FD。因此,实践用FE较多,而对动态面板,则用FD较多。随机效应的存在使得OLS估计是一致但无效的。可使用广义最小二乘法(FGLS)来进行估计。也可以使用组间估计量(BE)用豪斯曼检查选择是选用固定效应模型还是随机效应模型,假如记录量大于零界值,则拒绝假设。假如假设成立,
17、RE最有效,但是不合用于异方差的情形。解决方法是自助法和辅助回归。非平衡面板经常会损失数据,导致破坏样本的随机性。xtset panelva timevar (设定面板数据的面板个体变量和时间变量)encode country, gen (cntry) (为面板个体编号使得面板个体为整数)显示面板数据记录特性:xtdes (显示面板数据结构,是否为平衡面板)xtsum (显示组内、组间和整体的记录指标)xttab varname (显示组内、组间与政体的分布频率)xtline varname (对每个个体分别显示该变量的时间序列图,假如希望叠放,则选择overlay)reg y x1 x2 x
18、3, vce (cluster id) (混合回归,VCE是以id为cluster的聚类稳健标准差,由于同一地区不同时间扰动项之间一般存在自相关。) VCE是考虑到了同一聚类之间的同方差现象。xtreg Y X1 X2 X3, fe vce (cluster id) (使用固定效应模型回归)得到的回归中rho表达来自个体效应ui的比例。Xtreg YX1 X2 X3, fe 中的F检查通过,则可以使用混合回归模型。若拒绝假设(p小),则FE更优,每个个体都有自己的固定效应。但此时的由于没有使用稳健回归,因此F检查并不有效,还需要进一步用LSDV法观测。LSDV法的stata命令为:xi: xt
19、reg y x1 x2 x3 i.id, vce(cluster id) (xi为增添互动项interaction expansion,i.id表达根据拟定个体变量id生成的虚拟变量,在这里是state) (P小,则说明个体虚拟变量很显著,因此,不满足无个体效应的假设,则不能用混合回归模型。)对于固定效应模型,也可以用一阶差分法FD的命令:xtserial y x1 x2 x3, output (我的stata不能辨认xtserial 咋回事?)一般认为FE比FD有效,故较少使用FD。也可以在固定效应中考虑时间效应,即双向固定效应:tab year gen(year) 定义年度虚拟变量xtre
20、g YX1 X2 X3 year2-year7, fe vce (cluster id) (明明是stata12,为什么说数据太多不能计算?要把前面的计算保存等清空,那后面怎么对比?)test year1 year2 year3。year7 对年度虚拟变量的联合检查为检查存在时间效应和固定效益后,还也许存在随机效应,对随机效应进行检查:xtreg y x1 x2 x3, re vce (cluster id) (随机效应FGLS)xtreg y x1 x2 x3, mle (随机效应MLE)检查个体随机效应存在一个LM检查,需要在随机效应估计之后进行:Xtreg fatal spircons
21、unrate perinc beertax, re vce (cluster, state)estimates store RExttest0 假如P很小,则拒绝假设,认为在“随即效应”与“混合回归”之间,应当选择“随即效应”。假如数据质量不好,可以考虑使用组间估计量,但会损失较多信息量。reg y x1 x2 x3, beestimates store BE选用固定效应模型还是随机效应模型运用豪斯曼检查xtreg y x1 x2 x3, feestimates store FExtreg y x1 x2 x3, reestimates store REhausman FE RE, const
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 stata 笔记

限制150内