《2022年stata入门教程 .pdf》由会员分享,可在线阅读,更多相关《2022年stata入门教程 .pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Stata 快速入门1、Stata的窗口?在最上方有一排菜单,即“File Edit Data Graphics Statistics User Window Help”。?左上“Review”(历史窗口):此窗口记录着自启动Stata以来执行过的命令。?右上“Variables”(变量窗口):此窗口记录着目前Stata内存中的所有变量。?正上方“Results”(结果窗口):此窗口显示执行Stata命令后的输出结果。?正下方“Command”(命令窗口):在此窗口输入想要执行的Stata命令。2、将数据导入 Stata?打开 Stata软件后,点击 Data Editor(Edit)图标(也
2、可以点击菜单“Window”“Data Editor”),即可打开一个类似Excel 的空白表格。?用 Excel 打开文件“nerlove.xls”,复制文件中的所有数据,并粘贴到 Data Editor中。?导入数据的另一方法是,点击菜单“File”“Import”,然后导入各种格式的数据。但这种方法有时不如直接从Excel 表中粘贴数据来得方便直观。3、变量窗口?关闭 Data Editor 后,即会看到右上方的“Variables”窗口出现了 5 个变量:?分别为 tc(total cost,总成本),q(total output,总产量),pl(price of labor,小时工资
3、率),pf(price of fuel,燃料价格),与 pk(user cost of capital,资本的租赁价格。4、存为 dta 数据文件?此时,可以点击 Save图标(也可以点击菜单“File”“Save”),将数据存为Stata格式的文件(扩展名为dta),比如 nerlove.dta。?以后就可以用 Stata直接打开这个数据集了(不需要再从 Excel 表中粘贴过来)。5、打开 dta 数据文件打开的方式有三种:1.点击 Open图标(也可以点击菜单“File”“Open”),然后寻找要打开的dta文件的位置。2.直接双击想要打开的dta文件3.在命令窗口输入以下命令(假设文件
4、在E 盘的根目录)并回车(按Enter键)名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 7 页 -?use E:nerlove.dta,clear 其中,选择项“clear”表示可以替代内存中的已有数据。?如果要关闭一个数据集(如果对数据集进行了改动,别忘了先存盘Save),以便使用另外一个数据集,可以在命令窗口输入?clear?这样,内存中所有的当前数据都被清空,然后可以再打开另外一个数据集。6、变量的标签?在变量窗口,每个变量的“名字”(Name)旁边显示了其“标签”(label)。但目前的标签过于简略,缺乏变量的解释信息。?如果想将变量“tc”的标签改为“total co
5、st”,可进行如下操作。点击进入“变量管理器”(Variables Manager)图标(在 Data Editor 右侧)。?Stata中字母的大小写是严格区分的(case sensitive),因此 Stata建议对于变量名一律使用小写字母。7、审视数据?一个数据集可能很大,而我们常希望看到数据的概貌。想看数据集中的变量名单、标签等,可以在命令窗口输入,?describe?其中,“describe”中的下划线表示,可以将该命令简写为“d”而得到同样的效果。8、罗列数据?如果想看变量 tc 与 q 的具体数据,可使用命令,?list tc q 9、旧命令的调用?把光标放在命令窗口,并按键盘上
6、的“Page Up”键即可调用上一个命令(反之,使用“Page Down”键可调用下一个命令)。?另一种简便的方法是,在左上角的历史窗口点击任何曾用过的命令:如果用鼠标单击旧命令,则会把旧命令重新调入命令窗口,按回车后即执行,或将旧命令进行编辑后再执行;如果用鼠标双击旧命令,则将马上自动执行。10、定义子集?有时我们想对数据集的一部分执行命令,比如只想看变量 tc 与 q 的前 5 个数据,则可输入命令:?list tc q in 1/5 11、逻辑关系?也可以通过逻辑关系来定义数据集的子集。如果要列出所有满足条件“”的变量 tc 与 q 的数据,则可以使用以下命令,?list tc q if
7、 q=10000 12、只对子集进行运算?如果想删除满足“q=10000”条件的观测值,则可使用命令,?drop if q=10000?反之,如果只想保留满足“q=10000”条件的观测值,而删去所有其他观测值,?keep if q=10000 13、考察变量的统计特征?如果想看变量 q 的统计特征,可输入命令,?summarize q 名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 7 页 -?如果不指明变量,则将显示数据集中所有变量的统计指标。?su?如想看更多的统计指标,可使用命令?su q,detail 14、经验累积分布函数?如果要显示变量pl 的经验累积分布函数(em
8、pirical cumulative distribution function),可使用命令,?tabulate pl 15、相关系数?如果要显示内存中5 个变量之间的相关系数,可输入命令,?correlate tc q pl pf pk?pwcorrpl pfpk,sigstar(.05)?“pw”表示 pairwise。?选择项“sig”表示显示相关系数的显著性水平(即 p 值,列在相关系数的下方),?选择项“star(.05)”表示给所有显著性水平小于或等于5%的相关系数打上星号。?如 pwcorr 之后没有指定变量,显示所有变量的相关系数16、直方图?如果想看变量 q 的直方图(假定
9、组宽为1000),可输入以下命令(也可通过菜单来输入此命令):?histogram q,width(1000)frequency 17、散点图?如果要画 tc 与 q 之间的散点图,则可输入以下命令:?scatter tc q 18、在散点图上标注观测值?在散点图中,无法知道每个点分别对应哪个观测值?为此,首先定义一个新变量“n”来表示第 n 个观测值。?gen n=_n?其中,“_n”即表示第 n 个观测值。?scatter tc q,mlabel(n)mlabpos(6)?选择项“mlabel(n)”表示以变量“n”作为“mark label”(标签);“mlabpos(6)”(mark
10、label position)表示将此标签放在散点正下方(6 点钟的位置),默认位置为散点的右边(3 点钟)。19、在散点图上画回归直线?twoway(scatter tc q)(lfit tcq)?其中,“lfit”表示“linear fit”(线性拟合)?graph save scatter1 20、在散点图上画二次回归曲线?twoway(scatter tc q)(qfit tc q)?其中,“qfit”表示“quadratic fit”(二次拟合)。?graph save scatter2 21、将两图合并?graph combine scatter1.gph scatter2.gph
11、 22、案例操作名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 7 页 -(1)(2)生成新变量?可使用命令“generate”来生成新变量。?g lntc=log(tc)?g lnq=log(q)?g lnpl=log(pl)?g lnpf=log(pf)?g lnpk=log(pk)?如果需要 q 的非线性平方项,可使用命令:?g q2=q2?如果要生成 lnpl 与 lnpk 的互动项(interaction term),则可以使用命令,?g lnplpk=lnpl*lnpk(3)生成虚拟变量?假设希望定义“q=10000”为大企业,并使用“虚拟变量”(dummy vari
12、able)large来表示,则可使用命令:?g large=(q=10000)?其中,括弧“()”表示对括弧中的表达式“q=10000”进行逻辑评估:如果为真,则取值为1;如果为假,则取值为0。(4)Stata的计算器功能?Stata也可以作为计算器来使用。只要输入命令“display expression”即可。?比如,“display log(2)”将计算 ln2。?“di normal(1.96)”将计算标准正态累积分布函数在1.96的取值(即小于 1.96的概率)。(5)线性回归?regress lntc lnq lnpl lnpk lnpf(6)稳健标准误名师资料总结-精品资料欢迎下
13、载-名师精心整理-第 4 页,共 7 页 -?此表达式在异方差情况下也成立,故称为“异方差稳健的标准误”,简称“稳健标准误”(robust standard errors)。在同方差的假定下,稳健标准误还原为普通(非稳健)标准误。标准误 vs稳健标准误?标准误只在同方差情况下成立?稳健标准误在同方差或异方差情况下都成立?处理异方差的当代流行方法是,不调整OLS 估计系数,使用稳健标准误即可。?即使存在异方差,OLS 依然一致、渐近正态。只要使用稳健标准误,即可照常进行统计推断。?reg lntc lnq lnpl lnpk lnpf,robust(7)省略常数项?在进行回归时,如果不要常数项,
14、可以加上选择项“noconstant”,?reg lntc lnq lnpl lnpk lnpf,r noc(8)对子样本进行回归?reg lntc lnq lnpl lnpk lnpf if q=1000,r(9)计算拟合值?如果要计算被解释变量的拟合值,并将其记为 lntchat,可输入命令:?quietly reg lntc lnq lnpl lnpk lnpf,r?其中,“quietly”表示不显示命令运行结果。?predict lntchat?(option xb assumed;fitted values)(9)计算残差?如果要计算“残差”(residual),并将其记为 e1,可
15、输入命令:?predict e1,residual?其中,选择项“residual”表示预测残差。如果没有任何选择项,则默认值(default)为计算拟合值。(10)计算规模报酬?由于 lnq 的系数为 1/r,即规模报酬的倒数,故可以估计规模报酬为,?display 1/_blnq?其中,“_blnq”表示 lnq 的 OLS 系数估计值。(11)规模报酬是否不变?名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页,共 7 页 -?为检验规模报酬不变的原假设,输入命令:?test lnq=1(12)联合检验?回归方程还显示,变量lnpl,lnpk 与 lnpf 的系数之和应该等于1。为
16、此,可以检验以下联合假设:?test(lnq=1)(lnpl+lnpk+lnpf=1)?由于 lnpl 与 lnpk 均不显著,我们希望对其显著性进行联合检验:?test lnpl lnpk(13)自助标准误?有时估计量的标准误没有解析表达式,可使用“自助标准误”(bootstrap standard error)。?自助法是一种有放回的再抽样(resampling),保持样本容量不变。?使用自助法得到原始样本的B 个自助样本(比如B=1000),对每个样本进行估计,得到 1000 个估计值,并计算这1000 个估计值的标准差。?reg lntc lnq lnpl lnpk lnpf,vce(
17、bootstrap)?reg lntc lnq lnpl lnpk lnpf,vce(boot,reps(1000)seed(10101)nodots)?选择项“reps(1000)”表示抽取 1000 个自助样本(Stata默认 50 个,太少了)?选择项“seed(10101)”表示随机数的种子为10101(为了以后能复制此结果)?选择项“nodots”表示不显示抽样过程的点(一个点表示一个自助样本)23、案例说明(1)时间变量与时间趋势图?use icecream.dta,clear?tsset time(宣布时间变量)?graph twoway connect consumption
18、temp100 time,msymbol(circle)msymbol(triangle)?其中,变量 temp100为 temp/100,选择项“msymbol(circle)msymbol(triangle)”表示“图标”(marker symbol)分别为圆圈与三角形。(2)OLS 回归?reg consumption temp price income(3)自相关检验?estat bgodfrey(4)Newey-West回归?如果扰动项存在自相关(常见于时间序列数据),仍可用 OLS 来估计回归系数,但应使用“异方差自相关稳健的标准误”(Heteroskedasticity and
19、Autocorrelation Consistent Standard Error,简记 HAC),即在存在异方差与自相关的情况下也成立的稳健标准误。HAC 标准误?HAC 标准误的核心是估计各阶自相关系数,并以此校正标准误(表达式较复杂)。?如果样本容量为 n,则(n-1)阶自相关系数只有一个观测值,无法准确估计。?解决方法:确定截断参数(truncation parameter)p=n1/4或 p=0.75n1/3,再取整数。?“Newey-West估计法”(Newey and West,1987),它只改变标准误的估计值,并不改变回归系数的估计值。也称“Newey-West标准误”。名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共 7 页 -?由 于扰 动项 存 在 自 相 关,故 应使 用 异 方差 自相 关 稳 健的 标准 误。由 于n(1/4)=30(1/4)=2.34,故取截断参数为p=3:?newey consumption temp price income,lag(3)名师资料总结-精品资料欢迎下载-名师精心整理-第 7 页,共 7 页 -
限制150内