2023年Stata学习笔记.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《2023年Stata学习笔记.doc》由会员分享,可在线阅读,更多相关《2023年Stata学习笔记.doc(41页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、以下命令均采用小写字母Chapter 1 stata入门1.1打开数据use D:Stata9auto.dta, clear 用use命令打开数据sysuse auto,clear auto 为系统数据 sysuse为打开系统数据的命令1.2获取帮助Help summarize summarize为需要获取帮助对象 可以改为其他的需要帮助的对象Findit summarize,net 寻找网络帮助 summarize为需要获取帮助对象Search summarize ,net 寻找网络帮助 summarize为需要获取帮助对象显示结果Display 5+9 1.3描述记录(summarize
2、可简写成sum)Use atuo,clearSummarize price 描述price的观测值个数、平均值、标准差、最小值、最大值Sum weight summarize可简写成sumSum weight price 同时完毕上面两步1.4绘图Scatter price weight scatter 为绘制散点图命令Line price weight ,sort line 为绘制折线图命令,sort为排序,绘制折线图前需要先排序1.5生成新的数据(generate 可简写成gen)ClearSet obs 1000 设立观测值的组数Gen x=_n _n 为观测值得序号Gen y=x+10
3、01.6控制结果输出显示List n 1.7设立屏幕滚动Set more off 先设立此项 则显示时,屏幕不断止Set more on 先设立此项 则显示时,会使显示停止1.8清除内存中原有内容clear1.9设立文献存取途径(cd)Cd d:stata d:stata为途径1.10假如想知道当前程径下有哪些文献,可以用dir 命令来列示.dir1.11假设你想在D 盘的根目录下创建一个新的文献夹mydata 来存放数据文献,命令为mkdir。mkdir d:mydata1.12错误提醒List myvar上述命令试图显示变量myvar,但是结果窗口仅出现如下的显示variable myva
4、r not foundr(111);红色信息表白,没有找到一个叫myvar 的变量,的确,我们的数据中并没有这个变量。List 巧妇难为无米之炊。红色信息下面尚有一个天兰色的 r(111),用鼠标点击,即可弹进一个帮助信息框,给犯错误的更详尽解释。再比如,我们在求五数概略时,误把 sum 写成了sun. sununrecognized command: sunr(199);显示说不结识sun 这个命令。附录:常见命令Chapter2命令语句2.1 掌握命令语句的格式by varlist: command varlist =exp if exp in range weight , options
5、注: 表达可有可无的项,显然只有command 是必不可少的,下面结合例子分项来讲解命令的各个组成部分。2.2 命令commandby varlist: command varlist =exp if exp in range weight , options. cd d:/stata9. use auto, clear /打开美国汽车数据文献auto.dta,后面的clear 表达先清除内存中也许存在的数据集. summarize /*很多命令可单独使用,单独使用时,一般是对所有变量进行操作,等价于后面加上代表所有变量的_all。 */. summarize _all /注意到该命令输出结果
6、与上一个命令完全同样. sum /与前一命令等价,sum 为summarize 的略写. su su 是summarize 的最简化略写,不能再简化为s. s /简写前提是不引起混淆。执行这个命令将出现错误信息unrecognized command: s2.3 变量varlistby varlist: command varlist =exp if exp in range weight , optionsvarlist 表达一个变量,或者多个变量,多个变量之间用空格隔开。. cd d:/stata9. use auto, clear. sum price /求价格的观测值个数,平均值,方差
7、,最小值和最大值. su p /变量和命令均可略写,注意到两个结果完全同样. su t /分数据中有两个变量的开首字母为t(trunk 和turn),所以STATA 认为t 为模糊的省略。m ambiguous abbreviation /红色为错误信息. sum tr tu /求trunk 和turn 变量的五数概略记录变量名称除以下字符不能用作变量名外,任何字母、字母与数字(单独的数字也不允许)组合均可用做变量名:_all _b byte _coef _cons double float if in int long _n _N _pi _pred _rc _se _skip using
8、with基本规定如下:_ 第一个字元可以是英文字母或, 但不能是数字;_ 最多只能涉及32 个英文字母、数字或下划线;_ 由于STATA 保存了很多以“_ “开头的内部变量,所以最佳不要用为第一个字元来定义变量。2.4 分类操作by varlistby varlist: command varlist =exp if exp in range weight , options假如需要分别知道国产车和进口车的价格和重量,可以采用分类操作来求得,. cd d:/stata9. use auto, clear. by foreign: sum price weight /分别计算国产车和进口车的价格
9、和重量但假如执行下面两个命令,将出现错误*/. sort price /按价格从低到高重新排序. by foreign: sum price weight*not sorted/* 系统提醒没有排序,这是由于by varlist 在执行时规定内存中的数据是按照by 后面的变量排序的。当我们用sort price 重新排序后,就打乱了本来按照foreign 的排序,所以出现了错误提醒。更正的办法是:*/. sort foreign /按国产车和进口车排序. by foreign: sum price weight*更简略的方式是把两个命令用一个组合命令来写。. by foreign, sort:
10、 sum price weight假如不想从小到大排序,而是从大到小排序,其命令为 gsort。.gsort - price /按价格从高到低排序. gsort foreign price /*先把国产车都排在前,进口车排在后面,然后在国产车内再按价格从大小到排序,在进口车内部,也按从大到小排序*/2.5 赋值及运算=expby varlist: command varlist =exp if exp in range weight , options例:生成一个新的价格变量nprice,该变量的取值为原汽车价格变量price 的基础上涨10 元. cd d:/stata9. use auto
11、, clear. gen nprice=price+10 /生成新变量nprice,其值为price+10. list price nprice /比较一下两个变量的取值/*上面的命令generate(略写为gen) 生成一个新的变量,新变量的变量名为nprice,新的价格在原价格的基础上均增长了10 元。. replace nprice=nprice-10 /*命令replace 则直接改变原变量的赋值,nprice 调减后与price 变量取值相等*/. list price nprice /再比较一下两个变量,相等。2.6 条件表达式if expby varlist: command v
12、arlist =exp if exp in range weight , options例:若只想查看国产车的品牌和价格,则加入筛选条件if foreign=0 */. cd d:/stata9. use auto, clear. list make price if foreign=0*只查看价格超过1 万元的进口车(同时满足两个条件),则. list make price if foreign=1 & price10000*查看价格超过1 万元或者进口车(两个条件任满足一个). list make price if foreign=1 | price10000*分类型查看价格超过1 万元的
13、汽车的品牌和价格. by foreign, sort: list make price if price100002.7 范围筛选in rangeby varlist: command varlist =exp if exp in range weight , options假如要计算较低的前10 台车的平均价格,则要先按价格排序,然后仅对前10个车的价格求平均值. cd d:/stata9. use auto, clear. sort price. sum price in 1/5注意“1/5”中,斜杠不是除号,而是从1 到5 的意思,即1,2,3,4,5。假如要计算前10 台车中的国产车的
14、平均价格,则可将范围和条件筛选联合使用。. sum price in 1/10 if foreign=02.8 加权weightby varlist: command varlist =exp if exp in range weight , options任务:下表是2023 年湖北省高考640 分及以上成绩一分一段的人数记录,第一列score 为高考分数,第二列num 为该分数段的人数。现在我们规定640 分及以上考生的平均分数。score num650 193649 26648 23647 16646 21645 26644 32643 23642 38641 29640 38操作:先将
15、上面的表格复制,然后进入STATA,执行如下命令. clear /清空STATA. edit然后把光标定位在表格的第一行第一列,点右键,选择粘贴(paste),上表数据便被复制到STATA 中,退出数据编辑器sum score /思考:得到的结果是640 分及以上考生的平均分吗?简朴地使用sum 命令得到的平均成绩显然是不对的的,由于各个分数下的人数是不同样的,对的的计算需要加权,加权的办法是. sum score weight=num / *加权计算,比较该结果与sum score 的区别,事实上,不用权重选项时,相称于权重相等。*/. sum score w=n /w 为weight 的略
16、写,n 为num 的简写,两命令等价2.9 其他可选项,optionsby varlist: command varlist =exp if exp in range weight , options许多命令都有一些可选项例如,我们不仅要计算平均成绩,还想知道成绩的中值,方差,偏度和峰度等*/. sum score, detail. sum score, d /d 为detail 的略写,两个命令完全等价注意,结果中显示了 1%,5%等分位数,意思是把变量从小到大排序,第1%位置处的取值是多少,第10%的位置上的取值是多少。显然,50%位置处的取值是中位数。此外,加了detail 选项后,还得
17、到最小的前5 个数,最大的5 个数,以及峰度和偏度等。*再如,list 命令也有一些可选项. cd d:/stata9. use auto, clear. list price in 1/30, sep(10) /每10 个观测值之间加一横线. list price in 10/30, sep(2) /每2 个观测值之间加一横线. list price, nohead /不要表头Chapter3 数据3.1 打开示例数据和网络数据:use3.1.1 示例数据示例数据为STATA 帮助文献中所用的数据,其后辍名为.dta,假如在STATA软件当前程径下,直接用use 命令即可打开;假如不在当前程
18、径下,则可以使用sysuse 命令打开。. use auto,clear /打开汽车数据auto.dta. cd d:/ /改变途径到d:/. use auto, clearfile auto.dta not found /系统提醒无法找到文献,由于auto.dta 不在d:/r(601);. sysuse auto,clear /无论当前程径是什么,该命令均能打开系统自带文献3.1.2 从网络获取数据上述示例数据也许没有所有下载到你的所用的电脑中,因此简朴地使用use和sysuse 命令时,也许出现错误,如. use nlswork, clearfile nlswork.dta not fo
19、und此时,假如拟定该数据为示例数据,可以直接通过网络获取,其命令为:. use /从网站获取数据,或者. webuse nlswork, clear /与前一命令等价,从STATA 官方数据库获取数据webuse只能从,假如不是该网站的数据,webuse失效,只能把网站地址完全写出来。使用该命令时必须确保网络连接正常.另一个网络数据较多的地方是波士登大学的数据中心,伍德里奇的计量经济学导论一书中所使用的所有数据都可以通过该数据中心获得。比如. use 即打开教材中例2.3 中所使用的CEO 数据。use 命令只能打开后辍名为“*.dta”格式的数据,.dta 格式以外的数据,STATA不能直
20、接读取,需要从外部读入,最简朴而直接的办法是复制和粘贴。但是有时没有其他软件,比如,我们有SAS 格式或SPSS 格式的数据,但没有SAS 软件和SPSS 软件,此时需要用STATA 提供的其他命令或者使用transfer 数据格式转化软件。在讨论其他输入或导入数据的方法之前,我们先来学习一点数据类型的知识。3.2 数据类型STATA 通常把变量划分为三类:分别是数值型,字符型和日期型3.2.1 数值变量:用0、1、29 及+、(正负号)与小数点“(.)”来表达。在输入数据时,逗号不能被辨认,如1,024 应当直接写成1024.5-55.25.2e+35.2e-2后面两个数据为科学计数法的数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 Stata 学习 笔记
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内