Stata学习进步文本笔记.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《Stata学习进步文本笔记.doc》由会员分享,可在线阅读,更多相关《Stata学习进步文本笔记.doc(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、以下命令均采用小写字母以下命令均采用小写字母 Chapter 1 stata 入门入门 1.1 打开数据 use “D:Stata9auto.dta“, clear 用 use 命令打开数据 sysuse auto,clear auto 为系统数据 sysuse 为打开系统数据的命令 1.2 获取帮助 Help summarize summarize 为需要获取帮助对象 可以改为其他的需要帮助的对象 Findit summarize,net 寻找网络帮助 summarize 为需要获取帮助对象 Search summarize ,net 寻找网络帮助 summarize 为需要获取帮助对象 显
2、示结果 Display 5+9 1.3 描述统计(summarize 可简写成 sum) Use atuo,clear Summarize price 描述 price 的观察值个数、平均值、标准差、最小值、最大值 Sum weight summarize 可简写成 sum Sum weight price 同时完成上面两步1.4 绘图 Scatter price weight scatter 为绘制散点图命令 Line price weight ,sort line 为绘制折线图命令,sort 为排序,绘制折线图前需要先排 序1.5 生成新的数据(generate 可简写成 gen) Cle
3、ar Set obs 1000 设置观测值的组数 Gen x=_n _n 为观察值得序号 Gen y=x+1001.6 控制结果输出显示 List n 1.7 设置屏幕滚动 Set more off 先设置此项 则显示时,屏幕不停止 Set more on 先设置此项 则显示时,会使显示停止1.8清除内存中原有内容 clear1.9 设置文件存取路径(cd) Cd d:stata d:stata 为路径1.10如果想知道当前路径下有哪些文件,可以用dir 命令来列示 .dir1.11假设你想在D 盘的根目录下创建一个新的文件夹mydata 来存放数据文件,命令为mkdir。 mkdir d:m
4、ydata1.12 错误提示 List myvar 上述命令试图显示变量myvar,但是结果窗口仅出现如下的显示 variable myvar not found r(111); 红色信息表明,没有找到一个叫myvar 的变量,的确,我们的数据中并没有 这个变量。List 巧妇难为无米之炊。 红色信息下面还有一个天兰色的 r(111),用鼠标点击,即可弹进一个帮助信 息框,给出错误的更详尽解释。 再比如,我们在求五数概略时,误把 sum 写成了sun . sun unrecognized command: sun r(199); 显示说不认识 sun 这个命令。附录:常见命令Chapter2
5、命令语句命令语句2.1 掌握命令语句的格式by varlist: command varlist =exp if exp in range weight , options 注: 表示可有可无的项,显然只有 command 是必不可少的,下面结合例子分 项来讲解命令的各个组成部分。2.2 命令commandby varlist: command varlist =exp if exp in range weight , options . cd d:/stata9 . use auto, clear /打开美国汽车数据文件 auto.dta,后面的 clear 表示先清除内存中可 能存在的数据
6、集 . summarize /*很多命令可单独使用,单独使用时,一般是对所有变量进 行操作,等价于后面加上代表所有变量的_all。 */ . summarize _all /注意到该命令输出结果与上一个命令完全一样 . sum /与前一命令等价,sum 为 summarize 的略写 . su su 是 summarize 的最简化略写,不能再简化为 s . s /简写前提是不引起混淆。执行这个命令将出现错误信息unrecognized command: s2.3 变量varlistby varlist: command varlist =exp if exp in range weight
7、, options varlist 表示一个变量,或者多个变量,多个变量之间用空格隔开。 . cd d:/stata9 . use auto, clear . sum price /求价格的观察值个数,平均值,方差,最小值和最大值 . su p /变量和命令均可略写,注意到两个结果完全一样 . su t /分数据中有两个变量的开首字母为t(trunk 和turn),所 以 STATA 认为t 为模糊的省略。 m ambiguous abbreviation /红色为错误信息 . sum tr tu /求 trunk 和 turn 变量的五数概略统计变量名称 除以下字符不能用作变量名外,任何字母
8、、字母与数字(单独的数字也不允许)组合均可用 做 变量名: _all _b byte _coef _cons double float if in int long _n _N _pi _pred _rc _se _skip using with 基本要求如下: _ 第一个字元可以是英文字母或, 但不能是数字; _ 最多只能包括32 个英文字母、数字或下划线; _ 由于STATA 保留了很多以“_ “开头的内部变量,所以最好不要用为第一个字元来 定义变量。2.4 分类操作by varlistby varlist: command varlist =exp if exp in range wei
9、ght , options如果需要分别知道国产车和进口车的价格和重量,可以采用分类操作来求得, . cd d:/stata9 . use auto, clear . by foreign: sum price weight /分别计算国产车和进口车的价格和重量 但如果执行下面两个命令,将出现错误*/ . sort price /按价格从低到高重新排序 . by foreign: sum price weight *not sorted /* 系统提示没有排序,这是因为 by varlist 在执行时要求内存中的数据是按照 by 后面的变量排序的。当我们用 sort price 重新排序后,就打
10、乱了原来按照 foreign 的排序,所以出现了错误提示。更正的办法是:*/ . sort foreign /按国产车和进口车排序 . by foreign: sum price weight *更简略的方式是把两个命令用一个组合命令来写。 . by foreign, sort: sum price weight 如果不想从小到大排序,而是从大到小排序,其命令为 gsort。 .gsort - price /按价格从高到低排序 . gsort foreign price /*先把国产车都排在前,进口车排在后面,然后在国产车内再按 价格从大小到排序,在进口车内部,也按从大到小排序*/2.5 赋值
11、及运算=expby varlist: command varlist =exp if exp in range weight , options 例:生成一个新的价格变量nprice,该变量的取值为原汽车价格变量price 的 基础上涨10 元 . cd d:/stata9 . use auto, clear . gen nprice=price+10 /生成新变量nprice,其值为price+10 . list price nprice /比较一下两个变量的取值 /*上面的命令generate(略写为gen) 生成一个新的变量,新变量的变量名为 nprice,新的价格在原价格的基础上均增加
12、了 10 元。. replace nprice=nprice-10 /*命令 replace 则直接改变原变量的赋值,nprice 调减后与 price 变量取值相等*/ . list price nprice /再比较一下两个变量,相等。2.6 条件表达式if expby varlist: command varlist =exp if exp in range weight , options 例:若只想查看国产车的品牌和价格,则加入筛选条件 if foreign=0 */ . cd d:/stata9 . use auto, clear . list make price if fore
13、ign=0 *只查看价格超过 1 万元的进口车(同时满足两个条件) ,则 . list make price if foreign=1 . sysuse auto,clear /无论当前路径是什么,该命令均能打开系统自带文件 3.1.2 从网络获取数据 上述示例数据可能没有全部下载到你的所用的电脑中,因此简单地使用use 和sysuse 命令时,可能出现错误,如 . use nlswork, clear file nlswork.dta not found 此时,如果确定该数据为示例数据,可以直接通过网络获取,其命令为:. use http:/www.stata- /从网站获取数据,或者. w
14、ebuse nlswork, clear /与前一命令等价,从STATA 官方数据库获取数据 webuse只能从http:/www.stata- 该网站的数据,webuse失效,只能把网站地址完全写出来。使用该命令时必须 确保网络连接正常. 另一个网络数据较多的地方是波士登大学的数据中心,伍德里奇的计量经 济学导论一书中所使用的全部数据都可以通过该数据中心获得。比如 . use http:/fmwww.bc.edu/ec-p/data/wooldridge/CEOSAL1 即打开教材中例2.3 中所使用的CEO 数据。 use 命令只能打开后辍名为“*.dta”格式的数据,.dta 格式以外的
15、数据, STATA 不能直接读取,需要从外部读入,最简单而直接的办法是复制和粘贴。但是有 时 没有其他软件,比如,我们有SAS 格式或SPSS 格式的数据,但没有SAS 软件 和SPSS 软件,此时需要用STATA 提供的其他命令或者使用transfer 数据格式 转 化软件。在讨论其他输入或导入数据的方法之前,我们先来学习一点数据类型 的 知识。3.2 数据类型STATA 通常把变量划分为三类:分别是数值型,字符型和日期型3.2.1 数值变量: 用0、1、29 及+、(正负号)与小数点“(.)”来表示。在输入数据时, 逗号不能被识别,如 1,024 应该直接写成 1024. 5 -5 5.2
16、 5.2e+3 5.2e-2 后面两个数据为科学计数法的数据,分别表示5200 和0.052.其中的e 相当 于 10,因此 5.2e+3 的意思是:5.2*103=5200 数值型变量按其精度区分,又有五种类型,分别是: 存贮类型 最小 最大 0-领域 字节 - byte -127 100 +/-1 1 int -32,767 32,740 +/-1 2 long -2,147,483,647 2,147,483,620 +/-1 4 float -1.70141173319*1038 1.70141173319*1036 +/-10-36 4 double -8.9884656743*10
17、307 8.9884656743*10307 +/-10-323 8 当运算精度要求很高的时候,需要将变量设置成浮点型或双精度型。 另注意1 和1.0000 的精度是不同的,前者在(0.5,1.5)区间内近似,而后者在 (0.99995,1.00005)区间内近似。若多次运算反复取四舍五入,精度较低时将使 计算误差迅速变大,然而,精度高时占用的内存资源较多。下面的命令有助于 理 解变量存贮类型变换。 . clear. set obs 1 /将设定一个观察值obs was 0, now 1 /提示信息说,之前系统中没有观察单位,现在有了一个. gen a=1 /生成一个新变量a,令a 取值为1.
18、 d /*d 为describ 命令的略写,describ 命令显示数据集的属性信息,注意观察显示结果中,a 的storage type 为float 型, 浮点型为默认类型*/ Contains data obs: 1 vars: 1 size: 8 (99.9% of memory free) storage display value variable name type format label variable label a float %9.0g Sorted by: Note: dataset has changed since last saved. compress /在不
19、损害信息的基础上压缩,使数据占用空间尽可能小a was float, now byte /a 由浮点型变为了字节型. d / 注意a 的storage type 现在为byte 型. replace a=101 /* 注意a 的storage type 现在自动升为int 型,因为byte 最大只能为100*/ a was byte now int (1 real change made) . replace a=100 . compress. d /重新变回到byte 型. replace a=32741 /直接变到long 型,因为int 型最大只能到32740. gen double b
20、=1 /直接生成双精度变量b. recast double a /将a 变成双精度变量b. d /注意到 a 和 b 均为双精度型3.2.2 字符串变量字符变量通常是一些身份信息,如姓名,地名。另外,定类变量也可以用字 符变量来表示,如性别分为“男”和“女”。 字符串变量由字母或一些特殊的符号组成(如地名籍贯变量,迁出地, 住址,职业等等)。字符串变量也可以由数字来组成,但数字在这里仅代表一 些 符号而不再是数字。字符串变量通常以引号“”注标,而且引号一般不被视同 为 字符的一部分,注意这里的引号必须是英文输入状态下的引号。 字符串最多可以达244 个字符。一般用str#来表示字符的多少,如s
21、tr20 表示将有20 个字符。一般三个中文字的姓名需要6 个字符。 字符型示例“String”“string” string”string ” /特殊字符串,表示空字符,缺失值。” ” /注意与空字符串的区别,含有一个空格”125.27” /”125.27”由于有双引号,将被视同为字符而非数值。“$2,343.68”“I love you”“旺材是条狗” 注意前四个字符串均不相同,大小写是不一样的,有无空格及空格的位置不 同,都表示不同的字符串。对于”125.27”这样的数值型的字符串,可以用 real() 函数或者 destring 命令转化成数值型变量。具体操作见 3.3.1。 3.2.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Stata 学习 进步 文本 笔记
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内