《stata入门简明课件.docx》由会员分享,可在线阅读,更多相关《stata入门简明课件.docx(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Stata入门讲义Stata入|J讲义一、Stata安装及注意事项二、数据清理以及问卷的信度与效度检验三、界面介绍四、数据的输入与熟悉4.1 log (记录文件)4.2 数据的读入与另存4.3 数据的类型4.4 变量名与数据标签的修改五、数据库的描述5.1 数据的描述(des)5.2 变量编码簿(codebook )5.3 描述变量的属性(inspect.)5.4 显示数据(lis, t browse )5.5 排序数据(sort)六、变量的生成与处理6.1 新变量的生成和改变6.2 变量的生成规则6.3 生成字符型变量6.4 生成份组变量6.5 变量类型的转换七、数据的描述7.1 变量频数分
2、布7.2 变量的中央趋势和离散趋势7.3 描述数值型数据统计量的其他方法八、图形的制作与数据的描述8.1 散点图8.2 线图8.3 条形图8.4 直方图(histogram)8.5 饼图8.6 箱线图九、回归分析9.1 线性回归(OLS)9.2 Logistic9.3 时间序歹U一、Stata安装及注意事项LL下载statal3.rar软件后,请解压到D盘(其他盘也可以)根目录下即可。 下载地址:百度云盘9pan.baidu/share/link?shareid= 1245846483&uk=604047888囚,村正示十丈字算?A:在默A设定下.苜次打开Statal3时.所 Prefereo
3、ce - General Preference - Resoin Cobn - Color scheme,在下粒二单中已择-Clisacw或;Custocn2-把bold左侧方程中的可勾都去掉.盘阳5囱要保证樗物文件能”以合适的字体髭示.只舄作如下设定即可X依M方 J TV Edit - Preferoce - General Preference - iewer Colon 今 Color scheme. (下拉 T 举中心” -Custom 2w 超bold-fl h ft中的。地上掉.长走完此七点七.鹤足,呷4二、数据清理以及问卷的信度与效度检验 三、界面介绍1、五个窗口2、菜单基本功能
4、介绍3、工具栏快捷键的介绍4、语法和命令四、数据的输入与熟悉4.1 log (记录文件)1、菜单操作2、命令输入a. log using ”文件路径和名称“b. log offlog onlog close4.2 数据的读入与另存数据分析的第一步是,将数据处理成为Stata所用的格式。输入数据的方式有六种,包括键盘输入数据,读入文本文件数据,将spss或者Excel数据 文件直接复制或者导入,或者先利用其他软件将文件导成.dta格式。1、Excel数据的导入2、 .dta数据的读入a. use ”文件路径和名称”(读入全部)数据b. use varlist using “文件路径和名称”(读入
5、部份变量)c. use “文件路径和名称“ in XA,读入部份样本,XY之间的观察值)d.use “文件路径和名称条件if!吾句4.3 数据的类型Byte字节型Int整数型Float浮点型Double双精度型Str字符型4.4 变量名与数据标签的修改1)命令方式修改rename原变量名新变量名2)a.labedlata ”这是一份农村调查数据”b. label var age年龄c.label fdiene sexilabel valuessex sexibrowse(蓝色:文字与数字有对应关系的)labelbook窗口菜单方式lookfor var (搜索变量)五、数据库的描述5.1 数据
6、的描述(des)describe, simple(只输出数据中的变量名称)describe, short (只输出数据的样本量、变量的数目、数据的大小等)describe, detail变量名变量的保存形式表现格式变量取值的标签变量的标签5.2 变量编码簿(codebook )在对数据基本情况有了了解之后,我们再来了解一下变量的具体信息。codebook命 令相当于编码簿,提供数值型变量的描述性统计,也获得字符型变量相关信息的简 洁途径。菜单路径: Data-describe data-describe data contents(codebook)命令:codebook5.3 描述变量的属性
7、(inspect) 在了解变量的一些基本信息之后,还需要对变量的频数分布、中央趋势、离散趋势 等进行描述。菜单路径:Data-describe data-Inspect variables命令:inspect5.4 显示数据(lis, tbrowse)Eg:命令:list ABC, Dsep( 10) noobslistCifD185.5 排序数据(sort)所谓排序,就是按关键变量数值的递增或者递减次序进行罗列。用作排序运算依据 的关键变量可以是数字类型,也可以是字符类型。参预排序的变量可以惟独一个, 也可以有两个或者多个。命令:sort BCDgsort:既可以对当前数据从小到大,也可以从
8、大到小(-号置于一个变量前)。*缺失值被默认为大于正数的最大值六、变量的生成与处理6.1新变量的生成和改变命令:gen新变量名二表达式1eg :gen x =_ngen x2=xA2list x x2scatter x x2replace变量名=表达式2 if条件表达式6.2 变量的生成规则a.变量的名称可长达32个字符,必须以字母或者字符开头,也可以下划线开头, 但是不能使用空白字符或者! ?等特殊字符。变量最后一个字符不能是句号。b.变量名称必须惟一c.要区分大小写,不能混用6.3 生成字符型变量gen sexl=male”replace sex=l,fcmale,if sex=0list
9、 sex sexi6.4 生成份组变量gen agegrp=0replace agegrp= 1 if age= 18&age=25&age=35&age=55replace agegrp=. if age二二.(分组要遵守不重不漏原则,对于缺失值要注意,因为缺失值默认为正无穷)6.5 变量类型的转换a.将字符型变量转换为数值型变量eg: destring natio, ngen(newvar)destring nation , replace七、数据的描述 7.1 变量频数分布命令:tabulate var菜单: statistics-summaries,tables,and tests-f
10、requency tables-One-way table 注意: 当tabulate的后边接两个变量的时候,则生成它们之间的交叉表在使用tab进行频数分析的时候,往往会接多个变量,则得到too manyvariables specif,ie的错误提示,下面区分一下tab tabi tab这2三条命令:tab:可用于生成单个变量的频数分布,或者两个变量的交叉分布tabi:可接多个变量,但只能分别生成单个变量的频数分布,不能生成交叉表tab2:可以生成多个双变量的交叉表eg: tabexport age nation edu income using results.txt,s(mean sd)
11、 replaceshellout results.txt7.2 变量的中央趋势和离散趋势集中趋势是指数据分布的一种表现形式。频数最多的组段代表了中心位置,从两 侧到中心,频数分布是逐步增加的。集中趋势包括变量的均值、中数、众数、最大 值、最小值等。离散趋势,从中心到两侧,频数分布是逐渐减少的,反映了数据的 离散程度。主要测量方法包括方差、极差、标准差。菜单:statistics-summaries,tables,and tests-summary statistics-summary statistics 命令:summarizevarlist,detailformat income %6.2
12、f /限定输出格式 sum income, format7.3 描述数值型数据统计量的其他方法tabsum tabstat、table等命令,在此再也不详细介绍。八、图形的制作与数据的描述8.1 散点图Scatter描绘散点图,且是双向关系图,反映两个变量之间的关系。其图形反映Y轴 的数值是否随X轴数值的变化而发生相应的变化。eg: scatter income edusysuse auto,clear twoway scatter price weigraph matrix price wei len mpgScatter有不少选项 help scatter8.2 线图8.3 条形图8.4
13、直方图(histogram) hist age,discretesysuse nlsw88.dta,clear hist wagegen ln_wage=ln(wage)hist In(wage) ,normaldis ln(10-100-10000)8.5 饼图8.6 箱线图九、回归分析前边的章节介绍了社会科学中定量分析方法的过程与步骤,熟悉数据、描述数据和 处理数据的基本技术,包括了解数据的基本特征和分布、修改和生成变量、数据的清理、 数据分组以及绘图的基本程序命令和窗口路径。判断性统计方法运用概率理论,根据观察到的样本特征预测和判断总体特征。但是几种判断性统计分析(假定检验和方差分析)都
14、存在一定的局限。比如,假定检 验只能同时分析两个变量,且分类变量只能有两个取值。方差分析虽然客服了该局限, 分类的自变量可以有多个取值,且同时允许分析连续的因变量是否随多个自变量的不同 取值各异。但方差分析本身除了提供F统计量外,并不提供更多的信息;而且方差分析 主要用于分类自变量与数值型因变量之间的分析。虽然它也能纳数值型自变量于分析之 中,但是不能提供单个自变量对因变量作用的大小。从方差分析发展而来的另一种判断 性统计方法回归分析,可以客服这些局限。回归分析研究的主要对象是客观事物之间的联系,表现为变量之间的统计关系。在进行回归分析之前,首先必须掌握变量之间是否相关。惟独变量之间存在关系,
15、 才有必要进行回归分析。假如当X增加时,Y的取值发生相应的变化,则X与Y之间时相 关的;假如当X增加时,Y的取值没有确定的变化,则X与Y之间时不相关或者没有 相关关系的。对风牛马不相及的事件进行回归时没有任何意义的。9.1线性回归(01)a.相关散点图(scatter pl加eg:gen x 1 =_ngen yl=-xlscatter yl xlb.相关系数-1R1接近0表示两变量的线性关系微弱或者彻底不相关相关系数仅能衡量两个变量之间的线性关系,不能提供曲线关系的信息。因此 R二0不一定表示两变量之间没有任何关系。命 令:correlate varlistgraph matrix inco
16、me edu age ,maxis(ylabel(none) xlabel(none)c.模型成立的条件1)零均值假定2)同方差假定3)无自相关假定4 )解释变量与扰动项不相关假定5 )在重复抽样中Xi的值是固定的在重复的样本中,解释变量Xi所取的值被认为是固定的,也就是说Xi是非 随机的。二.毁lUK*回EflMh ,小二弟社的芳本假定我们已加火体H门根为;YB昆K “心表叼T匕依处f X.和乂 内此,法I我们 嗔*X( 4M0工杆广1於。则HI门机利了外出任何机V4嘶,也无金对Ri A出任何就诃 车所.为了:Hn俏it通行仃理的解开.让健就必於正悦机扰MN”和解公史二.工达学力抽望人匕此的
17、走&为线性同ritftp的甲摹代比.七0在以下几个以方,等比他假正E(x I0(/ 12 /)(Vi-9)。见机械总同匕4 1【刚F3 (丫 ,近I卜Nu.U (旭0|1岫K Hl * iftW hi-,I,s X 外HU ,一。上相抵响的心势.2“方年fit比ivart/zj* 国川 (/)/(iUXE)(3-2-10)区个代正和匕时何?马机快.5,从X力窄等于一个南敢71口书行交点收不同他暂时,“JI对 力日力(tt(手均1)的分tFl艮杷川的.W4W rt Rw H同的力CMl凶力,varyj = W-(yj 2,身6 6/,+-出./ n3 (M) 7l此iMW1网时代明内士HZ可佐义
18、值的分曲杆收小2桶“豹.工无H箱矢假疣cov(,.J =,lA -月 1“)心以”=(夕“2 0 i / j(i.ja U2.n)02-11)G斤一个等太Hi立.坦因为“。儿,是相互俭立的.4“必)二 (“)(“ 0次际上力星大于St机执动,相独立性的假定.帙/说叫.产1 F桃的因此兄完全葡机的相”独立的. TWX的.凶此.因* Y的序列CIKH ,J:之间也是IX的.4 X群生吊。优动则不相入脩定8V(Xj.“JU02-12)U tff;HU iWfrM K匕的机打金川“,科1|触补相&、附机有;力1 4“和“,发 X,所取的忙1般汰为足同定的.也就足 说MIHIItt机的.h解4令编的耳观
19、,伯小曲由他相同.这个他双。一兀仙伸的“检幻中,空束Tlf令W%令M2 何小存在t楼去格在多元线件网门校.中*释知 2间小ftt存在线性相关,究龟为什么段】将下一 星向大索介4Od.命令regress varlist, optionreg edu agereg edu age ,r异方差(截面数据很容易浮现异方差)异方差的检验1)看残差图(rvfplo)t2)怀特检验(estat imtest, white)3) BP 检验(estat hettest)异方差的处理1) OLS+稳健标准误(输出稳健标准误:如果使用的数据采取了分步骤、多阶段的聚类抽样设计和方 法,同一单位的样本不一定彻底独立,
20、从而违背了统计理论的一个基本原则。 其后果是,浮现异方差,分析结果可能浮现偏误。robust有助于克服这一不足。)2) 广义最小二乘法(GLS)3 )加权最小二乘法(WLS )自行学习4)可行广义最小二乘法自相关1)时间序列数据,往往会浮现自相关2)截面数据中的自相关3)认为处理:挪移平均数,内插值4)设定误差:如果模型设定中遗漏了某个自相关的解释变量,并被纳入到扰动 项中,则会引起扰动项的自相关。自相关的检验:1 )画图 scatter2)BG检验3 ) DW检验处理方法:1)使用:OLS+异方差自相关稳健的标准误2)使用OLS+聚类稳健的标准误3)使用可行广义最小二乘法(FGLS)4)修改
21、模型设定结果解读:包括三部份左上方是方差分析结果,右上方是回归统计量,下部份是参数估计的 内容。方差分析部份给出了回归平方和(Model),残差平方和(R),总平方和(T),自由度以及 回归和残差的均方(MS)1)F检验F检验是对总体回归方程的显著性检验,即对因变量与自变量之间的线性关系 是否显著的一种假设检验。2)判定系数R八2度量估计的回归方程的拟合优度表明模型中的自变量对因变量变异的解释能力3)T检验对回归系数的显著性进行检验。即检验回归系数是否等于() c.结果的输出logout, save(mytable) word replace: reg D F C9.2 Logistic(最大似然法)Logistics回归分析是对因变量为定性变量的回归分析。它是一种非线性模型。 其基本特点是:因变量必须是二分类变量。命令:logit yxl x2(参数估计)logistic yxl x2(提供发生比)分析结果的实质是一样的,但输出结果的表现形式有所不同。9.3 时间序列
限制150内