chapstata与离散被解释变量模型.pptx
《chapstata与离散被解释变量模型.pptx》由会员分享,可在线阅读,更多相关《chapstata与离散被解释变量模型.pptx(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、主要内容主要内容1-二值选择模型2-多值选择模型3-排序数据模型4-条件logit模型5-嵌套logit模型第1页/共73页实验实验9-19-1:二值选择模型:二值选择模型一 实验基本原理第2页/共73页第3页/共73页第4页/共73页二 实验内容和数据来源根据某统计资料,得到美国妇女就业的数据统计集,形成数据文件“womenwork.dta”,用来研究影响美国妇女就业的因素。被解释变量是work(就业work=1,不就业work=0),解释变量是age(年龄),married(婚否),children(子女数),education(教育年限)。完整的数据在本书附带光盘里的data文件夹的“w
2、omenwork.dta”工作文件中。利用以上数据,建立合适模型对就业的影响因素进行计量分析,由于被解释变量取值有两个可以建立二值选择模型来分析问题。第5页/共73页三 实验操作指导1.建立logit模型分析(1)使用logit模型回归Stata中使用logit模型回归的命令语句格式如下:logit y x1 x2 if in weight,options该命令中logit表示使用logit模型进行回归,相应y表示模型的被解释变量,x表示模型的解释变量,if表示logit的回归条件,in表示回归的范围,weight表示给观测值的加入权重,options的内容如下表所示:第6页/共73页本实验中
3、,在Stata命令窗口中输入如下命令。use womenwork,clear输入此命令来打开需要的数据文件。logit work age education married children输入此命令对被解释变量为work,解释变量为age、education、married、children的模型使用logit模型进行回归估计。在这个回归结果图中log likelihood即对数似然值,不断的试错迭代是logit模型的估计方法,在逐步进行回归时,通过比较不同模型的-2LL判断模型的拟合优度,选择取值更小的模型。LR chi2(4)是卡方检验的统计量,也就是回归模型无效假设所对应的似然比检验量
4、;其中4为自由度,Probchi2 是其对应的P值,在这个估计结果显示以p=0显著说明模型的有效性。其实这两个指标与线性回归结果中F统计量和P值的功能是大体一致的。另外结果中的Pseudo R2是准R2,虽然不等于R2,但可以用来检验模型对变量的解释力,因为二值选择模型是非线性模型,无法进行平方和分解,所以没有,但是准衡量的是对数似然函数的实际增加值占最大可能增加值的比重,所以也可以很好的衡量模型的拟合准确度。此logit模型中拟合优度为0.1882。coef是自变量对应的系数估计值,OLS通过t检验来检验估计量是否显著,logit模型通过z检验来判断其显著性;通过z检验结果可以看到此模型中系
5、数均以p=0显著不为0。第7页/共73页(2)由于估计系数不像线性模型能够表示解释变量的边际效应,所以Stata中有额外的命令语句来计算解释变量的边际效应:mfx compute if in,options此命令语句中mfx表示对回归之后的模型计算解释变量的边际效应,其中options内容如下表所示:第8页/共73页本实验中,在进行logit模型回归估计后,在Stata命令窗口中输入如下命令:mfx此命令计算模型回归之后,解释变量取值在样本均值处的边际效应。此输出结果显示了每一个解释变量的平均边际影响,另外读者可以自己设定计算在边际影响的点,其原理就是命令语句options中的at(atlis
6、t)将其具体化,例如“mfx,at(x1=0)”表示计算x1取值为0,其他解释变量取值在样本均值处的边际效应;而“mfx”默认是在所有解释变量在样本平均值处的边际效应。第9页/共73页(3)计算模型预测的百分比来计算模型的拟合优度。第10页/共73页如果要检验这个分类的依据或者要获得每个预测值,可以利用此二值模型进行预测分析,Stata中二值选择模型的预测的命令语句如下所示:predict type newvar if in,single_options其中predict是表示对模型进行预测的命令;newvar表示预测新变量的名称,type可以表明设定新变量的类型;if和in表示对此预测设定的
7、条件和范围;single_options的内容以下表所示:第11页/共73页本实验中,在Stata命令窗口中输入如下预测命令,可以得到预测结果图:predict p1,pr 此命令可以获得此模型的个体估计的值并记为新变量p1list work p1 此命令可以将实际值与估计值对应罗列,对比看到预测值和实际值的一致程度。第12页/共73页(1)ROC曲线(受试者操控曲线)此曲线是指图9.3提到的敏感性与(1-特异性)的散点图,即预测值等于1的准确率与错误率的散点图。Stata中绘画该ROC曲线命令语句为:lroc x if in weight,options其中lroc表示绘图ROC曲线命令,i
8、f和in表示对绘制图时的条件和范围的设定,weight表示对观测值的权重设定,另外命令中的自变量x不能单独使用,必须与options中beta(matname)同时使用,而options的内容如下表所示:第13页/共73页本实验中,在以上工作后,在命令窗口中输入如下命令绘制ROC曲线图lroc因为准确率就是曲线下面的面积,读此图可以看到ROC曲线是完全在45度直线上面,所以准确率高于错误率,即准确率大于0.5。此图曲线下方面积=0.7806,就是预测的准确率是0.7806。第14页/共73页(2)goodness-of-fit拟合优度检验此检验是考察该模型对所用数据的拟合优度,在Stata中命
9、令语句为:estat gof if in weight,group(#)all outsample table其中,if和in表示对检测拟合优度时的条件和范围的设定,weight表示对观测值的权重设定,group(#)表示使用合理的#分位数进行检验;all表示对所有观测值进行检验,若无后面可选项则默认就是all;outsample表示对估计区间外的样本调整自由度,table表示各组列表。本实验中在Stata命令窗口输入如下命令检验此模型的拟合优度,然后可以得到检验结果:estat gof读此图的方法是P值越大,说明模型的拟合优度越好。第15页/共73页2.建立probit模型分析前面是使用lo
10、git模型对womenwork.dta进行分析,现在使用probit模型对此问题进行分析。两种方法在Stata中的操作是很一致的。在Stata命令窗口中输入如下命令:use womenwork,clear使用此命令打开所需要文件。probit work age education married children此命令表示使用probit模型进行回归。此图的解读方法与Logit模型结果图是完全一样的,probit模型估计结果显示系数估计值相比logit估计值发生了很大变化,且均显著通过了模型系数的显著性检验;另外模型的准R2是0.1889,相比logit模型稍有改进。第16页/共73页由于lo
11、git与probit模型得出的参数估计值不可直接比较,根据本节开始介绍的原理已了解到两模型的边际效应可以比较。Stata中probit模型的边际效应得出方法与logit是相同的。在Stata命令窗口中输入如下命令计算probit模型回归后解释变量在样本均值处的边际效应:mfx可以看到与前面的logit模型比较,两模型分析的边际效应是大致相同的。然后来计算probit模型的拟合优度,具体操作方法也与logit模型是一致的。第17页/共73页计算准确预测百分比,Stata命令窗口输入如下命令:estat clas此图的解读方法与上面logit模型得到的是完全一样的,显然可以得到:sensitivi
12、ty(敏感性)=87.64%,specificity(特异性)=45.05%,correctly classified(正确预测百分比)=73.65%。可以看到,这个结果与logit模型是完全一致的。另外为了检验这个结果,可以同样输入如下命令:predict p2,pr 此命令可以获得此模型的个体估计的值并记为新变量p2list work p2 第18页/共73页其次是使用ROC曲线来检测预测的准确度,在Stata命令窗口中输入如下命令,可以得到ROC曲线:lroc此图的读法与logit的ROC图是一致的,由于logit模型与probit模型的sensitivity与specificity是相
13、同的,那么ROC曲线一定是相同的,且曲线下方的面积同样是0.7806。第19页/共73页最后是godness-of-fit拟合优度检验,在Stata命令窗口中输入如下命令:estat gof第20页/共73页3.二值选择模型的异方差问题Stata中对probit二值选择模型进行异方差检验和回归的命令语句如下:hetprob y x1 x2 if in weight,het(varlist offset(varname),options其中hetprob表示对模型进行异方差probit模型估计和异方差检验,if和in表示对检测拟合优度时的条件和范围的设定,weight表示对观测值的权重设定,选择
14、项 het(varilist)是影响扰动项的变量清单,在该命令语句的输出结果里,会汇报LR检验的结果,据此判断是否应该使用此异方差模型,options的内容如下表所示:第21页/共73页第22页/共73页本实验中,在Stata命令窗口中输入如下命令进行异方差模型估计和检验,可以得到图9.12的运行结果:hetprob work age education married children,het(age education married children)结果显示LR检验的结果是接受原假设,即模型不存在异方差问题。所以回归不应使用异方差回归模型,可以直接应用probit模型进行估计。第23页
15、/共73页实验实验9-29-2:多值选择模型:多值选择模型一 实验基本原理1.多值选择模型有时候人们面临的选择是多个的,比如交通选择,入读大学的选择等等。假设个体可以选择的y=1,2,3,J,其中J是正整数。当研究的被解释变量是这样多值离散的,建立的模型就是多值选择模型,而当J=2时,就是上节所说的probit或者logit模型。若将上面的二值logit模型推广开来,可以得到,第24页/共73页第25页/共73页二 实验内容和数据来源本实验来自某统计资料,统计在购物时所选品牌与性别、年龄的关系。变量主要有brand(品牌),female(性别),age(年龄)。完整的数据在本书附带光盘data
16、文件夹下“brand.dta”中。本实验用此数据来以female和age为解释变量,brand为被解释变量,brand的取值是离散的,且有三个取值,应建立多值选择模型进行相关分析。第26页/共73页二实验操作指导1.选择合理模型在Stata中将数据按照某个或某几个变量进行分类并按这个变量获得其频数分布的命令如下:tab varlist其中varlist表示按照其分类的变量或者变量组合。在本实验中,打开数据文件并将数据按brand取值分类,在Stata命令窗口中输入如下命令use brand,cleartab brand读图可知brand取值有三个,分别是1,2,3。由于所要探究的问题femal
17、e和age对brand的影响,且假定了选择各个品牌之间是相互独立的,那么建立多值选择模型来分析问题是合理的。第27页/共73页2.模型回归多值选择模型有logit和probit多值选择模型,Stata中使用多值logit和probit模型的命令语句是:mlogit y x1 x2 if in weight,options (multinomial logit 模型)mprobit y x1 x2 if in weight,options (multinomial probit 模型)此命令中if和in表示对检测拟合优度时的条件和范围的设定,weight表示对观测值的权重设定,options的内
18、容如下表所示:第28页/共73页经常使用的命令语句是“mlogit y x1 x2,base(#)”或者“mprobit y x1 x2,base(#)”,其中#是指被解释变量的某个取值,其可以根据需要变动此参照组。本实验中,由于logit模型与probit模型操作相似,以多值logit为例进行操作。在Stata命令窗口中输入如下命:mlogit brand age female,base(1)此命令表示以age和female为解释变量,brand为被解释变量,以brand=1为参照组的多值logit模型回归。根据前面原理部分的介绍,该题的多值logit模型是由三个方程组成的。Stata回归结
19、果图显示出了j=2和j=3时对应的模型估计结果,自然由三种选择概率之和为1可得到j=1时模型结果。第29页/共73页Stata中得出多值选择模型个体选择被解释变量每个取值的概率的命令语句格式(1):predict type stub*|newvars if in,statistic outcome(#,#,)nooffset该预测命令语句中,type表示预测设定新变量的类型,stub*|newvars表示预测的新变量名称,if和in表示对检测拟合优度时的条件和范围的设定,outcome表示需要对其指定的类别进行概率预测。如果不设定outcome选项,则需设定k个新变量。如果是预测指数或者指数的
20、标准差,则需设定1个新变量。outcome()中,outcome可以直接用类别的取值,也可以用#1#2等表示类别的序号,当然也可用数值标签来表示。nooffset表示预测时的约束,statistic的内容主要包括:第30页/共73页预测命令格式(2):predict type stub*|newvarlist if in,scores此命令中type表示预测设定新变量的类型,stub*|newvarlist表示预测的新变量名称,if和in表示对检测拟合优度时的条件和范围的设定,score表示对数似然函数对每个方程的一阶导数,第1、2、k个变量为对数似然函数对地1、2、3、k个方程的一阶导数。第
21、31页/共73页在本实验中,在Stata命令窗口中输入如下命令语句预测brand三个取值的概率然后列出如图9.15的预测结果:predict p1 p2 p3List此图可以看出很多时候根据模型预测选择某个品牌的概率最大,但是实际上此个体未选择此品牌,就是预测失败了。若读整个个体选择的概率图,会有一个很明显的结论,年轻的人倾向于选择brand1(选择brand的概率较大),随着年龄增加选择brand2和brand3的概率增加,年龄越大的人倾向选择brand3。第32页/共73页实验实验9-39-3:排序数据模型:排序数据模型一实验基本原理运用计量经济学建立多值选择模型去解释一个取值离散的变量时
22、,有时候这个变量的取值可能是有顺序的,比如银行的信用评级,学生奖学金等等,这些选择的取值代表了一定的优劣,即数字是有顺序的。多值选择模型所能研究的问题是,变量选择的取值之间是无序的,排序对其无意义的。所以对于有序数据的探究应该用本节的排序数据模型。第33页/共73页第34页/共73页二 实验内容和数据根据GSS统计调查数据得到数据文件ordwarm.dta,不同的家庭母子(女)之间的关系是不同的,有的比较紧张,有的比较融洽。这种关系在数据文件ordwarm.dta变量warm(关系融洽度)中体现;文件中其他的变量educ=子女接受教育的程度;age=子女年龄;male=儿子;prst=职业威望
23、;white=白人;yr89=89年受调查与否。完整的数据在本书附带光盘的data文件夹下的“ordwarm.dta”。此数据文件中变量warm取值0,1,2,3表示融洽度逐步上升;warm作为这个问题的被解释变量其取值是离散不连续且是有顺序的,所以可以建立一个排序数据模型分析不同因素对warm的影响。第35页/共73页二 实验操作指导1.选择合理模型warm是模型的被解释变量,从数据文件中看到其是一排序数据。在Stata命令窗口中输入如下命令打开文件并观察数据和其变量特点:use ordwarm,cleartab warm此命令表示按warm变量将数据分类且获得其频数分布。可见所有数据都分在
24、warm的4种取值类别中,由于4种取值有顺序的,所以分析时应该使用排序数据模型。第36页/共73页2.模型回归排序选择模型分为排序logit模型和排序probit模型,在Stata中命令语句分别为:oprobit y x1 x2 if in weight,options 此命令语句表示使用ordered probit 模型对y、x进行回归,if和in表示回归的条件和范围,weight表示观测值的权重,options内容如下表9.11所示。ologit y x1 x2 if in weight,options 此命令语句表示使用ordered logit 模型对y,x进行回归,if和in表示回归
25、的条件和范围,weight表示观测值的权重,options内容如下表。第37页/共73页第38页/共73页本实验Stata分别使用两种模型进行回归,在命令窗口中输入如下命令:oprobit warm ed age male prst white yr89此命令表示解释变量为ed age male prst white yr89,被解释变量是warm的排序probit模型回归。第39页/共73页若使用排序ologit模型对此问题进行回归,则在命令窗口中输入如下命令:ologit warm ed age male prst white yr89此命令表示解释变量为ed age male prst
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- chapstata 离散 解释 变量 模型
限制150内