受限因变量模型讲稿.ppt
受限因变量模型第一页,讲稿共六十四页哦本章内容n第一节 二元选择模型线性概率模型PROBIT模型LOGIT模型极端值模型拟合优度测定n第二节 多元选择模型无序多元选择模型有序因变量模型(Ordered data)计数模型(Count data)n第三节 删改与截取模型删改数据或截取数据模型估计中的问题受限因变量模型(TOBIT模型)模型估计方法与统计检验第二页,讲稿共六十四页哦用计量经济模型反映选择行为n行为主体从事的每项活动都可以看作是一种选择;n行为主体有其偏好;n人们的行为有其规则;n在经济分析中,通常认为选择基于效用最大化标准。n研究中需要考虑:行为理论基础计量经济学模型方法n模型设定n统计理论和数据n估计方法应用分析第三页,讲稿共六十四页哦行为假定n就可以选择的活动而言,行为主体的偏好具有传递性和完备性。n每项选择都有其相应的效用水平Uijtn每个行为主体都试图获得最大效用,当Ui1t Ui2t 时,行为主体会选择第一项活动。n然而我们无法观测效用本身,我们只有通过观察行为主体做出的选来揭示其偏好行为主体选择第一项活动意味着Ui1t Ui2t第四页,讲稿共六十四页哦随机效用函数(Random Utility Functions)n形式:Uij=j+ixij +izi+eijj为与特定选择j相联系的常数项xij 为选择j所具有的特性(Attributes)i为反映行为主体偏好的权重zi 为行为主体的特征i为行为主体特征的权重eij为效用函数中不可观察的随机成分,假定E(eij)=0,Var(eij)=1n随机效用函数帮助建立了行为基础与观察到的数据之间的关系。第五页,讲稿共六十四页哦行为选择:考虑二元选择模型n涉及“是”或“否”的决策例如是否攻读研究生n模型:读研究生获得的净效用U读研=+1读研费用+2预期收益+1家庭收入+2个人能力+e如果净效用为正,那么选择读研究生(简化模型,真实中还要与其他选择进行比较,那是多元选择模型,此处不表)n使用的数据因变量:1为读研,0为不读研解释变量nX1读研收费间接费用,X2研究生工资增量nZ1家庭收入,Z2读研前学习成绩n显示出的偏好读研者U读研 0,定义Y1未读研者U读研 0时y=1,当y*0时y=0(可以选择其他临界值)。第八页,讲稿共六十四页哦二元因变量模型n二元因变量模型是有限因变量模型的一种特殊形式。因变量取值仅为0或1的情况。n我们可以将其看作是一种选择决策模型,当选择时y=1,未选择时y=0;n我们可以用线性概率模型来研究这种情况,模型可以写作P(y=1|x)=b1x1+KxK+ej 表示当xj 变化时概率的变化 n该方程推断的y 的值表示做出该选择的概率。n一个问题是,由线性概率方程推断得出的概率值可能落在区间0,1之外,因而只有在均值附近才较为可靠。第九页,讲稿共六十四页哦二元因变量模型n由于线性概率函数的取值仅为0或1,因而误差项与模型参数出现相关,即e或是等于-X,或是等于1-X,因而存在异方差问题。n此时线性概率模型违反了相同方差的古典假定,这使得对模型做的统计检验失效。n随着计量经济学软件的不断发展,现在已经很少使用线性概率模型。第十页,讲稿共六十四页哦概率模型Z1Z*线性概率函数第十一页,讲稿共六十四页哦概率函数模型n如前面所述,利用概率模型做推断时可能会遇到计算值超出01区间的情况。n为了解决这一问题,我们用概率函数G(b0+xb)来模拟事件发生的概率,该函数应满足0G(z)Estimate equation-模型选项nBinary Binary choice(Logit,Probit,Extreme value)nOrdered Ordered choice nCensored Censored data(Tobit)必要时给出选项得到估计结果第二十二页,讲稿共六十四页哦用EVIEWS估计有限因变量模型n得到结果后可以在VIEW子菜单下调用:Coefficient tests各种对系数的统计检验Residual tests对残差的统计检验Expectation-Prediction Table 可以得到正确和错误推断的比例Goodness-of-Fit Tests检验拟合优劣第二十三页,讲稿共六十四页哦第二十四页,讲稿共六十四页哦第二节 多元选择模型n无序多元选择模型n有序因变量模型(Ordered data)第二十五页,讲稿共六十四页哦26多元选择模型基本概念n对于多元选择模型,可以根据因变量的性质分为有序和无序两种类型。n无序模型:因变量Y表示观察对象的类型归属,例如:例1:上班的交通工具有走路、自行车、公共汽车、出租车、自有汽车等。例2:结构调整中农民主产品的选择,如蔬菜、果树、动物养殖、水产养殖等。第二十六页,讲稿共六十四页哦27多元选择模型基本概念n有序模型:观察到的因变量Y表示出按数值大小(ordered)或重要性(ranked)排序的分类结果:例1:教育水平分文盲、小学、初中、高中、大学、研究生等例2:农民就业分纯农业、兼业、非农业等例3:收入水平分级例4:考试成绩分优秀、良好、及格和不及格等第二十七页,讲稿共六十四页哦28无序多元选择模型n对于无序的选择模型,其行为选择假定出于优化一个随机效用函数。n考虑第i个消费者面临j种选择,假定选择j的效用为:n如果消费者选择了j,那么我们假定其获得的效用高于其他选择。n考虑效用比较的概率函数n就误差分布形式做出假定后得到可以估计的模型。第二十八页,讲稿共六十四页哦29无序多元选择模型n考虑有三种选择的Logit模型n即每个方程都假定,任两个选择机会比对数是特征X的线性函数。n由于所有概率之和等于1,因而机会比相互依赖,上述限制使需要估计的参数由6个减少到4个。第二十九页,讲稿共六十四页哦30无序多元选择模型n产生系数限制的原因:n这意味着以下限制条件:n即只需要估计系统中的两个方程便可以得到所有参数。第三十页,讲稿共六十四页哦31无序多元选择模型n如果样本属于重复试验,那么可以计算出与每个组相联系的概率rij/ni,然后计算出机会比的对数,与X做回归。式中rij表示组i中选择J的次数占该组观察对象总数ni的比例n如果没有足够多的重复,则需要利用最大似然法进行估计。第三十一页,讲稿共六十四页哦32有序因变量模型基本概念n同二元选择模型一样,我们可以考虑隐变量y*的值取决于一组自变量X,即:n观察到的Y由Y*决定,其规则是:n需要注意的是,反映类型差别的数字大小是任意的,但必须保证当 。第三十二页,讲稿共六十四页哦33有序因变量模型基本概念n观察到每个Y的概率为:n式中F为误差项的累积分布函数。第三十三页,讲稿共六十四页哦34有序因变量模型基本概念n分类界限和参数均通过求以下的似然函数最大值的方式估计得出:n式中函数I(.)是一个指标函数,当括号中的逻辑关系为真时等于1,反之等于0。n为了保证概率为正值,所有的必须满足 0 1 2 0时y=y*当y*0时y=0第四十八页,讲稿共六十四页哦49截取数据模型n假定回归模型的确定性部分为:n而包括正态分布随机误差的方程为(假定e服从标准正态分布,方差为2):n因而y为服从以下分布的随机变量:第四十九页,讲稿共六十四页哦50截取数据模型n截取对随机变量分布的影响体现在:当截取发生在低端时,分布的均值增大;反之,截取发生在高端时,分布的均值减少。截取降低了分布的方差。第五十页,讲稿共六十四页哦51截取正态分布变量的矩n定理:如果xN(,2),a是一个常数,那么有:截取均值 Ex|truncation=+()截取方差 Varx|truncation=21-()n式中:(a-)/如果xa,那么()=()/1-()如果xa,那么()=-()/()()=()()-,对于所有的有0()0,那么y=y*n假定y*为正态分布变量(y*N(,2),此时有:nPr(y=0)=Pr(y*0)=(-)=1-()nPr(y0)=Pr(y*)第五十六页,讲稿共六十四页哦57Tobit模型n上述两种情况均可以表示为Tobit模型,其一般形式为:nTobit模型需要利用最大似然法来估计参数和s;n需要注意的是,反映的是X对隐变量y*的影响,而不是对y的影响。第五十七页,讲稿共六十四页哦58对Tobit模型的解释n除非我们所关心的是隐变量y*,我们不能只解释所得到的系数。n对于从总体中随机得到的一个观察值,不管其是否被删改,其期望值为:n式中:第五十八页,讲稿共六十四页哦59对Tobit模型的解释n删改回归模型的边际效果(假定的y存在下限a和上限b):n对于以0作为单一下限的情况,边际效果的计算公式为:n公式表明,x的变化既影响到分布的条件均值y*,同时也影响到观察值落在可变区间的概率。第五十九页,讲稿共六十四页哦60Heckman两阶段估计n阶段一:估计Probit模型n利用该方程得到的估计值:n阶段二:利用OLS方法估计下列方程n该方法可以得到参数的一致性估计。第六十页,讲稿共六十四页哦61最大似然法估计n取对数的似然函数为(以下限为0的情况为例):n由公式可以看出,前一部分为因变量不受限制情况的OLS回归公式,后一部分为受限制的部分。n一些学者认为,最大似然法是一种更有效的估计方法。第六十一页,讲稿共六十四页哦62Heckman两阶段法和最大似然法比较n根据Greene的看法,两种方法存在以下优劣:两阶段法n有效性差;n简单,现有软件支持;n易于理解并且得到广泛应用。完全信息最大似然法n有效性高n简单,现有软件支持;n不容易理解,使用中广泛存在误解。第六十二页,讲稿共六十四页哦63利用EVIEWS估计Tobit模型n在Eviews中包括了估计Tobit模型的指令,其操作步骤如同普通的OLS模型:Quick Estimate equations Censored给出因变量和自变量给出上、下限(可以用常数、变量或公式)选择分布形式nNormal/Logistic/Extreme value指出样本性质(实际删改/以指标值区分是否删改/截取;选择截取时样本发生变化);其他选项第六十三页,讲稿共六十四页哦选择模型演示第六十四页,讲稿共六十四页哦