《离散选择模型分析.ppt》由会员分享,可在线阅读,更多相关《离散选择模型分析.ppt(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第8章 离散选择模型分析 第一节 离散选择模型概述 一般回归分析中的因变量为数值型变量,通常是连续变量。但有时也会遇到一些特殊的因变量。(1)因变量为离散变量,或为非数值型变量(分类变量或顺序变量)。(2)因变量为连续变量,但变量的取值范围受限制。上述这两类数据称为特殊因变量数据。特殊因变量数据模型 特殊因变量的回归模型,称为特殊因变量模型,按数据不同主要有如下两类:(1)离散因变量模型(discrete dependent model):因变量为离散变量或非数值型变量。(2)截取模型(Tobit model):因变量为连续变量,但因变量的取值范围受限制。若样本数据抽自总体分布的某一规定部分时
2、,称为截断数据,相应的回归模型称为截断回归模型。这种模型在实际中应用很少。本章讨论离散因变量模型和截取回归模型。第二节 离散因变量模型 前二章讨论的回归模型,因变量都是连续变量,如产量、收入和价格等。但在许多的实际问题中,所研究的因变量是离散的,或是非数值型。对于这一类因变量,古典的回归分析方法已不完全适用。例 41(4-1)一家公司的人事部门研究高级人才是否接受招聘与招聘条件(如薪金、福利和工作环境等)关系。若招聘对象是否接受用 y 表示,则y 为虚拟变量即 y 可划分为两个类别,分别用 1 和 0 表示。否则接受例43 研究交通工具的选择与影响选择的因素的关系时,用 y 表示选择类型,则(
3、4-4)则定性变量 y 划分为四个类别。自行车公交车出租车地铁两元选择模型和多元选择模型 离散因变量是指因变量只有有限多个类别或有限多种取值。当因变量只有两个类别或两种取值时,这种离散因变量的模型称为两元选择模型(如例4-1)。而当因变量有两个以上类别或两种以上取值时,相应的离散因变量模型称为多元选择模型(例4-3)。两元选择模型 对于两元选择模型,因变量 的取值记为1或0,于是(4-5)这是两元选择模型的基本形式。下面介绍几种主要的离散因变量模型。即 等于 的概率。设 是影响 的 k 个因素,是 k+1 个未知参数,则回归模型为于是(1)线性概率模型(linear probability m
4、odel,简称LP模型)线性概率模型取(4-6)记 ,则得线性回归模型(4-10)线性概率模型存在如下二个问题:函数设定不当线性概率模型存在的二个问题 对于两元选择模型,有 ,即但对于线性概率模型,作为 的估计 难以做到 。记 ,得则 的方差不是常数,即存在异方差。于是(4-11)(2)Probit 模型(4-7)从而也称为概率单位模型。为了使 ,应选择 为取值在 0 与 1 之间的 S 形曲线,而分布函数就是这种类型的曲线。Probit 模型取为标准正态分布的分布函数,即(3)Logit 模型即 L 为线性概率模型,从而 Logit 模型也称为对数单位模型。(4-8)Logit 模型是取 为
5、逻辑斯蒂(Logistic)分布,即根据(4-8)式则第三节 两元选择模型:Probit 和Logit 模型 一一、Probit 模型 根据(4-7),Probit 模型取 为标准正态分布的分布函数。从而,取 为标准正态分布的分布函数,即得 Probit 模型。n理论基础:McFadden的效用理论或行为的理性选择为依据;n第i个家庭对是否拥有住房的决定,依赖于一种不可观测的效用指数I,而这种效用指数I又取决于某个解释变量X,即:n问题:不可观测的I如何与拥有住房的实际决定发生关系?n合理的假定是:对每个家庭都有一个指数临界值 ,如果I超过临界值,该家庭将拥有n住房,否则不拥有住房。例4-4
6、设 为不可观察的决策数据,而 和 可观察,设则当 时,即为 Probit 模型(47)。(4-12)(4-13)(4-14)且有理论模型其中 。于是,否则,若最大似然估计(the method of maximum likelihood)(4-15)(4-20)(4-21)最大似然估计 是使 L 或 达到最大的 值,即满足如下的似然方程组 Probit 模型的似然函数而对数似然函数牛顿法(Newtons method)(4-17)(4-22)(4-23)并且可用 作为 的协方差矩阵的估计。由于 Probit 模型为非线性,从而似然方程(4-021)只能用迭代法求解。记海森矩阵则牛顿法的迭代公式
7、为其中二、Logit 模型(4-27)逻辑斯蒂分布与标准正态分布相似,但逻辑斯蒂分布更平缓。对于 Logit 模型,类似得 Logit 模型的似然函数和对数似然函数为似然方程组于是似然方程组根据(4-8),记得(4-29)整理后得Logit 模型的牛顿法(4-28)对于 Logit 模型,参数估计同样应用牛顿法。并且可得预测从而也可对 进行区间预测。Probit 模型和 Logit 模型在建立方程后,都可以根据给定的自变量值对因变量作预测。的点预测为由于(4-30)(4-31)第四节 离散因变量模型设定的检验 模型设定的检验包含两部分的内容。(1)模型函数 的设定,即 应取哪一种形式更适合样本
8、数据。(2)中 的设定,即哪些解释变量应引进模型。一、模型系数的检验 1 单个系数的检验其中 是 的标准差的估计,临界值由t 分布确定。当 时称解释变量 对 的影响不显著,而当 时则称影响显著。因而一个解释变量是否显著,即是否应引进模型,可归结为检验假设检验统计量为2 多个参数的检验 的矩阵表示为 ,其中 多个参数的检验主要有 Wald 检验和对数似然比检验。(1)Wald 检验 检验前 k 个系数是否都为 0 的原假设为Wald 检验其中 是 前 k 个系数组成的子向量,而 是V 的前 k 行和前k 列组成的子矩阵。W 渐近服从 ,即 采用 Wald 检验时,检验统计量为(4-33)(4-4
9、4)(4-45)其中 。从而当 为真时(2)对数似然比检验(log-likelihood ratio test)(4-46)检验前 k 个系数是否都为 0 时,对数似然比检验的统计量为其中 和 分别是对数似然函数 L 在 和 时的相应取值。也渐进服从 。回归元单位变化的边际效应回归元单位变化的边际效应n边际效应给出了自变量的边际变化引起事件发生概率的变化。n偏效应n(1)如果解释变量是一个连续型变量,那么他对p(x)=p(y=1|x)的偏效应可以通过求下面的偏导数得出来:偏效应的符号和该解释变量对应的系数的符号一致;两个解释变量偏效应之比等于它们各自的估计系数之比。n(2)如果解释变量是一个离
10、散性变量,则 从 变化到 +1时对概率的影响大小为:第五节 离散因变量模型应用举例 例4.1 研究新的经济学教学方法的效果。因变量 y 表示采用了一种新的经济学教学方法后学生在一次测验中分数是否改善,自变量 分别表示学生的平均分数、预测验分数和是否接受新教学法。表 4-1学习效果分析的数据第七节 截取模型:Tobit 模型 在经济分析中,有时因变量的数据受限制,从而只能取得部分因变量数据。实际上tobit模型是probit模型的推广,(tobit意即Tobin的probit);在严格为正值的时候大致连续,但是有相当部分取值为0。例44 研究某耐用消费品的需求时,如果一个家庭不购买这种耐用消费品
11、,则用于该耐用消费品的支出 y=0。因而,实际上得到的只是购买数据,而不是需求数据,这种数据称为截取数据。即当消费品的需求量转换为销售量时,数据被截取。截取模型就是讨论如何利用审查数据分析该耐用消费品的需求。截取模型只是观测不到被解释变量;一、Tobit模型概述(4-68)通常把审查回归模型称为 Tobit 模型,基本形式为其中假定 相互独立,且服从正态分布 ,y 和 x 可观察,但当 时 不可观察。若若条件期望(4-69)从而审查数据的分布为离散分布与连续分布的复合体。于是 根据上述假设,则 ,从而其中二、Tobit 模型的估计 对于审查数据,最小二乘法不能给出参数的理想估计量。图4-4以耐用消费品为例,显示了审查数据的特点。当一个家庭不购买这种耐用消费品时,耐用消费品支出 y=0,而当购买这种耐用消费品时,则 y 0。最大似然估计(4-70)(4-71)采用牛顿法可先求得 和 的估计,然后即得 和 的估计。Tobit 模型采用最大似然估计法。审查数据的对数似然函数为 (470)比较复杂,令则可简化为
限制150内