离散选择模型.pdf
《离散选择模型.pdf》由会员分享,可在线阅读,更多相关《离散选择模型.pdf(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 离散选择模型离散选择模型 郑安 郑安 南京审计学院 经济学院 南京审计学院 经济学院 在经典计量经济学模型中,被解释变量通常被假定为连续变量。但是,我们在数据分析与建模时,有时会遇到被解释变量在经典计量经济学模型中,被解释变量通常被假定为连续变量。但是,我们在数据分析与建模时,有时会遇到被解释变量 Y 不再是连续变量,而是离散变量。例如:公共交通工具和私人交通工具的选择问题,对某种商品的购买决策问题,求职者对某种职业的选择问题,劳动力迁移决策等,这时我们把因变量离散取值的计量模型称为离散选择模型(不再是连续变量,而是离散变量。例如:公共交通工具和私人交通工具的选择问题,对某种商品的购买决策问
2、题,求职者对某种职业的选择问题,劳动力迁移决策等,这时我们把因变量离散取值的计量模型称为离散选择模型(DCM,discrete choice model),如果因变量只能取两个值,则称之为二元选择模型(),如果因变量只能取两个值,则称之为二元选择模型(binary choice model),如果因变量可取多个数值,则称之为多元选择模型。),如果因变量可取多个数值,则称之为多元选择模型。离散选择模型起源于离散选择模型起源于Fechner于于1860年进行的动物条件二元反射研究。年进行的动物条件二元反射研究。1962年,年,Warner 首次应用于经济领域。首次应用于经济领域。20 世纪世纪 7
3、0 和和 80 年代,离散选择模型普遍应用于经济布局、交通问题、就业问题、购买决策问题等经济决策领域的研究。模型的估计方法主要发展于年代,离散选择模型普遍应用于经济布局、交通问题、就业问题、购买决策问题等经济决策领域的研究。模型的估计方法主要发展于 20 世纪世纪 80 年代初期,远远滞后于模型的应用,并且至今还在不断改进,它属于微观计量经济学年代初期,远远滞后于模型的应用,并且至今还在不断改进,它属于微观计量经济学即研究大量个人、家庭或企业的经济信息,即研究大量个人、家庭或企业的经济信息,McFadden 因为在微观计量经济学领域的贡献而获得因为在微观计量经济学领域的贡献而获得 2000 年
4、诺贝尔经济学奖。年诺贝尔经济学奖。一、离散选择模型内容提要:一、离散选择模型内容提要:1.1 定义:因变量取值是离散的,这类回归模型称为离散选择模型。根据因变量的个数以及因变量取值的不同,离散选择模型有如下若干情形:定义:因变量取值是离散的,这类回归模型称为离散选择模型。根据因变量的个数以及因变量取值的不同,离散选择模型有如下若干情形:(1)若因变量取值仅有两个,称为二元选择模型,包括重复观测值可以得到情况下的二元选择模型和重复观测值不可以得到情况下的二元选择模型。)若因变量取值仅有两个,称为二元选择模型,包括重复观测值可以得到情况下的二元选择模型和重复观测值不可以得到情况下的二元选择模型。(
5、2)若因变量取值两个以上,称为多元选择模型,包括一般多元选择模型和排序多元选择模型。)若因变量取值两个以上,称为多元选择模型,包括一般多元选择模型和排序多元选择模型。1.2 研究内容研究内容 (1)模型的设定)模型的设定(2)最大似然法估计参数;)最大似然法估计参数;(3)模型检验)模型检验(4)自变量的边际效应分析)自变量的边际效应分析 1.3 应用举例应用举例(1)买房决策:买与不买,解释变量假定为收入;对于一个确定收入的市民而言,买房与不买房都有可能,这是随机事件,自然而然的,我们所关心的就是买房的概率如何确定。)买房决策:买与不买,解释变量假定为收入;对于一个确定收入的市民而言,买房与
6、不买房都有可能,这是随机事件,自然而然的,我们所关心的就是买房的概率如何确定。假设假设01y=未买房买房,收入记为,收入记为 income。样本数据:特定地区家庭信息(样本数据:特定地区家庭信息(y,income)(2)研究生录用中二元选择模型:)研究生录用中二元选择模型:01y=未录取录取,解释变量虚拟变量,解释变量虚拟变量 011D=非应届生应届生和分数和分数 score。如何确定一个考生的录取概率?。如何确定一个考生的录取概率?样本采集:所有考生信息样本采集:所有考生信息(y,score,D1)。(3)医学中二元选择模型:心肌梗塞和人体内的两项指标密切相关,即高密度蛋白质含量()医学中二
7、元选择模型:心肌梗塞和人体内的两项指标密切相关,即高密度蛋白质含量(HDL)和纤维蛋白质含量()和纤维蛋白质含量(Fib)。)。假定假定 01y=未患心肌梗塞患心肌梗塞 样本数据:所关心的某个群体的信息样本数据:所关心的某个群体的信息(y,HDL,Fib)(4)政府支持率的民意测验)政府支持率的民意测验 对政府的态度对政府的态度012y=支持中立反对,解释变量为市民收入,解释变量为市民收入income。样本数据:某城市市民信息(样本数据:某城市市民信息(y,income)二、问题的提出二、问题的提出 例例1:分析选举中投票者的收入对选举的影响。以投票者的态度(:分析选举中投票者的收入对选举的影
8、响。以投票者的态度(y)为被解释变量,令同意者)为被解释变量,令同意者y=1,反对者,反对者y=0,以投票者的月收入(,以投票者的月收入(x)为解释变量,如下表:)为解释变量,如下表:Y X Y X Y X 0 0 100 0 0 1100 1 1 2100 0 0 200 0 0 1200 1 1 2200 0 0 300 1 1 1300 1 1 2300 0 0 400 0 0 1400 1 1 2400 0 0 500 1 1 1500 1 1 2500 0 0 600 0 0 1600 1 1 2600 0 0 700 1 1 1700 1 1 2700 0 0 800 0 0 18
9、00 1 1 2800 0 0 900 1 1 1900 1 1 2900 0 0 1000 1 1 2000 1 1 3000 能否用经典正态线性回归模型处理呢?能否用经典正态线性回归模型处理呢?12iiiyxu=+2122212min()()()()iiiiiyxxxyyxxyx=经典正态线性回归模型的问题:一般假设经典正态线性回归模型的问题:一般假设u服从正态分布,无异方差,无自相关,无多重共线性下,最小二乘法得到的参数估计值是服从正态分布,无异方差,无自相关,无多重共线性下,最小二乘法得到的参数估计值是BLUE的的(1)12()1(1)0(0)(1)iiE yxP yP yP y=+=
10、+=,而,而12ix+可能超出可能超出0,1范围范围(2)iu非正态分布非正态分布 iu 概率 11y=121ix12(1)iP yx=+10y=12ix 121(1)1iP yx=+()(3)iu的异方差的异方差 221212()()(1)iiiiiuEuEuxx=+所以用线性回归模型不能得到最优线性无偏估计量所以用线性回归模型不能得到最优线性无偏估计量 三、二元选择模型概述三、二元选择模型概述 3.1 二元选择模型要表达什么?二元选择模型要表达什么?如果我们把个体的选择看作是一次由量变所导致的质变,则二元选择模型要表达的就是“量变与质变的关系”。如果我们把个体的选择看作是一次由量变所导致的
11、质变,则二元选择模型要表达的就是“量变与质变的关系”。具体来讲,假设个体的决策用用因变量为具体来讲,假设个体的决策用用因变量为iy表示,则表示,则iy取值取值01或,分别表示是与否,选择与不选择等,影响决策的指标变量记为,分别表示是与否,选择与不选择等,影响决策的指标变量记为1(,)kxx?。二元选择模型要研究的是指标变量如何影响个体的决策概率?比如,特定收入条件下购房决策概率;若干指标下患病概率等等。因此,二元选择模型实际上就是建立个体决策的概率模型。二元选择模型要研究的是指标变量如何影响个体的决策概率?比如,特定收入条件下购房决策概率;若干指标下患病概率等等。因此,二元选择模型实际上就是建
12、立个体决策的概率模型。3.2 个体按什么进行决策呢?个体按什么进行决策呢?个体决策基于如下思想:个体决策受指标变量的影响,有些指标变量给决策带来正倾向,而有些带来负倾向,如果综合倾向超过某个临界值,则个体做个体决策基于如下思想:个体决策受指标变量的影响,有些指标变量给决策带来正倾向,而有些带来负倾向,如果综合倾向超过某个临界值,则个体做 出“是”的决策,否则做出“否”的决策。概括地讲,就是量变导致质变的思想。具体而言,涉及到三个方面的问题:出“是”的决策,否则做出“否”的决策。概括地讲,就是量变导致质变的思想。具体而言,涉及到三个方面的问题:(1)综合倾向如何表达?)综合倾向如何表达?(2)量
13、变的临界值如何选取?)量变的临界值如何选取?(3)个体决策的概率如何计算?)个体决策的概率如何计算?3.3潜回归潜回归 我们假设存在一个不可观察的潜在变量称为决策倾向,是指标变量的连续性 函 数,记 为我们假设存在一个不可观察的潜在变量称为决策倾向,是指标变量的连续性 函 数,记 为*iy,它 与 指 标 变 量,它 与 指 标 变 量ix之 间 具 有 如 下 线 性 关 系之 间 具 有 如 下 线 性 关 系 *1ikkiiiyxxu=+=+?该方程称为潜回归方程,其中该方程称为潜回归方程,其中iu是随机扰动项,是随机扰动项,1ikixx=?,1k=?3.4 量变临界值选取量变临界值选取
14、 量变到多少时,个体才进行选择呢?不妨设为量变到多少时,个体才进行选择呢?不妨设为0。这样,。这样,iy与与*iy有如下关系:有如下关系:*1000iiiyyy=做出“是”决策做出“否”决策 3.5 随机误差项的分布随机误差项的分布 如果给定随机误差项的分布,即给定如果给定随机误差项的分布,即给定()iuF ,则个体决策概率可完全确定。推导如下:,则个体决策概率可完全确定。推导如下:*(1)(0)()1()iiiiiP yP yP uxFx=*(0)(0)()()iiiiiP yP yP uxFx=四、常见的二元选择模型四、常见的二元选择模型 Probit模型模型 若若(0,1)iuN,则称二
15、元选择模型为,则称二元选择模型为Probit模型,可得决策概率:模型,可得决策概率:(1)1()()iiiP yFxFx=2/21(1)()()2ixziiiP yFxxedz=Logit模型模型 若若1xixeue+,则称二元选择模型为,则称二元选择模型为Logit模型,可得决策概率:模型,可得决策概率:(1)1()()iiiP yFxFx=(1)()1iixiixeP yFxe=+Extreme模型模型 若若1 exp()xiue,则称二元选择模型为,则称二元选择模型为Extreme模型,可得决策概率:模型,可得决策概率:(1)1()exp()ixiiP yFxe=在经济计量应用中,主要使
16、用在经济计量应用中,主要使用Probit模型和模型和Logit模型,尽管二者形式和参数有很大的差异,但在分析解释变量对因变量的边际影响时,对于多数的应用问题,二者的实际差异并不是很大。因此,具体选择哪一个模型,并没有严格的标准。模型,尽管二者形式和参数有很大的差异,但在分析解释变量对因变量的边际影响时,对于多数的应用问题,二者的实际差异并不是很大。因此,具体选择哪一个模型,并没有严格的标准。五、二元选择模型的参数估计五、二元选择模型的参数估计 二元选择模型一般采用极大似然估计。二元选择模型一般采用极大似然估计。假设假设iy 的分布列为:的分布列为:若给定样本若给定样本1(,)iikiy xx?
17、(1,2,)in=?,则样本似然函数为:,则样本似然函数为:11()()1()iinyyiiiLF xF x=则对数似然函数为:则对数似然函数为:1ln()(ln()(1)(1()niiiiiLyF xyF x=+对数似然函数取最大值的一阶条件为:对数似然函数取最大值的一阶条件为:1()()ln(1)()0()1()niiiiiiiif xf xLyyxF xF x=+=上述一阶条件,相当于得到上述一阶条件,相当于得到k个方程组,通常是非线性的。用迭代法进一步计算出个方程组,通常是非线性的。用迭代法进一步计算出估计量,具体计算借助于计量软件处理。估计量,具体计算借助于计量软件处理。六、二元选择
18、模型的参数检验六、二元选择模型的参数检验 6.1单个系数的显著性检验单个系数的显著性检验 一个解释变量(对二元决策的概率)是否有显著性影响的检验,如同正态一个解释变量(对二元决策的概率)是否有显著性影响的检验,如同正态iy 0 1 P 1()iF x ()iF x 线性回归分析的单个系数的检验类似,根据模型中的待估系数与其方差计算线性回归分析的单个系数的检验类似,根据模型中的待估系数与其方差计算z统计量,并检验假设统计量,并检验假设0:0iH=。6.2总体显著性检验总体显著性检验 由于由于Logit模型、模型、Probit模型是非线性的,在同时检验多个系数是否为模型是非线性的,在同时检验多个系
19、数是否为0时,时,F检验不能使用。可以采用下述几种检验方法。检验不能使用。可以采用下述几种检验方法。(1)Wald检验(适用于线性和非线性约束)检验(适用于线性和非线性约束)023:0kH=?检验统计量:检验统计量:1()()()WRqRVRRq=其中,其中,1000kRI=,Rq=是零假设是零假设0H的矩阵表示,的矩阵表示,V是估计系数的协方差矩阵,是估计系数的协方差矩阵,是无约束模型得到的估计值。可以证明,是无约束模型得到的估计值。可以证明,W渐进服从渐进服从2(1)k分布。所以分布。所以W检验只需要估计无约束模型检验只需要估计无约束模型(2)对数似然比检验(只适用于线性约束)对数似然比检
20、验(只适用于线性约束)023:0kH=?检验统计量:检验统计量:2ln()ln()RLRLL=其中,其中,ln()RL是约束模型的最大对数似然函数值,是约束模型的最大对数似然函数值,ln()L是非约束模型的最大对数似然函数值。可以证明,在零假设下,是非约束模型的最大对数似然函数值。可以证明,在零假设下,LR渐进服从渐进服从2(1)k分布。所以分布。所以LR检验既需要估计有约束模型,又需要估计无约束模型检验既需要估计有约束模型,又需要估计无约束模型(3)拉格朗日乘子检验(适用于线性和非线性约束)拉格朗日乘子检验(适用于线性和非线性约束)023:0kH=?检验统计量:检验统计量:LMg Vg=其中
21、,其中,g是将有约束模型得到的参数估计值是将有约束模型得到的参数估计值R代入无约束对数似然函数的一阶导数向量中,代入无约束对数似然函数的一阶导数向量中,V是有约束模型得到的参数估计值是有约束模型得到的参数估计值R的渐进协方差估计。可以证明,的渐进协方差估计。可以证明,LM渐进服从渐进服从2(1)k分布。所以分布。所以LM检验只需要估计有约束模型检验只需要估计有约束模型 6.3拟合优度检验拟合优度检验(1)McFadden R2=0ln1lnLL L是估计模型的最大似然函数值,是估计模型的最大似然函数值,0L是是230k=?时最大似然函数值。时最大似然函数值。该指标随着模型拟合的改善而提高。该指
22、标随着模型拟合的改善而提高。(2)期望)期望-预期表预期表(3)H-L Statistic 6.4异方差问题异方差问题 编程计算。见后编程计算。见后 解决方法:稳健估计解决方法:稳健估计 七、自变量的边际效应分析七、自变量的边际效应分析 7.1 边际效应定义:反映自变量单位变化所引起的因变量的变化量。边际效应定义:反映自变量单位变化所引起的因变量的变化量。7.2 线性回归模型的边际效应:线性回归模型的边际效应:1 1kkiyxxu=+?ix的边际效应:的边际效应:iiyx=,因此回归系数直接解释为该变量的边际效应。,因此回归系数直接解释为该变量的边际效应。7.3 二元选择模型的边际效应:二元选
23、择模型的边际效应:二元选择模型:二元选择模型:(1)()iiEyP yFx=(假设(假设iu的分布是对称的)的分布是对称的)则则ix的边际效应:的边际效应:()()iiiiFxEyfxxx=其中其中()f是密度函数,可见系数不能解释为边际效应,是密度函数,可见系数不能解释为边际效应,ix的边际效应除受系数影响外,还受其它变量取值的影响。的边际效应除受系数影响外,还受其它变量取值的影响。八、八、EVIEWS应用举例(例应用举例(例1):):8.1模型输出结果模型输出结果 Dependent Variable:Y Method:ML-Binary Probit(Quadratic hill cli
24、mbing)Date:07/10/09 Time:22:20 Sample:1 30 Included observations:30 Convergence achieved after 5 iterations Covariance matrix computed using second derivatives Variable CoefficientStd.Errorz-StatisticProb.X 0.0030670.0011922.5731210.0101C-4.7538961.892117-2.5124750.0120McFadden R-squared 0.706837 Me
25、an dependent var 0.500000S.D.dependent var 0.508548 S.E.of regression 0.274450 Akaike info criterion 0.539743 Sum squared resid 2.109040Schwarz criterion 0.633156 Log likelihood-6.096147Hannan-Quinn criter.0.569627 Restr.log likelihood-20.79442LR statistic 29.39654 Avg.log likelihood-0.203205Prob(LR
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 离散 选择 模型
限制150内