3分类数据与相关模型.ppt
《3分类数据与相关模型.ppt》由会员分享,可在线阅读,更多相关《3分类数据与相关模型.ppt(91页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、分类变量及相关模型分类变量及相关模型分类变量与分类选择模型分类变量与分类选择模型分类变量与变参数模型分类变量与变参数模型43分类选择模型分类选择模型一、一、被解释变量为分类变量的情形被解释变量为分类变量的情形二、二元分类模型二、二元分类模型 线性模型的局限线性模型的局限 概率模型的基本思路概率模型的基本思路 Logit模型模型和和Probits模型模型三、三、多元分类模型多元分类模型(有序模型有序模型、截断模型、截断模型)在在某某些些特特定定的的场场合合,被被解解释释变变量量也也表表现现为为定定性性的的虚虚拟拟变变量或某种分类变量。量或某种分类变量。例例1:研研究究成成年年男男性性劳劳动动参参
2、与与状状况况(用用失失业业率率、平平均均工工资资率率、家家庭庭收收入入、教教育育水水平平等等作作解解释释变变量量)。被被解解释释变变量量的的取取值值表表现现为为两两种种可可能能:某某位位成成年年男男性性是是劳劳动动力力(参参与与了了劳劳动动,设设定定为为1),或者不是劳动力,或者不是劳动力(未参与劳动,设定为未参与劳动,设定为0)。例例2:研研究究选选举举行行为为,即即哪哪些些因因素素影影响响居居民民投投票票的的意意向向。则居民对某候选人或者投赞成票,或者投反对票则居民对某候选人或者投赞成票,或者投反对票被解释变量为分类变量的情形被解释变量为分类变量的情形 例例3:研究哪些因素影响居民选择不同
3、的交通工具上班:自:研究哪些因素影响居民选择不同的交通工具上班:自行车、公共汽车、驾私车。行车、公共汽车、驾私车。例例4:研究农村外出劳动力的就业选择。将外出劳动力的职:研究农村外出劳动力的就业选择。将外出劳动力的职业分为管理和专业技术人员、公司一般职员、从事批零业务者、业分为管理和专业技术人员、公司一般职员、从事批零业务者、服务业人员、生产工人、其它等服务业人员、生产工人、其它等6类,研究外出劳动力在这类,研究外出劳动力在这6类中类中从业的概率差异。从业的概率差异。(毕业生的去向选择毕业生的去向选择)被解释变量为分类变量的情形被解释变量为分类变量的情形线性模型:线性模型:其中其中Y为二元分类
4、变量,为二元分类变量,X为一组解释变量。对于:为一组解释变量。对于:有:有:令:令:有:有:线性模型的局限线性模型的局限 问题问题1:的取值应为的取值应为(0,1),但实际上并不能,但实际上并不能保证保证 的取值为的取值为(0,1)问题问题2:非正态非正态当当当当两点分布两点分布问题问题3:异方差异方差线性模型的局限线性模型的局限 问题问题4:R2通常很低:对于给定的通常很低:对于给定的X,Y的值或为的值或为0,或为,或为1,即观察点或落在,即观察点或落在X轴上,或落在直线轴上,或落在直线Y1上,如图:上,如图:01AB因而计算的因而计算的R2一般很低。只有观察点十分密集于一般很低。只有观察点
5、十分密集于A点或点或B点点时,时,R2才会较高,因为这时容易通过才会较高,因为这时容易通过A、B两点的连接而将直两点的连接而将直线固定下来。线固定下来。线性模型的局限线性模型的局限以投资为例:以投资为例:假设个体假设个体i选择投资的效用选择投资的效用(净收益净收益):放弃投资的效用放弃投资的效用(净收益净收益):和和 取决于个体特征及两种选择各自的属性,即:取决于个体特征及两种选择各自的属性,即:实践中实践中 和和 是不可观察的,可观察的只有人个体选择投是不可观察的,可观察的只有人个体选择投资资(Y=1)或个体放弃投资或个体放弃投资(Y=0)。但是:但是:不可观察的不可观察的 对应于:对应于:
6、Y=1 不可观察的不可观察的 对应于:对应于:Y=0概率模型的基本思路概率模型的基本思路观察:观察:令:令:则有:则有:(对于对称分布对于对称分布)从而:可以通过为从而:可以通过为 选择一种特定的分布来推断选择一种特定的分布来推断Y=1的概率的概率实践中两种常用的分布:实践中两种常用的分布:逻辑逻辑(logistic)分分布布 正态正态(normal)分布分布-Logit 模型模型-Probit 模型模型概率模型的基本思路概率模型的基本思路一、模型形式:一、模型形式:其中:其中:代表具有特征代表具有特征 Xi 的个体倾向于作出某种的个体倾向于作出某种特别选择的程度,特别选择的程度,Pi 就是个
7、体做出某种选择的概率。就是个体做出某种选择的概率。也就是:也就是:Logit模型模型始终符合的性质:始终符合的性质:当:当:当:当:从而克服了线性概率模型在逻辑上无法保证从而克服了线性概率模型在逻辑上无法保证的问题的问题Logit模型模型二、模型估计:二、模型估计:如果研究样本是逐个观测数据:极大似然法如果研究样本是逐个观测数据:极大似然法Logit模型模型二、模型估计:二、模型估计:Logit模型模型二、模型估计:二、模型估计:如果研究样本是分组数据如果研究样本是分组数据(存在重复观察值存在重复观察值):Ni(总观察数总观察数)ni(其中其中“Y1”的观察数的观察数)Xi N1 n1 X1
8、N2 n2 X2 Nn nn Xnpip1p2pn以各组频率以各组频率pi估计估计Pi,从而依据从而依据的性质的性质可用可用LS估计原模型估计原模型Logit模型模型二、模型估计:二、模型估计:中,中,Pi对对X和参数均是非线性的,但可以将它和参数均是非线性的,但可以将它线性化:线性化:将原式两边倒数再减将原式两边倒数再减1有:有:即:即:两边取对数:两边取对数:事件事件“Y1”发生的机会比率发生的机会比率对数单位对数单位对数单位模型对数单位模型(Logit Model)Logit模型模型二、模型估计:二、模型估计:分组数据的估计过程:分组数据的估计过程:(1)对每一观察组计算对每一观察组计算
9、“Y1”发生的频率发生的频率pi(2)对每一观察组计算对数单位对每一观察组计算对数单位L=ln(pi/(1-pi)(3)估计随机项方差估计随机项方差从而加权矩阵元素从而加权矩阵元素(4)就就L与与X作加权最小二乘估计作加权最小二乘估计要求:各组观察均满足大样本条件要求:各组观察均满足大样本条件Logit模型模型三、模型检验:三、模型检验:(1)单个回归系数的显著性检验:单个回归系数的显著性检验:无论无论LS估计或估计或ML估计,估计,均可按均可按t检验进行检验进行(2)总体线性关系的显著性检验:总体线性关系的显著性检验:LS估计估计 F检验检验ML估计估计 LR、W、LM检验检验Logit模型
10、模型ML估计估计 似然比指数:似然比指数:分别为所有参数为分别为所有参数为0 0时的对数似时的对数似值和最大对数似然函数值值和最大对数似然函数值,三、模型检验:三、模型检验:(3)拟合优度检验:拟合优度检验:LS估计估计 分别为模型估计频率和实际观测频率,分别为模型估计频率和实际观测频率,(k1)为模为模型参数个数,型参数个数,s越小拟合越好越小拟合越好Logit模型模型四、模型运用四、模型运用解释变量对概率解释变量对概率(被解释变量被解释变量)的边际影响:的边际影响:在在Logit模型模型中,中,为为X 对机会比率的对机会比率的对数对数的边际影响。的边际影响。X 对对P 的边际影响:的边际影
11、响:平上,其边际影响是不同的平上,其边际影响是不同的。在不同的。在不同的X水水Logit模型模型例:以例:以Y代表一个企业在给定年份是否申请了专利,假定它与代表一个企业在给定年份是否申请了专利,假定它与企业的年销售额企业的年销售额X及研究发支出及研究发支出Z满足如下满足如下Logit模型关系:模型关系:?的含义的含义 X对对P的偏效应、的偏效应、Z对对P的偏效应的偏效应Logit模型模型例例1:赵耀辉:赵耀辉:“中国农村劳动力流动及教育在其中的作用中国农村劳动力流动及教育在其中的作用”例例2:朱玲:朱玲:“农地分配中的性别平等问题农地分配中的性别平等问题”Logit模型模型其中:其中:一、模型
12、形式:一、模型形式:比较比较Logit模型:模型:Probit模型依据模型依据normal分布函数分布函数Logit模型依据逻辑模型依据逻辑logistic分布函数分布函数Probits模型模型也始终符合的性质:也始终符合的性质:当:当:当:当:同样克服了线性概率模型在逻辑上无法保证同样克服了线性概率模型在逻辑上无法保证的问题的问题Probits模型模型二、模型估计二、模型估计 如果研究样本是逐个观测数据:如果研究样本是逐个观测数据:非线性极大似然法非线性极大似然法Probits模型模型二、模型估计二、模型估计 非线性极大似然法:非线性极大似然法:Probits模型模型二、模型估计二、模型估计
13、如果研究资料是分组数据如果研究资料是分组数据(重复观察值重复观察值)pi p1p2pnNi(总观察数总观察数)ni(其中其中“Y1”的观察数的观察数)Xi N1 n1 X1 N2 n2 X2 Nn nn XnZi Z1Z2ZnProbits模型模型二、模型估计二、模型估计Pi对对X和参数均是非线性的,但可以将它线性化:和参数均是非线性的,但可以将它线性化:中中对原模型取反函数有:对原模型取反函数有:-1 1 Z Zi i P Pi i 1 1 -F F-1-1(Z Zi i)=)=Z Zi i P Pi i Probits模型模型 (1)计算各组事件计算各组事件(Y1)发生的频率发生的频率pi
14、;(2)查正态分布表得查正态分布表得Zi的估计值的估计值zi;(3)用用zi代替代替Zi估计,是估计估计,是估计 的参数的参数(4)计算计算Var(i i):,(5)用用WLS(GLS)估计模型估计模型以各组频率以各组频率pi估计估计Pi,依据依据Pi 查表得查表得Zi,从而根据,从而根据的性的性质质可用可用LS估计原模型。估计过程:估计原模型。估计过程:二、模型估计二、模型估计为标准密度函数为标准密度函数(古扎拉蒂古扎拉蒂P575)Probits模型模型比较正态分布与逻辑概率分布:比较正态分布与逻辑概率分布:Z -3.0 0.0013 0.0474-2.0 0.0228 0.1192-1.5
15、 0.0668 0.1824 -0.5 0.3085 0.3775 0.0 0.5000 0.5000 0.5 0.6915 0.6225 1.0 0.8413 0.7311 1.5 0.9332 0.8176 2.0 0.9772 0.8808 3.0 0.9987 0.9526Probits模型模型 正态分布与逻辑概率分布的主要区别在于后者的尾巴更正态分布与逻辑概率分布的主要区别在于后者的尾巴更粗一些,如图:粗一些,如图:由于逻辑概率分布函数由于逻辑概率分布函数与正态分布密度函数很类似,与正态分布密度函数很类似,而且计算上比较容易,所以而且计算上比较容易,所以Logit模型分类选择模型中最
16、模型分类选择模型中最常用的常用的logistic 分布分布normal 分布分布1Probits模型模型模型的检验及各解释变量边际影响的计算:同模型的检验及各解释变量边际影响的计算:同Logit模型模型例例:我国上市公司选择可转换债券融资倾向性的实证分析:我国上市公司选择可转换债券融资倾向性的实证分析Probits模型模型多元分类模型多元分类模型当三类选择时,例:火车、汽车、飞机三种交通工具当三类选择时,例:火车、汽车、飞机三种交通工具 类似于二元选择,设乘火车类似于二元选择,设乘火车0、汽车、汽车1、飞机、飞机2其效用分别为其效用分别为 、如果:如果:则:则:选择何种交通工具,依存于选择何种
17、交通工具,依存于 的相对大小的相对大小 设:设:则:则:从而,可以依据某一分布获得从而,可以依据某一分布获得 P(Yi=j)的表达式的表达式这一思路可以直接推广到更多元的选择模型问题这一思路可以直接推广到更多元的选择模型问题多元分类模型多元分类模型 对于多元的对于多元的 Probit 模型,其最大似然值估计困难,实践模型,其最大似然值估计困难,实践中很少采用。中很少采用。对于多元的对于多元的 Logit 模型,一种更为简单的思路是:假定每模型,一种更为简单的思路是:假定每个选择的概率都服从以下个选择的概率都服从以下logistic分布,有:分布,有:以以 j=1 为基础参照项,为基础参照项,令
18、令,从而,从而通过与基础选择的对比,描述了各选择间概率的差异通过与基础选择的对比,描述了各选择间概率的差异多元分类模型多元分类模型例:例:P.Schmidt and Strauss,The Prediction of Occupation Using Multiple Logit Models.International Economic Review,Vol.16,No.2,pp.471-486,1975 研研究究各各族族(R,白白人人=1)、性性别别(S,男男性性=1)、受受教教育育程程度度工工(E)、工工作作经经验验(工工作作年年数数X)对对人人们们从从事事不不同同职职业业(佣佣人人1、
19、蓝蓝领领工人工人2、手工艺职业、手工艺职业3、白领职业、白领职业4、专业性职业、专业性职业5)的概率的影响的概率的影响被估计的模型为:被估计的模型为:多元分类模型多元分类模型估计结果:估计结果:因变量因变量常数项常数项EiXiRiSiLog(P2/P1)1.06-0.12*-0.015 0.70*1.25*Log(P3/P1)-3.77*-0.00 0.008 1.46*3.11*Log(P4/P1)-3.30*0.22*0.003 1.76*-0.52*Log(P5/P1)-5.96*0.42*0.008 0.98*0.66*Log(P3/P2)-4.82*0.12*0.023*0.76 1
20、.86*Log(P4/P2)-4.36*0.34*0.018*1.06*-1.77*Log(P5/P2)-7.01*0.55*0.023*0.28-0.60*Log(P4/P3)0.46 0.22*-0.005 0.30-3.53*Log(P5/P3)-2.19*0.43*0.000-0.48-2.46*Log(P5/P4)-2.65*0.20*0.005-0.79 1.18*随着随着受受E的的提高,倾向于:提高,倾向于:蓝领蓝领佣人佣人(手工艺手工艺)白领白领 专业性职业专业性职业 男性相对于女性,更倾向男性相对于女性,更倾向于:白领于:白领佣人佣人 专业性职专业性职业业 蓝领蓝领 手工艺手
21、工艺 非白人相对于白人,更非白人相对于白人,更倾向于:佣人倾向于:佣人蓝领蓝领专业专业性职业性职业手工艺手工艺白领白领多元分类模型多元分类模型例:例:我国农村劳动力流动的人力资本约束研究我国农村劳动力流动的人力资本约束研究(俞玲俞玲)研究各种因素如何影响农村外出劳动力选择研究各种因素如何影响农村外出劳动力选择(从事从事)各种各种不同职业的概率不同职业的概率多元分类模型多元分类模型职业分类职业分类:管理、专业技术类:管理、专业技术类 公司职员类公司职员类 批零业务类批零业务类 服务业类服务业类 一般生产类一般生产类模型形式模型形式:Logit模型模型解释因素解释因素:性别:性别(男男=1)年龄年
22、龄 受教育年数受教育年数 职业培训职业培训(有有=1)城市工作经验城市工作经验(有有=1)估计结果估计结果(以批零业务类为参照组以批零业务类为参照组):解释变量解释变量系数系数标准差标准差对概率的对概率的边际影响边际影响教育程度教育程度0.8582*0.19680.0623城市经验城市经验0.14540.7583-0.3076职业培训职业培训1.2091*0.7668-0.0092性别性别0.65140.78950.1057年龄年龄-0.10500.82820.0239年龄年龄2-0.00310.0142-0.0004常数项常数项-5.398912.232-9.247管理专业技术人员管理专业技
23、术人员解释变量解释变量系数系数标准差标准差对概率的对概率的边际影响边际影响教育程度教育程度0.5918*0.18190.0421城市经验城市经验0.96240.70960.0718职业培训职业培训1.1645*0.7298-0.0600性别性别-0.65820.7253-0.0902年龄年龄0.1966*0.9361-0.0060年龄年龄2-0.01080.0170-0.0000常数项常数项-3.885713.006-0.0721公司职员公司职员多元分类模型多元分类模型估计结果估计结果(以批零业务类为参照组以批零业务类为参照组):解释变量解释变量系数系数标准差标准差对概率的对概率的边际影响边际
24、影响教育程度教育程度-0.03990.1552-0.0283城市经验城市经验0.046960.66910.0215职业培训职业培训1.6554*0.69170.0279性别性别-0.78840.6922-0.0721年龄年龄-1.4377*0.5778-0.0660年龄年龄20.02110.00930.0010常数项常数项23.9768.95171.5351服务业人员服务业人员解释变量解释变量系数系数标准差标准差对概率的对概率的边际影响边际影响教育程度教育程度-0.02240.1356-0.0632城市经验城市经验0.30520.59080.0018职业培训职业培训1.9210*0.62880
25、.1689性别性别-0.26210.63830.0471年龄年龄-1.1557*0.5506-0.0190年龄年龄20.01690.00880.0003常数项常数项19.8828.55591.2719一般生产工人一般生产工人多元分类模型多元分类模型有序模型问题有序模型问题被解释变量为有序变量,例如:被解释变量为有序变量,例如:对某项制度的态度:同意、基本同意、不同意对某项制度的态度:同意、基本同意、不同意 基本思路:基本思路:假定一个假想的潜假定一个假想的潜变变量量 ,与,与观观察察变变量量Y 存在:存在:Y=0、1、2 的概率分别为:的概率分别为:对于特定样本的对数似然函数:对于特定样本的对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 数据 相关 模型
限制150内