《基于回归分析的失业预警建模实证研究_李宏.pdf》由会员分享,可在线阅读,更多相关《基于回归分析的失业预警建模实证研究_李宏.pdf(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于回归分析的失业预警建模实证研究李宏1,2,李建武3,莫荣2,宋玉龙3(1.中国人民大学 劳动人事学院 北京,100872;2.人力资源和社会保障部 劳动科学研究所,北京,100029;3.北京理工大学 计算机学院 智能信息技术北京市重点实验室,北京 100081)摘要:指出失业预警系统的建模是一个小样本、高维度、非线性、存在噪音数据的复杂的建模问题,重点探讨了基于回归分析技术对失业预警系统进行建模的理论、方法与步骤。讨论了常见的缺失数据处理、数据归一化以及特征降维等数据预处理方法;进一步分析了最小二乘回归、Logistic 回归、岭回归、BP 神经网络以及支持向量回归五种回归技术;最后基于
2、广东省的社会经济调查数据对五种回归方法进行了实证分析,实验结果表明:在对失业率的预测上,支持向量回归预测效果最好,最小二乘回归、岭回归与 BP 神经网络次之,Logistic 回归预测效果最差。关键词:失业预警;回归分析;数据预处理中图分类号:C924.21文献标识码:A文章编号:1002 9753(2012)05 0138 10Empirical Research on Unemployment Early Warning Based on Regression AnalysisLI HONG1,2,LI Jian wu3,MO Rong2,SONG Yu long3(1 School of
3、 Labor and Human Resources,Renmin University of China,Beijing 100872,China;2 Institute of Labor Studies,Ministry of Human Resources and Social Security,Beijing 100029,China;3 Beijing Key Lab of Intelligent Information,School of Computer Science and Technology,Beijing Institute of Technology,Beijing
4、100081,China)Abstract:Unemployment early warning system modeling is a special and complex problem with small sample,highdimension,nonlinearity,and noise data The theory,method,and procedure on modeling unemployment early warning systems based on regression analysis are mainly discussed Firstly,the p
5、re processing methods are given,including missing data processing,data scaling,and dimension reducing Five regression techniques are further ana-lyzed:least square regression,Logistic regression,ridge regression,BP neural network,and support vector regres-sion Experimental results based on social an
6、d economical investigation data from Guangdong Province show that,sup-port vector regression outperforms the other four methods,logistic regression is worst,and the forecast accuracies ofleast square regression,ridge regression,and BP neural network are between those of support vector regression and
7、 lo-gistic regressionKey words:unemployment early warning;regression analysis;data pre processing收稿日期:2011 12 19修回日期:2012 04 16基金项目:北京市自然科学基金项目(4122068);国家科技部软科学研究计划项目(2009GXS5B071);广东省人力资源和社会保障厅委托项目作者简介:李宏(1977 ),女,河北秦皇岛人,中国人民大学劳动人事学院,博士生,人力资源和社会保障部劳动科学研究所就业与人力资源市场研究室副主任,副研究员。831中国软科学 2012 年第 5 期一、
8、引言失业问题既是综合性的经济问题,又是复杂的社会问题。西方发达国家和许多发展中国家,都把实现“充分就业”作为社会经济发展的重要目标之一。当前,我国经济面临十分复杂的国际经济环境,人民币升值、原材料价格上涨、通胀输入压力增加等等,导致出口和经济增速下降、部分小企业倒闭,其可能带来的失业问题值得关注,政府对此问题也高度重视。如何对失业状况进行科学预测,根据预测结果适时发出警报,并制定有针对性的预案,对之进行及时有效的调控,是我国在经济转轨时期必须认真对待解决的客观现实问题。在我国,党的十六届三中全会第一次提出,要建立和健全各种预警和应急制度,提高政府应对突发事件和风险的能力。2008 年 1 月
9、1 日开始施行的 中华人民共和国就业促进法 第四十二条明确规定:“县级以上人民政府建立失业预警制度,对可能出现的较大规模的失业,实施预防、调节和控制”。第四十三条规定:“国家建立劳动力调查统计制度和就业登记、失业登记制度,开展劳动力资源和就业、失业状况调查统计,并公布调查统计结果”。建立一整套失业监测、预警和预案的体系,对于促进社会稳定与和谐发展,具有重大现实意义。建立失业监测预警系统,完善失业统计和预警制度,掌握劳动力资源和劳动力市场供求状况,对各级政府制定就业政策,兼顾效益与安定,控制失业规模,保持社会稳定具有重要意义。二、失业预警研究现状及存在问题分析(一)研究现状国外失业预警模型主要建
10、立在宏观经济预警系统的基础之上。在 20 世纪 60 年代前,西方国家对经济预警系统的研究停留在经济循环和经济晴雨表(Economic Barometer)等预测研究的层面上 1。1950 年 Moore 的 扩 散 指 数 和 1960 年Shiskin 的综合指数成为美国构造预警系统的两大基本方法 1 3。采用时间序列分析建模是该领域中的一类重要方法,已经取得了丰富的成果,如Jeffrey 等人采用的移动平均模型 4、Enriquede 采用的自回归模型 5、Hansen 采用的门限自回归模型 6、Van Dijk 等人采用的基于分数协整与平滑转换自回归相结合的模型 7以及 Harvey
11、的时间序列自回归移动平均模型结合 Kalman 滤波及季节性调整的技术 8。Engle 于 1982 年提出了 ARCH(Au-toRegressive Conditional Heteroskedasticity)类 模型 9,大大改进了预警风险的评估方法。进一步,Bollerslev 于 1986 提出了 GARCH 模型(General-ized ARCH)10。Kaminsky,Lizondo 与 Reinhart 于1997 年创建了 KLR 信号分析法 11,其基本思想是选择一系列指标并根据其历史数据确定其临界值,当某个指标的临界值在某个时期被突破,就意味着该指标发出了一个危机信号
12、。1988 年,本文作者所在的劳动科学研究所失业预警课题组首次倡导“劳动部门应建立包括失业预警系统在内的六大劳动预警系统”12。经过多年的潜心研究,该课题组于 2001 年完成“我国失业预警与就业对策研究报告”,该工作以失业率或失业人数作为自变量,使用了数学建模方法和数据库技术 13。刘伟等人对深圳市失业预警监测系统进行了研究 14。首都经贸大学的纪韶教授经过多年的研究,出版了专著中国失业预警理论视角、研究模型 1。秦开运对构建失业预警系统需要的指标进行了分析 15,而丁立宏等人对完善我国失业统计指标体系给出了若干建议 16。刘红霞从劳动力市场、劳动力构成、经济发展三维度出发,设计了失业预警指
13、标体系 17。陈仲常等人采用 BP(Back Propagation)神经网络对我国失业预警系统进行了建模 18。李永捷通过建立径向基函数神经网络模型,对成都市的失业状况进行了分析与建模 19。张兴会等人则分别采用递阶对角神经网络 20与对角 Elman 神经网络模型 21对失业预测系统进行了建模。向小东等人采用机器学习与模式识别领域中的核技巧,对失业预警系统进行了非线性建模分析,使用支持向量机建立了回归预测模型 22。赵建国等人基于扩散指数法与逐步931理论方法与案例基于回归分析的失业预警建模实证研究回归技术改进了失业预警模型,进行了实证分析 2 3;并对我国现行失业警戒线确定方法进行了探讨
14、,构建了基于综合指数的失业预警模型 23。黄波等人基于排序 logit 模型对城镇就业进行了风险分析及预测 24。由上可见,当前国内外学术界已经采用了多种定量分析方法对失业预警系统进行建模,可归纳为两大类方法:一大类方法是采用基于时间序列分析的计量经济模型,如自回归滑动平均模型、ARCH 模型等等;另一大类则是采用回归分析的技术,如线性回归、各种神经网络模型等等。同时,这些技术在我国不同的城市或地区得到了初步的尝试。(二)存在的问题尽管我国在失业预警系统研究方面已取得了初步的成就,但仍然存在很大的不足。具体表现为:当前可获得的与失业预警相关的样本数据非常有限,是典型的小样本建模问题;涉及到的社
15、会经济指标众多,需要面临高维数据建模的难题;该系统也包含了复杂的非线性数学模型,通常的线性建模技术并不适用;由于社会经济调查数据中会存在多种噪音,还可能存在部分调查数据的缺失,进一步加大了失业预警建模的难度。众多的社会经济指标使得失业率的概率分布复杂,很难成为平稳分布,再加上调查中存在的误差及各种噪音数据的存在,使得传统的各种时间序列分析模型(如 ARCH 模型、GARCH 模型等)的使用受到了极大的限制。另外,不同的研究人员分别采用了不同的失业预警建模方法,目前仍然没有对各种方法进行过系统的比较,很难判断出各种方法的性能优劣,这给失业预警用户对不同模型的选择带来了困惑。(三)本文主要工作在失
16、业预警系统建模中,数据的预处理非常重要。本文首先讨论了常用的缺失数据处理机制、数据归一化方法以及高维数据降维与数据去噪声技术。鉴于回归技术是失业预警建模的重要途径,本文采用五种回归技术对失业预警系统进行建模,包括:最小二乘回归、Logistic 回归、岭回归、BP神经网络以及支持向量回归。基于广东省与失业相关的社会经济调查数据(20002010 年),对上述 5 种回归方法进行了实证分析,并根据实验结果对各种方法的性能进行了比较与评价,旨在为相关部门对失业预警模型的选择提供参考。三、失业预警建模的数据预处理技术(一)失业预警指标选择本文作者中的莫荣、李宏于 2001 年完成了国家科委软科学研究
17、项目“我国失业预警系统与对策研究”(K97 10 50),对失业预警所需指标体系进行了系统的分析。本文直接采用其中的指标体系,具体选择如下的 25 个宏观经济指标作为调查变量:失业指标 1 个:城镇登记失业率;国民 经 济 发 展 指 标 5 个:国 内 生 产 总 值(GDP)、第一产业生产总值、第二产业生产总值、第三产业生产总值、工业增加值;劳动力资源指标 2 个:劳动年龄人口、普通高等学校学生数;投资指标 1 个:基本建设投资总额;能源和材料指标4 个:能源生产总量、发电量、钢产量、水泥产量;贸易指标 4 个:商品销售现金收入、海关统计进出口总额、进口总额、出口总额;财政货币指标 4 个
18、:金融机构企业存款、市场货币流通量、货币供给 M1、货币供给 M2;生活和价格指标 4 个:银行工资性现金支出、居民人均收入、居民消费价格总指数、商品销售价格指数。(二)常用缺失数据的处理方法数据缺失是一种在失业预警系统数据采集过程中常见的问题,缺失数据是指由于各种原因本应该得到而实际上没有得到的数据。处理缺失数据的方法 25 26可分为 3 类:加权041中国软科学 2012 年第 5 期方法、填补方法和参数似然方法。加权方法的本质是将赋予缺失数据的权数分担到非缺失数据身上。填补方法的核心问题是为缺失数据寻找一个最佳的“替代值”。填补方法包括传统的数据填补方法和多重填补方法。传统数据填补方法
19、包括删除法、回归填补法、均值填补法等;常用的多重填补方法包括回归填补法、预测均值匹配法、Logistic回归填补法等。参数似然方法与加权方法和填补方法相比,其处理缺失数据往往能产生更好的估计量,但需要知道数据分布的具体参数模型。(三)数据的归一化方法在失业预警系统建模过程中,所涉及到的各个社会经济指标数据的量纲往往会存在很大的差异。例如,失业率的统计数值介于 0 与 1 之间,而建设投资总额的量度可以达到千万,城镇人均收入则以千为单位。如果直接采用各个社会经济指标的原始数值去建模,各个指标量纲之间的巨大差异会直接影响所建模型的性能。因此,在建模之前,必须对数据进行归一化处理。数据的归一化是通过
20、函数变换将数值映射到某个数值区间,通常把数据归一化到区间1,1或 0,1 中。常用的归一化方法 27 28包括:min max 归一化方法、零均值归一化方法、Decimal Scal-ing 归一化方法、对数函数转换、反正切函数转换。(四)高维数据降维与去噪声在失业预警系统建模中,当前可以获得的数据非常有限。从我国各省统计信息网上公开的社会经济指标数据来看,很多数据是直接从 2000 年开始公布的。就以本文对广东省进行失业预警系统建模为例,该省是我国一个经济与人口大省,该省统计信息网上也仅仅公开发布了从 2000 年到目前的大部分社会经济指标数据,如果我们以季度为时间周期进行建模,所获得的社会
21、经济指标数据也只有 40 多组。另外,与失业预警系统建模相关的社会经济指标众多,选出 20 多个与失业相关性强的社会经济指标。根据回归的理论分析,为保证所建预测模型的有效性,建模数据的指标越多,所需要的建模数据也就应该越多。此外,社会经济调查数据受客观环境的限制,存在一定的不精确性或误差,我们把此称为数据噪声。数据中存在的噪声一定程度上会影响所建失业预警模型的性能。为此,可以采用主成分分析 29或独立成分分析 30来对所获得的调查统计数据进行处理。这样做的原因有两点:第一、失业预警系统建模中所涉及的各项社会经济指标之间存在一定的相关性,通过主成分分析或独立成分分析可以提取这些相关数据中的主要成
22、分或独立成分,从而达到降维的目的;第二、社会经济调查统计数据中往往存在数据缺失与各种调查误差,通过提取主成分或独立成分,去掉的部分可以认为是调查数据中存在的各种噪声。四、回归分析模型回归分析是数理统计学与机器学习研究中的重要内容,近些年来,相关研究成果层出不穷。本文着重探讨最小二乘回归、Logistic 回归、岭回归、BP 神经网络以及支持向量回归等模型。(一)最小二乘回归最小二乘回归 31是一种线性回归模型,线性回归是使用线性函数从现有的数据中估计出模型中所包含的未知参数的过程,基于所建立的回归模型可以对未来的数据进行预测。给定训练样本集 xi,yi,xiRd,i=1,2,n,xi=(xi1
23、,xi2,xid)T,yiR,寻找一个线性函数(常数项作为 w 的一个维度出现,不再显式给出,以下均如此)f(x)=wTx=dj=1wjxj(1)使损失函数 L(f(x),y)达到最小值,即寻找一个最优的向量 w 使损失函数最小。这里取损失函数为对训练样本预测的误差平方和,即L(f(x),y)=ni=1(wxi yi)2(2)对 w 求偏导并令其为零,最终可得线性回归方程为:141理论方法与案例基于回归分析的失业预警建模实证研究f(x)=yTX(XTX)1)Tx(3)其中,X 为 n d 矩阵,它的每一行由列向量 xi的转置构成,i=1,2,n,w 为 d 维列向量,y 为 n 维列向量,y=
24、(y1,y2,yn)T,x 为测试样本。若XTX 不可逆,可以计算 XTX 的伪逆。(二)Logistic 回归Logistic 回归 28以两类别标志 0 与 1 作为回归目标,其中一个重要概念就是优势比(OddsRatio),假设 Logistic 回归中的一个类别输出的概率为 P,则另一个类别输出的概率为 1 P,则优势比可以定义为:odds=P1 P(4)用输出 1 与 0 分别表示两个类别,假设输出 y=1 的概率为 P,则 y=0 的概率为 1 P,自变量为 x,则建立 Logistic 回归模型为:ln(P1 P)=wx(5)其中,w 是接下来要估计的未知参数。假设所有训练样本的
25、个数为 n,yi是第 i 个训练样本,i=1,2,n,服从伯努利分布。用最大似然估计法估计其中的参数 w。似然函数为:L(y1,yn)=ni=1Pyi(1 P)1 yi(6)对似然函数取对数,并对 w 求偏导令其为零,可解出待估参数。(三)岭回归岭回归(Ridge Regression)32是对基本的最小二乘回归的一种改进,最小二乘回归使用的是传统的经验风险最小化原则,而岭回归技术采用的是正则化的思想。对于公式(1)中给出的待求解的线性回归方程,岭回归的目的就是寻找最优的 w 使得下面的目标函数最小,即minJ=w2+ni=12i(7)St,yi wxi=i,i=1,2,n其中,为正则项参数,
26、控制着正则化程度,起到平衡两项的作用。相对应的 Lagrange 函数为:L(w,)=w2+ni=12i+ni=1i(yi wxi i)(8)其中,ai为 Lagrange 乘子。分别对 w 和 i 求偏导并令等式为零,可以获得最终的解。(四)BP 神经网络模型1986 年,David E.Rumelhart 等学者提出多层感知器的反向传播(Backpropogation,简称 BP)算法,这种学习算法使得多层感知器可以逼近任意复杂的非线性函数。BP 学习算法要求激活函数是可微的。BP 神经网络是一种采用 BP 学习算法的前馈神经网络,拓扑结构如图 1 所示。图 1BP 神经网络拓扑结构BP
27、算法采用梯度下降方法试图最小化网络输出值和期望输出值之间的误差平方,详细计算过程参见文献 28。(五)支持向量回归支持向量回归(Support Vector Regression,简称 SVR)33方法是由 Vapnik 等人在 1996 年提出。假设给定训练样本集合 xi,yi,xiRd,i=1,2,n,xi=(xi1,xi2,xid)T,yiR。寻找最优的 w,使回归函数f(x)=wx+b(9)对所有的训练样本,在 不敏感损失准则下训练误差最小。用约束最优化模型描述该问题为:min(12w2+Cni=1(+i+i)St,yi wxi b+iwxi+b yi+i(10)+i,i0,i=1,2
28、,n利用上式对应的对偶最优化问题以及 KKT 条件最终可求得回归方程为:f(x)=ni=1(+i i)xix+b(11)241中国软科学 2012 年第 5 期其中,x 为新输入的测试样本,b=yj i(+i i)xixj(12)xj为任意一个支持向量。如果在原空间中的数据不满足线性关系,可以使用核技巧,将原空间中的样本映射到一个高维特征空间中,即定义一个核函数 K(x,y),用核函数代替两个原始向量在特征空间中像的内积,此时,式(11)变为:f(x)=ni=1(+i i)K(xi,x)+b(13)其中,b=yj i(+i i)K(xi,xj)(14)五、失业预警建模实证研究广东省作为外来劳动
29、力输入的大省,吸纳了几千万外来劳动力就业。但该省经济以外向经济为主,不仅受国际经济发展的影响很大,而且受到部分国家贸易保护和贸易壁垒的影响也很大,因此,在局部行业、产业和地区将存在造成大规模失业的可能性。因此,在该省建立一整套失业监测与预警体系,具有重大的现实意义。(一)数据预处理1.失业基准指标预测失业的变化,失业基准指标的选择是非常重要的环节,在这里直接采用城镇登记失业率作为基准指标。2.数据来源和预处理城镇登记失业率数据来自于广东省人力资源和社会保障厅失业保障处。我们从该省统计信息网得到 2000 年第 1 季度到 2010 年第 3 季度的 17个经济指标的季度或月度数据(前面部分提到
30、了除失业率外的 24 个社会经济指标数据,但剩余的7 个 指 标 数 据 难 以 获 得),分 别 为:生 产 总 值(GDP)、第一产业生产总值、第二产业生产总值、第三产业生产总值、工业增加值、单位从业人员、建设投资总额、能源生产总量、发电量、钢产量、水泥产量、进出口总额、进口总额、出口总额、城镇单位职工平均工资、居民消费价格总指数和商品零售价格指数。其中居民消费价格总指数和商品零售价格指数指标体系要求提供季度资料,但只查阅到月度资料,对于这两个指标,我们对其每个季度三个月的数据求均值得到季度数据。此外居民消费价格总指数 2006 年至 2008 年的数据以及商品零售价格指数 2003 年至
31、 2008 年的数据来源于国家统计数据库。其余的月度数据,我们直接求该季度所包含的月度数据的和得到季度数据。用每个季度的经济指标加上城镇登记失业率作为行向量,这样可以构成 43 18 的矩阵。由于统计数据存在缺失,在此统一采用均值填补法进行填补。处理完缺失数据后,由于各个经济指标的单位不统一,需要对数据进行归一化处理。在此采用零均值归一化方法,即采用下面公式:y=x AA(15)其中,x、y 分别为转换前和转换后的值,是属性 A原始值的均值,A是属性 A 原始值的标准差。由于采集到的数据较少,而每组数据的指标众多,同时考虑到社会经济数据调查中存在一定的噪声以及缺失数据,因此接下来对数据进行主成
32、分分析,对数据进行降维与去噪声。首先我们去掉城镇登记失业率数据,将数据变成 43 17的矩阵。我们取 2000 年第 1 季度的数据到 2008年第 3 季度的数据作为训练样本集,取 2008 年第 4 季度的数据到 2010 年第 3 季度的数据作为测试样本。然后对训练样本进行主成分分析,设置贡献率阈值为 95%,即至少保持原始数据的95%的信息。经过处理后,将原来的 17 维数据降到 4 维,原始数据的协方差矩阵最大的 4 个特征值为1=13.49,2=1.34,3=0.74,4=0.59最后对训练样本和测试样本进行降维,将它们投影到由这4 个特征向量张成的子空间中,这样就得到了降维后的数
33、据。(二)实验结果1.构造训练样本集和测试样本集341理论方法与案例基于回归分析的失业预警建模实证研究数据经过预处理之后,用本季度的经济指标加上当前季度之前三个季度的失业率和本季度失业率来对下一个季度的失业率进行预测,故样本集可表示为 Xi,Yi=本季度的经济指标+前三个季度的失业率+本季度的失业率,下一季度的失业率 取 2000 年第 1 季度到 2008 年第 4 季度的数据作为训练样本集,取 2009 年第 1 季度到2010 年第 3 季度的数据作为测试样本集,根据所计算的预测结果与实际调查数据来统计预测精度。2.最小二乘回归实验结果失业率的最小二乘回归模型如下U1=a0+a1X1+a
34、2X2+a3X3+a4X4+a5X5+a6X6+a7X7+a8X8其中,ai为所求系数,i=0,2,8;U1代表失业率;Xi代表影响失业的各种经济因素(此处为经过主成分提取后得到的降维数据),i=1,2,3,4,Xj为当前季度之前三个季度的失业率,j=5,6,7,X8代表当前季度的失业率。根据最小二乘回归算法,得到失业率模型的参数,列在表 1 中。图 2 展示了 2009 年第 1 季度到 2010 年第 3季度失业率的预测值与真实值的比较,其中横坐标轴给出的是从 2009 年第 1 季度到 2010 年第 3季度的时间跨度,分别对应了数值 1 7,以下各图坐标轴的含义相同,不再重复说明。3.
35、Logistic 回归模型实验结果失业率的 Logistic 回归模型如下:U1=exp(WX)1+exp(WX)其中,U1为失业率,W=(w1,w2,w3,w4,w5,w6,w7,w8),为待估参数,X=(X1,X2,X3,X4,X5,X6,X7,X8),Xi代表影响失业的各种经济因素(此处为经过主成分提取后得到的降维数据),i=1,2,3,4,Xj为前三个季度的失业率,j=5,6,7,X8代表当前季度的失业率。经过计算,得到失业率模型的待估参数值,见表 2。表 1基于最小二乘回归的失业率模型参数值a0a1a2a3a4a5a6a7a80.0450.05270.01320.07110.0155
36、0.3370.26040.11470.7037图 2基于最小二乘回归的失业率模型真实值与预测值比较表 2基于 Logistic 回归的失业率模型的参数值w1w2w3w4w5w6w7w80.04500.05270.01320.07110.01550.33700.26040.1147441中国软科学 2012 年第 5 期图 3基于 Logistic 回归的失业率预测值和真实值的比较表 3基于岭回归的失业率模型的参数值w0w1w2w3w4w5w6w7w80.15670.07350.00490.06910.00650.27620.24100.11160.5925图 4基于岭回归的失业率模型的真实值与
37、预测值比较图 3 为 2009 年第 1 季度到 2010 年第 3 季度失业率的预测值与真实值的比较。4.岭回归模型实验结果失业率的岭回归模型如下:U1=wx=wTx=8j=0wjxj其中,U1为失业率,W=(w0,w1,w2,w3,w4,w5,w6,w7,w8),为待估参数,X=(1,X1,X2,X3,X4,X5,X6,X7,X8),Xi代表影响失业的各种经济因素(此处为经过主成分提取后得到的降维数据),i=1,2,3,4,Xj为前三个季度的失业率,j=5,6,7,X8代表当前季度的失业率。根据岭回归算法,得到待估系数值,见表 3。图 4 为 2009 年第 1 季度到 2010 年第 3
38、 季度失业率的预测值与真实值的比较。5.BP 神经网络回归模型实验结果根据 BP 神经网络,得到 2009 年第 1 季度到2010 年第 3 季度失业率的预测值与真实值的比较,见图 5。6.支持向量回归模型实验结果支持向量回归模型采用 2 阶多项式核函数。根据支持向量回归算法,我们得到 2009 年第1 季度到 2010 年第 3 季度失业率的预测值与真实值的比较,见图 6。541理论方法与案例基于回归分析的失业预警建模实证研究图 5基于 BP 神经网络模型的失业率真实值与预测值比较图 6基于支持向量回归的失业率真实值与预测值比较(三)实验结果对比分析我们对上述失业率回归模型的均方误差和相对
39、误差进行比较,列在表 4 中。表 4失业率回归模型的均方误差和相对误差比较失业率回归模型均方误差相对误差最小二乘回归0.05670.02197Logistic 回归0.37910.1465岭回归0.05550.0216BP 神经网络0.06220.0239支持向量回归0.03540.0138根据均方误差、相对误差以及前面各个图形可知:Logistic 回归模型对失业率的预测效果最差,支持向量回归模型对失业率的预测效果最好,最小二乘回归、岭回归和 BP 神经网络模型的预测效果介于 Logistic 回归与支持向量回归之间。由于 BP 神经网络的性能受随机初始值的影响较大,导致结果不稳定且可能陷入
40、局部极小点。由于支持向量回归只采用了二阶多项式核函数,就能够得到相比于其他回归方法较好的效果,如果采用精细设计的核函数(如多核设计),支持向量回归有望得到更好的失业率预测效果。另外,我们也基于独立成分分析对原始数据提取独立成分,并对多种回归分析模型进行了相应的建模,得到了与采用主成分分析方法相当的计算结果,由于文章篇幅有限,在此不再对该部分实验结果详述。六、结论本文对基于回归分析的失业预警建模过程进行了系统分析,包括缺失数据的处理、数据的归一化、高维数据的降维与去噪声、回归分析模型等环节,最终基于广东省的社会经济调查数据对五种回归模型641中国软科学 2012 年第 5 期的失业率预测效果进行
41、了综合比较。实验结果发现:(1)主成分分析能够有效地对高维的调查数据进行维数;(2)采用回归技术可以对失业率发展趋势进行一定程度的预测;(3)在五种回归分析模型中,支持向量回归模型预测效果最好,Logistic 回归模型预测性能最差,最小二乘回归、岭回归和 BP 神经网络的预测精度介于 Logistic 回归与支持向量回归的预测精度之间。下一步的工作将基于集成学习技术对多个回归模型进行集成,把每个单独的回归函数看作为一个专家,把多个专家的预测结果综合到一起有望获得更好的预测效果。参考文献:1 纪韶.中国失业预警理论视角、研究模型 M.北京:首都经济贸易大学出版社,2008.2 赵建国,苗莉.基
42、于扩散指数的逐步回归改进失业预警模型及实证分析J.中国人口科学,2008(5):5257.3 赵建国.基于扩散指数法的失业预警模型及实证分析 J.财经问题研究,2005(11):81 84.4Jeffrey L R,Tang K.Simple Rules for Combining Fore-casts:Some Empirical Results J.Socio Economic PlanningSciences,1987,21(4):239 243.5Enriquede A.Constrained Forecasting in AutoregressiveTime Series Model
43、s:A Bayesian AnalysisJ.InternationalJournal of Forecasting,1993,9(1):95 108.6 Hansen B E.Inference in TAR Models J.Studies Nonlin-ear Dynamics Econometrics,1997,2:1 14.7 Van Dijk D,Franses PHPaap R.A Nonlinear Long MemoryModel with an Application to US Unemployment J,Journal ofEconometrics,2002,110:
44、135 165.8 Harvey A C.Forecasting Structural Time Series Models andthe Kalman FilterM.Cambridge:Cambridge UniversityPress,1989.9Robert F Engle.Autoregressive Conditional Heteroscedas-ticity with Estimates of Variance of United Kingdom Inflation J.Econometrica,1982,50:987 1008.10Tim Bollerslev.General
45、ized Autoregressive ConditionalHeteroskedasticityJ.Journal of Econometrics,1986,31:307 327.11Kaminsky,Lizondo,Reinhart.Leading Indicators of Cur-rency Crises Z.IMF Working Paper,1997:97 99.12 莫荣.2003 2004 年:中国就业报告 M.北京:中国劳动社会保障出版社,2004.13 劳动和社会保障部劳动科学研究所课题组.我国失业预警系统与就业对策研究J.经济研究参考,2002,(34):11 26.14
46、 刘伟,陆华.深圳市失业监测预警系统的研究 J 数量经济技术经济研究,2001(2):106 109.15 秦开运.我国失业保障监测预警指标体系的构建 J 统计与决策,2007(21):81 82.16 丁立宏,王静.完善我国失业统计指标体系的构想 J.经济与管理研究,2009(7):15 20.17 刘红霞.失业风险预警模型构建研究 J.现代财经,2008,28(11):28 32.18 陈仲常,吴永球.失业风险预警系统研究 J.当代财经,2008(5):5 10.19 李永捷.基于 RBF 网络的成都市失业预警模型 J 湖南医科大学学报:社会科学版,2007,9(4):159 162.20
47、 张兴会,李翔,陈增强,袁著祉.基于递阶对角神经网络的失业预测研究J.数量经济技术经济研究,2002,19(9):114 117.21 张兴会,杜升之,陈增强,袁著祉,莫荣.基于对角Elman 神经网络的失业预测模型 J.南开大学学报:自然科学,2002,35(2):60 64.22 向小东,宋芳.基于核主成分与加权支持向量机的福建省城镇登记失业率预测J.系统工程理论与实践,2009,29(1):73 80.23 赵建国.综合失业警戒指数的构建及其失业警报分析 J.财经问题研究,2009(7):94 98.24 黄波,王楚明.基于排序 logit 模型的城镇就业风险分析与预测 兼论金融信用危机
48、情形下促进我国就业的应对措施 J.中国软科学 2010,(4):146 154.25Little RJA,Rubin DB.Statistical Analysis with MissingData M.New York:John Wiley and Sons,2002.26Allison P D.Missing DataM.Thousand Oaks,Cali:Sage Publications,2002.27Jiawei Han,Micheline Kamber,Jian Pei.Data Mining:Concepts and TechniquesM.2nd Edition.Elsevi
49、er:MorganKaufmann,2006.28Christopher M.Bishop.Pattern Recognition and MachineLearning M.Berlin:Springer,2006.29JOLLIFFE IT.Principal Component AnalysisM.Lnded.New York:Springer Verlag,2002.30Pierre Comon.Independent Component Analysis:A Newconcept?J.Signal Processing,1994,36(3):287 314.31 Kutner M H.Applied Linear Regression Models M.4thed.McGraw Hill,2004.32Arthur E Hoerl,Robert W Kennard.Ridge Regression:Applications to Nonorthogonal ProblemsJ Technometrics,1970,12(1):69 82.33 Vladimir N.Vapnik.Statistical Learning Theory M NewYork:John Wiley Sons,1998.(本文责编:海洋)741理论方法与案例基于回归分析的失业预警建模实证研究
限制150内