《决策树在高校就业管理系统中的应用研究.pdf》由会员分享,可在线阅读,更多相关《决策树在高校就业管理系统中的应用研究.pdf(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 收稿日期:2006-02-10 作者简介:彭松波(1971),男,浙江丽水人,硕士,讲师.第17卷第4期2006年8月 中原工学院学报JOURNAL OF ZHONG YUAN INSTITUTE OF TECHNOLOG Y Vol.17No.4Aug.,2006 文章编号:1671-6906(2006)04-0039-04决策树在高校就业管理系统中的应用研究彭松波,何文秀(浙江工业大学 信息学院,杭州 310014)摘 要:根据就业数据的特点,采用C4.5决策树算法对就业数据进行预处理,选取决策属性,实现挖掘算法并抽取规则知识,由规则知识指出哪些决策属性决定了就业单位的类别.挖掘结果表明
2、,该算法能够正确将就业数据分类,并得到若干有价值的结论,供决策分析.关 键 词:数据挖掘;就业管理信息系统;决策树;C4.5中图分类号:TE857文献标识码:A 近年来,针对数据挖掘应用的研究已取得了大量的研究成果,所表现出的广阔应用前景吸引了众多的研究人员和商业机构1-2.一批数据挖掘系统被开发出来,并在商业、经济、金融、管理等领域取得了应用性成果,其中比较有代表性的有IBM Almaden研究所R.Agrewal等人研究开发的Quest3,国际数据挖掘研究知名学者加拿大Simon Fraster大学Han Jiawei教授领导的课题组开发了数据挖掘原型系统DBMin2er4等等.这些商业软
3、件所取得的成功应用,极大地推动了学术界对数据挖掘技术的研究热情和数据挖掘技术在产业界的推广,如ERP系统5以及各类管理信息系统,有地理信息系统、物流管理信息系统、会计信息系统、医院信息系统等等,但是在高校就业信息系统方面的应用研究还比较少.如何从学生就业管理信息系统的海量数据中提取有用的信息,提供给决策者,对高等学校加快教学改革、改进就业指导、提高大学生的就业率和就业层次有重要意义.本文以浙江工业大学信息学院的网上毕业生管理信息系统为基础,对其中积累的海量数据运用数据挖掘技术,实现挖掘算法 决策树C4.5算法,并抽取规则知识,由规则知识指出哪些决策属性决定了就业单位的类别,进而为学院领导和学校
4、领导在提高就业率、提高就业层次、改进现行培养机制方面提供决策支持6.1 决策树算法决策树方法是数据挖掘的核心技术算法之一,它通过将大量数据有目的地分类,从中找出一些潜在的、对决策有价值的信息,常用于预测模型中.国际上最早和最有影响的决策树方法是由Quinlan研制的ID3决策树生成算法.C4.5算法是ID3算法的改进,该算法的基本工作流与ID3算法相同.C4.5算法采用信息增益率作为属性选择的度量标准,理论和实验表明,采用信息增益率比采用信息增益更好.决策树方法的基本思想是采用信息论中的概念,用信息增益作为决策属性分类判别能力的度量,进行决策节点属性的选择.C4.5算法中,决策属性信息增益的计
5、算方法如下:C4.5将决策树看作为含有与分类有关的消息的信息源,设有事例集合T和事例样本类标号Ci,i=1,A,n,则该消息期待的信息量即信息熵是:info(T)=-nt=1f requ(Ci,T)|T|log2f req(Ci,T)|T|这里f requ(Ci,T)表示事例集合T中事例属于类Ci的数目.|T|表示事例集T的样本个数.每一个可能的消息的概率是从训练集计算而来.1994-2006 China Academic Journal Electronic Publishing House.All rights reserved.http:/如果选择了有k个不同值的属性X,产生的决策树信息
6、量的期望值即条件熵是:Ex=nt=1|Ti|T|info(Ti)|Ti|是基于属性X的某个值的子树中每一类例子的数目.其信息增益即互信息是:gain(X)=info(T)-ExC4.5在每一步,采用启发式搜索来选择导致最大信息增益gain份的属性X作为扩展属性进行分枝.当有大量不同的属性值和采用标准化的处理程序时,这种启发式方法很有效.信息增益率(gainratio)方法认为应当选择能具有好的信息增益的属性.信息增益率被定义为:gainratio(X)=gain(X)Split(X)其中Split(X)=-ki=1|Ti|T|log2|Ti|T|是利用属性X的值对数据进行分枝得到的潜在的信息.
7、C4.5采用了信息增益率作为对选择分枝属性的分枝准则.信息增益率表示了由分枝产生的有用信息的比率.因此,这个值越大,分枝包含的有用信息越多.2依据C4.5算法构造决策树首先选取训练样本数据集,本文以计算机专业的学生就业记录数据进行分析,如图1所示,工作单位括号的内容为工作类别.取属性“工作单位”作为类别标识属性,属性“专业成绩”、“外语水平”、“计算机水平”、“实践能力”作为决策属性集.本文采用VB实现该算法,连接数据库并将挖掘结果显示.训练样本数据集S中,共有30个元组,有9个类别A1,A2,A3,B1,B2,B3,C1,C2,C3,对毕业生网上管理系统运用数据挖掘技术是为了发现隐藏其中的信
8、息,更好地提高就业层次,因此我们选取A1(国企第一梯队)、A2(国企第二梯队)、B1(外企第一梯队)、C1(私企第一梯队)4个类别进行分析,这4类所对应的子集中元组个数分别为:r1=5、r2=8、r3=3、r4=2.为了计算每一个决策属性的信息增益,首先利用公式计算集合S分类的期望信息量I(r1,r2,r3,r4,r5,r6)=I(5,8,3,2)=-518log2518-518log2518-318log2318-218log2218=1.8164然后计算机每一个决策属性的期望信息量(即熵值).图1训练数据集对属性“专业成绩”,当专业成绩=“优”I(s11,s21,s31,s41)=-46l
9、og246-16log216-16log216=1.2518当专业成绩=“良”时I(s12,s22,s32,s42)=-59log259-29log229-29log229=1.4355当专业成绩=“中”时I(s13,s23,s33,s43)=-13log213-23log223=0.9183由此得出“专业成绩”的熵值:E(专业成绩)=618I(s11,s21,s31,s41)+I(s12,s22,s32,s42)+I(s13,s23,s33,s43)=1.2881因此,属性“专业成绩”的信息增益为Gain(专业成绩)=I(r1,r2,r3,r4,r5)-E(专业成绩)=1.8164-1.28
10、81=0.5283属性“专业成绩”的信息增益率为Ratio(专业成绩)=Gain(专业成绩)/E(专业成绩)=0.4101对属性“外语水平”,当外语水平=“四级”,I(s11,s21,s31,s41,s51)=-514log2514-714log2714-214log2214=1.4316同理,属性“外语水平”、“计算机水平”、“实践能04 中原工学院学报 2006年 第17卷 1994-2006 China Academic Journal Electronic Publishing House.All rights reserved.http:/力”的信息增益率分别为:Ratio(外语水平
11、)=Gain(外语水平)/E(外语水平)=0.403 9;Ratio(计算机水平)=Gain(计算机水平)/E(计算机水平)=0.256 9;Ratio(实践能力)=Gain(实践能力)/E(实践能力)=0.077 7;由此可见,属性“专业成绩”具有最大增益率,故选择该属性作为决策树的根结点.对于每一个分枝,重复上述步骤,生成决策树.图2C4.5算法构造就业决策树3规则知识描述关键的第一层次单位类别,从决策树中只提取A1、A2、B1、C1类的规则.分类规则如下:(1)If专业成绩=“优”AND外语水平=“四级”Then在国企第一层次单位就业;(2)If外语水平=“六级及以上”AND实践能力=“
12、良”或“优”Then在外企第一层次单位就业;(3)If计算机水平=“四级”AND专业成绩=“良”Then在私企第一层次单位就业;(4)If外语水平=“四级”AND实践能力=“良”Then在国企第二层次单位就业;由以上规则可以看出,对于计算机专业的学生,要提高学生的就业层次,对于3类不同的单位,国企、外企和私企,要提高国企的就业层次,则需侧重加强专业素质的培养;要提高外企的就业层次,则需侧重加强外语水平和实践能力的培养,由于外企自身的特点对外语水平要求特别高,而且动手实践能力对外企来说也特别重要;要提高私企的就业层次,则需侧重加强计算机水平的提高,而专业素质培养也需要一定的力度.这些规则对学校的
13、管理和决策者而言,具有可供决策支持的现实意义.4结 语该毕业生网上管理系统是基于查询驱动的,但当数据和数据库的规模急剧增长时,传统的数据库管理系统的查询检索机制和统计分析方法就远不能满足现实的需要,迫切要求能够自动、智能和快速地从数据库中挖掘出有用的信息和知识,因此,本文引入数据挖掘理论中的决策树方法,对高校就业管理系统中的数据进行分析,运用决策树算法构造决策树,提取规则知识,发现决策属性对就业类别的影响,从而在提高就业率、提高就业层次、改进现行培养机制方面提供决策支持.参考文献:1 蔡文清.中国高等教育大跨越N.北京晚报,2002-10-16(6).2Melab N.Data Mining:
14、A Key Contribution to E2businessJ.Information&Communications Technology Law,2001,10(3):309-318.3Han J.Conference Tutorial Notes:Data SIGMOD International Conference 96 on Mining TechniquesC./In Proceedings ofACM Management of Data,Montreal,Canada,1996.191-2024Han J,Barth M J.A Data Mining Query Lang
15、uage for Relational DatabasesC./SIGMOD 96 DMKD,Workshop on Re2search Issues on Data Mining and Knowledge Discovery Oakland,1996:52-575Chen Ruey2Shun,Chen C C,Chang C C,et al.A Web2based Data Mining System for ERP Decision MakingJ.IEEE SMC,2002,49(6):1313-1322.6 雷松泽,郝 艳.基于决策树的就业数据挖掘J.西安工业学院学报,2005,(1
16、0):429-432.7 邹筱梅,姜 山,唐贤瑛.基于决策树的股市数据挖掘与仿真J.计算机仿真,2004,21(3):127-129.14第4期 彭松波等:决策树在高校就业管理系统中的应用研究 1994-2006 China Academic Journal Electronic Publishing House.All rights reserved.http:/Application and Research of Data Mining on Employment ManagementInformation System in UniversityPENG Song2Bo,HE Wen2
17、xiu(Zhejiang University of Technology,Hangzhonu 310014,China)Abstract:This paper mines useful and unobvious information from the vast data stored in employmentmanagement information system by data mining.Decision2tree is a useful classification algorithm of data min2ing.This paper uses C4.5 decision
18、2tree algorithm,which improves ID3 algorithm,to mine the information interms of the characteristic of employment data.The algorithm preprocesses the data and chooses the decisionattributes first,then draws the rules,which show that what attributes determine the classification of employ2ment.The resu
19、lts of data mining indicate that the algorithm can classify the employment data properly and getsome valuable information for decision2making.Key words:data mining;employment management information system;decision2tree;C4.5(上接第35页)Research of T ransmission and Processing SystemB ased on VBR T raffic
20、 ControlLIU Nan,WANG Xiu2xia(Huazhong University of Science and Technology,Wuhan 430074;Henan Vniversity of Technology,Zhengzhou,450007 China)Abstract:A flow procontrol approach of video transmission in the Groadband is studied in this paper.Apractical method that is suit for applying in the practic
21、al application is mestended,and it is based on the medic2tion of video flow.Using the VBR video flow control and the control with video service procersor,the problemwith the video code rate not matching with the broadband has been servecl,and a self adaptive transmission ofthe flow control has been
22、realized.Key words:VBR video traffic prediction;video coding;traffic control(上接第38页)Research on the Mechanism of Resin Film Shaped on theSolar Battery Board in VacuumQIAO Xue2tao(Zhongyuan Institute of Technology,Zhengzhou 450007,China)Abstract:The mathematical model of the mixture with resin(A mate
23、rial)and its solidified material(Bmaterial)flowing on the solar battery board has been built by viscous hydrodynamics and so on theories basedon a lot of experiments and the mixture auto2shaped film on the board in this paper.The formulas of the shapedfilm thickness and perfusion measure have been deduced.In order to find out and to control the best technicalparameters,the surface tension of liquid is analyzed too.Key words:encapsulation film;solar battery board;surface tension24 中原工学院学报 2006年 第17卷 1994-2006 China Academic Journal Electronic Publishing House.All rights reserved.http:/
限制150内