[2007]基于遗传算法的银行客户信用评估模型研究.pdf
《[2007]基于遗传算法的银行客户信用评估模型研究.pdf》由会员分享,可在线阅读,更多相关《[2007]基于遗传算法的银行客户信用评估模型研究.pdf(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2007 年年 2 月月February 2007 70 计计 算算 机机 工工 程程Computer Engineering第第 33 卷卷 第第 3 期期 Vol.33 No.3 软件技术与数据库软件技术与数据库 中图分类号:中图分类号:TP311文章编号:文章编号:10003428(2007)03007003文献标识码:文献标识码:A 基于遗传算法的银行客户信用评估模型研究基于遗传算法的银行客户信用评估模型研究 陈李钢,叶陈李钢,叶 强,李一军强,李一军(哈尔滨工业大学管理学院,哈尔滨 150001)摘摘 要:要:根据遗传算法的鲁棒性的特点以及信用评估的模型,文章提出了一种基于遗传算法的
2、信用评估模型,改进了遗传算法,设计了染色体表示方法,用两类客户识别的正确率和错误率来构建适应度函数以及相应的遗传操作,适应信用评估模型的要求。通过对原始数据的训练,得出较为合理的评估模型系数,实验结果表明该方法效果良好,具有实用价值。关键词:关键词:信用评估;适应度函数;遗传算法 Research on GA-based Bank Customers Credit Evaluation CHEN Ligang,YE Qiang,LI Yijun(School of Management,Harbin Institute of Technology,Harbin 150001)【Abstract
3、】Based on the generalization characteristic of genetic algorithm(GA)and the credit evaluation model,this paper presents a GA-basedcredit scoring model,and then improves the algorithm.In order to meet the demand of the model match,chromosome express method,the fitnessfunction using right and wrong ra
4、te of discriminating two class customer and corresponding genetic operators are designed.The results show that theproposed method is effective and of great practical value.【Key words】Credit evaluation;Fitness function;Genetic algorithm 1 概述概述 贷款是商业银行最主要的盈利资产,也是风险最大的资产之一,为了降低风险提高盈利,银行必须重视贷款的质量。2004年起
5、,各大国有商业银行纷纷把降低不良贷款率作为第一要务,但是仅仅加大对存量不良资产的处置力度,也只是被动清算历史沉疴。新的贷款每天都在生成,新的风险也时刻都在酝酿,只有在制度和体制上建立一套控制源头的“防火墙”,才能将风险扼杀于“襁褓“之中。确定贷款主体、开展信用等级评定、贷款资格认定等是防范来自市场风险的一项基础性工作。因此信用评估模型广泛地应用于银行业。信用评估模型利用客户提供的特征数据,如年龄、收入、婚否等来对其进行分类。判别规则利用历史数据来构建。对此,国内外学者做了大量的工作。Reichert,Cho&Wagner(1983)最早提出了线性判别的评估模型,Henley(1995)引入了逻
6、辑回归分析的模型,Henley&Hand(1996)用k近邻分析的方法来构建判别规则。在人工智能方法方面,Salchenberger等(1992)用多感知器神经网络模型来预测银行的存款和贷款的稳健度,Davis,Edelman&Gammerman(1992)用决策树模型来信用预测。Malhotra,R.&Malhotra,D.K.(2003)用神经网络来分析客户的信贷指数。赵听、李莉等人(2002)探讨基于AHP.GEM综合算法的多层次、多指标个人信用评价体系的理论框架,考察了个人价值体系和个人信誉两方面。从以上学者的研究分析来看,信用评估的方法主要可以分为层次分析法、基于标准数理统计模型的方
7、法和人工智能(主要是数据挖掘技术):(1)层次分析法(AHP)是一个很不错的方法,但是AHP法存在一个主要的问题,即判断矩阵的一致性问题,由于客观世界的多样性以及人们的判断误差,构造出一致性的判断矩阵是有一定的困难的。(2)数理统计模型,它是对大量的历史信用数据进行科学的归纳、总结、计算而得到的量化分析公式。根据判别函数的形式和样本分布的假定不同,主要有线性概率模型、Logit模型、K-近邻分析方法等。统计模型的优点在于有明显的解释性,但在数据过于严格的前提下,这种方法在实际的数据环境里很难得到应用。(3)数据挖掘模型,随着数据挖掘技术的发展,很多有关的技术被引入到信用评估领域里面,主要有神经
8、网络模型、基于关联规则的相似推荐模型、范例推理等。神经网络模型能有效解决非正态分布、非线性的信用评估问题,但是不具有解释性,另外是结构确定的困难性、训练效率低下。关联规则在于频繁项集取得的复杂性,统计上的欺骗性让它在应用中有所限制。范例推理模型有效地解决了一些问题,但是对新的模式无法解释,也有一定的局限性。遗传算法是模拟生物进化现象(选择,交叉,变异)的一种优化方法,有机地结合了定向搜索和随即搜索,通过不断地改进种群的性能,逐步达到全局的最优化。而且它本身快速收敛的性能也提高了算法的可行性,本文的评估模型就是基于遗传算法的。2 遗传算法的信用评估模型遗传算法的信用评估模型 2.1 基础数学模型
9、的建立基础数学模型的建立 一般情况下,信用模型是依靠历史数据和统计方法建立起来的。一个设计好的模型应该能对信用等级高的客户给出评估结果。在建立数学模型方面,现在很多的模型往往需要首先满足一定的假设条件,这使许多信用评估模型在进行信用评估时受到限制。本文把研究个人信用评估的问题转化为基金项目:基金项目:国家自然科学基金资助项目(70501009);哈工大文科基金资助项目(050417)作者简介:作者简介:陈李钢(1982),男,硕士生,主研方向:数据挖掘,电子商务;叶 强,副教授;李一军,教授、博导 收稿日期:收稿日期:2006-03-01 E-mail: 一个指标间组合优化的问题。将各项指标作
10、为一个组合,采用遗传算法通过对样本数据的运算,寻求最优分配系数。传统的多元判别函数进行信用评价有一定的合理性,因为这些指标都是人们在长期的实践探索出来的。本文中目标函数采用指标加权得分函数来评估,相应的指标体系如图1所示。基本情况价值体系信誉体系个人预期其他个人信用等级 图图1 指标体系指标体系 建立所需求解的问题函数,即目标函数F(x),数学表达式如式(1):Y=(1)111(,)nmliijlijlijijlijkWWXK=其中:Y为信用度数值;Wi为第i个一级评价指标的分配系数,是遗传操作中的基因;为第ij个指标的第l个属性的分配系数,也是遗传操作中的基因;n为共有n个一级指标;m为第i
11、个指标下面有m个二级指标。l为第nm个指标有l种可能的取值;ijlWijl为一个01函数=ijlijijlijijlijijlkxkxkx01)(,(2)ijl函数使得每个指标的不同属性得到体现。依据信用评估的问题,在一般意义下,得到的Y值越高,则个人信用的等级就越高,可信度就越高,发生违约的风险就越低。2.2 遗传运算过程的设计遗传运算过程的设计 2.2.1 染色体编码 在遗传算法的运行过程中,它不是直接对所求解问题的实际决策变量操作,而是对表示可行解的个体编码施加选择、交叉、变异等运算,通过这种遗传操作来达到优化的目的。这是遗传算法的特点之一。根据上一节所建立的数学模型,本文选取的每个指标
12、都是(-1,1)之间的实数,之所以可以取负值,是因为实际的指标可能对信用有正面的也有负面的影响。采用浮点数编码的方法,也是进行遗传设计比较常用的方法之一。采用这种方法的好处就是它直接表示问题的实际值,不用进行常规的解码。其中数学模型中Wi和就是本遗传进行操作的基因。每一个个体将包含所有WijlWi和的值,直接构成一个染色体。ijlW2.2.2 确定个体的适应度评价 对目标函数值的使用是通过评价个体的适应度来体现的,建立适应度函数f(x),一般来说f(x)最终都会转化为求解最大值的问题。适应度函数取决于个体本身。而且每一个个体的适应度函数的取值必须是唯一的。经过比较本文利用信用好的客户中判断的正
13、确率和错误率以及信用差的客户中判断的正确率和错误率的组合作为个体的适应度评价。这样可以减少样本数据中大部分都是好客户带来的影响。信用风险的预测错误可以分为两类:第1类错误是将违约的贷款人预测为正常;第2类错误是将正常的贷款人预测为违约,研究表明,在商业银行信用风险管理中,第1类错误的成本要远远大于第2类。因此,在适应性函数设计中,考虑不同的错误成本,能使预测模型在同样的预测精度下,尽量减少成本高的第1类错误。(1)信用好的正确率:实际没有发生违约的信用平分值在临界信用度(可计算得出,使整个样本的适应度最大)上的数目与样本中实际没有违约的数目之比far。(2)信用差的误判率:实际没有发生违约的信
14、用评分值落在临界信用度之下的数目与样本中实际没有违约的数目,记作faw。(3)信用差的正确率:实际发生违约的信用评分值在临界信用度之下的数目与样本中实际发生违约的数目之比fbr。(4)信用差的误判率:实际发生违约的信用评分值在临界信用度之上的数目与样本中实际发生违约的数目之比fbw。araraLfN=(3)awawaLfN=(4)brbrbLfN=(5)bwbwbLfN=(6)其中 Lar表示实际没有违约的信用评估分值在临界信用度之上的数目;Law表示实际没有违约的信用评估分值在临界信用之下的数目;Na样本数据中实际没有违约的总数目;Lbr 表示实际发生违约的信用评分值在临界信用度之下的数目;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2007 基于 遗传 算法 银行 客户 信用 评估 模型 研究
限制150内