基于粗糙集和遗传神经网络集成的个人信用评价模型.ppt
1东南大学系南大学系统工程研究所工程研究所报告人:告人:卢红科科基于粗糙集和遗传神经网络集成的基于粗糙集和遗传神经网络集成的个人信用评价模型个人信用评价模型2目录目录1 13 3引言引言引言引言RSRS和和和和GA-NNGA-NN集成模型集成模型集成模型集成模型2 2实证实证分析分析分析分析31.引言引言n个人信用个人信用评价价问题 商商业业银银行行零零售售信信贷贷业业务务的的不不断断发发展展,使使得得个个人人信信用用评评价价的的重重要要性性日日益益加加强强。个个人人信信用用评评价价是是指指商商业业银银行行根根据据个个人人的的信信用用信信息息给给出出每每个个贷贷款款申申请请者者能能够够偿偿还还贷贷款款的的可可能能性性(Chen,Huang,2003)1。面面对对客客户户提提出出的的贷贷款款申申请请,银银行行需需要要根根据据客客户户提提出出的的基基本本信信息息和和以以往往的的资资信信记记录录,包包括括姓姓名名、年年龄龄、家家庭庭住住址址、职职业业、每每月月收收入入、信信用用卡卡消消费费纪纪录录、以以往往贷贷款款还还贷贷纪纪录录等等,采采用用科科学学的的方方法法对对客客户户的的信信用用进进行行评评估估,以以决决定定是是否否向向该该客客人人户户发发放放贷贷款款(Lee等人,等人,2003)2。41.引言引言n文献文献综述述 随随着着人人工工智智能能技技术术的的发发展展,包包括括人人工工神神经经网网络络(Artificial Neural Networks,ANN)、支支持持向向量量机机(Support Vector Machine,SVM)、遗遗传传算算法法(Genetic Algorithm,GA)、粗粗糙糙集集(Rough Set,RS)以以及及各各种种方方法法相相互互结结合合的的组组合合模模型型逐逐步步应应用用到到个个人人信信用用评评价价中中来来。Huang等等人人(2006)3将将这这些些模模型型分分为为以以功功能能为为基基础础的的方方法法(如如GA、ANN等等)和和以以归归纳纳为为基基础础的的方方法法(如如Apriori 算算法法、决决策策树树、RS等等)。同同时时,各各种种各各样样的的研研究究着着重重于于集集成成一一些些以以功功能能为为基基础础的的模模型型,来来提提高高分类精度。分类精度。51.引言引言n文献文献综述述 朱朱兴兴德德等等人人(2003)4提提出出了了一一种种基基于于GA的的神神经经网网络络个个人人信信用用评评估估模模型型,利利用用标标准准GA和和Solis&Wets算算法法的的混混合合算算法法同同时时优优化化神神经经网网络的结构和权重阈值系数。络的结构和权重阈值系数。姜姜明明辉辉等等人人(2008)5将将GA与与SVM进进行行结结合合,构构建建了了个个人人信信用用评评估估GA-SVM模模型型,用用GA来来选选择择SVM参参数数,并并通通过过GA适适应应度度函函数数的的设置,来控制给商业银行造成较大损失的设置,来控制给商业银行造成较大损失的“取伪取伪”误判的发生。误判的发生。61.引言引言n文献文献综述述 对对以以归归纳纳为为主主的的算算法法,其其主主要要的的优优点点在在于于这这些些算算法法可可以以向向决决策策者者提提供供可理解的可理解的IF-THEN规则,帮助他们理解数据真实的内容。规则,帮助他们理解数据真实的内容。Huang等等人人(2006)3提提出出了了一一种种两两阶阶段段遗遗传传模模型型来来研研究究信信用用评评价价模模型型,该该模模型型通通过过遗遗传传规规划划来来提提取取IF-THEN规规则则,取取得得了了很很好好的的分分类类效效果果。然然而而,以以归归纳纳为为主主的的模模型型存存在在的的主主要要问问题题是是预预测测能能力力不不强强,如如果一个样本新个体不符合任何规则,就无法确定它的信用类别果一个样本新个体不符合任何规则,就无法确定它的信用类别6。71.引言引言 为为了了结结合合两两种种模模型型的的优优点点,柯柯孔孔林林等等人人(2008)7将将RS和和BP神神经经网网络络进进行行组组合合,针针对对商商业业银银行行企企业业贷贷款款业业务务,构构造造了了五五级级分分类类评评价价模模型型。然然而而,BP神神经经网网络络存存在在一一些些问问题题,如如稳稳定定性性差差,容容易易陷陷入入局局部部极极值值。此此外外,目目前前国国内内很很少少有有学学者者将将以以归归纳纳为为基基础础的的方方法法和和以以功功能能为为基基础础的的方方法法集集成成来来研研究究商商业业银银行行个个人人信信用用评评价价问问题题,因因此此,本本文文提提出出了了以以RS和和遗遗传传神神经经网网络络(GA-Neural Network,GA-NN)集集成成的的混混合合信信用用评评价价模模型型,通通过过基基于于GA的的RS来来约约简简信信用用评评价价指指标标,降降低低了了GA-NN输输入入层层的的结结点点数数,提提高高了了分分类类精精度度;通通过过RS来来提提取取个个人人信信用用评评价价规则库,有利于决策者更好地掌握数据信息和执行信贷决策。规则库,有利于决策者更好地掌握数据信息和执行信贷决策。82.RS和和GA-NN集成模型集成模型RS和和GA-NN集成的个人信用评价模集成的个人信用评价模型主要由两部分组成,见图型主要由两部分组成,见图1。第一部分是模型训练,第一部分是模型训练,包括三个步骤:(1)样本数据预处理:离散化和归一化;(2)应用GA简约评价指标;(3)采用RS,基于最小简约指标提取判别规则,形成个人信用评价判别规则库。第二部分是模型检验,第二部分是模型检验,将检验样本评价指标值与规则库进行匹配,会出现匹配和不匹配两种情况。用RS判别与规则库匹配的检验样本信用等级,GA-NN算法作为辅助模型,判别不与规则库任何规则匹配的检验样本信用等级。否 是 图图1:个人信用评价集成模型框架图:个人信用评价集成模型框架图YES 数据预处理训练集测试集应用遗传算法进行属性约简规则库匹配?粗糙集理论样本集基于遗传算法的BP神经网络模型分类结果分类结果92.RS和和GA-NN集成模型集成模型n评价指标属性约简评价指标属性约简 在决策过程中,并不是属性越多越好,而是遵循样本的属性特征足够刻画样本特征的选择原则。这是因为属性过多时,样本中会更容易夹杂一些噪声数据,对于计算空间的要求以及算法的时间要求都会增加,增加问题的复杂性。因此,本文对样本进行知识约简。知识约简,就是指保持知识库分类能力不变的条件下,删除其中不相关知识约简,就是指保持知识库分类能力不变的条件下,删除其中不相关或不重要的冗余知识。现有的约简算法,主要是是从或不重要的冗余知识。现有的约简算法,主要是是从RS的核出发,采用启发式搜索的核出发,采用启发式搜索的方法构造所含条件属性最少的约简,即最小约简(陶志等人,的方法构造所含条件属性最少的约简,即最小约简(陶志等人,2003)8。通过删除条件指标 的前后近似质量之差 来考察条件指标 对于决策属性D 的重要性,如果 ,则认为评价指标 对于决策属性D 没有影响,可以在评价指标集中将其删除。本文采用GA寻找最小相对约简8:假设评价指标集合为 ,评价指标空间染色体为长度为制位串,每一位对应一个条件属性。若某位取值为1,则表示选择其对应的条件属性;的二进102.RS和和GA-NN集成模型集成模型n评价指标属性约简评价指标属性约简 若某位取值为0,则去除其对应的条件属性。这样,每一个染色体个体对应了条件属性空间中的一个属性子集。定义自适应函数为自适应函数为(柯孔林等人,2008)7:式中:L表示染色体 选择了的评价指标个数,Z表示染色体 覆盖决策表的行数,为评价指标个数,为训练样本数。112.RS和和GA-NN集成模型集成模型n信用评价规则生成信用评价规则生成商业银行零售客户的数据库以二维数据表的形式表示商业银行零售客户的数据库以二维数据表的形式表示,决策表 表示为 ,表中的每一行描述一个零售客户,所有零售客户的集合称为论域 ,每一列描述一个属性,属性可以分为条件属性(评价指标)和决策属性(贷款与否),为属性集合,C 和D分别为评价指标集和决策属性集合,是属性 的值域 9。利用RS生成商业银行零售客户信用评价规则库是以决策表作为单位进行的,将GA约简的评价指标作为规则的前部,决策属性作为规则的后部,由此形成判别规则。若 为评价指标 的离散值,为决策属性D 的取值,则由简化后的评价指标生成的个人信用判别规则表示为:122.RS和和GA-NN集成模型集成模型nGA-NN构造构造基于采用标准GA简约得到的最小评价指标集及相应的经过归一化之后的标准化数据形成最新的学习样本,对GA-NN系统进行学习和训练。基本操作步骤如下:(1)选择合适的参数,包括群体规模)选择合适的参数,包括群体规模,交叉概率交叉概率和变异概率和变异概率(2)确定适应度函数)确定适应度函数,为期望输出,为期望输出,为神经网络的输出为神经网络的输出(3)随机产生一组初始染色体,计算每一个染色体的适应值)随机产生一组初始染色体,计算每一个染色体的适应值同时计算同时计算群体的总适应值群体的总适应值(4)采用实数编码方法,本文把一组网络权值和阈值连接成一个)采用实数编码方法,本文把一组网络权值和阈值连接成一个GA中的染色中的染色体体132.RS和和GA-NN集成模型集成模型nGA-NN构造构造 (5)计算每一串的选择概率)计算每一串的选择概率和累计概率和累计概率以轮盘赌方式以轮盘赌方式进行个体的选择;进行个体的选择;(6)对每串产生随机数)对每串产生随机数,若,若一组后,随机配对,对每一对,产生一组后,随机配对,对每一对,产生则参加交叉操作,选出参加操作的则参加交叉操作,选出参加操作的间的随机数以确定交叉的位置;间的随机数以确定交叉的位置;(7)可能变异的位数的期望值为)可能变异的位数的期望值为,每一位为等概率变异,具体步骤,每一位为等概率变异,具体步骤为:对每一串中的每一位产生为:对每一串中的每一位产生,则该位变异,如果子代染色则该位变异,如果子代染色体数达到体数达到,则已形成下一代,直至达到预定的进化代数为止,否则转向则已形成下一代,直至达到预定的进化代数为止,否则转向第(第(5)步操作;)步操作;(8)利用)利用BP神经网络进行微调。神经网络进行微调。143.实证分析实证分析 本文采用国内某商业银行的个人信贷数据集对该方法的有效性进行验证,共获得496个样本,其中正常客户和违约客户分别用1和2表示,样本数据集包含15个指标属性:性别(C1),年龄(C2),婚否(C3),教育程度(C4),健康状况(C5),家庭情况(C6),月均收入(C7),单位性质(C8),职业(C9),账户结算方式(C10),账户存在年限(C11),贷款额(C12),贷款期限(C13),还款方式(C14),担保方式(C15)。本文采用随机抽样方法,从总体中随机抽取350个客户为训练集,剩余的146位客户作为检验样本集。训练集中正常和违约客户分别为301位和49位,检验样本集中正常和违约客户分别为132位和14位。n样本选择样本选择153.实证分析实证分析评价指标评价指标符号符号12345年龄C20,30)30,35)35,40)40,50)50,)账户存在年限(年)C110,2)2,3)3,4)4,5)5,)贷款额(万)C120,5)5,10)10,20)20,30)30,)表表1评评价指价指标标属性离散化区属性离散化区间间 利用RS进行属性简约时,需要将连续属性离散化。在本文选择的15个属性里,年龄、账户存在年限、贷款金额需要进行离散化处理。参考文献5(姜明辉,袁绪川,姜明辉,袁绪川,2008),对以上3个连续指标离散区间划分标准,同时根据样本在各属性上的分布情况,得到表1的离散化结果。n数据离散化数据离散化163.实证分析实证分析n属性约简属性约简 通过GA求得训练样本的最小约简共有3个,分别为C1,C2,C6,C7,C8,C9,C12,C14,C2,C6,C7,C8,C9,C10,C12,C14,C2,C6,C7,C8,C9,C11,C12,C14。根据最大聚类比率公式(柯孔林,冯宗宪,2008)7,选择 C2,C6,C7,C8,C9,C10,C12,C14产生信用评价规则,共产生138条,限于篇幅文本选择支持数较多的部分规则列于表2中,每一行表示一个信用评价规则,比如第一行可以表示为:如果C2=4,C6=3,C7=4 C8=3,C9=5,C10=3,C12=2,C14=2,则该客户信用良好,相应规则数为9。规则条件属性决策属性支持数C2 C6 C7 C8 C9 C10 C12 C1414343532219222235122183433333221842234332217532731352166432351321673323313224表表2个人信用判个人信用判别规则别规则173.实证分析实证分析nGA-NN模型模型 在基于GA的BP神经网络结构中,输入层有8个神经元,输出层有2个神经元,设定隐层有6个神经元。如果评价的结果为正常贷款,则输出(1,0),如果评价结果为违约,则应输出(0,1)。本文中,取种群规模为60,最大进化数为1000,交叉概率0.5,变异概率0.001,设置学习率为0.01,训练误差为0.05,训练最大数为5000。在编码过程中,染色体定义为183.实证分析实证分析初始值预测值样本数误判率(%)好 坏好871510214.71%坏36933.33%初始值预测值样本数误判率(%)好 坏好2283026.67%坏14520.00%将146个检验样本客户与信用评价规则库进行比较,有111个客户的评价指标与规则相匹配,可以将其判定为相应规则的信用等级,见表3。剩余的35个检验样本不与任何规则匹配,分别将它们的标准数据输入到已训练完成的GA-NN中,根据网络输出的最大值判别信用等级,结果见表4。表表3RS规则判别结果规则判别结果表表4GA-NN判别结果判别结果193.实证分析实证分析 由表3和表4可知,RS和GA-NN集成模型对146个检验样本的正确判别样本数为119个,总体正确判断率为81.51%,其中正常、违约的正确判断率分别为:82.58%和71.43%。同时将检验样本的模型预测结果列于表5,括号外的数字为检验样本数,括号内的数字为平均误判率。从表中可知,RS提取的规则对检验样本的平均误判率要低于GA-NN,但当RS提取的规则无法判别检验样本时,GA-NN作为辅助的判别方法其预测精度比较理想。可见,基于RS和GA-NN的集成模型预测精度较高,鲁棒性较强,对商业银行零售客户的信用等级有很好的预测能力。组别RS规则GA-NN集成模型1111(16.22%)35(25.71%)81.51%表表3检验样本预测精度检验样本预测精度203.结论结论 本文将人工智能领域中的RS理论结合本文构造的GA-NN,针对国内商业银行零售信贷业务,构建了适合我国商业银行个人信用等级分类需要的评价模型。通过基于GA的RS来约简信用评价属性,降低了GA-NN输入层的结点数。通过RS进行规则提取,从而建立信用评价规则库,有利于银行客户经理进行快速、有效决策。同时,用GA-NN作为辅助的判别方法,进一步弥补了RS的不足,提高了信用评价的准确度。最后,利用国内某商业银行的个人贷款数据集进行实证,取得了良好的分类预测效果。现阶段主要的工作是:解决代价敏感以及数据不平衡的问题,构建“基基于于改改进进粒粒子子群群算算法法的的代代价价敏敏感感支支持持向向量量机机模模型型”,利用粒子群算法来选择代价敏感支持向量机中(CS-SVM)的核函数参数以及惩罚函数C,并将该模型应用于“贷款违约判别”。目前只剩下实证部分。21参考文献参考文献1 Chen M C,Huang S H.Credit scoring and rejected instances reassigning through evolutionary computation techniques J.Expert Systems with Applications,2003,24(4):433441.2 Lee T S,Chiu C C,Lu C J,et al.Credit scoring using the hybrid neural discriminant technique J.Expert Systems with Applications,2003,23(3):245254.3 Huang J J,Tzeng G H,Ong C S.Two-stage genetic programming(2SGP)for the credit scoring model J.Applied Mathematics and Computation,2006,2(174):1039-1053.4 朱兴德,冯铁军.基于GA神经网络的个人信用评估 J.系统工程理论与实践,2003,23(12):70-76.5 姜明辉,袁绪川.个人信用评估GA-SVM模型的构建与应用 J.合肥工业大学学报,2008,31(2):267-283.6 Ahn B S,Cho S S,Kim C Y.The integrated methodology of rough set theory and artificial neural network for business failure prediction J.Expert Systems with Applications,2000,18(2):65-74.7 柯孔林,冯宗宪.基于粗糙集和神经网络集成的贷款风险5级分类 J.控制理论与应用,2008,25 (4):759-763.8 陶志,许宝栋,汪定伟,等.基于遗传算法的粗糙集知识约简方法 J.系统工程,2003,21(4):116-1229 Beynon M J,Peel M J.Variable precision rough set theory and data discretization:An application to cooperate failure prediction J.The international Journal of Management Science,2001,29(6):561-576.22TheendThankyou!