SAS金融数据挖掘与建模:系统方法与案例解析.html.pdf
《SAS金融数据挖掘与建模:系统方法与案例解析.html.pdf》由会员分享,可在线阅读,更多相关《SAS金融数据挖掘与建模:系统方法与案例解析.html.pdf(141页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、赞誉 数字化转型是银行业未来十年的发展趋势,大数据的分析与应用能力至关重要。本书系统归纳了数字化客户经营的主要场景,并选取最有代表性的案例介绍分析建模过程,写法通俗易懂,对技术和业 务人员提升数字化客户经营能力都很有帮助。 吴纯杰上海财经大学统计与管理学院副院长 SAS是统计分析软件领域的标杆,以功能强大著称,已经有超过40年的历史。由SAS技术大学精英学院组织撰写的这套书,有SAS编程的主题,有SAS EG和SAS EM这样的重要工具,还有金融数据挖 掘与建模这样的行业应用,内容系统、立体、丰富,强烈推荐! 俞章盛上海交通大学教授/博士生导师 SAS是全球分析领域的引领者,数十年来一直致力于
2、应用分析解决最困难的业务问题,在统计分析、商业智能、客户智能、数据管理、风险管理、欺诈与安全智能等多个领域独树一帜。相信由SAS技术 大学官方编写的系列参考书,一定能将SAS的技术精华和优秀实践总结、提炼出来,奉献给广大的SAS技术、产品的支持者和使用者们。 宇传华武汉大学教授/博士生导师 在开源软件大行其道的今天,作为商业软件,SAS不仅没有没落,反而正爆发出更强大的生命力,这与SAS公司与时俱进的创新能力是分不开的。SAS的技术和产品在不断改进,SAS的教育工作也一直 做得很好,每年一度的“高校SAS数据分析大赛”在教育界的影响力越来越大。他们出版的“SAS大学技术丛书”一定能再为SAS教
3、育工作添砖加瓦。 杨启贵华南理工大学教授/数学学院副院长/博士生导师 前言 古之欲明德于天下者,先治其国;欲治其国者,先齐其家;欲齐其家者,先修其身;欲修其身者,先正其心;欲正其心者,先诚其意;欲诚其意者,先致其知;致知在格物。 礼记 知之真切笃实处即是行,行之明觉精察处即是知。 王阳明 大数据势不可挡。然而,对于多数公司来说,数据分析和建模能力尚未完全发展起来,虽主观意识上认同了大数据的潜在价值,也开始采集、储备数据,却不知如何才能让数据充分融入业务、帮助业 务部门达成业务指标。 大数据是一种全新的业务和产品创新思维,是海量数据存储和计算的基础架构,但小数据的分析运用才是多数公司和业务领域必
4、须关注和掌握的核心能力。本书将聚焦于实践应用,介绍数据分析、建 模的方法和在业务领域的实际应用,原理和基础理论知识不是重点,因此数学公式极少,除非它比文字更能表达内容。总体上,本书不会详细罗列最热门的机器学习算法、数据挖掘方法以及人工智能,而 是基于金融企业当前的实际需要,精选最具代表性的业务领域以及被广泛验证实用高效的分析建模技术,这些技术是数据分析人员必须掌握的技能。本书同时也是为掌握统计学知识和基本数据分析方法的 业务专家所写,帮助他们实践、应用数据建模手段,提升对业务的引导和驾驭能力。 本书的目标读者是高级数据分析师、咨询顾问、企业内部的业务专家、高校学者和研究生,以及立志于夯实数据建
5、模基本功,并希望不断提升的数据挖掘与数据建模人员。 内容提要 知者过之,愚者不及也;贤者过之,不肖者不及也。 中庸 在学校和生活中,工作的最重要的动力是工作中的乐趣,是工作获得结果时的乐趣以及对这个结果的社会价值的认识。 阿尔伯特爱因斯坦 本书是一本介绍金融企业数据建模的专著。在内容上,书中以信贷(信用卡)客户的生命周期管理为主线,选取了5个在客户获取、提升、成熟和衰退环节的最经典的金融企业案例,来详细介绍最具价 值与实用性的数据建模过程,每个案例既自成体系又前后呼应。 第1章介绍了数据挖掘和建模在信贷(信用卡)客户生命周期管理中的应用场景。 第2章结合信用卡客户反欺诈案例,介绍了常用的三类反
6、欺诈手段以及欺诈评分模型的构建过程,模型采用机器学习集成算法的典范随机森林,并给出SAS代码(各类书中绝无仅有),对回归类、 决策树类、神经网络类三大类机器学习算法做了比对。 第3章结合信用卡客户精准营销案例,介绍了营销响应模型的构建、评估与应用,完整阐述从数据准备、清洗、变量粗筛选、变量压缩与转换、建模、模型评估、部署、监测与更新等模型构建过程中所 涉及的操作方法。 第4章通过信用卡客户细分案例,介绍了完整的聚类过程,除快速、系统、两步聚类算法外,还详细介绍了实际分析过程中必不可少的数据预处理过程,并对聚类模型做了最完整的阐释。 第5章通过贷款违约预测案例,为零建模基础的读者提供了一个最简化
7、的行为评分模型的构建过程,帮助零基础读者快速上手,同时简单介绍了金融企业的三大风险模型(评分卡)。 第6章结合信用卡客户流失预警与挽留案例,介绍客户价值(数值)预测与流失倾向(事件)预测两类问题的建模过程及组合应用,不拘泥于方法本身,彰显了以企业实际运用为导向的写作思路,让案 例更具实用参考价值。 了解完五个案例之后,你会发现这些方法和模型在大部分业务场景中似曾相识,金融企业的数据挖掘与建模将变得易如反掌。 全书由陈春宝统稿,其中,第1、2、5、6章由陈春宝撰写,第3章由徐筱刚撰写,第4章由田建中撰写。 源代码下载 若你对书中源代码感兴趣,可与作者联系,邮箱:64346837。 1.1 客户数
8、据挖掘的价值 金融业属于数据密集型行业,数据在大量的业务场景中广泛应用并创造着价值。如图1-1所示,以美国经济为例,其金融和保险业的大数据获取能力和价值潜力均领先于其他各个行业。 在产品同质化的市场环境下,企业之间的竞争已经由产品品质的竞争转为顾客满意度的竞争,企业能够长远发展和领先市场的核心是针对不同人群的不同需求提供真正差异化的产品、服务以及营销策 略,因此,对客户数据深层次的挖掘至关重要。客户数据就像一座金矿,不断发掘和提炼,方能超越表层价值。在数据爆炸的年代,人们经常置身于海量信息和产品之中,却不知道自己想要什么。通过对 客户数据的深层次挖掘,可以洞察客户的真实需求,获得超乎表面数据所
9、能提供的价值,主要包括: 图1-1 美国各行业大数据发展对比 资料来源:麦肯锡全球研究院。 (1)更完整的客户描述 与“以客户为中心”的管理模式相对应,企业正从传统面向群体的营销方式转向个性化营销方式,主动迎合客户需求,而前提就是要区分出不同的人群。在对客户更深刻了解的基础上,进行深层次的 分析,可以绘制出更完整、更明确的客户画像,营销与服务人员也能够更形象地了解每一类人群。 (2)更深层次的客户需求洞察 挖掘客户的行为习惯和喜好,在凌乱纷繁的数据背后找出更符合客户需求的产品和服务,并对产品和服务进行针对性的调整和优化。同时,能够围绕客户需求对客户进行细分,真正做到个性化,而非 简单地划分群体
10、。 (3)更精细化的经营方式 这里的经营包括营销以及为客户提供产品与服务的过程。深层次挖掘客户数据能够帮助企业优化经营方案,在科学的客群细分基础上提供有针对性的服务与营销,从中获得更大的价值。比如:在一定 周期内向客户发送他们最可能感兴趣的产品和优惠活动;基于历史交易记录,针对性地给他们推荐商户和餐馆优惠活动,并根据客户的回应不断优化推荐质量。 无论是360客户视图、客户标签体系,还是客户画像,都体现着数据对更好地理解客户需求、提升客户体验所发挥的有效价值。 1.3 最具代表性的数据应用场景 综合5个阶段的核心业务问题,反欺诈、信用评分、精准营销、交叉销售、客群细分、风险评分(包括申请、行为和
11、催收)、客户挽留管理(多模型综合应用)是最典型的数据挖掘与模型的应用场景。 鉴于信用评分与风险评分方法接近,营销响应模型可应用于交叉销售与精准营销,因此本书本着尽量简约的原则,挑选反欺诈、精准营销、客群细分、违约预测和挽留管理5个场景,介绍相关的数据挖掘与 模型构建过程。 第2章 客户获取:信用卡客户欺诈评分案例 诚者天之道也,思诚者人之道也。至诚而不动者,未之有也;不诚,未有能动者也。 孟子离娄上 失足,你可以马上复站立,失信,你也许永难挽回。 富兰克林 银行业有一句很著名的话“银行经营的是风险”,可见风控能力对银行的重要性。同样,风控能力被公认为互联网金融公司成败的关键,其中信用风险和欺诈
12、风险首当其冲。为了把住信用关、防止欺 诈带来的损失,大数据发挥了越来越大的作用,直接的应用如黑名单查询、欺诈信息库、高危账户等服务快速扩展。然而,面对越来越多的各类“坏”名单库,究竟这些信息对于反欺诈和风控有多大作 用?对于一个申请件或交易,各类信息都查询一遍还是只需要查询其中一类?评分模型能够给出更多答案。实际上,最耳熟能详的互联网金融模式,如征信、评级、消费金融、网络信贷等,无不以建立在 大数据之上的各类评分模型为核心,其中尤以信用评分和欺诈评分模型最为“刚需”。本案例将结合信用卡欺诈识别的实际场景,介绍基于机器学习算法的大数据评分模型。 2.1 案例背景 随着人们消费观念的转变,透支和信
13、用消费越来越被大众接受,第三方支付和信用卡业务迅速增长。欺诈、造假就如同信用的伴生品,发生率也在逐年增加,每年仅因信用卡欺诈损失金额就高达数 亿,其中70%以上为伪卡、非面对面欺诈等交易类欺诈。可以说,欺诈风险防范成为信用卡以及第三方支付、消费金融等互联网金融产业共同面临的难题。 道高一尺,魔高一丈,行业不同欺诈形式也不同,而欺诈手段更是不断推陈出新,目前并没有一种通用的反欺诈技术,能够识别并防范所有的欺诈。总体而言,常用的反欺诈技术可归结为三类: 1.欺诈规则集 通过建立规则引擎或者简单的分类模型,对比欺诈行为和正常行为,归纳欺诈行为所具有的个性化特征,以规则的形式保存在欺诈规则集中。通常一
14、个规则集有几百或上千条规则,可以看作从大量欺 诈案例中提炼出来的“专家知识”,但规则集的建立是个不断积累的过程。 2.评分模型 采用机器学习算法建立复杂的分类模型,基于对大量历史数据的训练、学习,识别欺诈行为所特有的模式,对个体(申请人或交易)进行评分,综合计算欺诈概率。逻辑回归、神经网络、随机森林等 是目前较为常用的算法,这些算法各有优缺点,可根据数据和业务场景进行选择。无论应用什么算法,评分模型在本质上都可看成二分类问题,根据已知“欺诈”和“正常”标签,挖掘出欺诈样例的典型 特征和行为模式,注意,拥有足够多的历史数据是前提。 3.社会关系网络 适用于团伙作案的情形,构建个体关系,识别并防范
15、欺诈团伙。与评分模型相比,这种无监督分析方式特别适用于掌握大量客户信息但又没有“欺诈”与“正常”标签的场景,例如大数据公司。 C银行信用卡中心在对欺诈风险和反欺诈技术做了充分研究之后,融合内外部数据,建立以评分模型为支撑的欺诈识别和防范系统,以满足精细化管理的需要。评分模型分为针对每个客户的欺诈评分 和针对每一次交易的欺诈评分,本章着重介绍客户欺诈评分模型的构建过程。 2.2 数据准备与预处理 2.2.1 数据源 营销类评分模型追求高的响应率和预测的准确性,风险和欺诈类模型则追求高的覆盖度,最好能将欺诈客户一网打尽,哪怕误报率会高一些(准确性要求可适当降低)。更多的数据源意味着更可能全 面覆盖
16、欺诈案例,发现各种形态的欺诈行为和特征,因此训练欺诈评分模型的数据量和变量数都会更多,除了信用卡公司自有数据外,各种外部数据都会被引进、尝试并通过模型评估。 下面以近一年的信用卡交易信息为主体,辅以三个月内网络行为以及法院、电信、人行征信等方面的外部数据,以便尽可能全面地了解客户,为欺诈者画出负面画像,从而预防欺诈行为的发生。具体 如图2-1所示。 图2-1 欺诈评分模型的数据源 从已掌握的近一年的历史数据中,选取有欺诈行为的客户作为坏样本,与正常客户做对比。相对纯粹的数据公司,掌握“坏”样本也是信用卡公司和互联网金融公司的优势,即可以通过有监督的机器 学习,评估各类数据对于反欺诈的实际价值,
17、而不仅仅是建立各类查询信息库。 2.2.2 变量设计 首先是目标变量Y。如果客户在欺诈之列则打上标签“1”,否则打上标签“0”,Y为二分类变量。依据历史数据,客户要么有过欺诈行为,要么没有,非0即1,而未来,客户是否会欺诈并不能绝对确 定,而是用概率表示发生欺诈行为的可能性。计算出这个概率(即Y=“1”的概率)就是评分模型的目的。 评分依据是能够体现欺诈行为、与Y有一定关系的一组客户信息,即自变量X。引入营销学中的RFM模型(R为最近一次消费间隔时间;F为某段时间内消费次数;M为某段时间内消费金额),将各类行 为视作消费来处理。可以按照客户与时间跨度加工成若干个自变量X,例如客户信用卡持卡时长
18、、一年内信用卡逾期次数、最近一次查询人行征信距当前间隔天数、客户一年内月均消费金额、最后还款日前 三天内还款次数占全部还款次数的比例、客户一年内浏览儿童用品网站次数等,全部变量约1000个。表2-1所示是部分预测变量的样例。 表2-1 预测变量X(部分样例) 按照客户号准备这些数据,每人一条,最终形成如表2-2所示的建模宽表。与营销响应率模型相比,欺诈行为属于稀疏事件,很难做到像营销模型那样按时间窗预测,一般不区分X和Y的先后顺序,而 是从大量历史数据中归纳欺诈行为的一般特征和规则。 表2-2 欺诈评分模型数据宽表(Train) 2.3 构建评分模型 2.3.1 算法选择 目前二分类模型常用的
19、算法包括Logistic回归、神经网络和决策树类算法,三个算法的优缺点对比如表2-3所示。 表2-3 三种常用分类算法的优缺点对比 鉴于欺诈行为稀疏,属于小概率事件,需要对细部数据结构进行深入挖掘才能发掘欺诈特征,需要“专家”知识,因此决策树类算法较为适合。考虑到决策树的缺点,单纯应用决策树效果肯定粗糙, 而由大量决策树组成的随机森林,则兼顾了决策树探查局部规律和Logistic回归把握全局的能力,非常适合欺诈评分场景。森林即很多棵树,随机则是指这些树彼此独立没有关联,随机森林算法就是每次在 数据集中对观测样本和变量分别做随机抽样,构建出若干棵决策树,最终组合使用每棵树形成的规则和评分。对于评
20、分或预测来说,每棵树可以看作一个特定领域(少数几个显著变量)的“专家”,针对 每个客户的评分是所有“专家”综合打分的结果。随机森林无须像决策树那样剪枝,少数“专家”的打分误差并不能左右全局,因此相比单个决策树来说,随机森林模型更加准确、可靠。 由于随机森林兼具计算简单、建模速度快、结果容易解释、能够深入数据局部、预测能力强等优点,综合性能优于套袋算法、支持向量机、朴素贝叶斯、神经网络和决策树等分类算法,目前被广泛应 用于信用评分和反欺诈等数据量大、响应率低的场景。本案例选取随机森林作为评分模型的算法。 2.3 构建评分模型 2.3.1 算法选择 目前二分类模型常用的算法包括Logistic回归
21、、神经网络和决策树类算法,三个算法的优缺点对比如表2-3所示。 表2-3 三种常用分类算法的优缺点对比 鉴于欺诈行为稀疏,属于小概率事件,需要对细部数据结构进行深入挖掘才能发掘欺诈特征,需要“专家”知识,因此决策树类算法较为适合。考虑到决策树的缺点,单纯应用决策树效果肯定粗糙, 而由大量决策树组成的随机森林,则兼顾了决策树探查局部规律和Logistic回归把握全局的能力,非常适合欺诈评分场景。森林即很多棵树,随机则是指这些树彼此独立没有关联,随机森林算法就是每次在 数据集中对观测样本和变量分别做随机抽样,构建出若干棵决策树,最终组合使用每棵树形成的规则和评分。对于评分或预测来说,每棵树可以看作
22、一个特定领域(少数几个显著变量)的“专家”,针对 每个客户的评分是所有“专家”综合打分的结果。随机森林无须像决策树那样剪枝,少数“专家”的打分误差并不能左右全局,因此相比单个决策树来说,随机森林模型更加准确、可靠。 由于随机森林兼具计算简单、建模速度快、结果容易解释、能够深入数据局部、预测能力强等优点,综合性能优于套袋算法、支持向量机、朴素贝叶斯、神经网络和决策树等分类算法,目前被广泛应 用于信用评分和反欺诈等数据量大、响应率低的场景。本案例选取随机森林作为评分模型的算法。 2.3.2 模型训练 当准备好建模宽表后,就可以训练模型了。为了更客观地评估模型效果,通常将数据划分为两部分:一部分用来
23、训练模型,另一部分用来评估模型效果。 1)将建模数据随机划分为两组,用变量Group区分,一组作为训练集(Group=t),另一组作为验证集(Group=v),前者训练模型,后者的目标变量置为缺失,使其不参与模型训练,只是应用 评分规则打分,用于验证效果。在模型训练过程中,通过将验证集的目标变量置为缺失值,可以同时实现模型训练和评分,一举两得。如果数据量小,可以用这种方法。 2)先用一组数据训练模型,输出打分代码,针对另一组数据打分,评估模型效果。如果数据量大,建议用这种办法,本案例及对应的代码采用该方法。 多说一句,当欺诈客户占比非常低,欺诈样本可能不足以覆盖特征空间和各类欺诈场景时,为避免
24、模型过拟合,可以对训练集采取欠采样方法,从正常客户中随机抽样,使欺诈客户占比在5%左右,验 证集则无须调整,关于欠采样此处不再详述。下面是随机森林算法核心部分的SAS代码,各部分功能详见注释。 代码清单2-1 模型训练代码 *指定模型训练后打分代码存放的目录; %let pth=C:Users; *以下为模型训练; %macro rftrain(indat,p,outdat); proc contents noprint data= run; data train_data_name; set train_data_name; where type=1 and upcase(compress(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS 金融 数据 挖掘 建模 系统 方法 案例 解析 html
限制150内