银行客户数据分析(1).ppt
《银行客户数据分析(1).ppt》由会员分享,可在线阅读,更多相关《银行客户数据分析(1).ppt(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、银行客户数据分析2007-09-011背景 数据数据客客户户群群服服务务盈利盈利商业银行拥有大量的个人客户交易数据、个人客户服务数据和个人客户基本资料数据。在这些海量数据中,隐藏着大量的有价值的客户信息。运用数据挖掘中的聚类分析技术可以从这些数据集中提取客户的分类知识。聚类分析技术可以将性质、特征近似的数据对象归属在相同的群集中。商业银行可以利用此技术分辨出能有效为之服务的最有价值的客户,为他们提供更为个性化的服务,从而影响相关的客户行为并最终达到提高盈利的目的。2数据集数据集客户数据集包含10,000条客户数据包含有31个特征(属性),分别为:Bank No(银行代码,其值有:004,024
2、,077等)Account num(账户代码)Short Name(客户名字)First Contact Date(第一次接触日期)account open date(账户开户日期)account balance(账户当前余额)account low balance(账户曾经最低余额)account high balance(账户曾经最高余额)balance category(余额类型)Statement Low Balance(最低交易账目,有正有负)3数据集数据集(属性属性)Statement High Balance(最高交易账目)Statement Aggregate Debit Ba
3、lance(聚集透支账目)Statement Aggregate Debit Day(透支账目的天数)Statement Aggregate Credit Balance(聚集存款账目)Statement Aggregate Credit Day(存款账目的开数)Return Check Count(退回支票的次数)Status(客户状态)Audit Granding(授权级别,越高则风险越低)Salary Before Last Month(上一个月之前自动付款的账目)Salary last Month(上一个月自动付款的账目)Salary this Month(这一个月自动付款的账目)Co
4、unt of Credit this Month(这个月存款的次数)4数据集数据集(属性属性)Count of Debit this Month(这个月取款的次数)Count of OD(透支的次数)Amount of Deposit this Month(本月存款的账目)Amount of Withdraw this Month(本月取款的账目)Last Transaction Date(上一次交易的日期)Country Code(客户所属的国家)Birthday(生日)Sex(性别)5数据预处理数据预处理我们选用Weka数据挖掘工具来对客户的账户数据进行分析,因此所有的原始数据都必须转换成
5、能被Weka处理的数据集格式。原始数据集的特征主要有四种类型的,分别是:数值型(numeric)、标称型(nominal)、日期型(date)和字符串型(string)。对于缺失的属性值,因为Weka中的算法能自动处理属性值缺失的情况,所以按Weka数据集的格式要求用“?”表示。6数据预处理数据预处理(规格化)数值型特征:采用如下公式规格化到0,1区间 标称型特征、日期型特征和字符串型特征保持不变 7聚类分析聚类分析目标我们的目的是对客户进行分群,从而使银行可以对不同群体的客户提供不同的服务。因此聚类分析是对客户进行自动分群的有效方法。方法k-means算法 选取的特征从31个原始属性值中选取
6、23个属性用作聚类(都是数值型或标称型的)聚类参数在经过规格化处理后的数据集中,用k-means算法在选定的23个属性上进行聚类,设定聚类数为10.8各聚类大小各聚类所包含的客户数量如下表聚类客户数量聚类1145聚类269聚类3133聚类46183聚类51985聚类6213聚类746聚类8446聚类9413聚类10368表19对聚类大小的分析由表1可知,各聚类有大有小,且大小悬殊,但也合乎客户关系处理的目的。客户关系管理的往往是找出一小部分的特殊客户(占20%左右)来进行特别地对待。在上表所示的10个聚类中,除去最大的聚类4后其余9个聚类的客户数达3818人,占总客户量的38.18%;除去最大
7、的两个聚类(聚类4和聚类5)后其余8个聚类的客户数达1833人,占总客户量的18.33%.大聚类可以再继续细分(作为一个数据集再继续进行聚类操作,或直接提高聚类个数)10对各聚类结果的处理聚类后的各聚类结果的数据是规格化处理后的数据的结果,我们要直观地分析各聚类的特点,必须把规格化的数据还原为原始数据。例如,最小值为-10,000,最大值为1,000,000的当前账户余额规格化为0,1后就难以理解各账户间存在的巨大差距,只有把它还原为原始的-10000,1000000才能使人直观地理解其存在的差距。把各聚类的数据集还原为原始数据后,再计算各特征的均值和标准差(数值型的特征);或者各标称量的数量
8、(标称型的特征)。11聚类结果分析(账户当前余额)下表所示为10个聚类中各聚类的账户当前余额的正负及账户当前余额的均值和标准差 聚类当前余额正负当前余额值+均值标准差聚类1145024445.5073408.73聚类269029164.4178077.97聚类31330152882.48604633.58聚类4618215571.1723957.76聚类51985022102.6164825.42聚类6119948432.8218680.66聚类74602093.915798.48聚类8380667729.6733233.11聚类90413-24728.6861844.23聚类10368036
9、264.2493389.1412聚类结果分析(账户当前余额)最明显的特殊客户群有两个:一个是聚类聚类3 3的客户群,该聚类的当前余额均值达十五万左右,比其他聚类的当前余额均值高出一个数量级。所以可以初步判断该聚类的客户是存款额高或者说是高收入的客高收入的客户群户群。另外,该聚类当前余额的标准差也很大,这说明在富有的客户群中各客户的收入差距也是很大的,有的达百万、千万、甚至上亿.另一个明显的特殊客户群是聚类聚类9 9所示的客户群。该客户群中的413个客户当前账户余额都为负值,且其均值达负两万多元。因此可以认定该客户群是高透支的客户群高透支的客户群。后面还会分析的透支额、透支次数、透支时间等属性的
10、分析同样可以印证我们这个结论.13聚类结果分析(账户当前余额)分析其他的八个聚类聚类聚类4 4是占61.81%的最大的普通客户群普通客户群,该客户群中几乎所有的客户的当前余额都为正值,其均值为五千多,标准差为两万多不会太小,说明该庞大的客户群还是可以再继续细分的。聚类聚类5 5是占19.85%的第二大的客户群,该客户群比最大的客户群聚类4来说它的当前余额均值高很多,达两万多元。因此可以说聚类5是大量普通客户中的中等存款额度的账户大量普通客户中的中等存款额度的账户(不包括低存款额度的账户)。聚类聚类7 7是账户当前余额为正值但存款额度较低的客户群。聚类1,2,6,8,10这五个聚类在当前账户余额
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 银行 客户 数据 分析
限制150内