代价敏感决策树DOC.docx
《代价敏感决策树DOC.docx》由会员分享,可在线阅读,更多相关《代价敏感决策树DOC.docx(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、用于欺诈检测的一种代价敏感决策树方法Yusuf Sahin a, Serol Bulkan b, Ekrem Duman ca Department of Electrical & Electronics Engineering, Marmara University, Kadikoy, 34722 Istanbul, Turkey b Department of Industrial Engineering, Marmara University, Kadikoy, 34722 Istanbul, Turkey c Department of Industrial Engineering,
2、Ozyegin, Cekmekoy, 34794 Istanbul, Turkey关键词:代价敏感建模 信用卡欺诈检测 决策树 分类 可变误分类代价摘要:随着信息技术的发展,欺诈行为遍布世界各地,这导致了巨大的经济损失。虽然诸如CHIP&PIN等欺诈预防机制已经被开发应用于信用卡系统,但这些机制并不能阻止一些最常见的欺诈类型,比如在虚拟POS机上的信用卡欺诈使用,或者是所谓的在线信用卡欺诈邮购。所以,欺诈检测成为了一种必不可少的工具,并且可能是阻止此类欺诈类型的最佳方法。在此次研究中,提出了一种全新的代价敏感决策树方法,它将在每个非叶节点选择分裂属性时最小化误分类代价之和,其在现实世界信用卡数
3、据集上的性能可以与那些众所周知的传统分类模型相比较。在这种分类方法中,误分类代价将取不同的值。结果表明,在给定的问题集上使用已知的性能指标,比如准确度和真阳性率,此代价敏感决策树算法胜过现有公知的方法,而且针对特定的信用卡欺诈检测领域,还新定义了一种代价敏感指标。因此,通过在欺诈检测系统中实施该方法,可以更好的减少由于欺诈交易造成的金融损失。1. 引言欺诈可以被定义为为了取得财务或个人利益的非法或刑事欺骗。两种避免由于诈骗活动导致欺诈和损失的机制是欺诈预防以及欺诈检测系统。欺诈预防是以防止欺诈行为发生为目标的主动机制。欺诈检测系统在诈骗者越过欺诈预防系统并且开始一个欺诈交易时发挥作用。有关欺诈
4、领域以及检测技术的综述可以在Bolton and Hand (2002), Kou, Lu, Sirwongwattana, and Huang (2004), Phua, Lee, Smith, and Gayler (2005), Sahin and Duman (2010)的研究中找到。其中最知名的欺诈领域是信用卡系统。可以通过许多方法进行信用卡欺诈,如简单盗窃,申请欺诈,伪造卡片,从未达卡问题(NRI)以及在线诈骗(在持卡人不存在的情况下)。在网络诈骗中,交易是通过远程完成的,并且只需要信用卡信息。由于网络的国际可用性和易用性,用户可以在互联网交易中隐藏自身位置以及身份,所以通过该媒介
5、发生的欺诈行为正在快速增长。信用卡欺诈检测有很多以前已经完成的研究。关于信用卡系统以及欺诈领域非技术性知识的一般背景可以分别从Hanagandi, Dhar, and Buescher (1996) and Hand and Blunt (2001)学习。在这个领域中,最常用的欺诈检测方法有规则归纳技术,决策树,人工神经网络(ANN),支持向量机(SVM),逻辑回归以及诸如遗传算法的启发式算法。这些技术可以单独使用,也可以通过集成以及元学习技术协同使用来构建分类器。大多数信用卡欺诈检测系统在使用监督算法,比如神经网络(Brause, Langsdorf, & Hepp, 1999; Dorro
6、nsoro, Ginel, Sanchez, & Cruz, 1997; Juszczak, Adams, Hand, Whitrow, & Weston, 2008; Quah & Sriganesh, 2008; Schindeler, 2006; Shen, Tong, & Deng, 2007; Stolfo, Fan, Lee, Prodromidis, & Chan, 1997; Stolfo, Fan, Lee, Prodromidis, & Chan, 1999; Syeda, Zhang, & Pan, 2002; Prodromidis, Chan, & Stolfo, 2
7、000),ID3、C4.5和C&RT一类的决策树技术(Chen, Chiu, Huang, & Chen, 2004; Chen, Luo, Liang, & Lee, 2005;Mena, 2003; Wheeler & Aitken, 2000)以及支持向量机(Gartner Reports, 2010; Leonard, 1993)。信用卡欺诈检测是一个非常困难,但也很受欢迎的亟待解决的问题。总是仅有有限数量有关犯罪交易的数据。同时,也有可能存在诈骗者进行符合正常(合法)行为模式(Aleskerov, Freisleben, & Rao, 1997)的交易通过的情况。此外,该问题还有很多
8、限制。首先,正常和诈骗行为的表现不断地改变。其次,新欺诈检测方法的发展变得更加困难是由在欺诈检测中交换思想的事实造成的,尤其是信用卡欺诈检测因为安全和隐私问题被严格限制。第三,数据集不一定是可用的,其结果往往是截尾的,这使得它们难以评估。甚至,一些研究使用合成产生的数据进行(Brause等, 1999; Dorronsoro等, 1997)。第四,信用卡欺诈数据集是高度倾斜集。最后,该数据集正在不断发展,使得正常和诈骗行为的表现总是在变化(Bolton & Hand, 2002; Kou等, 2004; Phua et al., 2005; Sahin & Duman, 2010)。因此,信用
9、卡欺诈检测仍然是一个流行的,具有挑战性以及困难的研究课题。Visa关于欧洲国家的信用卡欺诈报告指出在2008年,大约50%的信用卡欺诈损失是由于在线欺诈(Ghosh & Reilly, 1994)。许多文献报道了大量不同国家的损失(Bolton & Hand, 2002; Dahl, 2006; Schindeler, 2006)。因此,新方法提高了在这一领域的分类器性能兼有经济意义与研究贡献。基于这个领域的特性,定义一个新的代价敏感方法是改善的最佳途径之一。虽然传统的机器学习技术在许多分类问题上一般是成功的,但是具有高准确度或最小化误分类误差并不总是开发分类器的目标。在现实世界的机器学习问题
10、领域的应用中,有各种类型的代价参与,Turney定义了其中的九种主要类型(Turney, 2000)。然而,大多数机器学习文献并不采取任何这些代价的考虑,仅仅剩下的一小部分考虑了误分类代价。Turney还指出误分类误差的代价在分类中具有独特的地位(Turney, 2000)。而根据ML-netll项目(European Network of Excellence in Machine Learning)的技术路线图,代价敏感学习据称是在机器学习研究的未来中一个非常流行的课题(Saitta, 2000; Zhou & Liu, 2006)。因此,通过构建代价敏感分类器来改善分类器在欺诈检测系统中
11、的性能是一个使大量经济损失恢复的最好办法。此外,客户的忠诚度和信任度也将有所增加。并且代价敏感分类器已经被证明能够有效处理类不平衡问题(Thai-Nghe, Gantner, & Schmidt-Thieme, 2010; Zhou & Liu, 2006)。大量过去的研究是在恒定的误分类代价矩阵或者由一些恒定的合成误分类代价组成的代价矩阵上进行的;然而,每个假阴性(FN)具有它固有的独特的误分类代价。因此,每个假阴性(FN)应当以某种方式排列来显示误分类代价的差异。例如,具有较大交易量的或者更大可用额度的欺诈交易应该比具有较小数量或可用额度的更需要被检测。恒定代价矩阵或者不变代价矩阵的组合不
12、能描述这个场景。所以,本研究是在可变误分类代价的分类问题工作中,将这样的情况纳入考虑的开拓者之一。这项研究的目的是填补信用欺诈检测文献的一项空白。在此研究中,开发了一个新的代价敏感决策树归纳算法,它将在树的每个非叶节点选择分裂属性时最小化误分类代价之和,并且分类性能可以与那些无论是代价不敏感还是代价敏感的具有固定误分类代价率的传统分类方法相比较,比如传统决策树算法,人工神经网络和支持向量机。结果表明,就诈骗交易的辨别和防止可能的损失量而言,这个代价敏感决策树算法在我们现实世界数据集上的表现优于现有公知的方法。在信用卡欺诈检测中,误分类代价以及欺诈的优先序基于个人记录来区别不同。其结果是,常见的
13、性能指标,如准确率,真阳性率(TPR)或者甚至曲线下面积(AUC)并不适合评估模型的性能,因为它们接受每个欺诈是具有相同优先级,不管欺诈交易量或者当时交易中用卡的可用信用额度是多少。应该使用一个使用有意义的方式按序排列欺诈交易以及检查模型在最小化总经济损失时性能的全新性能指标。一旦诈骗者得到使用信用卡进行诈骗交易的机会,他们通常消耗完一张信用卡的可用信用额度。因此,一个欺诈交易的经济损失可以假定为交易前卡的可用信用额度,而不是交易的数量。这样,模型在测试集上的性能比较可以使用新定义的代价敏感性能指标挽回损失率(SLR),也就是从欺诈交易中信用卡可用额度之和的潜在经济损失中挽回的百分比。为了显示
14、我们观点的正确性,在模型性能的比较中,代表模型性能的真阳性率(TPR)的值也会给出。本文的其余部分安排如下:第二章节给出机器学习中代价敏感方法的回顾;第三章节给出对于信用卡数据的结构的一些见解;第四章节给出新开发的代价敏感决策树算法的细节;第五章节给出结果以及对结果的简短讨论;第六章节总结本研究。2. 机器学习中的代价敏感方法有不同方法用于构建将代价敏感性考虑在内的分类模型。第一个通过改变过采样或欠采样的训练数据分布来建立代价敏感分类模型,使得该集合中数据的代价可以表现出例子的形态。一些研究试图通过分层来克服误分类代价问题;以及当数据集不平衡时复制或丢弃样本(Japkowicz, 2000;
15、Kubat & Matwin, 1997)。然而,这些研究人员假设代价矩阵的内容是固定的数字,而不是依赖记录的值。研究人员如Domingos试图建立像MetaCost的机制去将代价不敏感分类器转换为代价敏感分类器(Domingos, 1999; Elkan, 2001)。根据一些研究报告,过采样对于不平衡数据集的学习是有效的(Japkowicz & Stephen, 2002; Japkowicz et al., 2000; Maloof, 2003)。但是,过采样增加了训练的时间,并且因为它创建了不少较小类样本的拷贝,所以可能会导致过拟合问题(Chawla, Bowyer, & Kegelm
16、eyer, 2002; Drummond & Holte, 2003)。不同于过采样,欠采样试图减少较多类的样本数量,以便于实现训练集数据关于类分布的平衡。一些研究表明欠采样善于处理不平衡数据问题(Drummond & Holte, 2003; Japkowicz & Stephen, 2002; Japkowicz et al., 2000; Maloof, 2003)。第二种方法是当建立分类模型时将代价敏感性考虑在内,调整廉价类的阈值使得昂贵类样本的误分类更加困难以此最小化误分类代价(Langford & Beygelzimer, 2005; Maloof, 2003; Sheng & L
17、ing, 2006; Zhou & Liu, 2006)。过采样,欠采样和调整阈值不会更改算法,因此可以被用于几乎所有的算法(Ma, Song, Hung, Su, & Huang, 2012)。然而,前两者会改变模型算法的输入,而后者会改变由该算法构建的模型的输出(Zhou & Liu, 2006)。就如调整阈值,在学习算法中对昂贵类增加学习速率,如果这样,可以使模型更多地学习高代价的样本,而不是低代价的(Kukar & Kononenko, 1998; Wan, Wang, & Ting, 1999)。最后一种考虑代价敏感性的方法是修改代价不敏感学习算法或定义一个新的代价敏感算法。如果该算
18、法是一个基于决策树的,这可以通过要么使用代价敏感方式分裂或用代价敏感方法剪枝或提供额外的代价调整函数来完成。虽然许多研究人员使用不同的启发式方法来建立代价敏感决策树(Breiman, Friedman, Olshen, & Stone, 1984; Brodley, 1995; Draper, Brodley, & Utgoff, 1994),有些人使用不同的技术来剪枝使用误分类代价按传统方法建立的决策树(Bradford, Kunz, Kohavi, Brunk, & Brodley, 1998;Knoll, Nakhaeizadeh, & Tausend, 1994)。3. 信用卡数据的结
19、构在这项研究中使用的信用卡数据是从一个银行的信用卡数据仓库中使用所需的权限获取的。信用卡数据仓库中的以往数据被用来形成表示客户卡使用情况的数据集市。数据集市中的数据被用于形成在建模阶段使用的训练集和测试训练模型阶段使用的测试集。原始数据的时间区间共有12个月,用于形成具有大约22万条信用卡交易的训练集。这个数据关于正常和欺诈交易的分布是高度倾斜的。这12个月期间,用于建立我们样本数据包括978条诈骗记录以及大约22万条正常记录,这个比例大概是1:22500。所以,为使模型能够学习这两类样本,我们使用分层抽样去下采样合法记录到一个有意义的数字。我们试着采样到不同的合法/欺诈比值。此外,所有属于过
20、去6个月时间段的数据,包括含有484条欺诈交易的大约11344000条交易记录直接包含在测试集中。测试集中的所有交易都通过分类方法得分。训练和测试集的数据分布在表1中给出。每一张信用卡的交易数量都与其它的不同,但是每条交易记录都是相同的固定长度,并且包含相同的字段。Hand和Blunt给出了一个信用卡数据特点的描述(Hand & Blunt, 2001)。虽然一些客户可能拥有超过一张的信用卡,但是每张卡被视为一个独特的配置文件,因为拥有超过一张卡的客户出于不同的目的,通常在不同的客户配置文件中使用每张卡。每张卡的配置文件中包含了能够透露用卡行为特征的变量。这些变量可以表示针对位置,时间或者交易
21、发生地点类型的信用卡交易模式。欺诈检测系统使用分类模型通过鉴别与给出卡使用的配置文件的显著偏差去检测诈骗活动。这些变量不仅从交易本身,而且还从卡过往的交易历史中派生。我们的内容将提及使用的变量类型,但是出于对隐私,保密性和安全性的担忧,我们是不被允许谈论变量的完整列表。这些变量是五个主要变量类型中的一个:所有的交易统计,地区统计,商户类型统计,基于时间交易额的统计以及基于时间的交易数量统计。一些变量可以表述为交易类型,商户类别码,POS输入模式,PIN输入能力,卡类型,卡域以及卡使用国家。所有交易统计类型中的变量大体上透露了持卡人使用卡的一般信息。区域统计类型的变量给出有关地理区域的持卡人消费
22、习惯。属于商户类型统计的变量显示持卡人在不同商户类别使用卡的情况。基于时间的统计类型变量鉴别出卡关于使用额度或使用频率与时间范围关系的使用信息。当评估信用卡的一个新交易时,通过这些变量可以鉴别出其与卡正常使用信息的偏差,从而给出欺诈使用的信号。所以,对于每一张卡的每一笔交易,这些变量每一个都需要计算,并且包含在测试集中。4. 代价敏感决策树方法对现实世界分类问题进行建模的最大问题之一是数据分布不平衡,而且在信用卡欺诈检测的情况下,识别属于较少类的记录比识别属于较多类的记录更为重要。解决该问题的一个有效方法是代价敏感建模,使得误分类较少类记录的代价比误分类较多类的记录更大。在本文中,给出了开发一
23、个代价敏感决策树算法去识别信用卡欺诈交易的细节。在公知的决策树算法中,分裂条件要不是对代价和类分布不敏感,就是代价固定为恒定比率,如此使得将欺诈交易分类为正常(假阴性,FN)的代价是将正常交易分类为欺诈(假阳性,FP)的N倍。此外,在这些算法中,误分类的代价仅在剪枝过程中纳入考虑,而归纳过程并不考虑。这里有一些以前针对代价敏感树归纳做的研究,其中误分类的代价仅仅依赖于类(Drummond & Holte, 2000a; Drummond & Holte, 2000b; Ling, Sheng, & Yang, 2006; Liu, 2009),或者是个别样本自身(Duman & zelik,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 代价 敏感 决策树 DOC
限制150内