《2023年7月自考真题银行会计学.docx》由会员分享,可在线阅读,更多相关《2023年7月自考真题银行会计学.docx(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、计算机学院毕业论文1引言1.1 背景异样点(离群点或者孤立点)检测是数据挖掘中一个重要方面,Hawkins川最早给出 了异样点的本质定义:异样点是数据集中别出心裁地数据,以至于使人怀疑这些数据并 非随机偏差,而是产生与完全不同的机制。异样点可能由于度量或执行错误产生,也可 能是由于固有数据可变性的结果。例如,一个公司首席执行官的工资自然远远高于公司 其他雇员的工资,成为一个异样点。很多数据挖掘算法试图削减异样点的对挖掘结果的 影响,或者在挖掘过程中解除异样点。然而异样点可能隐藏着重要的信息,或许比一般 的数据更有价值。因此人们起先渐渐探讨异样点挖掘算法。目前异样点检测已经起先用 于信用卡欺诈、
2、网络入侵检测以及金融申请和交易欺诈等领域,近年来异样点检测已 成为数据挖掘探讨中的一个热点问题。传统数据挖掘主要有以下几类:基于统计的方法,基于距离的方法,基于偏移方法, 基于聚类方法,基于密度方法。本文从特征与异样检测的关系动身进行探讨。BP神经 网络适用于储存和描述这种困难的关系。但是异样检测过程,通常数据的位数较高,在 高维特征存在冗余特征干扰,以及高维特征下数据不充分的问题,因此,本文探讨了 BP神经网络应用于不同状况。1.2 传统已有异样点算法介绍1.2.1 基于统计学的异样点检测算法早期的异样点检测算法大多数是基于统计学实现的,通常可以分为基于分布的检测 算法和基于深度的检测算法两
3、类。前者一般通过先构造一个标准概率分布来拟合数据 集,然后依据概率分布来确定异样点,例如Rosner提出的单样本多个异样检测算法ESD 算法,和Yamnishi等运用混合高斯模型的异样点检测算法。此类算法估计多维分布的概 率模型的难度较大,且精确性低。基于深度方法主要以计算几何为基础,通过计算不同 层的K-D凸包将外层的对象判定为异样点。但当数据集较大,此类方法在维数上的伸缩 性不好。基于统计的异样点检测方法易于理解,实现便利,但此方法检测出来的异样点很可 能被不同的分布模型检测出来,说明异样点意义时常常发生多义性。其次,此方法在很 大程度上依靠于待挖掘的数据集是否满足某种概率分布模型、模型的
4、参数、异样点的数 目等对基于统计的方法都有特别重要的意义,而确定这些参数通常比较困难;另外,此 方法大多适合于挖掘单变量的数值型数据,然而很多数据挖掘问题要求在多维空间中发 觉异样点,目前几乎没有多元的不一样检验,当没有特定的检验时,或视察到的分布不 能恰当地用任何标准的分布建模时,此类方法不能确保全部的异样点被发觉。1.2.2 基于距离的异样点检测算法基于距离的异样点检测算法的基本思想是把数据点看作空间中的点,异样点被定义 为与大多数数据距离较远的点。通常这类异样被描述为O3(,a,dmin)。当且仅当数据 集S中至少有Pc/个数据点与尸点的距离大于dmin时,数据对象尸点称为异样点。这类
5、方法与基于密度的检测算法有很大的相像之处,不须要事先知道数据集的分布模型,对 于随意分布模型均有效。基于距离方法最早是由Knorr和Ng在1998年提出的。他们用DB(p,d)来表示数据 集中的异样点,采纳不同的参数,与,0B(P,d)可以表示全部的异样点。与此定义 相应的算法有三种,它们是基于索引(Index-based)的算法,嵌套循环(Nest-Loop, NL)算 法,基于单元或划分(cell-based)的算法等。基于索引的方法依靠多维索引结构(R-trees,X -trees,KD-tress等)的性能。随着维数的增加,全部的索引结构的性能快速下降,使得算 法性能不佳。NL算法可以
6、避开构建索引结构,削减了算法的次数。以上两方法的 算法时间困难度为0d),当遇到大量数据集时它们还有待改进。基于单元的方法是把 数据集划分为单元,逐个单元的检测,而非逐个对象的检测。它的时间困难度为O(M + N),其中以取决于单元的个数和维数左。Knorr和Ng通过试验证明,当(P)|其中k=N“T%彳=江A,二i其中为学习速率,一般在0, 1内取值。权值修正为:vkj = vkj +丫期w = w + Aw.(3.5)(3.6)(3.7)JJJ4异样检测中BP神经网络的设计4.1可微阈值单元Xo= 1z=o图4.1可微阈值单元如图4. 1可微阈值单元,图中为sigmoid单元,与感知器相像
7、,sigmoid单元先计 算它的线性组合,然后应用一个阈值到此结果。然而,对sigmoid单元,阈值输出是输 入的连续函数。更精确地讲,sigmoid单元这样计算输出。f f(4. 1)o =%)其中:cr(y) =1l + ey(4.2)o常常被称为sigmoid函数或者也可以称为logistic函数。留意它的输出范围为0 到1,随输入单调递增。因为这个函数把特别大的书值域映射到一个小范围的输出。也 叫挤压函数。本算法就是想把全部整数据特征映射到一个小范围来处理推断。4. 2单个BP网络结构设计采纳4.1为神经感知器,隐层感知器依据实际数据库的属性确定,一般少于等于属 性个数,输出层一个输出
8、感知器。输入隐层输出层图4. 2 BP结构输入层为一组数据,全连接到隐层,隐层计算输出受挤压函数处理后的数值,输出 层的输入为隐层输出。最终输出0到1的数值。隐层输出层的神经元,每个的网都初始化为-0.05,其他权值都初始化:(double)(rand () /32767. 0) *2-1);随机数种子为系统时间。训练老师信号,按详细方案处理设定。4. 3BP神经网络学习过程的基本步骤(1)定义误差函数r为期望输出与实际输出之差的平方和:2j(4.3)其中yj是输出单元的期望输出,叫”是实际的输出。(2)调整权值的公式为:(4.4)其中为学习步长,取正参数,匕 代表上一层神经元的输出,而%有两
9、种状况:1)假如j是输出层(第ni层)的神经元,则%=V-V;)(yx)(4.5)2)假如j不在输出层,而是隐含层的神经元,则/(4.6)V;是该神经元的输出,而求本层的力必需用到上一层的力”,可见误差函数的求取 是一个始于输出层的反向传播的递归过程。(3)将学习模式不断输入到输入层,再依据输出层产生的误差不断修正神经元间连 结的权值和神经元的阈值,直到学习模式全部输入或误差达到肯定的值。反向传播算法在网络规模较大时计算量很大,收敛较慢,而且存在局部最小的问题, 依据这一问题,在详细操作时采纳了加入动量项的方法:% Q +1)=就匕J +必吗a)。称为动量因子,这样后一次的权值更新适当考虑上一
10、次的权值更新,可以改善收 敛特性。5试验探讨5.1探讨运用的数据库介绍在尝试各种算法方案地探讨中,运用的数据库名称:The Insurance Company Benchmark (COIL 200。).关于保险的数据,其中包括:TICDATA2000.txt,训练数据,5822 组数据,每组86个属性,第86个为是否异样的标记变量,总地为两类数据; TICEVAL2000,测试数据,4000组,每组为85个特征属性;TICTGTS2000.txt,与 ticeval2000对应组地结果。5. 2训练方案一试验:把bp神经网络相像性代替距离算法相像度量起初思路是采纳两两相像性地训练,然后得出一
11、个整体数据库属性特征的神经网络。 采纳加(XJ匕晰表示x与丫两者相像性差异。在神经网络则表示为两者整体特 征差异大小。假设这样能够胜利,则以后只要推断测试数据与整体已知数据库地整体差 异大小,就可以推断异样与否。神网络结构或许如下:输入层隐层输出层注:每个方向箭头抽象全连接图5. 1方案一图隐层采纳85个可微阈值单元,输出采纳一个,网络全连接。每个单元为86个权重, 初始化权值按4. 2给出的方法。详细方式,对已知数据集做两两训练,比如数据X和Y,做差fabsf(Xi-Yi),然后 输入一个BP神经网络,已知数据库中第86个属性,(X 86,Y86)对应为(0, 0)则老师 信号为1, (1,
12、 1)则老师信号为1, (0,1)则为0,部分依次。试验训练数据库100与4000组数据做两两训练还有4000组与4000组数据训练。经视察验证,测试数据与已知数据地相像性与否没法与测试计算结果数据存在必定 地比例关系。输出结果的全部数据,在0到1区间之间,不管相像不相像都集中分布在 靠近0,没有区分度,不能明显表示相像与否地概念。然后又对测试数据与训练数据库, 进行相像性求和,对比测试数据中异样点与非异样点与训练数据库地相像性和,依旧没 有区分度。经多次尝试,降低训练次数精度,本试验方案依旧失败。经过大量试验,失败缘由:第一,bp处理输出区分度不够,难以有推断方案。其次, 训练方案地问题,数
13、据集合里面,缺乏异样点地训练,bp权值能增长方向把小规模局部 数据地特征给掩盖掉了,难以输出好地数据来区分。第三,数据特征不显著。第四,训 练依次导致。解决方法:第一种变更训练方案,变更推断方案;其次种变更神经网络结构,以便 输出数据区分度更高,便于区分异样非异样。5. 3训练方案二试验:用单个神经网络对训练数据库整体特性进行学习试验设计思路:为避开上述问题,变更训练依次和训练方法,单组数据输入单个bp 神经网络。为尽量得出可区分地数据,强化局部异样点特性。试验方案:对神经网络BP1,先运用非异样点经行训练,老师信号为0。然后再对异 样点进行训练,老师信号为1。(1)对全部非异样点数据,按组分
14、别对BP1进行训练,老师信号都为1, (ticdata2000. txt数据库里面大部分为正常数据)保存BP1权值;(2)加载BP1数据到BP2,针对数据库每个异样点,老师信号统一修改为0. 1至0. 7 之间地任何一个数值,正向(数据库地方向依次)训练一次,再逆向训练一次。训练完 后,保存训练权值。试验视察:测试数据库独个输进BP1计算。整个数据库的全部计算结果,不管异样 点非异样点的计算结果,都在0到1这个区间内呈现正态分布。数据主要叠加在两个老 师信号数值之间,难以区分。试验结果失败。数据难以区分。依据实际数据,越靠近1地越小于其次次训练地老师信号地,都为异样点。比如本 次第一次训练老师
15、信号1,其次次异样点信号0.7,结果异样点主要集中在小于0.7和大 于0.8之间,其中小于0.5和大于0.9异样点占地比率最大。正态分布地两边。其次次训练把非异样数据都集中在两次老师信号中间。数据都呈现正态分布,不好处理,特殊是两个老师信号数值中间区间异样点与非异 样点占自己比例都是很大,难以区分。解决方案,找一种训练方法让异样非异样点往不同方向靠近,并使其不相互影响。5. 4训练方案三试验:多神经网络各种形式训练及其决策5. 4. 1试验设计思路用一个神经网络表示异样点地特征,老师信号1;用另一个异样点表示非异样点地 特征,老师信号0.为了有一个好地区分度。同时测试数据可以通过进行不同神经网
16、络计 算两次,以便得结果进行详细推断结果。算法结构图如图52BP1隐层BP2隐层图5.2训练方案图5. 4. 2试验方案及步骤训练方案,把训练集合,分成两个集合,一个为正常数据集合,一个异样。每 个训练次数少于40次(依据实际增长速度,削减限制次数),以便使数据有肯定地区分 度。训练强度不要太大,以便避开无法发觉局部异样特征地数据。训练打算:训练采纳ticdata2000.txt地前4000组数据,前85个属性为训练输入,第 86个为训练用老师信号。视察测试采纳全部ticeval2000.txt作为输入,tictgts2000.txt为 测试数据实际结果,已知正常数据3762,异样238.,通
17、过这个可以协助分析。流程:(1)第一组数据单个输入BP1训练,保存相应BP1权值,老师信号0.0, ticdata2000 正常数据训练;(2)其次组数据单个输入BP2训练,保存BP2权值,老师信号1.0, ticdata2000异样数据训练;测试方法:通过测试地两个数据库,输到训练后地两个神经网络,同时借助已知数据捕获有用 数据进行分析。视察测试数据库计算分布结果分布状况,并统计分布状况(表5.1.表5.2.表5.3表5.4)O表5.1 BP1正常测试数据地分布输出统计(tictgts2000中为0)(单位:个数)输出范围小于0.2测试数据库正常数据个数3762000000000376237
18、62表5. 2 BP1异样测试数据地分布统计输出(tictgts2000中为1)(单位:个数)输 出 范 围大于0.2测试数据库异样数据个数23800000000002385. 3 BP2正常测试数据地输出统计(tictgts2000中为0)(单位:个数)输出范围大于0.2地数据测试异样点数据数量个数0000004726201238238表5.4 BP2异样测试数据地输出统计(减8t52000中为1)(单位:个数)输出范围小0.2 地数据 数测试数 据库正 常数据 数量个数0001036541635122974037625. 4. 3试验分析40003500300025002000150010
19、0050005678910(单位:纵轴个数,横轴依次表示每隔0.1地区间)注:横轴表示。至区间,比如1表示。到0.1计算结果分布,纵轴表示个数;系列1表示异样点计算结果,系列2表示非异样点计算结果图5.3运用已训练的BP1计算结果分布注:横轴表示0到1区间,比如1表示0到0.1计算结果分布,纵轴表示个数;系列2表示异样点计算结果,系列1表示非异样点计算结果图5.4运用已训练的BP2计算结果分布已知BP1保存的是正常数据地特性,越靠近。越是属于正常数据特性;BP2保存的 是异样数据地特性。表5.1BP1计算,正异样数据地实际输出,集中在0-0.1之中。无大于0.1地任何数 据。刚好全部正常数据都
20、在0.1之下。表5.2BP1计算,异样数据地实际输出集中在0-0,证明异样数据特性被正常数据 所包含。表5.3BP2计算,异样点数据集中在之间,刚好是已知异样点个数。表5.4BP2计算,正常数据集中在L4-L0之间,BP2为异样点特性,证明正常数据 有很大一部分特征与异样数据特征有交集。综合上面各个表和图5.3和图5.4分析:从上表可以推出,对于未知检测数据输入, 呈现无法区分地现象。图5.3图5.4见数据呈现叠加分布,即分布一样,无法区分异样 与异样与否。5. 4. 4试验失败缘由分析可能是数据特征叠加问题,异样与分异样具有很强地交叉特征。单位:横轴属性依次,纵轴属性数值。注:训练数据库中的
21、,每个点代表一个属性值,横轴代表属性依次,纵轴代表属性值.图5. 5组正常数据单位:横轴属性依次,纵轴属性数值。注:训练数据库中的,每个点代表一个属性值,横轴代表属性依次,纵轴代表属性值.图5. 6 一组异样数据如图5.5图5.6为两组库中地数据,大多数属性属于一个范围空间,这种状况在BP属 于相像性很大地状况,很难区分开来。纵轴10以下比较集中,相像特征太多。(2) BP结构过拟化。解决设想,削减隐层个数,生成随机,空间具有两类特征地数据。5. 5BP调参试验对上面三个试验地隐层进行调整,主要分别取5个、15个、25个隐层单元进行训练 测试。5. 5.1对试验一调整隐层试验试验方式主要通过对
22、训练数据库地训练,然后采纳测试数据库进行测试统计,试验 一方案采纳组测试数据与原训练数据库4000组两两计算,然后求和,结果为与元数据 库整体相异地程度。依据数据分布,和原来测试结果进行比照分析。一下摘取部分信息。5、15、25个隐层结点训练后测试结果与已知结果比照表:表5. 5 5个隐层测试结果前11组 (单位:相像度)序号123456789101112异样与否010000000001计算3934134234153973954390734103645341037353549结果分布14 .0534.249.304.5923.073.139.563.469.375.466.547.66表5.
23、6 15个隐层测试结果前11组(单位:相像度)序号123456789101112异样 与否010000000001计算507.444.719.631.700.1210759.776.598.11081171671.结果分布3817866753315632726.217208587471374.007.4949588表5.7 15个隐层测试结果前12组 (单位:相像度)序号123456789101112异样与否010000000001计算425244114254441646034694460643934260427044544596结果分布.073.978.276.709.945.265.797
24、.095.611.246.932.794通过表5.5表5.6表5.7表计算结果分析,没有出现较好区分度,无法做未知数据 异样与否地推断。同时也可看到与上面试验一样结果,证明不是算法问题,而是数据特 征不好区分。5. 5. 2对试验二调整隐层试验试验方式,调整隐层神经单元个数5、15、25分别做一次,每次训练完的权值去计 算测试数据库,然后通过已知结果,统计异样点与非异样在0到1之间的分布状况,看 是否有区分度较高地方案。试验计算结果:表5.8 5个隐层试验结果 单位:个数分区正常点分布62554610588400000异样点分 布01472367100000注:比照表5.8,横轴表示0至IJ1
25、区间,比如1表示。到0.1计算结果分布,纵轴表示个数;系列1表示非异样点计算结果,系列2表示异样点计算结果图5. 7 5个隐层试验结果表5.9 15个隐层试验结果 单位:个数分区正常点计算分布004555762510201086409200异样点分布0022236677041005. 10 25个隐层试验结果 单位:个数分区正常 点分布1146211843259700000异样 点分 布90109298200000(单位:纵轴个数,横轴依次表示每隔0.1地区间) 注:比照表5.9,横轴表示0至IJ1区间,比如1表示0到0.1计算结果分布,纵轴表示个数;系列1表示非异样点计算结果,系列2表示异样点计算结果图5. 8 15个隐层试验结果(单位:纵轴个数,横轴依次表示每隔0.1地区间)注:比照表5.10,横轴表示。至山区间,比如1表示。到0.1计算结果分布,纵轴表示个数;系列1表示非异样点计算结果,系列2表示异样点计算结果图5. 9 25个隐层试验结果通过表5.8、表5.9、表5.10、图5.7、图5.8、图5.9视察分析,数据依旧呈现之前 试验地分布状况,不是BP算法隐层太多地问题。5. 5. 3对试验三调整隐层试验分别把隐层单元改为5
限制150内