2022年2022年计算机审计中电子数据的清理研究 .pdf

上传人：C****o

文档编号：39890148

上传时间：2022-09-08

格式：PDF

页数：5

大小：469.87KB

( 4.5 )

《2022年2022年计算机审计中电子数据的清理研究 .pdf》由会员分享，可在线阅读，更多相关《2022年2022年计算机审计中电子数据的清理研究 .pdf（5页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、计算机审计中电子数据的清理研究3张进易仁萍陈伟(南京审计学院 210029)【摘要】针对目前计算机审计中电子数据采集的现状,本文分析了数据清理在电子数据采集中的重要性,并在阐述数据清理原理的基础上,研究了解决电子数据采集中常见问题的数据清理方法,以一个实例介绍了数据清理在电子数据采集中的应用。最后,总结了本文的工作,并指出了电子数据采集中数据清理的研究方向。【关键词】计算机审计电子数据采集数据清理相似重复记录不完整数据数据标准化3 本文是国家“863”计划课题“计算机审计数据采集与处理技术”之协作项目“数据处理核心技术研究”及国家自然科学基金项目“基于数据挖掘技术的中观审计风险研究

2、”的阶段性成果。一、引言为了有效履行网络环境下的审计监督,需要对网络环境下计算机审计数据的采集与处理等技术进行科学研究。其中,电子数据采集是一项重要任务。目前,审计数据采集与转换主要具有以下问题(审计署计算机技术中心,2004):(1)审计不可能采集被审计单位的所有数据,需要整理、筛选,可能需要原始的真实的数据,也可能需要加工合成后的数据;(2)在采集数据时,往往来不及对被审计系统做详细的了解与分析,因此并不知道哪些数据重要,哪些数据不重要。通常是确定一个范围后把数据全部采集过来,再想办法加工整理;(3)考虑到数据的全面和丰富,以及数据采集的风险,在采集数据时一般都宁多勿缺;故采集到的审计数

3、据往往会有许多重复,而且数据量巨大;(4)有些数据属性的值不确定,在采集数据时,无法得到该数据属性的值,从而造成数据不完整。由以上可以看出,为了使采集到的电子数据能满足审计分析的需要,数据清理在电子数据采集中具有重要作用。因此,本文在阐述了数据清理原理的基础上,研究解决电子数据采集中常见问题的数据清理方法。二、数据清理原理数据清理也称数据清洗(data cleaning,alsocalled data scrubbing),简单地讲,数据清理就是从数据源中清除错误和不一致,即利用有关技术如数理统计、数据挖掘或预定义的清理规则等,从数据中检测和消除错误数据、不完整数据和重复数据等

4、,从而提高数据的质量。数据清理的原理可总结为如图1所示(Lee.etc,2000),而业务知识与清理规则的制定则在相当程度上取决于审计人员的经验积累与综合判断能力。图1 数据清理原理三、数据清理主要方法数据清理研究的内容很多,根据电子数据采集的实际需要,本文主要研究相似重复记录清理、不完整数据清理以及数据标准化。(一)相似重复记录的清理11 相似重复记录清理的原理为了减少采集到的电子数据中的冗余信息,相似重复记录清理是一项重要任务。相似重复记录是指那些客观上表示现实世界同一实体,但由于在格式、拼写上有些差异而导致数据库系统不能正确识别的记录。相似重复记录清理的原理如图2 所示。12审计研究 2

5、004年6期名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页，共 5 页 -图2相似重复记录清理原理相似重复记录清理的过程可描述如下:首先,把数据源中需要清理的数据调入到系统中来;然后,执行数据清理,记录排序模块从算法库中调用排序算法,执行记录之间的排序。在记录已排序的基础上,记录相似检测模块从算法库中调用相似检测算法,作邻近范围内记录间的相似检测,从而计算出记录间的相似度,并根据预定义的重复识别规则,来判定是否为相似重复记录。为了能检测到更多的重复记录,一次排序不够,要采用多轮排序,多轮比较,每轮排序采用不同的键,然后把检测到的所有相似重复记录聚类到一起,从而完成相似重复记录的检测;

6、最后,对所检测出的每一组相似重复记录根据预定义的合并/清除规则,完成相似重复记录的合并处理。为了防止万一可能的审计证据的遗失,对拟删除的记录还可以另行备份。21 相似重复记录清理的关键步骤由图2可以看出,相似重复记录清理的关键步骤可总结为:记录排序记录相似检测相似重复记录合并/清除,其作用分别说明如下:(1)记录排序。为了能查找到数据源中所有的重复记录,必须比较每一个可能的记录对,如此以来,检测相似重复记录是一个很昂贵的操作。当采集的电子数据的量很大时,这会导致是一个无效和不可行的方案。为了减少记录之间的比较次数,提高检测效率,常用的方法是仅比较相互距离在一定范围的记录,即先对数据表中的记录排

7、序,然后对邻近记录进行比较。(2)记录相似检测。记录相似检测是相似重复记录清理过程中的一个重要步骤,通过记录相似检测,可以判断两条记录是不是相似重复记录。(3)相似重复记录合并/清除。当完成相似重复记录的检测之后,对检测出的重复记录要进行处理。对于一组相似重复记录,一般有两种处理方法:第一种处理方法是把一组相似重复记录中的一条记录看成是正确的,其它记录看成是含有错误信息的重复记录。于是,任务就是删除数据库中的重复记录。在这种情况下,一些常用的处理规则是:人工规则。人工规则是指由人工从一组相似重复记录中选出一条最准确的记录保留,并把其它重复记录从数据库中删除掉,这种方法最简单。随机规则。随机规则

8、是指从一组相似重复记录中随机地选出一条记录保留,并把其它重复记录从数据库中删除掉。最新规则。在很多情况下,最新的记录能更好地代表一组相似重复记录。比如,越接近当前日期的信息准确性可能越高,经常使用账户上的地址要比退休账户上的地址权威一些。基于这种分析,最新规则是指选择每一组相似重复记录中最新的一条记录保留,并把其它重复记录从数据库中删除掉。完整规则。完整规则是指从一组相似重复记录中选择最完整的一条记录保留,并把其它重复记录从数据库中删除掉。实用规则。因为重复率越高的信息可能越准确一些,比如,如果三条记录中两个供应商的电话号码是相同的,那么重复的电话号码可能是正确的。基于这种分析,实用规则是指从

9、一组相似重复记录中选择与其它记录匹配次数最多的一条记录保留,并把其它重复记录从数据库中删除掉。计算机审计人员可以把以上方法定义成规则,存放在规则库中,供用户根据具体的业务要求选择使用。第二种处理方法是把每一条相似重复记录看成是信息源的一部分。于是,目的就是合并一组重复记录,产生一个具有更完整信息的新记录。该方法一般要由人工进行处理。31 相似重复记录检测效率的提高快速完成数据清理是很重要的,因此,必须提高相似重复记录的检测效率,节约有限的人力、时间以22审计研究 2004年6期名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页，共 5 页 -及设备等。从前面的分析可以看出:在相似重复记录

10、检测过程中,记录间的相似检测是一个重要问题,其关键步骤是记录中各字段的相似检测,其效率直接影响整个算法的效率,记录中大多字段采用编辑距离算法(陈伟、丁秋林,2003)来检测,由于编辑距离算法的复杂度为O(mn),当数据量很大时,如不采用一种高效的过滤方法来减少不必要的编辑距离计算,则会导致相似检测时间过长。因此,为了提高相似重复记录的检测效率,可采用长度过滤方法来减少不必要的编辑距离计算。长度过滤方法基于以下定理:定理 1 任给两个字符串x,y,其长度分别为|x|,|y|。如果x和y的编辑距离最大为k,则两个字符串的长度之差最多不能超过k,即|x|-|y|k。我们称定理1 为长度过滤。采用长度

11、过滤方法优化后的记录相似检测算法的伪码描述如下(陈伟、丁秋林、谢强,2004):输入:两条记录R1 和 R2,两字段距离的阈值1,记录距离的阈值 2(该值用于判定两记录是否相似)输出:True/FalseRdist=0;Rdist 为所计算出的两记录的距离n=G etFieldNum(R1);计算记录的字段数,R1 和R2的字段数相同m=n;m 为两记录实际上所比较的字段数For i=1 to nIf R1.Field i =NULLOR R2.Field i =NULLThenm=m-1;Continue;只有当两条记录在第i 个字段上对应的值都不为空时,才进行字段比较End If;3 3

12、3 以下采用长度过滤方法3 3 3sint=length(R1.Fieldi);求字段 R1.Fieldi 的长度tint=length(R2.Fieldi);求字段 R2.Fieldi 的长度If abs(sint2tint)1 ThenReturn False;如果两字段长度之差大于1,则不用计算编辑距离就可判断两记录不相似ElseDist=d(R1.Field i ,R2.Field i);计算对应字段 R1.Fieldi 和 R2.Fieldi 的距离End If;3 3 3 以上采用长度过滤方法3 3 3If Dist 1 ThenReturn False;如果两记录任意字段间距离大

13、于1,则它们不是相似重复记录ElseRdist=Rdist+Dist;否则,记录距离变量Rdist 相应增加DistEnd If;Rdist=Rdist/mIf Rdist 2 ThenReturn True;如果记录间距离小于2,则认为它们是相似重复记录ElseReturn False;否则,不是相似重复记录End If;其中,函数 d(R1.Fieldi ,R2.Fieldi)用来计算两记录中字段R1.Field i 和 R2.Field i 的编辑距离。研究表明:长度过滤方法能有效地减少不必要的编辑距离计算,降低相似检测时间,从而提高相似重复记录的检测效率(陈伟、丁秋林、谢强

14、,2004)。3.2 不完整数据的清理在采集数据时,由于无法得到一些数据属性的值,从而造成数据的不完整。为了满足审计分析,特别是审计模型分析的需要,要对数据源中的不完整数据进行清理,不完整数据清理的原理如图3 所示,下图中关于记录的删除同样必须是非常谨慎的。不完整数据清理的主要步骤说明如下:(1)不完整数据检测。要清理数据源中的不完整数据,首先要做的就是把数据源中的不完整数据检测出来,以便于下一步的处理,不完整数据检测就是完成这一工作。(2)数据可用性检测。数据可用性检测是不完整数据清理过程中的一个重要步骤。如果一条记录属性值丢失的太多,或者剩余的属性值中根本就不包含关键信息,就没有必要花费精

15、力去补全该记录。因此,要解决数据的不完整问题,判断记录的可用性非常重要。判断记录的可用性就是根据每一条记录的不完整程度以及其它因素,来决定这些记录是保32审计研究 2004年6期名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页，共 5 页 -图3 不完整数据清理原理留还是删除。对于记录的可用性检测,一般采用的方法是:先评估一条记录的不完整程度,也就是先计算一条记录中丢失属性值的百分比,再考虑其它因素,如记录剩余的属性值中关键信息是否存在,然后决定记录的取舍。由于当一条记录某属性取值为缺省值时,意味着该属性值已丢失,所以,我们把属性值为缺省值的也作为丢失值来处理。评估一条记录不完整程度的

16、方法如下:假设一条记录可表示成:R=a1,a2,ana1,a2,an表示记录R的n个属性,Ri(aj)表示记录Ri第j个属性aj的值,aj(default)表示记录第j个属性aj的缺省值,m表示记录R中属性值丢失的数目(包括属性值取缺省值的字段),AM R表示记录R中属性值丢失的比率,为记录R中属性值丢失比率的阈值,如果:AM R=mn,也应该保留记录。(3)不完整数据处理。不完整数据处理是指在完成数据可用性检测之后,对那些要保留的不完整数据记录,要采取一定的方法来处理该记录中丢失的属性值,一般采取以下几种处理方法(Bastista&Monard,2003):人工处理法。对一些重要数据,或当不

17、完整数据的数据量不大时应该采用这种方法;常量替代法。常量替代法就是对所有缺失的属性值用同一个常量来填充,比如用“Unknown”或“Miss Value”,这种方法最简单,但由于所有的缺失值都被当成同一个值,容易导致错误的分析结果;平均值替代法。平均值替代法就是使用一个属性的平均值来填充该属性的所有缺失的值;最常见值替代法。最常见值替代法就是使用一个属性中出现最多的那个值来填充该属性的所有缺失值;估算值替代法。估算值替代法是最复杂,也是最科学的一种处理方法,采用这种方法处理缺失属性值的过程为:首先采用相关算法,如回归、判定树归纳等算法预测该属性缺失值的可能值,然后用预测值填充缺失值。以上给出了

18、常用的几种处理记录中丢失属性值的方法,至于在执行不完整数据的清理过程中采用什么样的处理方法,要根据具体的数据源来确定。3.3 数据标准化在电子数据采集中,由于采集到的数据在格式上可能存在差异,所以,通过数据标准化可以将特定类型的数据转化成统一的格式表示,从而为审计分析提供方便。对于数据标准化,一般可分成两种情况来处理:第一种,对于日期这类数据的标准化,一般采用系统内部的函数来转化;第二种,对于“域值转换”之类的数据标准化,一般通过定义IF-THEN 规则来完成。比如:IFRi(Gender)=F THENRi(Gender)=0ELSERi(Gender)=1END IF其中,Ri(Gende

19、r)表示记录Ri中字段Gender42审计研究 2004年6期名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页，共 5 页 -(性别)的数值。通过以上规则,就把采集到的数据中关于性别的不同表示“F/M”,或者“0/1”转换成统一的表示“0/1”。4 实例根据第 3 节对数据清理方法的研究,我们采用Jbuilder10 实现了这些清理方法,实现后的相似重复记录清理和不完整数据清理子系统的界面分别如图4 和图 5 所示。图4相似重复记录清理界面图5 不完整数据清理界面以采集到的某ERP(Enterprise Resource Plan2ning,企业资源计划)系统中“客户信息”表里的数据

20、为例,来说明相似重复记录和不完整数据的清理,其关键步骤分别简要说明如下:(1)相似重复记录的清理。首先,确定各参数的取值,经过对“客户信息”数据表的分析,各参数的取值分别为:取 1=2,2=2。然后,在图 4 所示的相似重复记录清理界面中运行相似重复记录检测的各过程。最后,对于从“客户信息”数据表中检测出的相似重复记录,采取“完整规则”来清除,即从一组相似重复记录中选择最完整的记录,其它记录删除。通过以上过程,有效地完成了相似重复记录的清理工作。(2)不完整数据的清理。首先,确定各参数的取值,并在规则库中进行定义。经过对“客户信息”数据表的分析,记录中字段值缺失比率的阈值取0.5,并把“客户名

21、称”作为关键字段。然后,在图 5 所示的不完整数据清理界面中运行不完整数据检测的各过程。最后,采取一定的方法处理检测出的不完整数据。对于在“客户信息”数据表中检测出的不完整数据,由于数据量小,数据重要,我们采用手工方式来处理。通过以上过程,有效地完成了不完整数据的清理工作。5总结由于审计对象复杂多变,审计思路和方法不断创新,如何有效地将先进的数据清理技术与方法应用于审计实践,使采集到的电子数据满足审计分析的需要,是一个值得研究的问题。本文在分析了数据清理原理的基础上,针对计算机审计中电子数据采集的需要,研究了相似重复记录清理、不完整数据清理以及数据标准化的方法,并以一个实例介绍了数据清理在电

22、子数据采集中的应用,为解决电子数据采集中的数据清理问题提供了理论指导。此外,由于被审计单位数据表现形式的多样性,除了结构化数据外,将来还可能会有半结构化数据XML(Extensible Markup Language,可扩展标识语言)数据,所以,XML 数据的清理问题也将是一个值得研究的问题。主要参考文献:陈伟、丁秋林,2003,“数据清理中编辑距离的应用及Java编程实现”,电脑与信息技术第6期。陈伟、丁秋林、谢强,2004,“交互式数据迁移系统及其相似检测效率优化”,华南理工大学学报(自然科学版)第2期。审计署计算机技术中心,2004,计算机审计数据采集与处理技术的总体设计报告。Bati

23、sta G E AP A,MonardM C.An analysis of fourmissingdata treatmentmethods for supervised learning J.Applied Ar2tificialIntelligence,2003,17(5-6).Lee M L,LingT W,LowW L.IntelliClean:a knowledge-based intelligentdata cleaner A.In:Proceeding of the 6thACMSIGK DD InternationalConference on Knowledge discov2ery and Data Mining C.Boston:ACMPress,2000.52审计研究 2004年6期名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页，共 5 页 -

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

4.3 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 2022年2022年计算机审计中电子数据的清理研究 2022 计算机审计电子数据清理研究

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：2022年2022年计算机审计中电子数据的清理研究 .pdf
链接地址：https://www.taowenge.com/p-39890148.html