2022年2022年计算机审计中电子数据的清理研究 .pdf
《2022年2022年计算机审计中电子数据的清理研究 .pdf》由会员分享,可在线阅读,更多相关《2022年2022年计算机审计中电子数据的清理研究 .pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、计算机审计中电子数据的清理研究3张 进 易仁萍 陈 伟(南京审计学院 210029)【摘要】针对目前计算机审计中电子数据采集的现状,本文分析了数据清理在电子数据采集中的重要性,并在阐述数据清理原理的基础上,研究了解决电子数据采集中常见问题的数据清理方法,以一个实例介绍了数据清理在电子数据采集中的应用。最后,总结了本文的工作,并指出了电子数据采集中数据清理的研究方向。【关键词】计算机审计 电子数据采集 数据清理相似重复记录不完整数据数据标准化3 本文是国家“863”计划课题“计算机审计数据采集与处理技术”之协作项目“数据处理核心技术研究”及国家自然科学基金项目“基于数据挖掘技术的中观审计风险研究
2、”的阶段性成果。一、引 言为了有效履行网络环境下的审计监督,需要对网络环境下计算机审计数据的采集与处理等技术进行科学研究。其中,电子数据采集是一项重要任务。目前,审计数据采集与转换主要具有以下问题(审计署计算机技术中心,2004):(1)审计不可能采集被审计单位的所有数据,需要整理、筛选,可能需要原始的真实的数据,也可能需要加工合成后的数据;(2)在采集数据时,往往来不及对被审计系统做详细的了解与分析,因此并不知道哪些数据重要,哪些数据不重要。通常是确定一个范围后把数据全部采集过来,再想办法加工整理;(3)考虑到数据的全面和丰富,以及数据采集的风险,在采集数据时一般都宁多勿缺;故采集到的审计数
3、据往往会有许多重复,而且数据量巨大;(4)有些数据属性的值不确定,在采集数据时,无法得到该数据属性的值,从而造成数据不完整。由以上可以看出,为了使采集到的电子数据能满足审计分析的需要,数据清理在电子数据采集中具有重要作用。因此,本文在阐述了数据清理原理的基础上,研究解决电子数据采集中常见问题的数据清理方法。二、数据清理原理数据 清 理 也 称 数 据 清 洗(data cleaning,alsocalled data scrubbing),简单地讲,数据清理就是从数据源中清除错误和不一致,即利用有关技术如数理统计、数据挖掘或预定义的清理规则等,从数据中检测和消除错误数据、不完整数据和重复数据等
4、,从而提高数据的质量。数据清理的原理可总结为如图1所示(Lee.etc,2000),而业务知识与清理规则的制定则在相当程度上取决于审计人员的经验积累与综合判断能力。图1 数据清理原理三、数据清理主要方法数据清理研究的内容很多,根据电子数据采集的实际需要,本文主要研究相似重复记录清理、不完整数据清理以及数据标准化。(一)相似重复记录的清理11 相似重复记录清理的原理为了减少采集到的电子数据中的冗余信息,相似重复记录清理是一项重要任务。相似重复记录是指那些客观上表示现实世界同一实体,但由于在格式、拼写上有些差异而导致数据库系统不能正确识别的记录。相似重复记录清理的原理如图2 所示。12审计研究 2
5、004年6期名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 5 页 -图2相似重复记录清理原理相似重复记录清理的过程可描述如下:首先,把数据源中需要清理的数据调入到系统中来;然后,执行数据清理,记录排序模块从算法库中调用排序算法,执行记录之间的排序。在记录已排序的基础上,记录相似检测模块从算法库中调用相似检测算法,作邻近范围内记录间的相似检测,从而计算出记录间的相似度,并根据预定义的重复识别规则,来判定是否为相似重复记录。为了能检测到更多的重复记录,一次排序不够,要采用多轮排序,多轮比较,每轮排序采用不同的键,然后把检测到的所有相似重复记录聚类到一起,从而完成相似重复记录的检测;
6、最后,对所检测出的每一组相似重复记录根据预定义的合并/清除规则,完成相似重复记录的合并处理。为了防止万一可能的审计证据的遗失,对拟删除的记录还可以另行备份。21 相似重复记录清理的关键步骤由图2可以看出,相似重复记录清理的关键步骤可总结为:记录排序记录相似检测相似重复记录合并/清除,其作用分别说明如下:(1)记录排序。为了能查找到数据源中所有的重复记录,必须比较每一个可能的记录对,如此以来,检测相似重复记录是一个很昂贵的操作。当采集的电子数据的量很大时,这会导致是一个无效和不可行的方案。为了减少记录之间的比较次数,提高检测效率,常用的方法是仅比较相互距离在一定范围的记录,即先对数据表中的记录排
7、序,然后对邻近记录进行比较。(2)记录相似检测。记录相似检测是相似重复记录清理过程中的一个重要步骤,通过记录相似检测,可以判断两条记录是不是相似重复记录。(3)相似重复记录合并/清除。当完成相似重复记录的检测之后,对检测出的重复记录要进行处理。对于一组相似重复记录,一般有两种处理方法:第一种处理方法是把一组相似重复记录中的一条记录看成是正确的,其它记录看成是含有错误信息的重复记录。于是,任务就是删除数据库中的重复记录。在这种情况下,一些常用的处理规则是:人工规则。人工规则是指由人工从一组相似重复记录中选出一条最准确的记录保留,并把其它重复记录从数据库中删除掉,这种方法最简单。随机规则。随机规则
8、是指从一组相似重复记录中随机地选出一条记录保留,并把其它重复记录从数据库中删除掉。最新规则。在很多情况下,最新的记录能更好地代表一组相似重复记录。比如,越接近当前日期的信息准确性可能越高,经常使用账户上的地址要比退休账户上的地址权威一些。基于这种分析,最新规则是指选择每一组相似重复记录中最新的一条记录保留,并把其它重复记录从数据库中删除掉。完整规则。完整规则是指从一组相似重复记录中选择最完整的一条记录保留,并把其它重复记录从数据库中删除掉。实用规则。因为重复率越高的信息可能越准确一些,比如,如果三条记录中两个供应商的电话号码是相同的,那么重复的电话号码可能是正确的。基于这种分析,实用规则是指从
9、一组相似重复记录中选择与其它记录匹配次数最多的一条记录保留,并把其它重复记录从数据库中删除掉。计算机审计人员可以把以上方法定义成规则,存放在规则库中,供用户根据具体的业务要求选择使用。第二种处理方法是把每一条相似重复记录看成是信息源的一部分。于是,目的就是合并一组重复记录,产生一个具有更完整信息的新记录。该方法一般要由人工进行处理。31 相似重复记录检测效率的提高快速完成数据清理是很重要的,因此,必须提高相似重复记录的检测效率,节约有限的人力、时间以22审计研究 2004年6期名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 5 页 -及设备等。从前面的分析可以看出:在相似重复记录
10、检测过程中,记录间的相似检测是一个重要问题,其关键步骤是记录中各字段的相似检测,其效率直接影响整个算法的效率,记录中大多字段采用编辑距离算法(陈伟、丁秋林,2003)来检测,由于编辑距离算法的复杂度为O(mn),当数据量很大时,如不采用一种高效的过滤方法来减少不必要的编辑距离计算,则会导致相似检测时间过长。因此,为了提高相似重复记录的检测效率,可采用长度过滤方法来减少不必要的编辑距离计算。长度过滤方法基于以下定理:定理 1 任给两个字符串x,y,其长度分别为|x|,|y|。如果x和y的编辑距离最大为k,则两个字符串的长度之差最多不能超过k,即|x|-|y|k。我们称定理1 为长度过滤。采用长度
11、过滤方法优化后的记录相似检测算法的伪码描述如下(陈伟、丁秋林、谢强,2004):输入:两条记录R1 和 R2,两字段距离的阈值1,记录距离的阈值 2(该值用于判定两记录是否相似)输出:True/FalseRdist=0;Rdist 为所计算出的两记录的距离n=G etFieldNum(R1);计算记录的字段数,R1 和R2的字段数相同m=n;m 为两记录实际上所比较的字段数For i=1 to nIf R1.Field i =NULLOR R2.Field i =NULLThenm=m-1;Continue;只有当两条记录在第i 个字段上对应的值都不为空时,才进行字段比较End If;3 3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年2022年计算机审计中电子数据的清理研究 2022 计算机 审计 电子 数据 清理 研究
限制150内