数据采集与分析.docx
《数据采集与分析.docx》由会员分享,可在线阅读,更多相关《数据采集与分析.docx(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、审计数据采集与分析技术计算机审计的含义 计算机审计有3层含义:一面向数据的审计一面向现行信息系统的审计一对信息系统生命周期的审计面向数据的计算机审计流程审前调查:电子数据的组织、处理和存储 数据采集:审计接口、数据库访问技术、数据采集技术数据清理、转换、验证、建立中间表 数据分析:数据分析技术、SQL、审计软件审计取证一、审前调查及电子数据的组织、处理和存储1.审前调查的内容和方法对组织结构调查 对计.算机信息系统的调查提出数据需求2.电子数据的组织、处理和存储电子数据处理的特点存储介质改变 基于一定的数据处理平台,有一定的数据模型数据表示编码化(各种编码) 带来系统控制和数据安全性的新问题审
2、计线索改变如何表示数据数据类型与数据取值一数据类型决定了取值范围与运算范围数据模型一数据模型是对现实世界数据特征的抽象-它提供模型化数据和信息的工具解决不完整数据(即值缺失)的方法: 错误值的检测及解决方法:用统计分析的方法识别可能的错误值或异常值,如偏差分析、识 别不遵守分布或回归方程的值:使用简单规那么库(常识性规那么、业务特定规那么等)检查数据 值;使用不同属性间的约束;使用外部数据。不一致性的检测及解决方法:定义完整性约束用于检测不一致性:通过分析数据发现联系。值缺失的解决方法空值的处理 在SQL Server的查询分析器(SQL Query Analyzer)中执行以下SQL语句用“
3、0”替换某些字 段的空值:- UPDATE 清理数据表 SET zj=0 WHERE zj IS NULL- UPDATE 清理数据表 SET kl=0 WHERE kl IS NULL- UPDATE 清理数据表 SET mj=0 WHERE mj IS NULL消除冗余数据清理凭证数据表中科目代码以“s”开头的现金流量辅助信息冗余记录:-DELETE FROM 清理数据表 WHERE kmdh LIKE s%错误数据的处理方法审计人员采集数据后,在以下列图所示的固定资产表中发现资产原值字段存在负值的情况,这与 会计处理的常规不符。错误数据的处理方法在确认负的资产原值是错误数据后,审计人员可
4、以在SQL Server的查询分析器中执行SQL 语句:-UPDATE固定资产表SET资产原值=人85 (资产原值)WHERE资产原值0-改正资产原值的错误取值。为什么要进行数据转换被审计单位信息系统的多样性带来了数据的不一致性: 被审计系统的安全性措施给审计工作带来障碍;审计目的的不同决定了审计数据的范围和要求不同; 数据转换是数据分析、处理的前提。数据不一致性的表现同字段在不同的应用中具有不同的数据类型 同一字段在不同的应用中具有不同的名称同名字段,不同含义 同一信息,在不同的应用中有不同的格式同一信息,在不同的应用中有不同的表达方式数据转换的内容和任务1、将被审计单位的数据有效地装载到审
5、计软件所操纵的数据库中:2、明确地标识出每张表、每个字段的含义及相互之间的关系。数据转换的基本类型.简单变换(1)数据类型转换(2)日期/时间格式的转换(3)代码转换(4)值域转换.清洁和刷洗(1)有效值检查(2)复杂的重新格式化简单变换 它是数据转换中最简单的形式它是所有数据转换的基本构成单元 它一次改变一个字段的属性它不考虑该属性的背景或与它相关的其他字段的信息简单变换一数据类型转换最常见的简单变换是转换一个数据元的类型。它是将一种类型的数据转换成另一种类型的数 据。 数据转换的前提是类型相容。类型相容指的是一种类型数据的值域可以通过常用的转换函数 映射到另一种类型的值域上。 这种映射不会
6、丧失数据的精确度。简单变换一日期时间格式转换简单变换一代码转换简单变换一值域转换代码转换可以看成是一类特殊的值域转换。清洁和刷洗清洁和刷洗指的是比简单变换更更杂的一种数据变换。 在这种变换中,要检查的是字段或字段组的实际内容而不仅是存储格式。 一种清洁和刷洗是检查数据字段中的有效值。这可以通过范围检验、枚举清单和相关检验来 完成。数据转换的一般方法专用工具 SQL语言程序编码必须运用程序编码的场合对非关系型数据库中的数据进行转换 对复杂的数据文件中的数据进行转换数据转换的要求固定而使用频繁时五、审计数据验证不同阶段的数据验证 数据采集阶段-检查被审计单位提供资料的完整性,保证数据采集工作准确有
7、效地进行,同时对采集到 的数据进行确认,排除遗漏和失误。数据清理阶段-确认数据清理工作没有损害数据整体的完整性和正确性。 数据转换阶段一数据转换中,审计人员会将原始电子数据中表名、字段名、记录值代码以及表表关联的 经济含义明确标识出来,这需要进行大量的查询、替换修改、插入数据、更新数据、删 除数据等操作,每一步转换工作都有可能影响到数据的完整性和正确性,所以在这一阶 段进行数据验证确有必要。数据验证的技术和方法 数据采集阶段一核对总记录数、总金额,检查借贷是否平衡,顺序码断号、重号验证等。 数据清理阶段一核对总金额、保持借贷平衡等。 数据转换阶段一核对总金额、勾稽关系,数据结构确认等。六、审计
8、数据分析审计数据分析的具体操作核对: 检查: 复算: 判断:分析模型的演变随着用户对数据分析的深度和灵活程度要求越来越高,数据分析渐渐从静态数值的相互比较 转变到从多个数据源中综合数据,从多个角度观察数据的复杂、动态的分析。 根据处理数据的范围、用户一分析人员的交互需要、多维分析需求及现有工具的支持等因素, 可以将数据分析分为4种模型,这4种数据分析模型一种比一种深入,从描述基本领实到寻找 原因,从代入变量值进行预测到寻找关键变量。四种数据分析模型绝对模型 解释模型思考模型 公式模型绝对模型(Categorical Model) 它属于静态数据分析它通过比较历史数据值或行为来描述过去发生的事实
9、 瓷询比较简单,仅是值的比较综合路径是原有数据库设计时定义好的,用户交互少 支持工具广泛(包括一般的查询表格工具)。解释模型(Exegeiical Model)主要还是静态数据分析 用户一分析人员利用系统已有的多层次的综合路径层层细化,找出事实发生的原因如果分析人员感兴趣的数据不能通过已有路径进行综合,那么需要临时建立多维视图。思考模型(Contemplative Model) 它属于动态数据分析它旨在说明在一维或多维上引入一组具体变量或参数后会发生什么 需要较高层次的数据分析人员介入分析人员在引入确定的变量或公式关系时,须创立大量的综合路径 这类模型的支持工具相当少,大多只提供单一维上的数据
10、子集处理。公式模型(Formulaic Model)公式模型是动态性最高的一类模型,用于表示在多个维上,需要引入哪些变量或参数,以 及引入后所产生的结果。3种类型的数据分析方法与工具-查询型分析-验证型分析-开掘型分析查询型分析(Query) 主要指用户对数据库中的记录进行访问查询;关系数据库管理系统是H前数据库管理系统的主流,查询型分析主要的对象就是关系数据库 中的二维表。 要进行查询型分析,必须先对目标系统的数据模型有所了解。 可以采用SQL等语言来交互描述查询要求;采用SQL可以十分灵活地进行交互式查询,但要求用户掌握SQL语言,并对访问的数据库的 结构有所了解:查询型分析中的数据建模根
11、据相关法律法规建立模型 根据系统数据之间的勾稽关系建立模型根据不同系统数据之间的关系建立模型 根据审计业务流程建立模型根据以往审计经验建立模型 根据自然规律建立模型根据相关分析指标建立模型验证型分析 (Verification)验证型分析指用户先提出自己的假设,然后利用各种I:具通过反复的、递归的检索查询以验 证或否认自己的假设。从用户的观点来看,他们是在从数据中发现事实。多维分析工具进行的就是典型的验证型分析。它通过对信息的多种可能的观察角度进行快速,一致和交互性的存取,从而能够对数据进行深入地分析和观察。开掘型分析 (Discovery )开掘型分析是指用户从大量数据中发现数据模式,预测趋
12、势和行为的种数据分析方法。开掘型数据分析工具主要指数据挖掘(Data Mining)软件工具。开掘型分析能挖掘数据间潜在的模式,发现用户可能忽略的信息,并为审计业务人员做出前 瞻性的、基于知识的决策做出贡献。三种分析方法的特点比较查询型分析基本上是在数据结构的情况下对细节信息的存取,数据分析的成分很少 验证型分析处于较浅的层次开掘型分析是较深层次的数据分析。三种分析方法涉及的分析模型查询型分析基本上不涉及数据分析模型; 验证型分析主要实现了绝对模型、解释模型和思考模型;开掘型分析那么实现了公式模型。操作型处理和分析型处理近年来,人们逐渐认识到计算机系统中存在着两类不同的处理.:操作型处理和分析
13、型处理 操作型处理也叫事务处理,是指对数据库联机地进行日常操作,通常是对一个或一组记录的 查询和修改,主要是为特定的应用服务。人们关心的是响应时间、数据的安全性和完整性。分析型需求的产生要求数据仓库技术作为支撑OLTP系统的长期运行会积累大量的原始数据,有效对这些原始数据进行分析,发现数据中 蕴涵的模式和规律,帮助人们判断和决策,是一种有别于联机事务处理的数据处理需求,可 以称之为分析型数据处理,或称为面向决策支持系统(Decision Support Syslem, DSS)的数 据处理,它用于管理人员的决策分析。分析型数据处理仅靠传统的数据库技术是不够的,需要有新的数据处理技术,数据仓库技
14、术 就是为解决这一要求应运而生的。分析型数据处理的技术数据仓库技术包括:一数据仓库(Data Warehouse)一联机分析处理(Online Analytical Processing, OLAP)一数据挖掘(Data Mining)什么是数据仓库数据仓库的创始人Inmon对数据仓库的定义是:数据仓库就是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的 决策制定过程。数据仓库的特征与联机事务处理领域的数据库技术相比,数据仓库具有以下特征:一数据仓库的数据是面向主题的一数据仓库的数据是集成的一数据仓库的数据是稳定(不可更新)的-数据仓库的数据是随时间变化的数据仓库的体系结构
15、数据仓库系统的八个组成局部数据源 数据抽取、转换、装载和刷新工具数据建模.匚具 监控和管理工具元数据仓储 数据仓库和数据集市的目标数据库OLAP服务器 前端数据访问和分析工具数据仓库系统的一般应用过程 从业务处理信息系统等外部数据源获取数据,经加工整理后进入数据仓库根据数据分析挖掘的需求特性对数据进行建模和组织,用户利用各种前端数据分析和挖掘工 具,通过OLAP服务器,对数据仓库中的数据作各种查询、分析、挖掘工作数据仓库技术在数据审计中的应用审计数据的采集和获取 审计数据在审计数据库中的组织和存储审计数据的访问和分析什么是联机分析处理(OLAP) OLAP是一类软件技术,它使用户能够从多种角度
16、(维)对原始数据进行分析;通过快速、 一致、交互地存取来获得对原始数据的深入广解. OLAP的目标是满足决策支持或多维查询和报表的需求,它的技术核心是“维”这个概念,因 此OLAP也可以说是多维数据分析工具的集合。 OLTP强调的是更新数据库向数据库中添加信息,而OLAP就是从数据库中获取信息、利 用信息。OLAP的实现方式基于多维数据库的实现基于关系数据库的实现数据仓库与OLAP的关系建立数据仓库的目的是为了支持数据分析和决策制定过程。OLAP的关键特性(1)快速性(2)可分析性(3)多维性(4)信息性验证型分析与多维分析多维分析的基本概念一变量一维一多维视图多维分析的基本操作-切片(Sli
17、ce)和切块(Dice)-钻取(Drill)-旋转(Pivot)开掘分析什么是数据挖掘(Data Mining)数据挖掘的分析方法 分类分析 聚簇分析 关联分析 序列分析 开掘型分析与数据挖掘数据挖掘是实现开掘型分析的有效手段。七、关系数据库标准语言八、审计软件简介什么是审计软件? 审计软件是审计人员在审计过程中各个阶段所采用的能够完成特定辅助审计功能的各种工 具的总称。 审计软件是一类常用的计算机辅助审计工具。审计软件的基本功能(1)可访问不同结构的数据文件或数据库:(2)按各种条件提取所需的审计证据和数据;(3)支持审计抽样,提供初步的审计评价结果:(4)可自动形成会计报表和审计用的控制数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 采集 分析
限制150内