数据仓库商业智能相关面试题带答案资格考试公务员考试_计算机-数据库.pdf
《数据仓库商业智能相关面试题带答案资格考试公务员考试_计算机-数据库.pdf》由会员分享,可在线阅读,更多相关《数据仓库商业智能相关面试题带答案资格考试公务员考试_计算机-数据库.pdf(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 商务智能 1.1 数据仓库 1.1.1 数据仓库的 4 大特点(特征)?面向主题的,集成的,相对稳定的,反映历史变化的。1.1.2 数据仓库的四个层次体系结构?1.数据源 是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内 部信息包括存放于 RDBMS 中的各种业务处理数据和各类文档数据。外部信息包括各类法 律法规、市场信息和竞争对手的信息等等;2.数据的存储与管理 是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织 管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采 用什么产品和技术来建立数据仓库的核心,
2、则需要从数据仓库的技术特点着手分析。针对 现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按 照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)3.OLAP服务器 对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP(关系型在线分析处理)、MOLAP(多维在线分 析处理)和HOLAP(混合型线上分析处理)。ROLAP基本数据和聚合数据均存放在 RDBMS 之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于 RDBMS 之中,聚合数据存放于多维数
3、据库中。4.前端工具 主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以数据挖掘及各种基于 数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对 OLAP 服务器,报表工 具、数据挖掘工具主要针对数据仓库。1.1.3 描述一下联机分析处理 OLAP?(维的概念,基本多维操作,层次结构,与 OLTP 的区别)OLAP(联机分析处理 On-Line Analytical Processing)也叫多维 DBMS。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的 查询结果。OLAP 的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它
4、的技术核心是 维这个概念。“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种 层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能 对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。也叫做多维数据集。一般一个多维数据集可以用一个立方体的方式进行描述。多维数据集是联机分析处理(OLAP)中的主要对象,是一项可对数据仓库中的数据进行快速访 问的技术。多维数据集是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组 维度和度量值定义的多维结构。每个多维数据集都有一个架构,架构是数据仓库
5、中已联接的各表的集合,多维数据集从数据仓 库提取其源数据。架构中的核心表是事实数据表,事实数据表是多维数据集度量值的源。OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋 转(pivot)、drill across、drill through等。钻取是改变维的层次,变换分析的粒度。它包括向上钻 取(roll up)和向下钻取(drill down)。roll up 是在某一维上将低层次的细节数据概括到高层次的汇 总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。切 片和切块是在一
6、部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则 是切片;如果有三个,则是切块。旋转是变换维的方向,即在表格中重新安排维的放置(例如行 列互换)。1.1.4 多维数据集为什么显示有些表即是事实表又是维度表?退化维度。1.1.5 描述一下粒度?维度?Cube?粒度反映了数据仓库按照不同的层次组织数据,根据不同的查询需要,存储不同细节的数据。在数据仓库中,粒度越小,数据越细,查询范围就越广泛。相反,粒度级别越高,表示细节程度越 低,查询范围越小。1.1.6 描述一下 ODS,统一数据视图 运营数据存储(The operatio nal data store,ODS)或称操作
7、型数据存储是一个面向主题的、集成 的、当前的并且是可 挥发 的数据集合,它反映了在某一个时间切片瞬间,经营分析系统和外围系 统(BOSS、MIS.)用以相互交换数据的集合,主要用于经营分析系统与外围系统关键数据一致性 校验、以及经营分析系统对其它外围系统的决策支持数据的回馈,回馈数据包括以客户扩展属性为 主体的详细资料等。运营数据存储扮演的是用于数据稽核与交互的角色。ODS 的存储结构是以企业范围所有相关业务系统的数据,以全面、统一进行关系型实体来体现 的,ODS中的数据是基于分析主题进行组织,而不是基于业务系统的功能进行组织。ODS只是存储 了当前的数据且数据是“挥发”性的,因此其数据的刷新
8、是很快,过期的数据将要被挥发掉。因此 ODS的存储量取决于业务接口数据的抽取与刷新频率,取决于企业的服务客户的数量。从ODS的作用和实现来说,ODS将各个孤立的业务系统的运营数据集成起来,现成全企业的统 一数据视图,同时可实现 ODS的数据共享。得到放松决定带我去钓鱼来到湖边春意浓浓野花遍地是杂样儿有名字的没名字的散落在湖边的浅草上像小河的围巾给我一焕然一新的感觉我们准备好工具爸爸分给了我一个鱼钩我们开始钓鱼了我们分坐在河岸的浅草上爸爸在鱼钩上泡泡在阳光的照射下好像一颗颗彩色的珍珠美极了预购剧烈的抖动爸爸知道一定又一个大家伙上钩了急忙收线我在一旁静静的看着父亲瘦脸的操作心里不禁多几分敬意我也要
9、钓鱼我嚷嚷着说我坐在小凳子上一边听音乐一边钓鱼过了先检查鱼儿是否弄进然后抛到河中央爸爸告诉我钓鱼是一门学问一定要新进不要着急我耐心的等待鱼儿上钩这时我心里很平静仿佛整个世界都停止流动了皇天不负有心人我的努力没白费鱼竿的另一头倍感沉重来我听从爸爸的知识一1.1.7 描述一下企业信息工厂 数据仓库领域里,有一种构建数据仓库的架构,叫 Corporate Information Factory,中文一般翻 译为“企业信息工厂”。企业信息工厂的创始人是数据仓库之父 Inmon。企业信息工厂主要包括集成转换层(I&T)、操作数据存储(ODS)、数据仓库(EDW)、数据集 市(DM)、探索仓库(EW)等部
10、件。这些部件有机的结合在一起,为企业提供信息服务。集成转换层的目的是将来自操作型源系统的数据集成转换到数据仓库中,它通常由一组程序组 成,而其它部件如数据仓库和数据集市等则主要由数据组成。当业务数据来源多,业务复杂时,集成转换层会建立一些临时表,为数据处理提供方便。这时,集成转换层包括程序和数据,也称数 据准备区(Data Staging Area)。通常中等规模及以上的数据仓库系统都会建立数据准备区。操作数据存储(ODS)是建立在数据准备区和数据仓库之间的一个部件。用来满足企业集成的、综合的操作型处理需要。例如,出尽可能实时的集成的操作报表等需求。一般,也称操作数据存储 是用来满足企业战术决
11、策的需要。操作数据存储是个可选的部件。数据仓库是企业信息工厂的核心部件,用来保存整个企业的数据。一般,也称数据仓库是用来 满足企业战略决策的需要。数据仓库的数据来自数据准备区和操作数据存储。数据集市是为了满足企业特定部门的分析需求而专门建立的数据的集合。数据集市的数据来源 是数据仓库。企业信息工厂中的数据集市一般来说是非规范化的、定制的和汇总的。而多维体系架 构中的数据集市分为两种,分别是原子数据集市和聚集数据集市。一般来说,企业信息工厂中的数 据集市相当于多维体系架构中的聚集数据集市。1.1.8 数据是数据集市?数据集市中的数据具有数据仓库中数据的特点,只不过数据集市专为某一部门或某个特定商
12、业 需求定制,而不是根据数据容量命名。数据集市面向部门、业务单元或特定应用,因而规模较小,便于快速实现,且成本较低,短期 内即可获得明显效果。数据集市的应用不仅满足了部门的数据处理需求,而且作为数据仓库的子集 有助于构建完整的企业级数据仓库。1.1.9 元数据的定义,元数据管理,元数据的作用用?数据仓库的元数据是关于数据仓库中数据的数据。它的作用类似于数据库管理系统的数据字典,保存了逻辑数据结构、文件、地址和索引等信息。广义上讲,在数据仓库中,元数据描述了数据仓 库内数据的结构和建立方法的数据。元数据是数据仓库管理系统的重要组成部分,元数据管理器是企业级数据仓库中的关键组件,贯穿数据仓库构建的
13、整个过程,直接影响着数据仓库的构建、使用和维护。(1)构建数据仓库的主要步骤之一是 ETL这时元数据将发挥重要的作用,它定义了源数据系 统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史记 录以及装载周期等相关内容。数据抽取和转换的专家以及数据仓库管理员正是通过元数据高效地构 建数据仓库。(2)用户在使用数据仓库时,通过元数据访问数据,明确数据项的含义以及定制报表。(3)数据仓库的规模及其复杂性离不开正确的元数据管理,包括增加或移除外部数据源,改 变数据清洗方法,控制出错的查询以及安排备份等。元数据可分为技术元数据和业务元数据。技术元数据为开发和管理数据仓库的
14、 IT 人员使用,它描述了与数据仓库开发、管理和维护相关的数据,包括数据源信息、数据转换描述、数据仓库模 型、数据清洗与更新规则、数据映射和访问权限等。而业务元数据为管理层和业务分析人员服务,从业务角度描述数据,包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等,帮 助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。得到放松决定带我去钓鱼来到湖边春意浓浓野花遍地是杂样儿有名字的没名字的散落在湖边的浅草上像小河的围巾给我一焕然一新的感觉我们准备好工具爸爸分给了我一个鱼钩我们开始钓鱼了我们分坐在河岸的浅草上爸爸在鱼钩上泡泡在阳光的照射下好像一颗颗彩色的珍珠美极了预购剧烈的抖动
15、爸爸知道一定又一个大家伙上钩了急忙收线我在一旁静静的看着父亲瘦脸的操作心里不禁多几分敬意我也要钓鱼我嚷嚷着说我坐在小凳子上一边听音乐一边钓鱼过了先检查鱼儿是否弄进然后抛到河中央爸爸告诉我钓鱼是一门学问一定要新进不要着急我耐心的等待鱼儿上钩这时我心里很平静仿佛整个世界都停止流动了皇天不负有心人我的努力没白费鱼竿的另一头倍感沉重来我听从爸爸的知识一在数据仓库中,元数据的主要 作用如下。(1)描述哪些数据在数据仓库中,帮助决策分析者对数据仓库的内容定位。(2)定义数据进入数据仓库的方式,作为数据汇总、映射和清洗的指南。(3)记录业务事件发生而随之进行的数据抽取工作时间安排。(4)记录并检测系统数据一
16、致性的要求和执行情况。(5)评估数据质量。1.1.10 什么是主数据,主数据管理?和元数据有什么区别?主数据 管理和传统数据仓库的区别?主数据是指在整个企业范围内各个系统(操作/事务型应用系统以及分析型系统)间要共享的数 据,比如,可以是与客户(customers),供应商(suppliers),帐户(accounts)以及组织单位(organizational units)相关的数据。主数据通常需要在整个企业范围内保持一致性(consistent)、完整性(complete)、可控性(controlled),为了达成这一目标,就需要进行主数据管理(Master Data Management
17、,MDM)。主数据不是企业内所有的业务数据,只是有必要在各个系统间共享的数据才是主数据,比如大部分 的交易数据、帐单数据等都不是主数据,而像描述核心业务实体的数据,而像客户、供应商、帐户、组织单位、员工、合作伙伴、位置信息等都是主数据。主数据是企业内能够跨业务重复使用的高价 值的数据。主数据管理(Master Data Management,MDM)是指 一组约束和方法 用来保证一个企业内主题域 和系统内相关数据和跨主题域和系统的相关数据的 实时性、含义和质量。这是从深层次来说来说明 主数据管理(MDM)的深度和复杂性,简单的说,主数据管理(MDM)保证你的系统协调和重用通用、正确的业务数据(
18、主数据)。通常,我们会把主数据管理作为应用流程的补充,通过从各个操作/事务 型应用以及分析型应用中分离出主要的信息,使其成为一个集中的、独立于企业中各种其他应用核 心资源,从而使得企业的核心信息得以重用并确保各个操作/事务型应用以及分析型应用间的核心 数据的一致性。通过主数据管理,改变企业数据利用的现状,从而更好地为企业信息集成做好铺垫。主数据管理(MDM)可以帮助我们创建并维护整个企业内主数据的 单一视图(Single View),保证单 一视图的准确性、一致性以及完整性,从而提供数据质量,统一商业实体的定义,简化改进商业流 程并提供业务的响应速度。从变化的频率来看,主数据和日常交易数据不一
19、样,变化相对缓慢,另 外,主数据由于跨各个系统,所以对数据的一致性、实时性以及版本控制要求很高。主数据(Master Data)和元数据(Meta Data)是两个完全不同的概念。元数据是指表示数据的相关 信息,比如数据定义等,而主数据是指实例数据,比如产品目录信息等。主数据管理和传统数据仓库解决方案不是一个概念,数据仓库会将各个业务系统的数据集中在 一起在进行业务的分析,而主数据管理系统不会把所有数据都管理起来,只是把需要在各个系统间 共享的主数据进行采集和发布。相对于传统数据仓库解决方案的单向集成,主数据管理正注重将主 数据的变化同步发布到各个关联的业务系统中(主数据管理数据是双向的)。得
20、到放松决定带我去钓鱼来到湖边春意浓浓野花遍地是杂样儿有名字的没名字的散落在湖边的浅草上像小河的围巾给我一焕然一新的感觉我们准备好工具爸爸分给了我一个鱼钩我们开始钓鱼了我们分坐在河岸的浅草上爸爸在鱼钩上泡泡在阳光的照射下好像一颗颗彩色的珍珠美极了预购剧烈的抖动爸爸知道一定又一个大家伙上钩了急忙收线我在一旁静静的看着父亲瘦脸的操作心里不禁多几分敬意我也要钓鱼我嚷嚷着说我坐在小凳子上一边听音乐一边钓鱼过了先检查鱼儿是否弄进然后抛到河中央爸爸告诉我钓鱼是一门学问一定要新进不要着急我耐心的等待鱼儿上钩这时我心里很平静仿佛整个世界都停止流动了皇天不负有心人我的努力没白费鱼竿的另一头倍感沉重来我听从爸爸的知
21、识一1.1.11 描述一下 ETL 过程中需要处理的内容 三个简单的字母,E-T-L,很容易忽视38个ETL子系统在数据仓库建设中的重要性。抽取-转换-加载(ETL)系统,或者非正式的称为“后台系统”,在建立整个数据仓库系统中占 据了 70的工作量和时间。但是这还不足以说明 ETL系统的复杂性。每个人都理解这三个字母的含义,E,从源系统中将数据取出来;T,对这些数据做处理;L,加载到最终用户访问的表中。1.抽取系统(Extract System)主要功能包括源数据的适配器,推/拖/搬运数据的工作调度,对源数据的过滤和排序功能,数 据格式的转换,迁移到 ETL环境后的数据暂存功能。2.变化数据捕
22、获系统(Change Data Capture System)主要功能包括对源数据日志文件的阅读功能,源数据日期和序列号的过滤功能,基于 CRC算法 的记录比较功能。3.数据概况分析系统(Data Profiling System)主要功能包括字段属性分析,如参照域的分析;结构分析,如主外键关系分析;数据规则分析;值规则分析等。4.数据清洗系统(Data Cleansing System)主要功能包括一个典型的数据字典驱动的系统,用于解析个体和组织的名称、地址等信息,也 用来解析产品、场所等内容;一个“De-duplication”系统,用于鉴别和移除个体和组织信息,也用 于产品和场所;一个“
23、Survivi ng”系统,使用特定的数据合并逻辑,用来保存特定数据源的指定字 段,这个特定数据源的数据将成为数据仓库的最终版本;为所有的数据源维护后台数据的对应关系,如自然键和代理键对应关系等内容。5.数据一致性处理系统(Data Conformer System)主要功能包括标识和生成专用的一致性维度属性、一致性事实的度量属性,这两组属性作为数 据整合工作的基础,用来支持跨多个数据源的数据集成工作。6.审计维度生成系统(Audit Dimension Assembler System)主要功能是将与事实表相关的元数据内容加载到一张审计维度表中,这样最终用户可以像查看 普通维度一样查看与事实
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 商业 智能 相关 试题 答案 资格考试 公务员 考试 计算机 数据库
限制150内