物联网与数据挖掘习题及答案 第3、4章.docx
《物联网与数据挖掘习题及答案 第3、4章.docx》由会员分享,可在线阅读,更多相关《物联网与数据挖掘习题及答案 第3、4章.docx(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、3-1简述常用的数据库系统。关系型数据库采用关系模型来存储结构化数据,但难以满足Web 2.0时代下高并发读/ 写、海量数据高效存储与访问、高可扩展性与高可用性等现实需求。非关系型数据库采用非关系模型来对数据进行建模、存储和管理,不需要固定的表结构, 通常也不存在连接操作,在大数据存取与管理上表现出优异的性能。根据具体实现方式的不 同,可以将非关系型数据库分为键值存储(Key-value Stores)数据库、文档存储(Document Stores)数据库、列族数据存储(Column Family Data Stores)数据库及图数据库。键值存储数据库:数据库中的数据以键值对的形式存储,每
2、个关键字是唯一的并且只能 是字符串的形式。文档存储数据库:可以被看作对键值存储的扩展,其值被存储在JSON、 XML等结构化文档中。列族数据存储数据库:列式存储是相对行式存储而言的,是一种以 列相关存储架构进行数据存储的数据库,通过逐列的方式进行存储。3-2简述数据仓库系统与数据库系统之间的异同点。数据仓库在物理上与数据库、文件系统一样是一堆数据的集合,它们的主要异同点如下:特 征操作数据库数据仓库核心特性实时操作处理海量信息分析主要操作单元简单事务复杂分析数据的规模GB级TB级及以上主要应用联机事务处理联机分析处理处理类型面向业务的操作型数据环境面向主题的分析型数据环境数据来源业务流中的数据
3、系统内部数据、系统外部数 据、历史数据等面向需求较确定的业务处理需求和数 据流用户对处理分析的需求不明 确;处理分析需求的方式灵活设计方法需求驱动数据驱动与需求驱动设计目标高效地增加、删除、修改、 查询操作;支持并发访问建立结构化的数据环境,服 务于决策支持和联机分析3-3数据仓库的主要组件有哪些?数据仓库主要由数据库、数据抽取工具、元数据、数据集市、数据仓库管理工具、访问 工具、信息发布系统组成。3-4简述数据仓库中元数据的作用。用于描述数据仓库中数据的结构和建立方法的数据,并与数据构成数据仓库中的数据模 型。元数据分为技术元数据和业务元数据。前者主要供系统开发人员和管理人员用描述数据 的技
4、术细节,如数据仓库结构的描述、系统性能的指标等;后者则从业务角度描述数据仓库 中的数据,使业务人员能够认识与理解系统中的数据。元数据有助于技术人员和业务人员更 好地明确数据仓库中的数据和当前业务需求,帮助决策分析者更好地定义数据仓库中的内 容,建立数据转换的准则,以提高系统的扩展性和可重用性。3-5比较四种不同的数据仓库系统的体系结构的优缺点。常用的数据仓库体系结构有两层架构、独立型数据集市、依赖型数据集市和操作型数据 存储、逻辑型数据集市和实时数据仓库四种类型。两层架构的数据仓库系统具有结构简单、维护周期长的优点,但设计开发一个企业级数 据仓库的时间长、成本高、数据分析效率低。独立型数据集市
5、的数据仓库系统为每个数据集市配备了一个ETL,这在一定程度上增加 了复杂性,可能产生冗余的数据和重复的处理工作,但这种方式允许自下而上迭代地构建数 据仓库,能够降低一次投入的预算。依赖型数据集市和操作型数据存储的数据仓库系统用户既可以访问数据仓库,也可以访 问数据集市,并且数据集市中的数据来自数据仓库,这保证了数据集市中数据的一致性;操 作型数据存储提供了一个当前细节的数据源,有助于解决数据集市不能获取更细粒度数据的 问题。逻辑型数据集市和实时数据仓库系统允许数据仓库与源数据系统、前端工具以接近实时 的速度交换数据。3-6简述常用的OLAP操作。常用的OLAP操作有上卷、下钻、转轴、切片与切块
6、。上卷:将数据从低层次聚合到高层次,以获取更高层次的总体概述。例如,在时间维度上 计算每月、每季度、每年的销售总额。下钻:将数据从高层次细分到低层次,以便深入研究各个组成部分的详细信息。例如,在 时间维度上查看某一月份的具体销售明细。转轴:将行与列互换,以改变数据的展示形式,从而获得不同的数据分析视角。例如,将 客户作为行,时间作为列,就可以查看某个客户在不同时间段内的购买情况。切片:在一个或多个维度上指定一个切片,从而观察该切片范围内的数据。例如,在时间 维度上选择某一特定日期,就可以查看该日期的所有数据。切块:在两个或多个维度上同时指定多个切片,从而获得更具体的数据视角。例如,在时 间和产
7、品维度上选择某一日期和某一产品,就可以查看该产品在该日期的销售情况。3-7 对比 OLAP 和 OLTPoOLAP服务器层位于数据仓库系统的中间层,针对特定的主题进行联机数据访问和多维 度综合分析,并以一种直观易懂的形式将查询结果展示给用户,可使决策者通过对信息的多 维观测进行快速、一致和交互的存取,深入理解数据和获取信息。联机事务处理(Online Transaction Processing, OLTP)是一种与OLAP密切相关的数据处理系统。OLTP是面向传 统关系型数据库的,主要处理日常事务,提供用于支持机构日常运营的技术基础架构,涉及 的事务内容简单且重复率高。与OLAP侧重于多维分
8、析和决策支持不同,OLTP的基本特征 是用户的原始数据可以很快被传送到远程服务器端进行处理,并在短时间内返回处理后的结 果,如用户通过ATM终端存款,银行的计算中心可以快速地处理该请求,并将结果返回给 用户。OLTP对并发性要求高,适合处理结构化数据,严格要求事务的原子性、一致性、隔 离性和持久性。3-8比较分析多维数据模型中的星型模式、雪花模式及事实星座模式。多维数据模型是一种用于处理大量数据的方法,其中包括星型模式、雪花模式和事实星 座模式。这些模式都是基于多维数据模型中的维度分层次化描述数据关系的方式。星型模式:星型模式也称为简单星型模式,是最常用的多维数据模型之一。在星型模式 中,一个
9、中心表包含了所有的事实表,而周围的维表则存储着与事实表相关的维度信息。这 种模型结构简单、易于理解和维护,但是存在重复数据和冗余表的问题。雪花模式:雪花模 式是星型模式的改进版,它通过将一些维度表进行规范化,消除了星型模式中的冗余表,从 而提高了数据的存储效率和查询速度。在雪花模式中,维度表被分解成多个表,并使用外键 来建立它们之间的关系。这种模型结构更加复杂,但是可以减少存储空间和提高查询效率。 事实星座模式(也称为矩阵式模式):事实星座模式是一种相对较新的多维数据模型,它采 用了矩阵式的数据结构,将事实表和维度表进行了分解,并使用交叉索引来建立它们之间的 关系。这种模型结构比较复杂,但是可
10、以提高查询效率和灵活性。3-9试从数据治理的角度说明数据湖的作用。数据湖能够自动提取元数据信息并对元数据进行归类整理,建立统一的数据目录;具备 处理数据沿袭的能力,能够梳理数据的上下游关系,服务于开展数据定价、数据问题定位分 析、数据变化影响范围评估等工作;能够追踪、记录、分析和回溯不同版本的数据。3-10分析数据仓库与数据湖之间的区别与联系。数据仓库和数据湖是两种不同的数据存储架构,虽然它们在某些方面有所重叠,但在设 计思想、应用场景、处理方式以及灵活性等方面有着明显差异。首先,数据仓库中存储的是 经过提取、转换和加载等过程处理后的结构化数据,而数据湖则可以存储原始、非结构化或 半结构化的数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 物联网与数据挖掘 习题及答案 第3、4章 联网 数据 挖掘 习题 答案
限制150内