数据仓库复习题计算机数据挖掘与模式识别_计算机-数据挖掘与模式识别.pdf
《数据仓库复习题计算机数据挖掘与模式识别_计算机-数据挖掘与模式识别.pdf》由会员分享,可在线阅读,更多相关《数据仓库复习题计算机数据挖掘与模式识别_计算机-数据挖掘与模式识别.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1.数据挖掘的定义?(书 P2,PPT_P8)从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。2.数据挖掘的源是否必须是数据仓库的数据?可以有哪些来源?(PPT_P14)关系数据库、数据仓库、事务数据库、高级数据等 3.数据挖掘的常用方法?(P4、PPT_P29)聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计分析等 4.数据挖掘的过程包括哪些步骤,每一步具体包括哪些内容?(书 P2-3,PPT_P17-19)确定业务对象、数据准备、数据挖掘、结果分析与知识同化。5.数据挖掘与数据仓库的关系(联系和区别)?书
2、P6-7,PPT_P45-46 联系:1,数据仓库为数据挖掘提供了更好的,更广泛的数据源 2,数据仓库韦数据挖掘提供了新的支持平台。3,数据仓库为更好地使用数据挖掘工具提供了方便 4,数据挖掘对数据仓库提供了更好的决策支持。5,数据挖掘对数据仓库的数据组织提出了更高的要求 6,数据挖掘还为数据仓库提供了广泛的技术支持 区别:数据仓库是一种存储技术,它包含大量的历史数据、当前的详细数据以及综合数据,它能为不同用户的不同决策需要提供所需的数据和信息。数据挖掘是从人工智能机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。第二章 数据仓库 1.数据仓库的定义 数据仓库是
3、一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策定制过程。2.数据仓库数据的四大基本特征:面向主题的、集成的、不可更新的、随时间变化的。3.数据仓库体系结构有三个独立的数据层次:信息获取层、信息存储层、信息传递层。4.粒度的定义?它对数据仓库有什么影响?(1)是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多。(2)影响存放在数据仓库中的数据量大小;影响数据仓库所能回答查询问题的细节程度。5.在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节级、当前细节级、轻度细节级和高度细节级。6.数据分割
4、的标准:可按日期、地域、业务领域、或按多个分割标准的组合,但一般包括日期项。7.数据仓库设计中,一般存在着三级数据模型:概念数据模型、逻辑数据模型、物理数据模型 8.数据仓库设计步骤(1)概念模型设计(2)技术准备工作(3)逻辑模型设计(4)物理模型设计(5)数据仓库的生成(6)数据仓库的使用和维护 9.数据装入时,并不是一次就将准备装入的数据全部装入数据仓库,而是按照逻辑模型设计中所确定和分析的主题域,先装入并生成某一主题域。10.建立数据仓库的步骤并不是一成不变的,但最终应该满足用户的分析需求。第三章 联机分析处理技术 1.联机事务处理与联机分析处理的区别?联机事务处理(OLTP)作为数据
5、管理手段,主要用于事务处理,但它对分析处理一直不能令人满意。联机分析处理(OLAP)是决策支持系统的有机组成部分,利用存储在数据仓库中的数据完成各种分析操作,并以直观易懂的形式将分析结果返回给决策分析人员。的主要特征 快速性、可分析性、多维性、信息性。3.钻取 Drill/Roll up,Drill down 改变维的层次,变换分析的粒度。分向上钻取和向下钻取。向上钻取:在某一维上将低层次的细节数据概括到高层的汇总数据,或者减少维数。向下钻取:从汇总数据深入到细节数据进行观察或增加新维。是基于关系数据库的 OLAP 实现,而 MOLAP 是基于多维数据结构组织的 OLAP 实现。根据其数据存储
6、格式可分为三类:关系 OLAP(ROLAP)、多维 OLAP(MOLAP)和混合 OLAP(HOLAP)。6.雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。的衡量标准(1)透明性准则:OLAP在体系结构中的位置和数据源对用户是透明的。(2)动态的稀疏矩阵处理准则:对任意给定的稀疏矩阵,存在且仅存在一个最优的物理视图。(3)维的等同性准则:每一数据维在数据结构和操作能力上都是等同的。第四章 数据预处理 1.数据预处理的方法 数据清洗、数据集成、数据变换、数据规约等。2.分箱方法 统一权重、统一区间、最小熵、用户自定义区间。3.数据平滑处理方法 按平均值、按边界值、按中值 4.
7、数据规范化定义?规范化的常用方法有哪些?(1)将数据按比例缩放,使之落入一个特定的区域,如0,1,称为规范化/标准化。(2)常用方法:最小-最大规范化、零-均值规范化、小数定标规范化。5.数据规约 从大数据集中得到其规约表示小数据集 规约的目的是减少原始数据量;可以在小数据集上得到与原始数据相同的挖掘结果。6.下面是一个超市某种商品连续 24个月的销售数据(百元):21,16,19,24,27,23,22,21,20,17,16,20,23,22,18,24,26,25,20,26,23,21,15,17 在有用的信息和知识的过程数据挖掘的源是否必须是数据仓库的数据可以有哪些来源关系数据库数据
8、仓库事务数据库高级数据等数据挖掘的常用方法聚类分析决策树人工神经网络粗糙集关联规则挖掘统计分析等数据挖掘的过程包括关系联系和区别书联系数据仓库为数据挖掘提供了更好的更广泛的数据源数据仓库韦数据挖掘提供了新的支持平台数据仓库为更好地使用数据挖掘工具提供了方便数据挖掘对数据仓库提供了更好的决策支持数据挖掘对数据仓库的数的历史数据当的详细数据以及综合数据它能为不同用户的不同决策需要提供所需的数据和信息数据挖掘是从人工智能机器学习中发展起来的它研究各种方法和技术从大量的数据中挖掘出有用的信息和知识第二章数据仓库数据仓库的使用统一权重、统一区间和自定义区间方法对数据分箱,并对分箱后的数据采用平均值、边界
9、值或中值等方法进行平滑。解:15,16,16,17,17,18,19,20,20,20,21,21,21,22,22,23,23,23,2,24,25,26,26,27 统一权重:设权重为 6,表示每箱 6 个记录,分四箱:箱 1:15,16,16,17,17,18 箱 2:19,20,20,20,21,21 箱 3:21,22,22,23,23,23 箱 4:24,24,25,26,26,27 边界:箱 1:15,15,15,18,18,18 箱 2:19,19,19,21,21,21 箱 3:21,21,21,23,23,23 箱 4:24,24,24,27,27,27 统一区间:每个箱子
10、宽度为(27-15)/4=3,区间15,18)、18,21)、21,24)、24,27):箱 1:15,16,16,17,17 箱 2:18,19,20,20,20 箱 3:21,21,21,22,22,23,23,23 箱 4:24,24,25,26,26,27 中值:箱 1:16,16,16,16,16 箱 2:20,20,20,20,20 箱 3:22,22,22,22,22,22,22,22 箱 4:,第五章 关联规则方法 1.关联规则挖掘的任务?找到事务数据库D中支持度和置信度分别满足用户指定的最小支持度min_sup 和最小置信度 min_con 的规则。2.关联规则挖掘问题分哪两
11、个步骤?(1)找出 D中所有的频繁项集;(2)从频繁项集中产生关联规则。性质:频繁项集的所有非空子集也都必须是频繁的;这是频繁项集的先验知识;可以减少候选频繁项集的数量。4.负边界:负边界中的项集是非频繁的,但每个项集的所有子集都是频繁的。5.数据库如下图所示,如果设定最小支持度 s=40%,置信度 c=70%,计算该数据库中的频繁项集和负边界,以及由频繁项集产生的规则。TID 项目列表 T1 I1,I3,I4 T2 I2,I3,I5 T3 I1,I2,I3,I5 T4 I2,I5 解:S=40%候选 1-项集 计数 S(%)频繁 1-项集 L1 i1 2 50 i1 i2 3 75 i2 i
12、3 3 75 i3 i4 1 25 i5 3 75 i5 在有用的信息和知识的过程数据挖掘的源是否必须是数据仓库的数据可以有哪些来源关系数据库数据仓库事务数据库高级数据等数据挖掘的常用方法聚类分析决策树人工神经网络粗糙集关联规则挖掘统计分析等数据挖掘的过程包括关系联系和区别书联系数据仓库为数据挖掘提供了更好的更广泛的数据源数据仓库韦数据挖掘提供了新的支持平台数据仓库为更好地使用数据挖掘工具提供了方便数据挖掘对数据仓库提供了更好的决策支持数据挖掘对数据仓库的数的历史数据当的详细数据以及综合数据它能为不同用户的不同决策需要提供所需的数据和信息数据挖掘是从人工智能机器学习中发展起来的它研究各种方法和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 复习题 计算机 数据 挖掘 模式识别
限制150内