数据挖掘期末复习(共4页).doc
《数据挖掘期末复习(共4页).doc》由会员分享,可在线阅读,更多相关《数据挖掘期末复习(共4页).doc(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上数据挖掘总复习题1 数据挖掘系统可以根据什么标准进行分类? 挖掘的数据库类型分类、挖掘的知识类型分类、所用的技术分类、应用分类2知识发现过程包括哪些步骤? 数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示3什么是概念分层?一个概念分层定义一个映射序列,将底层概念到更一般的高层概念。4多维数据模型上的OLAP操作包括哪些?上卷、下钻、切片和切块、转轴、其它OLAP操作5OLAP服务器类型有哪几种?关系OLAP(ROLAP)服务器、多维OLAP(MOLAP)服务器、混合OLAP(HOLAP)服务器、特殊的SQL服务器 6数据预处理技术包括哪些? 数据清
2、理、数据集成、数据变换、数据归约7什么是数据清理? 数据清理例程可以用于填充遗漏的值,平滑数据,找出局外者并纠正数据的不一致性8什么是数据集成?数据集成将多个数据源中的数据结合成、存放在一个一致的数据存储,如数据仓库中。这些源可能包括多个数据库、数据方或一般文件。 9什么是数据归约?数据归约技术,如数据方聚集、维归约、数据压缩、数值归约和离散化都可以用来得到数据的归约表示,而使得信息内容的损失最小。10数据清理的内容包括哪些? 遗漏值、噪音数据、不一致数据11.将下列缩略语复原OLAPon-line analytical processingDMdata miningKDDknowledge
3、discovery in databasesOLTPon-line transaction processingDBMSdatabase management systemDWTdiscrete wavelet transform12什么是数据挖掘? 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的人们事先不知道的,但又有潜在有用的信息和知识的过程。13什么是关联规则?什么是强关联规则?强关联规则都是有趣的吗?关联规则:关联规则挖掘寻找给定数据集中项之间的有趣联系。强关联规则:同时满足用户定义的最小置信度阈值和最小支持度阈值的关联规则称为强关联规则。都是
4、有趣的14什么是可信度? 规则的蕴涵强度估计15什么是支持度? 出现规则模式的任务相关元祖所占的百分比16数据仓库的主要特征是什么?面向主题的、集成的、时变的、非易失的数据集合。 17什么是数据集市? 数据及时包含企业范围数据的一个子集,对于特定的用户是有用的。其范围限于选定主题。18数据库中的知识发现过程由哪几个步骤组成? (1)数据准备,(2)数据挖掘,(3)结果表达和解释19典型的数据挖掘系统有哪几个主要成分? 数据库、数据仓库、万维网或其他信息库;数据库或数据仓库服务器;知识库;数据挖掘引擎;模式评估模块;用户界面20从软件工程的观点来看,数据仓库的设计和构造包含哪些步骤? 规划、需求
5、研究、问题分析、仓库设计、数据集成和测试,最后,配置数据仓库。21在数据挖掘系统中,为什么数据清理十分重要? 脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。22脏数据形成的原因有哪些?滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码。 23数据清理时,对空缺值有哪些处理方法? 忽略元祖、人工填写遗漏值、使用一个全局常量填充遗漏值、使用属性的平均值填充遗漏值、使用与给定元祖属同一类的所有样本的平均值、使用最可能的值填充遗漏值24什么是数据变换?包括哪些内容?数据变换将数据转换成适合于挖掘的形
6、式。包括内容有,平滑、聚集、数据泛化、规范化、属性构造25数据归约的策略包括哪些?数据方聚集、维归约、数据压缩、数值压缩、离散化和概念分层26提高数据挖掘算法效率有哪几种思路?减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法27假定属性income的最小值与最大值分别为¥12000和¥98000,如映射income到区间0.0,1.0,根据min-max规范化,income值¥73600将变为 3631/551 。28假定属性income的平均值和标准差分别为¥54000和¥16000。使用Z-score规范化,值¥73600被转换为 1.225 。29假定A的值由-9
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 期末 复习
限制150内