2022年数据挖掘与数据仓库试卷 .pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《2022年数据挖掘与数据仓库试卷 .pdf》由会员分享,可在线阅读,更多相关《2022年数据挖掘与数据仓库试卷 .pdf(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 数据挖掘与数据仓库技术试卷姓名-,班级-,学号-一、问答题:1数据仓库和数据库有何不同?它们有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据.它用表组织数据,采用ER 数据模型。它们都为数据挖掘提供了源数据,都是数据的组合.2什么是数据挖掘?请举例。数据挖掘:是从大量数据中提取或挖掘 知识,也就是从存放在数据库,数据仓库或其他信息库中的数据挖掘有趣知识的过程.数据挖掘是可以从数据库中提取有趣的知识规律或高层信息发现的知识,
2、可以用于决策,过程控制,信息管理,查询处理.它不是一种从数据库,统计学和机器学习发展的技术的简单转化,它涉及多学科技术的集成,包括数据库技术,统计学,机器学习,高性能计算模式识别,神经网络,数据可视化,信息检索,图象与信号处理和空间数据分析.随着数据库技术发展,数据的丰富带来了对强有力的数据分析工具的需求,大量的数据被描述为数据丰富,但信息贫乏,所以数据挖掘出来了.当把数据挖掘看作知识发现过程时,它涉及的步骤为:1)数据清理2)数据集成3)数据选择4)数据变换5)数据挖掘6)模式评估7)知识表示3试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法,而不愿使用查询驱动的方法。因为
3、对于多个异种信息源的集成,查询驱动方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源,是一种低效的方法,开销很大。而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中,进行查询的同时并不影响局部数据源上进行的处理,另外,还支持复杂的多维查询。当异种数据源上的数据格式一致或者转换比较容易,并且所要求的查询比较简单,不需要复杂的多维查询时,查询驱动方法可能更受欢迎。4在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。答:1)忽略元组2)人工填写空缺值3)使用一个全局常量填充空缺值4)使用属性的平均值填充空缺
4、值5)使用与给定元组属同一类的所有样本的平均值6)使用最可能的值填充空缺值。其中,方法3 到 6 使数据倾斜,填入的值可能不正确。不过,方法6 是最常用的方法5对于类特征化,基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同是什么?讨论哪种方法最有效,在什么条件下最有效。数据立方体方法是基于数据仓库的,面向预计算的,物化视图的方法。它在OLAP 或数据挖掘查询提交处理之前,脱机计算聚集。面向属性归纳是面向关系数据库查询的,基于概化的,联机的数据分析处理技术。面向属性归纳方法更有效,因为在面向属性归纳之前进行数据聚焦,根据数据挖掘提供的信息进行数据收集,选择相关的数据集不仅使数据挖掘
5、更有效,而且与整个数据库挖掘相比,能产生更有意义的规则。二、填空题:1.数据挖掘是一个多学科领域,这些学科包括:,数据库系统,统计学,机器学习,可视化和信息科学。名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 3 页 -2 2.数据挖掘的功能有概念/类描述,关联分析,分类与预测,聚类分析,孤立点分析,演变分析。3.数据挖掘的主要问题包括:挖掘方法和用户交互问题,性能问题,数据库类型的多样性问题。4.数据挖掘的性能问题包括:数据挖掘算法的有效性,算法的可伸缩性,并行、分布式、增量挖掘算法的研究。三、证明题:Apriori 算法使用子集支持度性质的先验知识。1证明频繁集的所有非空子集
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年数据挖掘与数据仓库试卷 2022 数据 挖掘 数据仓库 试卷
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内