2022年数据挖掘概念与技术习题答案- .pdf
《2022年数据挖掘概念与技术习题答案- .pdf》由会员分享,可在线阅读,更多相关《2022年数据挖掘概念与技术习题答案- .pdf(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘概念与技术(原书第3 版)第一章课后习题及解答1.9 习题1.1 什么是数据挖掘?在你的回答中,强调以下问题:(a) 它是又一种广告宣传吗?(b) 它是一种从数据库、 统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗?(c) 我们提出了一种观点,说数据挖掘是数据库技术进化的结果。你认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科的发展历史提出这一观点吗?针对统计学和模式识别领域,做相同的事。(d) 当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。答:狭义的数据挖掘是知识发现过程中的一个步骤,广义的数据挖掘通常用来表示整个知识发现过程, 我们一般采用广义的观点
2、:数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、WEB 、其他信息存储库或动态地流入系统的数据。a. 它不是一种广告宣传,它基于实际的需求,提供从数据中发现知识的工具。b. 数据挖掘不是从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用,它可以看做是信息技术的自然进化,是一些相关学科和应用领域的交汇点。c. 数据挖掘是数据库技术进化的结果,也是机器学习、统计学和模式识别领域技术进化的结果。机器学习是一个快速成长的学科,这一领域中的监督学习、无监督学习、 半监督学习和主动学习问题, 与数据挖掘高度相关,数据挖掘和机器学习有许多相似之处,对于分类和聚类
3、任务,机器学习研究通常关注模型的准确率。除准确率之外, 数据挖掘研究非常强调挖掘方法在大型数据集上的有效性和可伸缩性,以及处理复杂数据类型的方法,开发新的非传统的方法。统计学研究数据的收集、分析、解释和表示。数据挖掘和统计学具有天然联系。( 1)统计模型是一组数学函数,它们利用随机变量及其概率分布刻画目标类对象的行为,可以是数据挖掘的结果, 也可以是数据挖掘任务的基础。(2)统计学研究开发一些使用数据和统计模型进行预测和预报的工具,描述统计可以帮助理解数据;推理统计学用某种方式对数据建模,可以解释观测中的随机性和确定性,并用来提取关于所考察的过程中或总体的结论。(3)统计假设检验使用实验数据进
4、行统计判决,可以用来验证数据挖掘结果。模式识别领域?d. 当把数据挖掘看做知识发现过程时,数据挖掘包括以下几个步骤:(1)在数据库中进行数据清理和数据集成; (2)在数据仓库中进行数据选择和数据变换;(3)数据挖掘,使用智能方法提取数据模式; (4)进行模式评估和知识表示1.2 数据库与数据仓库有何不同?它们有哪些相似之处?答:数据库系统,也称数据库管理系统(DBMS ) ,由一组内部相关的数据(称做数据库)和一组管理和存取数据的软件程序组成。关系数据库是表的汇集,可以通过数据库查询访问,是数据挖掘的最常见、最丰富的信息源,因此它是我们数据挖掘研究的一种主要数据形式。数据仓库是一种用于长期存储
5、数据的仓库,这些数据来自多个数据源,是经过组织的, 以便支持管理决策。 这些数据在一种统一的模式下存放,并且通常是汇总的。数据仓库提供一些名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 3 页 - - - - - - - - - 数据分析能力, 简称联机分析处理。数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。不同:数据库是由表构成的,数据仓库是由相同:数据库和数据仓库都可以存储数据,都是数据分析和数据挖掘的信息源。1.3 定义下
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年数据挖掘概念与技术习题答案- 2022 数据 挖掘 概念 技术 习题 答案
限制150内