数据挖掘概念与技术第2版习题答案.doc

上传人：豆****

文档编号：17613620

上传时间：2022-05-25

格式：DOC

页数：10

大小：278KB

( 4.5 )

《数据挖掘概念与技术第2版习题答案.doc》由会员分享，可在线阅读，更多相关《数据挖掘概念与技术第2版习题答案.doc（10页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、【精品文档】如有侵权，请联系网站删除，仅供学习与交流数据挖掘概念与技术第2版习题答案.精品文档.数据挖掘概念概念与技术DataMiningConcepts and Techniques习题解答Jiawei Han Micheline Kamber 著范明孟晓峰译1.3假设你是BigUniversity的软件工程师，任务是设计一个数据挖掘系统，分析学校课程数据库。该数据库包括如下信息：每个学生的姓名、地址和状态（例如本科生或研究生）、所修课程以及他们的GPA（平均积分点）。描述你要选取的结构。该结构的每个成分的作用是什么？答：该应用程序的数据挖掘的体系结构应包括以下主要组成部分：l 数据库，数据

2、仓库，万维网或其他信息库：这是一个或一组包含学生和课程信息数据库、数据仓库、电子表格或其他类型的信息库；l 数据库或数据仓库服务器：根据用户数据挖掘请求，数据库或数据仓库服务器负责提取相关数据；l 知识库：这是领域的知识，用于指导搜索或评估结果模式的兴趣度。l 数据挖掘引擎：这是数据挖掘系统的基本部分，理想情况下由一组功能模块组成，用于执行特征化、关联和相关分析、分类、预测、聚类分析、离群点分析和演变分析等任务。l 模式评估模块：该成分使用兴趣度度量，并与数据挖掘模块交互，以便将搜索聚焦在有兴趣的模式上。l 用户界面：该模块在用户和数据挖掘系统之间通信，允许用户与系统交互，说明挖掘查询或任务，

3、提供信息以帮助搜索聚焦，根据数据挖掘的中间结果进行探索式数据挖掘。1.4 数据仓库和数据库有何不同？有哪些相似之处？p8答：区别：数据仓库是面向主题的，集成的，不易更改且随时间变化的数据集合，用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成，是面向操作型的数据库，是组成数据仓库的源数据。它用表组织数据，采用ER数据模型。相似：它们都为数据挖掘提供了源数据，都是数据的组合。1.5 简述以下高级数据库系统和应用：对象-关系数据库、空间数据库、文本数据库、多媒体数据库、流数据和万维网。答：对象关系数据库的设计是基于面向对象的编程范式的数据是大量对象类和类层次结构组

4、织。每个实体在数据库中被视为一个对象。该对象包含一组变量描述的对象，一组消息的对象可以使用的沟通与其他物体或与其余的数据库系统，以及一套方法，每种方法持有的代码实现一个消息。空间数据库包含空间有关的数据，这可能是代表的形式，栅格或矢量数据。栅格数据包括n维位图或像素地图，矢量数据是由点，线，多边形或其他种类的图元处理，一些例子包括地理空间数据库（图）数据库，超大规模集成电路芯片设计，以及医疗和卫星图像数据库。文本数据库包含文本文件或其他长句或段落格式的文字说明，如产品规格、误差或错误报告、警告信息、总结报告、说明或其他文件。多媒体数据库存储的图像，音频，视频数据，并应用于诸如图像、基于内容的检

5、索、语音邮件系统、视频点播系统、互联网和以语音为基础的用户界面。流数据是一类新的数据的产生和分析，其中数据动态地从观测平台（或窗口）流进或流出。特点：海量甚至可能无限，动态变化，以固定的次序流进或流出，只允许一遍或少数几遍扫描，要求快速响应时间。如电力供应、网络通信、股票交易、电信、Web点击流、视频监视和气象或环境监控数据。万维网上提供丰富的、全世界范围内的联机信息服务，其中的数据对象链接在一起便于交互访问。与之关联的分布式信息服务的例子如：美国在线，雅虎！Alta Vista等。翻译结果重试抱歉，系统响应超时，请稍后再试支持中文、英文免费在线翻译支持网页翻译，在输入框输入网页地址即可

6、提供一键清空、复制功能、支持双语对照查看，使您体验更加流畅1.6 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。答：特征化是一个目标类数据的一般特性或特性的汇总。例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Grade point aversge)的信息，还有所修的课程的最大数量。􀁺 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般

7、特性比较。最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75%是四年级计算机科学专业的学生，而具有低GPA 的学生的65%不是。􀁺 关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。例如，一个数据挖掘系统可能发现的关联规则为：major(X, “computing science”) owns(X, “personal computer”)support=12%, confidence=98% 其中，X 是一个表示学生的变量。这个规则指出正在学习的学生，12%（支持度）主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台

8、个人电脑的概率是98%（置信度，或确定度）。􀁺 分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。􀁺 聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式，将观测组织成类分层结构，把类似的事件组织在一起。􀁺 数据演变

9、分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析2.2 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。年龄频率 15 200 515 450 1520 300 2050 1500 5080 700 80110 44 计算数据的近似中位数值。解答：先判定中位数区间：N=200+450+300+1500+700+44=3194；N/2=1597 200+450+300=9501597= 1.25 * min(shelf) and

10、 = 1.25*MIN(Shelf) and R1.Shelf = 1.5*MIN(Shelf) and R1.Price 100（c）这是一个分布式多特征立方体吗？为什么？答：不，这不是一个分布式的多特征立方体。因为在such that子句中含有 1. 所以，买 hot dogs不是独立于买humburgers。两者存在正相关关系6.1 简述决策树分类的主要步骤。6.6 给定一个具有50个属性（每个属性包含100个不同值）的5GB的数据集，而你的台式机有512M内存。简述对这种大型数据集构造决策树的一种有效算法。通过粗略地计算机主存的使用说明你的答案是正确的。 We will use th

11、e RainForest algorithm for this problem. Assume there are C class labels. The most memory required will be for AVC-set for the root of the tree. To compute the AVC-set for the root node, we scan the database once and construct the AVC-list for each of the 50 attributes. The size of each AVC-list is

12、100C. The total size of the AVC-set is then 100 C50, which will easily fit into 512MB of memory for a reasonable C. The computation of other AVC-sets is done in a similar way but they will be smaller because there will be less attributes available. To reduce the number of scans we can compute the AV

13、C-set for nodes at the same level of the tree in parallel. With such small AVC-sets per node, we can probably fit the level in memory.这个问题我们将使用雨林算法。假设有C类标签。最需要的内存将是avc-set为根的树。计算avc-set的根节点，我们扫描一次数据库，构建avc-list每50个属性。每一个avc-list的尺寸是100C，avc-set的总大小是100C50，对于合理的C将很容易适应512 MB内存，计算其他avc-sets也是使用类似的方法，但

14、他们将较小，因为很少属性可用。在并行计算时，我们可以通过计算avc-set节点来减少同一水平上的扫描次数，使用这种每节点小avc-sets的方法，我们或许可以适应内存的水平。6.11下表由雇员数据库的训练数据组成。数据已泛化。例如：age “31.35”表示年龄在31-35之间。对于给定的行，count表示department,status,age和salary在该行具有给定值的元组数。设status 是类标号属性。（a）如何修改基本决策树算法，以便考虑每个广义数据元组（即每一行）的count?(b)使用修改的算法，构造给定数据的决策树。 (c)给定一个数据元组，它在属性department,

15、age和salary的值分别为“systems”,“26.30”,和“46K. 50K”。该元组status的朴素贝叶斯分类是什么？（d）为给定的数据设计一个多层前馈神经网络。标记输入和输出层节点。（e）使用上面得到的多层前馈神经网络，给定训练实例（sales,senior,31.35,46K.50K）,给出后向传播算法一次迭代的权重值。指出你使用的初始权重和偏倚以及学习率。6.12支持向量机（SVM）是一种具有高准确率的分类方法。然而，在使用大型数据元组集进行训练时，SVM的处理速度很慢。讨论如何克服这一困难，并为大型数据集有效的SVM算法。7.1简单地描述如何计算由如下类型的变量描述的

16、对象间的相异度：（a）数值（区间标度）变量 (b)非对称的二元变量（c）分类变量（d）比例标度变量（e）非数据微量对象7.2给定年龄变量的如下测量值：18; 22; 25; 42; 28; 43; 33; 35; 56; 28;用如下的方法对该变量标准化（a）计算两个对象之间的欧几里得距离（b）计算两个对象之间的曼哈顿距离 (c) 计算两个对象之间的闵可夫斯基距离，用p=37.6 假设数据挖掘的任务是将如下的八个点(用（x,y）代表位置)聚类为三个簇。A1(2; 10);A2(2; 5);A3(8; 4);B1(5; 8);B2(7; 5);B3(6; 4);C1(1; 2);C2(4; 9): 距离函数是欧几里得距离。假设初始我们选择A1, B1,和 C1分别为每个簇的中心，用k均值算法只给出 (a) 在第一轮执行后的三个簇中心 (b) 最后的三个簇

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据挖掘概念技术习题答案

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：数据挖掘概念与技术第2版习题答案.doc
链接地址：https://www.taowenge.com/p-17613620.html