(完整版)数据挖掘离线作业.pdf
《(完整版)数据挖掘离线作业.pdf》由会员分享,可在线阅读,更多相关《(完整版)数据挖掘离线作业.pdf(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、浙江大学远程教育学院数据挖掘课程作业姓名:学号:年级:学习中心:第一章引言一、填空题(1) 数据库中的知识挖掘(KDD) 包括以下七个步骤:数据清理、数据集成、数据选择、数据交换、数据挖掘、模式评估和知识表示(2) 数据挖掘的性能问题主要包括:算法的效率、 可扩展性和并行处理(3) 当前的数据挖掘研究中,最主要的三个研究方向是:统计学、 数据库技术和机器学习(4) 孤立点是指:一些与数据的一般行为或模型不一致的孤立数据二、简答题(1)什么是数据挖掘?答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。(2)一个典型的数据挖掘系统应该包括哪些
2、组成部分?答:一个典型的数据挖掘系统应该包括以下部分:1、数据库、数据仓库或其他信息库,2、数据库或数据仓库服务器,3、知识库, 4、数据挖掘引擎,5、模式评估魔磕,6 图形用户界面。(3)Web 挖掘包括哪些步骤?答:数据清理: (这个可能要占用过程60%的工作量)、数据集成、将数据存入数据仓库、建立数据立方体、 选择用来进行数据挖掘的数据、数据挖掘 (选择适当的算法来找到感兴趣的模式)、展现挖掘结果、将模式或者知识应用或者存入知识库。(4)请列举数据挖掘应用常见的数据源。(或者说,我们都在什么样的数据上进行数据挖掘)答:常见的数据源包括关系数据库、数据仓库、 事务数据库和高级数据库系统和信
3、息库。其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、 面向对象数据库和对象关系数据库、异种数据库和遗产数据库、文本数据库和万维网等。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 1 页,共 9 页 - - - - - - - - - - 第二章认识数据一、填空题(1)两个文档向量d1和 d2的值为: d1= (1, 0, 3, 0, 2),d2 = (3, 2, 0, 0, 1),则它们的余弦相似度为:5/13 (2)数据离散度的常用度量包括极差、分位、百
4、分位数、四分位数极差和标准差(3)一种常用的确定离群点的简单方法是:出落在至少高于第三个四份位数或低于第一个四分位数 1.5xIQR 处的值。二、单选题( 1) 对 于 下 图 所 示 的 正 倾 斜 数 据 , 中 位 数 、 平 均 值 、 众 数 三 者 之 间 的 关 系 是 :(C)A、中位数 =平均值 =众数; B 中位数 平均值 众数;C、平均值 中位数 众数; D;众数 中位数 平均值(2)下面的散点图显示哪种属性相关性?(C) A 不相关;B 正相关;C 负相关;D 先正相关然后负相关;三、简答题(1)什么是基于像素的可视化技术?它有什么缺点?答:对于一个m 维数据集,基于像
5、素的可视化技术在屏幕上创建m 个窗口,每维一个。记录的 m 个维值映射到这些窗口对应位置上的m 个像素。像素的颜色反映对应的值。基于像素的可视化技术的缺点:难以呈现多维空间的数据分布,不显示数据子空间中是否存在稠密区域。(2)对称的和不对称的二元属性有什么区别?答:对称的二元属性指变量的两个状态具有同等价值或相同权重;而不对称的二元属性中,变量的两个状态的重要性是不同的。对称的二元属性可以使用简单匹配系数评估它们的相异度;不对称的二元属性使用Jaccard系数评估它们的相异度。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - -
6、 - - - -第 2 页,共 9 页 - - - - - - - - - - 第三章数据预处理一、填空题(1) 进行数据预处理时所使用的主要方法包括:数据清理、 数据变换、 数据集成和数据规约(2)数据概化是指:沿概念分层向上概化(3)数据压缩可分为:有损压缩和无损压缩两种类型。(4)进行数值归约时,三种常用的有参方法是:线性回归方法、多元回归和对数线性模型二、简答题(1)常用的数值属性概念分层的方法有哪些?答:常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。(2)请描述主成份分析(PCA)算法步骤答:主成份分析步骤为:a、规范化输入的数据:所有属
7、性落在相同的区间内;b、计算 k 个标准正交向量,即主成分;c、每个输入数据的向量都是这k 个主成分向量的线性组合;d、主成分按照重要程度降序排序。(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。答:处理空缺值的方法有:1) 忽略元组。当类标号缺少时通常这么做(假定挖掘任务设计分类或描述) ,当每个属性缺少值的百分比变化很大时,它的效果非常差。2) 人工填写空缺值。这种方法工作量大,可行性低3) 使用一个全局变量填充空缺值:比如使用unknown 或- 4) 使用属性的平均值填充空缺值5) 使用与给定元组属同一类的所有样本的平均值6) 使用最可能的值填充空缺
8、值。如使用像Bayesian 公式或判定树这样的基于推断的方法。(4)常见的数据归约策略包括哪些?答:数据归约策略包括:1)数据立方体聚集2 维归约3数据压缩4 数值归约5 离散化和概念分层产生。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 3 页,共 9 页 - - - - - - - - - - 第六七章挖掘频繁模式、关联和相关一、填空题(1)关联规则挖掘中,两个主要的兴趣度度量是:支持度和置信度(2)Aprior 算法包括连接和剪枝两个基本步骤(3)项集的频率是指包含项集的事务数(4)大型数据库中
9、的关联规则挖掘包含两个过程:找出所有频繁项集和由频繁项集产生强关联规则(5)根据规则中所处理的值类型,关联规则可分为:布尔关联规则和量化关联规则(6)Apriori性质是指:频繁项集的所有非空子集也必须是频繁的(7)在多维关联规则挖掘中,我们搜索的不是频繁项集,而是频繁谓词集二、简答题(1)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。答:优点: 搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索。 缺点:最小支持度值设置困难:太高则将丢掉出现在较低抽象层中有意义的关联规则;太低则会在较高层产生太多的无兴趣的规则。(2)如何提高Apriori 算法
10、的有效性?有哪些常见方法?答:可以使用以下几个思路提升Apriori 算法有效性:减少对数据的扫描次数;缩小产生的候选项集; 改进对候选项集的支持度计算方法。常见方法包括: a、基于 hash表的项集计数;b、事务压缩 (压缩进一步迭代的事务数)c、划分; d、选样(在给定数据的一个子集挖掘);e、动态项集计数。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 4 页,共 9 页 - - - - - - - - - - 第八章分类一、填空题(1)数据分类模型的常用表示形式包括分类规则、决策树和数据公式等。(
11、2)朴素贝叶斯分类是基于类条件独立假设。二、简答题(1)在判定树归纳中,为什么树剪枝是有用的?答:决策树建立时, 许多分枝反映的是训练数据中的噪声和离群点点,树剪枝可以识别并剪去这种分枝,以提高对未知数据分类的准确性。(2)为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类优缺点。答:基于贝叶斯定理的推断需要大量训练数据以覆盖类条件概率空间,引入了很大开销。朴素贝叶斯分类做了类条件独立假设,大幅降低了计算开销。他的优点是容易实现并在大多数情况下可以取得较好的结果;他的缺陷是类条件独立在实际应用中缺乏准确性,因为变量之间经常存在依赖关系;这种依赖关系影响了朴素贝叶斯分类器的准确性。(3)分类
12、方法的常用评估度量都有哪些?答:精度( Precision) : 标记为正类的元组实际为正类所占的百分比召回率:正元组标记为正的百分比F 度量:精度和召回率的调和评估指标准确率( accuracy) , 识别率:测试数据中被正确分类的元组所占的百分比;灵敏度(Sensitivity ) :真正例(识别)率特效性(Specificity ) :真负例率(4)简述数据分类的两步过程。答:第一步,建立模型:建立描述预先定义的数据类或概念集的分类器;第二步,在独立测试集上评估模型的预测准确率,通过测试后再使用模型,对新的数据进行分类。三、算法题(1)使用判定树归纳算法,根据顾客年龄age(分为 3 个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 完整版 数据 挖掘 离线 作业
限制150内