数据挖掘试题-答案版.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《数据挖掘试题-答案版.docx》由会员分享,可在线阅读,更多相关《数据挖掘试题-答案版.docx(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘试题-答案版、填空题1 . Web 挖掘可分为 Web 内容 、 web 结构 和 web 用法 3大类。2 .数据仓库需要统一数据源,包括统一、统一、统一和统一 数据特征4个方面。3 .数据分割通常按时间、地理位置、业务类型、以 及组合方法进行。4 .噪声数据处理的方法主要有分类、聚类和叵 归。5 .数值归约的常用方法有直方图、聚类、抽 样、立方体聚集和对数模型等。6 .评价关联规则的2个主要指标是 支持度 和 置信7 .多维数据集通常采用星型或雪花型架构,以事实 表为中心,连接多个维度表。8 .决策树是用对象属性作为结点,用对象值作为分 支的树结构。9 .关联可分为简单关联、时序关
2、联和因果关联操作型数据分析型数据当前的、细节的历史的、综合的面向应用、事务驱动面向分析、分析驱动频繁增、册U、改几乎不更新,定期追加操作需求事先知道分析需求事先不知道生命周期符合SDLC完全不同的生命周期对性能要求高对性能要求宽松一次操作数据量小一次操作数据量大支持日常事务操作支持管理决策需求4.何谓OLTP和OLAP?它们的主要异同有哪些?OLTP即联机事务处理,是以传统数据库为基础、面向操作人 员和低层管理人员、对基本数据进行查询和增、册h改等的日常 事务处理。OLAP即联机分析处理,是在OLTP基础上发展起来的、 以数据仓库基础上的、面向高层管理人员和专业分析人员、为企 业决策支持服务。
3、OLTP和OLAP的主要区别如下表:OLTPOLAP数据库数据数据库或数据仓库数据细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理用户数量大面向操作人员,支持日常操作面向应用,事务驱动用户数量大面向操作人员,支持日常操作面向应用,事务驱动用户数据相对较少面向决策人员,支持管理需要面向分析,分析驱动5 .何谓粒度?它对数据仓库有什么影响?按粒度组织数据的 方式有哪些?粒度是指数据仓库的数据单位中保存数据细化或综合程度的 级别。粒度影响存放在数据仓库中的数据量的大小,同时影响数 据仓库所能回答查询问题的细节程度。按粒
4、度组织数据的方式主 要有:1简单堆积结构2轮转综合结构3简单直接结构4连续结构6 .简述数据仓库设计的三级模型及其基本内容。概念模型设计是在较高的抽象层次上的设计,其主要内容包 括:界定系统边界和确定主要的主题域。逻辑模型设计的主要内容包括:分析主题域、确定粒度层次 划分、确定数据分割策略、定义关系模式、定义记录系统。物理数据模型设计的主要内容包括:确定数据存储结构、确 定数据存放位置、确定存储分配以及确定索引策略等。在物理数 据模型设计时主要考虑的因素有:I/O存取时间、空间利用率和维 护代价等。提高性能的主要措施有划分粒度、数据分割、合并表、建立 数据序列、引入冗余、生成导出数据、建立广义
5、索引等。7 .在数据挖掘之前为什么要对原始数据进行预处理?原始业务数据来自多个数据库或数据仓库,它们的结构和规 则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使 在同一个数据库中,也可能存在重复的和不完整的数据信息,为 了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的 结果,必须进行数据的预处理。为数据挖掘算法提供完整、干净、准确、有针对性的数据, 减少算法的计算量,提高挖掘效率和准确程度。8 .简述数据预处理方法和内容。1数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关 数据。2数据集成:将多个数据源中的数据结合起来存放在一个一致 的数据存储中。需要注意不同数据源的数据匹
6、配问题、数值冲突 问题和冗余问题等。3数据变换:将原始数据转换成为适合数据挖掘的形式。包括 对数据的汇总、聚集、概化、规范化,还可能需要进行属性的重 构。4数据归约:缩小数据的取值范围,使其更适合于数据挖掘算 法的需要,并且能够得到和原始数据相同的分析结果。9 .简述数据清理的基本内容。1尽可能赋予属性名和属性值明确的含义;2统一多数据源的属性值编码;3去除无用的惟一属性或键值(如自动增长的id);4去除重复属性(在某些分析中,年龄和出生日期可能就是重 复的属性,但在某些时候它们可能又是同时需要的)5去除可忽略字段(大部分为空值的属性一般是没有什么价值 的,如果不去除可能造成错误的数据挖掘结果
7、)6合理选择关联字段(对于多个关联性较强的属性,重复无 益,只需选择其中的部分用于数据挖掘即可,如价格、数据、金 额)7去掉数据中的噪音、填充空值、丢失值和处理不一致数据。10 .简述处理空缺值的方法。1忽略该记录;2去掉属性;3手工填写空缺值;4使用默认值;5使用属性平均值;6使用同类样本平均值;7预测最可能的值。11 .常见的分箱方法有哪些?数据平滑处理的方法有哪些?分箱的方法主要有:1统一权重法(又称等深分箱法)2统一区间法(又称等宽分箱法)3最小火商法4自定义区间法数据平滑的方法主要有:平均值法、边界值法和中值法。12 .何谓数据规范化?规范化的方法有哪些?写出对应的变换 公式。将数据
8、按比例缩放(如更换大单位),使之落入一个特定的区 域(如0.01.0),称为规范化。规范化的常用方法有:(1)最大一最小规范化:(2)零一均值规范化:(3)小数定标规范化:x = x0/10n.数据归约的方法有哪些?为什么要进行维归约?1数据立方体聚集2维归约3数据压缩4数值压缩5离散化和概念分层维归约可以去掉不重要的属性,减少数据立方体的维数,从 而减少数据挖掘处理的数据量,提高挖掘效率。13 .何谓聚类?它与分类有什么异同?聚类是将物理或抽象对象的集合分组成为多个类或簇 (cluster)的过程,使得在同一个簇中的对象之间具有较高的相似 度,而不同簇中的对象差别较大。聚类与分类不同,聚类要
9、划分的类是未知的,分类则可按已 知规则进行;聚类是一种无指导学习,它不依赖预先定义的类和 带类标号的训练实例,属于观察式学习,分类则属于有指导的学 习,是示例式学习。14 .举例说明聚类分析的典型应用。商业:帮助市场分析人员从客户基本库中发现不同的客户 群,并且用不同的购买模式描述不同客户群的特征。生物学:推导植物或动物的分类,对基于进行分类,获得 对种群中固有结构的认识。WEB文档分类其他:如地球观测数据库中相似地区的确定;各类保险投 保人的分组;一个城市中不同类型、价值、地理位置房子的分组 等。聚类分析还可作为其他数据挖掘算法的预处理:即先进行 聚类,然后再进行分类等其他的数据挖掘。聚类分
10、析是一种数据 简化技术,它把基于相似数据特征的变量或个案组合在一起。15 .聚类分析中常见的数据类型有哪些?何谓相异度矩阵?它 有什么特点?常见数据类型有区间标度变量、比例标度型变量、二元变 量、标称型、序数型以及混合类型等。相异度矩阵是用于存储所有对象两两之间相异度的矩阵,为一个nn维的单模矩阵。其特点 是 d(i, j)=d(j, i), d(i, i)=0, d(j, j)=0o 如下所示:0d(2J)0d(3J)d(3,2)0 d(n4) d(n,2) 017 .分类知识的发现方法主要有哪些?分类过程通常包括哪两 个步骤?分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神 经网络法、
11、粗糙集法和遗传算法。分类的过程包括2步:首先在 已知训练数据集上,根据属性特征,为每一种类别找到一个合理 的描述或模型,即分类规则;然后根据规则对新数据进行分类。18 .什么是决策树?如何用决策树进行分类?决策树是用样本的属性作为结点,用属性的取值作为分支的 树结构。它是利用信息论原理对大量样本的属性进行分析和归纳 而产生的。决策树的根结点是所有样本中信息量最大的属性。树 的中间结点是以该结点为根的子树所包含的样本子集中信息量最 大的属性。决策树的叶结点是样本的类别值。决策树用于对新样本的分类,即通过决策树对新样本属性值 的测试,从树的根结点开始,按照样本属性的取值,逐渐沿着决 策树向下,直到
12、树的叶结点,该叶结点表示的类别就是新样本的 类别。决策树方法是数据挖掘中非常有效的分类方法。19 .简述ID3算法的基本思想及其主算法的基本步骤。首先找出最有判别力的因素,然后把数据分成多个子集,每 个子集又选择最有判别力的因素进一步划分,一直进行到所有子 集仅包含同一类型的数据为止。最后得到一棵决策树,可以用它 来对新的样例进行分类。主算法包括如下几步:从训练集中随机选择一个既含正例又含反例的子集(称为窗 口);用“建树算法”对当前窗口形成一棵决策树;对训练集(窗口除外)中例子用所得决策树进行类别判定, 找出错判的例子;若存在错判的例子,把它们插入窗口,重复步骤,否则 结束。20 .简述ID
13、3算法的基本思想及其建树算法的基本步骤。首先找出最有判别力的因素,然后把数据分成多个子集,每 个子集又选择最有判别力的因素进一步划分,一直进行到所有子 集仅包含同一类型的数据为止。最后得到一棵决策树,可以用它 来对新的样例进行分类。建树算法的具体步骤如下: 对当前例子集合,计算各特征的互信息;选择互信息最大的特征Ak;把在Ak处取值相同的例子归于同一子集,Ak取几个值就得 几个子集;对既含正例又含反例的子集,递归调用建树算法;若子集仅含正例或反例,对应分枝标上P或N,返回调用 处。21 .设某事务项集构成如下表,填空完成其中支持度和置信度 的计算。事务ID项集L2支持度规则置信度%T1A, D
14、A, B33. 3AfB50T2D, EA, C33. 3CA60T3A, C, EA, D44.4A-D66. 7T4A, B, D, EB, D33. 3Bf D75T5A, B, CC, D33.3C-D60T6A, B, DD, E33. 3D-E43T7A, C, D T8C, D, ET9B, C, D22 . 从信息处理角度看,神经元具有哪些基本特征?写 出描述神经元状态的M-P方程并说明其含义。10 . BP神经网络的作用函数通常为区间的。11 .数据挖掘的过程主要包括确定业务对象、数据准备、 数据挖掘、结果分析及知识同化等几个步骤。12 .数据挖掘技术主要涉及、和3个技术领域
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 试题 答案
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内