数据挖掘考试重点复习(8页).doc
《数据挖掘考试重点复习(8页).doc》由会员分享,可在线阅读,更多相关《数据挖掘考试重点复习(8页).doc(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-1.2.3.4. 数据挖掘考试重点复习-第 10 页5. 了解商务智能的定义与大数据的四个基本特征;答:商务智能是企业利用数据仓库(DW)、数据挖掘(DM)、在线分析处理(OLAP)、决策支持系统(DSS)等现代信息技术对企业生产、经营过程中产生的大量结构化和非结构化数据进行收集、整理、分析,形成知识或情报,以辅助企业做出正确的决策、采取有效的商务行动、优化商务流程、全面提升商务绩效的工具、方法和技术的统称。大数据特征: (4个V)6. 理解商务智能系统的5层结构商务智能系统结构大致分为五层: 数据源层:也可称作操作型数据层,是整个数据仓库的基础,提供了整个系统最原始的数据 数据获取层:也可
2、称作数据转换层,主要是把数据源层的数据通过ETCL过程转换到数据仓库中 数据存取层:该层是按主题进行分析和对相关的数据进行挖掘的数据源,包括每一个按主题进行分类的数据集市或专门用于数据挖掘的数据仓库 数据分析服务层:该层是数据存储和前端分析工具的桥梁 前端展现层:用户界面7. 理解操作型与分析型系统分离的必要性以及他们的特征8. 理解维度爆炸给数据挖掘带来的困难数据过高的维度会给计算带来麻烦,在数据挖掘处理时,它会耗费很多的处理时间和内存容量。数据的高维度还使得数据间的关系也不容易察觉,增加了数据的无关属性和噪音点。9. 掌握数据仓库的定义并理解其四个方面的特征数据仓库是决策支持系统和联机分析
3、应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。(数据仓库是为支持管理决策建立的,面向主题的、集成的、随时间变化的、相对稳定的数据集合。)【滔注:我觉得写括号里的会好一点】四方面特征: 面向主题:主题是指用户使用数据仓库进行决策时所关心的重点忙面。 集成性:在数据进入数据仓库之前,要进过统一于综合,将多个异源数据集成在一起。这一步是数据仓库建设中最关键、最复杂的一步。 时变性:数据仓库随时间变化不断增加新的数据。 相对稳定性:数据仓库反映的是历史的内容,而不是联机数据,主要供企业决策分析之用。10. 掌握数据挖掘的定义并描述其主要特征【数据挖掘定义】从大量的、不完全的、
4、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。数据挖掘是从大量数据中寻找其规律的技术。【主要步骤】(1)数据准备:从各种数据源中选取和集成用于数据挖掘的数据 ;(2)规律寻找:用某种方法将数据中的规律找出来;(3)规律表示:用尽可能符合用户习惯的方式将找出的规律表示出来。11. 掌握Minkowski距离,并熟练计算l1,l2,l无穷norm【L1norm】当r=1,城市街区(也称曼哈顿、出租车、L1范数)距离;【L2norm】当r=2,欧几里得距离;【Lnorm】当r=,上确界距离,这是对象属性之间的最大距离。12. 理解Hunts算
5、法的基本过程通过将训练记录相继划分成较纯的子集,以递归方式建立决策树。设Dt是与节点t相关联的训练记录集,而Y= y1,y2,yc是类标号,Hunt算法的递归定义如下:(1)如果Dt中所有记录都属于同一个类yt,则t是叶节点,用yt标记。(2)如果Dt中包含属于多个类的记录,则选择一个属性测试条件,将记录划分成较小的子集。对于测试条件的每个输出,创建一个子女节点,并根据测试结果将Dt中的记录分布到子女节点中。然后,对于每个子女节点,递归地调用该算法。13. 掌握吉尼系数、熵的定义,会计算其最大值与最小值,理解信息增益在构造决策树时的意义【基尼系数、熵是度量不纯度的方法】GINI系数和熵都是越小
6、,代表所分的节点属性越纯,最小可取到0,表示这个节点中只有一个类。当一个节点中有n个父节点,而且能分出n个子节点,GINI系数取到最大值,为1-1/n. 熵也取到最大值 log2 n (滔注:那个2是角标,不是log2n !)【基尼值的性质】:越大越不纯,越小越纯,0最纯,1-1/n最不纯。c.最大值、最小值(最小值表示最纯,最大值表示最不纯)【熵】在信息领域熵被用来衡量一个随机变量出现的期望值。熵是对信息的不确定性的度量。熵越低,意味着传输的信息越少。【熵的性质】:熵是衡量节点一致性的函数。熵大于等于0,当且仅当p1=p2=pn时,熵最大,纯的节点熵是0.【信息增益】当选择熵作为公式的不纯性
7、度量时,熵的差就是所谓的信息增益。信息增益描述了当使用Q进行编码时,再使用P进行编码的差异。通常P代表样本或观察值的分布,也有可能是精确计算的理论分布。Q代表一种理论,模型,描述或者对P的近似。当纯度高达1时(即只有一种数据类型),熵最小,为0;当其中的各类数据均匀分布时,熵最大,为-log2p(j|t)。14. 理解了解最邻近分类的基本思想,邻近分类的前提条件与分类过程【近邻分类法】是基于类比学习,即通过将给定的检验元组与和它相似的训练元组进行比较来学习。训练元组用n个属性描述。每个元祖代表n维空间的一个点。这样,所有的训练元组都存放在n维模式空间中。当给定一个未知元组时,近邻分类法搜索模式
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 考试 重点 复习
限制150内