广工数据挖掘复习要点汇总通信电子数据通信与网络_计算机-网络与通信.pdf
《广工数据挖掘复习要点汇总通信电子数据通信与网络_计算机-网络与通信.pdf》由会员分享,可在线阅读,更多相关《广工数据挖掘复习要点汇总通信电子数据通信与网络_计算机-网络与通信.pdf(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、学习必备 欢迎下载 第一章 绪论 1.数据挖掘要解决的问题:面对高维,复杂,异构的海量数据,如何集中获取有用的信息和知识。2.数据挖掘定义:技术层面上:数据挖掘就是从大量数据提取有用信息的过程;商业层面上:数据挖掘就是对大量业务数据进行抽取,转换和分析以及建模处理,从 中提取辅助商业决策的关键性数据。3.数据挖掘的特征:先前未知,有效和实用。4.数据挖掘对象:关系数据库(借助集合代数等概念和方法来处理数据库中的数据)数据仓库(数据集合,用于支持管理决策)事务数据库(每个记录代表一个事务)空间数据库 事态数据库和时间序列数据库流数据多媒体数据库文本数据库万维数据库 5.数据挖掘任务:分类分析(按
2、照某种规则),聚类分析(具有共性),回归分析,关联分析(具有关联规则),离群点检测(发现与众不同的数据),演化分析(随时间变化的数据对象的趋势),序列模式挖掘(分析前后序列模式)6.数据挖掘过程:数据清洗,数据集成(考虑数据一致性和冗余),数据选择,数据转换,数据挖掘,模式评估,知识表示。例题:1.1 数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。答:数据挖掘处理的对象是某一专业领域中积累的数据,对象既可以来自社会科学,又可以 来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同,可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的 数
3、据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web 数据 信息。实际生活的例子:电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所 开通的服务等,据此进行客户群体划分以及客户流失性分析。天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文 学家发现其他未知星体。制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。1.5 定义下列数据挖掘功能:关联、分类、聚类、演变分析、离群点检测。使用你熟悉的生 活中的数据,给出每种数据挖掘功能的例子
4、。学习必备 欢迎下载 答:关联是指发现样本间或样本不同属性间的关联。例如,一个数据挖掘系统可能发现 的关联规则为:major(X,“computing science”)owns(X,“personal computer”)support=12%,confidence=98%其中,X 是一个表示学生的变量。该规则指出主修计 算机科学并且拥有一台个人计算机的学生所占比例为12%,同时,主修计算机专业的学 生有98%拥有个人计算机。分类是构造一系列能描述和区分数据类型或概念的模型(或功能),分类被用作预测 目标数据的类的标签。例如,通过对过去银行客户流失与未流失客户数据的分析,得到 一个预测模型,
5、预测新客户是否可能会流失。聚类是将数据划分为相似对象组的过程,使得同一组中对象相似度最大而不同组中 对象相似度最小。例如,通过对某大型超市客户购物数据进行聚类,将客户聚类细分为 低值客户、高值客户以及普通客户等。数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间 相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括 时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析。离群点检测就是发现与众不同的数据。可用于发现金融领域的欺诈检测。第二章 数据处理基础 1.数据及数据类型:数据是数据库存储的基本对象,数据类型:标称属性,序数属性,区间属性,
6、比率属性。2.数据集分为三类:记录数据,基于图形的数据和有序的数据集。补充:数据统计特征:均值,中位数,中列数(数据集中最大和最小值的平均值),众数(出现频率最高的值),截断均值(指定 010 间的百分位数 p,丢弃高端的和低端的(p/2)%的数据,然后按照计算均值那样计算)3.数据挖掘的效果直接受到数据源的影响。4.数据清理的目的:试图填充缺失数据,去除噪声并识别离群点,纠正数据中的不一致值。5.缺失值的处理方法:(分析时)忽略元组,(分析时)忽略属性列,(估计缺失值)人工填写缺失数据,(估计缺失值)自动填充缺失数据。6.噪声平滑方法:分箱,聚类。7.数据聚合的目的:将两个或多个数据源中的数
7、据,存放在一个一致的数据存储设备中。8.数据变换的内容:数据泛化(把学科分为理学和工学,忽略细节),规范化,特征构造(集中数据特征构造新的特征,减少特征维数),数据离散化(出现了熵计算)。9.数据归约:维度归约和特征变换:维度归约可以删除不相关的特征并降低噪声,降低维度灾难风 险,降低数据挖掘的时间复杂度和空间复杂度,特征变幻可以反应出数据的不同视角识数据挖掘定义技术层面上数据挖掘就是从大量数据提取有用信息的过程商业层面上数据挖掘就是对大量业务数据进行抽取转换和分析以及建模处理从中提取辅助商业决策的关键性数据数据挖掘的特征先前未知有效和实用数据挖掘库每个记录代表一个事务空间数据库事态数据库和时
8、间序列数据库流数据多媒体数据库文本数据库万维数据库数据挖掘务分类分析按照某种规则聚类分析具有共性回归分析关联分析具有关联规则离群点检测发现与众不同的数据演化性和冗余数据选择数据转换数据挖掘模式评估知识表示例题数据挖掘处理的对象有哪些请从实际生活中举出至少三种答数据挖掘处理的对象是某一专业领域中积累的数据对象既可以来自社会科学又可以来自自然科学产生的数据还可学习必备 欢迎下载 的不同特征。抽样:长期用于数据的事先调查和最终的数据分析,在数据挖掘中,抽样是选择数据 子集进行分析的常用方法。1)无放回的简单随机抽样方法 2)有放回的简单随机抽样方法 3)分层抽样方法 特征选择:从一组已知特征的集合中
9、选取最具有代表性的特征子集,使其保留原有 数据的大部分特征,正确区分数据集中的每个数据对象。根据特征选择过程与后续 数据挖掘任务的关联可分为三种方法:过滤,封装和嵌入。根据是否用到类信息的指导,分为监督式,无监督式和半监督式特征选择 特征子集选择的搜索策略:逐步向前选择(从空集开始,逐步添加),逐步向 后删除(从整个属性集开始,逐个删除),向前选择和向后删除相结合,决策树归约。特征搜索过程中不可缺少的环节就是逐步评估。数据预处理方法:数据清理,数据集成,数据变换,数据归约,数据离散化 例题:2.5 假定用于分析的数据包含属性 age,数据元组中 age 的值如下(按递增序):13,15,16,
10、16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。(a)使用按箱平均值平滑对以上数据进行平滑,箱的深度为 3。解释你的步骤。评论对于给定的数据,该技术的效果。(b)对于数据平滑,还有哪些其它方法?答:(a)已知数据元组中 age 的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70,且箱的深度为 3,划分为(等频)箱:箱 1:13,15,16 箱 2:16,19
11、,20 箱 3:20,21,22 箱 4:22,25,25 箱 5:25,25,30 箱 6:33,33,33 箱 7:35,35,35 箱 8:35,36,40 箱 9:45,46,52 箱 10:70 用箱均值光滑:箱 1:15,15,15 箱 2:18,18,18 箱 3:21,21,21 箱 4:24,24,24 箱 5:27,27,37 箱 6:33,33,33 箱 7:35,35,35 箱 8:37,37,37 箱 9:48,48,48 箱 10:70;识数据挖掘定义技术层面上数据挖掘就是从大量数据提取有用信息的过程商业层面上数据挖掘就是对大量业务数据进行抽取转换和分析以及建模处理
12、从中提取辅助商业决策的关键性数据数据挖掘的特征先前未知有效和实用数据挖掘库每个记录代表一个事务空间数据库事态数据库和时间序列数据库流数据多媒体数据库文本数据库万维数据库数据挖掘务分类分析按照某种规则聚类分析具有共性回归分析关联分析具有关联规则离群点检测发现与众不同的数据演化性和冗余数据选择数据转换数据挖掘模式评估知识表示例题数据挖掘处理的对象有哪些请从实际生活中举出至少三种答数据挖掘处理的对象是某一专业领域中积累的数据对象既可以来自社会科学又可以来自自然科学产生的数据还可学习必备 欢迎下载(b)对于数据平滑,其它方法有:(1)回归:可以用一个函数(如回归函数)拟合数据来光滑数据;(2)聚类:可
13、以通过聚类检测离群点,将类似的值组织成群或簇。直观地,落在簇集合 之外的值视为离群点。2.6 使用习题 2.5 给出的 age 数据,回答以下问题:(a)使用 min-max 规范化,将 age 值 35 转换到0.0,1.0区间。(b)使用 z-score 规范化转换 age 值 35,其中,age 的标准偏差为 12.94 年。(c)使用小数定标规范化转换 age 值 35。(d)指出对于给定的数据,你愿意使用哪种方法。陈述你的理由。答:(a)已知最大值为 70,最小值为 13,则可将 35 规范化为:386.013-7013-35;(b)已知均值为 30,标准差为 12.94,则可将 3
14、5 规范化为:386.04.91230-35;(c)使用小数定标规范化可将 35 规范化为:35.010035;2.17 给定两个向量对象,分别表示为 p1(22,1,42,10),p2(20,0,36,8):(a)计算两个对象之间的欧几里得距离 (b)计算两个对象之间的曼哈顿距离 (c)计算两个对象之间的闵可夫斯基距离,用 x=3(d)计算两个对象之间的切比雪夫距离 答:(a)计算两个对象之间的欧几里得距离 458103642012022222212)()()()(d(b)计算两个对象之间的曼哈顿距离 11810364201202212|d(c)计算两个对象之间的闵可夫斯基距离,其中参数 r
15、=3 333333122338103642012022|d(d)切比雪夫距离:|)max(|12qpd=6 2.8 以下是一个商场所销售商品的价格清单(按递增顺序排列,括号中的数表示前面数字出现次数)1(2)、5(5)、8(2)、10(4)、12、14(3)、15(5)、18(8)、20(7)、21(4)、25(5)、28、30(3)。请分别用等宽的方法和等高的方法对上面的数据集进行划分。答:(1)等宽方法:划分为 3 个数据集,每个数据集的宽度为价格 10。价格在 110 之间出现次数为 13;价格在 1120 之间出现的次数为 24;价格在 2130 之间出现的次数为 13。(2)等高方法
16、:划分为 2 个数据集,每个数据集的高度为出现的次数 4。出现次数 14之间的价格为 1、8、10、12、14、21、28、30,共 8 个数据;出现次数 58 之间的价格为 5、15、18、20、25,共 5 个数据。2.9 讨论数据聚合需要考虑的问题。识数据挖掘定义技术层面上数据挖掘就是从大量数据提取有用信息的过程商业层面上数据挖掘就是对大量业务数据进行抽取转换和分析以及建模处理从中提取辅助商业决策的关键性数据数据挖掘的特征先前未知有效和实用数据挖掘库每个记录代表一个事务空间数据库事态数据库和时间序列数据库流数据多媒体数据库文本数据库万维数据库数据挖掘务分类分析按照某种规则聚类分析具有共性
17、回归分析关联分析具有关联规则离群点检测发现与众不同的数据演化性和冗余数据选择数据转换数据挖掘模式评估知识表示例题数据挖掘处理的对象有哪些请从实际生活中举出至少三种答数据挖掘处理的对象是某一专业领域中积累的数据对象既可以来自社会科学又可以来自自然科学产生的数据还可学习必备 欢迎下载 答:数据聚合需要考虑的问题有:(1)模式识别:这主要是实体识别问题;(2)冗余:一个属性是冗余的,即它能由另一个表导出,如果属性或维的命名不一致,也可能导致冗余,可以用相关分析来检测;(3)数据值冲突的检测与处理:有些属性因表示比例或编码不同,会导致属性不同。第三章 分类与回归 1.分类:分类是数据挖掘中的主要手段,
18、其任务是对数据集进行学习并构造一个拥有预测功能的分类模型,用于预测未知样本的类标号,把类标号未知的样本映射到某个预先给定的类标号中。2.分类模型学习方法:基于决策树的分类方法,贝叶斯分类方法,k-最近邻分类方法,神经网络方法。3.决策树的概念与构建:决策树是一种树形结构,包括决策节点,分支节点和页节点三个部分。决策节点:代表某个测试,通常对应带分类对象的某个属性。该属性上的不同测试结 果对应一个分支。叶节点:每个叶节点对应一个类标号,表示一种可能的分类结果。决策树的构建:1)属性的选择(很重要,一般要最大限度地增大样本集纯度)2)获得大小适合的决策树 3)使用 ID3 等经典算法构建决策树 4
19、.分类模型的评价:分类过程一般分为两步:第一步是利用分类算法对训练集进行学习,建立分类模型;第二步是用分类模型对标号未知的测试数据进行分类。5.分类模型性能评价指标:(1)分类准确率:指模型正确地预测新的或先前未知的数据的类标号的能力。(影响分 类准确率的因素:训练数据集,记录的数目,属性的数目,属性中的信息,测试数据集 记录的分布情况)(2)计算复杂度:决定着算法执行的速率和占用的资源,依赖于具体的实现细节和软、硬件环境。(3)可解释性:分类结果只有可解释性好,容易理解,才能更好地用于决策支持。(4)可伸缩性。(5)稳定性:指不会随着数据的变化而发生剧烈变化。(6)强壮性:指数据集含有噪声和
20、空缺值的情况下,分类器正确分类数据的能力。6.分类模型的误差:(1)训练误差和泛化误差。7.评估分类模型的性能的方法:(1)保持方法:以无放回抽样方式把数据集分为两个相互独立的子集,训练集(2/3)识数据挖掘定义技术层面上数据挖掘就是从大量数据提取有用信息的过程商业层面上数据挖掘就是对大量业务数据进行抽取转换和分析以及建模处理从中提取辅助商业决策的关键性数据数据挖掘的特征先前未知有效和实用数据挖掘库每个记录代表一个事务空间数据库事态数据库和时间序列数据库流数据多媒体数据库文本数据库万维数据库数据挖掘务分类分析按照某种规则聚类分析具有共性回归分析关联分析具有关联规则离群点检测发现与众不同的数据演
21、化性和冗余数据选择数据转换数据挖掘模式评估知识表示例题数据挖掘处理的对象有哪些请从实际生活中举出至少三种答数据挖掘处理的对象是某一专业领域中积累的数据对象既可以来自社会科学又可以来自自然科学产生的数据还可学习必备 欢迎下载 和测试集(1/3);(2)随机子抽样:保持方法的多次迭代;(3)k-折交叉验证。例题:3.1 考虑表 3-23 所示二元分类问题的数据集。表 3-23 习题 3.4 数据集 A B 类标号 T F+T T+T T+T F-T T+F F-F F-F F-T T-T F-(1)计算按照属性 A 和 B 划分时的信息增益。决策树归纳算法将会选择那个属性?(2)计算按照属性 A
22、和 B 划分时 Gini 系数。决策树归纳算法将会选择那个属性?答:按照属性 A 和 B 划分时,数据集可分为如下两种情况:A=T A=F+4 0-3 3(1)划分前样本集的信息熵为 E=-0.4log20.4-0.6log20.6=0.9710 按照属性 A 划分样本集分别得到的两个子集(A 取值 T 和 A 取值 F)的信息熵分别为:0.985273log7374log74E22TA 030log3033log33E22FA 按照属性 A 划分样本集得到的信息增益为:2813.0103107FATAEEE 按照属性 B 划分样本集分别得到的两个子集(B 取值 T 和 B 取值 F)的信息熵
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 复习 要点 汇总 通信 电子 数据通信 网络 计算机
限制150内