书签分享收藏举报版权申诉 / 14

立即下载

当前位置：首页 > 教育专区 > 教案示例 > 广工数据挖掘复习要点.pdf

广工数据挖掘复习要点.pdf

上传人：无***

文档编号：90915573

上传时间：2023-05-18

格式：PDF

页数：14

大小：2.39MB

( 4.5 )

《广工数据挖掘复习要点.pdf》由会员分享，可在线阅读，更多相关《广工数据挖掘复习要点.pdf（14页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、第一章绪论1.数据挖掘要解决的问题：面对高维，复杂，异构的海量数据，如何集中获取有用的信息和知识。2.数据挖掘定义：技术层面上：数据挖掘就是从大量数据提取有用信息的过程；商业层面上：数据挖掘就是对大量业务数据进行抽取，转换和分析以及建模处理，从中提取辅助商业决策的关键性数据。3.数据挖掘的特征：先前未知，有效和实用。4.数据挖掘对象：关系数据库（借助集合代数等概念和方法来处理数据库中的数据）数据仓库（数据集合，用于支持管理决策）事务数据库（每个记录代表一个事务）空间数据库事态数据库和时间序列数据库流数据多媒体数据库文本数据库万维数据库5.数据挖掘任务：分类分析（按照某种规则），聚类分析（具有

2、共性），回归分析，关联分析（具有关联规则），离群点检测（发现与众不同的数据），演化分析（随时间变化的数据对象的趋势），序列模式挖掘（分析前后序列模式）6.数据挖掘过程：数据清洗，数据集成（考虑数据一致性和冗余），数据选择，数据转换，数据挖掘，模式评估，知识表示。例题:1.1数据挖掘处理的对象有哪些？请从实际生活中举出至少三种。答：数据挖掘处理的对象是某一专业领域中积累的数据，对象既可以来自社会科学,又可以来自自然科学产生的数据，还可以是卫星观测得到的数据。数据形式和结构也各不相同，可以是传统的关系数据库,可以是面向对象的高级数据库系统，也可以是面向特殊应用的数据库，如空间数据库、时序数据库、文

3、本数据库和多媒体数据库等，还可以是W eb数据信息。实际生活的例子：电信行业中利用数据挖掘技术进行客户行为分析，包含客户通话记录、通话时间、所开通的服务等，据此进行客户群体划分以及客户流失性分析。天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析，帮助天文学家发现其他未知星体。制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。1.5定义下列数据挖掘功能：关联、分类、聚类、演变分析、离群点检测。使用你熟悉的生活中的数据，给出每种数据挖掘功能的例子。答：关联是指发现样本间或样本不同属性间的关

4、联。例如，一个数据挖掘系统可能发现的关联规则为：major（X,*computing science）owns（X,*personal com puter）support=12%,confidence=98%其中，X 是一个表示学生的变量。该规则指出主修计算机科学并且拥有一台个人计算机的学生所占比例为1 2%,同时，主修计算机专业的学生有98%拥有个人计算机。分类是构造一系列能描述和区分数据类型或概念的模型（或功能），分类被用作预测目标数据的类的标签。例如，通过对过去银行客户流失与未流失客户数据的分析，得到一个预测模型，预测新客户是否可能会流失。聚类是将数据划分为相似对象组的过程，使得同一组中

5、对象相似度最大而不同组中对象相似度最小。例如，通过对某大型超市客户购物数据进行聚类，将客户聚类细分为低值客户、高值客户以及普通客户等。数据演变分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析。离群点检测就是发现与众不同的数据。可用于发现金融领域的欺诈检测。第二章数据处理基础1 .数据及数据类型：数据是数据库存储的基本对象，数据类型：标称属性，序数属性，区间属性，比率属性。2.数据集分为三类：记录数据，基于图形的数据和有序的数据集。补充：数据统计

6、特征：均值，中位数，中列数（数据集中最大和最小值的平均值），众数（出现频率最高的值），截断均值（指定010间的百分位数p,丢弃高端的和低端的（p/2）%的数据，然后按照计算均值那样计算）3.数据挖掘的效果直接受到数据源的影响。4.数据清理的目的：试图填充缺失数据，去除噪声并识别离群点，纠正数据中的不一致值。5.缺失值的处理方法：（分析时）忽略元组，（分析时）忽略属性列，（估计缺失值）人工填写缺失数据，（估计缺失值）自动填充缺失数据。6.噪声平滑方法：分箱，聚类。7.数据聚合的目的：将两个或多个数据源中的数据，存放在一个一致的数据存储设备中。8.数据变换的内容：数据泛化（把学科分为理学和工学，

7、忽略细节），规范化，特征构造（集中数据特征构造新的特征，减少特征维数），数据离散化（出现了燃计算）。9.数据归约：维度归约和特征变换：维度归约可以删除不相关的特征并降低噪声，降低维度灾难风险，降低数据挖掘的时间复杂度和空间复杂度，特征变幻可以反应出数据的不同视角2/14的不同特征。抽样：长期用于数据的事先调查和最终的数据分析，在数据挖掘中，抽样是选择数据子集进行分析的常用方法。1）无放回的简单随机抽样方法2）有放回的简单随机抽样方法3）分层抽样方法特征选择：从一组已知特征的集合中选取最具有代表性的特征子集，使其保留原有数据的大部分特征，正确区分数据集中的每个数据对象。根据特征选择过程与后续数据

8、挖掘任务的关联可分为三种方法：过滤，封装和嵌入。根据是否用到类信息的指导，分为监督式，无监督式和半监督式特征选择特征子集选择的搜索策略：逐步向前选择（从空集开始，逐步添加），逐步向后删除（从整个属性集开始，逐个删除），向前选择和向后删除相结合，决策树归约。特征搜索过程中不可缺少的环节就是逐步评估。数据预处理方法：数据清理，数据集成，数据变换，数据归约，数据离散化例题：2.5假定用于分析的数据包含属性a g e,数据元组中a g e的值如下（按递增序）：13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,4

9、0,45,46,52,70。（a）使用按箱平均值平滑对以上数据进行平滑，箱的深度为3。解释你的步骤。评论对于给定的数据，该技术的效果。（b）对于数据平滑，还有哪些其它方法？答:（a）己知数据元组中a g e的值如下（按递增序）：13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70,且箱的深度为3,划分为（等频）箱：箱 1 ：13,15,16箱 2：16,19,20箱 3：20,21,22箱 4：22,25,25箱 5：25,25,30箱 6：33,33,33箱 7：35,3

10、5,35箱 8：35,36,40箱 9：45,46,52箱 10：70用箱均值光滑：箱 1 ：15,15,15箱 2：18,18,18箱 3：21,21,21箱 4：24,24,24箱 5:27,27,37箱 6：33,33,33箱 7：35,35,35箱 8：37,37,37箱 9：48,48,48箱 10：70；3/14(b)对于数据平滑，其它方法有：(1)回归：可以用一个函数(如回归函数)拟合数据来光滑数据；(2)聚类：可以通过聚类检测离群点，将类似的值组织成群或簇。直观地，落在簇集合之外的值视为离群点。2.6使用习题2.5给出的age数据，回答以下问题：(a)使用min-max规范化

11、，将age值3 5转换到 0.0,1.0区间。(b)使用z-S8re规范化转换age值3 5,其中，a g e的标准偏差为12.94年。(c)使用小数定标规范化转换age值35。(d)指出对于给定的数据，你愿意使用哪种方法。陈述你的理由。|3 5-ld答：已知最大值为7 0,最小值为1 3,则可将35规范化为：17 nl m=0.3 8 6；/U -IJor _ on(b)已知均值为3 0,标准差为12.94,则可将35规范化为：.=0.386；35(c)使用小数定标规范化可将3 5规范化为：一=0.35：1002.17给定两个向量对象，分别表示为p1(22,1,42,10),p2(20

12、,0,36,8)：(a)计算两个对象之间的欧几里得距离(b)计算两个对象之间的曼哈顿距离(c)计算两个对象之间的闵可夫斯基距离，用x=3(d)计算两个对象之间的切比雪夫距离答：(a)计算两个对象之间的欧几里得距离d=2 20+(1 0)2+(42 36)2+(10 8)2=1/4512(b)计算两个对象之间的曼哈顿距离d1 2=|22-20|+|1-0|+|42-36|+|10-8|=11(c)计算两个对象之间的闵可夫斯基距离，其中参数r=3d=322 20|a+|1 0|3+142 36|a+|10 8|S1 2(d)切比雪夫距离：d1=max(|p q|)=62.8 以下是一个商场所销售商

13、品的价格清单(按递增顺序排列，括号中的数表示前面数字出现次数)1(2)、5(5)、8(2)、10(4)、12、14(3)15(5)、18(8)、20(7)、21(4),25(5)、28、30(3)请分别用等宽的方法和等高的方法对上面的数据集进行划分。答：(D等宽方法：划分为3个数据集，每个数据集的宽度为价格10。价格在1 10之间出现次数为13；价格在1 1-2 0之间出现的次数为24；价格在2 1-3 0之间出现的次数为13.(2)等高方法：划分为2个数据集，每个数据集的高度为出现的次数4。出现次数14之间的价格为1、8、10、12、14、21、28、3 0,共8个数据；出现次数58之间

14、的价格为5、15、18、20、2 5,共5个数据。2.9 讨论数据聚合需要考虑的问题。4/14答：数据聚合需要考虑的问题有：(1)模式识别：这主要是实体识别问题；(2)冗余：一个属性是冗余的，即它能由另一个表导出，如果属性或维的命名不一致，也可能导致冗余，可以用相关分析来检测；(3)数据值冲突的检测与处理：有些属性因表示比例或编码不同，会导致属性不同。第三章分类与回归1.分类：分类是数据挖掘中的主要手段，其任务是对数据集进行学习并构造一个拥有预测功能的分类模型，用于预测未知样本的类标号，把类标号未知的样本映射到某个预先给定的类标号中。2.分类模型学习方法：基于决策树的分类方法，贝叶斯分类方法，

15、k-最近邻分类方法，神经网络方法。3.决策树的概念与构建：决策树是一种树形结构，包括决策节点，分支节点和页节点三个部分。决策节点：代表某个测试，通常对应带分类对象的某个属性。该属性上的不同测试结果对应一个分支。叶节点：每个叶节点对应一个类标号，表示一种可能的分类结果。决策树的构建：1)属性的选择(很重要，一般要最大限度地增大样本集纯度)2)获得大小适合的决策树3)使用 ID3等经典算法构建决策树4.分类模型的评价：分类过程一般分为两步：第一步是利用分类算法对训练集进行学习，建立分类模型；第二步是用分类模型对标号未知的测试数据进行分类。5.分类模型性能评价指标：(1)分类准确率：指模型正确地预

16、测新的或先前未知的数据的类标号的能力。(影响分类准确率的因素：训练数据集，记录的数目，属性的数目，属性中的信息，测试数据集记录的分布情况)(2)计算复杂度：决定着算法执行的速率和占用的资源，依赖于具体的实现细节和软、硬件环境。(3)可解释性：分类结果只有可解释性好，容易理解，才能更好地用于决策支持。(4)可伸缩性。(5)稳定性：指不会随着数据的变化而发生剧烈变化。(6)强壮性：指数据集含有噪声和空缺值的情况下，分类器正确分类数据的能力。6.分类模型的误差：(1)训练误差和泛化误差。7.评估分类模型的性能的方法：(1)保持方法：以无放回抽样方式把数据集分为两个相互独立的子集，训练集(2/3)5/

17、14和测试集(1/3)；(2)随机子抽样：保持方法的多次迭代;(3)k-折交叉验证。例题：3.1 考虑表3-2 3所示二元分类问题的数据集。表ATTTTT3-23习题3.4数据集BF类标号+T(1)计算按照属性A和B划分时的信息增益。决策树归纳算法将会选择那个属性?(2)计算按照属性A和B划分时G ini系数。决策树归纳算法将会选择那个属性？答：按照属性A和B划分时，数据集可分为如下两种情况：A=TI:(1)A=F巾B=T B=F划分前样本集的信息燃为E=-0.4log20.4-0.6log20.6=0.9710按照属性A划分样本集分别得到的两个子集(A取值T和A取值F)的信息炳分别为:

18、4 4 3 3E=log -log-=0.9852A=T 7 2 7 7 2 7E=%g g2=oA=F 3 2 3 3 2 3按照属性A划分样本集得到的信息增益为：A=E 2E 一 E=0.281310 A=T 10 A=F按照属性B划分样本集分别得到的两个子集(B取值T和B取值F)的信息端分别为:E=B=T3 3 1 1-lo g-lo g2-=0.81131 1 5 5E=log log =0.6500B=F 6 2 6 6 飞 6按照属性B划分样本集得到的信息增益为：A=EWE YE=0.256510 B=T 10 B=F因此，决策树归纳算法将会选择属性A。(2)划分前的 Gini

19、值为 G=1-0.42-0.62=0.48按照属性A划分时G ini指标：6/14G=1 -3=0,4898A=T(7)(7)G窗眇。Gini 增益A=G-G -G=0.137110 A=T 10 A=F按照属性B划分时Gini指标：G.年H步0375。GBL 代 H步 02778Gini 增益A=G-iG -G=0.163310 B=T 10 B=F因此，决策树归纳算法将会选择属性B。3.2考虑表3-24数据集，请完成以下问题:表3-24习题3.7数据集ABc类1000+2001301140115001+6101+710181019111+10101+估计条件概率P(A|+),P(B|+

20、),P(C|+),P(A|-),P(B|-),P(C|-)(2)根据(1)中的条件概率，使用朴素贝叶斯方法预测测试样本(A=0,B=1,C=0)的类标号；(3)使用Laplace估计方法,其中p=1/2,1=4,估计条件概率P(A|+),P(B|+),P(C|+),P(A|-).P(B|-),P(C|-).(4)同(2),使用(3)中的条件概率(5)比较估计概率的两种方法，哪一种更好，为什么？答:P(A|+)=3/5P(B|+)=1/5P(A|-)=2/5P(B|-)=2/5P(C|-)=1(2)假设 P(A=0,B=1,C=0)=K则K属于两个类的概率为：P(+|A=0,B=1,C=0)

21、=P(A=0,B=1,C=0|+)xP(+)/K(贝叶斯算法)7/14=P(A=0|+)P(B|+)P(C=0|+)xP(+)/K=0.4x0.2x0.2x0.5/K=0.008/KP(-|A=0,B=1,C=0)=P(A=0,B=1,C=O|-)xP(-)/K=P(A=0|-)P(B|-)P(C=0|-)xP(-)/K=0.4x0.2x0 x0.5/K=0/K则得到，此样本的类标号是+。(3)P(A|+)=(3+2)/(5+4)=5/9P(A|-)=(2+2)/(5+4)=4/9P(B|+)=(1+2)/(5+4)=1/3P(B|-)=(2+2)/(5+4)=4/9P(C|-)=(0+2)/

22、(5+4)=2/9(4)假设 P(A=0,B=1,C=0)=K则K属于两个类的概率为：P(+|A=0,B=1,C=0)=P(A=0,B=1,C=O)xP(+)/K=P(A=O|+)P(B|+)P(C=O|+)xP(+)/K=(4/9)x(1/3)x(1/3)x0.5/K=0.0247/KP(-|A=0,B=1,C=0)=P(A=0,B=1,C=O)xP(-)/K=P(A=O|-)P(B|-)P(C=O|-)XP(-)/K=(5/9)x(4/9)x(2/9)x0.5/K=0.0274/K则得到，此样本的类标号是(5)当条件概率为0的时候，条件概率的预测用L a p la s估计方法比较好，因为我

23、们不想整个条件概率计算结果为0.第四章聚类分析1.聚类：聚类就是将数据集划分为由若干相似对象组成的多个组或簇的过程，使得同一组中的对象的相似度最大化，不同组中的相似度最小化。或者说聚类是由彼此相似的一组对象构成的集合。分类：分类是数据挖掘中的主要手段，其任务是对数据集进行学习并构造一个拥有预测功能的分类模型，用于预测未知样本的类标号，把类标号未知的样本映射到某个预先给定的类标号中。记：聚类和分类的区别2.典型的聚类分析任务包括的步骤：1)模式表示(聚类算法的基础)，2)适合于数据领域的模式相似性定义(是聚类分析最基本的问题)，3)聚类或者划分算法(聚类分析的核心)，4)数据摘要(如有必要)，5

24、)输出结果的评估，有效性的评估(如有必要)3.数据挖掘对聚类的典型要求：1)可伸缩性，2)处理不同类型属性的能力3)发现任意形状的聚类4)用于决定输入参数的领域知识最小化5)处理噪声数据的能力6)对输入记录的顺序不敏感7)高维度8)基于约束的聚类9)可解释性和可用性。4.典型聚类方法：1)划分方法(每个划分表示一个聚类)2)层次方法(将数据对象组成一8/14个聚类树)3)基于密度的方法(绝大多数划分方法都是基于对象之间的距离大小进行聚类)4)基于模型的方法(试图将给定数据与某个数学模型搭成最佳拟合)5)基于图的聚类算法(利用图的许多重要性质和特性)5.k-means算法，层次聚类算法

25、的优缺点：(1)k-means算法：优点：算法描述容易，实现简单快速；不足：簇的个数要预先给定，对初始值的依赖极大不适合大量数据的处理对噪声点和离群点很敏感很难检测到“自然的”簇。(2)层次聚类算法：BIR C H算法：优点：利用聚类特征树概括了聚类的有用信息，节省内存空间；具有对象数目呈线性关系，可伸缩性和较好的聚类质量。不足：每个节点只能包含有限数目的条目，工作效率受簇的形状的影响大。CURE算法：优点：对孤立点的处理能力强；适用于大规模数据处理，伸缩性好，没有牺牲聚类质量；缺点：算法在处理大量数据时必须基于抽样，划分等技术。ROCK算法：优点：分类恰当，可采用随机抽样处理数据；

26、缺点：最坏的情况下时间复杂度级数大。基于密度的聚类算法：可识别具有任意形状不同大小的簇，自动确定簇的数目，分离簇和环境噪声，一次扫描即可完成聚类，使用空间索引时间复杂度为O(NlbN)例题：1 .假设描述学生的信息包含属性：性别，籍贯，年龄。有两条记录p、q及两个簇C1 C2的信息如下，分别求出记录和簇彼此之间的距离。(k-means算法的拓展)p=男,广州，18 q=女,深圳,20C1=男：2 5,女：5；广州：2 0,深圳：6,韶关：4；19)C2=男：3,女：12；汕头：1 2,深圳：1,湛江：2；24)解：按定义4-3,取x=1,得到的各距离如下：d(p,q)=1+1+20-18=4

27、d(p,C1)=(1-25/30)+(1-20/30)+(19-18)=1.5d(p,C2)=(1-3/15)+(1-0/15)+(24-18)=7.8d(q,C1)=(1-5/30)+(1-6/30)+(20-19)=79/30d(q,C2)=(1-12/15)+(1-1/15)+(24-20)=77/15d(C1,C2)=1-(25*3+5*12)/(30*15)+1-(6*1)/(30*15)+(24-19)=1003/1504.1什么是聚类？简单描述如下的聚类方法：划分方法，层次方法，基于密度的方法，基于模型的方法。为每类方法给出例子。答：聚类是将数据划分为相似对象组的过程，使得同一组

28、中对象相似度最大而不同组中对象相似度最小。主要有以下几种类型方法：(1)划分方法给定一个有N个元组或者记录的数据集，分裂法将构造K个分组，每一个分组就代表一个聚类，K4集3.概述：在关联分析中，包含0 个或多个项的集合称为项集，一个包含k 个数据项的项集就称为 k-项集。若一个项集的支持度大于或等于某个阈值，则称为频繁项集。：(1)产生频繁项集：发现满足最小支持度阈值的所有项集，即频繁项集。(2)产生规则：从上一步发现的频繁项集中提取大于置信度阈值的规则，即强规则。5.1 列举关联规则在不同领域中应用的实例。答：在医学领域：发现某些症状与某种疾病之间的关联，为医生进行疾病诊断和治疗提供线索；

29、在商业领域：发现商品间的联系，为商场进行商品促销及摆放货架提供辅助决策信息：在地球科学领域：揭示海洋、陆地和大气过程之间的关系。11/145.2 给出如下几种类型的关联规则的例子，并说明它们是否是有价值的。(a)高支持度和高置信度的规则；(b)高支持度和低置信度的规则；(c)低支持度和低置信度的规则；(d)低支持度和高置信度的规则。5.3 数据集如表5-14所示：表 5-14习题5.3数据集Customer IDTransaction IDItems Bought10001a,d,e10024a,b,c,e20012a,b,d,e20031a,c,d,e30015b,c,e30022b,d,e

30、)40029c,d40040a,b,c50033a,d,e50038a,b,e(a)把每一个事务作为一个购物篮，计算项集e,b,d和b,d,e的支持度。(b)利用(a)中结果计算关联规则b,d-e 和 e-b,d的置信度。置信度是一个对称的度量吗？(c)把每一个用户购买的所有商品作为一个购物篮，计算项集e,b,d和b,d,e的支持度。(d)利用(b)中结果计算关联规则b,d fe 和 e-b,d的置信度。置信度是一个对称的度量吗？答：(a)s(e)=8/10=0.8;s(b,d)=2/10=0.2;s(b,d,e)=2/10=0.2.(b)c(b,d-e)=s(b,d,e)/s(b,d)=0.

31、2/0.2=1;c(e-b,d)=s(b,d,e)/s(e)=0.2/0.8=0.25.由于 c(b,d-e)c(e-b,d),所以置信度不是一个对称的度量。(c)如果把每一个用户购买所有的所有商品作为一个购物篮，则s(e)=4/5=0.8;s(b,d)=5/5=1;s(b,d,e)=4/5=0.8.(d)利用 c 中结果计算关联规则b,d L e 和 e-b,d的置信度，则c(b,d-e)=0.8/1=0.8c(e-b,d)=0.8/0.8=1置信度不是一个对称的度量5.6 考虑如下的频繁 3-项集：1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4),12/142,

32、3,5,3,4,5。(a)根据 Apriori算法的候选项集生成方法，写出利用频繁3-项集生成的所有候选4-项集。(b)写出经过剪枝后的所有候选4-项集答：(a)利用频繁3-项集生成的所有候选4-项集：(1,2,3,4 1,2,3,5 1,2,4,5 1,3,4,5 2,3,4,5)(b)经过剪枝后的所有候选4-项集：(1,2,3,4 1,2,3,5)5.7 一个数据库有5 个事务，如表 5-15所示。设min_sup=60%,min_conf=80%。表 5-15习题5.7数据集醺务 ID购买的商品T100M,0,N,K,E,Y)T200D,0,N,K,E,Y)T300M,A,K,E)

33、T400M,U,C,K,Y)T500C,0,O,K,I,E)(a)分别用Apriori算法和 FP-growth算法找出所有频繁项集。比较两种挖掘方法的效率。(b)比较穷举法和Apriori算法生成的候选项集的数量。(c)利用(1)所找出的频繁项集，生成所有的强关联规则和对应的支持度和置信度。答：(1)频繁 1-项集：M,O,K,E,Y频繁 2 项集：M,K,0,K,0,E,K,Y,K,E频繁 3-项集：O,K,E(2)穷举法：M=2k-1=2n-1=2047Apriori 算法：23(3)O,K-E,支持度 0.6,置信度 1O,E-k,支持度0.6,置信度 15.9 分别说明利

34、用支持度、置信度和提升度评价关联规则的优缺点。答：支持度优点：支持度高说明这条规则可能适用于数据集中的大部分事务。缺点：若支持度阈值过高，则许多潜在的有意义的模式由于包含支持度小的项而被删去；若支持度阈值过低，则计算代价很高而且产生大量的关联模式。置信度优点：置信度高说明如果满足了关联规则的前件，同时满足后件的可能性也非常大。缺点：找到负相关的关联规则。提升度：优点：提升度可以评估项集A 的出现是否能够促进项集B 的出现缺点：会产生出现伪相互独立的规则。5.10 表 5-16所示的相依表汇总了超级市场的事务数据。其中hot dogs指包含热狗的事务，hot dogs指不包含热狗的事务。hamb

35、urgers指包含汉堡的事务，hamburgers指不包含汉堡的事务。表 1 6 习题5.10相依表13/14假设挖掘出的关联规则是“hot dogsnhamburgers”。给定最小支持度阈值25%和最小置信度阈值5 0%,这个关联规则是强规则吗？计算关联规则“hotdogs hamburgers”的提升度，能够说明什么问题？购买热狗和购买汉堡是独立的吗？如果不是，两者间存在哪种相关关系？答：s(hot dogs)=3000/5000=60%;s(hot dogs,hamburgers)=2000/5000=40%C(hot dogs-hamburgers)=40%/60%=66.7%故这个

36、关联规则是强规则。S(hamburgers)=2500/5000=50%提升度 lift(hot dogs-hamburgers)=C(hot dogs-hamburgers)/S(hamburgers)=1.334提升度大于1,表明hot dogs和hamburgers不是互相独立的，二者之间存在正相关关系。E.hot dogshot dogsErowHamburgers2,0005002,500hamburgers1,0001,5002,500Ecol3,0002,0005,000第六章离群点挖掘1.为什么要关注离群点：在一些应用领域中，识别离群点是许多工作的基础和前提。一般地，离群点可能对应于稀有事件或异常行为，所以，离群点的挖掘会给我们带来新的视角和发现，离群点往往具有特殊的意义和很高的实用价值，需要对其进行认真审视和研究，因为它们表示一种偏差或新的模式的开始，这可能会对用户带来危害，或造成巨大损失。2.离群点挖掘问题的构成：(1)定义在一个数据集中什么数据是不一致或者离群的数据(2)找出所定义的离群点的有效挖掘方法。3.依据类信息可利用的程度，离群点挖掘可分为以下三种基本方法：(1)无监督的离群点检测法；(2)有监督的离群点检测法；(3)半监督的离群点主要处理的问题：全局观点和局部观点，点的离群程度，离群点的数量及时效性。14/14

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据挖掘复习要点

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：广工数据挖掘复习要点.pdf
链接地址：https://www.taowenge.com/p-90915573.html