数据挖掘基本算法精品文稿.ppt
《数据挖掘基本算法精品文稿.ppt》由会员分享,可在线阅读,更多相关《数据挖掘基本算法精品文稿.ppt(88页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘基本算法第1页,本讲稿共88页数据仓库与数据挖掘数据仓库与数据挖掘第一章 数据仓库与数据挖掘概述第二章 数据仓库的分析第三章 数据仓库的设计与实施第四章 信息分析的基本技术第五章 数据挖掘过程第六章第六章 数据挖掘基本算法数据挖掘基本算法第七章 非结构化数据挖掘第八章 离群数据挖掘第九章 数据挖掘语言与工具的选择第十章 知识管理与知识管理系统第2页,本讲稿共88页第六章第六章 数据挖掘基本算法数据挖掘基本算法6.1 分类规则挖掘6.2 预测分析与趋势分析规则预测分析与趋势分析规则6.3 数据挖掘的关联算法6.4 数据挖掘的聚类算法6.5 数据挖掘的统计分析算法6.6 数据挖掘的品种优化
2、算法6.7 数据挖掘的进化算法第3页,本讲稿共88页6.2 预测分析与趋势分析规则预测分析与趋势分析规则6.2.1 预言的基本方法6.2.2 定量分析预测6.2.3 预测的结果分析6.2.4 趋势分析挖掘第4页,本讲稿共88页6.2.1 预言的基本方法预言的基本方法预言(prediction)是一门掌握对象变化动态的科学,它是对对象变动趋势的预见、分析和判断,也是一种动态分析方法。预言的目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。一旦建立了表示数据中固有模式和趋势的模型,那么这个模型就可以成功地用于对未来时间的结果进行预测。第5页,本讲
3、稿共88页6.2.1 预言的基本方法预言的基本方法预测的基本步骤:(1)确定预测目标,包括预测对象、目的、对象范围;(2)收集分析内部和外部资料;(3)数据的处理及模型的选择;(4)预测模型的分析、修正;(5)确定预测值。第6页,本讲稿共88页6.2.1 预言的基本方法预言的基本方法预测方法一般有定性分析预测法和定量预测法。定性预测包括:集合意见法、用户意见法(对象调查法)、员工意见法、专家评估法、类推法、判断预测和目标分解法等;定量预测方法包括:情景分析法、时间序列分析法(移动平均,指数平滑,季节系数,DOX-TENKENS法)、因果分析法(线性,回归,非线性模型:含生命周期法,经济计量模型
4、,灰色系统模型,状态转移分析法,模拟法,系统模型)等。第7页,本讲稿共88页6.2.2 定量分析预测定量分析预测(1)时间序列分析法(2)回归预测(3)非线性预测(4)灰色预测模型GM(1,1)(5)组合预测第8页,本讲稿共88页(1)时间序列分析法)时间序列分析法时间序列分析法的原始数据要求:1)在时间上具有连续性;2)数据之间的可比性;3)可以采取交叉预测。时间序列可划为四种变化特征:趋势性(T)、季节性(S)、周期性(C)、不规则性(I)。可以利用散点图识别来变化特征。时间序列分析法一般有:简单平均、移动平均、加权移动平均、指数平滑、一元线性回归、相关比例推算。第9页,本讲稿共88页(1
5、)时间序列分析法)时间序列分析法时间序列定义时间序列定义从时间序列的角度来看,每个数据单元可以被抽象为一个二元组(t,o)。其中:t 为时间变量;o 为数据变量,反映数据单元的实际意义,如某种商品的销售金额、股票的价格等。由此,对于时间序列可以给出如下定义:时间序列时间序列R 是一个有限集是一个有限集(t1,o1),(t2,o2),(tn,on),满足满足ti 0)Y=AEXP(BX),(A0)Y=AEXP(B/X),(A0)Y=AEXP(BX2),(A0)将以上模型进行线性处理再转化为一元回归模型。第13页,本讲稿共88页(4)灰色预测模型)灰色预测模型客观世界,既是物质的世界又是信息的世界
6、。它既包含大量的已知信息,也包含大量的未知信息与非确知信息。未知的或非确知的信息称为黑色信息;已知信息称为白色信息。白色系统是指一个系统的内部特征是完全已知的,即系统的信息是完全充分的。黑色系统是指一个系统的内部信息对外界来说是一无所知的,只能通过它与外界的联系来加以观测研究。既含有已知信息又含有未知的、非确知的信息的系统,称为灰色系统。第14页,本讲稿共88页(4)灰色预测模型)灰色预测模型在现实世界中,灰色系统是普遍存在的。灰色系统理论,是由我国著名学者邓聚龙先生于80年代初首创的一种系统科学理论。主要包括:灰色系统建模理论、灰色系统控制理论、灰色关联分析方法、灰色预测方法、灰色规划方法、
7、灰色决策方法等。灰色预测法是一种对含有不确定因素的系统进行预测的方法。灰色系统是介于白色系统和黑色系统之间的一种系统。第15页,本讲稿共88页(4)灰色预测模型)灰色预测模型灰色预测通过鉴别系统因素之间发展趋势的相异程度,即进行关联分析,并对原始数据进行生成处理来寻找系统变动的规律,生成有较强规律性的数据序列,然后建立相应的微分方程模型,从而预测事物未来发展趋势的状况。其用等时距观测到的反应预测对象特征的一系列数量值构造灰色预测模型,预测未来某一时刻的特征量,或达到某一特征量的时间。第16页,本讲稿共88页(4)灰色预测模型)灰色预测模型灰色预测的类型灰色预测的类型 灰色时间序列预测:用观察到
8、的反映预测对象特征的时间序列来构造灰色预测模型,预测未来某一时刻的特征量,或达到某一特征量的时间。畸变预测:通过灰色模型预测异常值出现的时刻,预测异常值什么时候出现在特定时区内。系统预测:通过对系统行为特征指标建立一组相互关联的灰色预测模型,预测系统中众多变量间的相互协调关系的变化。拓扑预测:将原始数据作曲线,在曲线上按定值寻找该定值发生的所有时点,并以该定值为框架构成时点数列,然后建立模型预测该定值所发生的时点。第17页,本讲稿共88页(4)灰色预测模型)灰色预测模型为了弱化原始时间序列的随机性,在建立灰色预测模型之前,需先对原始时间序列进行数据处理,经过数据处理后的时间序列即称为生成列生成
9、列。灰色系统常用的数据处理方式有累加累加和累减累减两种。累加是将原始序列通过累加得到生成列。累加的规则累加的规则:将原始序列的第一个数据作为生成列的第一个数据,将原始序列的第二个数据加到原始序列的第一个数据上,其和作为生成列的第二个数据,将原始序列的第三个数据加到生成列的第二个数据上,其和作为生成列的第三个数据,按此规则进行下去,便可得到生成列。第18页,本讲稿共88页(4)灰色预测模型)灰色预测模型记原始时间序列为:生成列为:上标1表示一次累加,同理,可作m次累加:第19页,本讲稿共88页(4)灰色预测模型)灰色预测模型对非负数据,累加次数越多则随机性弱化越多,累加次数足够大后,可认为时间序
10、列已由随机序列变为非随机序列。一般随机序列的多次累加序列,大多可用指数曲线逼近。累减将原始序列前后两个数据相减得到累减生成列,累减是累加的逆运算,累减可将累加生成 列还原为非生成列,在建模中获得增量信息。一次累减的公式为:第20页,本讲稿共88页(4)灰色预测模型)灰色预测模型关联度关联度关联度分析是分析系统中各因素关联程度的方法,在计算关联度之前需先计算关联系数。关联系数关联系数设则关联系数定义为:第21页,本讲稿共88页(4)灰色预测模型)灰色预测模型式中:为第k个点 和的绝对误差;为两级最小差;为两级最大差;称为分辨率,00.950.800.700.70 C0.350.50Y”的蕴含式;
11、其中,的蕴含式;其中,X I,Y I,XY=,即表,即表示满足示满足X中条件的记录也一定满足中条件的记录也一定满足Y。关联规则。关联规则X=Y在交在交易数据库中成立,具有支持度易数据库中成立,具有支持度s和具有置信度和具有置信度c。第42页,本讲稿共88页6.3.1 关联规则的概念及分类关联规则的概念及分类交易数据集D中具有支持度s,即D中至少有s%的事务包含XY,描述为:support(X=Y)=P(XY)交易数据集D中具有置信度c,即D中包含X的事务至少有c%同时也包含Y,描述为:confidence(X=Y)=P(Y|X)通常称满足最小支持度和最小置信度的关联规则称为强关强关联规则联规则
12、(strong)。一般将最小支持度记为minsup,将最小置信度记为minconf。第43页,本讲稿共88页6.3.1 关联规则的概念及分类关联规则的概念及分类在交易数据库D中找出具有用户给定的最小支持度和最小置信度的关联规则可以分解为两个子问题:1)找出存在于事务数据库中所有大项集。If 项集X的支持度support(X)minsup then X称为大项集(large item set),满足最小支持度的项集也称为频繁项集(frequent itemset)。2)利用大项集生成关联规则,对每一大项集X,若YX,Y=,并且support(Y)/support(X)minconf。第44页,本
13、讲稿共88页6.3.1 关联规则的概念及分类关联规则的概念及分类为了发现出有意义的关联规则,必需给定两个阈值,即最小支持度和最小置信度。最小支持度是用户规定的关联规则必需满足的最小支持度,它表示一组物品集在统计意义上的需满足的最低程度,即衡量关联规则在整个数据集中的统计重要性。最小置信度是用户规定的关联规则必需满足的最小可信度,它反映了关联规则的最低可靠度,即衡量关联规则的可信程度。关联分析可用于销售配货、商品陈列设计、产品目录设计、产品定价和促销等,也可以使我们从客户的购买模式中推知他们的嗜好。第45页,本讲稿共88页6.3.1 关联规则的概念及分类关联规则的概念及分类发现关联规则通常要经过
14、以下三个步骤:1)连接数据,作数据准备;2)给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;3)可视化显示、理解、评估关联规则。第46页,本讲稿共88页6.3.1 关联规则的概念及分类关联规则的概念及分类关联规则的优缺点:优点:它可以产生清晰有用的结果;它支持间接数据挖掘;可以处理变长的数据;它的计算的消耗量是可以预见的。缺点:当问题变大时,计算量增长得厉害;难以决定正确的数据;容易忽略离群数据。第47页,本讲稿共88页6.3.1 关联规则的概念及分类关联规则的概念及分类(2)关联规则的分类)关联规则的分类表6.8 关联规则的分类分类标准类 别规则中所处理的值布尔关联规则与
15、量化关联规则规则中所涉及的数据维单维关联规则与多维关联规则规则中所涉及的抽象层单层关联规则与多层关联规则规则中的扩充最大的模式与频繁闭项集关联特性分类分析与相关分析第48页,本讲稿共88页6.3.2 简单形式的关联规则算法简单形式的关联规则算法简单形式的关联规则算法(单维、单层和布尔关联规则)主要是经典频集方法(基于Apriori的频集方法)。(1)简单形式的关联规则的核心算法)简单形式的关联规则的核心算法是一个两阶段频集思想的方法。关联规则算法的设计可以分解为两个子问题:1)找到所有支持度大于最小支持度的项集,即频集。找到所有支持度大于最小支持度的项集,即频集。由k个数据频集称为k项频集项频
16、集,找出所有的频集由Apriori算法实现。Apriori性质:频繁项集的所有非空子集都必须也是频繁的。性质:频繁项集的所有非空子集都必须也是频繁的。第49页,本讲稿共88页6.3.2 简单形式的关联规则算法简单形式的关联规则算法2)使用第)使用第1步找到的频集产生期望的规则。步找到的频集产生期望的规则。为了生成所有频集,使用递推的方法:首先产生频繁1项集L1,然后产生频繁2项集L2,直到有某个r值使得Lr为空,这时算法停止。这里在k次循环中,过程先产生候选k项集的集合Ck,Ck中的每一个项集是对两个只有一个项不同的属于Lk-1的频集做一个(k-2)连接来产生的。Ck中的项集是用来产生频集的候
17、选集,最后的频集Lk必须是Ck的一个子集。Ck中的每个元素须在交易数据库中进行验证来决定是否加入Lk,这里的验证过程是算法性能的一个瓶颈。第50页,本讲稿共88页6.3.2 简单形式的关联规则算法简单形式的关联规则算法Apriori算法的核心思想算法的核心思想L1=large 1-itemsets;/发现1项频集for(k=2;Lk-1=;k+)do beginCk=apriori-gen(Lk-1,minsup);/根据k-1项频集产生新的k项候选集for all transactions tD;/遍历数据库确定每个候选集的支持频度Ct=subset(Ck,t);/事务t中包含的候选集for
18、 all candidates c Ct doc.count+;Lk=cCk|c.countminsupReturn L=;/求所有频繁项集Lk的和第51页,本讲稿共88页6.3.2 简单形式的关联规则算法简单形式的关联规则算法apriori-gen函数以Lk-1作为输入参数,返回所有大k项集的集合Lk,具体实现如下:第一步:联合,将两个项连接在一起Procedure apriori-gen(Lk-1,minsup)insert into Ckselect p.item1,p.item2,p.item(k-1),q.item(k-1)from Lk-1p,Lk-1qwhere p.item1=
19、q.item1,p.item(k-2)=q.item(k-2),p.item(k-1)购买(X,”打印机”)第58页,本讲稿共88页6.3.3 多层和多维关联规则的挖掘多层和多维关联规则的挖掘在挖掘维间关联规则和混合关联规则的时候,还要考虑不同的字段种类:种类型和数值型。对于种类型的字段,原先的算法都可以处理。对于数值型的字段可以采用以下几种方法进行处理:1)数值字段被分成一些预定义的层次结构。这些区间都是用户预先定义的,得出的规则叫做静态数量关联规则。2)数值字段根据数据的分布分成了一些布尔字段。每个布尔字段都表示一个数值字段的区间,属于其中则为1,反之为0。这种分法是动态的,得出的规则叫做
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 基本 算法 精品 文稿
限制150内