数据挖掘算法介绍幻灯片.ppt
《数据挖掘算法介绍幻灯片.ppt》由会员分享,可在线阅读,更多相关《数据挖掘算法介绍幻灯片.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘算法介绍数据挖掘算法介绍第1页,共52页,编辑于2022年,星期六数据挖掘十大经典算法数据挖掘十大经典算法K-MEANSC4.5SVMEMKnn贝叶斯CARTAdaboostPagerankApriori第2页,共52页,编辑于2022年,星期六聚类算法聚类算法 层次聚类 K-means聚类 基于密度的聚类(DBSCAN)模糊聚类(FCM)两步聚类 Kohonen网络聚类平衡数据平衡数据SMOTESMOTE算法算法分类算法分类算法 KNN算法 决策树(C5.0,CART)人工神经网络 随机森林 支持向量机(SVM)第3页,共52页,编辑于2022年,星期六基于密度的聚类基于密度的聚类D
2、BSCAN基于高密度连通区域的聚类OPTICS通过点排序识别聚类结构DENCLUE基于密度分布函数的聚类第4页,共52页,编辑于2022年,星期六DBSCANDBSCAN聚类聚类DBSCAN聚类认为,在整个样本空间中,目标类簇是由一群稠密样本点构成,这些稠密样本点被低密度区域(噪声)分割,而算法的目的就是要过滤低密度区域,发现稠密样本点。DBSCAN是一种基于高密度联通区域的聚类算法,它将类簇定义为高密度相连点的最大集合。它本身对噪声不敏感,并且能发现任意形状的类簇。Clusters第5页,共52页,编辑于2022年,星期六DBSCANDBSCAN特点特点发现任意形状的聚类处理噪音一遍扫描需要
3、密度参数作为终止条件第6页,共52页,编辑于2022年,星期六基本概念基本概念(1)E邻域:给定对象半径为E内的区域称为该对象的E邻域(2)核对象:如果一个对象E邻域内的样本点数大于等于事先给定的最小样本点数MinPts,则称该对象为核对象(3)直接密度可达:给定一个对象集合D,如果p在q的E邻域内,而q是一个核心对象,则称对象p从对象q出发时是直接密度可达。第7页,共52页,编辑于2022年,星期六基本概念基本概念(4)密度可达:如果存在一个对象链 对于 是从 关于Eps和MinPts直接密度可达的,则对象p是从对象q关于Eps和MinPts密度可达的(density-reachable)。
4、(5)密度相连:如果存在对象OD,使对象p和q都是从O关于Eps和MinPts密度可达的,那么对象p到q是关于Eps和MinPts密度相连的第8页,共52页,编辑于2022年,星期六算法算法(1)对数据集中的任一点p找到它的所有直接密度可达,标记p为核心点或边缘点或噪声点(2)重复上述步骤,标记出所有点。(3)聚类:剔除噪声点依据密度可达或密度相连,将距离小于eps的核心点连接成一个类将所有边缘点依次分派到相应核心点的类中第9页,共52页,编辑于2022年,星期六两步聚类两步聚类两两 步步 聚聚 类类:ChiuChiu,20012001年年 在在BIRCHBIRCH(Balanced Bala
5、nced Iterative Iterative Reducing Reducing and and Clustering using HierarchiesClustering using Hierarchies)算法基础上提出的一种改进算法。)算法基础上提出的一种改进算法。特点:特点:算法尤其适合于大型数据集的聚类研究算法尤其适合于大型数据集的聚类研究 通过两步实现数据聚类通过两步实现数据聚类 同时处理数值型聚类变量和分类型聚类变量同时处理数值型聚类变量和分类型聚类变量 根据一定准则确定聚类数目根据一定准则确定聚类数目 诊断样本中的离群点和噪声数据诊断样本中的离群点和噪声数据 数值型数值型
6、欧式距离欧式距离 数值型数值型+分类型分类型对数似然距离对数似然距离第10页,共52页,编辑于2022年,星期六两步聚类两步聚类预聚类预聚类一个聚类特征CF是一个三元组(N,LS,SS),N是簇中的点的数目,LS是N个点的线性和,SS是N个点的平方和。第11页,共52页,编辑于2022年,星期六两步聚类两步聚类预聚类预聚类预聚类过程预聚类过程:建立建立CFCF树树 (1)(1)视所有数据为大类,统计量存在根结点中视所有数据为大类,统计量存在根结点中 (2)(2)读入一个样本点,从读入一个样本点,从CFCF树的根结点开始,利用结点的树的根结点开始,利用结点的 统计量,计算数据与中间结点的对数似然
7、距离。沿对数统计量,计算数据与中间结点的对数似然距离。沿对数 似然距离最小的中间结点依次向下选择路径直到叶结点似然距离最小的中间结点依次向下选择路径直到叶结点 (3)(3)计算与子树中所有叶结点(子类)的对数似然距离,计算与子树中所有叶结点(子类)的对数似然距离,找到距离最近的叶结点找到距离最近的叶结点第12页,共52页,编辑于2022年,星期六两步聚类两步聚类预聚类预聚类预聚类过程预聚类过程 (1)(1)如果最近距离小于一定阈值,则该数据被相应的叶结如果最近距离小于一定阈值,则该数据被相应的叶结 点点“吸收吸收”;否则,该数据将;否则,该数据将“开辟开辟”一个新的叶结点。一个新的叶结点。重新
8、计算叶结点和相应所有父结点的汇总统计量重新计算叶结点和相应所有父结点的汇总统计量 (2)(2)叶结点足够大时应再分裂成两个叶结点叶结点足够大时应再分裂成两个叶结点 (3)(3)叶结点个数达到允许的最大聚类数目时,应适当增加叶结点个数达到允许的最大聚类数目时,应适当增加 阈值重新建树,以得到一棵较小的阈值重新建树,以得到一棵较小的CFCF树树 (4)(4)重复上述过程,直到所有数据均被分配到某个叶结点重复上述过程,直到所有数据均被分配到某个叶结点 (子类)为止(子类)为止第13页,共52页,编辑于2022年,星期六两步聚类两步聚类聚类聚类(1)(1)聚类过程:分析对象是预聚类所形成的稠密区域聚类
9、过程:分析对象是预聚类所形成的稠密区域(2)(2)方法:层次聚类法方法:层次聚类法(3)(3)逐逐步步将将较较多多的的小小类类合合并并为为较较少少的的大大类类,再再将将较较少少的的大大类类合合并并成成更更少少的的更更大大类类,最最终终将将更更大大类类的的合合并并成成一一个个大大类类,是是一一个个类类不不断断“凝聚凝聚”的过程的过程第14页,共52页,编辑于2022年,星期六两步聚类两步聚类聚类数目的确定聚类数目的确定第一阶段:依据第一阶段:依据BICBIC,确定粗略的聚类数,确定粗略的聚类数找到找到R1(J)R1(J)取最小值取最小值(ModelerModeler规定规定R1(J)R1(J)应
10、小于应小于0.040.04)的的J J为聚类数目的为聚类数目的“粗略粗略”估计,即估计,即BICBIC减小幅减小幅度最小的度最小的J J第15页,共52页,编辑于2022年,星期六两步聚类两步聚类聚类数目的确定聚类数目的确定第二阶段:对第二阶段:对“粗略粗略”估计值估计值J J的修正的修正2,3,4,J2,3,4,J中选择。仅依据类间对数似然距离,不考虑模型复杂度中选择。仅依据类间对数似然距离,不考虑模型复杂度J J类时的最小类时的最小对数似然距离对数似然距离d(4)d(3)d(2)d(5)计算计算R R2 2(J-1)(J-1)、R R2 2(J-2)(J-2)到到R R2 2(2)(2),
11、反映,反映J-1J-1类的类内差是类的类内差是J J类的倍数。类的倍数。ModelerModeler找到最大值找到最大值,若最大值是次大若最大值是次大值的值的1.151.15倍以上,则最大值对应的倍以上,则最大值对应的J J为为最终聚类数最终聚类数R R2 2(J)J)是聚类合并过程中类间差异最是聚类合并过程中类间差异最小值变化的相对指标小值变化的相对指标第16页,共52页,编辑于2022年,星期六模糊聚类模糊聚类FCMFCMFCM与HCM的主要区别在于FCM用模糊划分,使得每个给定数据点用值在0,1间的隶属度来确定其属于各个组的程度。与引入模糊划分相适应,隶属矩阵U允许有取值在(0,1)间的
12、元素,满足第17页,共52页,编辑于2022年,星期六目标函数:SSE=(2)拉格朗日乘数法这里j,j=1到n,是(1)式的n个约束式的拉格朗日乘子。其中,m1,+)是一个加权指数,为第I个聚类中心与第j个数据间的欧几里德距离。第18页,共52页,编辑于2022年,星期六对所有输入参量求导,使式(2)达到最小。得到解为:(4)(5)其中,m1,+)是一个加权指数,为第I个聚类中心与第j个数据间的欧几里德距离。模糊质心的定义类似于传统的质心定义,不同之处在于所有点都考虑,并且每个点对质心的贡献要根据它的隶属度加权。第19页,共52页,编辑于2022年,星期六FCMFCM算法实现算法实现 step
13、1:初始化聚类中心,用值在0,1间的随机数初始化 隶属矩阵U,使其满足式(1)中的约束条件。step2:用式(4)计算k个聚类中心 ki,i=1,k。step3:根据式(2)计算目标函数。如果它小于某个确定 的阈值,或它相对上次目标函数值的改变量小于某个阈 值,则算法停止。step4:用(5)计算新的U矩阵。返回步骤2。FCM算法需要设置两个参数:一个是聚类数目k,一个是参数m。第20页,共52页,编辑于2022年,星期六KohonenKohonen网络聚类网络聚类概述概述聚类中的主要问题:如何测度数据点之间的“亲疏程度”怎样的方式实施聚类Kohonen网络的基本策略是:第一:采用欧氏距离作为
14、数据“亲疏程度”的测度 第二:模拟人脑神经细胞的机理通过竞争“获胜”实现聚类过程 第21页,共52页,编辑于2022年,星期六KohonenKohonen网络聚类网络聚类拓扑结构拓扑结构Kohonen网络两层、前馈式、全连接的拓扑结构两层、前馈式、全连接的拓扑结构输入节点的个数取决于聚类变量的个数输入节点的个数取决于聚类变量的个数输出节点的个数即为聚类数目输出节点的个数即为聚类数目第22页,共52页,编辑于2022年,星期六KohonenKohonen网络聚类网络聚类聚类过程聚类过程(鸢尾花为例鸢尾花为例)输入层输入层输出层输出层欧欧式式距距离离需提前确定聚类数目需提前确定聚类数目输入变量个数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 算法 介绍 幻灯片
限制150内