CHAPTER10-聚类分析:基本概念和方法ppt课件.ppt
《CHAPTER10-聚类分析:基本概念和方法ppt课件.ppt》由会员分享,可在线阅读,更多相关《CHAPTER10-聚类分析:基本概念和方法ppt课件.ppt(100页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确费高雷费高雷通信与信息工程学院通信与信息工程学院2015年春季年春季第第1010章章 聚类分析:基聚类分析:基本概念和方法本概念和方法在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确第第10章:聚类分析:基本概念和方法章:聚类分析:基本概念和方法n聚类分析聚类分析n划分方法划分方法n层次方法层次方法n基于密度的方法基于密度的方法n基于网格的方法基于网格的方法n聚类评估聚类评估n小结小结2在整堂课的教学中,刘教师总是让学生带着问题
2、来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确什么是聚类分析什么是聚类分析?n聚类聚类:数据对象的集合数据对象的集合/簇簇(cluster)n同一簇中的对象彼此相似同一簇中的对象彼此相似n不同簇中的对象彼此相异不同簇中的对象彼此相异n聚类分析聚类分析n将数据对象分组成为多个类或簇将数据对象分组成为多个类或簇n聚类是聚类是无监督的无监督的分类:没有预先定义的类分类:没有预先定义的类n典型应用典型应用n作为洞察数据内部分布的独一无二的工具作为洞察数据内部分布的独一无二的工具 n作为其它算法的预处理步骤作为其它算法的预处理步骤在整堂课的教学中,刘教师总是让学生带着问题来学习,而问
3、题的设置具有一定的梯度,由浅入深,所提出的问题也很明确聚类的一般应用聚类的一般应用 n模式识别模式识别n空间数据分析空间数据分析 n聚类产生聚类产生GIS(地理信息系统地理信息系统)的专题地图的专题地图thematic maps n在空间数据挖掘中检测空间聚类并解释它们在空间数据挖掘中检测空间聚类并解释它们n图象处理图象处理n经济科学经济科学(特别是市场研究特别是市场研究)nWWWn文本分类文本分类nWeb日志数据聚类,发现类似访问模式群日志数据聚类,发现类似访问模式群在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确聚类应用的例子聚类
4、应用的例子n市场营销市场营销:帮帮助助市市场场营营销销者者发发现现他他们们的的基基本本顾顾客客的的不不同同组组群群,然然后后利利用用这这一一知知识识制定有针对性的营销计划制定有针对性的营销计划n国土利用国土利用在地球观测数据库中识别类似的国土使用区域在地球观测数据库中识别类似的国土使用区域n保险保险 对汽车保险持有者的分组对汽车保险持有者的分组 n城市规划城市规划根据房子的类型,价值,和地理位置对一个城市中房屋的分组根据房子的类型,价值,和地理位置对一个城市中房屋的分组 n地震研究地震研究应当将观测到的地震震中沿大陆板块断裂进行聚类应当将观测到的地震震中沿大陆板块断裂进行聚类在整堂课的教学中,
5、刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确聚类分析的主要步骤聚类分析的主要步骤n特征选择特征选择n选择与任务密切相关的信息n尽可能减少信息冗余n相似度评价相似度评价n两个特征向量的相似性n聚类的评价准则聚类的评价准则n通过代价函数或某些规则n聚类算法聚类算法nk-均值、极大似然、n结果验证结果验证n验证聚类结果的有效性n结果解释结果解释n根据实际应用解释聚类结果6在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确什么是好的聚类方法什么是好的聚类方法?n一个好的聚类方法应当产生高质量的聚类一
6、个好的聚类方法应当产生高质量的聚类n类内相似性高类内相似性高n类间相似性低类间相似性低n聚聚类类结结果果的的质质量量依依赖赖于于方方法法所所使使用用的的相相似似性性度度量量和和它的实现它的实现.n聚聚类类方方法法的的质质量量也也用用它它发发现现某某些些或或全全部部隐隐藏藏的的模模式式的能力来度量的能力来度量在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确数据挖掘对聚类的要求数据挖掘对聚类的要求 n可伸缩性可伸缩性n有的算法当数据对象少于有的算法当数据对象少于200时处理很好时处理很好,但对大量数但对大量数据对象偏差较大据对象偏差较大n
7、大型数据库包含数百万个对象大型数据库包含数百万个对象n处理不同属性类型的能力处理不同属性类型的能力n许多算法专门用于数值类型的数据许多算法专门用于数值类型的数据n实际应用涉及不同数据类型(实际应用涉及不同数据类型(数值和分类数据混合)数值和分类数据混合)n发现任意形状的聚类发现任意形状的聚类n基于距离的聚类趋向于发现具有相近尺度和密度的球基于距离的聚类趋向于发现具有相近尺度和密度的球状簇状簇 n一个簇可能是任意形状的一个簇可能是任意形状的在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确数据挖掘对聚类的要求数据挖掘对聚类的要求(续续)n
8、用于决定输入参数的领域知识最小化用于决定输入参数的领域知识最小化n许许多多聚聚类类算算法法要要求求用用户户输输入入一一定定的的参参数数,如如希希望望产产生生的的簇的数目。簇的数目。n参数难以确定,增加用户负担,使聚类质量难以控制参数难以确定,增加用户负担,使聚类质量难以控制n处理噪声数据和孤立点的能力处理噪声数据和孤立点的能力 n一一些些聚聚类类算算法法对对于于噪噪音音数数据据敏敏感感,可可能能导导致致低低质质量量的的聚聚类结果类结果n现现实实世世界界中中的的数数据据库库大大都都包包含含了了孤孤立立点点,空空缺缺,或或者者错错误的数据误的数据 n对于输入记录的顺序不敏感对于输入记录的顺序不敏感
9、 n一一些些聚聚类类算算法法对对于于输输入入数数据据的的顺顺序序是是敏敏感感的的,以以不不同同的的次序输入会导致不同的聚类次序输入会导致不同的聚类在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确数据挖掘对聚类的要求数据挖掘对聚类的要求(续续)n高维性(高维性(high dimensionality)n许多聚类算法擅长处理低维的数据许多聚类算法擅长处理低维的数据,可能只涉及两到三维可能只涉及两到三维 n数据库或者数据仓库可能包含若干维或者属性数据库或者数据仓库可能包含若干维或者属性,数据可能数据可能非常稀疏非常稀疏,而且高度偏斜而且高度
10、偏斜 n整合用户指定的约束整合用户指定的约束n现实世界的应用可能需要在各种约束条件下进行聚类现实世界的应用可能需要在各种约束条件下进行聚类 n要找到既满足要找到既满足特定的约束特定的约束,又具有良好聚类特性的数据分又具有良好聚类特性的数据分组是一项具有挑战性的任务组是一项具有挑战性的任务 n可解释性和可用性可解释性和可用性 n用户希望聚类结果是可解释的用户希望聚类结果是可解释的,可理解的可理解的,和可用的和可用的 n聚类可能需要和特定的语义解释和应用相联系聚类可能需要和特定的语义解释和应用相联系 在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问
11、题也很明确聚类分析的方法聚类分析的方法n划分方法划分方法:nConstruct various partitions and then evaluate them by some criterion,e.g.,minimizing the sum of square errorsnTypical methods:k-means,k-medoids,CLARANSn层次方法层次方法:nCreate a hierarchical decomposition of the set of data(or objects)using some criterionnTypical methods:Dian
12、a,Agnes,BIRCH,CAMELEONn基于密度的方法基于密度的方法:nBased on connectivity and density functionsnTypical methods:DBSACN,OPTICS,DenCluen基于网格的方法基于网格的方法:nbased on a multiple-level granularity structurenTypical methods:STING,WaveCluster,CLIQUE11在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确聚类分析的方法聚类分析的方法 n基于模
13、型的方法基于模型的方法:nA model is hypothesized for each of the clusters and tries to find the best fit of that model to each othernTypical methods:EM,SOM,COBWEBn基于频繁模式的方法基于频繁模式的方法:nBased on the analysis of frequent patternsnTypical methods:p-Clustern基于约束的方法基于约束的方法:nClustering by considering user-specified or
14、application-specific constraintsnTypical methods:COD(obstacles),constrained clusteringn基于链接的方法基于链接的方法:nObjects are often linked together in various waysnMassive links can be used to cluster objects:SimRank,LinkClus12在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确13第第10章:聚类分析:基本概念和方法章:聚类分析:基本概
15、念和方法n聚类分析聚类分析n划分方法划分方法n层次方法层次方法n基于密度的方法基于密度的方法n基于网格的方法基于网格的方法n聚类评估聚类评估n小结小结在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确划分方法划分方法n划划分分方方法法:构构造造n个个对对象象数数据据库库D的的划划分分,将将其其划划分分成成k个个聚聚类类n给定给定 k,找找k 个个clusters 对于选定的划分标准它是最优的对于选定的划分标准它是最优的n全局最优全局最优(Global optimal):枚举所有的划分枚举所有的划分n启启发发式式方方法法(Heuristi
16、c methods):k-平平均均(k-means)和和k-中心点中心点(k-medoids)算法算法nk-平平均均(MacQueen67):每每个个簇簇用用簇簇的的重重心心(簇簇的的平平均均值值)表示表示nk-中中心心点点或或PAM(Partition around medoids)(Kaufman&Rousseeuw87):每每个个簇簇用用接接近近聚聚类类中中心心的的一一个个对对象象来来表表示示 在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确k-平均聚类算法平均聚类算法 n算法:算法:k-平均平均(1)任意选择任意选择k个对象作
17、为初始的簇中心;个对象作为初始的簇中心;(2)repeat(3)根据簇中对象的平均值根据簇中对象的平均值,将每个对象将每个对象(重新重新)赋给最类似的簇;赋给最类似的簇;(4)更新簇的平均值更新簇的平均值,即重新计算每个簇中对象的平均值;即重新计算每个簇中对象的平均值;(5)until 不再发生变化不再发生变化 n通常通常,采用平方误差准则作为收敛函数采用平方误差准则作为收敛函数,其定义如下其定义如下 其中其中,mi是簇是簇Ci的平均值的平均值该准则试图使生成的结果簇尽可能紧凑该准则试图使生成的结果簇尽可能紧凑,独立独立在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯
18、度,由浅入深,所提出的问题也很明确k-平均聚类算法平均聚类算法(续续)n例例012345678910012345678910012345678910012345678910K=2任任意意选选择择 K个个对对象象作作为初始聚类中心为初始聚类中心将每个将每个对象赋对象赋给最相给最相似中心似中心更新簇更新簇平均值平均值重新赋值重新赋值更新簇更新簇平均值平均值重新赋值重新赋值在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确k-平均聚类算法平均聚类算法(续续)n优点优点:相对有效性相对有效性:O(tkn),其中其中,n是对象数目,是对象数目,k
19、是簇数目,是簇数目,t 是迭代次数是迭代次数;通常:通常:k,t 1,2,3 8,9,10,25 1,2,3,8 9,10,25nk-中中心心点点(k-Medoids):不不采采用用簇簇中中对对象象的的平平均均值值作作为为参参照照点点,而而是是选选用用簇簇中中位位置置最最中中心心的的对对象象,即即中中心心点点(medoid)作为参照点作为参照点012345678910012345678910012345678910012345678910在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确k-中心点聚类方法中心点聚类方法(续续)n找聚类中
20、的代表对象找聚类中的代表对象(中心点中心点)nPAM(Partitioning Around Medoids,1987)n首首先先为为每每个个簇簇随随意意选选择择一一个个代代表表对对象象,剩剩余余的的对对象象根根据据其其与代表对象的距离分配给最近的一个簇与代表对象的距离分配给最近的一个簇n反复地用非代表对象替代代表对象,以改进聚类的质量反复地用非代表对象替代代表对象,以改进聚类的质量 nPAM 对对于于较较小小的的数数据据集集非非常常有有效效,但但不不能能很很好好地地扩扩展展到到大型数据集大型数据集nCLARA(Kaufmann&Rousseeuw,1990)抽样抽样nCLARANS(Ng&H
21、an,1994):随机选样随机选样在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确n算法算法:k-中心点中心点(1)随机选择随机选择k个对象作为初始的代表对象;个对象作为初始的代表对象;(2)repeat(3)指派每个剩余的对象给离它最近的代表对象所代表的簇;指派每个剩余的对象给离它最近的代表对象所代表的簇;(4)随意地选择一个非代表对象随意地选择一个非代表对象Orandom;(5)计算用计算用Orandom代替代替Oj的总代价的总代价S;(6)若若S0,用用Orandom替换替换Oj,形成新的形成新的k个代表对象的集合;个代表对象的
22、集合;(7)until 不发生变化不发生变化k-中心点聚类方法中心点聚类方法(续续)O1O2O3。Oj。OkOrandom在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确Total Cost=20012345678910012345678910k=2任任意意选择 k个个数数据据对象象作作为初初始始类中心点中心点将将每每个个剩余的剩余的数数据据对象安排象安排对最近最近的的类随随机机选择一一个个非非类中中心心数数据据对象象 Oramdom计算交算交换的代价的代价012345678910012345678910Total Cost=26若若
23、聚聚类质量量上上升升,交交换O与与 Oramdom.执行循环直执行循环直至类不在发至类不在发生变化生变化012345678910012345678910k-中心点聚类方法中心点聚类方法(续续)在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确k-中心点聚类方法中心点聚类方法(续续)n为为了了判判定定一一个个非非代代表表对对象象Orandom是是否否是是当当前前一一个个代代表表对对象象Oj的好的替代,对于每一个非代表对象,考虑下面四种情况:的好的替代,对于每一个非代表对象,考虑下面四种情况:n第第一一种种情情况况:p当当前前隶隶属属于于代
24、代表表对对象象Oj.如如果果Oj被被Orandom所所代代替替,且且p离离Oi最近最近,ij,那么那么p被重新分配给被重新分配给Oi n第第二二种种情情况况:p当当前前隶隶属属于于代代表表对对象象Oj.如如果果Oj 被被Orandom代代替替,且且p离离Orandom最近最近,那么那么p被重新分配给被重新分配给Orandom n第第三三种种情情况况:p当当前前隶隶属属于于Oi,ij。如如果果Oj被被Orandom代代替替,而而p仍然离仍然离Oi最近,那么对象的隶属不发生变化最近,那么对象的隶属不发生变化 n第第四四种种情情况况:p当当前前隶隶属属于于Oi,ij。如如果果Oj被被Orandom代
25、代替替,且且p离离Orandom最近,那么最近,那么p被重新分配给被重新分配给Orandom 在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确 1.重新分配给重新分配给Oi 2.重新分配给重新分配给Orandom 3.不发生变化不发生变化 4.重新分配给重新分配给Orandom 数据对象数据对象+簇中心簇中心 替代前替代前 替代后替代后k-中心点聚类代价函数的四种情况中心点聚类代价函数的四种情况+OrandomOiOjp+OrandomOiOjp+OrandomOiOjp+OrandomOiOjpk-中心点聚类方法中心点聚类方法(续续
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- CHAPTER10 聚类分析 基本概念 方法 ppt 课件
限制150内