数据挖掘层次聚类.ppt
《数据挖掘层次聚类.ppt》由会员分享,可在线阅读,更多相关《数据挖掘层次聚类.ppt(34页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、7.5层次聚类方法层次聚类方法2022/11/29层次聚类层次聚类2层次聚类方法概述层次聚类方法概述层次聚类方法将数据对象组成一棵聚类树。根据层次分解是自底向上(合并)还是自顶向下(分裂),进一步分为凝聚的和分裂的。2022/11/29层次聚类层次聚类3层次聚类方法概述层次聚类方法概述凝聚的层次聚类:一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。分裂的层次聚类:采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。2022/1
2、1/29层次聚类层次聚类4簇间距离簇间距离最小距离2022/11/29层次聚类层次聚类5簇间距离簇间距离最大距离2022/11/29层次聚类层次聚类6簇间距离簇间距离平均距离2022/11/29层次聚类层次聚类7簇间距离簇间距离均值距离 2022/11/29层次聚类层次聚类8AGNES算法算法AGNES(AGglomerative NESting)算法最初将每个对象作为一个簇,然后这些簇根据某些准则被一步步地合并。两个簇间的相似度由这两个不同簇中距离最近的数据点对的相似度来确定。聚类的合并过程反复进行直到所有的对象最终满足簇数目。2022/11/29层次聚类层次聚类9AGNES算法算法输入:n
3、个对象,终止条件簇的数目k。输出:k个簇,达到终止条件规定簇数目。(1)将每个对象当成一个初始簇;(2)REPEAT(3)根据两个簇中最近的数据点找到最近的两个簇;(4)合并两个簇,生成新的簇的集合;(5)UNTIL达到定义的簇的数目;2022/11/29层次聚类层次聚类10AGNES算法例题算法例题序号序号 属性属性1 属性属性21 1 12 1 23 2 14 2 25 3 46 3 57 4 48 4 5第第1步:根据初始簇计算每个簇之间的距离,随机找出距离最小的两步:根据初始簇计算每个簇之间的距离,随机找出距离最小的两个簇,进行合并,最小距离为个簇,进行合并,最小距离为1,合并后,合并
4、后1,2两个点合并为一个簇。两个点合并为一个簇。第第2步:对上一次合并后的簇计算簇间距离,找出距离最近的两个簇步:对上一次合并后的簇计算簇间距离,找出距离最近的两个簇进行合并,合并后进行合并,合并后3,4点成为一簇。点成为一簇。第第3步:重复第步:重复第2步的工作,步的工作,5,6点成为一簇。点成为一簇。第第4步:重复第步:重复第2步的工作,步的工作,7,8点成为一簇。点成为一簇。第第5步:合并步:合并1,2,3,4成为一个包含四个点的簇。成为一个包含四个点的簇。第第6步:合并步:合并5,6,7,8,由于合并后的簇的数目已经达到了用户输,由于合并后的簇的数目已经达到了用户输入的终止条件,程序终
5、止。入的终止条件,程序终止。步骤步骤 最近的簇距离最近的簇距离 最近的两个簇最近的两个簇 合并后的新簇合并后的新簇1 1 1,2 1,2,3,4,5,6,7,8 2 1 3,4 1,2,3,4,5,6,7,83 1 5,6 1,2,3,4,5,6,7,84 1 7,8 1,2,3,4,5,6,7,85 1 1,2,3,4 1,2,3,4,5,6,7,86 1 5,6,7,8 1,2,3,4,5,6,7,8结束结束2022/11/29层次聚类层次聚类112022/11/29层次聚类层次聚类122022/11/29层次聚类层次聚类132022/11/29层次聚类层次聚类14AGNESAGNES特点
6、特点AGNES算法比较简单,但经常会遇到合并点选择的困难。假如一旦一组对象被合并,下一步的处理将在新生成的簇上进行。已做处理不能撤销,聚类之间也不能交换对象。如果在某一步没有很好的选择合并的决定,可能会导致低质量的聚类结果。2022/11/29层次聚类层次聚类15DIANA算法算法DIANA(Divisive ANAlysis)算法是典型的分裂聚类方法。在聚类中,用户能定义希望得到的簇数目作为一个结束条件。算法算法 DIANA(自(自顶顶向下分裂算法)向下分裂算法)输输入:入:n个个对对象,象,终终止条件簇的数目止条件簇的数目k。输输出:出:k个簇,达到个簇,达到终终止条件止条件规规定簇数目。
7、定簇数目。(1)将所有)将所有对对象整个当成一个初始簇;象整个当成一个初始簇;(2)FOR(i=1;ik;i+)DO BEGIN(3)在所有簇中挑出具有最大直径的簇在所有簇中挑出具有最大直径的簇C;(4)找找出出C中中与与其其它它点点平平均均相相异异度度最最大大的的一一个个点点p并并把把p放放入入splinter group,剩余的放在,剩余的放在old party中;中;(5)REPEAT(6)在在old party里里找找出出到到最最近近的的splinter group中中的的点点的的距距离离不不大大于于到到old party中中最最近近点点的的距距离离的的点点,并并将将该该点点加加入入s
8、plinter group。(7)UNTIL 没有新的没有新的old party的点被分配的点被分配给给splinter group;(8)splinter group和和old party为为被被选选中中的的簇簇分分裂裂成成的的两两个个簇簇,与与其其它它簇一起簇一起组组成新的簇集合。成新的簇集合。(9)END.序号序号属性属性 1属性属性 2111212321422534635744845DIANA算法例题算法例题第第1步,找到具有最大直径的簇,对簇中的每个点计算平均相异度(假定采用步,找到具有最大直径的簇,对簇中的每个点计算平均相异度(假定采用是欧式距离)。是欧式距离)。1的平均距离:(的
9、平均距离:(1+1+1.414+3.6+4.24+4.47+5)/7=2.96 类似地,类似地,2的平均距离为的平均距离为2.526;3的平均距离为的平均距离为2.68;4的平均距离为的平均距离为2.18;5的平均距离为的平均距离为2.18;6的平均距离为的平均距离为2.68;7的平均距离为的平均距离为2.526;8的平均距离为的平均距离为2.96。找出平均相异度最大的点找出平均相异度最大的点1放到放到splinter group中,剩余点在中,剩余点在old party中。中。第第2步,在步,在old party里找出到最近的里找出到最近的splinter group中的点的距离不大于到中的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 层次
限制150内