数据挖掘聚类分析第六章.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《数据挖掘聚类分析第六章.ppt》由会员分享,可在线阅读,更多相关《数据挖掘聚类分析第六章.ppt(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘聚类分析第六章现在学习的是第1页,共19页 例 某公司下属30个企业,公司为了考核下属企业的经济效益,设计了8个指标。为了避免重复,需要对这8个指标进行筛选,建立一个恰当的经济效益指标体系。通过计算30个企业8个指标的相关系数距离,数据是1-r2。得如下表:x1x1x2x2x3x3x4x4x5x5x6x6x7x7x8x8 x1x10 00.600.600 00.430.430.460.460 00.470.470.450.450.120.120 00.570.570.450.450.230.230.220.220 00.380.380.400.400.210.210.290.290.2
2、20.220 00.310.310.790.790.650.650.700.700.800.800.660.660 00.450.450.450.450.270.270.230.230.140.140.190.190.770.770 0 试用将它们聚类。x2x2x3x3x4x4x5x5x6x6x7x7x8x8现在学习的是第2页,共19页现在学习的是第3页,共19页确定类的个数确定类的个数 在聚类分析过程中类的个数如何来确定才合适呢?这是一个十分困难的问题,人们至今仍未找到令人满意的方法。但是这个问题又是不可回避的。给定阈值通过观测聚类图,给出一个合适的阈值T。要求类与类之间的距离不要超过T值。
3、例如我们给定T=2.2,当聚类时,类间的距离已经超过了2.2,则聚类结束。现在学习的是第4页,共19页什么是好的聚类方法?v一个好的聚类方法可以产生高质量的聚类:类的内部具有较高的相似度类间具有较低的相似度v聚类结果的质量依赖于相似度评价方法以及它们的应用;v聚类结果的质量也取决于它发现隐藏模式的能力。.现在学习的是第5页,共19页K-均值聚类vK-均值聚类方法是最简单、最常用的使用使用准则的方法。vK-均值聚类是属于划分方法中的基于质心是属于划分方法中的基于质心技术的一种方法。划分的思路是以技术的一种方法。划分的思路是以k为参为参数,把数,把n个对象分为个对象分为k 个类,以使类内具有个类,
4、以使类内具有较高的相似度,而类间的相似度较低。相似较高的相似度,而类间的相似度较低。相似度的计算根据一个类中对象的平均值度的计算根据一个类中对象的平均值(被看被看作类的重心作类的重心)来进行。来进行。现在学习的是第6页,共19页 v K-均值聚类的处理流程如下。首先,随均值聚类的处理流程如下。首先,随机选择机选择k个对象,每个对象都初始地代表一个个对象,每个对象都初始地代表一个类的平均值或中心。对剩余的对象,根据其类的平均值或中心。对剩余的对象,根据其与各自类中心的距离,将它赋给最近的类。与各自类中心的距离,将它赋给最近的类。然后重新计算每个类的平均值。这个过程不然后重新计算每个类的平均值。这
5、个过程不断重复,直到准则函数收敛。断重复,直到准则函数收敛。现在学习的是第7页,共19页 v注意:类均值的初始值是任意分配的,可以随机分配也可以直接使用前K个成员的属性值。现在学习的是第8页,共19页K-均值聚类实例均值聚类实例v假设给定如下要进行聚类的元组:假设给定如下要进行聚类的元组:2,4,10,12,3,20,30,11,25,并假设,并假设k=2.初始初始时用前两个数值作为类的均值;时用前两个数值作为类的均值;m=2 和和 m=4.利用欧几里德距离,可得利用欧几里德距离,可得K1=2,3和和K2=4,10,12,20,30,11,25。数值。数值3与两个均与两个均值的距离相等,所以任
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 聚类分析 第六
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内