层次聚类算法应用.doc





《层次聚类算法应用.doc》由会员分享,可在线阅读,更多相关《层次聚类算法应用.doc(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精品文档,仅供学习与交流,如有侵权请联系网站删除 安 徽 三 联 学 院 题目:层次聚类算法研究应用姓 名 张 翔 专 业 计算机科学与技术 班 级 计一系本科2班 指导教师 张 林 完成日期: 2011年 11 月 16 日摘 要【精品文档】第 - 13 - 页本文围绕层次聚类分析算法展开研究首先根据样本间的相似性关系定义分类后类与类间的分离性,以及同一个类别内部的一致性,并进行计算,从而使得计算过程得到简化为了更好地实现聚类,在分析层次聚类算法和神经网络的ART2算法的基础上,提出了一种改进的层次聚类算法改进算法首先采用一种基于ART2的改进神经网络聚类算法得到一个初始的聚类结果,在此基础
2、上利用层次聚类算法实现分层聚类在基于电价区域划分的实际问题中,这里结合人类视觉感知理论,提出了获取最优聚类的条件,从而实现了最佳的分类本文的主要研究工作如下:第一章:简单介绍了聚类分析基本思想,研究的内容,应用的前景,发展现状,并且细致的说明了聚类分析的分类统计量距离与相似系数第二一章:说明了层次聚类分析的定义及研究方法,对层次聚类分析方法的有效性做出了细致的研究,并提出了基于相似矩阵的有效性函数第三二章:将层次聚类分析方法应用在电价区域的空间尺度划分问题中,进而实现了电价区域的划分关键词 层次聚类分析;有效性;空间尺度AbstractBy hierarchical clustering an
3、alysis algorithm, the similarity between samples by the definitions of sexual relations after the separation between class and class, and the same type of internal consistency, which makes the calculation process is simplified. In order to achieve clustering, hierarchical clustering analysis and neu
4、ral network ased on ART2 algorithm a modified hierarchical clustering algorithm. Price based on the practical problems of regional division, where the combination of human visual perception theory, the conditions for obtaining the optimal clustering,in order to achieve the best classification. The m
5、ain research work are as follows: Chapter I: a brief introduction the basic idea of cluster analysis to study the content, applications, prospects, development status, and detailed description of the cluster analysis classification of statistics the distance and the similarity coefficient. Chapter I
6、I: Definition of hierarchical clustering analysis and research methods, hierarchical clustering analysis on the effectiveness of research and made a similar matrix based on the validity of function. Chapter IV: In the first three chapters, based on the hierarchical cluster analysis method in the sho
7、p price by the spatial scale of regional issues, the realized price by region. Keywords Hierarchical clustering analysis; Effectiveness; Neural network; Spatial scale目 录摘要IAbstractII目录III第1章 层次聚类分析算法及其研究621.1 层次聚类分析算法621.2 层次聚类分析算法的有效性研究621.3 本章小结95第2章 一种改进的层次聚类分析算法的应用1062.1 多机系统分析意义算法实现1062.2 Agglo
8、merative 聚类算法节点电价的特征类提取116 2.3 基于尺度空间聚类的电价区域划分.8 2.4 本章小结.13结论164第1章 层次聚类分析算法及其研究1.1 层次聚类分析算法层次聚类算法1,也称为树聚类算法,它的目标是对于具有个样本的集合,首先通过相似性函数计算样本间的相似性并构成相似性矩阵,再根据样本间的相似性矩阵把样本集组成一个分层结构,产生一个从1到的聚类序列这个序列有着二叉树的形式,即每个树的结点有两个分支,从而使得聚类结果构成样本集的系统树图, 使得有或对所有的都成立从系统树图形成的方式来看,层次聚类算法包括2种形式:凝聚式算法和分裂式算法凝聚式算法是以“自底向上”的方式
9、进行的首先将每个样本作为一个聚类,然后合并相似性最大的聚类为一个大的聚类,直到所有的聚类都被融合成一个大的聚类它以个聚类开始,以1个聚类结束,分裂式算法是以一种“自顶向下”的方式进行的一开始它将整个样本看做一个大的聚类,然后,在算法进行的过程中考察所有可能的分裂方法把整个聚类分成若干个小的聚类第1步分成2类,第2步分成3类,这样一直能够进行下去直到最后一步分成类在每一步中选择一个使得相异程度最小的分裂运用这种方法,可以得到一个相反结构的系统树图,它以1个聚类开始,以个聚类结束与分裂式算法相比,由于凝聚式算法在计算上简单、快捷,而且得到相近的最终结果,所以绝大多数层次聚类方法都是凝聚式的,它们只
10、是在聚类的相似性度量的定义上有所不同层次聚类算法是一个非常有用的聚类算法,它在迭代的过程中直到所有的数据都属于同一个簇才停止迭代,但是层次聚类也存在几个缺点,如聚类的时空复杂度4高、聚类的簇效率底、误差较大等1.2 层次聚类分析算法的有效性研究针对如何从层次聚类算法得到样本集的多种聚类结果中获得用户最满意的聚类结果,在深入研究聚类有效性的基础上,通过模糊相似性关系刻画聚类的类内致密性和类间分离性,可以建立一个聚类的有效性函数在人工和实际数据集上的实验都表明了该有效性函数具有良好的性能层次聚类算法,特别是凝聚式算法在计算上简单、快捷,而且能够得到相近的最终结果,所以层次聚类算法的应用较为广泛5虽
11、然该类算法把数据集的多种分类结果都展现了出来,但是从算法所得到的各类分类结果中获得用户最满意的分类情况却成了一个问题根据模糊集理论6,系统树结构的每一层是由阈值决定的因此,最优聚类结果的选取问题就是最优阈值的选取问题对于最优阈值的选取问题,使用统计量是研究者们比较认可的方法当然随着模糊数学研究的深入,近几年来也有新的解决方法,Nasibov和Ulutagay提出了一个对于噪声更为稳定的FJP(fuzzy joint points)算法该算法的基本思想是根据样本点与样本点之间的距离计算模糊关系矩阵,对于某一,建立截集和等价类此时,这些等价类决定了模糊聚类的每个截集但并非对每个都计算截集,而是只计
12、算影响聚类个数的对应的截集最终的截集是由取值区间上的最大值确定的FJP算法已被证明能成功检测团装数据集及流形状数据集,即使添加噪声点后FJP算法也能成功识别流形状数据集如何衡量一个聚类结果的好坏,以及如何确定最优聚类个数,这些都是聚类有效性问题关于模糊均值算法聚类有效性问题的研究也已经有了很丰硕的成果,从1974年开始研究者们提出了许多有效性函数这些有效性函数构建聚类有效性指标的定义应当是客观的通常情况下,刻画聚类有效性有2个标准:类内致密性和类间分离性统计量也是从类内致密性和类间分离性2个方面考虑的对于层次聚类算法的有效性研究,很多研究者还试图从模糊数学理论着手范九伦和吴成茂对基于模糊集合定
13、义的若干公式在聚类有效性方面的性质进行了讨论,并对分类性能进行实验,筛选出2有应用价值的公式这里通过样本间的相似性关系定义类与类间的分离性以及同一个类别内部的一致性,从而使得计算过程得到简化1.2.1 有效性函数的定义字典上将类定义为许多相似或同事物的综合这个定义包含2层含义:第1层,在同一个类内的样本相互之间具有相似或相同的属性,也就是说,聚类的致密性度量的值应该是极小化的,否则,如果属性不同的样本被划分到同一个类内,那么这个类的类内致密性度量的值就会较大;第2层是好的聚类的各个类别间的分离性7应该是很好的,如果本应属于同一个类的样本被分到不同类别内,那么类与类之间的重叠就会较大,也就是说,
14、一个好的聚类结果得到的类别之间具有较大的离散性本文将通过样本间的相似性度量给出类内致密性度量和类间离散性7度量的定义设样本集通过某相似性度量得到的相似性矩阵为,其通过凝聚式层次聚类算法得到的系统树图为对于此系统树图中的任何一层,设其中包含个聚类,每个聚类中含有个样本,本文将所有样本间的相似性的算术平均值叫做样本集的平均相似性向量,即对于一个类,这里把类内所有样本间相似性的算术平均值叫做类内平均相似性向量类是具有相似属性样本的集合,同一类内样本相互间的相似性差异相对较小也就是说,每个样本与其他样本的相似性与类内平均相似性向量就会相对小于是有下面的定义:定义1 (类内致密性度量)设是样本集的层次聚
15、类系统树图中某一层,并设其中包含个聚类每个聚类中含有个样本,样本集的聚类结果的类内致密性度量定义为: (2-1)若要类与类间的分离性较好,各类的平均相似性向量与样本集平均相似性向量的差异必然要大由此本文通过类内平均相似性向量与样本集平均相似性向量的距离来定义类间离散性度量定义2 (类间离散性度量)设是样本集X的层次聚类系统树图中某一层,并设其中包含个聚类,每个聚类中含有个样本,样本集的这种聚类结果的类间离散性度量定义为: (2-2)对于一个好的聚类,同一个类内的样本越相似越好,而不同类别间的样本相似性越小越好于是类内致密性度量的值越小越好,而类间离散性度量的值越大越好定义3 (新的有效性指标)
16、建立新的有效性指标为: (2-3)聚类结果对应的越大,聚类的结果越好1.3 本章小结层次聚类算法,也称为树聚类算法,它的目标是对于具有个样本的集合,首先通过相似性函数计算样本间的相似性并构成相似性矩阵,再根据样本间的相似性矩阵把样本集组成一个分层结构,产生一个从1到的聚类序列针对如何从层次聚类算法得到样本集的多种聚类结果中获得用户最满意的聚类结果,在深入研究聚类有效性的基础上,通过模糊相似性关系刻画聚类的类内致密性和类间分离性,可以建立一个新的聚类有效性函数层次聚类算法,特别是凝聚式算法在计算上简单、快捷,而且能够得到相近的最终结果,所以层次聚类算法的应用较为广泛虽然该类算法把数据集的多种分类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 层次 算法 应用

限制150内