2022年聚类算法学习笔记.docx
《2022年聚类算法学习笔记.docx》由会员分享,可在线阅读,更多相关《2022年聚类算法学习笔记.docx(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选学习资料 - - - - - - - - - 细心整理 欢迎下载聚类的定义聚类是一个将数据集划分为如干个子集的过程,并使得同一集合内的数据对象具有较高的相像度, 而不同集合中的数据对象就是不相同的,相像或不相像的度量是基于数据对象描述属性的聚类值来确定的,通常就是利用各个聚类间的距离来进行描述的; 聚类分析的基本指导思想是最大程度地实现类中对象相像度最 大,类间对象相像度最小;聚类与分类不同, 在分类模型中, 存在样本数据, 这些数据的类标号是已知的,分类的目的是从训练样本集中提取出分类的规章,用于对其他标号未知的对象进行类标识; 在聚类中, 预先不知道目标数据的有关类的信息,需要以某种度
2、量为标准将全部的数据对象划分到各个簇中;习;聚类主要包括以下几个过程:因此,聚类分析又称为无监督的学(1)数据预备:包括特点标准化和降维;(2)特点挑选、提出:从最初的特点中挑选是有效的特点,并将其储备于 向量中;(3)特点提取:通过对所挑选的特点进行转换,形成新的突出特点;(4)聚类(或分组):第一挑选合适特点类型的某种距离函数(或构造新的 距离函数)进行接近程度的度量,然后执行聚类或分组;聚类结果评估:指对聚类结果进行评估;评估主要有 部有效性评估和相关性测试评估;聚类算法的要求(1)可扩展性;很多聚类算法在小数据集(少于3 种:外部有效性评估、内200 个数据对象)时可以工作很好; 但一
3、个大数据库可能会包含数以百万的对象;利用采样方法进行聚类 分析可能得到一个有偏差的结果,这时就需要可扩展的聚类分析算法;(2)处理不同类型属性的才能;很多算法是针对基于区间的数值属性而设 计的;但是有些应用需要对实类型数据;如:二值类型、符号类型、次序类型,或这些数据类型的组合;(3)发觉任意外形的聚类;很多聚类算法是依据欧氏距离和 Manhattan 距 离来进行聚类的; 基于这类距离的聚类方法一般只能发觉具有类似大小和密度的名师归纳总结 - - - - - - -第 1 页,共 6 页精选学习资料 - - - - - - - - - 细心整理 欢迎下载圆形或球状聚类; 而实际一个聚类是可以
4、具有任意外形的,因此设计能够发觉任意开关类集的聚类算法是特别重要的;(4)需要(由用户)打算的输入参数最少;很多聚类算法需要用户输入聚类分析中所需要的一些参数(如:期望所获得聚类的个数);而聚类结果通常都与输入参数亲密相关; 而这些参数经常也很难打算, 特殊是包含高维对象的数据集;这不仅构成了用户的负担,也使得聚类质量难以掌握;(5)处理噪声数据的才能;大多数现实世界的数据库均包含反常数据、不 明数据、数据丢失和噪声数据, 有些聚类算法对这样的数据特别敏锐并会导致获 得质量较差的数据;(6)对输入记录次序不敏锐;一些聚类算法对输入数据的次序敏锐,也就是不同的数据输入次序会导致获得特别不同的结果
5、;敏锐的聚类算法也是特别重要的;因此设计对输入数据次序不(7)高维问题;一个数据库或一个数据仓库或许包含如干维属性;很多聚 类算法在处理低维数据时 (仅包含二到三个维) 时表现很好, 然而设计对高维空 间中的数据对象, 特殊是对高维空间稀疏和怪异分布的的数据对象,能进行较好 聚类分析的聚类算法已成为聚类讨论中的一项挑战;(8)基于约束的聚类;现实世界中的应用可能需要在各种约束之下进行聚类分析;假设需要在一个城市中确定一些新加油站的位置,就需要考虑诸如: 城市中的河流、 调整路,以及每个区域的客户需求等约束情形下居民住地的聚类分 析;设计能够发觉满意特定约束条件且具有较好聚类质量的聚类算法也是一
6、个重 要聚类讨论任务;(9)可说明性和可用性;用户往往期望聚类结果是可懂得的、可说明的,以及可用的, 这就需要聚类分析要与特定的说明和应用联系在一起;因此讨论一 个应用的目标是如何影响聚类方法挑选也是特别重要的;各种聚类算法介绍随着人们对数据挖掘的深化讨论和明白,各种聚类算法的改进算法也相继提出,很多新算法在前人提出的算法中做了某些方面的提高和改进,且很多算法是有针对性地为特定的领域而设计; 我们必需清晰地明白各种算法的优缺点和应用范畴,依据实际问题挑选合适的算法;名师归纳总结 - - - - - - -第 2 页,共 6 页精选学习资料 - - - - - - - - - 细心整理 欢迎下载
7、基于层次的聚类算法 基于层次的聚类算法对给定数据对象进行层次上的分解,可分为凝结算法和 分裂算法; 1 自底向上的凝结聚类方法;这种策略是以数据对象作为原子类,然后将 这些原子类进行聚合; 逐步聚合成越来越大的类, 直到满意终止条件; 凝结算法 的过程为:在初始时,每一个成员都组成一个单独的簇,在以后的迭代过程中,再把那些相互邻近的簇合并成一个簇,直到全部的成员组成一个簇为止;其时间 和空间复杂性均为 On2;通过凝结式的方法将两簇合并后,无法再将其分别到 之前的状态;在凝结聚类时,挑选合适的类的个数和画出原始数据的图像很重要; 2 自顶向下分裂聚类方法;与凝结法相反,该法先将全部对象置于一个
8、簇中,然后逐步细分为越来越小的簇, 直到每个对象自成一簇, 或者达到了某个终结条 件;其主要思想是将那些成员之间不是特别紧密的簇进行分裂;跟凝结式方法的 方向相反, 从一个簇动身, 一步一步细化; 它的优点在于讨论者可以把留意力集 中在数据的结构上面; 一般情形下不使用分裂型方法, 由于在较高的层很难进行 正确的拆分 基于密度的聚类算法很多算法都使用距离来描述数据之间的相像性,但对于非凸数据集, 只用距离来描述是不够的; 此时可用密度来取代距离描述相像性,即基于密度的聚类算法;它不是基于各种各样的距离, 所以能克服基于距离的算法只能发觉“ 类圆形”的聚类的缺点; 其指导思想是: 只要一个区域中
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 年聚类 算法 学习 笔记
限制150内