人工智能发展历史 (18).pdf
聚类概述聚类概述聚类问题聚类问题聚类是按照事物的某些属性,把事物聚集成簇,使簇内的对象之间具有较高的相似性,而不同簇的对象之间的相似程度较差。聚类问题“物以类聚,人以群分”聚类算法感知样本间的相似度,进行类别归纳,对新的输入进行输出预测,输出变量取有限个离散值。可以作为一个单独过程,用于寻找数据内在的分布结构 可以作为分类、稀疏表示等其他学习任务的前驱过程聚类问题“物以类聚,人以群分”聚类算法感知样本间的相似度,进行类别归纳,对新的输入进行输出预测,输出变量取有限个离散值。簇间对象距离最大簇内对象距离最小聚类问题聚类问题聚类划分方法层次方法基于密度的方法基于图的方法基于模型的方法k-Means algorithm 1957,1967k-Medoids algorithmk-Modes 1998Fuzzy c-means algorithm 1999分裂凝聚STING 1997DBSCAN 1996CLIQUE 1998DENCLUE 1998OPTICS 1999Wave Cluster 1998MST Clustering 1999OPOSSUM 2000SNN Similarity Clustering 2001,2003EM Algorithm 1977Auto class 1996COBWEB 1987ANN Clustering 1982,1989AGNES 1990BIRCH 1996CURE 1998ROCK 1999Chamelon 1999 DIANA 1990 PAM 1990 CLARA 1990 CLARANS 1994聚类问题划分方法:K均值方法 PAM(K中心方法)层次方法 DIANA AGNES ROCK基于密度的方法 DBSCANV2V2V2V2V2V2划分方法V1V1V1V1V1V1K=5K=4K=2层次聚类方法Eps=RminPoints=2基于密度的聚类选择一定宽度的格子来分割数据空间设置阈值为2,将相邻稠密的格子合并形成一个“类”V2V2基于网格的聚类V1V1基于模型的算法基于模型的算法:为每个簇假定一个模型,然后去寻找能够很好地满足这个模型的数据集。这样的算法经常基于这样的假定:数据集是由一系列的概率分布所决定的。机器学习机器学习