聚类算法分析(共35页).doc





《聚类算法分析(共35页).doc》由会员分享,可在线阅读,更多相关《聚类算法分析(共35页).doc(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上课程名称: 数据挖掘 实验项目: 聚类算法分析研究 班 级: 学 号: 学生姓名: 专心-专注-专业聚类算法分析研究1 实验环境以及所用到的主要软件Windows VistaNetBeans6.5.1 Weka3.6MATLAB R2009a2 实验内容描述聚类是对数据对象进行划分的一种过程,与分类不同的是,它所划分的类是未知的,故此,这是一个“无指导的学习” 过程,它倾向于数据的自然划分。其中聚类算法常见的有基于层次方法、基于划分方法、基于密度以及网格等方法。本文中对近年来聚类算法的研究现状与新进展进行归纳总结。一方面对近年来提出的较有代表性的聚类算法,从算法思想。
2、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析。最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题等。实验中主要选择了K均值聚类算法、FCM模糊聚类算法并以网站下载的IRIS和WINE数据集为基础通过MATLAB实现对上述算法的实验测试。然后以WINE数据集在学习了解Weka软件接口方面的基础后作聚类分析,使用最常见的K均值(即K-means)聚类算法和FCM模糊聚类算法。下面简单描述一下K均
3、值聚类的步骤。K均值算法首先随机的指定K个类中心。然后:(1)将每个实例分配到距它最近的类中心,得到K个类;(2)计分别计算各类中所有实例的均值,把它们作为各类新的类中心。重复(1)和(2),直到K个类中心的位置都固定,类的分配也固定。在实验过程中通过利用Weka软件中提供的simpleKmeans(也就是K均值聚类算法对WINE数据集进行聚类分析,更深刻的理解k均值算法,并通过对实验结果进行观察分析,找出实验中所存在的问题。然后再在学习了解Weka软件接口方面的基础上对Weka软件进行一定的扩展以加入新的聚类算法来实现基于Weka平台的聚类分析。3 实验过程3.1 K均值聚类算法3.1.1
4、K均值聚类算法理论K均值算法是一种硬划分方法,简单流行但其也存在一些问题诸如其划分结果并不一定完全可信。K均值算法的划分理论基础是(1)其中是划分的聚类数,是已经属于第类的数据集是相应的点到第类的平均距离,即(2)其中表示在数据集中的对象数。3.1.2 算法的基本过程任意选择K个对象作为初始的类的中心;根据类中的平均值,将每个数据点 (重新)赋给最相近的类;更新类的平均值;不再发生变化,即没有对象进行被重新分配时过程结束。3.1.3 算法代码分析K均值聚类算法的代码分析过程如下首先调用clust_normalize()函数将数据集标准化具体过程如下data=clust_normalize(da
5、ta,range);下面是对K均值算法的初始化if max(size(param.c)=1, c = param.c; index=randperm(N); v=X(index(1:c),:);v = v + 1e-10; v0=X(index(1:c)+1,:);v0 = v0 - 1e-10;else v = param.c; c = size(param.c,1); index=randperm(N); v0=X(index(1:c)+1,:);v0 = v0 + 1e-10;end iter = 0;接着是迭代求解直到满足要求的解或者达到最大的迭代值while prod(max(abs
6、(v - v0), iter = iter +1; v0 = v; for i = 1:c 这里是用来计算欧氏距离 dist(:,i) = sum(X - repmat(v(i,:),N,1).2,2); end 下面将分类结果赋值 m,label = min(dist); distout=sqrt(dist); 下面计算分类中心 for i = 1:c index=find(label = i); if isempty(index) v(i,:) = mean(X(index,:); else ind=round(rand*N-1); v(i,:)=X(ind,:); end f0(inde
7、x,i)=1; end J(iter) = sum(sum(f0.*dist); if param.vis clf hold on plot(v(:,1),v(:,2),ro) colors=r. gx b+ ys md cv k. r* g* b* y* m* c* k* ; for i=1:c index = find(label = i); if isempty(index) dat=X(index,:); plot(dat(:,1),dat(:,2),colorsi) end end hold off pause(0.1) end end保存求解结果result.cluster.v =
8、 v;result.data.d = distout;计算划分矩阵 f0=zeros(N,c);for i=1:c index=find(label = i); f0(index,i)=1;end result.data.f=f0;result.iter = iter;result.cost = J;3.1.4 实验配置实验过程配置比较简单只需按照如下介绍即可。将路径修改为MATLAB工具箱的相应路径在次是“E:MATLABtoolboxFUZZCLUST”如下path(path,E:MATLABtoolboxFUZZCLUST)选择数据集在实验中选择了IRIS数据集,因此IRIS=1。在下面
9、选择哪个数据集只需将相应的值置为1其他两个置为0。wine=0;iris=1;wisc=0;if wine load winedat.txt data=winedat(:,1:end-1); C=winedat(:,end);endif iris load iris data=iris(:,1:4); C=zeros(length(data),1); for i=1:3 C(find(iris(:,4+i)=1)=i; end endif wisc wisc数据预处理 wisc=wk1read(wisconsin.wk1); NI=9; NT=length(wisc); data.X=wisc
10、(:,11) wisc(:,2:10); data.X=sortrows(data.X,1); I,J=find(data.X(:,7)=0); data.X=data.X(I,:); I,J=find(data.X(:,1)=2); data.X(I,1)=1; I,J=find(data.X(:,1)=4); data.X(I,1)=2; C=data.X(:,1); data=data.X(:,2:end); end 数据标准化data.X=data;data=clust_normalize(data,range);下面的参数在FCM模糊聚类时用到param.m=2;如下参数是设置分类数
11、即K=3param.c=3;param.val=1;param.vis=0;result=Kmeans(data,param);result=validity(result,data,param);d1,d2=max(result.data.f);Cc=;for i=1:param.c Ci=C(find(d2=i); dum1=hist(Ci,1:param.c); dd1,dd2=max(dum1); Cc(i)=dd2;end3.1.5 实验效果实验中使用了UCI的IRIS数据集和WINE数据集,实验的结果如下图1) IRIS数据集实验结果MATLAB实验输出的图形如下图 PCA图图 C
12、onventional Sammon mapping 图图 Fuzzy Sammon mapping 图并且可在实验中得到MATLAB的算法评价指标如下表格 1 IRIS数据集算法评价指标PC1CENaN2) WINE数据集实验结果MATLAB实验输出的图形如下图 4 PCA图图 5 Conventional Sammon mapping 图图 6 Fuzzy Sammon mapping 图并且可在实验中得到MATLAB的算法评价指标如下表格 2 WINE数据集算法评价指标PC1CENaN将该算法在两种不同数据集中的测试结果对比如下表格 3 不同数据集的算法指标对比KmeansPCCEIRI
13、S1NaNWINE1NaN3.1.6 K均值聚类算法的相关特点该算法试图找出使平方误差值最小的K个划分。当结果类是密集的,而类与类之间区分明显时,它的效果较好。算法复杂度,其中是迭代次数。因此其可扩展性较好,对大数据集处理有较高的效率。算法常以局部最优结束。全局最优要穷举所有可能的划分。缺点:不适合发现非凸面状的类。不适合大小差别较大的类。对于噪声和孤立点是敏感的,由于少量的该类数据对平均值产生较大的影响。3.2 FCM模糊聚类算法FCM算法也是一种基于划分的聚类算法,它的思想就是使得被划分到同一类的对象之间相似度最大,而不同类之间的相似度最小。模糊C均值算法是普通C均值算法的改进,普通C均值
14、算法对于数据的划分是硬性的,而FCM则是一种柔性的模糊划分。在介绍FCM具体算法之前我们先介绍一些模糊集合的基本知识。3.2.1 FCM模糊聚类算法的理论1) 理论基础-模糊集基本知识首先说明隶属度函数的概念。隶属度函数是表示一个对象隶属于集合的程度的函数,通常记做,其自变量范围是所有可能属于集合的对象(即集合所在空间中的所有点),取值范围是,即。表示完全隶属于集合,相当于传统集合概念上的。一个定义在空间上的隶属度函数就定义了一个模糊集合,或者叫定义在论域上的模糊子集。在聚类的问题中,可以把聚类生成的类看成模糊集合,因此每个样本点隶属于每个类的隶属度就是区间里面的值。2) FCM的算法理论19
15、73年,Bezdek提出了该算法,并作为早期硬C均值聚类(HCM)方法的一种改进,命名为模糊C均值聚类简称FCM是一种目标函数法。假设将样本空间要分为个类,则类中心集使下式的目标函数值最小(3)(4)且有其中被称为模糊隶属度矩阵。表示的是数据隶属于类中心的隶属度。是模糊加权参数,用于控制在模糊类间的程度依据参考的文献中一般取值为15。应用拉格朗日乘法并基于上述约束可得到如下式 (5)且 (6)其中是到第类中心的欧氏距离,即。3.2.2 FCM模糊聚类算法的过程置初始化参数值,包含模糊加权参数值和聚类数,以及迭代的次数和算法终止误差。随机化置初始化聚类的中心。计算隶属度矩阵可通过(5)式计算得来
16、。依据(6)式迭代计算聚类的中心。检验是否成立,成立则算法结束否则。3.2.3 算法代码分析FCM聚类算法的代码分析过程如下参数检查并初始化默认参数if exist(param.m)=1, m = param.m;else m = 2;end;if exist(param.e)=1, e = param.m;else e = 1e-4;end;N,n = size(X);Nf0,nf0 = size(f0); X1 = ones(N,1);初始化模糊划分矩阵rand(state,0)if max(Nf0,nf0) = 1, % only number of cluster given c =
17、f0; mm = mean(X); %mean of the data (1,n) aa = max(abs(X - ones(N,1)*mm); % v = 2*(ones(c,1)*aa).*(rand(c,n)-0.5) + ones(c,1)*mm; for j = 1 : c, xv = X - X1*v(j,:); d(:,j) = sum(xv*eye(n).*xv),2); end; d = (d+1e-10).(-1/(m-1); f0 = (d ./ (sum(d,2)*ones(1,c); else c = size(f0,2); fm = f0.m; sumf = su
18、m(fm); v = (fm*X)./(sumf*ones(1,n); %end;f = zeros(N,c); iter = 0; 该参数用来迭代计数迭代求解直到满足实验要求的精度while max(max(f0-f) e iter = iter + 1; f = f0; 下面计算分类中心 fm = f.m; sumf = sum(fm); v = (fm*X)./(sumf*ones(1,n); for j = 1 : c, xv = X - X1*v(j,:); d(:,j) = sum(xv*eye(n).*xv),2); end; distout=sqrt(d); J(iter) =
19、 sum(sum(f0.*d); d = (d+1e-10).(-1/(m-1); f0 = (d ./ (sum(d,2)*ones(1,c);endfm = f.m; sumf = sum(fm);求解结果保存result.data.f=f0;result.data.d=distout;result.cluster.v=v;result.iter = iter;result.cost = J;3.2.4 实验配置实验配置过程与K均值算法的实验配置过程基本相同,只是在FCM模糊聚类算法实验中要用到模糊隶属度参数,一般将其设置在15之间在实验中设置如下param.m=2。也可以根据需要对其进行
20、修改。3.2.5 实验效果实验中使用了UCI的IRIS数据集和WINE数据集,实验的结果如下图1) IRIS数据集实验结果MATLAB实验输出的图形如下图 7 PCA图图 8 Conventional Sammon mapping 图图 9 Fuzzy Sammon mapping 图并且可在实验中得到MATLAB的算法评价指标如下表格 4 IRIS数据集算法评价指标PC0.7420CE0.46822) WINE数据集实验结果MATLAB实验输出的图形如下图 0 PCA图图 11 Conventional Sammon mapping 图图 12 Fuzzy Sammon mapping 图并
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 算法 分析 35

限制150内