模糊聚类分析(共21页).docx
《模糊聚类分析(共21页).docx》由会员分享,可在线阅读,更多相关《模糊聚类分析(共21页).docx(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上目录模糊聚类与非模糊聚类比较分析摘要:聚类分析是根据样本间的相似度实现对样本的划分,属于无监督分类。传统的聚类分析是研究“非此即彼”的分类问题,分类结果样本属于哪一类很明确,而很多实际的分类问题常伴有模糊性,即它不仅仅是属于一个特定的类,而是“既此又彼”。因此为了探究模糊聚类与非模糊聚类之间聚类结果的差别,本文首先采用系统聚类方法对上市公司132支股票数据进行聚类,确定比较合理的聚类数目为11类,然后分别采用K-means聚类与模糊聚类方法对股票数据进行聚类分析,最终得出模糊聚类在本案例中比K-means聚类更符合实际。 关键字:模糊集合,K-means聚类,FCM聚
2、类,WFCM聚类1引言:聚类分析是多元统计分析的方法之一,属于无监督分类,是根据样本集的内在结构,按照样本之间相似度进行划分,使得同类样本之间相似性尽可能大,不同类样本之间差异性尽可能大。传统的聚类分析属于硬化分,研究对象的性质是非此即彼的,然而,现实生活中大多数事物具有亦此亦彼的性质。因此传统的聚类分析方法往往不能很好的解决具有模糊性的聚类问题。为此,模糊集合理论开始被应用到分类领域,并取得不错成果。本文的研究目的是通过对比传统聚类和模糊聚类的聚类结果,找出二者之间的不同之处,并说明两种聚类分析方法在实例中应用的优缺点。2 理论准备:2.1 模糊集合理论模糊集合定义:设 为论域,则称由如下实
3、值函数A : 0,1 , u A ( u )所确定的集合 A 为 上的模糊集合,而称A 为模糊集合A 的隶属函数,A ( u )称为元素 u 对于A 的隶属度。若mA(u) =,则认为u完全属于A ; 若mA(u) =,则认为u完全不属于A,模糊集合是经典集合的推广。2.2模糊C均值聚类(FCM)预先给定类别数c,把含有n个样本的数据集分成c个模糊类,用每个类的类别中心 Vj 代表该类,通过反复迭代运算,逐步降低目标函数的误差值,当目标函数收敛时,聚类完成。目标函数: (1)约束条件: (2)ij0,1,i,j2.3 加权模糊C均值聚类(WFCM)算法过程与FCM类似,只是目标函数不同,WFC
4、M算法考虑了各样本点对分类的重要性,在FCM算法中加入了权值pi,pi称为样本点的密度,本文中pi采用径向基函数方法来确定,当样本点x远离类中心xc时函数取值很小,此时该样本点对分类的重要性比较小。最常用的径向基函数是高斯核函数 ,形式为 (3)目标函数: (4)约束条件:ij0,1, i,j, (5)3 聚类分析实例3.1数据准备3.1.1数据表示本文采用数据是上市公司2000-2003年共4年132支股票31个变量的数据进行聚类分析,表1是各变量所代表的含义。表1 数据表示X1每股收益X2每股净资产X30净利润X31未分配利润3.1.2数据预处理为了排除各因素变量的单位不同以及数量级间的悬
5、殊差别带来的影响,尽可能的反映实际情况,需要对数据进行无量纲化处理。常用的处理方法有:标准化处理方法和极值处理方法。以下均采用“标准化”处理法。即取 (6) (i=1,2,528;j=1,2,31)其中xij*为标准观测值,其平均值和均方差分别为0和1。式中xj(j=1,231)为第j项指标原始观测值的平均值,sj(j=1,2,31)为第j项指标原始观测值的均方差。3.1.3 确定聚类个数如前文所述,聚类分析是无监督分类,分类之前并不知道聚多少类是合适的,所以为了保证分类的合理性,首先借助SPSS软件对数据进行系统聚类以确定合理的分类数。谱系聚类图结果显示如下,我们初步选择在距离为5处截取,确
6、定合理聚类数为11类。图1 系统聚类谱系图3.2 借助clementine软件进行K-means聚类为了实现传统聚类与模糊聚类结果的对比,这里首先对数据做了传统的K均值聚类,具体的操作流程如下图2所示图2 clementine实现K-means过程3.2.1 样本在各类中集中程度对模型结果进行查看,得到各类中所包含的样本个数如下图3所示,发现样本主要集中在第5,7,8,9,10类。图3 样本在各类中集中程度3.2.2 原始数据的分类结果图4的最后两列分别是样本所属类别和样本与该类别的类中心之间的距离,如对于第1个样本,属于第1类,与类中心的距离是0.394 。图4 K-means聚类结果3.2
7、.3结果分析分析总结上述K-means聚类结果:对这528个记录的聚类结果中,在第1,3,5,11类中,样本的个数都比较少,其中第11类仅有一个样本,而第7,8,9类中样本数分别高达93,181,97个,这些类中样本过于集中,说明得到的结果不是很理想,因此尝试模糊状态下对数据进行聚类分析。3.3模糊C均值聚类3.3.1 数据集的模糊C划分设待分数据集X=x1,x2,x528表示对上市公司股票的528次观测数据,xk=xk1,xk2,xk31是第k个样本的31个指标向量的取值集合。对数据集进行模糊聚类首先要产生X的模糊c划分,由于聚类属于无监督分析,需要事先设定好聚类个数,这里为了和传统聚类分析
8、结果做出比较,把数据模糊化为11个模糊子集X1,X2,X11,且满足:X1X2X11=X; XiXj=,1ij11;Xi,XiX,1i11。ik=Xixk表示样本xk属于模糊子集Xi的程度,其中ik0,1,因此模糊划分可以用隶属度矩阵U=ik表示。3.3.2 模糊C均值聚类的目标函数求解方法针对上述2.2部分中模糊C均值聚类算法的目标函数和约束条件,本文采用拉格朗日乘数法求解该数学规划问题,分别求得隶属度 和类中心 表达式如下: (7) (8)3.3.3 MATLAB软件辅助求解参数设置调用MATLAB软件中自带的fcm函数对上述数学规划问题进行求解,其中fcm函数中一些参数设置如表2所示。表
9、2 参数设置参数设置最大迭代次数100终止误差1.00E-05模糊度参数2聚类个数113.3.4符号表示表3 符号表示符号表示Center类中心U隶属度矩阵obj_fcn目标函数值Data样本数据3.3.5代码实现过程导入数据:Data1=xlsread(data)调用函数: center,U,obj_fcn = fcm(data1,11)3.3.6 FCM聚类分析Matlab结果输出如图8,9,10,11所示,分别得到各样本的初始化隶属度矩阵,样本各类的类中心,最终的样本隶属度,目标函数的更新过程。样本模糊化图8 初始化隶属度矩阵截图类中心(center)图9 类中心隶属度矩阵(U)图10
10、隶属度矩阵目标函数(obj_fcn)图11目标函数值图8,9,10分别是模糊C均值聚类最终形成的类中心,隶属度矩阵,目标函数。由图8可以看出各类的类中心相差不大,同时由图9可以看出隶属度矩阵几乎没有差别,从图9中可以看出对目标函数,在3次迭代之后基本趋于平稳状态,目标函数值为1487.6,综合上述分析认为该聚类方法效果不好。在尝试解决这个问题的过程中,尝试修改fcm函数的模糊度参数,迭代次数,误差项仍没有取得较好结果,随后为了避免单只股票4年的数据相似度太大而导致聚类效果差,分别抽取2000年到2003年各年的132只股票逐年进行分析,仍旧没有得出好的聚类结果,所以文中没有进行展示。考虑到各样
11、本点对聚类的结果产生的影响不同,下文尝试改进的加权模糊C均值聚类方法。34 WFCM算法由于MATLAB中没有自带WFCM函数,需要自己进行编程,数据的模糊化过程与模糊C均值聚类中相同,这里不再赘述。下面是WFCM运行的结果,具体代码实现过程见附录A。3.4.1 WFCM聚类结果展示样本模糊化图12 样本初始化隶属度矩阵对比FCM 聚类最终结果,可以得出在对目标函数进行加权之后,隶属度矩阵和类中心都发生了明显的改善,说明考虑了不同样本对聚类结果的影响之后聚类结果更好。隶属度矩阵图13 WFCM隶属度矩阵类中心图14 WFCM类中心3.4.2样本归类计算出U , V ,obj_fcn之后,对样本
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模糊 聚类分析 21
限制150内