模糊聚类分析方.pdf
《模糊聚类分析方.pdf》由会员分享,可在线阅读,更多相关《模糊聚类分析方.pdf(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二节 模糊聚类分析方法在科学技术、经济管理中常常要按一定的标准(相似程度或亲疏关系)进行分类。例如,根据生物的某些性状可对生物分类,根据土壤的性质可对土壤分类等。对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统计“物以类聚”的一种分类方法。由于科学技术、经济管理中的分类界限往往不分明,因此采用模糊聚类方法通常比较符合实际。一、模糊聚类分析的一般步骤1、第一步:数据标准化9(1)数据矩阵设论域12,nUx xx为被分类对象,每个对象又有m个指标表示其性状,即12,iiiimxxxx(1,2,)in,于是,得到原始数据矩阵为111212122212mmnnnmxxxxxxxxx
2、。其中nmx表示第n个分类对象的第m个指标的原始数据。(2)数据标准化在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。但是,即使这样,得到的数据也不一定在区间0,1上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间0,1上。通常有以下几种变换:平移标准差变换ikkikkxxxs(1,2,;1,2,)in km其中11nkikixxn,211()nkikkisxxn。经过变换后,每个变量的均值为0,标准差为 1,且消除了量纲的影响。但是,再用得到的ikx还不一定在区间0,1上。平移极差变换111minmaxminikiki
3、nikikiki ninxxxxx,(1,2,)km显然有01ikx,而且也消除了量纲的影响。对数变换lgikikxx(1,2,;1,2,)in km取对数以缩小变量间的数量级。2、第二步:标定(建立模糊相似矩阵)设论域12,nUx xx,12,iiiimxxxx,依照传统聚类方法确定相似系数,建立模糊相似矩阵,ix与jx的相似程度(,)ijijrR x x。确定(,)ijijrR x x的方法主要借用传统聚类的相似系数法、距离法以及其他方法。具体用什么方法,可根据问题的性质,选取下列公式之一计算。(1)相似系数法 夹角余弦法12211mikjkkijmmikjkkkxxrxx。最大最小法11
4、()()mikjkkijmikjkkxxrxx。算术平均最小法112()()mikjkkijmikjkkxxrxx。几何平均最小法112()mikjkkijmikjkkxxrxx。以上 3 种方法中要求0ijx,否则也要做适当变换。数量积法11,1,mijikjkkijrxxijM,其中1max()mikjkijkMxx。相关系数法12211()()mikijkjkijmmikijkjkkxxxxrxxxx,其中11miikkxxm,11mjjkkxxm。指数相似系数法221()13exp4mikjkijkkxxrms,其中211()nkikikisxxn,而11nkikixxn(1,2,)k
5、m。(2)距离法 直接距离法1(,)ijijrcd x x,其中c为适当选取的参数,使得01ijr,(,)ijd x x表示他们之间的距离。经常用的距离有海明距离1(,)mijikjkkd x xxx。欧几里得距离21(,)()mijikjkkd x xxx。切比雪夫距离1(,)mijikjkkd x xxx。倒数距离法1,(,)ijijijMrijd x x。其中 M 为适当选取的参数,使得01ijr。指数距离法exp(,)ijijrd x x。3、第三步:聚类(求动态聚类图)(1)基于模糊等价矩阵聚类方法 传递闭包法根据标定所得的模糊矩阵R还要将其改造称模糊等价矩阵*R。用二次方法求 R的
6、传递闭包,即()t R=*R。再让由大变小,就可形成动态聚类图。布尔矩阵法10 布尔矩阵法的理论依据是下面的定理:定理 2.2.1 设 R是12,nUx xx上的一个相似的布尔矩阵,则R具有传递性(当 R 是等价布尔矩阵时)矩阵 R 在任一排列下的矩阵都没有形如11111001,10011111的特殊子矩阵。布尔矩阵法的具体步骤如下:求模糊相似矩阵的截矩阵R.若R按定理 2.2.1 判定为等价的,则由R可得 U 在水平上的分类,若R判定为不等价,则R在某一排列下有上述形式的特殊子矩阵,此时只要将其中特殊子矩阵的0 一律改成 1 直到不再产生上述形式的子矩阵即可。如此得到的*R为等价矩阵。因此,
7、由*R可得水平上的分类(2)直接聚类法所谓直接聚类法,是指在建立模糊相似矩阵之后,不去求传递闭包()t R,也不用布尔矩阵法,而是直接从模糊相似矩阵出发求得聚类图。其步骤如下:取11(最大值),对每个ix作相似类iRx,且iRx=|1jijxr,即将满足1ijr的ix与jx放在一类,构成相似类。相似类与等价类的不同之处是,不同的相似类可能有公共元素,即可出现,iRikxx x,iRjkxxx,ijxx.此时只要将有公共元素的相似类合并,即可得11水平上的等价分类。取2为次大值,从R 中直接找出相似度为2的元素对(,)ijx x(即2ijr),将对应于11的等价分类中ix所在的类与jx所在的类合
8、并,将所有的这些情况合并后,即得到对应于2的等价分类。取3为第三大值,从R 中直接找出相似度为3的元素对(,)ijx x(即3ijr),将对应于2的等价分类中ix所在的类与jx所在的类合并,将所有的这些情况合并后,即得到对应于3的等价分类。以此类推,直到合并到 U 成为一类为止。二、最佳阈值的确定在模糊聚类分析中对于各个不同的0,1,可得到不同的分类,许多实际问题需要选择某个阈值,确定样本的一个具体分类,这就提出了如何确定阈值的问题。一般有以下两个方法:按实际需要,在动态聚类图中,调整的值以得到适当的分类,而不需要事先准确地估计好样本应分成几类。当然,也可由具有丰富经验的专家结合专业知识确定阈
9、值,从而得出在水平上的等价分类 用 F 统计量确定最佳值。11 设论域12,nUx xx为样本空间(样本总数为n),而每个样本ix有m个特征:12,iiiimxxxx,(1,2,)in。于是得到原始数据矩阵,如下表所示,其中11(1,2,)nkikixxkmn,x 称为总体样本的中心向量。样本指标1 2 k m 12inxxxxx111211212222121212()kmkmiiikimnnnknmkmxxxxxxxxxxxxxxxxxxxx设对应于值的分类数为r,第 j 类的样本数为jn,第 j 类的样本记为:()()()12,jjjjnxxx,第 j 类的聚类中心为向量()()()()1
10、12(,)jjjjmxxxx,其中()jkx为第k 个特征的平均值,即()()11jnjjkikijxxn,(1,2,)km,作 F 统计量()1()()11(1)()jrjjjnrjjijinxxrFxxnr,其中()()21()mjjkkkxxxx为()jx与 x 间的距离,()()jjixx为第 j 类中第 i 个样本()jx与其中心()jx间的距离。称为 F 统计量,它是遵从自由度为1r,nr的 F 分布。它的分子表征类与类之间的距离,分母表征类内样本间的距离。因此,F 值越大,说明类与类之间的距离越大;类与类间的差异越大,分类就越好。基于模糊聚类分析的多属性决策方法的实际应用聚类分析
11、是将事物根据一定的特征,并按某种特定要求或规律分类的方法。由于聚类分析的对象必定是尚未分类的群体,而且现实的分类问题往往带有模糊性,对带有模糊特征的事物进行聚类分析,分类过程中不是仅仅考虑事物之间有无关系,而是考虑事物之间关系的深浅程度,显然用模糊数学的方法处理更为自然,因此称为模糊聚类分析。第一节 雨量站问题一、问题的提出某地区设置有 11 个雨量站,其分布图见图1,10 年来各雨量站所测得的年降雨量列入表 1 中。现因经费问题,希望撤销几个雨量站,问撤销那些雨量站,而不会太多的减少降雨信息?7x1x4x5x10 x6x8x11x3x9x2x7x1x4x5x10 x6x8x11x3x9x图
12、1 雨量站分布图表 1 各雨量站 10 年间测得的降雨量年序号1x2x3x4x5x6x7x8x9x10 x11x1 276 324 159 413 292 258 311 303 175 243 320 2 251 287 349 344 310 454 285 451 402 307 470 3 192 433 290 563 479 502 221 220 320 411 232 4 246 232 243 281 267 310 273 315 285 327 352 5 291 311 502 388 330 410 352 267 603 290 292 6 466 158 224
13、178 164 203 502 320 240 278 350 7 258 327 432 401 361 381 301 413 402 199 421 8 453 365 357 452 384 420 482 228 360 316 252 9 158 271 410 308 283 410 201 179 430 342 185 10 324 406 235 520 442 520 358 343 251 282 371 二、问题的分析应该撤销那些雨量站,涉及雨量站的分布,地形,地貌,人员,设备等众多因素。我们仅考虑尽可能地减少降雨信息问题。一个自然的想法是就10 年来各雨量站所获得的
14、降雨信息之间的相似性,对全部雨量站进行分类,撤去“同类”(所获降雨信息十分相似)的雨量站中“多余”的站。问题求解假设为使问题简化,特作如下假设 每个观测站具有同等规模及仪器设备;每个观测站的经费开支均等;具有相同的被裁可能性。分析:对上述撤销观测站的问题用基于模糊等价矩阵的模糊聚类方法进行分析,原始数据如上。三、问题的解决求解步骤:1、数据的收集原始数据如表 1 所示。2、建立模糊相似矩阵利用相关系数法,构造模糊相似关系矩阵1111)(r,其中ijr2111221)()(|)(|)(|nknkjjkiiknkjjkiikxxxxxxxx其中ix 101101kikx,i 1,2,,11。jx
15、nkjkxn11,j 1,2,,11。取2,1ij,代入公式得21r=0.839,由于运算量巨大用C 语言编程计算出其余数值,得模糊相似关系矩阵1111)(r,具体程序如下#include#include double r1111;double x11;void main()int i,j,k;double fenzi=0,fenmu1=0,fenmu2=0,fenmu=0;int year1011=276,324,159,413,292,258,311,303,175,243,320,251,287,349,344,310,454,285,451,402,307,470,192,433,29
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模糊 聚类分析
限制150内