《基于局部密度自适应度量的粗糙k-means聚类算法-马福民.pdf》由会员分享,可在线阅读,更多相关《基于局部密度自适应度量的粗糙k-means聚类算法-马福民.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、CN 431258TP 计算机工程与科学 第40卷第1期2018年1月ISSN 1007130X Computer Engineering&Science V0140,No1,Jan2018文章编号:1007130X(2018)Ol一018407基于局部密度自适应度量的粗糙K-means聚类算法马福民1,逯瑞强1,张腾飞2(1南京财经大学信息工程学院,江苏南京210023;2南京邮电大学自动化学院,江苏南京210023)摘 要:通过引入上、下近似的思想,粗糙Kmeans已成为一种处理聚类边界模糊问题的有效算法,粗糙模糊Kmeans、模糊粗糙Kmeans等作为粗糙Kmeans的衍生算法,进一步对
2、聚类边界对象的不确定性进行了细化描述,改善了聚类的效果。然而,这些算法在中心均值迭代计算时没有充分考虑各簇的数据对象与均值中心的距离、邻近范围的数据分布疏密程度等因素对聚类精度的影响。针对这一问题提出了一种局部密度自适应度量的方法来描述簇内数据对象的空间特征,给出了一种基于局部密度自适应度量的粗糙Kmeans聚类算法,并通过实例计算分析验证了算法的有效性。关键词:粗糙聚类;Kmeans;局部密度度量;粗糙集中图分类号:TPl8 文献标志码:Adoi:103969jissn1007130X201801027Rough K-means clustering basedon local densit
3、y adaptive measureMA Furainl,LU Ruiqian91,ZHANG Tengfei2(1College of Information Engineering,Nanjing University of Finance and Economics,Nanjing 210023;2College of Automation,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)Abstract:By introducing the idea of lower and upper a
4、pproximations,rough Kmeans has become apowerful algorithm for clustering analysis with overlapping clustersIts derivative algorithms such asrough fuzzy Kmeans and fuzzy rough Kmeans describe the uncertain obj ects located in the boundariesin detail,thus improving the clustering effectHowever,these a
5、lgorithms do not fully consider the influence of the factors,such as the distance between the data centers of the clusters and the average center and the density of the data distributed in the neighborhood,on the clustering accuracyAiming atthis problem,a local density adaptive measure method is pro
6、posed to describe the spatial characteristicsof data objects in a clusterA rough Kmeans clustering algorithm based on local density adaptive measure is givenComparative experimental results of real world data from UCI demonstrate the validity ofthe proposed algorithmKey words:rough clustering;Kmeans
7、;local density measure;rough sets1 引言聚类分析是根据“物以类聚”的原理将物理或者抽象对象所组成的集合进行分类的一种多元统计分析方法,已经成为数据挖掘领域一个非常重要的分支,被广泛应用于机器学习、图像分割等众多领域。按照其特点,聚类算法大致可以分为五类:划分方法、层次方法、密度方法、栅格方法和模型化方法1。Kmeans算法是最常见的划分聚类方法*收稿日期:2016-0816;修回日期:2016-1017基金项目:国家自然科学基金(61403184,61105082);江苏省高校自然科学研究重大项目(17KJAl20001);江苏省“青蓝工程”基金(QL2016
8、);南京邮电大学科研项目(NY215149);江苏高校优势学科建设工程资助项目(PAPD)通信地址:210023江苏省南京市南京财经大学信息工程学院Address:College of Information Engineering,Nanjing University of Finance and Economics,Nanjing 210023,JiangsuPRChina万方数据马福民等:基于局部密度自适应度量的粗糙Kmeans聚类算法 185之一,于1967年由QueenL20首次提出,目前依然是众多数据聚类分析任务首选的经典算法。加拿大学者Lingras【30在使用Kmeans算法对
9、Web数据进行挖掘分析时,针对传统算法所存在的问题,引入了粗糙集理论上、下近似的思想,提出了粗糙Kmeans聚类算法,在计算数据对象的归属关系时,不再是简单地用属于或不属于来表示,而是把确定属于某一簇的对象归属到其相应的下近似集中,不确定是否属于该簇的对象归属到其相应的边界集中,因此,各个簇可以看作是由下近似集和边界集两部分组成。这种对聚类数据对象相对客观的描述方法,在很大程度上提高了Kmeans聚类算法的精度。粗糙Kmeans算法同其它任何的聚类分析算法一样,算法的性能也依然受到初始参数、不确定性数据交叉重叠等因素的影响。为此,已经有很多学者陆续提出了进一步的改进算法,从聚类结构的角度来看,
10、这些算法大致可以分为两类Hj:(1)粗糙Kmeans的扩展算法。这类方法没有改变聚类过程中簇内的数据结构,仅仅是在原有算法的基础上,对初始参数、聚类指标等进行优化。Peters53使用相对距离代替绝对距离,排除粗糙Kmeans算法中存在的受离群点干扰的问题,并且结合遗传算法对粗糙Kmeans算法的初始参数做了优化J。(2)粗糙Kmeans的衍生算法。这类算法可以认为是对粗糙Kmeans算法的本质提升,主要是针对均值迭代公式进行修正。聚类对象之间的近似度量得以进一步强化,如结合模糊集理论来构建对象关系。文献7发现了在粗糙Kmeans聚类结果中存在仅有边界集非空的情况,并对粗糙K means均值公
11、式做了修正,对粗糙权值重新进行了定义。文献8,9介绍了粗糙模糊Kmeans聚类算法,这种方法使用了模糊隶属度来反映簇间的差异性,提高了算法的精度。文献Elo提出一种模糊粗糙Kmeans算法,对模糊隶属度量进行了修订,将下近似集中数据对象的隶属度设置为1,仅对边界区域不确定的对象采用模糊度量。现有的粗糙Kmeans衍生算法在构造近似关系时大多仅关注单个数据对象与多个簇之间的差异性,而忽略了同一簇内对象之间的区别,在同一个近似区域中使用统一的权值来衡量不同对象在均值迭代过程中的影响程度。然而,在一个簇的内部,不同的数据对象点到均值中心的距离不同以及不同数据对象周围的数据分布疏密程度等都将直接影响着
12、聚类的结果。文献11提出了一种对象点加权的方法,利用类似于方差统计的权值变形,区别簇内对象的差异。文献12利用统计对象点邻域内的距离总和来反映区域密度,提高了粗糙Kmeans算法的精度。文献13,147认为密度是一种空间特征,反映了样本属性的综合趋势和拓扑的不规则构型。文献ElS综合考虑了距离和密度的混合度量,但对于密度的度量方法是采用简单的邻域范围数据对象的数量统计,并没有真正体现数据分布的疏密程度。这些方法利用各个空间特征构建新的近似关系,但是大都缺乏对适应性的考虑,不同的数据聚类可能对不同空间特征的敏感程度不同,基于空间特征的近似关系需要有综合性的合理度量。本文结合数据对象的不同分布对聚
13、类结果的影响,提出一种局部密度自适应度量的方法,并给出基于局部密度自适应度量的粗糙Kmeans聚类算法,通过统计数据对象点与均值中心的距离以及邻域内数据分布的疏密程度,来描述簇内数据对象分布的特点,靠近聚类中心且邻域内数据对象聚集程度高的数据点,将得到更高的自适应迭代权值,从而加快聚类的收敛速度,并提高聚类的效果。最后,通过实例计算分析验证算法的有效性。2粗糙K-means聚类算法粗糙Kmeans聚类算法是将粗糙集理论与Kmeans算法相结合,将具有不确定归属关系的数据对象划人边界区域,并使用不同的权值度量来降低边界区域数据对象在迭代过程中的影响。算法实际上是将同一簇分为了两个部分,即具有确定
14、归属关系的下近似区域和具有不确定归属关系的边界区域,通过区分下近似集和边界集中数据对象的不同贡献,一定程度上提高了模糊边界的处理精度。21传统的粗糙K-means聚类算法根据Lingras所提出的粗糙Kmeans算法,聚类对象的处理具有以下三个特征口6|:(1)聚类对象最多只能确定地属于某一个簇的下近似集;(2)聚类对象若不能确定地属于某一个簇的下近似集,可同时属于多个簇的上近似集;(3)每个簇的下近似集是它的上近似集的子集。粗糙Kmeans算法与传统Kmeans算法最万方数据186 Computer Engineering&Science计算机工程与科学2018,40(1)大的区别主要体现在
15、特征(2)中,将这些不适合硬划分的数据对象,归属到多个簇共有的边界集中。假设U=x,l j一1,N)为对象个数为N的数据集合,聚类的目标是将集合【,中的数据对象划分到是个簇。算法在初始化类簇的均值中心c:以及距离判断阈值之后,对每一个聚类对象x,计算其到各个中心的欧氏距离,并将x,归到最近的中心C。对应的类簇U。的上近似集BU,;如果存在中心d,使得x,到C:的距离和x,到C,的距离之差小于,则将x,归到簇U:的上近似集B【,7:;否则,将x,改为归到U;的下近似集BU。;然后重新计算均值中心Ci,计算公式如下:Cx, 墨WIow X崭h。褊,if(百u:一旦u,)够x,饥w畿,otherwi
16、se(1)其中,W。、W。分别为下近似集和上近似集的粗糙权值。若每一个数据对象的类簇归属不再发生变化,说明算法已经收敛,算法终止;否则将新的Ct作为初始化中心,重新计算每一个数据对象到各个类簇中心的距离,并根据当前的距离判断到各个类簇的归属关系。由于数据对象到各个类簇的划分是依据其到类簇的均值中心C的距离,因此,均值中心的位置直接关系到聚类对象近似关系的判断。从上述的计算过程不难看出,中心均值的迭代公式是影响最终聚类结果的关键因素。另外,粗糙K-means算法将簇分为下近似集和边界集两个部分,当w。取值较小时,边界对象在均值迭代计算过程中影响较小,降低了边界区域数据对象的不确定性影响。为评估粗
17、糙K-means算法的收敛性以及聚类质量,Lingras给出了如公式(2)所示的评估函数:女T一(砌hd(墨,Ci)+i21 x,B_v。w。 :d(墨,Ci) (2)一(百U。一旦U)其中,d(X,G)表示对象墨到其所在簇【,。的均值中心c:的距离,BU。表示U。的下近似集,BU;表示上近似集。T实际上反映的是聚类结果各簇内部数据对象到均值中心距离总和的变化,当T的值很小时,说明簇内聚集程度较高,当均值中心不再变化时,T趋于收敛。22粗糙K-means的衍生算法粗糙Kmeans聚类的衍生算法很多,其中比较经典的是粗糙模糊Kmeans算法和模糊粗糙Kmeans算法。这两种算法结合了模糊理论,以
18、模糊隶属度来表达聚类对象与各簇之间的从属关系,表示对象以多大的程度归入当前簇。模糊隶属度的表达式如下所示8:肛d一 (“恚)丙) (3)其中,鼬表达对象x,关于簇u,的隶属度,m是模糊指数,d:i表示X,到均值中心C:的距离,且模糊隶属度满足:l户。一1 (4)l=l模糊隶属度是一种簇间关系的表达,通过转化比较簇间距离的比例关系,来反映对象与各簇的关联程度。粗糙模糊Kmeans算法将模糊隶属度作为对象聚类的决策标准,将对象归人隶属程度最大的簇的下近似集;或者当对象关于多个簇的隶属程度相近时,则将对象归人多个簇的上近似集。并且,算法对均值中心的迭代计算公式(1)进行了改进,如公式(5)所示9|:
19、Ci=户了x,鳓ow专百一e_Sui 卢;x,h”x麓x(勘。一旦q)i旦u,p A(Bu,一旦u:)pzTjx,赘m野黟(融一毋p一乃x,毋。 膳x,矍等坠_,if B_U。一p A刍P”一(Bu。墨u,)(百U,一BU。)黟(5)从均值计算公式(5)中可以看出,粗糙模糊Kmeans强调了对象在簇间和簇内的差异度,与采用固定权值的粗糙Kmeans算法相比,其聚类过程对边界的处理更加平滑。模糊粗糙Kmeans算法则从另外一个角度对模糊隶属度量公式进行了改进,即凡是在下近似集万方数据马福民等:基于局部密度自适应度量的粗糙Kmeans聚类算法 187中的对象,隶属度全部赋值为1,表示分配在下近似集
20、中的对象绝对属于当前簇。模糊粗糙Kmeans算法还将均值中心的计算公式进行了简化,省却了粗糙权值,公式如下m:C一 (6)其中,N7表示第i个簇当中所包含的对象个数。粗糙模糊K-means和模糊粗糙Kmeans算法一定程度上体现了不同的数据对象在计算均值中心时的差异性,但更多的是从对整个簇的度量角度出发,针对同一簇内不同数据对象的不同分布及对聚类结果的影响考虑较少171 8】,然而这些距离或局部密度分布却对聚类结果有着不可忽略的影响。3 基于局部密度自适应度量的聚类算法31局部密度自适应度量从粗糙Kmeans及其衍生算法的实现原理,可以总结出粗糙Kmeans系列算法处理边界模糊性问题的特点:(
21、1)将带有不确定归属关系的聚类对象放在多个簇的共有边界中;(2)距离均值中心越远的对象在迭代的过程中其权重越小;(3)聚类对象无论是在簇内还是簇间,对聚类迭代过程及结果均有不同的影响。文献D5对比分析了粗糙Kmeans算法、粗糙模糊Kmeans算法、模糊粗糙Kmeans算法在一个簇中不同数据分布的权值分配,如图1图3所示,其中Wl。一o7,叫。一03,m一2。lO08趔06晕O402 边群【x域。 数据对象的位i芬石一Figure 1 Weight distribution of rough Kmeans图1粗糙Kmeans算法的权值分配可以看出,粗糙Kmeans的权值显然比较生硬,只是简单地
22、对同簇的对象权值二值化,并没有体现出下近似集和边界集内部的差异性;粗糙模糊IO0 8趔O 6娶o4O2O数据对象的位置分布Figure 2 Weight distribution of rough fuzzy Kmeans图2粗糙模糊Kmeans算法的权值分配1008趔06辎O402O数据对象的位置分布Figure 3 Weight distribul IOll of I UZZy rough K gleans图3模糊粗糙Kmeans算法的权值分配Kmeans的权值则显得比较平滑,并且在很大程度上降低了边界区域对均值中心的影响,但是,由于照搬模糊隶属度量的原理,使得下近似集当中的对象往往受到虚
23、线部分的簇间影响;模糊粗糙Kmeans则对下近似集中的对象权重直接赋予1,表示下近似集确定属于当前簇,但是,依然没有考虑下近似集对象因分布不均衡而产生的不同影响。从上述分析不难看出,数据对象的权重系数应当由均值中心向边界降低,并且越靠近边界,下降应越快。而且,权值的设置除了体现出与距离的关系,还应和簇内数据对象的聚集程度即空间分布有关。为了充分更好地描述数据对象的这种距离与空间分布,给出一种局部密度自适应度量的方法。局部密度自适应度量的表达式如下:Mop(一学)+料卜妾hexp(一毕) 其中,II x,一G J表示对象xi到所在簇的中心Ci的欧氏距离;JL(x,)J。表示距离x,为导的邻域范围
24、内数据对象的个数。公式(7)采用径向基函数exp(一il x,一G II 2(2a2)来重新分配距离度量权值的分布,并利用其输出特性来调整距离度量部分的权值大小,当数据对象远离均值中心时,加快了权值分配沿边界区域的下降速度。但是,单独使用欧氏距离作为簇内数据对象不同分布的度量往往并不理想,因墨一。兰、一丝咄踞甚万方数据188 Computer Engineering&Science计算机工程与科学2018,40(1)此,采用数据对象邻域范围内局部的密度度量加以补充。其中,I L(x,)l。BU:l描述了数据对象邻域范围内数据对象的个数与当前所在簇中所包含数据对象个数的比例,比例越大,说明该局部
25、区域内的数据对象越多,对聚类结果的影响也越L(x)l大,而表达式。妻exp(一旦墨拶)则进一k一1 、 一、步刻画了该局部区域内数据对象的密集程度。公式(7)的第一部分体现了数据对象点到均值中心的距离对权重系数的影响,可以看做是点到点的不同位置特征分布;第二部分则体现了数据对象点邻域范围内局部的数据空间分布对权重系数的影响,可以看做是点到面的不同空间特征分布。整体而言,上述局部密度自适应度量的表达式较好地体现了簇内数据对象不同分布的空间特征,并较好地刻画了不同空间分布的数据对象之间的差异性。32基于局部密度自适应度量的聚类算法设计结合上一节局部密度自适应度量的方法,本节进一步给出一种基于局部密
26、度自适应度量的粗糙Kmeans聚类算法RKMLDAM(Rough Kmeansclustering based on Local Density Adaptive Measure),算法流程如图4所示。Figure 4 Flow chart of algorithm图4算法流程图根据图4所示的流程,RKMLDAM算法的详细描述如下所示:算法1 RKMLDAM算法:基于局部密度自适应度量的粗糙Kmeans聚类。输入:U:U=x,f j一1,N),对象数为N的数据集;k:聚类簇的个数。输出:将数据对象集合u划分为个簇。Step 1参数设置与初始化,包括:G:聚类均值中心,且i=1,k;Wtwup分
27、别为下近似集和上近似集的相对粗糙权值系数;A:距离判断阈值;:局部密度统计范围阈值。Step 2 V墨U,计算x,到各均值中心C。的距离di(i=1,),统计x,附近e范围内对象个数lL(x,)I。;Step 3选择O一Old。,一min(d。li一1,k),将x,归入C。的上近似集BU。;若j 07=07 d。,一d。I),则将x,归入BU。,;否则,归入BU。;Step 4 统计x,局部范围内的密度分布情况警善taiI 5唧(一掣),并按照公式(7)计算各个对象的权值M,;更新均值中心Ci,公式如下:Ci一Mi葺 Mo墨等裔厂h一咩爱毛丌,if st:=-矽八(百U:一B_u:)M。墨BU
28、 ,if旦u。乃(BU,一墨u。)=彩 蝇置BU一BU,if BU:一jzj A(BU。一BU:)够(8)Step 5根据公式(1)检测结果是否收敛,若不收敛,返回Step 2重新进行迭代聚类计算;否则,算法终止,输出k个类簇。就上述算法的时间复杂度而言,步骤2的复杂度为0(I UI 2),步骤3的复杂度为O(kU I),步骤4在最坏情况下为o(|【,I 2),因此本文算法单次迭代计算的时间复杂度为0(JUI 2)。4实验仿真与分析为了验证算法有效性,采用本文基于密度自适应度量的粗糙Kmeans算法(RKMLDAM)对多个UCI数据集进行聚类测试,并与典型的粗糙Kmeans算法RKM(Roug
29、h Kmeans)、模糊Kmeans算法FKM(Fuzzy Kmeans)、粗糙模糊Kmeans算法RFKM(Rough Fuzzy Kmeans)、模糊粗糙K-means算法FRKM(Fuzzy Rough Kmeans)在聚类精度和运行速度方面进行对比分析。41实验环境本文选取了4个UCI数据集作为实验对象,分别是Iris、Wine、Fertility和Ionosphere。这4个万方数据马福民等:基于局部密度自适应度量的粗糙Kmeans聚类算法 189UCI数据的一些信息和特征描述如下:Iris是一个最常用的UCI数据集,包含了一些植物特征和鸢尾花分类之间的信息。该数据集包含150个样本
30、,每个样本有4个条件属性和1个决策属性,其中决策属性将数据分为3类。Wine数据集主要是对同一区域的意大利葡萄酒的化学成分分析。数据集包含了178个样本,每个样本有13个属性和1个决策属性,其中决策属性将数据分为3类。Fertility记录了生育能力和一些生理记录之间的联系。数据集包含了100个样本,每个样本有9个条件属性和1个决策属性,其中决策属性将数据分为2类。Ionosphere数据集通过分析电离层结构来判断电离层的好坏。数据集包含了351个样本,每个样本有34个条件属性和1个决策属性,其中决策属性将数据集分为2类。实验的计算机平台使用英特尔酷睿i7(290GHz)处理器,4 GB内存,
31、操作系统是Windows 7 SPl。42聚类效果分析为了比较算法聚类效果,实验在聚类精度和运行速度两个方面对各个算法进行对比分析。由于所选数据集均有较明确的分类决策,这里聚类精度是指对比原数据集的决策属性值,被正确聚类的数据对象在数据集中所占的百分比,计算公式为:kAC一:l BU。II【,I (9)il为了便于比较不同算法的性能,实验过程中对同一数据集使用统一的初始聚类均值中心,对算法中多个参数的设置采用经验选择,由于个别的算法会涉及不同的参数,经过测试,这些参数均选取较优的组合,这里暂不考虑最优参数的选取过程。聚类参数的设置如表1所示。Table 1 Parameter settings
32、 for clustering algorithms表1 聚类算法的参数设置为了更为客观地对各算法进行对比分析,针对每一个数据集,每种算法均采用十字交叉验证,表2和表3分别记录了各个聚类算法平均的精度和运行时间,图5和图6直观地反映了不同算法在各数据集中的聚类效果。Table 2 Accuracy comparison of differentclustering algorithms on UCI data sets表2 多算法UCI数据集聚类分析精度对比Table 3 Computational time comparison ofdifferent clustering algorith
33、ms on UCI data sets表3 多算法UCI数据集聚类分析耗时对比90i 一一一tt一一一J薹,:_ r卜卜卜g l弘60 y卜V毛二30! o F。et枷tili e)20涵广瓦矿面而氙赢ii盂舌蒜Figure 5 Accuracy comparison of different algorithms图5各算法聚类精度 ln一;4Femtlil。IFetlilit 、, , ?j!二塑塑 、,7 ,l:,丫lli 77 I 丫Figure 6 Computational time of different algorithms图6 各聚类算法运行时间从表2和图5不难看出,本文设计
34、的基于密度自适应度量的粗糙Kmeans算法(RKMLDAM),有着不输于其它算法的聚类性能,对Iris、Wine、Ionosphere三个数据集都达到了最高的聚类精度,尤其是对Iris和Wine两个数据集的效果更好;仅仅对Fertility数据集的聚类精度稍低于采用模糊_,童州R万方数据190 Computer Engineering 8L Science计算机工程与科学2018,40(1)聚类FKM和RFKM方法的聚类结果。而由表3和图6可以看出,除了Fertility数据集,本文所使用的RKMLDAM算法的运行速度都比较快,其中对Ionosphere数据集的聚类收敛速度更为突出,相对5种算
35、法的平均耗时下降了1587。综合上述结果可以看出,基于局部密度自适应度量的粗糙Kmeans算法(RKMLDAM),通过对聚类数据对象的空间特征进行局部密度自适应度量,更有利于提高聚类算法的性能,也验证了数据对象点在簇内的不同分布会对聚类的结果产生一定的影响。5 结束语簇内数据对象与均值中心的不同距离、邻近范围内数据分布的疏密程度直接影响着聚类的精度与收敛速度。针对这一问题,本文提出了一种基于局部密度自适应度量的粗糙Kmeans聚类算法,在聚类的迭代计算过程中,通过对簇内数据对象与均值中心的距离以及局部密度的自适应度量,使得聚类结果簇内相似程度更高、收敛速度更快。通过对多个UCI数据集进行测试计
36、算并与以往的多种算法进行对比分析,说明本文算法具有较好的聚类效果。参考文献:1E233435678Han Jiawei,Kamber MData mining,concepts and techniquesM3rd EditionSan Francisco:Morgan KaufmannPublishers,2011Queen MSome methods for classification and analysis ofmultivariate observationCProc of the 5th Berkeley Symposium on Mathematical Statistics
37、and Probability,1967:218297Lingras P,West CInterval set clustering of web users withrough k-meansJJournal of Intelligent Information Systerns,2004,23(1):516Peters GCrespo FLingras P,et a1Soft clusteringfuzzy andrough approaches and their extensions and derivatives FJInternational Journal of Approxim
38、ate Reasoning。2013,54(2):307322Peters GOutliers in rough k-means clusteringcProc ofInternational Conference on Pattern Recognition and MachineIntelligence,2005:702707Peters G,Lampart MA partitive rough clustering algorithmcProc of International Conference on Rough Sets andCurrent Trends in Computing
39、2006:657666Peters GSome refinements of rough k-means clusteringJPattern Recognition,2006,39(8):148l一149IMitra S,Banka H,Pedrycz WRough fuzzy collaborativeclusteringJIEEE Transactions on Systems,Man,and Cy一9310ii1213143151617318bernetics,Part B:Cybernetics,2006,36(4):795805Mitra S,Banka HPedrycz WCol
40、laborative rough clusteringcProc of International Conference on Pattern Recognition and Machine Intelligence。2005:768-773Hu Qinghua,Yu DarenAn improved clustering algorithmfor information granulationcProc of International Conference on Fuzzy Systems and Knowledge Discovery,2005:494504Liu Bing,Xia Sh
41、ixiong,Zhou Yonget a1A sample-weighted possibilistic fuzzy clustering algorithmJActa Electroniea Sinica,2012。40(2):371375(in Chinese)Zheng Chao,Miao Duoqian,Wang RuizhiImproved roughKmeans clustering algorithm with weight based on densityJComputer Science,2009,36(3):220222(in Chinese)Liu Qiliang,Den
42、g Min,Shi Yan,et a1A density-based spatial clustering algorithm considering both spatiaI proximityand attribute similarityJComputers&Geosciences,2012,46:296309Azadeh A,Saberi M。Anvari M,et a1An adaptive networkbased fuzzy inference systemgenetic algorithm clusteringensemble algorithm for performance
43、 assessment and improvement of conventional power plantsJExpert Systerns with Applications,2011,38(3):22242234Zhang Tengfei,Chen Long,Ma FuminA modified roughfmeans clustering algorithm based on hybrid imbalancedmeasure of distance and densityJInternational Journal ofApproximate Reasoning,2014,55(8)
44、:18051818Lingras P,Peters GRough clusteringJData Mining andKnowledge Discovery,2011,1(1):6472Zhang TengfeiChen Long,Li YunRough k-means cluste-ring based on unbalanced degree of clusterJControl andDecision,2013,28(10):1479-1484(in Chinese)Zhang Teng-fei,Ma FuminImproved rough k-means clustering algo
45、rithm based on weighted distance measure withGaussian functionJInternational Journal of ComputerMathematies。2017,94(4):663675附中文参考文献:111217刘兵,夏士雄,周勇。等基于样本加权的可能性模糊聚类算法J电子学报,2012,40(2):37卜375郑超,苗夺谦,王睿智基于密度加权的粗糙K一均值聚类改进算法J计算机科学,2009,36(3):220222张腾飞,陈龙,李云基于簇内不平衡度量的粗糙K-means聚类算法J控制与决策,2013,28(10):14791484作者简介:马福民(1979一),女,河南郑州人,博士,副教授,CCF会员(E200048793M),研究方向为智能信息处理和智能生产系统。E-mail:fmmatj126cornMA Fu-min,born in 1979,PhD,assoelate professor,CCF member(E200048793M),her researchinterests include intelligent information processing,and intelligent manufacturing system万方数据
限制150内