基于聚类生成图的空间网络对象聚类.pdf
《基于聚类生成图的空间网络对象聚类.pdf》由会员分享,可在线阅读,更多相关《基于聚类生成图的空间网络对象聚类.pdf(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2019 年 6 月第 45 卷 第 6 期JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGY北京工业大学学报Vol. 45No. 6Jun. 2019基于聚类生成图的空间网络对象聚类(1. 北京工业大学信息学部 , 北京摇 100124; 2. 郑州大学智慧城市研究院 , 郑州摇 450001)摘摇 要: 为了解决现有聚类技术难以适应大规模空间网络对象的聚类问题 ,提出了一种基于聚类生成图的空间网络对象聚类算法,以便降低空间网络对象聚类的时间复杂度和空间复杂度 . 首先,对网络中的非空边进行概略化聚类;然后,在此基础上,构建聚类生成图;最后,查找聚类生成图
2、的连通子图 ,每个连通子图即为一个聚类 . 实验结果表明该方法在保证准确性的同时具有良好的效率和可扩展性 .关键词: 空间网络; 聚类块; 聚类生成图; 概略化聚类中图分类号: TP 391doi: 10. 11936/ bjutxb2017120011文献标志码: A文章编号: 0254 -0037(2019)06 -0524 -10郭黎敏1, 蔺春华1, 高摇 需2, 苏摇 醒1Efficient Clustering Objects for Spatial Network Using CB鄄graph(1. Faculty of Information Technology, Beiji
3、ng University of Technology, Beijing 100124, China;2. Smart City Institute, Zhengzhou University, Zhengzhou 450001, China)GUO Limin1, LIN Chunhua1, GAO Xu2, SU Xing1Abstract: To solve the problem that the existing clustering technology cannot adapt to the clusteringwas proposed in this paper, which
4、can effectively reduce the time complexity and space complexity.problem of large鄄scale spatial network objects, an efficient method of clustering objects for spatial networkFirst, blocks were clustered based on buckets for non鄄empty edges in the network. Then, the CB鄄graphwas constructed, and finall
5、y the connected sub鄄graphs of the CB鄄graph was found, where each connectedefficiency and scalability while guaranteeing accuracy.Key words: spatial network; cluster block; CB鄄graph; bucket鄄based clustering摇 摇 聚类技术是数据挖掘的核心技术 ,其目标是使同组对象之间的相似性最大 ,而不同组对象之间的差异性最大. 聚类技术在诸多领域具有广泛应用,例如图像处理、数据压缩和模式分类等 . 其中,空
6、间对象聚类一直是备受关注的热点 .然而,现有的大多数方法主要关注欧式空间对收稿日期: 2017鄄12鄄08基金项目: 国家重点研发计划资助项目(2017YFC0803300); 北京市教育委员会科技计划资助项目(KM201810005023,作者简介: 郭黎敏(1984), 女, 讲师, 主要从事移动数据库 ,移动数据挖掘 ,大数据的存储 、查询与分析方面的研究 , E鄄通信作者: 高摇 需(1980), 男, 讲师, 主要从事移动数据库 ,移动数据挖掘 ,大数据的存储 、查询与分析方面的研究 , E鄄mail: gao. d. xu gmail. commail:guolimin bjut.
7、 edu. cnKZ201610005009);国家自然科学基金资助项目 (61402449, 61703013, 91546111, 91646201)sub鄄graph was a cluster.The experimental results demonstrate that the proposed method has good象聚类1鄄4,鲜有针对空间网络对象聚类的研究 . 在现实世界中,空间对象往往受限于网络环境,例如道路网络等 ,因此空间网络中的对象聚类更具有现实意义及应用前景 ,可应用于交通拥塞检测 、城市规划等领域 ,如在智能交通领域中 ,通过车辆聚类可以得到道路网络中的
8、密集区域,进而用于标摇 第 6 期郭黎敏, 等: 基于聚类生成图的空间网络对象聚类525识拥塞区域 ,并提供路径规划及导航服务等 . 可以说,空间网络对象聚类技术已经得到了人们日益广泛的重视 .总体上来说,空间网络对象聚类可以分为 3 类:基于划分的方法、基于层次化的方法和基于密度的方法. 基于划分的聚类算法中的典型代表是 K鄄Means5,它将目标对象划分为 k 个分组,并在迭代过程中不断交换对象直至满足聚类标准 ;基于层次化的聚类算法包括自顶向下 (分裂的层次聚类 )和自底向 上(凝聚的层次聚类) 2 种,代表算法有者开发了云平台19鄄20上的一系列聚类算法21鄄22,代 表 性 的 有
9、PDBSCAN23、 MR鄄DBSCAN24和DBSCAN鄄MR25等. 然而,这些聚类算法仅适用于欧式空间,无法应用于空间网络对象聚类问题 .本文研究了在聚类生成图的基础上 ,如何实现空间 对象的聚类,与本文最相关的工作是文献cls 和 nb鄄cls,其基本思路是在网络连通性的基础上避免盲目的对象搜索,并以广度优先方式遍历原始网络寻找可能合并的聚类. 然而这些算法依13, 它提出了基于边和基于结点的聚类算法eb鄄BIRCH6和 CURE7类算法无须事先确定聚类数量. 相较而言;基于密度的聚类算,基于层次化的聚法能发现任意形状的聚类 ,并且能发现噪声对象,代表DCPGS算 法 有OPTICS1
10、9、GEC10、EBSCAN、11DBSCAN2.、 ACSD8、然而,上述算法主要针对欧式空间对象聚类 ,不能有效解决网络中的空间对象聚类问题. 为此,文献12 提出了一种层次化聚类算法single鄄link,它的基本思路是将每个对象初始化为一个聚类 ,并分配了大容量的堆来存储将要合并的聚类对 . 但是当空间对象太多、太密集时,该算法的时间消耗和存储代价都很高. 同时,文献12 还提出了一种基于密度的聚类算法 着鄄link,即在遍历网络的过程中将空间对象插入聚类中. 由于改变了聚类与网络结点的结构,需要重复访问结点的邻接边及其上的空间对象. 当聚类包含多条边时 ,遍历过程需要更新每个结点与当
11、前聚类的距离,而当网络中的对象密集时 ,重复访问相邻边中的对象会产生不必要的代价 . 为了解决 single鄄link 及 着鄄link 带来的对象重复访问及内存空间消耗过大的问题 ,文献13 提出了基于边和基于结点的聚类算法single鄄link离边结点的远近顺序访问每个对象及 着鄄link 类似,eb鄄cls它们都需依据空间对象距和 nb鄄cls. 但是,与,然而对数据有序的假设往往很难成立,例如车辆 GPS 数据可能是无序的.随着超图14在数据挖掘领域的广泛应用 ,研究者在超图聚类方面也进行了大量的研究 . 超图是一般图的泛化,一条超边可以与多个顶点相连接 ,可用于表达复杂的结构和关系
12、. 超图聚类15的原理是将超图中的结点根据某种准则进行划分 ,使得划分之后的各个结点子集内部相似度较高 ,而结点子集ENHG之间的相似度较小 代表算法有 HGC1618.,、PHSC17、与此同时,为了解决大规模数据聚类问题 ,研究赖于空间对象在网络中的边上的局部有序性,当网络复杂、空间对象较多 、密度较大时 ,需要遍历大部分网络 ,代价很高 ,难以适应大规模空间对象的聚类问题 .为了解决上述问题 ,本文提出了一种基于聚类生objects成图法. COCGfor的spatial空间网的基本思路是network络对象:using聚类首先对网络中的非空边CB鄄graph,COCG)( effici
13、ent clustering方进行概略化聚类 ;然后在此基础上 ,构建聚类生成图;最后查找聚类生成图的连通子图 ,每个连通子图即为一个聚类1) 提出了基于聚类生成图的聚类框架. 归纳总结本文的主要贡献如下COCG;:2)3)提出了基于边的概略化聚类方法4)提出了聚类生成图的构建方法验证了 COCG 算法在空间网络对象聚类方;面良好的效率和可扩展性 .1摇问题定义本节给出了问题定义 ,并描述了空间网络对象聚类问题. 表 1 列出了本文使用的符号.表 1摇符号描述表Table 1摇Symbols and meanings符号描述符号描述G空间网络bkt概略化桶v、ni结点V结点集合e边E边集合W(
14、e)边的权值 / 长度loc. pp 的距离o、p、q空间对象S空间对象集合Dd(p, q)p 与 q 的直接距离 Dn(p, q)p 与 q 的网络距离1郾 1摇基本概念问题定义之前,本小节先引入文献 5 中的网络、网络距离及聚类块等基本概念 .526北摇 京摇 工摇 业摇 大摇 学摇 学摇 报2019 年表 2摇聚类块实例表网络是一个无向有权图 G = (V, E, W),其中 V是顶点集合;E 是边的集合 ,W:E寅R+表示对应边式中:e = (ni, nj)是 o 所在网络的边的 2 个结点,且满足偏序关系 ni nj;loc沂0, W(e) 是 o 与 ni之间的距离.集合 S =
15、p1, p2, , p13,其中 n1 n6为 G 中的结点. 空间对象以 p1为例,其所在边为(n1, n2),与 n1距离 4 m. 因此,p1可表示为 p1= (n1, n2, 4).图 1 举例说明道路网络G 及其上的空间对象的权值. 空间对象用三元组 o = (ni, nj, loc)表示,标号CB1CB2CB3CB4Table 2摇Instance of clustering blocks聚类块p1、p2p3、p4p5p6标号CB5CB6CB7CB8聚类块p7、p8、p9p11、p12p13p101郾 2摇问题定义图 1摇道路网络及空间对象摇Fig. 1摇Road network
16、with object points给定网络中 2 个空间对象 p = (nq = (na, nb, locp)和c接距离和网络距离, nd, locq),p.、若q 之间的距离可分为p、q 在同一条边上2,则类:p直、q之间的 直接距离 DDd(p, q) = | locp- locq|,否则的网络距离d(p, q) = 肄D;若 p、q 不在同一条边上,则 p、q 之间Dn(p, q) =x沂(a,minb),y沂(c,d)Dd(p,nx) +n(nx, ny须遍历网络即可在常量时间内求得) + Dd(ny, q) . 其中第 1;类直接距离无而第 2 类网络距离需要遍历网络求得最短网络距
17、离2;p,代价较高 .以图 1 中的空间对象为例 ,Dd(p1,2) = |6 - 4 | =DDd(p1, p3)聚类块是在网络某条边上的一个微小聚类D=d(n肄;Dn(p2,p6) = Dd(p2,n2) +n(n2, n5) +5, p6) =8.,表示为 CB = (O, na是空间对象的集合,nb且满足相邻空间对象之间的直),其中 O = o1, o2, , on(接距离小于等于距离阈值na,为了nb)是表CB述准所在的边确, 定.着,即 Dd(oi, oi +1)臆着,block,CB)义了最大聚类块 ( cluster再扩CB大,即,CB 是最大聚类块当且仅当 CB 不能表忆.2
18、 所示以图.1不为例存在,假设其他着聚=类2,块所有最大聚类块如CB忆,使得 CB 奂本小节定义了边界对象、聚类生成图等概念,并描述了空间网络对象聚类问题 .为了更好地描述聚类生成图 ,引入了边界对象的概念.定义 1(边界对象)摇给定聚类块 CB = (O, nna,b),CB 的边界对象BBCB表示为式中:BlCB= BlCB胰BrCBCB是 CB 的左边界对象 ,即 O 中距离结点 na最近的空间对象;Br距离结点 nCB是 CB 的右边界对象 ,即 O 中b最近的空间对象.依据边界对象的定义 ,聚类块之间的网络距离可描述为聚类块边界对象之间最小的网络距离(CB=,即Dni, CBj)p沂
19、Bn(p, q)(clusterO,定义n2(连接性聚类块)摇CBmini,q给定一个聚类块沂BCBjDCB =a, nb), 则 CB 称为连接性(1)CBblock,CCB)是边(n当且仅当满足如下条件聚类块:(connecta类块;, nb)上的第一个或最后一个聚(2)埚第 2 个条件限定了oi沂O,Dd(oi,CBna)臆所在边的结点着 或 Dd(oi,nnb)臆着.CBa或 nb与效结的距离必须小于等于VN点, 记作 VNCB.即着若,则该结点称为DnCB 的有CB= n( na, CB) 臆 着, 则a;若 Dn(nb, CB)臆着,则 VNCB= nb.当 CB 不是边(na聚类
20、块时,CB 称为确定性聚类块, nb)上的第一个和最后一个DCB.(块块)连接性聚类块描述了可能再继续合并的聚类). 相应地,确定性聚类块是不可再合并的聚类以图.1 为例,假设 着 = 2,网络 G 中对应的连接性聚类块、边界对象及有效结点如表 3 所示.定义 3(聚类生成图 )摇给定一个网络 G,聚类生成图CB ,是CB一个无向图 G忆 = (V忆, E忆), 其中 V忆 =12, ,边CBn集合;E忆是聚类的集是合,G且中所有最大聚类块的E忆 = ( CBi, CBj) |摇 第 6 期郭黎敏, 等: 基于聚类生成图的空间网络对象聚类527摇 摇表 3摇连接性聚类块、边界对象及有效结点实例
21、表Table 3摇Instance of CCB, boundary objectsand valid nodes连接性聚类块CB1CB2CB3CB4CB5CB6所在边(n1, n2)(n2, n5)(n3, n5)(n5, n6)(n4, n6)(n1, n4)边界对象p1、p2p3、p4p5p6有效结点n2、n5n3n5n4n2输出:对象的聚类结果.阶段 1:找出 G 中所有非空边上的最大聚类块 ,构造聚类生成图的顶点 ,并生成连接性聚类块相应的汇聚-连接锚点;阶段 2:根据汇聚-连接锚点合并聚类 (块),并构造聚类生成图的边;阶段 3:查找聚类生成图的连通子图 ,每个连通子图中的空间对象
22、为同一个聚类 .COCG 算法第 1 阶段的主要问题在于如何有效p7、p9p10n4、n6地组织空间对象,尽量减少空间对象的访问和比较CB8(n2, n3)p13n3D(VNn(CBi, CBj) 着 时,bkti和 bktj中的空间对象属于不同聚类块.属性 4摇 若|j - i|逸3,且坌k沂(i,j),bktk则 bkt 和 bkt= 芰,ij中的空间对象属于不同聚类块 .在概略化桶的基础上 ,设计了基于边的概略化聚类算法,如算法 2 所示,其利用桶间对象分组有序而桶内对象无序的思路有效地降低了聚类的时间和空间复杂度.cluster算法 2摇基于边的概略化聚类 Bucket鄄based鄄输
23、入:空间网络 G,空间对象集合S,距离阈值 着.1输出:聚类生成图 G忆2.边集.V忆的顶点集合 V忆.E饮饮FindNonEmptyEdge(芰;G, S);椅 找出 G 中非空34. 摇foreachSe =(na, nb)沂E do摇摇 椅处理每条非空边e象集合饮ExtractObjOnEdge( e, S);椅 获取 e 上的对略化桶5. 摇 BKT饮SplitEdge(e,着); 椅均分 e 为长 着/2 的概67.8.摇空桶.摇foreach摇摇bktbkto沂Seo.着/loc2饮appenddoo to bkto.着/loc2;pre饮FirstNonEmptyBkt(BKT)
24、; 椅第 1 个非910. 摇 id饮1; CBl11.id饮bktpre; 椅初始化第 1 个聚类块.摇摇if摇DHCAd(B饮CBHCA胰掖id,na)臆着nthen12. 摇 椅循环处理 BKT 中第a,1CB个非空桶后的每个非id, BlCBid业;13空桶bkt. 摇foreach bktnext饮 NextNonEmptyBkt ( BKT,14pre) do15. 摇 摇 if (next -pre)臆1 then摇摇 摇 摇 摇椅属性116.摇摇摇摇摇elseCBifid饮(nextCBid-胰bktpre)臆2next;and2425.摇return摇 HCA饮HCA胰掖 n
25、b, CBid,BrCBid业;在算法V忆2;中,首先初始化顶点集合V忆,并调用函数 FindNonEmptyEdge( )找出空间网络 G 中所有的非空边(行 1、2). 然后依次处理每条非空边 e,调用函数 ExtractObjOnEdge() 获取 e 上的空间对象集合 SeBKT,=将bkte 均分为若干长度为 着/2 的概略化桶ii沂0,W着(/e2)-1,并将 e 上的每个对象存入对应的概略化桶中 ,此时桶间对象分组有序(行 3 7). 然后调用函数 FirstNonEmptyBkt()从 BKT 中找到第一个非空桶如果 CB,将其初始化为第 1 个聚类块 CB1,1中的左边界对象
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 生成 空间 网络 对象
限制150内