CLIQUE算法的基本思路.ppt
《CLIQUE算法的基本思路.ppt》由会员分享,可在线阅读,更多相关《CLIQUE算法的基本思路.ppt(25页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、CLIQUE算法的基本思路n采用基于密度的算法n聚类(cluster)就是一个区域,满足该区域中的点的密度大于与之相邻的区域。n把数据空间分割成网格单元(unit),将落到某个单元中的点的个数当成这个单元的密度(density)。可以指定一个数值,当某个单元中的点的个数大于该数值时,我们就说这个单元格是稠密(dense)的。聚类也就定义为连通的所有的稠密单元格的集合。基本概念n设 A=A1,A2,Ad 是 n个 域 的 集 合,那 么S=A1A2Ad就是一个d维空间,我们将A1,A2,Ad看成是S的维(属性);n算法的输入是一个n维空间中的点集,设为V=v1,v2,vm,其中vi=vi1,vi
2、2,vid。vi的第j个分量vijAj;n通过一个输入参数,可以将空间S的每一维分成相同的个区间,从而将整个空间分成了有限个不相交的类矩形单元(units),每一个这样的矩形单元可以描述为u1,u2,ud,其中ui=li,hi)是一个前闭后开区间;基本概念n一 个 点 v=v1,v2,vd 落 入 一 个 单 元u=u1,u2,ud中,当且仅当对于每一个ui都有li=vi。密度阈值是另一个输入参数;基本概念n对于S的任何子空间,例如子空间Sub=At1At2Atk,(kd,并且当ij时有titj成立),可以在该子空间中定义单元格,选择率等相同概念。基本概念n一个聚类(cluster)可以定义为
3、,在k维空间中由一些连通的稠密单元组成的最大单元集;n两个k维中的单元格u1,u2称为连通的(connected)当且仅当:(1)这两个单元格有一个公共的面;或者(2)u1,u2都跟另一个单元格u3连通;n两个单元格u1=rt1,rt2,rtk,u2=rt1,rt2,rtk有一个公共的面是指,存在k-1个维度(不妨设这k-1维就是At1,At2,Atk-1),有rtj=rtj成立(j=1,2,k-1),并且对于第Atk维有htk=ltk,或者htk=ltk成立;基本概念n区域(region)是指一个每一边都与坐标轴平行的类矩形。也就是说这类区域是由单元格组成的且具有规则的形状,这样一个区域就可
4、以用区间的交的形式表示出来;n区域R包含于一个聚类C,当且仅当RC=R;进一步我们称这样的R是最大的(maximal)当且仅当没有一个R的超集R也包含于C;n一个聚类C的最小描述是上述最大区域(maximal region)的一个集合R,R中的最大区域刚好覆盖C,集合r中的最大区域是没有冗余的,即R的任何子集都不能覆盖C;例子nd-demensional spacenNumber of intervalsnunitnselectivity of a unitndensity threshold nDense unitnClusternRegion nmaximal regionnminimal
5、 description of a cluster例子subspace问题描述nGiven a set of data points and the input parameters,and,find clusters in all subspaces of the original data space and present a mimimal description of each cluster in the form of a DNF expression.CLIQUE算法nIdentification of subspace that contain clustersnIdenti
6、fication of clustersnGeneration of minimal description for the clusters第一步:识别含有聚类的子空间nA bottom-up algorithm to find dense unitsnDetermines 1-dimensional dense units by making a pass over the datanHaving determined(k-1)-dimensional dense units,the candidate k-dimensional units are determined using ca
7、ndidate generation procedure.nMDL-based pruningnTo decide which subspaces(and the corresponding dense units)are interesting.nMDL-Minimal Description Lengthcandidate generation procedurenInput:Dk-1,the set of all(k-1)-dimensional dense unitnOutput:a superset of the set of all k-dimensional dense unit
8、snAlgorithm:MDL-based pruningnCoverage of subspace sjnSort the subspaces in the descending order of their coveragenDivide the sorted list of subspaces into two sets:the selected set I and the pruned set PnHow to arrive at the cut pointMDL-based pruningnThe code length is minimized to determine the o
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- CLIQUE 算法 基本思路
限制150内