数据挖掘课程完整基于网格的聚类算法.pptx
《数据挖掘课程完整基于网格的聚类算法.pptx》由会员分享,可在线阅读,更多相关《数据挖掘课程完整基于网格的聚类算法.pptx(31页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于网格的聚类基于网格的聚类基本思想是将每个属性的可能值分割成许多相邻的区间,创建网格单元的集合(对于的讨论我们假设属性值是序数的、区间的或者连续的)。每个对象落入一个网格单元,网格单元对应的属性区间包含该对象的值。优点是它的处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关。1第1页/共31页STING:统计信息网格统计信息网格STINGSTING是一种基于网格的多分辨率聚类技术,它将空间区域划分为矩形单元。针对不同级别的分辨率,通常存在多个级别的矩形单元,这些单元形成了一个层次结构:高层的每个单元被划分为多个低一层的单元。关于每个网格单元属性的统计信息(例如平
2、均值、最大值和最小值)被预先计算和存储。这些统计信息用于回答查询。2第2页/共31页STING:统计信息网格统计信息网格网格中常用参数count-网格中对象数目mean-网格中所有值的平均值stdev-网格中属性值的标准偏差min-网格中属性值的最小值max-网格中属性值的最大值distribution-网格中属性值符合的分布类型。如正态分布、均匀分布、指数分布或者nonenone(分布类型未知)3第3页/共31页STING:统计信息网格统计信息网格4STINGSTING聚类的层次结构聚类的层次结构第4页/共31页STING:统计信息网格统计信息网格5 level i level i+1 le
3、vel i+2 a cell of(i-1)th level corresponds to 4 cells of(i)th level a cell of(i-1)th level corresponds to 4 cells of(i)th level 第5页/共31页STING:统计信息网格统计信息网格6假设当前层的属性x的统计信息记为n,m,s,min,max,dist,而ni,mi,si,mini,maxi是相对于当前层来说,对应于更低一层的统计参数。那么n,m,s,min,max,dist可以用以下方法计算:dist dist 第6页/共31页STING:统计信息网格统计信息网格7第
4、7页/共31页STING:统计信息网格统计信息网格当数据加载到数据库时。最底层的单元参数直接由数据计算,若分布类型事先知道,可以用户直接指定,而较高层的分布类型可以基于它对应的低层单元多数的分布类型,用一个阈值过滤过程的合取来计算,若低层分布彼此不同,则高层分布设置为nonenone。高层单元的统计参数可以很容易的从低层单元的参数计算得到。8第8页/共31页STING:统计信息网格统计信息网格统计处理思想:使用自顶向下的方法回答空间数据的查询 从一个预先选择的层次开始通常包含少量的单元,为当前层的每个单元计算置信区间不相关的单元不再考虑当检查完当前层,接着检查下一个低层次重复这个过程直到达到底
5、层9第9页/共31页STING:统计信息网格统计信息网格算法步骤:1 1 从一个层次开始2 2 对于这一层次的每个单元格,我们计算查询相关的属性值3 3 从计算的属性值及其约束条件中,我们将每一个单元格标注成相关或者不相关4 4 如果这一层是底层,则转到步骤6 6,否则就行步骤5 55 5 我们由层次结构转到下一层依照步骤2 2进行计算6 6 查询结果满足,转到步骤8 8,否则转到步骤7 77 7 恢复数据到相关的单元格进一步处理以得到满意结果,转到步骤8 88 8 停止10第10页/共31页STING:统计信息网格统计信息网格应用应用STING STING 能够用来帮助各种不同的空间查询。这
6、最常见的请求查询是区域查询。例如查询满足一定条件的区域。查找加利福尼亚州地区的房屋以得到房屋所在区域相关方面数据。查询的对象是房屋,价格是其中的一个属性。区域须满足约束条件:哪些区域面积至少是A,A,单元地区至少有c c栋房屋,至少d%d%的房屋其价格在a a到b b之间的置信度为1-t.1-t.且mn,.mA*C*(p2*nA*C*d%成立?),若相关,则标记该网格为relevantrelevant否则标记为 not-relevant not-relevant .处理层次结构中的下一层。这个处理过程反复进行。直 到到达最底层 。最后返回满足查询要求的相关单元的区域。查找结束 。12第12页/
7、共31页STING:统计信息网格统计信息网格优点如下:计算是独立于查询的;有利于并行处理和增量更新;效率很高。STINGSTING算法扫描数据库一次来计算单元的统计信息,因此产生聚类的时间复杂度是o(n)o(n),其中n n是对象的数目。在层次结构建立后,查询处理时间是,这里g g是最低层网格单元的数目o(g)o(g),通常远小于n n。13第13页/共31页STING:统计信息网格统计信息网格缺点如下:如果粒度比较细,处理的代价会显著增加;但是,如果网格结构最低层的粒度太粗,将会降低聚类分析的质量;在构建一个父亲单元时没有考虑孩子单元和其相邻单元之间的关系,因此,结果簇的形状是isothet
8、icisothetic,即所有的聚类边界或者是水平的,或者是竖直的,没有斜的分界线。尽管该技术有快速的处理速度,但可能降低簇的质量和精确性14第14页/共31页CLIQUE:一种类似于一种类似于AprioriApriori的子空间聚类方法的子空间聚类方法 CLICQUE算法是基于网格的空间聚类算法,但它同时非常好地结 合了基于密度的聚类算法思想,因此既可以像基于密度的方法发现任意形状的簇,又可以像基于网格的方法处理较大的多维数据集。CLIQUE把每个维划分成不重叠的区间,从而把数据对象的整个嵌入空间划分成单元。它使用一个密度阀值识别稠密单元,一个单元是稠密的,如果映射到它的对象超过该密度阀值1
9、5第15页/共31页CLIQUE:一种类似于一种类似于AprioriApriori的子空间聚类方法的子空间聚类方法算法概述:算法需要两个参数值,一个是网格的步长,一具是密度阈值。网格步长决定了空间的划分,而密度阈值用来定义密集网格。聚类思想:算法首先扫描所有网格,当发现第一个密集网格时,便以该网格开始扩展,扩展原则是若一个网格与已知密集区域内的网格邻接并且其自身也是密集的,则将该网格加入到该密集区域中、直到不再有这样的网格被发现为止。算法再继续扫描网格并重复上述过程,直至所有网格被遍历。以自动地发现最高维的子空间,高密度聚类存在于这些子空间中,并且它对元组的输入顺序不敏感,无需假设任何规范的数
10、据分布。它随输入数据的大小线性地扩展,当数据的维数增加时具有良好的可伸缩性。16第16页/共31页CLIQUE:一种类似于一种类似于AprioriApriori的子空间聚类方法的子空间聚类方法CLIQUECLIQUE识别候选搜索空间的主要策略是使用稠密单元关于维度的单调性。识别候选搜索空间的主要策略是使用稠密单元关于维度的单调性。在子空间聚类的背景下,单调性陈述如下:在子空间聚类的背景下,单调性陈述如下:一个一个k-k-维维(k1)(k1)单元单元c c至少有至少有m m个点,仅当个点,仅当c c的每个的每个(k-1)-(k-1)-维投影维投影 (它是它是(k-1)-(k-1)-维单元维单元)
11、至少有至少有m m个点。个点。如下图嵌入数据空间包括如下图嵌入数据空间包括3 3个维:个维:age,salary age,salary和和vacationvacation。例如,子空间。例如,子空间ageage和和salarysalary中的一个二维中的一个二维 单元包含单元包含m m个点,仅当该单元在每个维上的投影都至少包含个点,仅当该单元在每个维上的投影都至少包含m m个点。个点。17第17页/共31页18Salary(10,000)2030405060age543126702030405060age54312670Vacation(week)ageVacationSalary3050=3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 课程 完整 基于 网格 算法
限制150内