数据挖掘课程完整基于网格的聚类算法学习教案.pptx
《数据挖掘课程完整基于网格的聚类算法学习教案.pptx》由会员分享,可在线阅读,更多相关《数据挖掘课程完整基于网格的聚类算法学习教案.pptx(31页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、会计学1数据挖掘课程完整数据挖掘课程完整(wnzhng)基于网格的基于网格的聚类算法聚类算法第一页,共31页。基于基于(jy)网格的聚类网格的聚类n n基本思想是将每个属性的可能值分割成许多相邻的区间,创建网基本思想是将每个属性的可能值分割成许多相邻的区间,创建网基本思想是将每个属性的可能值分割成许多相邻的区间,创建网基本思想是将每个属性的可能值分割成许多相邻的区间,创建网格单元的集合(对于的讨论我们假设属性值是序数的、区间的或格单元的集合(对于的讨论我们假设属性值是序数的、区间的或格单元的集合(对于的讨论我们假设属性值是序数的、区间的或格单元的集合(对于的讨论我们假设属性值是序数的、区间的或
2、者连续的)。者连续的)。者连续的)。者连续的)。n n每个对象落入一个网格单元,网格单元对应的属性区间包含每个对象落入一个网格单元,网格单元对应的属性区间包含每个对象落入一个网格单元,网格单元对应的属性区间包含每个对象落入一个网格单元,网格单元对应的属性区间包含(bohn)(bohn)该对象的值。该对象的值。该对象的值。该对象的值。n n优点是它的处理速度很快,其处理时间独立于数据对象的数目,优点是它的处理速度很快,其处理时间独立于数据对象的数目,优点是它的处理速度很快,其处理时间独立于数据对象的数目,优点是它的处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关。
3、只与量化空间中每一维的单元数目有关。只与量化空间中每一维的单元数目有关。只与量化空间中每一维的单元数目有关。2第1页/共31页第二页,共31页。STING:统计统计(tngj)信息网格信息网格n nSTINGSTINGSTINGSTING是一种基于网格的多分辨率聚类技术,它将空间区域划分为矩形单元。是一种基于网格的多分辨率聚类技术,它将空间区域划分为矩形单元。是一种基于网格的多分辨率聚类技术,它将空间区域划分为矩形单元。是一种基于网格的多分辨率聚类技术,它将空间区域划分为矩形单元。n n针对不同级别的分辨率,通常存在多个级别的矩形单元,针对不同级别的分辨率,通常存在多个级别的矩形单元,针对不同
4、级别的分辨率,通常存在多个级别的矩形单元,针对不同级别的分辨率,通常存在多个级别的矩形单元,n n这些单元形成了一个层次结构:高层的每个单元被划分为多个低一层的单元。这些单元形成了一个层次结构:高层的每个单元被划分为多个低一层的单元。这些单元形成了一个层次结构:高层的每个单元被划分为多个低一层的单元。这些单元形成了一个层次结构:高层的每个单元被划分为多个低一层的单元。n n关于每个网格单元属性的统计信息(例如平均值、最大值和最小值)被预先关于每个网格单元属性的统计信息(例如平均值、最大值和最小值)被预先关于每个网格单元属性的统计信息(例如平均值、最大值和最小值)被预先关于每个网格单元属性的统计
5、信息(例如平均值、最大值和最小值)被预先计算和存储计算和存储计算和存储计算和存储(cn ch)(cn ch)(cn ch)(cn ch)。这些统计信息用于回答查询。这些统计信息用于回答查询。这些统计信息用于回答查询。这些统计信息用于回答查询。3第2页/共31页第三页,共31页。STING:统计统计(tngj)信息网格信息网格网格中常用参数网格中常用参数网格中常用参数网格中常用参数count-count-count-count-网格中对象数目网格中对象数目网格中对象数目网格中对象数目mean-mean-mean-mean-网格中所有值的平均值网格中所有值的平均值网格中所有值的平均值网格中所有值的
6、平均值stdev-stdev-stdev-stdev-网格中属性值的标准偏差网格中属性值的标准偏差网格中属性值的标准偏差网格中属性值的标准偏差min-min-min-min-网格中属性值的最小值网格中属性值的最小值网格中属性值的最小值网格中属性值的最小值max-max-max-max-网格中属性值的最大值网格中属性值的最大值网格中属性值的最大值网格中属性值的最大值distribution-distribution-distribution-distribution-网格中属性值符合的分布类型网格中属性值符合的分布类型网格中属性值符合的分布类型网格中属性值符合的分布类型(lixng)(lixng
7、)(lixng)(lixng)。如正态分布、均匀分。如正态分布、均匀分。如正态分布、均匀分。如正态分布、均匀分布、指数分布或者布、指数分布或者布、指数分布或者布、指数分布或者nonenonenonenone(分布类型(分布类型(分布类型(分布类型(lixng)(lixng)(lixng)(lixng)未知)未知)未知)未知)4第3页/共31页第四页,共31页。STING:统计统计(tngj)信息网格信息网格5STINGSTING聚类的层次结构聚类的层次结构第4页/共31页第五页,共31页。STING:统计统计(tngj)信息网格信息网格6 level i level i+1 level i+2
8、 a cell of(i-1)th level corresponds to 4 cells of(i)th level a cell of(i-1)th level corresponds to 4 cells of(i)th level 第5页/共31页第六页,共31页。STING:STING:统计统计统计统计(tngj)(tngj)信息网格信息网格信息网格信息网格7假设当前层的属性x的统计信息记为n,m,s,min,max,dist,而ni,mi,si,mini,maxi是相对(xingdu)于当前层来说,对应于更低一层的统计参数。那么n,m,s,min,max,dist可以用以下方法计
9、算:dist 第6页/共31页第七页,共31页。STING:STING:统计统计统计统计(tngj)(tngj)信息网格信息网格信息网格信息网格8第7页/共31页第八页,共31页。STING:统计统计(tngj)信息网格信息网格n n当数据加载到数据库时。最底层的单元参数直接由数据计算,若当数据加载到数据库时。最底层的单元参数直接由数据计算,若当数据加载到数据库时。最底层的单元参数直接由数据计算,若当数据加载到数据库时。最底层的单元参数直接由数据计算,若分布类型事先知道,可以用户直接指定,而较高层的分布类型可分布类型事先知道,可以用户直接指定,而较高层的分布类型可分布类型事先知道,可以用户直接
10、指定,而较高层的分布类型可分布类型事先知道,可以用户直接指定,而较高层的分布类型可以基于它对应的低层单元多数的分布类型,用一个阈值过滤过程以基于它对应的低层单元多数的分布类型,用一个阈值过滤过程以基于它对应的低层单元多数的分布类型,用一个阈值过滤过程以基于它对应的低层单元多数的分布类型,用一个阈值过滤过程的合取来计算,若低层分布彼此不同,则高层分布设置为的合取来计算,若低层分布彼此不同,则高层分布设置为的合取来计算,若低层分布彼此不同,则高层分布设置为的合取来计算,若低层分布彼此不同,则高层分布设置为nonenonenonenone。n n高层单元的统计参数可以很容易高层单元的统计参数可以很容
11、易高层单元的统计参数可以很容易高层单元的统计参数可以很容易(rngy)(rngy)(rngy)(rngy)的从低层单元的参数计的从低层单元的参数计的从低层单元的参数计的从低层单元的参数计算得到。算得到。算得到。算得到。9第8页/共31页第九页,共31页。STING:统计统计(tngj)信息网格信息网格统计处理思想:统计处理思想:统计处理思想:统计处理思想:使用自顶向下的方法回答空间数据的查询使用自顶向下的方法回答空间数据的查询使用自顶向下的方法回答空间数据的查询使用自顶向下的方法回答空间数据的查询 从一个预先选择的层次开始通常包含少量的单元,为当前层的每个单元计从一个预先选择的层次开始通常包含
12、少量的单元,为当前层的每个单元计从一个预先选择的层次开始通常包含少量的单元,为当前层的每个单元计从一个预先选择的层次开始通常包含少量的单元,为当前层的每个单元计算置信区间算置信区间算置信区间算置信区间不相关的单元不再考虑不相关的单元不再考虑不相关的单元不再考虑不相关的单元不再考虑(kol)(kol)(kol)(kol)当检查完当前层,接着检查下一个低层次当检查完当前层,接着检查下一个低层次当检查完当前层,接着检查下一个低层次当检查完当前层,接着检查下一个低层次重复这个过程直到达到底层重复这个过程直到达到底层重复这个过程直到达到底层重复这个过程直到达到底层10第9页/共31页第十页,共31页。S
13、TING:统计统计(tngj)信息网格信息网格算法步骤:算法步骤:算法步骤:算法步骤:1 1 1 1 从一个层次开始从一个层次开始从一个层次开始从一个层次开始2 2 2 2 对于这一层次的每个单元格,我们计算查询相关的属性对于这一层次的每个单元格,我们计算查询相关的属性对于这一层次的每个单元格,我们计算查询相关的属性对于这一层次的每个单元格,我们计算查询相关的属性(shxng)(shxng)(shxng)(shxng)值值值值3 3 3 3 从计算的属性从计算的属性从计算的属性从计算的属性(shxng)(shxng)(shxng)(shxng)值及其约束条件中,我们将每一个单元格标注成相关或者
14、值及其约束条件中,我们将每一个单元格标注成相关或者值及其约束条件中,我们将每一个单元格标注成相关或者值及其约束条件中,我们将每一个单元格标注成相关或者不相关不相关不相关不相关4 4 4 4 如果这一层是底层,则转到步骤如果这一层是底层,则转到步骤如果这一层是底层,则转到步骤如果这一层是底层,则转到步骤6 6 6 6,否则就行步骤,否则就行步骤,否则就行步骤,否则就行步骤5 5 5 55 5 5 5 我们由层次结构转到下一层依照步骤我们由层次结构转到下一层依照步骤我们由层次结构转到下一层依照步骤我们由层次结构转到下一层依照步骤2 2 2 2进行计算进行计算进行计算进行计算6 6 6 6 查询结果
15、满足,转到步骤查询结果满足,转到步骤查询结果满足,转到步骤查询结果满足,转到步骤8 8 8 8,否则转到步骤,否则转到步骤,否则转到步骤,否则转到步骤7 7 7 77 7 7 7 恢复数据到相关的单元格进一步处理以得到满意结果,转到步骤恢复数据到相关的单元格进一步处理以得到满意结果,转到步骤恢复数据到相关的单元格进一步处理以得到满意结果,转到步骤恢复数据到相关的单元格进一步处理以得到满意结果,转到步骤8 8 8 88 8 8 8 停止停止停止停止11第10页/共31页第十一页,共31页。STING:统计统计(tngj)信息网格信息网格应用应用n nSTING STING STING STING
16、 能够用来帮助各种不同的空间查询能够用来帮助各种不同的空间查询能够用来帮助各种不同的空间查询能够用来帮助各种不同的空间查询(chxn)(chxn)(chxn)(chxn)。这最常见的请求查询。这最常见的请求查询。这最常见的请求查询。这最常见的请求查询(chxn)(chxn)(chxn)(chxn)是区域查询是区域查询是区域查询是区域查询(chxn)(chxn)(chxn)(chxn)。n n例如查询例如查询例如查询例如查询(chxn)(chxn)(chxn)(chxn)满足一定条件的区域。查找加利福尼亚州地区的房屋以得到房屋所在区域相关方面数满足一定条件的区域。查找加利福尼亚州地区的房屋以得到
17、房屋所在区域相关方面数满足一定条件的区域。查找加利福尼亚州地区的房屋以得到房屋所在区域相关方面数满足一定条件的区域。查找加利福尼亚州地区的房屋以得到房屋所在区域相关方面数据。查询据。查询据。查询据。查询(chxn)(chxn)(chxn)(chxn)的对象是房屋,价格是其中的一个属性。区域须满足约束条件:哪些区域面积至少是的对象是房屋,价格是其中的一个属性。区域须满足约束条件:哪些区域面积至少是的对象是房屋,价格是其中的一个属性。区域须满足约束条件:哪些区域面积至少是的对象是房屋,价格是其中的一个属性。区域须满足约束条件:哪些区域面积至少是A,A,A,A,单元地区至少有单元地区至少有单元地区至
18、少有单元地区至少有c c c c栋房屋栋房屋栋房屋栋房屋,至少至少至少至少d%d%d%d%的房屋其价格在的房屋其价格在的房屋其价格在的房屋其价格在a a a a到到到到b b b b之间的置信度为之间的置信度为之间的置信度为之间的置信度为1-t.1-t.1-t.1-t.且且且且mn,.mn,.mn,.mA*C*d%(p2*nA*C*d%(p2*nA*C*d%(p2*nA*C*d%成立成立成立成立?)?)?)?),若相关,则标记该网格为,若相关,则标记该网格为,若相关,则标记该网格为,若相关,则标记该网格为relevantrelevantrelevantrelevant否则标记为否则标记为否则标
19、记为否则标记为n n not-relevant.not-relevant.not-relevant.not-relevant.处理层次结构中的下一层。这个处理过程反复进行。处理层次结构中的下一层。这个处理过程反复进行。处理层次结构中的下一层。这个处理过程反复进行。处理层次结构中的下一层。这个处理过程反复进行。直直直直 n n 到到达最底层到到达最底层到到达最底层到到达最底层 。最后返回满足。最后返回满足。最后返回满足。最后返回满足(mnz)(mnz)(mnz)(mnz)查询要求的相关单元的区域。查询要求的相关单元的区域。查询要求的相关单元的区域。查询要求的相关单元的区域。n n 查找结束查找结
20、束查找结束查找结束 。13第12页/共31页第十三页,共31页。STING:统计统计(tngj)信息网格信息网格优点如下:优点如下:优点如下:优点如下:计算是独立于查询的;计算是独立于查询的;计算是独立于查询的;计算是独立于查询的;有利于并行处理和增量有利于并行处理和增量有利于并行处理和增量有利于并行处理和增量(zn lin)(zn lin)(zn lin)(zn lin)更新;更新;更新;更新;效率很高。效率很高。效率很高。效率很高。STINGSTINGSTINGSTING算法扫描数据库一次来计算单元的统计信息,因此产生聚类的算法扫描数据库一次来计算单元的统计信息,因此产生聚类的算法扫描数据
21、库一次来计算单元的统计信息,因此产生聚类的算法扫描数据库一次来计算单元的统计信息,因此产生聚类的时间复杂度是时间复杂度是时间复杂度是时间复杂度是o(n)o(n)o(n)o(n),其中,其中,其中,其中n n n n是对象的数目。在层次结构建立后,查是对象的数目。在层次结构建立后,查是对象的数目。在层次结构建立后,查是对象的数目。在层次结构建立后,查询处理时间是,这里询处理时间是,这里询处理时间是,这里询处理时间是,这里g g g g是最低层网格单元的数目是最低层网格单元的数目是最低层网格单元的数目是最低层网格单元的数目o(g)o(g)o(g)o(g),通常远小于,通常远小于,通常远小于,通常远
22、小于n n n n。14第13页/共31页第十四页,共31页。STING:统计统计(tngj)信息网格信息网格缺点如下:缺点如下:缺点如下:缺点如下:如果粒度比较细,处理的代价会显著增加;但是,如果网格结构最低如果粒度比较细,处理的代价会显著增加;但是,如果网格结构最低如果粒度比较细,处理的代价会显著增加;但是,如果网格结构最低如果粒度比较细,处理的代价会显著增加;但是,如果网格结构最低层的粒度太粗,将会降低聚类分析的质量;层的粒度太粗,将会降低聚类分析的质量;层的粒度太粗,将会降低聚类分析的质量;层的粒度太粗,将会降低聚类分析的质量;在构建一个父亲单元时没有考虑孩子在构建一个父亲单元时没有考
23、虑孩子在构建一个父亲单元时没有考虑孩子在构建一个父亲单元时没有考虑孩子(hi zi)(hi zi)(hi zi)(hi zi)单元和其相邻单元之间单元和其相邻单元之间单元和其相邻单元之间单元和其相邻单元之间的关系,因此,结果簇的形状是的关系,因此,结果簇的形状是的关系,因此,结果簇的形状是的关系,因此,结果簇的形状是isotheticisotheticisotheticisothetic,即所有的聚类边界或,即所有的聚类边界或,即所有的聚类边界或,即所有的聚类边界或者是水平的,或者是竖直的,没有斜的分界线。者是水平的,或者是竖直的,没有斜的分界线。者是水平的,或者是竖直的,没有斜的分界线。者是
24、水平的,或者是竖直的,没有斜的分界线。尽管该技术有快速的处理速度,但可能降低簇的质量和精确性尽管该技术有快速的处理速度,但可能降低簇的质量和精确性尽管该技术有快速的处理速度,但可能降低簇的质量和精确性尽管该技术有快速的处理速度,但可能降低簇的质量和精确性15第14页/共31页第十五页,共31页。CLIQUE:CLIQUE:一种一种一种一种(y zh(y zh n n)类似于类似于类似于类似于AprioriApriori的子空间聚类方法的子空间聚类方法的子空间聚类方法的子空间聚类方法 CLICQUE CLICQUE CLICQUE CLICQUE算法是基于网格的空间聚类算法,但它同时非常好地结算
25、法是基于网格的空间聚类算法,但它同时非常好地结算法是基于网格的空间聚类算法,但它同时非常好地结算法是基于网格的空间聚类算法,但它同时非常好地结 合了基于合了基于合了基于合了基于密度的聚类算法思想,因此既可以像基于密度的方法发现任意形状密度的聚类算法思想,因此既可以像基于密度的方法发现任意形状密度的聚类算法思想,因此既可以像基于密度的方法发现任意形状密度的聚类算法思想,因此既可以像基于密度的方法发现任意形状(xngzhun)(xngzhun)(xngzhun)(xngzhun)的簇,又可以像基于网格的方法处理较大的多维数据集。的簇,又可以像基于网格的方法处理较大的多维数据集。的簇,又可以像基于网
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 课程 完整 基于 网格 算法 学习 教案
限制150内