数据流聚类算法CluStream介绍优秀PPT.ppt
《数据流聚类算法CluStream介绍优秀PPT.ppt》由会员分享,可在线阅读,更多相关《数据流聚类算法CluStream介绍优秀PPT.ppt(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、背景随着计算机软硬件的不断升级,人们获得数据实力越来越高。在电信、金融、天气预报、网络入侵检测、传感器网络等领域出现了一种不同于传统静态数据的流数据。这种数据流有自己的特点。数据流特点1、数据实时达到2、数据到达次序独立,不受系统限制3、数据量是巨大的,不能预知其大小4、单次扫描,数据一经处理,除非特意保存,否则不能再次被处理数据流聚类聚类是数据挖掘中一类重要的问题,在很多领域有其应用之处。聚类定义:给定一个有很多数据元素组成的集合,我们将其分为不同的组(类、簇),使得组内的元素尽可能的相像,不同组之间的元素尽可能的不同。由于数据流的特点,对它的聚类算法提出了新的要求。数据流聚类算法要求1、压
2、缩的表达(概要数据)2、快速、增量地处理新到达的数据3、快速、清晰地识别离群点CluStream概要C.C.Aggarwal等人在2003年提出了该著名的经典数据流聚类框架。它引入了簇和时间帧结构两个主要的概念,将数据流聚类过程分为在线部分(微聚类)和离线部分(宏聚类)。在线部分实时处理新到达的数据,并周期性的存储统计结果;离线部分就利用这些统计结果结合用户输入得到聚类结果。CluStream的影响CluStream两阶段框架是一个著名的框架,后续有很多算法在其基础上进行各方面的改进。它的在线部分可以实时处理较快速度的流数据,并得到统计结果。离线部分结合用户输入的参数可以近似得到过去某些时候的
3、聚类结果。CLuStream算法的核心概念微簇(Micro-clusters)时间衰减结构(Pyramidal Time Frame)数据流一种形式化描述数据流计算模型界标模型滑动窗口模型衰减模型微簇(Micro-clusters)CluStream以微簇的形式维护关于数据位置的统计信息。这些微簇被定义成簇特征向量在时间上的扩展。这些微簇额外增加的时间属性很自然将其应用于解决数据流问题。在上述数据流定义下,微簇是一个2d+3(d是数据维度)的元组时间帧结构(Pyramidal Time Frame)上述微簇须要在某些时刻维护和存储到磁盘以供离线阶段查询。由于数据量巨大,不行能将全部时刻的微簇信
4、息都存储到磁盘(这部分信息叫做快照),因此引入时间帧结构。它将时间轴划分成不同粒度的时刻,结果是离现在的越近粒度越细,反之越粗。T=55的时间轴划分这种时间帧结构的一些好处。1.能满足用户对最近数据感爱好的需求;2.运行100年的数据流仅仅须要存储或许95个快照,这能满足有限内存的需求。在线部分(微簇维护)初始化簇 首先在磁盘上存储最初始的initNumber个数据点,然后接受标准的k-means算法形成q个微簇:M1、M2Mq。在线处理对于以后达到的每一个数据点Xik,要么被上述的某个微簇吸取,要么放进它自己的簇中。首先计算Xik与q个微簇中的每一个的距离(事实上是其中心)。将其放到离它最近
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据流 算法 CluStream 介绍 优秀 PPT
限制150内