数据流聚类算法介绍精品文稿.ppt
《数据流聚类算法介绍精品文稿.ppt》由会员分享,可在线阅读,更多相关《数据流聚类算法介绍精品文稿.ppt(27页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据流聚类算法介绍第1页,本讲稿共27页背景随着计算机软硬件的不断升级,人们获取数据能力越来越高。在电信、金融、天气预报、网络入侵检测、传感器网络等领域出现了一种不同于传统静态数据的流数据。这种数据流有自己的特点。第2页,本讲稿共27页数据流特点1、数据实时达到2、数据到达次序独立,不受系统控制3、数据量是巨大的,不能预知其大小4、单次扫描,数据一经处理,除非特意保存,否则不能再次被处理第3页,本讲稿共27页数据流聚类聚类是数据挖掘中一类重要的问题,在许多领域有其应用之处。聚类定义:给定一个有许多数据元素组成的集合,我们将其分为不同的组(类、簇),使得组内的元素尽可能的相似,不同组之间的元素尽
2、可能的不同。由于数据流的特点,对它的聚类算法提出了新的要求。第4页,本讲稿共27页数据流聚类算法要求1、压缩的表达(概要数据)2、迅速、增量地处理新到达的数据3、快速、清晰地识别离群点第5页,本讲稿共27页CluStream概要C.C.Aggarwal等人在2003年提出了该著名的经典数据流聚类框架。它引入了簇和时间帧结构两个主要的概念,将数据流聚类过程分为在线部分(微聚类)和离线部分(宏聚类)。在线部分实时处理新到达的数据,并周期性的存储统计结果;离线部分就利用这些统计结果结合用户输入得到聚类结果。第6页,本讲稿共27页CluStream的影响CluStream两阶段框架是一个著名的框架,后
3、续有许多算法在其基础上进行各方面的改进。它的在线部分可以实时处理较快速度的流数据,并得到统计结果。离线部分结合用户输入的参数可以近似得到过去某些时候的聚类结果。第7页,本讲稿共27页CLuStream算法的核心概念微簇(Micro-clusters)时间衰减结构(Pyramidal Time Frame)第8页,本讲稿共27页数据流一种形式化描述第9页,本讲稿共27页数据流计算模型界标模型滑动窗口模型衰减模型第10页,本讲稿共27页微簇(Micro-clusters)CluStream以微簇的形式维护关于数据位置的统计信息。这些微簇被定义成簇特征向量在时间上的扩展。这些微簇额外增加的时间属性很
4、自然将其应用于解决数据流问题。在上述数据流定义下,微簇是一个2d+3(d是数据维度)的元组第11页,本讲稿共27页时间帧结构(Pyramidal Time Frame)上述微簇需要在某些时刻维护和存储到磁盘以供离线阶段查询。由于数据量巨大,不可能将所有时刻的微簇信息都存储到磁盘(这部分信息叫做快照),因此引入时间帧结构。它将时间轴划分成不同粒度的时刻,结果是离现在的越近粒度越细,反之越粗。第12页,本讲稿共27页T=55的时间轴划分第13页,本讲稿共27页这种时间帧结构的一些好处。1.能满足用户对最近数据感兴趣的需求;2.运行100年的数据流仅仅需要存储大概95个快照,这能满足有限内存的需求。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据流 算法 介绍 精品 文稿
限制150内