小波聚类算法的研究及应用.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《小波聚类算法的研究及应用.pdf》由会员分享,可在线阅读,更多相关《小波聚类算法的研究及应用.pdf(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大连理工大学 硕士学位论文 小波聚类算法的研究及应用 姓名:毕玲 申请学位级别:硕士 专业:软件工程 指导教师:吴国伟 20061217 大连理工大学硕士学位论文 摘要 随着全球信息化的发展,数据库中存储的数据量急剧增大,为了挖掘出隐藏在大量 数据之后的重要信息,数据挖掘技术的研究就成为了一种迫切的需要。聚类分析是数据 挖掘研究中最活跃的领域之一,用于将数据对象分组为多个类或簇,使得簇内对象尽可 能相似而簇间对象尽可能相异。聚类分析技术已经广泛研究了许多年,并应用于诸多领 域中,包括模式识别、数据分析、图像处理等领域。聚类分析技术可以帮助人们更快地 找到所需要的信息,在现实生活中有着重要的意义
2、。 由于传统聚类算法在低维空间小数据集中能够有效地进行聚类,但在高维大数据集 中,由于其数据的稀疏性,存在大量孤立点等问题,使得传统聚类处理的效果不理想。 本论文在分析各种经典的聚类算法的基础上,着重对基于小波分析的聚类分析技术( 简 称小波聚类算法,W a v e C l u s t e r ) 进行研究和改进。小波聚类算法非常有效,检测簇的计 算复杂度为0 ( N ) 。结果不受噪声影响,对输入顺序不敏感。算法可以在不同精度找到 任意复杂结构的簇,而且不用假设任意特定形状的簇。算法不需要关于簇数量的先验知 识。但是,估计簇的数量可以帮助选择合适的簇的结果。针对小波聚类的低维性进行了 算法改
3、进,改进后算法可适用于高维聚类,并对时间复杂度和空间复杂度进行了分析, 通过实验验证了算法的有效性。 论文最后把改进后算法应用到入侵检测系统当中,针对入侵检测系统的两个指标: 检测率、误检率进行仿真实验。实验结果证明改进后算法能有效提高入侵检测的检测率, 降低误报率。 关键词:数据挖掘;聚类分析;小波变换;入侵检测 小波聚类算法的研究及应用 R e s e a r c ha n dA p p l i c a t i o no fW a v e C l u s t e r A b s t r a c t A l o n g w i t ht h ed e v e l o p m e n to f
4、 g l o b a lc o m m u n i c a t i o n , t h en u m b e ro f s t o r a g eo f d a t a b a s e s u d d e n l yi n c r e a s e ,i no r d e r t om i n et h ei m p o r t a n ti n f o r m a t i o nh i d i n gb e h i n dt h el a r g ed a t a , t h e s t u d yo fd a t a b a s em i n i n gt e c h n o l o g y
5、b e c o m eai n s t a n tr e q u i r e C l u s t e r i n l n ga n a l y s i s ,w h i c hi s a ni m p o r t a n td a t am m a g p r o b l e m , g r o u p st h ed a mi n t oc l a s s e so rc l u s t e r sS Ot h a to b j e c t s w i t h i nac l u s t e rh a v eh i g l ls i m i l a r i t yi nc o m p a r
6、 i s o nt oo n ea n o t h e r , b u ta r ev e r yd i s s i m i l a rt O o b j e c t si no t h e rc l u s t e r s I th 舔b e e nw i d e l yu s e di nn k l l n c r O U Sa p p l i c a t i o n s , i n c l u d i n gp a t t e r n r e c o g n i t i o n , d a t aa n a l y s i sa n di l n a g ep r o c c s s i
7、 n g C l u s t e r i n ga n a l y s i st e c h n o l o g yc a nh e l p p e o p l er a p i d l yf i n dt h er e q u i r e di n f o r m a t i o n , i ti sv e r ys i g n i f i c a n ti nr e a lw o r l d T r a d i t i o n a lc l u s t e r i n gm e t h o d sc a nw o r ke 蚯c i e n t l yi nl O Wd i m e n s
8、 i o n a ld a t a I nh i 西 d i m e n s i o n a ld a t a , h o w e v e r , e f f i c i e n c ya n de f f e c to f t r a d i t i o n a lc l u s t e r i n gm e t h o d sa r en o tw e l l I x ,c a u s eo fd a t as p a r s i t y , d i s t a n c es i m i l a r i t ya n dm o r eo u t l i e ri nt h ed a t a
9、 I nt h i sp a p e r , b a s e d o na n a l y z i n ge v e r yk i n d so fc l a s s i c a lc l u s t e r i n gm e t h o d , i ti se m p h a s i z e do ns t u d y i n ga n d i m p r o v i n gt h ew a v e l e t - b a s e dc l u s t e r i n gt e c h n o l o g y ( s h o r tf o rW a v e C l u s t e r ) n
10、 地p r o p o s e d a p p r o a c hi sv e r ye f f i c i e n t , t h ec o m p u t a t i o n a lc o m p l e x i t yo f d e t e c t i n gc l u s t e r si nO U tm e t h o di s 0 ( b D n l er e s u l t sa r cn o ta f f e c t 村b yn o i s ea n dt h em e t h o di sn o ts e n s i t i v et ot h eo r d e ro f i
11、 n p mo b j e c t st ob ep r o c e s s e d W a v e C l u s t e ri sw e l lc a p a b l eo ff i n d i n ga r b i t r a r y s h a p ec l u s t e r s w i t hc o m p l e xs t r u c t u r e sa td i f f e r e n ts c a l e s ,a n dd o e sn o ta s S U l l l ea n ys p e c i f i cs h a p ef o rt h e c l u s t
12、e r s Ap r i o r i h l o w l e d g ea b o u tt h ee x a c tn u m b e ro fc l u s t e r si sn o tr e q u i r e di n W a v e C l u s t e r H O W e v c r , a l le s t i m a t i o no fe x p e c t e dn u m b e ro fc l u s t e r sh e l p si nc h o o s i n gt h e a p p r o p r i a t er e s u l to fc l u s
13、t e r s T h e n , i na l l u s i o nt ot h el O Wd i m e n s i o n a lp r o p e r t yo f W a v e C l u s t e r , i m p r o v et h em e t h o d T h ei m p r o v e dm e t h o dC a nu s i n gi nh i g hd i m e n s i o n a l c l l l s t e f i n 岛a n dt h e na n a l y s i st h et i m ec o m p l e x i t ya
14、 n ds p a c ec o m p l e x i t y T h er e s u l to f e x p e r i m e n tc 觚p r o v et h ee f f e c t i v i t yo f i m p r o v e dm e t h o d I nt h ee n d , i ti su s i n gt h ei m p r o v e dm e t h o di nt h eI n t r u s i o nD e t e c t i o nS y s t e m , i na l l u s i o n t ot h ed e t e c t i
15、o nr a t e ,t h ef a l s ea l a r mr a t e ,a n dp r o v i d e dw i t hc o m p u t e rs i m u l a t i o n s 1 1 1 e e x p e r i m e n tr e s u l tp r o v e st h a tt h ei m p r o v e dm e t h o dc a ne f f e c t i v e l ya 妇c et h ed e t e c t i o nm t e a n dr e d u c et h ef a l s ea l a r mr a t
16、e K e yW o r d s :D a t am i n i n g ;C l u s t e r i n ga n a l y s i s :W a v e l e tt r a n s f o r m ;I n t r u s i o nD e t e c t i o n I I 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确
17、的说明并表示了谢意。 作者签名:垡L 日搬亏:f 之:丝 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 作者签名:毕西作者签名:芏! 呈 导师签名墨亟焦 迎立年丝月幽 大连理工大学硕士学位论文 1 绪论 1 1 研究背景和意义 2 0 世纪9 0 年代以来,随着信
18、息技术和数据库技术的迅猛发展,人们可以非常方便 地获取和存储大量的数据【”。面对大规模的海量的数据,传统的数据分析工具( 如管理 信息系统) 只能进行一些表层的处理( 如查询、统计等) ,而不能获得数据之间的内在 关系和隐含的信息。为了摆脱“数据丰富,知识贫乏”的困境f 2 】,人们迫切需要一种能 够智能自动地把数据转换成有用信息和知识的技术和工具,这种对强有力数据分析技术 的迫切需求使得数据挖掘技术应运而生。 数据挖掘( D a t aM i n i n g ,D M ) 是一门广义的交叉学科,汇聚了数据库,人工智能、 机器学习、统计学、模式识别、可视化、并行计算和神经网络等不同学科和领域,
19、近年 来受到各界的广泛关注。 聚类分析技术是一种重要的数据挖掘技术1 3 。它识别一个有限种类集合或簇集合, 从而描述数据。通过聚类,人们毹够识别密集的和稀疏的区域,因而发现全局的分布模 式,以及数据属性之间的相互关系。聚类分析技术已经广泛研究了许多年,并应用于诸 多领域中,包括模式识别、数据分析、图像处理等1 4 】。聚类分析技术可以帮助人们更快 地找到所需要的信息,在现实生活中有着重要的意义。 1 2 国内外研究现状 1 2 1 国外研究现状 目前,国外数据挖掘的发展趋势及其研究方法主要是对知识发现( K n o w l e d g e D i s c o v e r yi nD a t
20、a b a s e ,K D D ) 方法的研究。到目前为止,由美国人工智能协会主办的 K D D 国际研讨会已经召开了8 次,规模由原来的专题讨论发展到国际学术大会,研究 重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科 之间的相互渗透。此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊 物也纷纷开辟了K D D 专题或专刊。I E E E 的K n o w l e d g ea n dD a t aE n g i n e e r i n g 会刊率先在 1 9 9 3 年出版了K D D 技术专刊,所发表的5 篇论文代表了当时K D D 研究的最新成果
21、和 动态,较全面的论述了K D D 系统方法论、发现结果的评价、K D D 系统设计的逻辑方法 等。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知 识发现列为专题和专刊讨论。 小波聚类算法的研究及应用 聚类分析作为数据挖掘的一个研究重点,国外已经提出了许多算法,这些算法可分 为4 类:划分方法( P a r t i t i o n i n ga l g o r i t h m s ) ,层次方法( H i e r a r c h i c a la l g o r i t h m s ) ,基 于密度的方法( D e n s i t y - b a s e da l g
22、 o r i t h m s ) 和基于网格的方法( G r i d - b a s e da l g o r i t h m s ) ( 1 ) 划分方法( P a r t i t i o n i n ga l g o r i t h m s ) 划分方法建立一个有N 个对象的数据库,把它划分为K 个簇。一般我们首先以一 个初始划分开始,使用一种迭代控制策略优化目标函数。主要有两个方法;i ) k - 平均方 法,该算法中,每个簇用该簇中对象的重心表示;i i ) k - 中心点算法,该算法中,每个簇 用接近簇中心的一个对象表示。 P A M i s 使用k - 中心点算法识别簇。P A M
23、 首先在n 个对象中随机抽取k 个对象( 选 择对象) 作为聚类中心,将余下的n - k 个对象( 非选择对象) 依据与聚类中心距离或相 异程度最小原则划分到上述k 个聚类中。即如果O ,是未选择对象,D ,是中心点,如果 d ( D ,q ) - - m i n d ( O j ,q ) ,晓中心点集合) ,则D ,属于以q 为中心点的聚类。d ( D ,D f ) 表示D ,与q 对象之间的距离或相异程度。然后,从非选择对象中选择一个对象D 。来与 Q 交换,如果交换导致聚类质量提高,则用q 替换Q 作为中心点。P A M 用对象与整个 数据库作比较来找中心点,因此,它的处理时间很慢,一次
24、循环的时间复杂度为 O ( K ( N 一足) ) 2 ,算法的总时间复杂度是D ( ( 1 + 卢) 足( 一置) ) 2 ,卢是成功交换的次数。 为减少P A I M 算法的运算复杂度,C L A R A ( C l u s t e r i n gL A R g eA p p l i c a t i o n s ) 抽取数据 集的一小部分作为数据的样本,对样本做P A M ,从而找到样本的中心点。如果样本是 以非常随机的方式选取的,它应当足以代表原来的数据集合。C L A R A 的时间复杂度为 O ( K ( s + 置) 2 + K ( N 一置) ) ,其中S 为从n 个对象中随机抽
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 小波聚类 算法 研究 钻研 应用 利用 运用
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内