第六章-聚类分析优秀PPT.ppt
《第六章-聚类分析优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第六章-聚类分析优秀PPT.ppt(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、u聚类分析是依据样本间关联的量度标准将其自动分成几个群组,且使同一群组内的样本相像,而属于不同群组的样本相异的一组方法。聚类分析的一个附加的结果是对每个类的综合描述,这种结果对于更进一步深化分析数据集的特征是尤其重要。6.1 聚类概念uu聚类的样本是用度量指标的一个向量表示,或更正式的说法是,用多维空间的一个点来表示。同类中的样本比属于不同类的样本彼此具有更高的相像性。聚类方法尤其适合用来探讨样本间的相互关联关系从而对一个样本结构做一个初步的评价。人们能够对一维、二维或三维的样本进行聚类分析,但是大多数现实问题涉及到更高维的聚类。uu例如:下表是一个简洁聚类例子,包含了9个顾客的信息,分三类,
2、两个特征值(数量,价格)uu类1:购少量高价商品,类2:购大量的高价品,类3:购小量的低价商品。uu聚类是一个特别难的问题,因为在一个n维的样本空间数据可以以不同的形态和大小揭示类。uu下面基于欧几里得二维空间的聚类过程的一个示例。uu上面数据可以分类三个类也可以分为四个类,类的数量的随意性是聚类过程中的主要问题。uu另一方面,上面的类是能够干脆视察到的。对于高维欧几里得空间里的一组点,就无法从视觉上视察到。uu 聚类分析输入可以用一组有序数对(X,s)或(X,d)表示。聚类系统的输出是一个分区=G1,G2,GN,其中Gk(k=1,N)是X的子集。uuG1,G2,GN称为类,每一个类用一些特征
3、描述。聚类结果是类和它的特征或描述。uu规范化的描述有以下几种图式:uu 1.通过它们的重心或类中关系远的(边界)点表示n维空间的一类点。uu 2.运用聚类树中节点图形化地表示一个类。uu 3.运用样本属性的逻辑表达式表示类。uu现有的用于数据挖掘的聚类方法分为四类:分割法,分层法,密度法和网格法。uu分割聚类法一般是通过优化一个评价函数把数据分割成K个部分,主要有两种方法:K-means聚类法和K-medoid聚类法.K-means法在处理海量数据库方面很有效,特殊是对数值属性处理。K-prototypes是结合K-means和K-modiod的优点,可以同时处理数值与符号属性和聚类法uu分
4、层聚类法是由不同层次的分割聚类组成,层次之间的分割具有嵌套关系。分层聚类法不必事先输入聚类块数K,基于模糊相像关系的模糊聚类属于这种聚类法。uu密度聚类法是利用数据密度函数进行聚类。uu网格聚法利用空间量子化方法把数据分到有限个单元进行聚类,这种方法效率高,与数据大小无关,仅与单元数有关。uu值得留意的是:没有哪一种聚类技术对揭示多维数据集中的构造种类是普遍适用的。运用者对问题的理解和与其相应的数据类型是选择合适方法的最好标准,大多数聚类算法基于下面两种常见方法:uu1.层次聚类uu 2.迭代的平方误差分区聚类uu层次方法按群组的嵌套依次组织数据,以树状图或树形结构来表示。uu平方误差分区算法
5、试图得到一个使类内分散最小而类间分散最大的分区。它是非层次的。6.2 相像度的度量uu为了规范化相像度的度量标准,我们有如下约定:在样本空间的聚类算法中,用一个数据向量表示一个样本x(或特征向量,视察值)。假定每一个样本xi,i=1,n都用向量xi=xi1,xi2,xim来表示,m的值是样本的维数(特征),n是一个样本数。uu假如某个样本xi的单个重量xij是一个特征或属性值,那么每一组成xij,j=1,.,m是一个域Pj。则每一个特征的值的取值范围。uuPj可以是二元类型,整型,实数,或某一特征的一组分类。例如Pj是一组颜色:Pj=白,黑,红,蓝,绿。uu由于相像度是定义一个聚类的基础,因此
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六 聚类分析 优秀 PPT
限制150内