模式识别与人工智能之五PPT教案.pptx
《模式识别与人工智能之五PPT教案.pptx》由会员分享,可在线阅读,更多相关《模式识别与人工智能之五PPT教案.pptx(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、模式识别模式识别(m sh sh bi)与人工智能之与人工智能之五五第一页,共52页。聚类的定义聚类的定义聚类算法聚类算法(sun f)(sun f)分类分类典型聚类算法典型聚类算法(sun f)(sun f)讲解讲解第1页/共52页第二页,共52页。聚类的定义聚类的定义(dngy)(dngy)典型的非监督(jind)式机器学习数据类别不被事先标识通过学习模型推断出数据的一些内在结构,进而进行聚类。第3页/共52页第四页,共52页。聚类算法聚类算法(sun f)(sun f)分类分类第4页/共52页第五页,共52页。聚类算法聚类算法(sun(sun f)f)分类分类划分方法:首先得到初始的划分
2、方法:首先得到初始的K个划分的集合。如个划分的集合。如K-平均、平均、K-中心点、中心点、CLARANS以及对它们的改进。以及对它们的改进。层次方法:创建给定数据对象集合的一个层次性的分解。根据层次分解层次方法:创建给定数据对象集合的一个层次性的分解。根据层次分解的过程的过程(guchng)可以分为凝聚(自底向上)或分裂(自顶向下)。可以分为凝聚(自底向上)或分裂(自顶向下)。基于密度的方法:根据密度的概念来聚类对象,如基于密度的方法:根据密度的概念来聚类对象,如DBSCAN、DENCLUE、OPTICS。第5页/共52页第六页,共52页。聚类算法聚类算法(sun(sun f)f)分类分类基于
3、网格的方法:首先将对象空间量化为有限数目基于网格的方法:首先将对象空间量化为有限数目(shm)的单元,形成网格结构,然后在网格结构上进行聚类,如的单元,形成网格结构,然后在网格结构上进行聚类,如STING、CLIQUE、WaveCluster。基于模型的方法:为每个簇假设一个模型,发现数据对模型基于模型的方法:为每个簇假设一个模型,发现数据对模型的最好匹配,如的最好匹配,如COBWEB、CLASSIT,GCM,AutoClass,SOM。基于降维的方法:如基于降维的方法:如Spectral clustering,Ncut等等第6页/共52页第七页,共52页。聚类算法聚类算法(sun(sun f
4、)f)分类分类类别类别算法算法分裂/划分方法K-MEANS(K-平均)、K-MEDOIDS算法(K-中心点)、CLARANS算法(基于选择的方法)层次法BIRCH算法(平衡迭代规约和聚类)、CURE算法(代表聚类)、CHAMELEON算法(动态模型)基于密度的方法DBSCAN算法(基于高密度连接区域)、OPTICS算法(对象排序识别)、DENCURE算法(密度分布函数)基于网格的方法STING算法(统计信息网格)、CLIQUE算法(聚类高维空间)、WAVE-CLUSTER算法(小波变换)基于模型的方法统计学方法、神经网络方法基于降维的方法Spectral clusteringSpectral
5、clustering,NcutNcut第7页/共52页第八页,共52页。典型聚类算法讲解典型聚类算法讲解 -基于划分的聚类算法基于划分的聚类算法第8页/共52页第九页,共52页。划分(hu fn)聚类法 K-meansSummary:k-means是采用均值算法把数据分成K个类的算法!Q1Q1:k k是什么?是什么?A1A1:k k是聚类算法当中类的个数。是聚类算法当中类的个数。Q2Q2:meansmeans是什么?是什么?A2A2:meansmeans是均值算法。是均值算法。第9页/共52页第十页,共52页。k-meansk-meansk-meansk-means算法,亦称算法,亦称算法,亦
6、称算法,亦称k-k-k-k-均值或均值或均值或均值或k-k-k-k-平均,是一种基于质心的启发平均,是一种基于质心的启发平均,是一种基于质心的启发平均,是一种基于质心的启发式聚类算法。式聚类算法。式聚类算法。式聚类算法。基本思想:通过迭代把数据集划分为不同的类别(或称簇),基本思想:通过迭代把数据集划分为不同的类别(或称簇),基本思想:通过迭代把数据集划分为不同的类别(或称簇),基本思想:通过迭代把数据集划分为不同的类别(或称簇),使得评价聚类性能的准则函数达到最优,使得每个聚类类内紧使得评价聚类性能的准则函数达到最优,使得每个聚类类内紧使得评价聚类性能的准则函数达到最优,使得每个聚类类内紧使
7、得评价聚类性能的准则函数达到最优,使得每个聚类类内紧凑,类间独立。凑,类间独立。凑,类间独立。凑,类间独立。对于连续型属性对于连续型属性对于连续型属性对于连续型属性(shxng)(shxng)(shxng)(shxng)具有较好的聚类效果,不适合处理具有较好的聚类效果,不适合处理具有较好的聚类效果,不适合处理具有较好的聚类效果,不适合处理离散型属性离散型属性离散型属性离散型属性(shxng)(shxng)(shxng)(shxng)。划分(hu fn)聚类法 K-means算法算法(sun f)概述概述第10页/共52页第十一页,共52页。平方误差和准则函数 即SSE(sum of the s
8、quared error)SSE是数据库中所有对象的平方误差总和(zngh),其中 为数据对象;为簇 的平均值。这个准则函数使得生成的簇尽可能的紧凑和独立。划分(hu fn)聚类法 K-means准则准则(zhnz)函数函数第11页/共52页第十二页,共52页。1.随机抽取k个点作为初始聚类的中心,由各中心代表各聚类2.计算所有点到这k个中心的距离,并将点归到离其最近的聚类3.调整聚类中心,即将聚类的中心移动到聚类的几何中心(即平均值)4.重复第2、3步直到聚类的中心不再移动,此时算法收敛划分(hu fn)聚类法 K-means算法算法(sun f)流程流程第12页/共52页第十三页,共52页
9、。迭代计算迭代计算中心点中心点收敛!收敛!选择初始中心点选择初始中心点各点划分进最近聚类各点划分进最近聚类调整聚类中心调整聚类中心划分(hu fn)聚类法 K-meansSimple Example第13页/共52页第十四页,共52页。Step 1从数据集中任意选择从数据集中任意选择k k个对象个对象C C1 1,C,C2 2,C,Ck k作为作为初始的簇中心;初始的簇中心;Step2把每个对象分配到与之最相似的聚合。每个把每个对象分配到与之最相似的聚合。每个聚合用其中所有对象的均值来代表,聚合用其中所有对象的均值来代表,“最相最相似似”就是指距离最小。对于每个点就是指距离最小。对于每个点V
10、Vi i,找出,找出一个质心一个质心C Cj j,使它们之间的距离,使它们之间的距离d(d(V Vi i,C Cj j)最小,最小,并把并把V Vi i分到第分到第j j组。组。Step3把所有的点分配到相应的簇之后,重新计算每个组的质把所有的点分配到相应的簇之后,重新计算每个组的质心心C Cj j 。Step4Step4循环执行循环执行Step2Step2和和step3step3,直到数据的划分不再发生变化,直到数据的划分不再发生变化划分(hu fn)聚类法 K-means算法实现算法实现(shxin)的具体流程的具体流程第14页/共52页第十五页,共52页。初始初始中心点中心点输入数据输入
11、数据及及k k值的值的选择选择距离距离度量度量FactorsFactors影响影响(yngxing)(yngxing)聚类聚类效果!效果!一般采用欧氏距离、曼哈顿距离或者(huzh)名考斯距离的一种,作为样本间的相似性度量划分(hu fn)聚类法 K-means算法特点:影响主要因素算法特点:影响主要因素第15页/共52页第十六页,共52页。划分(hu fn)聚类法 K-means不足:不足:k-means算法只有在簇的平均值被定义的情况下才能使用。算法只有在簇的平均值被定义的情况下才能使用。k-means算法的不足之处在于它要多次扫描数据库。算法的不足之处在于它要多次扫描数据库。k-mean
12、s算法只能找出球形的类,而不能发现任意形状的类。算法只能找出球形的类,而不能发现任意形状的类。初始质心的选择对聚类结果有较大的影响。初始质心的选择对聚类结果有较大的影响。k-means算法对于噪声和孤立点数据是敏感的,少量算法对于噪声和孤立点数据是敏感的,少量(sholing)的该类数据能够对平均值产生极大的影响。的该类数据能够对平均值产生极大的影响。第16页/共52页第十七页,共52页。问题描述:如图所示,一只遥望大海的小狗。此图为100100像素(xin s)的JPG图片,每个像素(xin s)可以表示为三维向量(分别对应红绿蓝三基色)。要求使用k-means算法,将图片分割为合适的背景区
13、域(三个)和前景区域(小狗)。划分(hu fn)聚类法 K-means应用应用(yngyng)实例实例第17页/共52页第十八页,共52页。MatlabMatlab程序实现程序实现程序实现程序实现function M,j,e=kmeans(X,K,Max_Its)N,D=size(X);I=randperm(N);M=X(I(1:K),:);Mo=M;for n=1:Max_Its for k=1:K Dist(:,k)=sum(X-repmat(M(k,:),N,1).2,2);end i,j=min(Dist,2);for k=1:K if size(find(j=k)0 M(k,:)=m
14、ean(X(find(j=k),:);end end划分(hu fn)聚类法 K-means第18页/共52页第十九页,共52页。Z=zeros(N,K);for m=1:N Z(m,j(m)=1;end e=sum(sum(Z.*Dist)./N);fprintf(%d Error=%fn,n,e);Mo=M;endMatlabMatlab程序实现(续)程序实现(续)程序实现(续)程序实现(续)划分(hu fn)聚类法 K-means第19页/共52页第二十页,共52页。close all;clear all;clc;C_Segments=5;img_original=imread(dog.
15、png);%读入图像读入图像figure,imshow(img_original),title(原始图像原始图像);%显示原图像显示原图像m,n,depth=size(img_original);%获取图像的长宽获取图像的长宽%将图像进行将图像进行RGB3通道分解通道分解%将将RGB分量各转为分量各转为kmeans使用的数据格式使用的数据格式n行,一样本行,一样本A=reshape(img_original(:,:,1),m*n,1);B=reshape(img_original(:,:,2),m*n,1);C=reshape(img_original(:,:,3),m*n,1);dat=A
16、B C;%r g b分量组成分量组成(z chn)样本的特征,每个样本有三个属性样本的特征,每个样本有三个属性值,共值,共width*height个样本个样本cRGB=kmeans(double(dat),C_Segments,20);rRGB=reshape(cRGB,m,n);%反向转化为图片形式反向转化为图片形式figure,imshow(label2rgb(rRGB),),title(分类结果分类结果);%显示分割结果显示分割结果划分(hu fn)聚类法 K-means第20页/共52页第二十一页,共52页。分割分割(fng)(fng)后的效果后的效果应用应用(yngyng)实例实例划
17、分(hu fn)聚类法 K-means第21页/共52页第二十二页,共52页。划分(hu fn)聚类法 K-means应用应用(yngyng)实例实例注:聚类中心(zhngxn)个数为5,最大迭代次数为10。第22页/共52页第二十三页,共52页。思路思路思路思路将聚将聚将聚将聚类问题类问题中的中的中的中的类类定定定定义为义为模糊集合模糊集合模糊集合模糊集合(jh)(jh),用模糊集的,用模糊集的,用模糊集的,用模糊集的隶属度函数定量描述隶属度函数定量描述隶属度函数定量描述隶属度函数定量描述样样本点与本点与本点与本点与类类之之之之间间的从属关系,并通的从属关系,并通的从属关系,并通的从属关系,
18、并通过寻过寻找使目找使目找使目找使目标标函数最小化的隶属度函数,函数最小化的隶属度函数,函数最小化的隶属度函数,函数最小化的隶属度函数,实现实现聚聚聚聚类类。算法关算法关算法关算法关键键点点点点隶属度函数的数学定隶属度函数的数学定隶属度函数的数学定隶属度函数的数学定义义模糊模糊模糊模糊类类中心的更新中心的更新中心的更新中心的更新划分聚类法 模糊(m hu)C均值聚类 fuzzy c-means第23页/共52页第二十四页,共52页。变变量定量定量定量定义义数据集数据集数据集数据集X=x1,x2,xnX=x1,x2,xnc c个模糊个模糊个模糊个模糊(m hu)(m hu)类类样样本本本本xkx
19、k对对第第第第i i类类的模糊的模糊的模糊的模糊(m hu)(m hu)隶属度隶属度隶属度隶属度为为uikuik,满满足条件足条件足条件足条件隶属度矩隶属度矩隶属度矩隶属度矩阵阵U=uik U=uik 第第第第i i类类的的的的类类中心中心中心中心为为vivi聚聚聚聚类类中心矩中心矩中心矩中心矩阵为阵为V=v1,v2,vcV=v1,v2,vc建立基于隶属度矩建立基于隶属度矩建立基于隶属度矩建立基于隶属度矩阵阵U U和聚和聚和聚和聚类类中心矩中心矩中心矩中心矩阵阵V V的目的目的目的目标标函数函数函数函数Jm(U,V)Jm(U,V)划分(hu fn)聚类法 模糊C均值聚类 fuzzy c mea
20、ns第24页/共52页第二十五页,共52页。目目目目标标函数函数函数函数(hnsh)(hnsh)最小化求解最小化求解最小化求解最小化求解划分聚类法 模糊(m hu)C均值聚类 fuzzy c means这里这里m1,是隶属度的加权指数是隶属度的加权指数;为第为第i个聚类中心与第个聚类中心与第k个数据个数据(shj)样本之间的欧几里得距离样本之间的欧几里得距离;限定条件:限定条件:最小化上述函数可以用拉格朗日乘子法求解最小化上述函数可以用拉格朗日乘子法求解第25页/共52页第二十六页,共52页。目目目目标标函数最小化求解函数最小化求解函数最小化求解函数最小化求解(qi ji)(qi ji)对对上
21、式上式上式上式进进行求行求行求行求导导,使其达到最小的必要条件,使其达到最小的必要条件,使其达到最小的必要条件,使其达到最小的必要条件为为:划分聚类法 模糊(m hu)C均值聚类 fuzzy c means公式公式(gngsh)(1)公式(公式(2)第26页/共52页第二十七页,共52页。模糊模糊模糊模糊C C均均均均值值(jn zh)(jn zh)聚聚聚聚类类算法具体步算法具体步算法具体步算法具体步骤骤划分(hu fn)聚类法 模糊C均值聚类 fuzzy c-means(FCM)1.确定聚类类别数目确定聚类类别数目c、加权指标、加权指标m,用,用01的的随机值初始化隶属矩阵随机值初始化隶属矩
22、阵U(0),并满足,并满足2.令迭代次数为令迭代次数为b,b=0,1,2bmax3.根据公式(根据公式(2)计算各个类的中心)计算各个类的中心Vi(b);4.根据公式(根据公式(1)更新)更新U(b)为为U(b+1);5.比较比较U(b)和和U(b+1)之间的差别,如果之间的差别,如果 或者迭代达到最大次数,则聚类结束;否或者迭代达到最大次数,则聚类结束;否则,置则,置b=b+1并返回第并返回第3步。步。第27页/共52页第二十八页,共52页。划分聚类法 模糊(m hu)C均值聚类 fuzzy c meansMATLAB中提供了FCM函数:center,U,obj_fcn=fcm(data,c
23、luster_n,options);%输入:%data -nxm矩阵(j zhn),表示n个样本,每个样本具有m的维特征值%N_cluster -标量,表示聚合中心数目,即类别数%options -4x1矩阵(j zhn),其中%options(1):隶属度矩阵(j zhn)U的指数,1 (缺省值:2.0)%options(2):最大迭代次数 (缺省值:100)%options(3):隶属度最小变化量,迭代终止条件 (缺省值:1e-5)%options(4):每次迭代是否输出信息标志 (缺省值:1)%输出:%center -聚类中心%U -隶属度矩阵(j zhn)%obj_fcn -目标函数值
24、第28页/共52页第二十九页,共52页。划分(hu fn)聚类法 模糊C均值聚类 fuzzy c means应用应用(yngyng)实例实例close all;clear all;clc;C_Segments=4;img_original=imread(pepper.png);%读入图像读入图像figure,imshow(img_original),title(原始图像原始图像);%显示原图像显示原图像m,n,p=size(img_original);%获取图像的长宽获取图像的长宽%将图像进行将图像进行RGB3通道分解通道分解%将将RGB分量各转为分量各转为kmeans使用使用(shyng)的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 人工智能 PPT 教案
限制150内