无监督学习和聚类.pptx
《无监督学习和聚类.pptx》由会员分享,可在线阅读,更多相关《无监督学习和聚类.pptx(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、会计学1无监督学习和聚类无监督学习和聚类7 7 无监督学习和聚类无监督学习和聚类(Unsupervised learning,Clustering)(Unsupervised learning,Clustering)uu监督学习:给定监督学习:给定已知已知类别类别的学习样本,设的学习样本,设计分类器。计分类器。uu非监督学习:给定非监督学习:给定未知未知(未知未知类别类别及及类别数类别数)样本,设计分类器。样本,设计分类器。uu两大类非监督学习:基于两大类非监督学习:基于概率密度函数估概率密度函数估计计的的直接直接方法和基于方法和基于样本间相似性样本间相似性(similarity)(simil
2、arity)度量的度量的间接间接聚类方法。聚类方法。第1页/共61页主要内容主要内容uu 掌握非监督学习方法的概念、用途。uu了解非监督学习方法对数据划分有两种基本方法。uu掌握以k-均值算法,ISODATA算法为代表的动态聚类方法。uu了解层次(分级)聚类方法。第2页/共61页9.1 9.1 9.1 9.1 基本概念基本概念基本概念基本概念uu以前讨论分类器设计方法都是在样本集中的类别已知的条件下进行的,这些样本称为训练样本。统计出各类训练样本不同的描述量,如其概率分布,或在特征空间分布的区域等,利用这些参数进行分类器设计,称为有监督的学习方法。uu未知样本的类别,没有训练样本,因而只能从未
3、知样本类别样本集进行分类器设计,这就是通常说的无监督学习方法。第3页/共61页第4页/共61页第5页/共61页非监督学习与有监督学习方法的区别:非监督学习与有监督学习方法的区别:非监督学习与有监督学习方法的区别:非监督学习与有监督学习方法的区别:uu有监督学习方法必须有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律;而非监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。uu有监督学习方法的目的是识别事物,识别的结果表现在给待识别数据加上了标号。因此训练样本集必须由带标号样本组成;而非监督学习方法只有分析数据集本身,无标号。如果发现数据集呈现某种聚集性,则可按自然的聚集性分
4、类,但不以与某种预先的分类标号为目的。第6页/共61页n n非监督学习方法在寻找数据集中的规律性,这种规律性不是划分数据集的目的,即不一定要“分类”。比如分析数据的主分量,或分析数据集的特点。n n非监督学习方法分析数据集的主分量与用K-L变换计算数据集的主分量又有区别。n nK-LK-L变换不是一种学习方法,不属变换不是一种学习方法,不属于非监督学习方法。于非监督学习方法。n n在人工神经元网络中寻找主分量在人工神经元网络中寻找主分量的方法属于非监督学习方法。的方法属于非监督学习方法。第7页/共61页非监督学习方法可以分成两大类:非监督学习方法可以分成两大类:n n一类为一类为基于概率密度函
5、数基于概率密度函数估计的直接估计的直接方法:方法:设法找到各类别在特征空间的设法找到各类别在特征空间的分布参数再进行分类;分布参数再进行分类;n n一类称为一类称为基于样本间相似性度量基于样本间相似性度量的间的间接聚类方法。其原理接聚类方法。其原理是设法定出不同是设法定出不同类别的核心或初始类核,然后依据样类别的核心或初始类核,然后依据样本与这些核心之间的相似性度量将样本与这些核心之间的相似性度量将样本聚集成不同类别。本聚集成不同类别。第8页/共61页9.2 9.2 9.2 9.2 基于概率密度函数估计的直接方法基于概率密度函数估计的直接方法基于概率密度函数估计的直接方法基于概率密度函数估计的
6、直接方法 uu该方法的关键是找出各个峰值区。uu单峰子类的分离方法(称为投影法)每个分量有无峰谷点表现出来。每个分量有无峰谷点表现出来。利用投影,直接找密集区域。利用投影,直接找密集区域。第9页/共61页n n样本在整个特征空间中呈现两个分布高峰。n n如果从分布的谷点将此特征空间划分为两个区,则对应每个区域,样本分布就只有一个峰值,这些区域被称为单峰区域。n n而每个单峰区域则被看作不同的决策域。落在同一单峰区域的待分类样本就被划分成同一类,称为单峰子类。第10页/共61页第11页/共61页投影法投影法投影法投影法 uu对于样本在某一种度量中的对于样本在某一种度量中的分布统计分布统计,一般称
7、为一般称为直方图统计直方图统计,在样本数量很,在样本数量很大时,又可作为大时,又可作为概率统计的估计概率统计的估计。uu由于这种方法基于将由于这种方法基于将样本样本投影投影到某个到某个坐标轴上,因而称为坐标轴上,因而称为投影方法投影方法。uu使用投影使用投影方法方法有有两个两个组成组成部分部分一个是如何一个是如何设计设计合适的合适的坐标系统坐标系统。另一是如何另一是如何设计设计直方图直方图。第12页/共61页投影法投影法投影法投影法 uu在样本属性完全不知的情况下,如在样本属性完全不知的情况下,如何选择何选择坐标系统坐标系统比较比较困难困难的。目前的。目前还没有一个准则函数来表征这样坐还没有一
8、个准则函数来表征这样坐标系统的性质。标系统的性质。uu一种一种启发式的启发式的办法是使待分类的样办法是使待分类的样本在本在某个坐标轴方向某个坐标轴方向具有具有最大最大的的分分散性散性,采用上一章讨论过的,采用上一章讨论过的K-LK-L变变换换方法。方法。第13页/共61页投影法投影法投影法投影法 uu用用混合样本协方差矩阵混合样本协方差矩阵作为作为K-LK-L变换的变换的产生矩阵,找到其特征值,并按大小产生矩阵,找到其特征值,并按大小排序。排序。uu对应最大特征值的对应最大特征值的特征向量特征向量对此混合对此混合样本来说,样本来说,离散程度离散程度最大,预期能发最大,预期能发现明显的峰值,但是
9、这种方法并现明显的峰值,但是这种方法并不能不能保证保证分出各个聚类。分出各个聚类。第14页/共61页第15页/共61页投影法算法步骤:投影法算法步骤:投影法算法步骤:投影法算法步骤:uu计算样本协方差矩阵具有最大特征值的特征向量uj,把数据投影到 uj轴上。uu用直方图方法求数据的边缘概率密度函数。uu在直方图的峰值间求最小值,在这些最小点作垂直于uj的各个超平面把数据划分为若干个聚类。uu 如果在轴上没有这样的最小值,则用下一个最大特征值对应的特征向量重复以上过程。uu 对每个得到的子集(聚类)重复上述过程,直到每个集不能再分(为单峰)为止。第16页/共61页灰度图像二值化算法灰度图像二值化
10、算法n n灰度图像阈值:取主值,使J(k)最大时的K值第17页/共61页单峰子集分离的迭代单峰子集分离的迭代算法算法uu把样本集把样本集K KN N=x=xi i 分成分成c c个不相交子集个不相交子集K Ki i。用。用这样的一个划分可用这样的一个划分可用ParzenParzen方法估计各类方法估计各类的概率密度函数:的概率密度函数:uu聚类准则:即理想的划分应使下式最大聚类准则:即理想的划分应使下式最大第18页/共61页迭代算法步迭代算法步骤骤1.1.对数据集进行初始划分:K1,K2,Kc2.2.用Parzen方法估计各聚类的概率密度函数3.3.按照最大似然概率逐个对样本xk k进行分类:
11、4.4.若没有数据点发生类别迁移变化,则停止。否则转2第19页/共61页9.3 类别分离的间接方法类别分离的间接方法n n两个要点:相似性度量,准则函数n相似性度量n n样本间相似性度量样本间相似性度量:特征空间的某种距离特征空间的某种距离度量度量n样本与样本聚类间相似性度量第20页/共61页准则函数准则函数n n准则函数:聚类质量的判别标准,常用的最小误差平方和准则uu目标目标:类内元素相似性高,类间元素相似性类内元素相似性高,类间元素相似性低低第21页/共61页聚类方法聚类方法聚类方法聚类方法 uu按按相相似似度度进进行行划划分分的的方方法法,原原理理很很简简单单。如如果果把把相相似似度度
12、表表示示成成在在特特征征空空间间中中的的某某种种距距离离度度量量,这这种种方方法法又又称称为为基基于于距距离离度度量量的的方方法法。与与前前一一种种方方法法相相比比,它它不不是是以以计计算算密密度度程程度度为为依依据据的的,因因此此这这是是这这两两种种方方法的主要区别。法的主要区别。uu不通过对概率密度函数作出估计而直接按不通过对概率密度函数作出估计而直接按样本间的相似性,或彼此间在特征空间中样本间的相似性,或彼此间在特征空间中的的距离长短距离长短进行分类,这种方法称为进行分类,这种方法称为聚类聚类方法。方法。第22页/共61页聚类方法聚类方法聚类方法聚类方法 uu如如何何聚聚类类则则取取决决
13、于于聚聚类类的的准准则则函函数数,以便某种聚类准则达到以便某种聚类准则达到极值极值为最佳。为最佳。uu有有两两种种对对数数据据集集进进行行聚聚类类的的方方法法:迭迭代代的的动动态态聚聚类类算算法法和和非非迭迭代代的的分分级聚类级聚类算法。算法。第23页/共61页第24页/共61页9.3.1 9.3.1 9.3.1 9.3.1 动态聚类方法动态聚类方法动态聚类方法动态聚类方法 uu动动态态聚聚类类方方法法的的任任务务是是将将数数据据集集划划分分成一定数量的子集。成一定数量的子集。uu要解决的问题是要解决的问题是:1 1怎怎样样才才能能知知道道该该数数据据集集应应该该划划分的子集分的子集数目数目2
14、 2若若划划分分数数目目已已定定,则则又又如如何何找找到到最佳划分最佳划分。第25页/共61页9.3.1 9.3.1 9.3.1 9.3.1 动态聚类方法动态聚类方法动态聚类方法动态聚类方法 uu因因为为数数据据集集可可以以有有许许多多种种不不同同的的划划分分方方法法,需需要要对对不不同同的的划划分分作作出出评评价价,并并找找到到优化优化的划分结果。的划分结果。uu由由于于优优化化过过程程是是从从”不不合合理理的的”划划分分到到“最最佳佳”划划分分,是是一一个个动动态态的的迭迭代代过过程程,故这种方法称为故这种方法称为动态聚类方法动态聚类方法。uu先先讨讨论论子子集集数数目目已已知知条条件件下
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 监督 学习
限制150内