无监督学习与聚类.ppt
《无监督学习与聚类.ppt》由会员分享,可在线阅读,更多相关《无监督学习与聚类.ppt(38页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、无监督学习与聚类无监督学习与聚类现在学习的是第1页,共38页10.0 监督学习与无监督学习监督学习与无监督学习n监督学习与无监督学习的监督学习与无监督学习的最大区别最大区别在于训练样本在于训练样本是否有类别标号,无类别标号的称为无监督学习;是否有类别标号,无类别标号的称为无监督学习;n监督学习与无监督学习也被称为有教师学习与无监督学习与无监督学习也被称为有教师学习与无教师学习。教师学习。现在学习的是第2页,共38页10.1 混合密度及可辨识性混合密度及可辨识性n从理论上讲,无监督学习可以看作是一个从理论上讲,无监督学习可以看作是一个混合混合密度的估计密度的估计问题:问题:1.所有样本都来自于所
2、有样本都来自于c种类别,种类别,c已知;已知;2.每种类别的先验概率每种类别的先验概率 已知;已知;3.类条件概率的数学形式已知类条件概率的数学形式已知 ,但参数,但参数 未知;未知;4.样本类别未被标记。样本类别未被标记。现在学习的是第3页,共38页混合密度混合密度n样本可以看作是按如下方式产生的:先以概率样本可以看作是按如下方式产生的:先以概率 决定其所属类别决定其所属类别 ,然后根据概率密度,然后根据概率密度 生成一个具体的样本生成一个具体的样本x。n因此因此x样本的产生概率为:样本的产生概率为:现在学习的是第4页,共38页可辨识性可辨识性n不可辨识不可辨识:如果无论样本的数目有多少,都
3、不:如果无论样本的数目有多少,都不存在唯一的解存在唯一的解 ,则称密度,则称密度 是不可辨识是不可辨识的;的;n完全不可辨识完全不可辨识:如果参数:如果参数 的任何部分都无法的任何部分都无法求出,则称为完全不可辨识;求出,则称为完全不可辨识;n大多数的混合密度是可以辨识的,但也存在某大多数的混合密度是可以辨识的,但也存在某些混合密度是无法辨识的。些混合密度是无法辨识的。现在学习的是第5页,共38页完全不可辨识完全不可辨识n假设样本假设样本x的概率是由两个的概率是由两个0-1分布混合而成,两分布混合而成,两个分布的先验概率相等,参数分别为个分布的先验概率相等,参数分别为 则混则混合概率为:合概率
4、为:n即使可以统计出即使可以统计出 ,也也无法求解出参数无法求解出参数 。现在学习的是第6页,共38页部分不可辨识部分不可辨识n假设样本假设样本x的概率密度是两个均匀分布的混合:的概率密度是两个均匀分布的混合:n如果训练样本是如果训练样本是0-1之间的均匀分布:之间的均匀分布:n则对任意的则对任意的0t1为控制不同类别混合程度为控制不同类别混合程度的自由参数。的自由参数。现在学习的是第15页,共38页模糊模糊k-均值聚类算法均值聚类算法1.begin initialize n,c,b,m1,mc;2.do 计算计算n个样本对个样本对c个类别的隶属度:个类别的隶属度:3.重新计算各个聚类的均值重
5、新计算各个聚类的均值m1,mc;4.until m1,mc变化很小;变化很小;5.return m1,mc。现在学习的是第16页,共38页10.4 层次聚类层次聚类1.begin initialize c,cn,Dixi,i=1,n;2.do cc-13.求最接近的聚类,如求最接近的聚类,如Di和和Dj;4.合并合并Di和和Dj;5.until c=c;6.return c个聚类个聚类;7.end现在学习的是第17页,共38页层次聚类的树图层次聚类的树图相相似似度度标标尺尺现在学习的是第18页,共38页层次聚类的特点层次聚类的特点n层次聚类不用初始化聚类中心,因此聚类结果不受层次聚类不用初始化
6、聚类中心,因此聚类结果不受初初始聚类中心始聚类中心的影响;的影响;n需要定义类别之间的相似性度量;需要定义类别之间的相似性度量;n当样本数比较多时,算法的计算量比较大(算法第当样本数比较多时,算法的计算量比较大(算法第3步)。步)。n聚类结果同样是对平方误差准则函数的聚类结果同样是对平方误差准则函数的贪心优化贪心优化结果。结果。现在学习的是第19页,共38页聚类算法存在的问题(一)聚类算法存在的问题(一)n准则函数的选择准则函数的选择平方误差准则平方误差准则Je比较大比较大平方误差准则平方误差准则Je比较小比较小现在学习的是第20页,共38页聚类算法存在的问题(二)聚类算法存在的问题(二)n特
7、征量纲的影响(缩放坐标轴)特征量纲的影响(缩放坐标轴)现在学习的是第21页,共38页10.5 竞争学习竞争学习nHebb假设假设:如果一条突触两侧的神经元同时被激活,则该突:如果一条突触两侧的神经元同时被激活,则该突触的强度将会增大;触的强度将会增大;nHebb学习规则学习规则:第:第i个神经元与第个神经元与第j个神经元之间的连接个神经元之间的连接wij,第,第i个神经元向第个神经元向第j个神经元的输出为个神经元的输出为p,第,第j个神经元的输个神经元的输出为出为a,则:,则:其中其中为学习率。为学习率。现在学习的是第22页,共38页竞争网络竞争网络n样本的特征维数为样本的特征维数为d,输入层
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 监督 学习
限制150内