机器学习及其Python实践 (5).pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《机器学习及其Python实践 (5).pdf》由会员分享,可在线阅读,更多相关《机器学习及其Python实践 (5).pdf(44页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、机器学习及其Python实践第5章 聚类问题第5章 聚类问题 聚类(clustering)是一种特殊的分类问题 分类分类是根据有标注数据集来训练模型,学习人们预先设定的类别概念,属于有监督学习 聚类聚类则是根据无标注数据集训练模型,即根据数据自身的分布特性或结构,自动将数据聚集成簇簇(cluster),形成类别概念,它属于无监督学习第5章 聚类问题 给定无标注数据集 设计聚类算法训练模型,将数据集D划分成k个不相交的簇 今后任给新的样本特征,也可以通过聚类模型将其划归某一类簇=1,2,=1,且若 ,则=.5.1 聚类问题的提出 分类问题 聚类问题 为便于后续讲解,这里对概率符号做一下简化,将离
2、散型概率分布 =或连续型概率密度 统一记作 =,=,,|=|.=,,=,,=|.=,;,;,;.5.1 聚类问题的提出 分类问题5.1 聚类问题的提出 分类问题5.1 聚类问题的提出 聚类问题 数据集只包含各样本点分类特征,其对应的类别标注未知,我们称分类特征是可观测可观测的变量 类别则是不可观测的变量(隐变量隐变量,hidden variable;或潜变量,latent variable)=1,1,2,2,=1,2,;,阚道宏5.1 聚类问题的提出 聚类问题 数据集只包含各样本点分类特征,其对应的类别标注未知,我们称分类特征是可观测可观测的变量 类别则是不可观测的变量(隐变量隐变量,hidd
3、en variable;或潜变量,latent variable)=1,1,2,2,=1,2,;,5.1 聚类问题的提出 聚类问题 数据集只包含各样本点分类特征,其对应的类别标注未知,我们称分类特征是可观测可观测的变量 类别则是不可观测的变量(隐变量隐变量,hidden variable;或潜变量,latent variable)=1,1,2,2,=1,2,;,5.1 聚类问题的提出 混合概率模型及其参数估计问题含隐变量的最优化问题:EM算法5.2 EM算法 EM算法是一种迭代算法,主要用于求解含含隐变量隐变量的最优化问题 任给初始参数0,EM算法的关键步骤是:第次迭代时如何将参数从1更新到,
4、使得对数似然函数ln =ln;的函数值逐步上升ln ln 1阚道宏5.2 EM算法 问题描述5.2 EM算法 算法准备:Jensen不等式阚道宏5.2 EM算法 任给初始参数0,迭代更新参数ln ln 1=1=1.(5 19)=argmax,1.5 26=,ln=max,1.(5 27)5.2 EM算法=argmax,1.5 26=,ln=max,1.(5 27)5.2 EM算法阚道宏5.2 EM算法 EM算法步骤阚道宏5.2 EM算法 高斯混合模型(Gaussian Mixture Model,简称GMM)5.2 EM算法 高斯混合模型(Gaussian Mixture Model,简称GM
5、M)记=,,首先选择初始参数0=0,0,然后迭代执行EM算法的E步和M步。5.2 EM算法 高斯混合模型参数估计算法,1=1=1|;1ln,;.(5 44)|;1,1=1=1ln+ln1212ln2122 2.=1=1,2=1 2=1,=1=1,=1,2,.阚道宏5.2 EM算法 三硬币模型阚道宏5.2 EM算法 三硬币模型;=1;=01 1 ;=+1 0;=01 0 0;=1 +1 1 .=1,2,ln =ln=1;=1ln;.EM算法5.3 均值聚类与基于概率模型的聚类方法不同,均值聚类(-means clustering)是一种基于距离的聚类方法,其中表示类别的个数假设有个类,每个类有一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器学习及其Python实践 5 机器 学习 及其 Python 实践
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内