EM算法讲解.ppt





《EM算法讲解.ppt》由会员分享,可在线阅读,更多相关《EM算法讲解.ppt(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、提纲1、EM vs K-means2、问题描述3、极大似然估计介绍4、隐藏变量5、EM算法框架6、举例和应用7、实验1、EM vs K-meansK-means:1.数据分为K个簇,随机选取簇中心2.计算每个点到各个簇中心距离dik3.依据dik做决策,划分点的类别4.重新调整簇中心,迭代24步直到收敛。EM:1.数据来自K各未知分布,对分布的参数随机赋值2.计算每一个点来自于各个分布的期望Eik3.根据期望调整分布模型的参数,使得似然最大化。迭代23步直到收敛。Eik 可以作为聚类时候决策的依据2、问题描述假设给定一个样本集D=x1,x2,x3.xn且知道这个样本集是由K个未知模型产生的数据
2、。我们需要通过这个样本集去分别估计这K个概率模型的参数K (K=1,2,3.)使得这K个概率模型产生数据集D的概率最大。2、问题示意图模型参数?数据类别?3、极大似然估计思想你同学与一位猎人一起外出打猎,一只野兔从前方窜过只听一声枪响,野兔应声到下,如果要你推测,这一发命中的子弹是谁打的?这时你会想,这个人一枪就能打中兔子,由于猎人命中的概率大于你的同学,所以打中兔子的应该是猎人。也就是说这时候命中的概率应该属于猎人的概率。极大似然估计的思想:对于已经发生的事情,我们认为产生这个结果所对应的概率应该是最大的。)|(1iipn)|()(1iipLn3、极大似然估计a.设总体X是离散型随机变量,其
3、概率函数为 P(X|) ,其中 是未知参数若已知样本取值为x1,x2,x3.xn则事件X1 = x1 , X2 = x2,Xn = xn 发生的概率为 :b.直观上来说既然样本出现则概率表达式也就是似然函数表示的概率应该较大。c.所以我们只要求得使上述表达式最大的就是我们要的最接近真实值的 。通常对函数求偏导得到极大值。 Kjj11(1) KjijjixfDP1)()|x( (2) KjjjKniiXifDXPDXP11j1k)()|()|( 3、简化的原问题b.由于我们假设对象时独立地产生,因此对于n个对象数据的数据集D由联合概率a.假设K个分布集合为Z密度函数分别为f1,f2fk,而观察数
4、据X由他们产生的概率为1, 2, k.则观察数据Xi由分布集合Z产生的概率为(3)(4) KjjjiXifDP1)()|x( KjjjjxipxiP1)|()|( nikjijjxfDXP11)()|( nikjijjxPXP11j)|()|( 假设这K个分布Z的参数集合=1,2 K则由上述公式推出:Kjj11其中:3、简化的原问题 01ikZ数据数据Xi来自第来自第K个分布个分布数据数据Xi不是来自第不是来自第K个分布个分布K=1,2,3. i=1,2,3.4、隐藏变量Zik如果我们知道我们观察到的每一个数据x属于哪一个模型,求模型的参数并不难。而现实往往是:我们不知道X来自哪一个分布,我们
5、只能对每一个观测数据都引入隐藏变量此时我们的观察量不仅是X=x1,x2.xn而是:(x1,z11),(x1,z12).(x1,z1k);(x2,z21).(x2,z2k);我们的任务是使得该似然函数的表达式取得最大值得到对应的参数集合 nikjijjxPZDP11j)|(),|( 4、隐藏变量ZikKjj11其中:jkzKkNjkjkNjjkjjjxPzzzxPZDP11121)|(*)|.,()|,( 10i)|(*)|(ikZiikikikxzPzxzE 10)()|(*)(*ikZikiikikxPxPzPz )()|(*) 0(*0)|(*) 1(*1ikiikkiikxPxPZPxP
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- EM 算法 讲解

限制150内