欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    隐马尔科夫模型和词性标注.pptx

    • 资源ID:88463436       资源大小:2.47MB        全文页数:101页
    • 资源格式: PPTX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    隐马尔科夫模型和词性标注.pptx

    大纲隐马尔科夫模型隐马尔科夫模型概述任务1:计算观察序列的概率任务2:计算能够解释观察序列的最大可能的状态序列任务3:根据观察序列寻找最佳参数模型词性标注第1页/共101页隐马尔科夫模型概述第2页/共101页马尔科夫链状态序列:X1,X2,X3,常常是“时序”的从Xt-1到Xt的转换只依赖于Xt-1X2X3X4X1第3页/共101页转移概率Transition Probabilities假设一个状态Xt有N个可能的值Xt=s1,Xt=s2,.,Xt=sN.转移概率的数量为:N2P(Xt=si|Xt-1=sj),1 i,j N转移概率可以表示为NN的矩阵或者有向图第4页/共101页MMBigram MM(一阶MM)第5页/共101页MMTrigram MM(二阶MM)第6页/共101页有限状态自动机状态:输入输出字母表中的符号弧:状态的转移仍然是VMM(Visible MM)第7页/共101页HMMHMM,从状态产生输出第8页/共101页HMMHMM,不同状态可能产生相同输出第9页/共101页HMMHMM,从弧产生输出第10页/共101页HMMHMM,输出带有概率第11页/共101页HMMHMM,两个状态间有多条弧,具有不同的概率第12页/共101页隐马尔可夫模型Hidden Markov Model估算隐藏于表面事件背后的事件的概率观察到一个人每天带雨伞的情况,反过来推测天气情况第13页/共101页Hidden Markov ModelHMM是一个五元组(S,S0,Y,Ps,PY).S:s1sT 是状态集,S0是初始状态Y:y1yV 是输出字母表PS(sj|si):转移(transition)概率的分布,也表示为aijPY(yk|si,sj):发射(emission)概率的分布,也表示为bijk给定一个HMM和一个输出序列Y=y1,y2,yk)任务1:计算观察序列的概率任务2:计算能够解释观察序列的最大可能的状态序列任务3:根据观察序列寻找最佳参数模型第14页/共101页任务1:计算观察序列的概率第15页/共101页计算观察序列的概率前提:HMM模型的参数已经训练完毕想知道:根据该模型输出某一个观察序列的概率是多少应用:基于类的语言模型,将词进行归类,变计算词与词之间的转移概率为类与类之间的转移概率,由于类的数量比词少得多,因此一定程度避免了数据稀疏问题第16页/共101页Trellis or Lattice(栅格)第17页/共101页发射概率为1的情况Y=“toe”P(Y)=0.60.881+0.40.11=0.568第18页/共101页算法描述从初始状态开始扩展在时间点t扩展得到的状态必须能够产生与观察序列在t时刻相同的输出比如在t=1时,观察序列输出t,因此只有状态A和C得到了扩展在t+1时刻,只能对在t时刻保留下来的状态节点进行扩展比如在t=2时,只能对t=1时刻的A和C两个状态进行扩展每条路径上的概率做累乘,不同路径的概率做累加直到观察序列全部考察完毕,算法结束第19页/共101页发射概率不为1的情况0.236608就是在上述模型下“toe”出现的概率第20页/共101页Trigram的情况以Bigram为状态第21页/共101页基于类的Trigram模型N-gram class LMp(wi|wi-2,wi-1)p(wi|ci)p(ci|ci-2,ci-1)C:Consonant(辅音),V:Vowel(元音)第22页/共101页Class Trigram的Trellis输出Y=“toy”第23页/共101页重叠(overlapping)的Class Trigram“r”有时是元音,有时是辅音,因此p(r|C)和p(r|V)都不为零第24页/共101页重叠的类Trigram的Trellis第25页/共101页讨论我们既可以从左向右计算,也可以从右向左计算,甚至可以从中间向两头计算Trellis的计算对于Forward-Backward(也称为Baum-Welch)参数估计很有用第26页/共101页任务2:计算能够解释观察序列的最大可能的状态序列第27页/共101页Viterbi算法用于搜索能够生成观察序列的最大概率的状态序列Sbest=argmaxSP(S|Y)=argmaxSP(S,Y)/P(Y)=argmaxSi=1kp(yi|si,si-1)p(si|si-1)Viterbi能够找到最佳解,其思想精髓在于将全局最佳解的计算过程分解为阶段最佳解的计算第28页/共101页示意从D2返回Stage 1的最佳状态为C1因为p(A1-D2)=0.60.5=0.3而p(C1-D2)=0.40.8=0.32尽管搜索还没有完全结束,但是D2已经找到了最佳返回节点第29页/共101页Viterbi示例argmaxXYZP(XYZ|rry)第30页/共101页Viterbi计算第31页/共101页Viterbi算法三重循环第一重:遍历每一个观察值第二重:遍历当前观察值所对应的每一个状态第三重:遍历能够到达当前观察值当前状态的上一时刻的每一个状态计算假设上一时刻为t,t时刻的的状态为i,t+1时刻的状态为j,t+1时刻的观察值为k,则计算:j(t+1)=max1iNi(t)aijbijkj(t+1)=argmax1iNi(t)aijbijkt+1时刻状态j的返回指针指向t时刻的状态j(t+1)输出三重循环都结束后,在最后时刻找到值最大的状态,并从该状态开始,根据返回指针查找各时刻的处于最佳路径上的状态,并反序输出。第32页/共101页N-best计算保留n个最佳结果,而不是1个最优解:VCV;次优解:CCV第33页/共101页N-Best Paths以分词为例(MM模型)例句:“结合成分子”每条弧上的值是该弧所对应的词的Unigram概率的负对数,即-logp(w)结 合 成 分 子第34页/共101页N-Best PathsA sampleThe sentence“结合成分子“.结 合 成 分 子valuepre00000000valuePre0 0 0 0valuepre0 0 0 0valuepre00 0 0valuepre000 0valuepre0000第35页/共101页N-Best PathsA sampleThe sentence“结合成分子“.结 合 成 分 子valuepre00000000valuePre10.10 0 0 0valuepre0 0 0 0valuepre00 0 0valuepre000 0valuepre0000第36页/共101页N-Best PathsA sampleThe sentence“结合成分子“.结 合 成 分 子valuepre00000000valuePre10.10 0 0 0valuepre7.760 0 0 0valuepre00 0 0valuepre000 0valuepre0000第37页/共101页N-Best PathsA sampleThe sentence“结合成分子“.结 合 成 分 子valuepre00000000valuePre10.10 0 0 0valuepre7.76020.01 0 0valuepre00 0 0valuepre000 0valuepre0000第38页/共101页N-Best PathsA sampleThe sentence“结合成分子“.结 合 成 分 子valuepre00000000valuePre10.10 0 0 0valuepre7.76020.01 0 0valuepre21.510 0 0valuepre000 0valuepre0000第39页/共101页N-Best PathsA sampleThe sentence“结合成分子“.结 合 成 分 子valuepre00000000valuePre10.10 0 0 0valuepre7.76020.01 0 0valuepre14.4221.5127.6 2 0valuepre000 0valuepre0000第40页/共101页N-Best PathsA sampleThe sentence“结合成分子“.结 合 成 分 子valuepre00000000valuePre10.10 0 0 0valuepre7.76020.01 0 0valuepre14.4221.5127.62 0valuepre18.2230.520 0valuepre0000第41页/共101页N-Best PathsA sampleThe sentence“结合成分子“.结 合 成 分 子valuepre00000000valuePre10.10 0 0 0valuepre7.76020.01 0 0valuepre14.4221.5127.62 0valuepre18.2223.4330.0330.52valuepre0000第42页/共101页N-Best PathsA sampleThe sentence“结合成分子“.结 合 成 分 子valuepre00000000valuePre10.10 0 0 0valuepre7.76020.01 0 0valuepre14.4221.5127.62 0valuepre18.2223.4330.0330.52valuepre25.2331.2300第43页/共101页N-Best PathsA sampleThe sentence“结合成分子“.结 合 成 分 子valuepre00000000valuePre10.10 0 0 0valuepre7.76020.01 0 0valuepre14.4221.5127.62 0valuepre18.2223.4330.0330.52valuepre25.2329.1431.2333.94第44页/共101页N-Best PathsA sampleThe sentence“结合成分子“.结 合 成 分 子valuepre00000000valuePre10.10 0 0 0valuepre7.76020.0 1 0 0valuepre14.4221.5127.6 2 0valuepre18.2223.4330.0330.5 2valuepre25.2329.1431.2333.94第45页/共101页结果四条最佳路径为:1.结合/成/分子2.结合/成分/子3.结/合成/分子4.结合/成/分/子时间复杂度假设搜索图中共有k条边要求获得N条最佳路径则时间复杂度为O(k*N2)第46页/共101页剪枝Pruning在每一个时刻,如果Trellis上的状态过多,怎么办?答案是剪枝:1、按的阈值剪枝,太低的路径不再继续搜索2、按状态的数量剪枝,超过多少个状态就不再扩展了第47页/共101页任务3:根据观察序列寻找最佳参数模型第48页/共101页问题给定一个观察值序列,但是没有标注每个观察值所对应的状态(无指导),在这种条件下如何估计隐马尔可夫模型中的参数,包括转移概率的分布和发射概率的分布例如:给定一个语料库,语料库只是一个词的序列,没有词性标记,能否估计出词性标注的HMM模型?是EM算法的特例,象一个魔法(MAGIC)!找到一个能够最佳地解释观察值序列的模型第49页/共101页Baum-Welch算法也称为Forward-Backward算法1.初始化PS,PY可能是随机给出的2.计算前向概率(Forward Probability)(s,i)=ss(s,i-1)p(s|s)p(yi|s,s)从左到右搜索过程中的累积值3.计算后向概率(Backward Probability)(s,i)=ss(s,i+1)p(s|s)p(yi+1|s,s)从右到左搜索过程中的累积值第50页/共101页前向概率后向概率示意图Xt=siXt+1=sjt-1tt+1t+2i(t)j(t+1)aijbijk观察值为k第51页/共101页Baum-Welch算法(续)4.计数(pseudo count)c(y,s,s)=i=0k-1,y=yi+1(s,i)p(s|s)p(yi+1|s,s)(s,i+1)c(s,s)=yYc(y,s,s)c(s)=sSc(s,s)5.重新估算p(s|s)=c(s,s)/c(s),p(y|s,s)=c(y,s,s)/c(s,s)6.重复运行2-5,直至结果不再有较大变化第52页/共101页词性标注第53页/共101页词性(Part of Speech)词的句法类别名词、动词、形容词、副词、介词、助动词分为开放词类(Open Class)和封闭词类(Closed Class)也成为:语法类、句法类、POS标记、词类等第54页/共101页POS举例N nounbaby,toy V verb see,kiss ADJ adjective tall,grateful,alleged ADV adverb quickly,frankly,.P preposition in,on,near DET determiner the,a,that WhPronwh-pronoun who,what,which,COORD coordinatorand,or开放类第55页/共101页替代性测试两个词属于同一个词类,当且仅当它们相互替换时不改变句子的语法特征The _ is angry.(名词)The _ dog is angry.(形容词)Fifi _.(不及物动词)Fifi _ the book.(及物动词)第56页/共101页POS Tags 不存在标准的词性标注集有的是用比较粗糙的标记集,例如:N,V,A,Aux,.有的使用更细致的分类:(例如:Penn Treebank)PRP:personal pronouns(you,me,she,he,them,him,her,)PRP$:possessive pronouns(my,our,her,his,)NN:singular common nouns(sky,door,theorem,)NNS:plural common nouns(doors,theorems,women,)NNP:singular proper names(Fifi,IBM,Canada,)NNPS:plural proper names(Americas,Carolinas,)第57页/共101页Penn Treebank 词性集PRPPRP$第58页/共101页词性标注词常常有多个词性,以back为例The back door=JJOn my back=NNWin the voters back=RBPromised to back the bill=VB词性标注问题就是针对确定词在一个特定实例中的词性第59页/共101页POS歧义(在Brown语料库中)无歧义的词(1 tag):35,340个有歧义的词(2-7 tags):4,100个2 tags3,7603 tags2644 tags615 tags126 tags27 tags1(Derose,1988)第60页/共101页词性标注的应用文语转换 怎样朗读”lead”动词一般形式:li:d过去式:led是句法分析的基础辅助词义消歧等,动词等待等,量词等级第61页/共101页目前的性能容易评价,只需计算标注正确的词性数量目前准确率大约在97%左右Baseline也可以达到90%Baseline算法:对每一个词用它的最高频的词性进行标注未登录词全部标为名词第62页/共101页词性标注P(T|W)=P(W|T)P(T)/P(W)argmaxTp(T|W)=argmaxTp(W|T)p(T)P(W|T)=i=1dp(wi|w1,wi-1,t1,td)p(wi|w1,wi-1,t1,td)p(wi|ti)P(T)=i=1dp(ti|t1,ti-1)p(ti|t1,ti-1)=p(ti|ti-n+1,ti-1)第63页/共101页有指导的学习训练时事先对语料库进行了人工的词性标注,因此在训练时看到了状态(词性),属于VMM,在测试时,只能看到观察值(词序列),因此属于HMM。应用最大似然估计p(wi|ti)=cwt(ti,wi)/ct(ti)p(ti|ti-n+1,ti-1)=ctn(ti-n+1,ti-1,ti)/ct(n-1)(ti-n+1,ti-1)平滑p(wi|ti):加1平滑p(ti|ti-n+1,ti-1):线性差值第64页/共101页用带标记的语料进行训练Pierre/NNP Vinken/NNP,61/CD years/NNS old/JJ,/,will/MD join/VB the/DT board/NN as/IN a/DT nonexecutive/JJ director/NN Nov./NNP 29/CD./.Mr./NNP Vinken/NNP is/VBZ chairman/NN of/IN Elsevier/NNP N.V./NNP,/,the/DT Dutch/NNP publishing/VBG group/NN.Rudolph/NNP Agnew/NNP,/,55/CD years/NNS old/JJ and/CC former/JJ chairman/NN of/IN Consolidated/NNP Gold/NNP Fields/NNP PLC/NNP,/,was/VBD named/VBN a/DT nonexecutive/JJ director/NN of/IN this/DT British/JJ industrial/JJ conglomerate/NN./.c(JJ)=7 c(JJ,NN)=4,P(NN|JJ)=4/7第65页/共101页无指导的学习语料库只是词的序列,没有人工标注词性,是Plain Text。完全无指导的学习是不可能的至少要知道:词性集每个词可能的词性(据词典)使用Baum-Welch算法第66页/共101页无指导学习的秘诀语料库(只有两个句子)A lion ran to the rockD N V P D N Aux VThe cat slept on the mat D N V P D N V R我们能够学习到什么?D,N,V的概率大于D,V,V,Cat应该标注为NV,P,D 的概率大于V,Aux,D或V,R,D,因此to和on应标为P第67页/共101页未登录词考虑所有词性只考虑开放类词性Uniform(平均分配概率)Unigram(考虑每个词性独立出现的概率)根据未登录词的前缀和后缀猜测其词性第68页/共101页运行词性标注器无论是对有指导的学习,还是对无指导的学习,在搜索阶段都一样:使用Viterbi算法!第69页/共101页n n=2.52=2.52b bn n(人民)=7.37)=7.37nnnhcpvnvnaadnv9.89第70页/共101页b bn n(收入)=6.98)=6.98a annnn=2.76=2.76nnnhcpvnvnaadnv9.8920.02第71页/共101页b bnhnh(和)=20)=20a an nhn nh=20=20nnnhcpvnvnaadnv9.8920.0260.02第72页/共101页b bc c(和)=1.72)=1.72a an cn c=3.58=3.58nnnhcpvnvnaadnv9.8920.0260.0225.32第73页/共101页b bn n(生活)=5.75)=5.75a anh nnh n=20=20nnnhcpvnvnaadnv9.8920.0260.0225.3227.6631.2685.77第74页/共101页Viterbi算法举例第75页/共101页n n=2.52=2.52b bn n(人民)=7.37)=7.37nnnhcpvnvnaadnv9.89第76页/共101页b bn n(收入)=6.98)=6.98a annnn=2.76=2.76nnnhcpvnvnaadnv9.8920.02第77页/共101页b bnhnh(和)=20)=20a an nhn nh=20=20nnnhcpvnvnaadnv9.8920.0260.02第78页/共101页b bn n(生活)=5.75)=5.75a anh nnh n=20=20nnnhcpvnvnaadnv9.8920.0260.0225.3227.6631.2685.77第79页/共101页b bn n(生活)=5.75)=5.75a ac nc n=1.84=1.84nnnhcpvnvnaadnv9.8920.0260.0225.3227.6631.2685.7732.91第80页/共101页b bn n(生活)=5.75)=5.75a ap np n=1.28=1.28nnnhcpvnvnaadnv9.8920.0260.0225.3227.6631.2685.7732.9134.69第81页/共101页b bn n(生活)=5.75)=5.75a av nv n=1.92=1.92nnnhcpvnvnaadnv9.8920.0260.0225.3227.6631.2685.7732.9134.6938.93第82页/共101页nnnhcpvnvnaadnv9.8920.0260.0225.3227.6631.2685.7732.9134.6938.93第83页/共101页nnnhcpvnvnaadnv9.8920.0260.0225.3227.6631.2632.91第84页/共101页nnnhcpvnvnaadnv9.8920.0260.0225.3227.6631.2632.9134.6第85页/共101页nnnhcpvnvnaadnv9.8920.0260.0225.3227.6631.2632.9134.643.1656.7452.6755.7160.7668.15第86页/共101页nnnhcpvnvnaadnv9.8920.0260.0225.3227.6631.2632.9134.643.1656.7452.6755.7160.7668.15人民/n 收入/n 和/c 生活/n 水平/n 进一步/d 提高/v第87页/共101页npcvnvadnv第88页/共101页n-16.98pcvnvadnvN-Best结果第89页/共101页n-16.98p0014.62c0012.28v0018.22nvadnv第90页/共101页n-16.98v0018.22n1019.870021.652025.89vadnvp0014.62c0012.28第91页/共101页n-16.98v0018.22n1019.870021.652025.89v1020.860023.92027.61adnvp0014.62c0012.28第92页/共101页n-16.98v0018.22n1019.870021.652025.89v1020.860023.92027.61a0032.420134.21036.16dnvp0014.62c0012.28第93页/共101页n-16.98v0018.22n1019.870021.652025.89v1020.860023.92027.61a0032.420134.21036.16d0029.380131.161031.38nvp0014.62c0012.28第94页/共101页n-16.98v0018.22n1019.870021.652025.89v1020.860023.92027.61a0032.420134.21036.16d0029.380131.161031.38n1044.590044.881146.37v1037.471139.251239.47p0014.62c0012.28第95页/共101页n-16.98v0018.22n1019.870021.652025.89v1020.860023.92027.61a0032.420134.21036.16d0029.380131.161031.38n1044.590044.881146.37v1037.471139.251239.47p0014.62c0012.28第96页/共101页n-16.98v0018.22n1019.870021.652025.89v1020.860023.92027.61a0032.420134.21036.16d0029.380131.161031.38n1044.590044.881146.37v1037.471139.251239.47p0014.62c0012.28第97页/共101页n-16.98v0018.22n1019.870021.652025.89v1020.860023.92027.61a0032.420134.21036.16d0029.380131.161031.38n1044.590044.881146.37v1037.471139.251239.47p0014.62c0012.28第98页/共101页N-Best Search结果1)收入/n 和/c 生活/n 进一步/d 提高/v37.472)收入/n 和/p 生活/n 进一步/d 提高/v39.25 3)收入/n 和/c 生活/v 进一步/d 提高/v39.47第99页/共101页谢谢!第100页/共101页感谢您的观看!第101页/共101页

    注意事项

    本文(隐马尔科夫模型和词性标注.pptx)为本站会员(莉***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开