自然语言处理讲座第七章-句法分析技术ppt课件.ppt
《自然语言处理讲座第七章-句法分析技术ppt课件.ppt》由会员分享,可在线阅读,更多相关《自然语言处理讲座第七章-句法分析技术ppt课件.ppt(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七章 句法分析技术什么是句法分析 判断输入的词序列能否构成一个合乎语法的句子,确定合乎语法句子的句法结构 运用句法规则和其他知识将输入句子中词之间的线性次序,变成一个非线性的数据结构(例如短语结构树或有向无环图)为什么要进行句法分析 例一:音字转换例 一只小花猫 例二:机器翻译例(Prepositional Phrase Attachment) Jan hit the girl with long hair Jan hit the girl with a hammer 例三:信息检索例 哪个球队获得了亚洲杯冠军? 日本队击败中国队获得亚洲杯冠军句法分析的难点 句法分析的难点: 语法歧义:一个
2、句子对应着几种句法分析结果 “咬死了猎人的狗” “那只狼咬死了猎人的狗” “那只咬死了猎人的狗失踪了” 汉语句法分析的独特性(朱德熙语法答问语法讲义) 汉语没有形态 语序灵活 词类和句法成分不存在一一对应的关系 汉语句子的构造原则与词组的构造原则基本上是一致的 汉语语法形式化工作滞后 深层分析与浅层分析句法分析系统 一个句法分析系统通常由两部分组成 形式语法体系 匹配模式 短语结构语法 扩充转移网络 树邻接语法(TAG) 基于合一运算的语法(广义短语结构语法、词汇功能语法、功能合一语法、基于中心词驱动的短语结构语法(HPSG)) 基于词的语法(链语法、依存语法、配价语法) 分析控制机制 模式匹
3、配技术 基于短语结构语法分析算法(厄尔利( Earley )分析算法、富田胜( Tomida )分析算法、线图(Chart)分析算法、确定性分析算法等等) 基于扩充转移网络的分析算法 链分析算法概率上下文无关文法(Probabilistic (Stochastic) Context Free Grammar) 随机上下文无关语法可以直接统计语言学中词与词、词与词组以及词组与词组的规约信息,并且可以由语法规则生成给定句子的概率。 定义:一个随机上下文无关语法(PCFG)由以下5部分组成: (1)一个非终结符号集N (2)一个终结符号集 (3)一个开始非终结符SN (4)一个产生式集R (5)对于
4、任意产生式rR,其概率为P(r) 产生式具有形式XY,其中,X N, Y (N )*()1P XPCFG的三个基本假设 CFG的简单概率拓广 基本假设 位置无关(Place invariance) 上下文无关(Context-free) 祖先无关(Ancestor-free) 分析树的概率等于所有施用规则概率之积()1P X举例 给定如下概率文法G (1)S-AA p1=1/2 (2)S-B p2=1/2 (3)A-a p3=2/3 (4)A-b p4=1/3 (5)B-aa p5=1/2 (6)B-bb p6=1/2那么:P(tree1)=1/2*2/3*2/3=2/9P(tree2)=1/
5、2*1/3*1/3=1/18P(tree3)=1/2*1/2=1/4P(tree4)=1/2*1/2=1/4PCFG的三个基本问题 1、一个语句W=w1w2.wn的P(W|G),也就是产生语句W的概率? 2、在语句W的句法结构有歧义的情况下,如何快速选择最佳的语法分析(parse) ? 3、如何从语料库中训练G的概率参数,使得P(W|G)最大(|)P WGarg max(|,)treeP tree W Garg max(|)GP WG问题1&2 思路 运用动态规划以及剪枝技术计算得出一个语句的多个句法分析形式的概率,选择概率最高的结果作为句法分析的结果向内(Inside)算法 非终结符A的内部
6、概率(Inside probability)定义为根据文法G从A推出词串 的概率,记为 称为向内变量SABC11.iww.ikww1. . .kjww1.jnww.ijww,( )i jAij,( )i jA问题1 1、一个语句W=w1w2.wn的P(W|G),也就是产生语句W的概率?(|)P WG向内概率公式 ,( )(.|)i jijAP wwAij1, ,(., ,.,|)ikkjB C kP ww B ww C A1, ,( ,| ) ( .| , , ) (.|., , , )ikkjikB C kP B C A P w wA B C P ww w w A B C1, ,( ,| )
7、 ( .| ) (.|)ikkjB C kP B C A P w wB P ww C,1,()( )( )i kkjB C kP ABCBC独立性假设独立性假设祖先无关假设,( )()i jiAP Awij向内算法(自底向上) 输入: G=(S,N,R,P),字符串 输出: 1、初始化: 2、归纳计算:j从1到n,i从1到n-j,重复下面计算 3、结束:12.nWw ww1,(|)()nP WGS,( )(),1i iiAP AwA Nin ,1,( )()( )( )i iji kkijB C N i k ijAP ABCBC 11,(.|)( )nnP SwwGS向内算法计算示例 SNP
8、VP 1.0NPNP PP 0.4 PPP NP 1.0NPJohn 0.1 VPV NP 0.7NPbone 0.18 VPVP PP 0.3NPstar 0.04 Pwith 1.0NPfish 0.18 Vate 1.0NPtelescope 0.1向内算法计算示例1234567初始化891011向内算法计算示例初始化 1 NPJohn 0.1 2 Vate 1.0 3 NPfish 0.18 4 Pwith 1.0 5 NPbone 0.18递归计算 6 VPV NP 0.7 7 PPP NP 1.0 8 SNP VP 1.0 9 NPNP PP 0.4 10 VPVP PP 0.3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 处理 讲座 第七 句法 分析 技术 ppt 课件
限制150内