句法分析前部分精选PPT.ppt
《句法分析前部分精选PPT.ppt》由会员分享,可在线阅读,更多相关《句法分析前部分精选PPT.ppt(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、句法分析前部分第1页,此课件共33页哦提纲:提纲:概述短语结构分析线图分析法第2页,此课件共33页哦 句法分析:是指对输入的单词序列(一般为句子)判断其构成是否合乎给定的语法,分析合乎语法的句子的句法结构句法分析的任务:1)判断输入的字符串是否属于某种语言 2)消除输入句子中词法和结构等方面的歧义 3)分析输入句子的内部结构,如成分构成、上下文关系等类型:短语结构分析(Phrase parsing)完全句法分析(Full parsing)局部句法分析(Partial parsing)依存句法分析(Dependency parsing)8.1 8.1 概概 述述第3页,此课件共33页哦句法形式化
2、(grammar formalism)属于句法理论研究的范畴常见的机遇约束的语法:功能合一语法(functional unification grammar,FUG)树连接语法(tree-adjoining grammar,TAG)词汇功能语法(lexical-functional grammar,LFG)广义的短语结构语法(genneralized phrase structure grammar,GPSG)中心语驱动的短语结构语法(head-driven phase structure grammar,HPSG)8.1.2 8.1.2 语法形式化语法形式化第4页,此课件共33页哦句法分析方
3、法分为:基于规则的分析方法和基于统计的分析方法基于规则的分析方法的基本思路:由人工组织语法规则,建立语法知识库,通过条件约束和检查来实现句法结构的歧义的消除。基于规则的分析方法的主要优点:分析算法可以利用手工编写的语法规则分析输入的句子所有可能的句法结构;对于特定的领域和目的,利用手工编写的有针对性的规则能较好地处理句子中的部分歧义和一些超语法现象。基于规则的分析方法的缺陷:对于一个中等长度的输入句子来说,要利用大覆盖度的语法规则分析出所有可能的句子结构是非常困难的,分析过程的复杂性往往是程序无法实现;即使能够分析出句子所有可能的结构,也难以在巨大的句法分析结果集合中实现有效的消歧义,并选择出
4、最有可能的结果。手工编写的规则一般带有一定的主观性,对于实际应用系统来说,往往难以覆盖大领域的所有复杂语言 手工编写的规则本身是一件大工作量的复杂劳动,而且编写的规则对特定的领域有密切的相关性,不利于句法分析系统向其他领域移植。8.1.3 8.1.3 基本方法基本方法第5页,此课件共33页哦 句法分析的例子(参见前面第4章)他还提出一系列具体措施的政策要点。他/PN 还/AD 提出/VV 一/CD 系列/M 具体/JJ措施/NN 和/CC 政策/NN 要点/NN 。/PU8.2 8.2 短语结构分析第6页,此课件共33页哦(IP(NP-SBJ(PN 他)(VP(ADVP(AD 还)(VP(VV
5、 提出 )(NP-OBJ(QP(CD 一)(CLP(M 系列)(NP(NP(ADJP(JJ 具体)(NP(NN 措施)(CC 和)(NP(NN 政策)NN 要点)(PU。)8 8.2.2 短语结构分析第7页,此课件共33页哦树状表示:IPNPVPPUPNADVPVP。他ADVVNP还提出 QPNPCD CLPNPCCNP一 M ADJP NP 和 NN NN系列 JJNN政策 要点具体 措施8 8.2.2 短语结构分析第8页,此课件共33页哦短语结构分析:目标:实现高正确率、高鲁棒性(robustness)(robustness)、高速度的自动句法分析过程。困难:自然语言中存在大量的复杂的结构
6、歧义 (structural(structural ambiguity)ambiguity)。8 8.2.2 短语结构分析第9页,此课件共33页哦结构歧义例如:(1)I saw a boy in the park.I saw a boy in the park.I saw a boy in the park.(2)I saw a boy in the park with a telescope.(3)I saw a boy swimming on the bridge.(4)关于鲁迅的文章。(5)把重要的书籍和手稿带走了。8.2 8.2 短语结构分析第10页,此课件共33页哦 英语中的结构歧义
7、随介词短语组合个数的增加而不断加深的,这个组合个数我们称之为开塔兰数(Catalan number,记作CN)。如果句子中存在这样 n(n为自然数)个介词短语,CN可由下式获得 Samuelsson,2000:8 8.2.2 短语结构分析第11页,此课件共33页哦 基本方法和开源的句法分析器:基于CFG规则的分析方法:线图分析法(chart parsing)CYK 算法 Earley(厄尔利)算法 LR 算法/Tomita 算法 Top-down:Depth-first/Breadth-first Bottom-up8 8.2.2 短语结构分析第12页,此课件共33页哦 基于 PCFGPCFG
8、 的分析方法PCFG:PCFG:ProbabilisticProbabilistic Context-FreeContext-Free GrammarGrammar(有时也写作 StochasticStochastic CFG,CFG,SCFG)SCFG)其他统计模型 部分开源的句法分析器8 8.2.2 短语结构分析第13页,此课件共33页哦线图分析法 三种策略 自底向上(Bottom-up)(Bottom-up)从上到下(Top-down)(Top-down)从上到下和从下到上结合8 8.3 3 线图分析法第14页,此课件共33页哦8 8.3 3 线图分析法第15页,此课件共33页哦执行操作
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 句法 分析 前部 精选 PPT
限制150内