自然语言理解-词法分析.ppt
《自然语言理解-词法分析.ppt》由会员分享,可在线阅读,更多相关《自然语言理解-词法分析.ppt(103页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、词法分析语言根据词的形态结构分类分析型语言没有专门表示语法意义的附加成分汉语,藏语黏着型语言词内有专门表示语法意义的附加成分芬兰语,日语曲折性语言用词的形态变化表示语法关系英语,德语,法语什么是词?词是语言中最小的能独立运用的单位,是信息处理的基本单位。界定词的困难所在单字词与语素之间的划界词与短语之间的划界汉语自动分词把没有明显分界标志的字串自动切分为词串 背 景汉语的特点:汉语是大字符集的语言 英语有26个字母,而常用的汉字就有六七千个,总数超过五万 书面汉语的词与词之间没有明确的分隔标记 背 景 汉语中兼类现象严重 例如:“和”根据现代汉语词典可以有五种读音,六种词性,以及十六种不同的词
2、义 印欧语系多有形态变化,而汉语缺少形态变化 例如:复数、单数,过去、现在,阴性、阳性等等汉语词法分析所面临的问题分词词表分词词表重叠词、词缀重叠词、词缀分词和理解,孰先孰后?分词和理解,孰先孰后?歧义切分字段歧义切分字段 专有名词的专有名词的识别识别 分词词表分词词表 汉语词的抽象定义(既“词是什么”)与具体判定(既“什么是词”)问题,语言学界并未完全解决 词表对自动分词而言,是最基础的“构件”分词词表分词词表 信息处理用现代汉语分词规范 迄今也没有一个公认的、具有权威性的词表,这是分词问题所面临的第一个困难汉语双字形容词的重叠形式 汉语单字形容词的重叠形式汉语双字动词的重叠形式汉语单字动词
3、的重叠形式汉语其他词类的重叠形式 名词哥哥,人人山山水水,是是非非,方方面面,头头脑脑数词一一做了回答,两两结伴而来量词个个都是好样的,回回考满分副词常常,仅仅,的的确确汉语重叠词的特点汉语词能否重叠具有很强的个性特点研究研究工作工作有些词重叠后词性发生了变化形容词重叠后一般成为状态词个别量词重叠后可以成为其他词性回回:副词个个:名词汉语词缀前缀老鹰、老虎、老三、老王超豪华、超标准、超高速非党员后缀骨头、砖头、甜头、苦头、盼头、想头桌子、椅子、孩子、票子、房子文学家、指挥家、艺术家科学性、可能性、学术性碗儿、花儿、玩儿、份儿、片儿 分词和理解,孰先孰后?分词和理解,孰先孰后?计算机分词仍然面临
4、知识短缺的大问题 计算机大概永远做不到像人那样先理解后分词 不可企求百分之百的正确切分,这是自动分词所面临的第二个困难汉语切分歧义例子公路局处理解放大道路面积水问题。南京市长江大桥说:歧义切分字段歧义切分字段 定义定义1.11.1 交集型歧义:交集型歧义:字串ABC,其中汉字字串A、B、C的长度均大于零,该字串可以切分为AB/C或A/BC,则称该字串为交集型歧义字串。例如:出现在出现/在(切分1)出现在出/现在(切分2)歧义切分字段歧义切分字段 定义定义1.21.2组组合合型型歧歧义义:字串AB,其中汉字字串A、B的长度均大于零,该字串可以切分成AB或A/B,则称该字串为组合型歧义字串。例如:
5、马上马/上(切分1)马上马上(切分2)歧义切分字段歧义切分字段 混合型歧义:由交集型歧义和组合型歧义自身嵌套或两者交叉组合而产生的歧义人才能:这样的人才能经受住考验。人才能:这样的人才能经受住考验。人才能:这样的人才能经受住考验。真歧义和伪歧义真歧义确实能在真实语料中发现多种切分形式比如“应用于”、“地面积”伪歧义虽然有多种切分可能性,但在真实语料中往往取其中一种切分形式比如“挨批评”、“市政府”交集型歧义字段的链长链长:交集型歧义字段中含有交集字段的个数,称为链长。链长为1:和尚未链长为2:结合成分链长为3:为人民工作链长为4:中国产品质量结合成分子时链长为6:努力学习语法规则链长为7:治理
6、解放大道路面积水真实语料中歧义字段的分布 汉语真实文本中的分词歧义情况 材料一:孙茂松等1999一个1亿字真实汉语语料库中抽取出的前4,619个高频交集型歧义切分覆盖了该语料库中全部交集型歧义切分的59.20%,其中4279个属伪歧义(占92.63%,如“和软件”、“充分发挥”、“情不自禁地”),覆盖率高达53.35%。材料二:刘开瑛2000,第4章78248个交集型歧义字段中,伪歧义:94%真歧义:6%汉语真实文本中的分词歧义情况(续)分词歧义的四个层级(何克抗等1991,50883字语料)词法歧义:84.1%(“用方块图形式加以描述”)句法歧义:10.8%(“他一阵风似的跑了”)语义歧义:
7、3.4%(“学生会写文章”)语用歧义:1.7%(“美国会采取措施制裁伊拉克”)分词模型 句子侯选切分集切分歧义之解决结果待切分生成解空间在解空间中求解切分阶段一阶段二 歧义切分字段歧义切分字段分词模型 阶段一阶段一生成解空间 根据分词词表及其某种切分原则,找出输入句子的侯选切分集合,以供下一阶段处理 最大匹配法是极端之一,给出唯一侯选(侯选即解)分词模型 全切分法是另一个极端,给出输入句子的所有可能切分形式,可实现无盲点分析,代价是解空间膨胀太大,又会造成许多不必要的干扰 关键:能否在保证无切分盲点的前提下,给出尽可能小的解空间分词模型阶段二阶段二在解空间中求解解决切分歧义的策略,大致有三:基
8、于规则基于规则 基于词频基于词频 基于隐基于隐MarkovMarkov模型模型 阶段二阶段二:在解空间中求解 基于规则基于规则 这类研究吸取了人工智能及专家系统的思想基于规则基于规则 主要困扰是:囿于目前汉语parser的能力,任何期望倚重parser作为解决歧义切分之手段的设想尚缺乏现实的基础;由于无法实现parsing,分词系统所能利用的句法、语义规则必然是局部的,基本上仅涉及若干毗邻词之间的线性关系,可靠性不强,难以建立完整、有效、无矛盾的体系。阶段二阶段二:在解空间中求解 基于词频基于词频 基于词频的排歧问题可抽象为求有向图两点间最优路径问题。较最大匹配法,可望将切分精确率提高约1%。
9、基于词频基于词频 本质上这是一个关于词的零阶Markov模型(也称作unigram),存在明显缺陷:其表现不依赖于上下文而变化。例如:字段“只是”,或一律作为一个词被切出来,或一律被切成“只/是”(完全取决于“只”“是”和“只是”的词频阶段二阶段二:在解空间中求解 基于隐Markov模型 语法知识以统计形式量化在标记的概率转移矩阵中 表示简洁、均匀,处理灵活、一致,避免了采用规则系统的某些弊端;基于隐Markov模型 统计数据从不受任何限制的实际语料中获得,可有效提高分析系统的能力及覆盖面,并且分词结果能随时反馈到统计数据中,使系统有一定的自学习功能。模型的求解仍可归结为有向图两点最优路径问题
10、基于隐Markov模型 关键:以隐Markov模型为主要手段解决切分歧义,是一种最有希望的方案,但“单打一”恐怕不能完全奏效,必须集成多种手段(方法)。专有名词专有名词的识别 许多分词算法都是在完备词表的假设下设计的,这一假设并不成立。新词不断涌现,而且专有名词虽然不新,但不可能尽收。专有名词专有名词的识别 一般说来,专有名词包括:中国人名 中国地名 译名 组织机构名 事件名 时间数量名 商标名专有名词专有名词的识别 陈陈/nhf/nhf 平平/nhs/nhs 为/vl 北京大学北京大学/ni/ni 中国经济研究中国经济研究中心中心/ni/ni 经济学/n 教授/n,/w 中心/n 副/f 主
11、任/n(/w 主管/v 科研/j)/w。/w 1968/m 年/nt 获/v 中国科技大学中国科技大学/ni/ni 物理系/n 学士/n 学位/n,/w 1987/m 年/nt 获/v 美国美国/ns/ns 德克萨斯大学德克萨斯大学/ni/ni 物理学/n 博士/n 学位/n。/w “陈平”人名 “美国美国”地名 “北京大学北京大学”、“中国科技大学中国科技大学”、“中国经济研究中心中国经济研究中心”及 “德克萨斯大学德克萨斯大学”属于组织机构名专有名词专有名词的识别 不同的语料,专名所占的比例也不同。对455万字的人民日报语料统计的结果显示:专名占5.74%,其中,中国人名占2.55%,地名
12、占2.55%,外国译名占0.73%,如果不予处理,会对切分精确率造成比歧义字段更大的影响。研 究 进 展中文词语的分析过程:预处理过程的词语粗切分 切分排歧与未登录词识别 词性标注在实际的系统中,这三个过程可能相互交叉,反复融合,也可能不存在明显的先后次序 研 究 进 展主要的汉语自动分词系统有:北航的CDWS系统,国内公开的第一个实用性汉字分词系统,采用的自动分词方法为最大匹配法,辅助以词尾字构词检错技术,使用知识库进行纠错。北航的CASS系统,它使用的自动分词方法是正向增字最大匹配法,使用知识库处理歧义字段。研 究 进 展山西大学的ABWS分词系统,使用“两次扫描联想回溯”法,利用联想-回
13、溯来有效地解决歧义组合结构的切分,同时兼有自动检错和纠错的功能。其分词子系统较好地利用了语言学中的词法知识、句法知识,并具有调用分词规则切分歧义字段和回收生词等功能。北师大的自动分词专家系统,首次将专家系统方法引入到分词系统中。研 究 进 展 清华大学SEG分词系统,此系统提供了带回溯的正向、反向、双向最大匹配法和全切分-评价切分算法,由用户来选择合适的切分算法。其特点则是带修剪的全切分-评价算法。清华大学SEGTAG系统,该系统对词典中的每一个重要的词都加上了切分标志,即标志“ck”或“qk”。通过这两种标志并使用几条规则来实现有限的全切分。为了获得切分结果,系统采用在有向图DAG上搜索最佳
14、路径的方法,所运用的搜索算法有两种,即“动态规划”和“全切分搜索+叶子评价”,使用了词频、词类频度、词类共现频度等统计信息。研 究 进 展 中科院计算所的词语分析系统ICTCLAS,采用N-最短路径方法进行词语粗分(概率统计),然后用HMM的方法进行分词和标注的一体化处理。国家语委文字所应用句法分析技术的汉语自动分词,此分词模型考虑了句法分析在自动分词系统中的作用,以更好地解决切分歧义。切词过程考虑到了所有的切分可能,并运用汉语句法等信息从各种切分可能中选择出合理的切分结果。研 究 进 展 复旦分词系统,首先,使用正向最小匹配和逆向最大匹配对文本进行双向扫描,如果两种扫描结果相同,则认为切分正
15、确,否则就判别其为歧义字段,使用构词规则和词频统计信息来进行排歧。哈工大的统计分词系统,是一种典型的运用统计方法的纯切词系统,它试图将串频统计和词匹配结合起来。研 究 进 展 杭州大学改进的MM分词系统,其实质为MM+规则。微软研究院多国语言处理平台NLPWin中的中文词语分析词系统,采用了切词-句法分析一体化的方法,使用语法规则并以概率模型作导向来进行排歧。北京大学计算语言学研究所的汉语切分与标注系统,把分词和词类标注结合起来,采用基于规则的标注排歧与基于语料库统计模型的排歧相结合的处理方法。研 究 进 展 北大计算语言汉语文本分析系统,该系统中采用了一种综合性歧义切分处理方法,其要点有:把
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 理解 词法 分析
限制150内