基于混合模型的中文问题分类与解析研究.pdf
《基于混合模型的中文问题分类与解析研究.pdf》由会员分享,可在线阅读,更多相关《基于混合模型的中文问题分类与解析研究.pdf(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 基于混合模型的问题分类与解析研究 基于混合模型的中文问题分类与解析研究基于混合模型的中文问题分类与解析研究 摘要 本文首先分析了当前问答系统及问题分类领域的研究现状,总结一些存在的问题。然后,在语法、语义和领域三个层面以及分类信息应用的方面,对中文问题分类方法进行了讨论。在语法分类层面,汇总了语言学家的一些成果,对分类学的制定进行了讨论,并用 ID3 决策树算法实现了问题疑惑程度的分类;在语义分类层面,通过改进朴素贝叶斯分类方法以及加入语言学特征和对特征的筛选排序,实现了两个层次的分类;在领域分类层面,本文作为首先的尝试者,沿用语义分类的方法,利用维基百科的分类学和知网本体扩展词集实现了过去
2、只在文本分类上进行的领域分类;在应用方面,主要探讨了各个分类信息的应用以及问题复杂度的制定。接着,针对上面三个层面的分类方法,本文开发了测试系统,做了具有一定规模的实验,并做了详细的分析。最后,通过总结以上的工作,得出如下结论:语法分类信息有助于开发人性化问答系统;混合模型进行语义分类效果可以得到明显提升;领域分类的效果欠佳,方法有待进一步改进;人类认知过程与计算机处理自然语言信息存在矛盾,多层信息综合也许是解决方法之一。关键字:问答系统,分类学,语发分类,语义分类,领域分类,多层信息综合 基于混合模型的问题分类与解析研究 RESEARCH ON CHINESE QUESTION CLASSI
3、FICATION AND ANALYSIS BASED ON A HYBRID MODEL ABSTRACT The paper firstly analyzes the state of the art on Question Answering and Question Classification,and summarizes some existent problems.After that,methods of Chinese Question Classification are discussed in several aspects,including syntactic la
4、yer,semantic layer,domain layer,and application layer.In the syntactic layer,it collects some fruits from linguisticians,talks over the establishment of the question typology,and implements the classification of doubtfulness of the questions using ID3 Decision Tree algorithm;in the semantic layer,th
5、rough the improvement of Naive Bayes Classification and the affiliation of linguistic properties,and the selection,filter and sort of the properties,the paper implements the classification on two sub-layers;in the domain layer,qua the first one to do the experiments,with the same model using in the
6、semantic layer,the domain classification is accomplished in virtue of the typology of Wikipedia and HowNet to extend the word set;in application layer,the application of the result of the classification on each layer and the formulation of Question Complexity are discussed.After then,aiming at the t
7、hree layers talked above,the author develops a system for the experiments,conducts several experiments on a fairly big scale,and also does lots of analysis in detail.At last,after summarizing the work above,the paper concludes:the classification on syntactic layer can help developing a question answ
8、ering system with human nature;hybrid model can upgrade the classification on semantic layer greatly;the classification on domain layer is not very satisfactory,and the methods need to be improved;the process of human cognizance contradicts with the natural language processing by the computer,and mu
9、lti-layer information synthesis may be the way out.Key words:Question Answering,Typology,Syntactic Classification,Semantic Classification,Domain Classification,Multi-Layer Information Synthesis 基于混合模型的问题分类与解析研究 目 录 第一章 引言.1第一章 引言.1 1.1 研究目的.1 1.2 研究现状.1 1.2.1 问答系统研究现状.1 1.2.2 问题分类学的研究现状.2 1.2.3 问题分类
10、的研究现状.2 1.3 存在的问题.3 1.3.1 一个例子17.3 1.3.2 中文问题分类特有的问题.3 1.3.3 需要解决的相关子任务.3 1.4 本文的贡献.4 1.5 后续章节简介.4 第二章 相关系统与资料介绍.5第二章 相关系统与资料介绍.5 2.1 中科院分词系统 ICTCLAS 介绍.5 2.2 知网(HowNet)介绍.6 2.3 哈工大信息检索研究室(HIT-IRLab)问答系统问题集介绍.7 2.4 分类学(Typology).7 2.4.1 Webclopedia 系统问题分类学.7 2.4.2 哈工大信息检索研究室(HIT-IRLab)问答系统问题集分类学.8 2
11、.4.3 维基百科(Wikipedia)的领域分类学.9 第三章 中文问题分类.10第三章 中文问题分类.10 3.1 概述.10 3.2 语法分类.10 3.2.1 原理综述(ID3 决策树算法).10 3.2.1.1 决策树简介.10 3.2.1.2 一般决策树分类流程.11 3.2.1.3 分支指标 ID3.11 3.2.2 分类学.12 3.2.3 属性抽取.13 3.2.4 训练(建树)与测试.13 3.2.5 小结.14 3.3 语义分类.14 3.3.1 方法综述(改进的贝叶斯分类方法).14 3.3.1.2 朴素贝叶斯分类方法36.14 3.3.1.3 改进的贝叶斯分类方法.1
12、5 3.3.2 分类学.16 3.3.3 特征选取.16 3.3.4 训练.17 基于混合模型的问题分类与解析研究 3.3.4.1 训练过程.17 3.3.4.2 一个简单的例子.18 3.3.5 测试.19 3.3.6 小结.19 3.4 领域分类.19 3.4.1 方法综述(同 3.3.1).19 3.4.2 分类学.19 3.4.3 特征选取.19 3.4.3.1 一个例子.20 3.4.3.2 利用本体(Ontology)进行词集扩展39.20 3.4.3.3 利用搜索引擎进行词集扩展.21 3.4.4 训练与测试.21 3.4.5 小结.22 3.5 分类信息的应用.22 3.5.1
13、 多层信息综合(Multi-Layer Information Synthesis).22 3.5.1.1 语法分类信息与语义分类信息综合.22 3.5.1.2 语法、语义分类信息与领域分类信息综合.23 3.5.2 问题复杂度(Question Complexity).24 3.5.2.1 一个例子.24 3.5.2.2 各个分类层面的问题复杂度.24 3.5.2.3 问题复杂度的计算.25 3.5.3 小结.25 第四章 测试系统介绍.26第四章 测试系统介绍.26 4.1 概述.26 4.2 系统流程.26 4.2.1 训练部分.26 4.2.2 测试部分.28 4.3 系统实现.29
14、4.5 界面演示.29 第五章 实验结果分析.33第五章 实验结果分析.33 5.1 概述.33 5.2 评价指标.33 5.2.1 精确度.33 5.2.2 召回率.33 5.2.3 F 指数(F-Measure).34 5.3 语法分类实验结果分析.34 5.4 语义分类实验结果分析.35 5.4.1 语义分类训练结果与分析.35 5.4.2 语义分类测试结果与分析.37 5.4.3 进一步讨论.40 5.4.3.1 分类学的问题.40 5.4.3.2“兼类”的问题.40 5.4.4 小结.41 5.5 领域分类实验结果分析.41 基于混合模型的问题分类与解析研究 5.5.1 领域分类训练
15、结果与分析.41 5.5.2 领域分类测试结果与分析.42 5.5.3 小结.42 第六章 结论与未来的工作.43第六章 结论与未来的工作.43 6.1 结论.43 6.2 未来的工作.43 6.3 结语.44 参考文献.45参考文献.45 基于混合模型的问题分类与解析研究 第 1 页 共 47 页 第一章 引言 第一章 引言 1.1 研究目的 当今社会,网络技术飞速发展,我们已经到了信息爆炸的时代。如何从海量的自由文本(非结构化)信息中,快速准确地找到我们需要的信息越来越受到人们的关注1。英国莫里(MORI)调查公司的民意调查结果显示,只有 18%的用户表示总能在网上搜索到需要的信息,68%
16、的用户说他们对搜索引擎很失望,28%表示还可以,其余 5%为不知道2。从这些调查数据中不难看出,尽管一些优秀的搜索服务提供商(Google1、Yahoo2、百度3等)在研究搜索技术方面已经花费了大量的时间和精力,但目前的搜索引擎仍然存在不少的局限性:比如信息丢失、返回信息太多、信息无关等。这使得网络用户对于现有的搜索技术仍然不满,期盼更完美的搜索技术的出现。为了克服传统搜索引擎的弊端,研究人员正尝试探索一种更高效、更人性化的搜索引擎技术回答系统(Question Answering)。我们知道,传统的搜索技术是依赖关键字检索,通过关键字检索来寻找所需的资料及文件。但是,关键字检索并不能真正立即
17、获取所需要的知识或者立即回答使用者的问题。而此类问答系统的目标是允许用户以自然语言形式向系统提问,系统也能以自然语言形式给予用户的快速、准确的回答允许用户以自然语言形式向系统提问,系统也能以自然语言形式给予用户的快速、准确的回答。由于中文检索技术发展得较晚,以及中文本身所具有的各种特性,与西方研究者所提出的技术仍存在着不少的差异,其技术方法可能无法完全移植到中文环境下来使用。因此,为了最终开发出强大的中文问答系统,本文将重点放在问句分类与解析这一部分。这是由于:?问句是用户给予的唯一信息?问句不会太长,深入分析也不会降低整个问答系统的效率?对后续步骤至关重要;反之,如果出现错误将直接影响到系统
18、最终的效果?减少候选答案的空间?便于制定答案选择策略3 可见,问题分类与解析是任何问答系统的首要部分,对其研究将为后续步骤奠定基础。1.2 研究现状 1.2.1 问答系统研究现状 自 1999 年文本检索会议(Text Retrieval Conference,简称 TREC)引入问答系统评测专项(Question Answering Track,简称 QA Track)后,人们对基于自然语言的问答系统再次产生了浓厚的兴趣,在近些年的 TREC 比赛中,QA Track 是最受关注的评测项目之一。从第一个英文问答系统 STUDENT4,到早期著名的 LUNAR 系统5,MURAX 系统6,DA
19、RPA支持的 HPKB 工程7和现今由美国 NIST 组织的 TREC QA Track8-12,英文问答技术已经获得长足的发展,研究领域也从初期的限定领域(Moon Rock,Crisis Management)拓展到如 1 http:/ 2 http:/ 3 http:/ 基于混合模型的问题分类与解析研究 第 2 页 共 47 页 今的开放领域;研究对象从当初的固定语料库拓展到互联网。目前,比较成功的英文问答式检索系统有 Ask Jeeves4,AnswerBus5和 STARTIV6等等。而中文问答式系统基本上处于空白,成型的很少,基本上都是在搜索引擎上的一些改进,比如:尤里卡搜索引擎、
20、问一问搜索引擎等。这些系统都不具有或不完全具有问答式系统的特点,一般只能提供相关信息,但问题与答案的匹配以及最后答案的给出形式(应该是自然语言形式)都没能满足人们的需求。近年来,国内从事问答系统的研究机构也在不断地增加。在往届的 TREC QA Track 评测中,复旦大学13、中科院计算所14都获得了良好的成绩。此外,中科院计算所7、哈尔滨工业大学15、复旦大学等在汉语问答技术的研究中也作了有益的探索。但是,和国际研究相比,国内从事问答系统尤其是汉语自动问答技术研究的科研机构还是很少,而且基本没有成型的汉语自动问答系统问世。一个很重要的原因是:缺乏一个公认的、相对成熟的汉语问答系统评测平台1
21、6。1.2.2 问题分类学的研究现状 所有的问答系统理论都包含特殊的问题分类方法。Wendy Lehnert 开发的 QUALM 系统是基于十三种概念种类以及利用推理分析过程将问题映射过去的而建立的。Lehnert 提出的分类学主要是基于一种存储表示方法称为概念依存。DAndrade 和 Wish 开发的基于定量的人与人之间的行为研究的语音行为理论提出八个主要的语音行为来实质地将所有语音行为归类:问题(相当于提问)、断言、请求/指示、反应、表达评估、承诺和声明。这八大类是从哲学、语言学和社会学中的行为理论抽象出来的。Graesser 和 al.提出的问题分类学包括了问题、断言和请求/指示,因为
22、只有这些是提出真正询问要求的17。Eduard Hovy的Webclopedia系统18也包含有自己的分类学19,在后面的部分(见2.4.1)会介绍到。中文方面的问题分类学大多参照国外分类学制定几个大类。哈尔滨工业大学的问答系统问题集具有自己的一套分类学,后面部分(见 2.4.2)会详细介绍。然而,这些分类学都是一家之言,更大范围的统一的开放领域问答系统应用的分类学仍然需要很多工作去完成。1.2.3 问题分类的研究现状 分类学制定好以后,如何将确定每个问句的类别便是问题分类系统的任务。要确定一个问题问的是什么并不是一件简单的事情。在一些语言中,比如英语和德语,疑问句的第一个词便是疑问词(Wha
23、t,When,Where,Who 等);而在汉语中,疑问词的位置相对来说就自由许多。因此,英文的问答系统中的问题分类子系统往往与问题解析器结合成为一个模块,并能够取得较好的解析和分类效果。中文由于其特殊性,从分词到命名实体的抽取到问题分类都不是一帆风顺的,而这些步骤之间又息息相关,加上中文自然语言技术研究起步比较晚,中文问题分类器的效果并不是非常好。由于汉语句法分析器效果很差(大约只有 50%60%),而统计学方法在文本分类领域取得了很好的效果,因此现行的问题分类器大都使用回避分词、语法分析、语义分析等语言学技术的基于词频的统计学方法20,并没有考虑汉语语言学的特征。这正是本文提出混合模型作为
24、尝试的原因。4 http:/ 5 http:/ 6 http:/www.ai.mit.edu/projects/infolab 7 http:/ 基于混合模型的问题分类与解析研究 第 3 页 共 47 页 1.3 存在的问题 Wendy Lehnert 在她的书中提到的“自然语言问答系统的困难并不简单。人们对于回答一个问题当中的认知过程大多不太了解,因此也就对于这些过程的复杂性没有感觉”。问答系统的难点在于问题被回答之前必须被理解。解释过程的一个层面就是问题的分类。1.3.1 一个例子17 问:为什么昨天晚上约翰滑旱冰去麦当劳?如果某人将提出答案为:答:因为他饿。那么也许提问者并不满意,因为实
25、际上他(她)想知道的是:问:为什么约翰是滑旱冰而不是走着或者开车或者利用其他合理的交通工具去?这种情况下,很清楚问题是针对滑旱冰这一行为的,而不是目的。因此,问答系统必须引入世界知识(World Knowledge)和常识性的推理能力(Reasoning)。另外,世界知识和侧面信息是相互影响的。对于更多成人来说,滑旱冰比去麦当劳更不同寻常;任何不同寻常的事物都需要解释,因此这将成为问题的焦点。然而,如果人人都知道约翰是一个古怪的人,不吃健康食品,但到哪里都是滑旱冰去的,这个问题:问:为什么昨天晚上 John 滑旱冰去麦当劳?就会被合理地解释为询问关于麦当劳或者 John 在麦当劳发生的活动,而
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 混合 模型 中文 问题 分类 解析 研究
限制150内