汉语术语定义的结构分析和提取1.pdf





《汉语术语定义的结构分析和提取1.pdf》由会员分享,可在线阅读,更多相关《汉语术语定义的结构分析和提取1.pdf(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 汉语术语定义的结构分析和提取汉语术语定义的结构分析和提取1 1 张艳 宗成庆 徐波(中国科学院自动化所 模式识别国家重点实验室 北京 100080)摘要:本文介绍的工作是在汉语句法分析的基础上的一种应用研究,对术语的下定义问题进行了理论上的探讨。术语的定义概念提供模板和构成方式,可以作为知识发现研究的数据基础。本文针对电子学和计算机领域的语料进行了分词和词性标注处理,然后应用句法分析工具分析出句子中的短语成分,并根据汉语句子的句型结构,总结出术语定义的结构特点,自动提取定义的模板。最后根据已建立的数据和概念描述,给出了术语发现的算法。关键词:句法分析,知识发现,术语定义 Structure
2、Analysis and Extraction for the Definitions of Chinese Terms ZHANG Yan,ZONG Chengqing,XU Bo(National Laboratory of Pattern Recognition,Institute of Automation,Chinese Academy of Sciences,Beijing 100080,China)Abstract:The work presented in this paper is a kind of application based on Chinese syntacti
3、c parsing.It is theoretic discussion to define term names.The definition of terms provides patterns and structures for term concepts and is the data basis of knowledge discovery.In this paper,the corpora of electronics and computer domain are firstly segmented and tagged with part-of-speech.Then two
4、 parsers are applied to obtain structures and phrases of sentences.According to the syntactic structures of Chinese sentences,we have summarized the structure characteristics of term definitions and automatically extracted the patterns of definitions.Finally,we describe the algorithm to define a new
5、 term according to the built data knowledge.Keywords:Syntactic Parsing,Knowledge Discovery,Term Definition 一、引言一、引言 术语是持有某一目的而使用的语言,分为日常生活中使用的一般性术语和科学技术专业用术语。专业术语是对一个专业概念的系统性、概括性的描述1。本文所做的工作主要研究专业术语的定义。术语数据库是自然语言处理领域的一个重要的知识资源。通常术语用来描述科学技术方面的概念,属于语言词汇的一部分,但又不是被人们普遍认知的词汇。术语的记录和整理与现代科学技术的发展密切相关,同时也是总结
6、和扩展新的科学概念的需要。术语的定义在自然语言处理领域中的研究还不是十分广泛,它为术语概念提供模板和结构方式,也可以作为特定领域知识发现研究的数据基础。目前国内还没有在术语下定义这方面进行过系统的研究。作为汉语句法分析的一个应用,如何给术语下定义有着重要的理论研究意义和应用价值。它 1 基金项目:国家自然科学基金资助项目(60175012);国家 973 项目(G1998030504)作者张艳,1973 年出生,女,北京人,博士生.主要研究领域为自然语言处理.不仅可以得到新的语法知识结构,还能够为自然语言处理的应用领域,如问答系统,知识发现等提供基础的知识数据库。本文是针对电子学和计算机领域提
7、取出相关的术语及其定义模板,通过自动获取的结构模板,给出术语下定义的实现算法。文章第二部分概述了定义的概念,并且总结了术语下定义的一些规则和方法,第三部分针对电子学和计算机领域的术语知识,自动获取了相关的定义组成结构和模板结构,第四部分是根据获取的数据,提出了术语发现的算法和结果分析,最后是结论。二、“定义”的概念和下定义的方法二、“定义”的概念和下定义的方法 2.1.“定义”的概念 2.1.“定义”的概念 定义就是用一个已知概念来对一个新概念作综合性的语言描述2。从结构上来说,一个定义可以分为被定义项(definiendum)和定义项(definiens)两部分。定义项就是对被定义项的概念性
8、描述。它一般又可以分为属概念(genus)和种差(distinctive characteristics)两个部分。下面是定义的表示形式:被定义项 定义项(被定义的概念)属概念 种差 下“定义”究竟是什么意思呢?它首先是把某一个概念放在另一个更广泛的概念里,而这个更广泛的概念就是最邻近的属概念,也就是“上位概念”。一个概念可以有不同层次的属概念。用属概念和种差给一个概念下定义时,究竟选择哪个层次的属概念才算合适,要看解决问题的实际需要。在一般情况下,我们总是选择与所定义的概念最邻近的属概念来下定义。因此,如何选择属概念和选择什么属概念,是术语定义的重要问题之一,是应该慎重考虑的。种差是使被定义
9、概念与属概念区别开来的属性,它可以是事物的性质,也可以是事物产生或形成的情况,也可以表示事物的功能、位置、形成过程等等。例如,“辐射计是测量电磁辐射量的仪器”这个定义中,“辐射计”是被定义项,“测量电磁辐射量的仪器”是定义项。定义项由属概念“仪器”和种差“测量电磁辐射的”两个部分组成。这里,种差表示“辐射仪”的用途和功能2。2.2 术语下定义的方法和规则 2.2 术语下定义的方法和规则 术语下定义一般具有模式化的特点,有其独特的规则和方法,通常有三种基本类型。第一是内涵定义,就是列举被定义概念的特征来描述概念的内涵的定义,是经典意义上的定义。内涵定义中所表示出来的特征,应该是被定义概念的本质特
10、征。第二是外延定义,是通过概念的数量范围来描述概念的外延的定义。外延定义要求一些预先的知识,这种定义假定接受定义的人事对于所列举和描述的概念已经比较熟悉。由于外延定义比较简洁明白,常常出现于法律文献中。第三叫做上下文定义,通过引证被定义概念在文章中出现的上下文来说明它的含义。因为有上下文,概念的含义往往可以被理解或猜测出来3。要给一个概念下一个正确的定义,除了必须具备被定义概念所涉及的具体的科学知识之外,还必须掌握定义的规则。只有把被定义概念所涉及的具体科学知识和定义的规则结合起来,才能给概念下一个正确的定义。定义的规则通常有四条2:(1)定义必须是相称的,定义项的外延和被定义项外延必须完全相
11、同。不满足这条规则,就会“定义过宽”或“定义过窄”。“定义过宽”就是定义项大于被定义项的外延。而“定义过窄”就是定义项的外延小于被定义项的外延。因此,判断定义是否相称的标志是看定义项与被定义项是否可以互换。(2)定义项不能直接或间接地包含被定义项。违反了这条规则,就会犯循环定义的错误。(3)内涵定义一般不能是否定的。如果内涵定义是否定,那么就只是表示被定义项所反映的事 物不具有某种属性,而没有说明被定义项所反映的事物具有的特殊属性。这样,定义就不能揭示概念的内涵。但是,对于某些事物来说,不具有某些属性正好就是它的属性,在给反映这种事物的概念下定义时,就需要用否定的形式。(4)定义必须使用科学的
12、术语。为了清楚地揭示被定义概念的内涵和外延,必须用科学的术语给概念下定义,以避免对被定义概念作错误的理解。在一个定义体系中,只能使用已经定义的术语或众所周知的术语来作定义中的定义项,而不能使用含糊不清的概念,也不能使用比喻。以上四条规则是下定义时必须严格遵守的规则,违反了其中的任何一条,都将使定义出现逻辑上的错误。三、限定领域术语的知识库建立三、限定领域术语的知识库建立 3.1 术语语料的句法分析处理 3.1 术语语料的句法分析处理 我们进行术语结构和模板的自动提取的原始语料是大百科全书4中的电子学和计算机领域的语料,它包含了术语的概括性定义、发展过程和实际中的主要用途等信息。把这些生语料加工
13、成可用的熟语料需要下面的三个处理过程。第一,把原始语料处理成干净的纯文本文件,删除一些特殊符号和无用符号。例如:术语“安全性试验”的原始定义为“验证设备是否符合 HTK 安全防护 HT规定的实验”,删除其中无用的符号“HTK”和“HT”。第二,对干净的纯文本文件进行分词处理。采用的方法是 tri-gram 统计方法。由于该统计模型是基于人民日报的语料训练的,本文中的语料是关于电子学和计算机的专业知识,属于不同的领域范围,集外词占有相当的比例。为了消除直接分词造成的正确率不高的影响,本文采用分步的方法进行分词。(1)用原始的 tri-gram 模型先对 20%的语料进行第一次分词,分词的正确率是
14、 85.1%;(2)对分完词的这部分文本进行手工校正,然后用这些分词正确的句子做训练,得到新的统计信息;(3)用新的频率信息对剩余的语料的 20%做分词处理;(4)循环第二、三步操作,每次都处理剩余语料的 20%,直到最后全部分词完毕。下面通过图 1 来表示 5 次分词的结果。758085909510012345正确率(%)图 1 分步处理的结果比较 第三,标注经过分词的语料。上述的 tri-gram 统计模型是分词和标注一体化处理5,每一次分词的同时都得出相应的词性。在校正分词错误的时候,并没有把所有标注错误的词性都进行校正,只是把分错的词重新标注了正确的词性。这样,直到全部的语料用统计方法
15、进行标注以后,最后用基于转换的规则方法获取的规则模板进行了校正。混合方法进行词性标注后的正确率为 91.20%。经过整理后的准确、概括性的术语定义大约有 1100 个,术语的定义有其独特的地方,它的总体结构是固定的,但短语结构的子模块的组合又存在着多种形式。分析术语的定义语句结构采用了两个方法,一是在 GLR 方法6基础上进行改进的方法,二是线图分析方法7。同样的,由于分析语 料的领域差别和集外测试的数据稀疏问题,我们也用类似于分词的处理方法分步分析术语的定义。但是由于语料中术语的数量较少,我们分为两步处理,即 50%的定义语句(C1)用原始的规则进行分析,剩余的 50%(C2)作为集外的测试
16、。我们的基本的概率上下文无关文法的规则库 R1是从 UPenn 的中文树库中获得的,每条规则的概率反映的是该语料中的短语结构分布情况。用 R1中的规则分析 C1的定义语句,在得出初步的句法结构后,手工校正结果中的错误,然后用这部分新的标注好结构的语料重新提取规则,得到新的概率上下文无关规则库 R2。这两个规则库各有其优点:R1覆盖面相对较大,R2更有针对性,更接近术语定义语句的分布特点。我们把 R1和 R2中的规则合并起来,但是并不是规则的频率值直接相加,对 R1和 R2选取不同的权重,得到规则库 R3的概率计算公式:)()()(21RPRPRPs+=。通过实验确定0.2,0.8 的结果最好。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 汉语 术语 定义 结构 分析 提取

限制150内