基于现代汉语词语的语法功能分类.pdf
《基于现代汉语词语的语法功能分类.pdf》由会员分享,可在线阅读,更多相关《基于现代汉语词语的语法功能分类.pdf(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于现代汉语词语的语法功能分类 俞士汶 北京大学计算语言学研究所 在朱德熙先生的语法理论的指导下,北大计算语言学研究所与中文系合作,通过几年的研究,提出了一个效劳于语言信息处置的现代汉语词语分类体系,并将数以万计的词语实际进行了归类,与此同时还按类详细描述了每一个词语的多种语法属性,初步建成了“现代汉语语法电子词典”,另外对数十万字的语料进行了切分和词性标注。这就又进一步查验了词类划分的科学性与可操作性。这到如此规模和如此浓度的汉语语言工程实践可能是罕有的。本文介绍现代汉语词语分类体系、分类的理论基础,并以假设干词类例详细介绍具体的划类准那么。现代汉语的词分以下 18 个大体词类,括号中的拉丁
2、字母是各个词类的代码。名词(n),时刻词(t),处所词(s),方位词(f),数词(m),量词(q),区别词(b),代词(r),动词(v),形容词(a),状态词(z),副词(d),介词(p),连词(c),助词(u),语气词(y),拟声词(o),叹词(e)。这些大体词类能够归并为较大的词类。名词、时刻词、处所词、方位词、数词、量词统称为体词,动词、形容词、状态词统称为谓词。有一部份代词属于体词,另一部份代词属于谓词。体词、谓词、区别词和副词又合称为实词。介词、连词、助词、语气词合称虚词。实词与虚词是汉语两大词类。另外还有拟声词与叹词,它们游离于这两大词类之外。自然语言处置的常规技术要求庆自然语言处
3、置系统中配备一部电子词典。关于运算机来讲,能够以为作为电子词典的登录项的语言单位是“词”。大体中大部份确信是语言学家认同的词,这也确实是暗示了其中一部份不能看做“词”。从运算机处置实际文本的需要动身,从提高运算机处置效率的角度考虑,词典中另外包括了以下 7 类语言成份:前接成分(h):阿,老,非,超,单 后接成分(k):儿,子,性,员,器 语素字(g):民,衣,失,遥,郝 非语素字(x):鸳,批,蚣 成语(i):接部就班,八拜之交 习用语(l):总而言之,由此可见 简称略语(j):三好,全总 前 4 类是比“词”更小的单位,不成词。这些成份的数量是有限的,只要电子词典的规模许诺,应当尽可能地将
4、这些成份全数收入。后 3 类是比“词”更大的单位,词典中只能收一部份利用频率高的。本文将电子词典中登录的各类语言万分笼统地叫做“词语”。以下行文中的“词类”是就前面的 18 个大体词类而言的,有时也讨论上述后 7 类语言成份。分类的目的与依据 为了进行语法研究与信息处置,需要把语法功能相同的或相近的词归成一类。那个地址包括两项工作。一项为哪一项要针对汉语词语的全集,依照某种标准,成立一个分类体系。第一章所介绍的确实是面向信息处置的一种汉语词语分类体系。另一项工作是决定该全集中的每一个词语究竟属于哪个词类,这项工作能够叫“归类”,只是人们适应上也在“归类”的意义上利用“分类”那个术语。若是面向人
5、的语言研究,词语分类尚不十分迫切的话,那么面向运算机的语言研究,词语的语法分类及其代码化几乎是不可缺少的。词语分类事实上是将最重要的语法知识与语法规那么层次化,从而为自然语言的分析与生成提供最重要的线索。划分词类的本质依照只能是词的语法功能。所谓词的语法功能主若是指:(1).和某个或某类词语组合的能力;(2).在句法结构中充当句法成份的能力。例如,考察具有如下语法功能的词。a.可以用作主谓结构中的谓语,但不能带真宾语。如“个子高,教室安静”中的“高,安静”是谓语。象“高三公分,安静了两天”中的数量短语“三公分,两天”是准宾语,而不是真宾语。b.可以受“很”一类程度副词修饰,如“很高,挺安静,特
6、别雄伟”。c.可以作述补结构中的补语,如“洗干净,捆得结实”中的“干净、结实”是补语。d.直接或加“地”后作状中结构中的状语,如“迅速提高,安全地转移”中的“迅速、安全”是状语。e.直接或加“的”后作定中结构的定语,如“漂亮小姐,挺拔的山峰”中的“漂亮、挺拔”是定语。f.可以用 a+“不”+a 的形式提问,如“硬不硬,痛苦不痛苦”。g.后可接语所词“着呢”,如“美着呢,痛快着呢”。可将如此的词归成一类,起个名字叫“形容词”,而且一个代码“a”表示。如此,若是判明了一个词具有上述功能,那么能够将它归入形容词;反之,若是能从电子词典查得某个词的词类代码是“a”,那么知它极可能具有上述语法功能,除非
7、电子词典对其中某些词的某些语法功能还有更准确的描述。参照上述语法功能,能够将形容词同其它词类区分开。如名词不具有上述功能中的 b,c,d,f,g,一样地说,也不具有功能 a。同时名词的语法功能中也有一些是形容词所不具有的。划分汉语词类的本质依据确实是这些语法功能的异同。划分词类的本质依据只能是词的语法功能,词的意义不能作为划分词类的依据,这与划分词类的目的是紧密相关的,因为表示同类概念的词的语法功能并非必然相同。例如,“战争”与“打仗”指的是同一个概念,可是“战争”是名词,“打仗”是动词。汉语不象印欧语那样有丰硕的形态,也不能依照形态给汉语的词语分类。在第 1 章描述的分类体系中,有一些词类(
8、如代词、数词、拟声词和叹词)不是严格依照它们的语法功能散布划分出来的。这种情形可不能给词类划分理论造成困难。以代词为例,它是依照一个词是不是具有指代功能划分出来的,这事实上是语义范围的功能。若是严格按功能划分,不妨细分为体词性代词(过去叫代名词)和谓词性代词。此刻仍将它们归入一类,是为了同传统的说法衔接,同时也适合信息处置的需要。关于分类问题的假设干说明 词的同一性问题 尽管说划分词类不是依据意义,可是需要熟悉到,划分词类只能在确信了词的同一性的基础上进行。所谓同一性指的是在不同的语言环境中显现的词形相同的假设干个词应该算同一个词仍是应该算不同的词。书面汉语的同形词限定为汉字相同的词,也能够直
9、接叫做同字词。同字词又可分为同字异音词与同字同音词。如“好人好事”中的“好”与“好管闲事”的“好”是同字异音词,而“专门好”与“好狠”中的“好”却是同字同音词。同字异音词固然是不同的词。因此,同一性老是的研究对象是同字同音词。例 1 门上挂着一把锁。例 2 请把门锁好。例 1 与例 2 中的两个“锁”的意义区别很明显,而且语法功能也有明显的不同,因此有理由说它们是不同的两个词,一个属名词,另一个属动词。例 3 村里死了一口猪。例 4 这个办法很死。例 3 中的“死”是失去生命的意思,能够带体词性宾语,例 4 中的“死”是呆板、不灵活的意思,能够受“很”一类程度副词修饰。若是以为“失去生命”与“
10、不灵活”确实是不同的意思,那就能够够以为例 3 与例 4 中的两个“死”是不同的词,一个是动词,一个是形容词。若是以为“不灵活”的意思是由“失去生命”的意思引申出来的,把例 3 与例 4 两个“死”看成同一个词,这时就需要把有关“死”的各类语法功能合在一路,由此来确信“死”的词类,采取这种观点,“死”兼属动词和形容词这两类词。只是,关于运算机来讲,在句法分析的范围内,只要能在电子词典中查到“锁”即是名词又是动词,“死”既是动词又是形容词就达到要求了。至于分属名词与动词的“锁”,分属动词与形容词的“死”是两个不同的词仍是同一词兼属不同词类的区别就不那么重要了。各类词的划类准那么 既然划分词类的本
11、质依据只能是词的语法功能,那么在确信各类词的分类标准时,是不是都要列举各类词的全数语法功能呢?这是没必要要的,也是不可能的。因为全数语法功能中固然也包括了这一类词与其它类词的某些相同的语法功能,而这些相同的语法功能对划分词类是没有作用的。划分词类时必需注意不同词类之间那些相互有区别的特点,即各个词类的语法特点。在进行将具体的一个词划归某个词类的实际操作时,查验该词是不是具有该类词的全数语法特点往往也是不容易的,通常只要抓住最重要的语法特点即可。例如,节列举了形容词的各类语法功能(固然还不是全数),其中象“做定语”如此的功能就算不上是形容词的语法特点,因为名词、动词一样能够做定语。形容词的划类准
12、那么能够选如此两条:1.能够作谓语但不带真宾语;2.能够被“很”修饰。选择分类标准的原那么应该是由此成立起来的词类,其所属的词语在语法功能上要有足够多的一起点,同时跟别的词类又要有足够多的不同点。划类标准也不是绝对的,不是一成不变的。假设选择的划类标准不同,成立的词语分类体系也会有所不同。不同类的词之间必需要有彼此区别的语法特点,但不是说不同类的词之间毫无一起的地方。动词与形容词都能够做谓语,后面都能够接“了”及趋向动词“起来”,确实是它们一起的语法功能。若是以这些一起的语法功能作为划类标准,那么能够将动词与形容词(还包括状态词)归并为一个更大的类,即谓词。典型性问题 在一个确信的分类体系中,
13、同类的词有一起的语法功能,但不等于说,同类的词的语法功能完全相同。关于任何一种自然语言,实际可行的、有价值的分类只能做到把语法功能相同或相近的词归在一路。如此一来,同类的词,有些是典型的,符合分类的的全数标准或最重要的标准,有些是不典型的,只符合其中一部份标准。例如,“苹果、水泥、勇气、心胸”都是名词,它们的一起特点是做句子的评语与宾语,不受副词修饰。一样地说,名词能够受数量词修饰,只是量词的类型又有不同。如修饰“苹果”的数量结构中的题辞能够是个体量词、气宇词、容器题辞与种类量词等,与“水泥”搭配的就没有个体题辞,与“勇气”搭配的只有种类量词和不定量词,而“心胸”却不能受任何数量结构或数词修饰
14、。在列举各个词类的划类准那么时,应尽可能地把那些重要的列在前面。当判定一个具体的词是不是属于某个词类时,就能够够看它是不是符合这些判定标准。越符合多项标准或前面的标准,越是该类典型的词。反之,虽将一个词划入了该类,但它只符合少数几项标准或只符合较后面的标准,那么那个词在该类中就不是典型的。这也是语言现象的模糊性的一种表现。词语的兼类 在“词的同一性问题”中已经涉及了词的兼类,那个地址更集中地讨论一下那个问题。词的兼类指的是若是同字同音同义的同一个词具有不同词类的语法功能,那么以为那个词兼属不同的词业,简称兼类。兼类问题可用表征形容词与动词关系的图 1 来讲明。在图 1 中,在边的圆代表形容词的
15、集合,右边的圆代表动词的集合。这两个圆不相生命部份别离用 a,v 表示,相重合的阴影部份用$表示。形容词与动词尽管都是谓词,但它们有彼此区别的语法特点,如形容词能够受“很”修饰且不能带真宾语,而动词可者不能受“很”修饰或能带真宾语。依照这些语法特点,能够把绝大部份形容词与动词区分开来。可是,汉语中确实有一些词处于两个圆重合的阴影部份,如“端正,巩固,方便,壮大,繁荣,丰硕”等,这些词既具有形容词的语法功能,又具有动词的语法功能,而且看不出它们作为形容词或作为动词,在意义上有什么区别。因此,本研究报告以为这些词兼属形容词与动词。前面已经提到,划类标准有必然的相对性。仍以图 1 为例,关于 a,v
16、,$能够有以下 4 种处置意见。(一)将 a,v,$各自处置成独立的类,这就需要为$起个适合的名字。本研究报告维持已经划定了的 18 个大体词类的稳固性,不主张如此做。(二)将阴影部份$与 a 归并,形容词的集合确实是左侧的完整的圆。动词的集合只剩下 v,动词集合内的各个元素间语法功能的一致性就加大了。(三)与(二)反过来,将$与 v 归并。动词的集合确实是右边的完整的圆。形容词的集合只剩下了 a。(四)a 为形容词,v 为动词,$为兼类,既是形容词的子集,又是动词的子集。反映在电子词典中确实是将同一个词如“端正,巩固,方便”区分成两个登录项(即词语),别离归入形容词与动词。若是将 a,v,$
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 现代汉语 词语 语法 功能 分类
限制150内