国家社科基金项目《计算语言学方法研究》成果简介冯志.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《国家社科基金项目《计算语言学方法研究》成果简介冯志.pdf》由会员分享,可在线阅读,更多相关《国家社科基金项目《计算语言学方法研究》成果简介冯志.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、载国家社会科学基金项目成果选介,2009 年出版 国家社科基金项目计算语言学方法研究成果简介 冯志伟 执笔 国家社科基金项目计算语言学方法研究成果简介 冯志伟 执笔 项目批准号:03BYY019 项目名称:计算语言学方法研究 成果形式:专著 成果字数:498,234 字 是否出版:因为有一些问题还不够成熟,还需要进一步研究,作者建议暂不出版 项目负责人:冯志伟(教育部语言文字应用研究所)课题组成员:杨泉,胡凤国,张和友 计算语言学(computational linguistics)是用计算机研究和处理自然语言的一门新兴边缘学科,涉及语言学、计算机科学、数学、心理学等部门。在计算语言学的发展过
2、程中,提出了很多方法,这些方法,在理论上有一定的深度,在实践上有实用价值,值得引起我们语言学研究者的重视。但是,国内计算语言学界对于这些方法的研究基本上是支离破碎的,缺乏系统的总结,更缺乏理论上的分析。本课题在全面调查国内外计算语言学各种方法的基础上,对这些方法进行了系统的描述,并在理论上进行了深入的分析和概括,总结出规律性的具有方法论意义的认识。其主要内容分为七个部分。一、计算语言学的学科定位和主要方法 一、计算语言学的学科定位和主要方法 这一部分首先从计算机处理自然语言的过程、计算语言学的范围以及计算语言学的历史三个角度来考察计算语言学的学科定位问题。从计算机处理自然语言的过程来考察它的学
3、科定位,是从纵的角度来讨论;从计算语言学的范围来考察它的学科定位,是从横的角度来讨论。通过这种纵横交错的考察,我们对于计算语言学的学科定位就可以在共时的平面上得到比较清晰的认识。然后,我们再从计算语言学的历史来考察,也就是从发展的角度来讨论,这样,我们对于计算语言学的学科定位就可以在历时的平面上得到比较清晰的认识。对于计算语言学方法的研究,可以从方法论的角度来论述,也可以从语音、词汇、形态、句法、语义、语用研究中使用的方法来论述。从方法论的角度,计算语言学方法可以分为基于规则的方法(rule-based approach)和基于统计的方法(statistics-based approach)两
4、个方面。基于规则的方法是理性主义的方法,基于统计的方法是经验主义的方法。这两种方法实际上并不是完全对立的,它们各有利弊,而且目前这两种方法有合流的倾向,它们正在相互结合起来,取长补短,相得益彰。本项目如果把基于规则的方法和基于统计的方法分割开来研究,很多问题将会纠缠不清,不便于论述。因此,本项目不采取这样的论述方式。本项目采取按照语言学学科分类的方式,从语音、词汇、形态、句法、语义、语用研究中使用的计算语言学方法来加以论述。分别讨论语音的自动处理方法、词汇的自动处理方法、形态的自动处理方法、句法的自动分析方法、语义的自动处理方法、语用的自动处理方法。在论述时,首先对于各个领域内计算语言学方法的
5、发展历史进行简要的回顾,然后,再对各种具体的方法进行论述和分析。这样,计算语言学方法的研究便有了一个可靠的历史背景,我们对于各种方法的来龙去脉也就更加清楚了。二、语音的自动处理方法二、语音的自动处理方法 文本-语音转换(Text-to-Speech 简称 TTS)的核心任务是以文本中词的序列作为输入,产生声学波形作为输出。自动语音识别(Automatic Speech Recognition,简称 ASR)的核心任务是以语音的声学波形作为输入,产生单词串作为输出。这一部分详细讨论了语音自动处理的主要方法:贝叶斯公式(Bayes formala)、噪声信道模型(Noisy Channel Mod
6、el)、N 元语法(N-gram Grammar)、隐马尔可夫模型(Hidden Markov Model,简称 HMM)等。这些方法成为了计算语言学中各种统计方法的基础。在标音方面,本项目采用了美国 DARPA 提出的 ARPABET 代替普通的国际音标IPA,这种新的标音方法与 ASCII 码一致,便于在计算机上使用,也便于撰写电子文本和印刷排版。三、词汇的自动处理方法三、词汇的自动处理方法 语言中的词汇具有高度系统化的结构,正是这种结构决定了单词的意义和用法。这种结构包括单词本身的固有的与上下文无关的语义特征以在文本中单词与单词之间语义关系特征。前者是单词的静态语义特征,后者是单词与单词
7、之间的动态语义特征。对于单词的静态语义特征,这一部分从知识本体(ontology)的高度出发,分析了美国普林斯顿大学研制的词网(WordNet),指出了其优点和不足之处,并介绍了我国学者提出的 Ontol-MT 通用知识本体系统,说明了 Ontol-MT 在机器翻译和歧义消解中的应用。对于单词与单词之间的动态语义特征,这一部分介绍了美国语言学家Fillmore 研制的框架网络(FrameNet)。框架网络的中心思想是词的意义的描述必须与语义框架相联系。框架是信仰、实践、制度、想象等概念结构和模式的图解表征,它为一定言语社团中意义的互动提供了基础。由于多义词是任何语言中都普遍存在的现象,而多义词
8、中诸多的词义分布又很不容易找到一般的规律,多义词的自动排歧涉及到上下文因素、语义因素、语境因素,还涉及到甚至日常生活中的常识,而这些因素的处理,恰恰是计算机最感棘手的问题。所以,词义排歧(Word Sense Disambiguation,简称 WSD)是计算语言学中的一个特别困难的问题。这一部分分析了英语中的词汇歧义现象,介绍了几种重要的词义排歧方法。四、形态的自动处理方法四、形态的自动处理方法 不论是分析型语言、屈折型语言还是黏着型语言,都有形态自动分析的问题。形态分析主要采用有限状态自动机和有限状态转移网络来进行。这一部分详细地介绍了有限状态自动机和有限状态转移网络的基本原理,通过大量实
9、例来具体地说明自动形态分析的方法。汉语书面文本是连续的汉字串,单词与单词之间没有空白,因此,汉语形态分析的主要任务就是自动切词和自动词性标注。这一部分还分析了汉语书面文本中确定切词单位的某些形式因素,为自动切词提供了比较可行的方法论基础。五、句法的自动分析方法五、句法的自动分析方法 句法自动分析在计算语言学中叫做剖析(parsing)。所谓剖析,就是取一个输入并产生出表示这个输入的结构的过程。所谓句法剖析(syntactic parsing),就是计算机识别一个输入句子并且给这个句子指派一个句法结构(例如,树形图,线图)的过程。这一部分分别讨论了目前在计算语言学中广泛使用的基于转移网络的自动句
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算语言学方法研究 国家 社科 基金项目 计算 语言学 方法 研究 成果 简介
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内