《美军国防语言研究的主要方向和特色应用语言学论文语言学论文.pdf》由会员分享,可在线阅读,更多相关《美军国防语言研究的主要方向和特色应用语言学论文语言学论文.pdf(23页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、美军国防语言研究的主要方向和特色-应用语言学论文-语言学论文 文章均为 WORD 文档,下载后可直接编辑使用亦可打印 随着我国综合国力的提升和国家利益的拓展,语言能力日益成为 实力的重要组成部分。在情报整编、反恐维稳、国际合作等诸多事务中,语言能力的高低已经成为影响甚至决定 战斗力的重要因素。作为语言能力建设起步较早的国家,美国在语言政策的制定与实施、语种的统筹和规划、语言人才的储备与管理、语言研究的引导与支持等方面有很多经验值得我们借鉴。然而,以往国内学者在探讨美军语言能力时,主要集中研究美国的国防语言战略,却较少关注语言研究在推动美军语言能力中发挥的重要作用。针对这种情况,本文将通过分析美
2、 方资助的语言研究项目,梳理美军国防语言研究的主要方向和特色,以期对我军语言能力建设提供借鉴。一、研究方法 (一)数据来源 本研究所用数据来自于美国国防科技情报中心(The Defense Technical Information Center,简称 DTIC)。该中心隶属于美国国防部,是美国最大的国防信息服务机构,其潜在用户为美国国防部工作人员以及与国防部合作的承包商、大学和研究所。该中心收录了与国防科技相关的各类资料和数据,包括技术报告、项目进展报告、学位论文、参考文献等,其中部分非密级信息面向公众开放。通过分析该中心收录的科研项目信息,可以较全面地揭示美军对现实语言需求的认知与把握,以
3、及美军语言研究的主要方向和应用领域。(二)数据处理 我们以 language、linguistic 和 linguistics 作为关键词,在美国国防科技情报中心数据库中检索出所有与语言相关的研究报告,共 1990篇。出于保密等考虑,该数据库仅公开其中 1000 条数据信息。这会在一定程度上影响分析结果的全面性,但并不妨碍我们针对总体趋势进行探索性的分析。每一条数据信息主要包括以下内容:报告编号(Accession Number)、题目(Title)、报告类别(Descriptive Note)、作者单位(Corporate Au-thor)、作者姓名(Personal Author)、报告日
4、期(Report Date)、报告摘要(Abstract)、关键词(De-scriptors)、学科类别(Subject Categories)。我们将以上信息逐条拷贝下来,组成本研究的基础数据。需要指出的是,部分年代较为久远的研究报告,在数据库中仍然以 PDF格式存储,需要我们手工将其中的关键信息摘取出来。在数据收集过程中,我们发现 1000 篇文献有一定的重复。去除重复数据后,共得到821 条数据,数据的年代最早是上世 纪 60 年代,它们组成了本研究的数据来源。(三)数据分析 本研究主要采用聚类分析的方法,将所收集的文献数据分成若干代表不同研究领域的子集。在聚类之前,首先对文本进行了预处
5、理,主要包括停用词过滤、词形还原、矩阵生成等步骤。然后,利用 CLUTO 工具进行自动聚类。参照Zhao Karypis,本研究采用的是重复二分法(repeatedbisection)和h2判别标准作为聚类分析的基本算法组合。在经过若干次比对后,我们最终将聚类数目定为 12。按照聚类质量由高到低,表 1 列出了 12 个聚类的基本信息,分别是聚类编号、文本数目、内部相似度、内部相似度标准差、外部相似度、外部相似度标准差。二、研究结果 在文本聚类后,我们对各聚类的项目摘要逐一仔细研读,以总结美军语言研究的主要方向和特点。在梳理过程中,我们发现聚类 0和聚类 9 的研究内容高度相似,因此将其合并。
6、聚类 8 中的研究项目主要是关于计算机编译语言,我们认为该聚类不属于语言研究的范畴,因此将其剔除。最终,我们得到了代表以下 10 个研究方向的项目聚类。(一)语音识别研究 (聚类 0 和聚类9)美 方早在上世纪 60 年代以前就开始资助有关语音识别的研究。1974 年兰德公司的一份项目报告,就已经对语音识别技术的应用前景表示足够的乐观。1960 年代的语音识别研究,主要关注的是语音信号的识别,即语音信号向对应语言符号的转换。研究者从发声学、音位学、声学、听觉语音学等多个角度对英语、俄语、德语、汉语、日语、语等多种语言的语音特征进行描述和分析。1970 年代,语音识别已经从语音信号的识别发展到语
7、音意义的理解上。自然语言处理技术(如词性标注、句法分析等)开始更多地融入语音识别研究中。1980 年代,正如兰德公司的预测,语音识别技术已经开始应用到诸多军事领域,各研究机构和大学相继开发出涉及语音识别技术的人机交互系统,如 IBM 公司的 MASTOR 系统(语音翻译系统)、卡耐基梅隆大学的 SPHINX 系统、麻省理工学院的 VOYAGER 系统、SRI 国际公司的 ATIS 系统(Air Travel Information Sys-tem)等。1990 年代,基于统计的方法开始在语音识别研究中广泛应用。2000 年以后,几乎所有受军方资助的语音识别项目都与语音数据库建设有关。研究者们意
8、识到,缺乏基础语音数据库,尤其是在特殊条件下或面 向 特殊用 途 的语音数据库,严重制约了语音识别技术的发展。(二)语言、文化与区域知识研究(聚类 1)上世纪 60 年代,美国国防分析研究院的一份报告论述了美军在越 南 战场上 遇 到的语言问题。此后 20 年间,没有在美国国防科技情报中心的公开数据中发现类似的研究报告。1980 年代末至 1990 年代初,陆军行为及社会科学研究所和陆军战争学院针对 语言能力建设提出了许多建设性的意见,如提高全体 人员的语言意识、建立语言学习奖励机制、追踪 人员语言水平、开展不间断语言评测等。这些建议基本都成为了日后美国国防语言政策的重要组成部分。2000 年
9、以后,9.11 和反恐战争促使美军更加重视 语言能力建设,同时文化能力被赋予了与语言能力同等重要的地位。2007 年,陆军指挥参谋学院的一份报告指出,国防语言变革路线图(Defense Language Transfor-mation Roadmap)和美国国防部第3000.05 号指令(Department of Defense Directive 3000.05)都存在一个重大缺陷,即只注重了文化和语言能力,却忽略了区域知识的重要性。报告进一步指出语言、文化和区域知识应该三者合一。2009 年以后,美军开始反思现有的国防语言政策。陆军行为与社会科学研究所和兰德公司都指出,语言、文化和区域知
10、识固然重要,但未必需要每一个士兵都具备同等能力。有关语言、文化、区域知识与 战斗力之间的关系,还需要深入研究。(三)个体因素研究(聚类 2)该聚类所涉及的项目报告数量相对较少 20 世纪 60 年代,兰德公司开展了有关语言相对论的研究,表明美 方很早就开始关注语言与认知的关系。1970 年代,应用语言学中心开展了有关语言学能的研究,目的是能够更准确地挑选出具有语言学习天赋的士兵。1980 年代,几乎所有的研究都与语言学习策略相关。1990 年代,研究者开始关注信息整合能力(co-ordinating abili-ty)、方位能力(orienting ability)、交际畏惧心理(commun
11、ication apprehension)等问题。在这些研究中,语言能力本身并不是研究的直接对象,而是衡量和评估各种认知能力的重要手段。2000 年以后,该领域研究的军事应用性更强,如通过语言分析自动识别潜在敌人的意图、利用话语分析判别高绩效团队、基于语言迁移理论自动侦测受试的母语、飞行事故中语言障碍对飞行员态势觉察能力的影响等。(四)机器翻译研究(聚类 3)美 方对机器翻译研究一直有浓厚的兴趣。早在上个世纪 60年代,美国国家自然科学基金、中央情报局和军方各部门每年资助的机器翻译项目就超过了 13 个,金额超过 250 万美元。受乔姆斯基的影响,整个 1960 至 1980 年代的机器翻译系
12、统都是采用基于规则的方法。研究者的主要工作是描述源语言和目的语言的语法规则、制定转换规则和双语词库。1980 年代末,人们逐渐意识到基于规则的方法存在覆盖面有限、系统不经济和维护困难等一系列问题。1990 年代,基于统计的方法开始成为主流,并且发展迅速。2000 年马里兰大学的一份报告,指出该校开发的基于统计的机器翻译系统的准确率可以达到 92%。2000 年以后,随着基于统计的方法不断成熟,人们逐渐意识到语言资源(如语料库、本体等)的稀缺是影响机器翻译系统研发的关键因素。因此,如何快速构建本体,以及如何解决小语种平行语料库稀缺的问题,都开始成为该领域关注的焦点。同时,基于统计和基于规则的方法
13、相结合,也被认为是 未来 提高机器翻译系统质量的正确道路。(五)形式语法研究(聚类 4)该领域的主要研究目的是让计算机能够理解和处理自然语言。早在上个世纪 60 年代,乔姆斯基的句法结构的若干问题就受到了美 方的资助。受乔姆斯基的影响,语言的形式化分析成为整个 1960至 1980 年代的基本研究范式。为了让计算机更好地通过形式化的规则理解各种语言现象,研究者们先后推出了一大批语法理论,如依存语法、上下文无关语法、生成语法、关系语法、上下文有关语法、短语结构语法、关联语法、优先语法、扩充转移网络文法、Nigel 语法、LALR(1)语法、词汇-功能语法、功能合一语法、广义短语结构语法、LD/L
14、P 语法、HNL 语法等。1980 年代,研究者们开始意识到单纯依靠语法规则无法有效解决自然语言理解中的诸多问题,而且基于语法规则的系统存在鲁棒性、经济性、可移植性都比较差的问题。1990 年代,基于统计的方法开始成为主流,概率(probability)和统计(statistics)成为绝大多数研究报告的关键词。同时,语料库的作用日益凸显。尤其是经过标注的语料库,既可以用于理论验证,也可以用于知识获取。2000 年以后,基于规则和基于统计的方法逐渐融合,集中体现在依托形式语法理论开发的语料库上,如树库、依存树库等。(六)区域研究(聚类 5)该聚类涉及社会学、人类学、语言学、心理学等诸多学科,涵
15、盖的研究问题也比较广泛,但总的来说都与某一地区或国家相关。其中,最为突出的研究对象是前苏联。在前苏联解体之前,兰德公司和联合出版物研究处会定期翻译和整理前苏联本土的出版物,并编写苏联国情报告,涉及、经济、社会、军事、文化、科技等诸多方面。即使在前苏联解体之后,原苏联加盟共和国地区的语言、民族和身份认同问题仍然是一部分研究关注的焦点。此外,该聚类还包括了菲律宾、越南、西班牙、北非以及美国本土的一些民族和社会问题。(七)信息提取研究(聚类 6)早期的信息提取研究主要采用基于规则的方法,即依靠人工编制的模板提取特定领域的目标信息。这种方法耗时费力,且可移植性较差。上个世纪 80 年代末 90 年代初
16、,随着消息理解会议(Message Understanding Conference)的召开,基于概率统计的方法逐渐成为主流,也使得信息提取技术开始成为自然语言处理研究的重要领域。1990 年代,在消息理解会议的推动下,信息提取技术发展迅速,各个研究机构和大学相继开发出各自的信息提取系统,如 BBN 公司的PLUM 系统,SIR 公司的 FASTUS 系统,米特里公司的A-LEMBIC 系统,纽约大学的 PROTEUS 系统,新墨西哥州立大学的 Diderit 系统等。1990 年代中后期,信息提取的对象开始由命名实体转向更为复杂的语义关系、要素、时间序列等。此外,一些自然语言处理技术,如情感
17、分析、语义角色标注、语义推理等,也都涉及了信息提取的问题。2000 年以后,研究重心开始转向互联网,尤其是博客等社交网络的信息提取。同时,研究者更加关注如何在资源相对匮乏的领域实现目标信息的提取。(八)人机对话研究(聚类 7)早在上个世纪60年代,美 方就开始关注人机对话技术在培训、情报系统、指挥控制系统等领域的军事应用价值。早期的人机对话技术主要采用基于规则模板和结构化语料库的方法,如 BBN 公司开 发的 Scholar 智能师生教学系 统。1970 年代,随着对人类真实交际过程的研究不断深入,研究者们逐渐意识到共享知识在人机交互系统中的重要作用。如何建构共享知识的计算机表征随之成为重要的
18、研究课题。1980 年代,该领域开始关注计算机如何能够根据用户的意图提供个性化的应答。这涉及计算机如何借助共享知识对输入进行深层次的语义推理,同时也涉及计算机如何理解和模拟澄清、纠正、修复、回指等真实言语交际中的现象。1990 年代,基于统计的方法开始被引入自动问答系统。同时,研究者开始关注自然语言生成的篇章连贯问题。2000 年以后,口语人机对话系统的开发,以及人机对话系统的鲁棒性、可移植性等问题陆续成为该领域关注的焦点。(九)认知语义研究(聚类 10)与聚类 4 相似,该聚类的主要目的也是让计算机能够理解和处理自然语言。但该领域的研究重心是语义的形式表征,而不是语法的形式分析。研究者们关注
19、的是如何使用计算机可处理的物理符号来表征抽象的语义知识。由于语义的复杂性,该领域是一个涉及心理学、认知科学、计算机科学、语言学、哲学等诸多学科的交叉领域。研究者们大量借鉴相关学科的研究成果,提出了一大批语义表征模型,如1960年代的语义网络模型,1970 年代的概念依存语法、优选语义学、个人因果律理论、HOS 理论、语言记忆系统形式化模型,1980 年代的联通理论,1990 年代的结构建造框架理论、模糊语义学,2000 年以后的ACT-R 理论、社会网络分析、双反应理论等。从研究对象来看,该领域关注各种特殊语言现象的概念表征问题,如隐喻、语用、信念、空间、时间、因果关系、花园路径现象、指示代词
20、、名词短语、动词元语义等。2000 年以后,语义表征的对象开始从语言拓展到图像、人类行为、社会行为、组织演变、动态信息系统等,研究的重心也开始从静态的语言理解向动态的系统模拟转变。(十)信息检索研究(聚类 11)该领域研究以信息检索为主,但也涉及信息的加工、管理和应用。1960 年代,信息检索的对象多是结构化的信息,如某种特定的情报信息、地理位置信息、海军人事信息等。1970 年代,在国防高级研究计划局的高级命令与控制结构试验平台项目中,信息处理技术开始应用于海军指挥控制系统。1980 年代,信息检索技术开始应用在一些更加高级的复杂系统中,如麻省理工学院的自动问答系统、杰伊科公司的自动摘要系统
21、、优利国防系统公司的 PUNDIT 自然语言处理系统、南加州大学的 Penn系统等。这些系统融合了信息检索、机器翻译、自然语言生成等技术,目的是为了实现决策支持的快速性和准确性。1990 年代,针对多媒体资源的信息检索逐渐成为热点,如视频信息检索、图片信息检索、电视新闻检索、图表检索等。2000 年以后,跨语言检索、多文本摘要、图像自动标注、话题发现与追踪等热点研究都涉及信息检索的问题。此外,信息系统的互操作性、语义网、语义搜索引擎等问题,也开始成为研究重点。三、美国国防语言研究的特点与启示 (一)紧跟学术前沿 美 事语言研究的10个领域,均展现出了较为清晰的发展脉络,以及与相关学科领域的紧密
22、联系。这体现出了美 方对学术前沿的长期关注和准确把握。获得军方资助的很多研究,都属于相关学科领域的标志性成果,例如乔姆斯基的转换生成语法、威尔克斯的优选语义学、BBN 公司研发的世界上第一个智能辅助教学系统 Scholar、卡耐基梅隆大学研发的世界上第一个基于统计模型的语音识别系统Sphinx 等。同时,相关学科领域的最新研究成果,也不断应用于军事领域。例如,近年来兴起的大数据、社会网络、认知计算等研究前沿在2000 年以后军方资助的多个领域都有直接体现。此外,美 方还通过 设立具有前瞻性的大型项目,如 TIP-STER 文本处 理计划、惊奇语言计划(SurpriseLanguage Proj
23、ect)、多语言自动记录分类分析和翻译 项 目(The Multilingual Automatic Docu-mentation Classification,Analysis and Transla-tion,简 称 MADCAT)、下 一 代 航 空 运 输 系 统(Next Generation Air Transportation System,简称 NextGen)等,来引导科研走向、汇聚优势科研力量。对某一领域的持续关注和支持,也使得美 方的技术优势得以保持。以美 方近半个世纪以来资助的语音研究为例,涉及的语种包括英语、俄语、德语、语、泰语、塞尔维亚语、希伯来语、日语、加泰罗尼亚
24、语、意大利语、马来西亚语、阿拉伯语、汉语等,研究对象包括聋子、婴儿、盲人、失语症患者、自闭症患者,甚至动物。围绕该领域长期积累的原始分析数据,已成为确保美军语音识别技术优势的重要保障。目前,我国高水平语言研究的资助来源主要来自国家社会科学基金和自然科学基金,但其中能够被军方直接应用的研究成果较少。国家社科基金虽然将军事学项目单列,但其中语言类项目的数量也相对有限,且仅资助 系统的单位和个人。这体现出 对语言研究重要性的认识还不足,对语言研究前沿的把握还有待加强。我们建议军方加强对语言研究发展脉络和前沿领域的追踪和研判,并加强语言类科研信息的管理与发布,以确保在主要研究领域内形成技术上的前沿优势
25、和积累优势。(二)军民融合发展 从各项目承担者来看,非军方单位约占 76%,主要包括公司、大学和研究所。这些受资助的地方单位大都在相关领域处于领先地位,如麻省理工学院的语音和句法研究、斯坦福大学的自然语言处理研究、耶鲁大学 Haskins 实验室的语音识别研究、雷声公司 BBN 子公司的信息检索研究、谷歌公司的机器翻译研究等。美 方(尤其是国防高级研究计划局)还通过资助各种评测会议,吸引来自美国甚至世界各地的研究机构参与相关研究。这在信息技术领域体现得尤为明显,如消息理解会议(Message Understanding Con-ference)、文本检索会议(Text Retrieval Co
26、nfer-ence)、文 本 检 测 与 跟 踪 会 议(Topic Detection andTracking)、NIST(National Institute of Standardsand Technology)机器翻译大会等。同时,美 方十分注重与地方研究人员的联络与合作。例如,美国空军通讯局(Air Force CommunicationsAgency)一直通过邮件列表的方式与语言学和信息技术领域的专家保持紧密联系。美国空军的暑期研究基金项目(The United States Air ForceSummer Faculty Research Fellowship Pro-gram)
27、,每年暑假都会面向全国选拔和资助顶尖学者参与为期 10 周左右的空军科研课题。此外,需要指出的是,美国国防科技情报中心本身就是一个促进军民融合的信息枢纽。美国国防部的潜在合作单位,可以通过该平台获取技术研究、发展和评估的相关信息,以寻找科研机会并减少重复研究。目前,我国地方大学聚集了很多优秀的语言研究资源。例如,在最近一次外国语言文学学科排名中,大学、外国语大学、上海外国语大学、南京大学、广东外语外贸大学等地方大学均名列前茅。同时,一些公司,如科大讯飞、外语教学与研究出版社等,在语言研究领域也具备一定的技术与资源优势。我们建议军方应进一步加强与地方院校、公司和科研单位的交流与合作。各主要部门可
28、以结合自身需求和实际情况,通过设立语言研究基金或者专项课题、邀请知名学者参与重大科研项目等途径,实现军事现实需求与地方优势资源的良好对接。(三)注重语言与技术结合 在本研究梳理的 10 个研究方向中,有 7 个都与自然语言处理研究紧密相关,这体现出美 方尤其注重语言研究与计算机技术的结合。2008 年空军战争学院的一份报告明确提出,解决美军不断变化的语言需求,不仅需要招募(recrui-ting)和培训(training)语言人才,也需要语言技术(technology)。2010 年,海军陆战队大学的一份报告指出,机器翻译等自然语言处理技术的发展,将是缓解长期以来美军所面临语言问题的重要途径。
29、对语言技术的重视,使得美军方资助的语言研究中普遍存在着符号化的研究范式,即用计算机可处理的符号系统来表征语言现象和语言知识。形式化的分析对象,既包括语言自身的语法和语义,也包括语言的认知和神经处理机制,甚至语言的社会应用。新世纪以来,随着基于统计的方法不断进步,语言与技术结合的另一个体现是语料库研究。在语音识别、机器翻译、信息检索等多个领域,研究者们达成的一个共识就是,语言资源的稀缺是阻碍自然语言处理技术提升的关键因素。为解决该问题,美军方不仅设立了惊奇语言计划、多语言自动记录分类分析和翻译、全球自动语言开发(Global Autonomous LanguageExploitation,简称
30、GALE)等涉及语言资源建设的项目,还参与资助宾夕法尼亚大学成立了语言数据联盟(Linguistic Data Consortium,简称 LDC),并呼吁北约成员国之间共享语音数据(South 2000)。在某种意义上可以说,语言资源已经成为一种重要的战略资源,是自然语言处理战略目标转移的重要标志(冯志伟 2005)。自然语言处理技术的发展历程,证明了语言与技术结合是推动语言研究工程应用化的正确途径。军事语言研究者应培养形式化的思维方式,努力用计算机可处理的方式描写和分析各种语言问题。同时,要注重发挥语言本体研究的优势,通过探索和破解自然语言的规律和奥秘,为自然语言处理研究提供新的思路和理论
31、支撑。另外,要注重语言基础资源建设,尤其是大规模标注语料库建设,为自然语言处理研究提供丰富的语言实例和知识来源。四、结语 语言存在于人类生活的方方面面,军事领域也不例外。凡是涉及语言使用的军事活动,均存在着语言处理或使用的问题。例如美军语言研究的领域就涉及航空对话、轮船目击报告、事故故障报告、作战报告、非正式会议录音、电话录音、邮件列表、团队对话、外文科技文献、士兵演讲等。在某种意义上可以说,对语言文字的处理水平就代表着 信息化建设的水平。军事语言研究者应善于捕捉军事领域的语言问题,并以提高 战斗力为核心目标,使语言研究更好地服务于 语言能力的建设。作为一个探索性研究,本研究的不足之处在于仅仅使用了国防科技情报中心的公开数据,且未对聚类分析的效果进行深入考量。但总的来说,本研究对10个研究方向的划分和分析具有一定的合理性,所得结论对于军事语言工作者具有一定的借鉴价值。参考文献:1文秋芳,苏静.外语能力及其形成来自美国国防语言变革路线图的启示J.外语研究,2011,(4).2文秋芳.美国国防部新外语战略评析J.外语教学与研究,2011,(5).3文秋芳,张天伟.美国国家外语能力建设模式分析J.外语教学与研究,2013,(6).4王建勤.语言问题安全化与 对策研究J.语言教学与研究,2011,(6).
限制150内