自然语言处理之语言学基础课件.ppt
《自然语言处理之语言学基础课件.ppt》由会员分享,可在线阅读,更多相关《自然语言处理之语言学基础课件.ppt(47页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1研究背景和意义 Quote by Fred JelinekEvery time I fire a linguist, the performance of our speech recognition system goes up. Under his situation, it is correct. Generally, it is wrong. Quote about Fred JelinekHe was not a pioneer of speech recognition, he was the pioneer of speech recognition.- Steve Young
2、 (2010).研究背景和意义语言学之于自然语言处理语言学之于自然语言处理研究对象:自然语言研究对象:自然语言研究重点:描述、解释研究重点:描述、解释= =可计算性可计算性= =数学之于机器学习数学之于机器学习数学是机器学习的基础数学是机器学习的基础机器学习不是数学的一个分支机器学习不是数学的一个分支机器学习不是数学的一个扩展机器学习不是数学的一个扩展研究背景和意义 自然语言:定义自然语言是人类籍以思维和交际的一个音行义相结合的符号系统,是一个变动的音行义相结合的结构系统。 自然语言:三个方面语言本体 声音、形式和意义相结合的符号系统。 变动的结构(整体、成分、关系)。语言功用 人类最重要的交
3、际工具和信息载体。 人类赖以思维的工具,思维的物质外壳。语言的表现形式 口语:语言的最基本形式。 书面语:将语言用文字记录下来加以提炼加工(语言的代用品)。 体态语(手势语、唇语) 自然语言处理基础 语言学 人工智能 形式化理论、机器学习 数学 概率、统计、信息理论 认知科学 认知语言学、心理(思维)语言学 社会学 社会语言学研究背景和意义5 18世纪末:附属于比较语文学 研究古代文献 18世纪末20世纪初:语言学成为独立学科 历史比较语言学:研究语言之间的亲属关系 20世纪初20世纪60年代:探索人类语言普遍规律 结构主义语言学 Sassure:“语言是形式而不是实质”,是由单位和关系构成的
4、系统。 转换生成语法 Chomsky:所有人类语言的语法系统在高度抽象的层次上都大致相同,由所谓的普通语法经过一定的变化派生出来的。 20世纪60年代至今:深入探索语言的本体与功用 形式语言学 包括结构主义语言学、Chomsky形式语言学、非Chomsky形式语言学 Chomsky:侧重语言本体,强调意义通过形式体现。 功能语言学 Halliday:侧重语言功用,强调意义通过功能体现。学科基础:语言学6 18世纪末:附属于比较语文学 研究古代文献 18世纪末20世纪初:语言学成为独立学科 历史比较语言学 20世纪初20世纪60年代:探索人类语言普遍规律 结构主义语言学 转换生成语法 20世纪6
5、0年代至今:深入探索语言的本体与功用 形式语言学 功能语言学学科基础:语言学7 历史比较语言学 以历史比较法为基础,研究语言之间的亲属关系。 把各种语言放在一起加以共时比较,或者对同一种语言的历史发展的各个不同阶段进行历时比较,以找出它们之间在语音、词汇、语法上的对应关系和异同。 为现代语言学的建立奠定了坚实的基础,是语言学走上独立发展道路的标志。 代表人物 德国语言学家:J. Grimn/W.Grimn、F. Bopp 丹麦语言学家:R. Rask学科基础:历史比较语言学8 18世纪末:附属于比较语文学 研究古代文献 18世纪末20世纪初:语言学成为独立学科 历史比较语言学 20世纪初20世
6、纪60年代:探索人类语言普遍规律 结构主义语言学 转换生成语法 20世纪60年代至今:深入探索语言的本体与功用 形式语言学 功能语言学学科基础:语言学9 F. de Saussure(现代语言学鼻祖) 精通法语、德语、英语、梵语、拉丁语、希腊语、哥特语、立陶宛语、古高地德语等语言。 普通语言学教程(1916):开山之作 主张区分共时语言学与历时语言学,强调共时语言学。 共时语言学(横向):语言(同质的、抽象的语言形式) 历时语言学(纵向):言语(异质的、五花八门的话语) 理论贡献:语言是一个符号系统 语言是一种符号,它的意义产生于符号系统内部的关系中。 “语言是形式而不是实质”,是由单位和关系
7、构成的系统。研究语言就是确定语言单位,确定单位之间的关系以及单位之间的组合规则。 vs伽利略(改变了人类对物质世界的认识) 老三论:系统论、信息论和控制论 新三论:协同论、突变论和耗散结构论学科基础:结构主义语言学10 三大学派 布拉格学派 哥本哈根学派 美国描写语言学派学科基础:结构主义语言学11 布拉格学派:(结构-)功能学派 主要观点 主张从结构和功能两个方面来研究语言=Halliday系统功能语法 句子功能前景理论:二功能说、三功能说、六功能说。 主位、述位的概念。 奠基人V. Mathesius:非常重视语言的功能性 “语言是一个价值系统”、“语言是交际的工具,思维的工具”、“分析语
8、言现象要首先考虑其功能”、“要以功能为依据”。 主要贡献 主要运用索绪尔的二分法研究语言中的音位问题,创立了音位研究“区别性特征”的理论。 首次系统地阐明了音位学的任务、原理和研究方法,使它在结构主义语言学诸领域中居于领先地位。 评价 美国语言学家鲍林格:“欧洲任何其他语言学团体都没有像布拉格语言学会那样产生了如此巨大的影响。”学科基础:结构主义语言学12 哥本哈根学派 主要观点 侧重语言形式的研究:来源于索绪尔提出的“语言是一种符号系统”,(“符号”是“能指”与“所指”的统一体)。 这个学派的人比较偏激,认为“符号”是单就“能指”而言的,追求的是一种“纯语言学”,最后变成了纯粹研究语言形式的
9、“语符学”。 奠基人:L. Hjelmslev 主要贡献 以语言结构关系的研究及这种研究的数学性质而著称, 代表着人文科学和精密科学相结合的趋势。 评价 我国语言学家王希杰: “哥本哈根学派的学说是一座极有学术独创性的象牙之塔。”学科基础:结构主义语言学13 美国描写语言学派 L. Bloomfield(美国描写语言学派鼻祖):主张依靠形式特征来描写语言结构(一度几乎一统语言学天下) 结构主义语言学的真正代表:语言论(1933) 提出了“语素” 的概念,开创了结构主义语法学的新篇章。 到达语法事实的描写巅峰。学科基础:结构主义语言学14 美国描写语言学派 主要观点 心理学观:行为主义(认为人类
10、语言是人受到刺激后作出反应的一种结果,语言就是“刺激-反应”的中介物。) S-rs-R S:刺激;R:反应;s:语言的代替性刺激;r:语言的代替性反应; 以语言形式的分析和描写为内容,主张依靠形式的特征来描写语言的结构。 从调查、分析、描写共时平面的不熟悉的美洲印第安人语言的实践中发展起来。在此基础上,进一步分析、描写英语和其他印欧语语言。 早期:鉴于语义太复杂,专心对语言形式研究。 后期:开始注意意义问题 R.S. Wells(1947):关注歧义现象 Z. Harris(1957):提出变换问题=Chomsky转换思想学科基础:结构主义语言学15 美国描写语言学派 主要贡献:音位的分析和理
11、论研究 提出了音位的概念,并建立了音位学。 把研究语音的一套方法应用于形态和句法研究。 研究方法:逻辑实证主义 资料收集:运用国际音标采取如实记音的办法,尽可能记录大批语音资料。 资料分析:通过切分、语言单位同一性的认定,获得这个语言的不同层面上的单位,如音位、语素、单词、短语、小句、句子。 单位分类:对每一层面上的单位开出一个清单来,考察它们的分布情况,进行分类。学科基础:结构主义语言学16 N. Chomsky:20世纪最伟大的人文学家 句法结构(1957) 主要观点 所有人类语言的语法系统在高度抽象的层次上都大致相同,由所谓的普通语法经过一定的变化派生出来的。 所有的语言现象都可以用同一
12、组语法规律(相同的原则)加以解释,而语言之间的不同只是参数而已。 语言是一种结构,是一些先验的语法规则,通过转移程序构成了人们日常用语。 语言是深层结构 言语是表层结构学科基础:转换生成语法17 语法要点:研究体现在人脑中的认知系统和普遍语法。 强调对人的语言能力作出解释,而不仅仅描写语言行为。 采用现代数理逻辑的形式化方法,根据有限的公理化的规则系统和原则系统用演绎的方法生成无限的句子,以此来解释人类的语言能力。 Chomsky文法系统:正规文法、上下文无关文法、上下文有关文法、无限制文法 认为“语言”不是实际存在的东西,这个概念是从语法中派生出来的,只有语法才是实际存在的,因此,转换-生成
13、语法研究的对象是语法而不是语言。学科基础:转换生成语法18 相同之处 高度抽象的音行义结合的语言符号系统的语言形式研究 不同之处 结构主义语言学(美国描写语言学派) 建立在经验主义之上:认为人类知识起源于感觉,并以感觉的领会为基础。 关注某个具体语言的结构系统的分析和描写(N. Chomsky :语法分析的低级阶段-描述的充足性descriptive adequacy)。 转换生成语法 建立在理性主义之上:承认人的推理可以作为知识来源,高于并独立于感官感知。 探索人类语言所共有的、高度概括而又十分简明的普通法则,并进一步由语言机制探讨大脑的工作机制,了解人类思维活动的本质(N. Chomsky
14、 :语法分析的高级阶段-解释的充足性explanatory adequacy)。学科基础:结构主义vs转换生成语法19 18世纪末:附属于比较语文学 研究古代文献 18世纪末20世纪初:语言学成为独立学科 历史比较语言学 20世纪初20世纪60年代:探索人类语言普遍规律 结构主义语言学 转换生成语法 20世纪60年代至今:深入探索语言的本体与功用 形式语言学 功能语言学学科基础:语言学20 形式vs功能 形式是跟“功能”相对而言,不是跟“意义”相对而言。 形式vs功能语言学:互补关系 形式语言学:语言的本体 意义通过形式体现。 基于句子 功能语言学:语言的功用 意义通过功能体现。 基于篇章+语
15、境(情景语境、文化语境) 举例:“元芳,你怎么看?”学科基础:形式vs功能语言学21 形式vs功能语言学:可以追溯到古希腊时代学科基础:形式vs功能语言学22形式主义:形式主义:Aristotle功能主义:功能主义:Protagoras、Plato语言学是哲学的一部分语言学是人类学的一部分语法是逻辑学的一部分语法是文化的一部分语言是表示肯定与否定的手段语言是向人谈论事情的手段语言是一种判断方式语言是一种活动方式语言学是规范的语言学是描写的语言是规则系统语言是选择系统注意规则现象注意不规则现象关心语义与真值的关系关心语义与修辞功能的关系对句子作形式分析对话语作语义解释把合乎语法性作为理想化标准把
16、可接受型或用途作为理想化标准 理论基础:以哲学为基本 科学:探索某个特定学科的规律(特殊规律) 哲学:科学之科学(普通规律) 研究主体:语言本体(句法为主) 形式语言学理论把句法独立出来,甚至作为核心自治系统,再分成词法、句法、语义、语用等不同的部分。 语言是人特有的一种能力(competence)、一种机制(facility)、一套装置(device)。研究语言就是探索人类所具有的这种语言能力、语言机制、语言装置之谜,以探究人类语言所共同遵守的普通原则(universal principles)和造成各个语言差异的不同参数(parameters)。 三大学派 结构主义语言学派 Chomsky
17、形式学派、非Chomsky形式学派学科基础:形式语言学23 Chomsky形式学派 哲学基础:笛卡尔的唯理主义(理性主义) 探索人类语言机制、人类语言高度概括的普遍语法。 语法的天赋性与自足性:人头脑里有一个语言机制,人生来就有一种语言能力,这是天生的。 原则与参数理论:人类的语言都要遵守共同的原则,差异只是参数的不同。 语法的简约性:人类的语言所要遵守的共同原则(普通语法)应该是高度概括的、极为简洁的。 转换生成文法:生成规则 管辖与约束理论:管辖与约束规则 最简方案:最简方案学科基础:形式语言学24 Chomsky形式学派 语言的习得机制(Language Acquisition):人头脑
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 处理 语言学 基础 课件
限制150内