人工智能导论教案第7章 自然语言理解.docx
第7章自然语言理解教案课题自然语言理解课时4知识目标1 .了解自然语言处理的概念及发展历程。2 .熟悉自然语言处理的一般过程及应用。3 .熟悉自然语言理解的方法。4 .了解机器翻译的模式及应用。5 .了解语音识别系统的发展及应用。重点、难点1 .自然语言处理的过程2 .自然语言理解的方法3 .机器翻译的模式课程思政L通过自然语言处理的学习,培养学生不怕困难,勇于攻关,自 强不息的科学精神。2 .通过科大讯飞语音识别领域的科技成果案例,培养学生爱国主 义情怀,增强民族自信心、自豪感。3 .通过自然语言处理系统应用学习,培养学生勇攀科学高峰的 责任感和使命感。教学内容及进程:一、导入案例 美智力竞答节目上演人机对决2011年2月14日,IBM的超级智能计算机“沃森”第一次参加美国王牌 问答节目危险边缘,人机大战真实上演。而这场激战之下暗流汹涌,可能 隐藏着改变人类未来的巨大力量。二、知识讲授7.1 自然语言处理概述自人类文明诞生以来,文字就是人类交流信息、记载历史和传播知识的 基本介质。不仅如此,文字作为人类语言的书写形式,还是人类文化思想和 智能的一种载体。所以,在人工智能研究中,如何让计算机识文断字就是一 个十分重要的课题。7.1.1 什么是自然语言处理自然语言处理简单来说,就是人类语言的机器处理,它研究能实现人与 计算机之间用自然语言进行有效通信的各种理论和方法,1 .自然语言自然语言则是指人类日常使用的语言,包括口语和书面语等。2 .自然语言理解备注播放视频素 材通过危险 边缘,人机 大战案例, 引出自然语 言处理的概 念。简要介绍自 然语言处理 的概念根据自然语言的不同表现形式,自然语言理解可分为口语理解与文字理 解两方面。3.自然语言生成自然语言生成是按照定的语法和语义规则将计算机数据转化为自然语7.1.2 自然语言处理的发展历程自然语言处理的发展大致经历了 4个阶段。1 .萌芽期时期(1956年以前)2 .快速发展期(1957-1970年)3 .低谷发展期(19711993年)4 .繁荣发展时期(1994年至今)7.1.3 自然语言处理的应用自然语言处理可以应用于很多领域,下面讲解几种常见的应用。(1)语音识别(2)机器翻译(3)自动文摘(4)句法分析(5)文本分类(6)信息检索(7)信息获取(8)信息过滤(9)自然语言生成(10)中文自动分词(11)语音合成(12)问答系统7.1.4 自然语言处理的一般过程计算机处理自然语言的一般过程可以概括为:语料获取、语料预处理、 特征工程、模型训练和指标评价。1 .语料获取介绍自然语 言处理的发 展历程通过实例介 绍自然语言 处理的应用1)已有语料。很多业务部门、公司等组织随着业务发展,都会积累大量 的纸质或者电子文本资料。那么,对于这些资料,在允许的条件下稍加整合, 把纸质的文本全部电子化就可以作为语料库了。2)网上下载、抓取语料。如果现在个人手里没有数据怎么办呢?这个时 候,可以选择获取国内外标准开放数据集,比如国内的中文汉语有搜狗语料; 也可以借助八爪鱼等开源爬虫工具,从网上抓取特定数据,准备模型训练。2.语料预处理语料预处理即对输入的数据进行预处理,主要包括以下4个步骤。1)语料清洗2)分词,即将文本分成词语通过实例重 点介绍自然 语言处理的 过程3)词性标注,即给词语标上词类标签,4)去停用词,即去掉对文本特征没有任何贡献作用的字词3 .特征工程做完语料预处理之后,接下来需要考虑如何把分词之后的字和词语表示 成计算机能够计算的类型。词袋模型(Bag Of Word, BOW),即不考虑词语原本在句子中的顺序,直 接将每一个词语或者符号统一放置在一个集合(如list)中,然后按照计数的 方式对出现的次数进行统计。词向量是将字、词语转换成向量矩阵的计算模型。目前常用的词的表示 方法是One-Hot,这种方法把每个词表示为一个很长的向量。4 .模型训|练选择好特征后,需要选择怎样的模型进行训练。5 .模型评价自然语言理解AI中研究历史最长、研究最多、要求最高的领域之是语音和语言处理。 微软创始人比尔盖茨曾经公开表示,“语言理解是人工智能领域皇冠上的明 珠”。但是相较于计算机视觉方面成熟的技术与应用,自然语言处理这颗明珠 的发展却没有那么顺利,因为要让计算机在不同语言、不同场景甚至不同的 语境下理解人类的表达是一件很复杂的事情。7.2.1 自然语言理解的困难实例分析日 然语言理解 的困难造成自然语言理解困难的根本原因是,自然语言文本和对话的各个层次 上广泛存在各种各样的歧义性或多义性(Ambiguity)。1 .词法分析歧义2 .语法分析歧义3 .语义分析歧义4 .指代不明歧义5 .新词识别6 .有瑕疵的或不规范的输入7 .语言行为与计划的差异传统语言理解方法通过前面的讨论,可以认识到语言是非常复杂的。尽管如此,我们依然 希望计算机能够理解它,至少部分理解它。传统语言理解方法以句子分析为基本出发点,通过分析句子中的词法、 句法、语义,实现对一句话的细致拆解。1 .词法分析所谓词法分析,是指从输入序列中确定词序列,并标记每个词的词性。2 .句法分析句法分析是在词法分析的基础上,对一句话中词与词的组合方式进行解析。4 .语义分析句法分析完成后,不等于计算机己经理解了该语句,还需要对语义进行 解释。7.2.2 基于深度学习的语言理解方法基于深度学习的语言理解方法是将句子映射到个语义空间里。在这个 空间里,语义相近的句子距离较小,语义相差较大的句子距离较大。通过实例分 析自然语言 理解的方法1 .词向量传统自然语言处理方法中,“词”一直被认为是独立的个体,每个词都需 要有明确定义的词性和词义,否则系统将无法对它进行处理。2 .句向量词向量的提出使得语义在最小语言单元上具有了可计算性,由此可以扩 展到对句子语义的计算,即句向量。7.3 机器翻译机器翻译可以把文字或语音从种自然语言自动翻译成另种自然语 言,主要用于书面语翻译和口语翻译。7.3.1 机器翻译的基本模式实例分析机 器翻译的基 本模式机器翻译,简单地说,是把一种自然语言的输入转换为另一种自然语言 的输出,从计算机工作角度看,是由一个符号序列转换为另一个符号序列的 过程,这种转换有3种基本模式,构成/机器翻译的金字塔1)直译式翻译(一步式)。2)中间语言式翻译(二步式)。先分析源语言,并将其转换为某种中间语言形式,再从中间语言出发,生成目标语言。3)转换式翻译(三步式)。根据知识获取方式的不同,可以将机器翻译分成基于人工规则的方法、 基于实例的方法和基于统计模型的方法。1)基于人工规则的方法。2)基于实例的方法。3)基于统计模型的方法。7.3.2 统计机器翻译所谓统计机器翻译,就是基于统计模型方法的机器翻译,它是目前主流 的机器翻译方法,分为基于词的统计机器翻译和基于短语的统计机器翻译。1 .基于词的统计机器翻译基于词的统计翻译模型,其翻译的过程通常可以理解为一个搜索的过程, 或者个不断猜测的过程。2 .基于短语的统计机器翻译基于短语的统计机器翻译模型的原理是在词语对齐的语料库中搜索并记 录所有的互为翻译的双语短语,并在整个语料库中统计这种双语短语的概率。 机器翻译的应用机器翻译较早就被广泛应用到了计算机辅助翻译软件上,以更好地辅助 专业翻译人员提升翻译效率。随着机器翻译技术的快速发展,其逐渐走向了 实用化,和更多其他的人工智能技术有效地结合起来,让人们看到了真正实 现“巴别塔之梦”的希望。(1)翻译机(2)语音同传技术(3)跨语言检索(4)助力翻译行业升级语音识别通过实例分 析语音识别 技术语言是人与人之间最重要的交流方式,能与机器进行自然的人机交流是 人类直期待的事情。随着人工智能的快速发展,语音识别技术作为人机交 流接口的关键技术发展迅速。7.3.3 语音识别的定义语音识别技术是将人类语音中的词汇内容转换为计算机可读的输入,目 前语音识别系统的分类主要有孤立.和连续语音识别系统,特定人和非特定人 语音识别系统,大词汇量和小词汇量语音识别系统以及嵌入式和服务器模式 语音识别系统。语音识别是一项融合多学科知识的前沿技术,覆盖了数学与统计学、声 学、语言学、模式识别理论以及神经生物学等学科。简要介绍语 音识别的发 展历程7.3.4 语音识别的发展历程20世纪50年代,语音识别的研究工作开始。20世纪60年代开始,卡耐基梅隆大学的雷伊雷蒂(Raj Reddy)等开 展了连续语音识别的研究,20世纪80年代开始,以隐马尔可夫模型方法为代表的基于统计模型的 方法逐渐在语音识别研究中占据了主导地位。20世纪90年代开始,语音识别掀起了第次研究和产业应用的小高潮。2006年,杰弗里辛顿提出了深度置信网络,它解决了深度神经网络训 练过程中容易陷入局部最优解的问题,自此深度学习的大潮正式拉开。7.3.5 语音识别系统语音识别其实是一个模式识别匹配的过程,就像人们听语音时,并不会 把语音和语言的语法结构、语义结构分离开来。实例分析语 音以别的过 程语音识别系统一般可以分为前端处理和后端处理两部分,前端包括语音 信号的输入、预处理、特征提取。“前端”的作用是对输入的语音信号进行滤 波,删掉非语音声音,降低噪声并进行特征提取。语音识别的过程如下:首先,语音通过话筒将语音信号转换成电脉冲信号输入语音识别系统, 语音识别系统对语音信号进行预处理,在此基础上建立语音识别所需要的模板;在识别过程中,计算机根据语音识别的整体模型,将计算机中已经存在 的语音模板与输入的语音信号的特征进行比较,并根据一定的搜索和匹配策 略找出一系列最优的与输入语音匹配的模板,通过查表和判决算法给出识别结果。7.3.6 语音识别的应用近年来大量的语音识别产品已经进入市场和服务领域,被广泛地应用于 智能终端、移动互联网应用、金融、电信、汽车、家居、教育等行业,推动 了车载语音、智能客服、智能家居、语音课件等产品的迅猛发展。通过网络查 找科大讯飞 语言识别技 术资料,加 深对语言识 别技术的理 解。近年来,国内外智能语音厂商纷纷进行市场布局,提供了语音识别、语 音合成、集成化产品、智能语音云平台等多样化能力服务,如手机端的语音 助手Siri、微软小娜、电话机器人硅语、地图导航高德、智能音箱大猫精灵等, 引发了汽车、家电、银行、家居、电信等多领域传统行业的应用创新。 案例赏析案例1科大讯飞语音识别案例2聊天机器人