深度前沿:对话管理模型研究最新进展.docx
《深度前沿:对话管理模型研究最新进展.docx》由会员分享,可在线阅读,更多相关《深度前沿:对话管理模型研究最新进展.docx(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、深度前沿:对话管理模型研究最新进展简介从人工智能研究的初期开场人们就致力于开发高度智能化的人机对话系统。对话管理模型研究最新进展源于前沿的深度的研究。戴音培1、虞晖华2、蒋溢轩2、唐呈光1、李永彬1、孙健1单位阿里巴巴-达摩院-小蜜ConversationalAI团队1康奈尔大学2对话管理模型背景从人工智能研究的初期开场人们就致力于开发高度智能化的人机对话系统。艾伦图灵AlanTuring在1950年度提出图灵测试1认为假如人类无法区分以及他对话交谈的是机器还是人类那么就可以讲机器通过了图灵测试拥有高度的智能。第一代对话系统主要是基于规那么的对话系统例如1966年度MIT开发的ELIZA系统2
2、是一个利用模版匹配方法的心理医疗聊天机器人再如1970年度代开场流行的基于流程图的对话系统采用有限状态自动机模型建模对话流中的状态转移。它们的优点是内部逻辑透明易于分析调试但是高度依赖专家的人工干预灵敏性以及可拓展性很差。随着大数据技术的兴起出现了基于统计学方法的数据驱动的第二代对话系统以下简称统计对话系统。在这个阶段增强学习也开场被广泛研究运用其中最具代表性的是剑桥大学SteveYoung教授于2005年度提出的基于局部可见马尔可夫决策经过(PartiallyObservableMarkovDecisionProcess,POMDP)的统计对话系统3。该系统在鲁棒性上显著地优于基于规那么的对
3、话系统它通过对观测到的语音识别结果进展贝叶斯推断维护每轮对话状态再根据对话状态进展对话策略的选择进而生成自然语言回复。POMDP-based对话系统采用了增强学习的框架通过不断以及用户模拟器或真实用户进展交互试错得到奖励得分来优化对话策略。统计对话系统是一个模块化系统它防止了对专家的高度依赖但是缺点是模型难以维护可拓展性也比拟受限。近些年度伴随着深度学习在图像、语音及文本领域的重大打破出现了以运用深度学习为主要方法的第三代对话系统该系统仍然延续了统计对话系统的框架但各个模块都采用了神经网络模型。由于神经网络模型表征才能强语言分类或者生成的才能大幅进步因此一个重要的变化趋势是自然语言理解的模型从
4、之前的产生式模型如贝叶斯网络演变成为深度鉴别式模型如CNN、DNN、RNN5对话状态的获取不再是利用贝叶斯后验判决得到而是直接计算最大条件概率。在对话策略的优化上大众也开场采用深度增强学习模型6。另一方面由于端到端序列到序列技术在机器翻译任务上的成功使得设计端到端对话系统成为可能Facebook研究者提出了基于记忆网络的任务对话系统4为研究第三代对话系统中的端到端任务导向型对话系统提出了新的方向。总的来讲第三代对话系统效果优于第二代系统但是需要大量带标注数据才能进展有效训练因此提升模型的跨领域的迁移拓展才能成为热门的研究方向。常见的对话系统可分为三类聊天型任务导向型以及问答型。聊天型对话的目的
5、是要产生有趣且富有信息量的自然回复使得人机对话可以持续进展下去7。问答型对话多指一问一答用户提出一个问题系统通过对问题进展解析以及知识库查找以返回正确答案8。任务导向型对话以下简称任务型对话那么是指由任务驱动的多轮对话机器需要通过理解、主动询问、澄清等方式来确定用户的目的调用相应的API查询后返回正确结果完成用户需求。通常任务型对话可以被理解为一个序列决策经过机器需要在对话经过中通过理解用户语句更新维护内部的对话状态再根据当前的对话状态选择下一步的最优动作例如确认需求询问限制条件提供结果等等进而完成任务。任务型对话系统从构造上可分成两类一类是pipeline系统采用模块化构造5如图1一般包括四
6、个关键模块自然语言理解NaturalLanguageUnderstanding,NLU对用户的文本输入进展识别解析得到槽值以及意图等计算机可理解的语义标签。对话状态跟踪DialogStateTracking,DST根据对话历史维护当前对话状态对话状态是对整个对话历史的累积语义表示一般就是槽值对(slot-valuepairs)。对话策略DialogPolicy根据当前对话状态输出下一步系统动作。一般对话状态跟踪模块以及对话策略模块统称为对话管理模块Dialogmanager,DM。自然语言生成NaturalLanguageGeneration,NLG将系统动作转换成自然语言输出。这种模块化的系
7、统构造的可解释性强易于落地大局部业界的实用性任务型对话系统都采用的此构造。但是其缺点是不够灵敏各个模块之间相对独立难以结合调优适应变化的应用场景。并且由于模块之间的误差会层层累积单一模块的晋级可以能需要整个系统一起调整。图1.任务导向型对话系统的模块化构造41任务型对话系统的另一种实现是端到端系统也是近年度来学界比拟热门的方向911如图2这类构造祈望训练一个从用户端自然语言输入到机器端自然语言输出的整体映射关系具有灵敏性强、可拓展性高的特点减少了设计经过中的人工本钱打破了传统模块之间的隔离。然而端到端模型对数据的数量以及质量要求很高并且对于填槽、API调用等经过的建模不够明确现阶段业界应用效果
8、有限仍处在探究中。图2.任务导向型对话系统的端到端构造41随着用户对产品体验的要求逐渐进步实际对话场景更加复杂对话管理模块也需要更多的改良以及创新。传统的对话管理模型通常是建立在一个明确的话术体系内即先查找再问询最后完毕一般会预定义好系统动作空间、用户意图空间以及对话本体但是实际中用户的行为变化难测系统的应答才能特别有限这就会导致传统对话系统可拓性差的问题难以处理预定义之外的情况。另外在很多的真实业界场景存在大量的冷启动问题缺少足量的标注对话数据数据的清洗标注本钱代价高昂。而在模型训练上基于深度增强学习的对话管理模型一般都需要大量的数据大局部论文的实验都说明训练好一个对话模型通常需要几百个完好
9、的对话session这样低下的训练效率阻碍了实际中对话系统的快速开发以及迭代。综上针对传统对话管理模型的众多局限近几年度学界以及业界的研究者们都开场将焦点放在怎样加强对话管理模型的实用性上详细来讲有三大问题可拓展性差标注数据少训练效率低我们将按照这三个方向为大众介绍近期最新的研究成果。对话管理模型研究前沿介绍对话管理模型痛点一-可拓展性差如前文所述对话管理器由两局部组成对话状态跟踪器DST以及对话策略dialogpolicy。传统的DST研究中最具代表的是剑桥大学的学者们在2017年度提出的神经信度跟踪模型neuralbelieftracker,NBT12利用神经网络来解决单领域复杂对话的对话
10、状态跟踪问题。NBT通过表征学习representationlearning来编码上轮系统动作、本轮用户语句以及候选槽值对在高维空间中计算语义的相似性进而检测出本轮用户提到的槽值。因此NBT可以不依赖于人工构建语义词典只需借助槽值对的词向量表示就能识别出训练集未见但语义上相似的槽值实现槽值的可拓展。后续地剑桥学者们对NBT进一步改良13将输入的槽值对改成领域-槽-值三元组每轮识别的结果采用模型学习而非人工规那么的方法进展累积所有数据采用同一个模型训练进而实现不同领域间的知识分享模型的总参数也不随领域数目的增加而增加。在传统的DialoguePolicy研究领域中最具代表性的是剑桥学者们6提出的
11、基于ACER方法的策略优化。通过结合Experiencereplay技巧分别尝试了trustregionactor-critic模型以及episodicnaturalactor-critic模型验证了AC系列的深度增强学习算法在样本利用效率、算法收敛性以及对话成功率上都到达了当时最好的表现。然而传统的对话管理模型在可拓展性方面仍需改良详细在三个方面怎样处理变化的用户意图怎样变化的槽位以及槽值怎样处理变化的系统动作。变化的用户意图在实际应用场景中时常会出现由于用户意图未被考虑到使得对话系统给出不合理答复的情况。如图3所示的例子用户的“confirm意图未被考虑这时就需要参加新的话术来帮助系统处理
12、这样的情况。图3.出现新意图的对话实例15一旦出现训练集未见的新用户意图时传统模型由于输出的是表示旧意图类别的固定one-hot向量假设要包含新的意图类别向量就需要进展改变对应的新模型也需要进展完全的重训练这种情况会降低模型的可维护性以及可拓展性。论文15提出了一种“教师-学生的学习框架来缓解这一问题他们将旧模型以及针对新用户意图的逻辑规那么作为“教师新模型作为“学生构成一个“教师-学生训练架构。该架构使用了知识蒸馏技术详细做法是对于旧的意图集合旧模型的概率输出直接指导训练新模型对于新增的意图对应的逻辑规那么作为新的标注数据来训练新模型。这样就使得在新模型不再需要与环境进展新的交互重新训练了。
13、论文在DSTC2数据集上进展实验首先选择成心去掉confirm这个意图然后再将它作为新意图参加对话本体中依次验证新模型是否具有很好的适应才能。图4是实验结果论文新模型即ExtendedSystem、直接在包含所有意图的数据训练的模型即ContrastSystem以及旧模型进展比拟实验证明新模型对新意图的识别正确率在不同噪声情况下都不错的扩展识别新意图的才能。图4.不同噪声设置下各种模型的比拟当然这种架构仍然需要对系统进展一定的训练16提出一种语义相似性匹配的模型CDSSM可以在不依赖于标注数据和模型重新训练的前提下解决用户意图拓展的问题。CDSSM先利用训练集数据中用户意图的自然描绘直接学习出
14、一个意图向量intentembedding的编码器将任意意图的描绘嵌入到一个高维语义空间中这样在测试时模型可以直接根据新意图的自然描绘生成对应的意图向量进而再做意图识别。在后面的内容我们可以看到有很多进步可拓展性的模型均采用了类似的思想将标签从模型的输出端移到输入端利用神经网络对标签(标签命名本身或标签的自然描绘)进展语义编码得到某种语义向量再进展语义相似性的匹配。 43那么给出了另外一种思路它通过人机协同的方式将人工客服的角色引入到系统线上运行的阶段来解决训练集未见的用户意图的问题。模型利用一个额外的神经判决器根据当前模型提取出来的对话状态向量来判断是否恳求人工假如恳求那么将当前对话分发给线
15、上人工客服来答复假如不恳求那么由模型自身进展预测。由于通过数据学习出的判决器有才能对当前对话是否包含新意图作一定的判断同时人工的回复默认是正确的这种人机协同的方式特别巧妙地解决了线上测试出现未见用户行为的问题并可以保持比拟高对话准确率。变化的槽位以及槽值在多领域或者复杂领域的对话状态跟踪问题中怎样处理槽位与槽值的变化一直是一个难题。对于有的槽位而言槽值可能是不可枚举的例如时间、地点以及人名甚至槽值集合是动态变化的例如航班、电影院上映的电影。在传统的对话状态跟踪问题中通常默认槽位以及槽值的集合固定不变这样就大大降低了系统的可拓展性。针对槽值不可枚举的问题谷歌研究者17提出了一个候选集candid
16、ateset的思路。对每个槽位都维护一个有总量上限的候选集它包含了对话截止目前最多k个可能的槽值并赋于每个槽值一个分数以表示用户在当前对话中对该槽值的偏好程度。系统先利用双向RNN模型找出本轮用户语句包含的中某个槽位的槽值再将它以及候选集中已有的槽值进展重新打分排序这样每轮的DST就只需在一个有限的槽值集合上进展判决进而解决不可枚举槽值的跟踪问题。针对未见槽值的跟踪问题一般可以采用序列标注的模型18或选择神经信度跟踪器12这样的语义相似匹配模型。以上是槽值不固定的情况假如对话本体中槽位也变化呢论文19采用了槽位描绘编码器slotdescriptionencoder对任何槽已见的、未见的的自然语
17、言描绘进展编码得到表示该槽的语义向量以及用户语句一起作为输入送入Bi-LSTM模型中采用序列标注的方式输出识别到的槽值见图5。该论文做了一个可承受的假设即任何槽的自然语言描绘是很容易得到的因此设计了一个在多个领域具有普适性的概念标注器ConceptTagger构造槽描绘编码器的实现是简单的词向量之以及。实验说明该模型能迅速适应新的槽位相较于传统方法该方法的可拓展性有很大的提升。图5.概念标注器构造随着近几年度序列到序列技术的开展直接利用端到端神经网络模型将DST的结果作为一个序列生成出来也是一个很热门的方向常见的技巧如注意力机制attentionmechanism、拷贝机制copymechan
18、ism均可以用来进步生成效果。在著名的多领域对话MultiWOZ数据集上来自港科大的PascaleFung教授团队利用了拷贝网络显著进步了不可枚举槽的识别精度20。他们提出的TRADE模型如图6所示每次检测槽值时模型会将领域以及槽位的不同结合进展语义编码作为RNN解码器的初始位置输入解码器通过拷贝网络直接将对应的槽值生成出来。通过生成的方式无论是不可枚举的槽值还是变化的槽位的槽值都能使用同一个模型完成这可以做到领域间槽值信息的分享也大大地进步了模型的泛化才能。图6.TRADE模型框架最近一个明显的趋势是将多领域DST看作一个机器浏览理解的任务将TRADE这种生成式模型改良成鉴别式模型45。不可
19、枚举槽的追踪利用类似SQuAD的机器浏览理解任务46从对话历史以及提问中找到对应的textspan作为槽值而可枚举槽的追踪那么转化成一个多项选择的机器浏览理解任务从候选值中选择正确的值作为预测出的槽值。通过结合ELMO,BERT等深度上下文词表示这些新提出的模型最终在MultiWOZ数据集上获得目前最好结果。变化的系统动作可拓展性问题的最后一个方面在于系统动作空间难以预定义。如图7所示在设计一个电子产品推荐系统时也许一开场并不会考虑到用户会问到怎样晋级产品操作系统这样的问题但现实的情况是你无法限定用户只问系统能解决的问题。假如系统动作空间事先框定在用户提出新问题时就会导致一连串的答非所问导致极
20、差的用户体验。图7.对话系统遇到未考虑的系统动作时的对话案例22对此我们需要考虑的是怎样设计更好的对话策略网络使得系统可以快速的扩展新的动作。首先的尝试来自微软21他们试图通过改变经典的DQN构造来实现系统在不受限动作空间上的增强学习。论文的对话任务是一个文字游戏闯关任务每轮的动作是一句话动作数目不定选择不同的动作故事情节就会有不同的开展。提出了新的模型DeepReinforcementRelevanceNetwork(DRRN)通过语义相似性匹配的方式将当前的对话状态以及各个可选的系统动作一一匹配得到Q函数。详细来看某轮对话时每个长度不定的动作文本会经过神经网络编码得到固定长度的系统动作向量
21、故事背景文本经过另一个神经网络也得到固定长度的的对话状态向量两个向量通过交互函数如点积生成最后的Q值。图8是论文设计模型构造。实验说明在“SavingJohn以及“MachineofDeath两个文字游戏上DRRN比传统DQN使用padding技巧的表现更加优异。图8.DRRN模型。t轮有两个候选动作t1轮有三个候选动作。论文22那么祈望从对话系统整体的角度来解决这个问题提出了增量学习对话系统IncrementalDialogueSystem,IDS如图9所示。首先系统通过DialogueEmbedding模块对对话历史编码得到上下文向量再利用一个基于VAE的UncertaintyEstima
22、tion模块根据上下文向量对当前系统能否给出正确答复进展一个置信度的评估。类似于主动学习的方式假设置信度高于阈值那么由对话管理器对当前所有可选动作一一打分经过softmax函数预测出概率分布假设置信度低于阈值那么恳求标注人员对本轮的回复进展标注选择正确回复或者创立新的回复得到了新数据并入数据池里一起在线更新模型。通过这种人类教学human-teaching的方式IDS系统不仅解决了不受限动作空间的学习问题还可以快速地采集高质量的数据特别贴近实际消费应用。图9.IDS的对话系统整体框架图对话管理模型痛点二-标注数据少随着对话系统应用领域的多样化对数据的需求也更加多样化假设想训好一个任务型对话系统
23、通常都需要尽可能多的该领域的数据但一般来讲想要获取高质量的有标注数据的本钱很高。为此学者们进展了各种研究尝试主要可分为三种思路1)用机器自动标注数据降低数据标注的本钱2)对话构造挖掘尽可能高效利用无标注数据3)加强数据收集策略高效获取优质的数据。机器自动标注由于人工标注数据的代价大、效率低学者们祈望通过机器辅助人工来标注数据方法大致可分为两大类有监视方法以及无监视方法。论文23提出一种架构auto-dialabel用层次聚类的无监视学习方法将对话数据中的意图以及槽位自动分组进而实现对话数据的自动标注类别的详细标签需要人工来定。该方法是基于一个假设一样意图的表达可能会分享相似的背景特征。模型提取
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度 前沿 对话 管理 模型 研究 最新进展
限制150内