深度前沿:对话管理模型研究最新进展.docx
深度前沿:对话管理模型研究最新进展简介从人工智能研究的初期开场人们就致力于开发高度智能化的人机对话系统。对话管理模型研究最新进展源于前沿的深度的研究。戴音培1、虞晖华2、蒋溢轩2、唐呈光1、李永彬1、孙健1单位阿里巴巴-达摩院-小蜜ConversationalAI团队1康奈尔大学2对话管理模型背景从人工智能研究的初期开场人们就致力于开发高度智能化的人机对话系统。艾伦·图灵AlanTuring在1950年度提出图灵测试1认为假如人类无法区分以及他对话交谈的是机器还是人类那么就可以讲机器通过了图灵测试拥有高度的智能。第一代对话系统主要是基于规那么的对话系统例如1966年度MIT开发的ELIZA系统2是一个利用模版匹配方法的心理医疗聊天机器人再如1970年度代开场流行的基于流程图的对话系统采用有限状态自动机模型建模对话流中的状态转移。它们的优点是内部逻辑透明易于分析调试但是高度依赖专家的人工干预灵敏性以及可拓展性很差。随着大数据技术的兴起出现了基于统计学方法的数据驱动的第二代对话系统以下简称统计对话系统。在这个阶段增强学习也开场被广泛研究运用其中最具代表性的是剑桥大学SteveYoung教授于2005年度提出的基于局部可见马尔可夫决策经过(PartiallyObservableMarkovDecisionProcess,POMDP)的统计对话系统3。该系统在鲁棒性上显著地优于基于规那么的对话系统它通过对观测到的语音识别结果进展贝叶斯推断维护每轮对话状态再根据对话状态进展对话策略的选择进而生成自然语言回复。POMDP-based对话系统采用了增强学习的框架通过不断以及用户模拟器或真实用户进展交互试错得到奖励得分来优化对话策略。统计对话系统是一个模块化系统它防止了对专家的高度依赖但是缺点是模型难以维护可拓展性也比拟受限。近些年度伴随着深度学习在图像、语音及文本领域的重大打破出现了以运用深度学习为主要方法的第三代对话系统该系统仍然延续了统计对话系统的框架但各个模块都采用了神经网络模型。由于神经网络模型表征才能强语言分类或者生成的才能大幅进步因此一个重要的变化趋势是自然语言理解的模型从之前的产生式模型如贝叶斯网络演变成为深度鉴别式模型如CNN、DNN、RNN5对话状态的获取不再是利用贝叶斯后验判决得到而是直接计算最大条件概率。在对话策略的优化上大众也开场采用深度增强学习模型6。另一方面由于端到端序列到序列技术在机器翻译任务上的成功使得设计端到端对话系统成为可能Facebook研究者提出了基于记忆网络的任务对话系统4为研究第三代对话系统中的端到端任务导向型对话系统提出了新的方向。总的来讲第三代对话系统效果优于第二代系统但是需要大量带标注数据才能进展有效训练因此提升模型的跨领域的迁移拓展才能成为热门的研究方向。常见的对话系统可分为三类聊天型任务导向型以及问答型。聊天型对话的目的是要产生有趣且富有信息量的自然回复使得人机对话可以持续进展下去7。问答型对话多指一问一答用户提出一个问题系统通过对问题进展解析以及知识库查找以返回正确答案8。任务导向型对话以下简称任务型对话那么是指由任务驱动的多轮对话机器需要通过理解、主动询问、澄清等方式来确定用户的目的调用相应的API查询后返回正确结果完成用户需求。通常任务型对话可以被理解为一个序列决策经过机器需要在对话经过中通过理解用户语句更新维护内部的对话状态再根据当前的对话状态选择下一步的最优动作例如确认需求询问限制条件提供结果等等进而完成任务。任务型对话系统从构造上可分成两类一类是pipeline系统采用模块化构造5如图1一般包括四个关键模块自然语言理解NaturalLanguageUnderstanding,NLU对用户的文本输入进展识别解析得到槽值以及意图等计算机可理解的语义标签。对话状态跟踪DialogStateTracking,DST根据对话历史维护当前对话状态对话状态是对整个对话历史的累积语义表示一般就是槽值对(slot-valuepairs)。对话策略DialogPolicy根据当前对话状态输出下一步系统动作。一般对话状态跟踪模块以及对话策略模块统称为对话管理模块Dialogmanager,DM。自然语言生成NaturalLanguageGeneration,NLG将系统动作转换成自然语言输出。这种模块化的系统构造的可解释性强易于落地大局部业界的实用性任务型对话系统都采用的此构造。但是其缺点是不够灵敏各个模块之间相对独立难以结合调优适应变化的应用场景。并且由于模块之间的误差会层层累积单一模块的晋级可以能需要整个系统一起调整。图1.任务导向型对话系统的模块化构造41任务型对话系统的另一种实现是端到端系统也是近年度来学界比拟热门的方向911如图2这类构造祈望训练一个从用户端自然语言输入到机器端自然语言输出的整体映射关系具有灵敏性强、可拓展性高的特点减少了设计经过中的人工本钱打破了传统模块之间的隔离。然而端到端模型对数据的数量以及质量要求很高并且对于填槽、API调用等经过的建模不够明确现阶段业界应用效果有限仍处在探究中。图2.任务导向型对话系统的端到端构造41随着用户对产品体验的要求逐渐进步实际对话场景更加复杂对话管理模块也需要更多的改良以及创新。传统的对话管理模型通常是建立在一个明确的话术体系内即先查找再问询最后完毕一般会预定义好系统动作空间、用户意图空间以及对话本体但是实际中用户的行为变化难测系统的应答才能特别有限这就会导致传统对话系统可拓性差的问题难以处理预定义之外的情况。另外在很多的真实业界场景存在大量的冷启动问题缺少足量的标注对话数据数据的清洗标注本钱代价高昂。而在模型训练上基于深度增强学习的对话管理模型一般都需要大量的数据大局部论文的实验都说明训练好一个对话模型通常需要几百个完好的对话session这样低下的训练效率阻碍了实际中对话系统的快速开发以及迭代。综上针对传统对话管理模型的众多局限近几年度学界以及业界的研究者们都开场将焦点放在怎样加强对话管理模型的实用性上详细来讲有三大问题可拓展性差标注数据少训练效率低我们将按照这三个方向为大众介绍近期最新的研究成果。对话管理模型研究前沿介绍对话管理模型痛点一-可拓展性差如前文所述对话管理器由两局部组成对话状态跟踪器DST以及对话策略dialogpolicy。传统的DST研究中最具代表的是剑桥大学的学者们在2017年度提出的神经信度跟踪模型neuralbelieftracker,NBT12利用神经网络来解决单领域复杂对话的对话状态跟踪问题。NBT通过表征学习representationlearning来编码上轮系统动作、本轮用户语句以及候选槽值对在高维空间中计算语义的相似性进而检测出本轮用户提到的槽值。因此NBT可以不依赖于人工构建语义词典只需借助槽值对的词向量表示就能识别出训练集未见但语义上相似的槽值实现槽值的可拓展。后续地剑桥学者们对NBT进一步改良13将输入的槽值对改成领域-槽-值三元组每轮识别的结果采用模型学习而非人工规那么的方法进展累积所有数据采用同一个模型训练进而实现不同领域间的知识分享模型的总参数也不随领域数目的增加而增加。在传统的DialoguePolicy研究领域中最具代表性的是剑桥学者们6提出的基于ACER方法的策略优化。通过结合Experiencereplay技巧分别尝试了trustregionactor-critic模型以及episodicnaturalactor-critic模型验证了AC系列的深度增强学习算法在样本利用效率、算法收敛性以及对话成功率上都到达了当时最好的表现。然而传统的对话管理模型在可拓展性方面仍需改良详细在三个方面怎样处理变化的用户意图怎样变化的槽位以及槽值怎样处理变化的系统动作。变化的用户意图在实际应用场景中时常会出现由于用户意图未被考虑到使得对话系统给出不合理答复的情况。如图3所示的例子用户的“confirm意图未被考虑这时就需要参加新的话术来帮助系统处理这样的情况。图3.出现新意图的对话实例15一旦出现训练集未见的新用户意图时传统模型由于输出的是表示旧意图类别的固定one-hot向量假设要包含新的意图类别向量就需要进展改变对应的新模型也需要进展完全的重训练这种情况会降低模型的可维护性以及可拓展性。论文15提出了一种“教师-学生的学习框架来缓解这一问题他们将旧模型以及针对新用户意图的逻辑规那么作为“教师新模型作为“学生构成一个“教师-学生训练架构。该架构使用了知识蒸馏技术详细做法是对于旧的意图集合旧模型的概率输出直接指导训练新模型对于新增的意图对应的逻辑规那么作为新的标注数据来训练新模型。这样就使得在新模型不再需要与环境进展新的交互重新训练了。论文在DSTC2数据集上进展实验首先选择成心去掉confirm这个意图然后再将它作为新意图参加对话本体中依次验证新模型是否具有很好的适应才能。图4是实验结果论文新模型即ExtendedSystem、直接在包含所有意图的数据训练的模型即ContrastSystem以及旧模型进展比拟实验证明新模型对新意图的识别正确率在不同噪声情况下都不错的扩展识别新意图的才能。图4.不同噪声设置下各种模型的比拟当然这种架构仍然需要对系统进展一定的训练16提出一种语义相似性匹配的模型CDSSM可以在不依赖于标注数据和模型重新训练的前提下解决用户意图拓展的问题。CDSSM先利用训练集数据中用户意图的自然描绘直接学习出一个意图向量intentembedding的编码器将任意意图的描绘嵌入到一个高维语义空间中这样在测试时模型可以直接根据新意图的自然描绘生成对应的意图向量进而再做意图识别。在后面的内容我们可以看到有很多进步可拓展性的模型均采用了类似的思想将标签从模型的输出端移到输入端利用神经网络对标签(标签命名本身或标签的自然描绘)进展语义编码得到某种语义向量再进展语义相似性的匹配。 43那么给出了另外一种思路它通过人机协同的方式将人工客服的角色引入到系统线上运行的阶段来解决训练集未见的用户意图的问题。模型利用一个额外的神经判决器根据当前模型提取出来的对话状态向量来判断是否恳求人工假如恳求那么将当前对话分发给线上人工客服来答复假如不恳求那么由模型自身进展预测。由于通过数据学习出的判决器有才能对当前对话是否包含新意图作一定的判断同时人工的回复默认是正确的这种人机协同的方式特别巧妙地解决了线上测试出现未见用户行为的问题并可以保持比拟高对话准确率。变化的槽位以及槽值在多领域或者复杂领域的对话状态跟踪问题中怎样处理槽位与槽值的变化一直是一个难题。对于有的槽位而言槽值可能是不可枚举的例如时间、地点以及人名甚至槽值集合是动态变化的例如航班、电影院上映的电影。在传统的对话状态跟踪问题中通常默认槽位以及槽值的集合固定不变这样就大大降低了系统的可拓展性。针对槽值不可枚举的问题谷歌研究者17提出了一个候选集candidateset的思路。对每个槽位都维护一个有总量上限的候选集它包含了对话截止目前最多k个可能的槽值并赋于每个槽值一个分数以表示用户在当前对话中对该槽值的偏好程度。系统先利用双向RNN模型找出本轮用户语句包含的中某个槽位的槽值再将它以及候选集中已有的槽值进展重新打分排序这样每轮的DST就只需在一个有限的槽值集合上进展判决进而解决不可枚举槽值的跟踪问题。针对未见槽值的跟踪问题一般可以采用序列标注的模型18或选择神经信度跟踪器12这样的语义相似匹配模型。以上是槽值不固定的情况假如对话本体中槽位也变化呢论文19采用了槽位描绘编码器slotdescriptionencoder对任何槽已见的、未见的的自然语言描绘进展编码得到表示该槽的语义向量以及用户语句一起作为输入送入Bi-LSTM模型中采用序列标注的方式输出识别到的槽值见图5。该论文做了一个可承受的假设即任何槽的自然语言描绘是很容易得到的因此设计了一个在多个领域具有普适性的概念标注器ConceptTagger构造槽描绘编码器的实现是简单的词向量之以及。实验说明该模型能迅速适应新的槽位相较于传统方法该方法的可拓展性有很大的提升。图5.概念标注器构造随着近几年度序列到序列技术的开展直接利用端到端神经网络模型将DST的结果作为一个序列生成出来也是一个很热门的方向常见的技巧如注意力机制attentionmechanism、拷贝机制copymechanism均可以用来进步生成效果。在著名的多领域对话MultiWOZ数据集上来自港科大的PascaleFung教授团队利用了拷贝网络显著进步了不可枚举槽的识别精度20。他们提出的TRADE模型如图6所示每次检测槽值时模型会将领域以及槽位的不同结合进展语义编码作为RNN解码器的初始位置输入解码器通过拷贝网络直接将对应的槽值生成出来。通过生成的方式无论是不可枚举的槽值还是变化的槽位的槽值都能使用同一个模型完成这可以做到领域间槽值信息的分享也大大地进步了模型的泛化才能。图6.TRADE模型框架最近一个明显的趋势是将多领域DST看作一个机器浏览理解的任务将TRADE这种生成式模型改良成鉴别式模型45。不可枚举槽的追踪利用类似SQuAD的机器浏览理解任务46从对话历史以及提问中找到对应的textspan作为槽值而可枚举槽的追踪那么转化成一个多项选择的机器浏览理解任务从候选值中选择正确的值作为预测出的槽值。通过结合ELMO,BERT等深度上下文词表示这些新提出的模型最终在MultiWOZ数据集上获得目前最好结果。变化的系统动作可拓展性问题的最后一个方面在于系统动作空间难以预定义。如图7所示在设计一个电子产品推荐系统时也许一开场并不会考虑到用户会问到怎样晋级产品操作系统这样的问题但现实的情况是你无法限定用户只问系统能解决的问题。假如系统动作空间事先框定在用户提出新问题时就会导致一连串的答非所问导致极差的用户体验。图7.对话系统遇到未考虑的系统动作时的对话案例22对此我们需要考虑的是怎样设计更好的对话策略网络使得系统可以快速的扩展新的动作。首先的尝试来自微软21他们试图通过改变经典的DQN构造来实现系统在不受限动作空间上的增强学习。论文的对话任务是一个文字游戏闯关任务每轮的动作是一句话动作数目不定选择不同的动作故事情节就会有不同的开展。提出了新的模型DeepReinforcementRelevanceNetwork(DRRN)通过语义相似性匹配的方式将当前的对话状态以及各个可选的系统动作一一匹配得到Q函数。详细来看某轮对话时每个长度不定的动作文本会经过神经网络编码得到固定长度的系统动作向量故事背景文本经过另一个神经网络也得到固定长度的的对话状态向量两个向量通过交互函数如点积生成最后的Q值。图8是论文设计模型构造。实验说明在“SavingJohn以及“MachineofDeath两个文字游戏上DRRN比传统DQN使用padding技巧的表现更加优异。图8.DRRN模型。t轮有两个候选动作t1轮有三个候选动作。论文22那么祈望从对话系统整体的角度来解决这个问题提出了增量学习对话系统IncrementalDialogueSystem,IDS如图9所示。首先系统通过DialogueEmbedding模块对对话历史编码得到上下文向量再利用一个基于VAE的UncertaintyEstimation模块根据上下文向量对当前系统能否给出正确答复进展一个置信度的评估。类似于主动学习的方式假设置信度高于阈值那么由对话管理器对当前所有可选动作一一打分经过softmax函数预测出概率分布假设置信度低于阈值那么恳求标注人员对本轮的回复进展标注选择正确回复或者创立新的回复得到了新数据并入数据池里一起在线更新模型。通过这种人类教学human-teaching的方式IDS系统不仅解决了不受限动作空间的学习问题还可以快速地采集高质量的数据特别贴近实际消费应用。图9.IDS的对话系统整体框架图对话管理模型痛点二-标注数据少随着对话系统应用领域的多样化对数据的需求也更加多样化假设想训好一个任务型对话系统通常都需要尽可能多的该领域的数据但一般来讲想要获取高质量的有标注数据的本钱很高。为此学者们进展了各种研究尝试主要可分为三种思路1)用机器自动标注数据降低数据标注的本钱2)对话构造挖掘尽可能高效利用无标注数据3)加强数据收集策略高效获取优质的数据。机器自动标注由于人工标注数据的代价大、效率低学者们祈望通过机器辅助人工来标注数据方法大致可分为两大类有监视方法以及无监视方法。论文23提出一种架构auto-dialabel用层次聚类的无监视学习方法将对话数据中的意图以及槽位自动分组进而实现对话数据的自动标注类别的详细标签需要人工来定。该方法是基于一个假设一样意图的表达可能会分享相似的背景特征。模型提取的初始特征包括词向量、POS标注、名词词簇以及LDA四种特征。各个特征经由自编码器转成一样维度的向量后进展拼接再采用RBFradialbiasfunction函数计算类间间隔进展动态的层次聚类。间隔最近的类将会自动合并直到类间间隔大于预设的阈值停顿。模型框架如图10所示。图10.Auto-dialabel模型论文24那么采用有监视聚类的方法来实现机器标注。将每条对话数据看作是一个个图节点将聚类的经过看作是找出最小生成森林的经过。模型首先采用SVM在问答数据集上有监视训练出节点以及节点之间的间隔得分模型再结合构造化模型以及最小子树生成算法来将对话数据对应的类别信息作为隐变量推断出来进而输出最正确的聚类构造表示用户意图类别。对话构造挖掘由于训练对话系统的高质量带标注数据稀缺怎样充分地挖掘无标注对话数据中隐含的对话构造或者信息也成为了当今的研究热点之一隐含的对话构造或者信息在一定程度上有助于对话策略的设计以及对话模型的训练。论文25提出了一种用变分循环神经网络variationalRNN,VRNN的无监视方法自动学习对话数据中的隐藏构造。给出两种模型来获取对话中的动态信息Discrete-VRNN以及Direct-Discrete-VRNN。如图11所示x_t是第t轮对话h_t表示对话历史隐变量z_t表示对话构造隐变量一维one-hot离散变量。两种模型的差异在于对于D-VRNN隐变量z_t取决于h_(t-1)而对于DD-VRNN隐变量z_t取决于z_(t-1)。VRNN通过最大整个对话的似然值利用VAE的一些常用技巧估计出隐变量z_t的后验概率分布。图11.Discrete-VRNND-VRNN与Direct-Discrete-VRNNDD-VRNN的示意图论文实验说明VRNN要优于传统的HMM的方法同时将对话构造的信息参加到奖励函数中也有助于增强学习模型更快地收敛。图12是经过D-VRNN挖掘出的餐馆领域的隐变量z_t转移概率的可视化图。图12.D-VRNN对餐馆领域的对话数据挖掘出的对话流构造CMU学者26也尝试利用VAE的方法将系统动作作为隐变量推断出来直接用于对话策略的选择这样就能减轻预定义系统动作不够全面带来的问题。如图13所示为了简便起见论文采用端到端的对话系统框架基线模型是字级别的增强学习模型即对话动作是词表中的词通过encoder将对话历史编码再利用decoder解码生成对话回复奖励函数直接通过比对生成的对话回复语句以及真实对话回复语句得到。提出的隐动作模型以及基线模型的区别是encoder到decoder之间多了离散隐变量的后验推理对话动作由离散隐变量表示没有任何人为的干预定义。最终实验证明基于隐动作的端到端增强学习模型在语句生成的多样性以及任务完成率上均超过了基线模型。图13.基线模型以及隐动作模型数据收集策略最近谷歌研究者们提出了一种快速采集对话数据的方法27见图14首先利用两个基于规那么的模拟器交互生成对话的outline即用语义标签表示的对话流骨架然后利用模板将语义标签转写为自然语言对话最后利用众包对自然语句进展改写使得对话数据的语言表达更加丰富多样。这种反向采集数据方法不仅采集效率高而且数据标注完好、可用性强防止了采集领域数据的本钱花费以及大量的人工处理。图14.对话outline模板生成对话和众包重写对话的例如上述方法属于机器-机器machine-to-machine,M2M的数据采集策略先生成覆盖面广的对话数据语义标签再众包生成大量对话语料。其缺点在于生成的对话相对局限不能涵盖真实场景的所有可能性并且效果依赖于模拟器的好坏。学界还有另外两种常用于对话系统数据采集的方法人-机对话human-to-machine,H2M以及人-人对话human-to-human,H2H。H2H方法要求用户由众包人员扮演以及客服由另一众包人员扮演进展多轮对话用户负责基于某些指定的对话目的例如买机票提需求客服负责标注对话标签以及创立对话回复。这种形式被称为Wizard-of-Oz框架对话研究的众多数据集如WOZ5,MultiWOZ28均采用此方式采集。H2H方法可以得到最贴近实际业务场景的对话数据但是需要为了不同的任务需要设计不一样的互动界面而且需要消耗大量人力清理错误的标注本钱相当昂贵。H2M的数据采集策略那么是让用户以及训练到一定程度的机器直接进展对话在线采集数据并且利用增强学习不断改良对话管理模型著名的DSTC23数据集就是通过这种方法采集得到。H2M方法的效果总体比拟依赖于对话管理模型的初始效果并且在线采集的数据噪声较大清理本钱也会较高影响模型优化的效率。对话管理模型痛点三-训练效率低随着深度增强学习在游戏围棋领域的大获成功该方法在任务导向型对话领域也有广泛应用。例如论文6的ACER对话管理方法使用了model-free深度增强学习通过结合ExperienceReplay、信度域约束、预训练等技巧大大进步了增强学习算法在任务型对话领域的训练效率以及稳定性。然而简单地套用增强学习算法并不能知足对话系统的实际应用。这主要是因为对话领域不像游戏围棋那样有明晰的规那么、奖励函数动作空间简单明确还有完美的环境模拟器可以生成数以亿计的高质量交互数据。对话任务中一般包括了多样变化的槽位槽值以及动作意图这使得对话系统的动作空间急剧增大且难以预定义。传统扁平的增强学习flatreinforcementlearning方法由于对所有的系统动作进展one-hot编码会存在维度灾难因此不再适用于处理动作空间非常大的复杂对话问题为此学者们进展了众多研究尝试包括model-freeRL、model-basedRL以及human-in-the-loop三个方向。Model-free增强学习分层增强学习分层增强学习HierarchicalReinforcementLearning,HRL基于“分而治之的理念将复杂任务分解成多个子任务sub-task解决了传统扁平的增强学习的维度灾难。论文29首次将分层增强学习HRL应用到任务导向型对话领域利用专家知识把复杂的对话任务在时序维度上拆分成多个子任务例如一个复杂的旅行问题可以分解为订机票、订酒店、租车等子问题。根据这个拆分他们设计了两个层次的对话策略网络一个层次负责选择以及安排所有的子任务另一个层次负责详细子任务的执行。他们提出的对话管理模型如图15所示包括顶层策略top-levelpolicy用于根据对话状态选择子任务底层策略low-levelpolicy用于完成子任务的详细的某个对话动作全局对话状态追踪记录整体对话状态。整个对话任务完成之后顶层策略会收到外部奖励externalreward。除此以外模型还新增了内部评定模块internalcritic用于根据对话状态估计子任务完成的可能性子任务的填槽程度底层策略会根据子任务完成程度收到内部评定模块的一个内部奖励intrinsicreward。图15.任务型对话系统的分层增强学习框架面对复杂的对话问题传统的增强学习的每一步决策都在选择根本系统动作比方询问槽值或确认约束而分层增强学习的先通过顶层策略选择一大类根本动作的集合再通过底层策略选择当前集合的根本动作流程如图16所示。这种对动作空间的层次划分可以考虑到不同子任务之间的时序约束关系有助于完成复合对话任务compositetask。并且论文通过参加内部奖励的方式有效缓解了奖励稀疏的问题加快了增强学习的训练也在一定程度上防止了对话在不同子任务之间频繁切换进步了动作预测准确率。当然动作的分层设计比拟依赖专家知识需要通过专家来确定子任务的种类近期相应地出现了一些对话子任务自动发现的工作30通过无监视的方法对整个对话历史的对话状态序列进展自动切分进而防止人工构建对话子任务构造。图16.分层增强学习的策略选择流程示意图Model-free增强学习封疆增强学习!封疆增强学习FeudalReinforcementLearning,FRL是另一种适用于大维度问题的增强学习方法。分层增强学习是把对话策略按照时间维度上的不同任务阶段划分成子策略进而降低策略学习的复杂度而封疆增强学习FRL是在空间维度上把策略进展划分限制子策略负责的动作范围划分了“管辖疆域进而降低子策略的复杂度。封疆增强学习FRL不划分子任务而是应用了状态空间的抽象化函数从对话状态中提取有用的特征。这种抽象化有利于封疆增强学习FRL在大型问题中的应用和在不同领域之间的迁移具有较强的扩展性。剑桥学者们首次将封疆增强学习32运用到任务导向对话系统领域将动作空间按照是否以及槽位相关来进展划分这样只利用了动作空间的自然构造而不需要额外的专家知识。他们提出了如图17所示的封疆策略构造该构造的决策经过分两步1决定下一步动作是否需要槽位作为参数2根据第一步的决策和对应的不同槽位采用不同的底层策略选择下一步动作。图17.封疆增强学习在任务导向型对话系统上的应用总的来讲分层增强学习HRL与封疆增强学习HRL都是将高维度的复杂动作空间进展不同方式的拆分以解决传统RL动作空间维度大导致训练效率低的问题。分层增强学习HRL对任务的分割合理比拟符合人类的理解但是需要专家知识来拆分子任务。封疆增强学习FRL对复杂问题的拆分那么直接考虑其动作本身的逻辑构造不考虑不同子任务之间的互相约束。Model-based增强学习以上讨论的属于无模型model-free增强学习它是通过以及环境交互试错得到大量弱监视数据再去训练一个价值网络或策略网络而不关心环境本身。与之相对的是基于模型的model-based增强学习它的学习经过如图18。其特点是对环境直接进展建模利用以及环境交互得到的数据学习出一个状态以及奖励的概率转移函数即环境模型然后系统可以以及环境模型交互产生更多的训练数据因此model-based增强学习一般比model-free增强学习的训练效率要高尤其是在以及环境交互代价昂贵的场景。但其效果取决于环境建模的好坏。图18.model-based的增强学习的流程采用model-based增强学习来进步训练效率是最近研究热点微软首先将经典的DeepDyna-QDDQ算法应用到对话中33如图19c所示DDQ训练开场之前先利用少量已有的对话数据对策略模型以及环境模型worldmodel进展预训练之后DDQ的训练不断循环三个步骤1直接增强学习-通过以及真实用户在线对话交互更新策略模型并且储存对话数据2训练环境模型-利用采集到的真实对话数据更新环境模型3规划planning-利用以及环境模型交互得到的对话数据来训练策略模型。其中环境模型如图20是一个神经网络对环境的状态转换以及奖励进展概率建模输入是当前对话状态和系统动作输出是下一轮用户动作、环境奖励以及对话终止变量。环境模型使得DDQ降低了在线增强学习如图19a对人机交互数据量的需求也防止了以及用户模拟器交互如图19b质量不高的问题。图19.三种不同增强学习框架图20.环境模型的构造环境模型与对话领域中的用户模拟器比拟相似它们都可以用于模拟真实用户的动作并以及系统的对话管理模块交互。但两者不同之处在于用户模拟器本质是系统的外部环境用于模拟真实用户环境模型是系统的一局部属于系统内部模型。在DDQ的工作根底上微软研究者们做了更多的扩展为了进步环境模型产生的对话数据的真实性他们提出34采用对抗训练的思想进步对话数据的生成质量针对何时使用以及真实环境交互的数据何时使用以及环境模型交互的数据论文35讨论了可行方案为了将真人交互也纳入进来论文36给出了一个统一的对话框架。这种人类教学human-teaching的思想也是目前业界构建对话管理模型的关注热点我们在下小节给出更多阐述。Human-in-the-loop我们祈望能充分引入人的知识经历来生成高质量数据进步模型训练效率。Human-in-the-loop增强学习37就是一种将人类引入机器人训练经过的方法通过设计好的人机交互方式人类可以高效地指导训练增强学习模型。为了进一步提升任务导向对话系统的训练效率针对对话问题的特性设计有效的human-in-the-loop方式成为了研究人员新的探究方向。图21.监视式预训练、模拟学习以及在线增强学习结合的复合式学习谷歌研究者提出了一种人类教学以及增强学习结合的复合学习方法37如图21在有监视预训练以及在线增强学习之间增加一个人类教学阶段让人参与进来打标签防止了有监视预训练导致的covariateshift问题42。亚马逊研究者也提出一种类似的人类教学框架37每轮对话中系统都推荐4条回复供客服专家选择然后客服专家决定是选择4条回复中的一条还是另外编辑新的回复最后由客服专家把选择好或编辑好的回复发给用户。利用这种方式开发人员可以快速地更新对话系统才能合适落地。以上是系统被动地承受人对数据进展标注但是好的系统也应该学会主动提问、寻求人的帮助。论文40提出了陪伴式学习companionlearning的架构如图22在传统的增强学习框架中参加教师的角色即人教师可以纠正对话系统即学生的回复图左侧开关也能以内部reward的形式对学生的回复进展评价图右侧开关。对于主动学习的实现提出了对话决策确信度decisioncertainty的概念通过dropout技巧对学生策略网络进展屡次采样得到可取动作的最大概率近似估计再通过计算该最大概率的假设干对话轮次的滑动平均值作为学生策略网络的决策确信度。确信度假设低于目的值那么根据确信度与目的值的差距决定教师是否介入进来纠正错误以及提供奖励函数确信度高于目的值那么停顿向教师学习系统自行进展判决。图22.教师纠正学生的回复左侧开关或对学生的回复做出评价右侧开关主动学习的关键在于估计出对话系统对自身决策确实信度除了上述对策略网络进展dropout的方法还有以隐变量为条件变量计算策略网络分布Jensen-Shannon散度的方法22、根据当前系统对话成功率做判断的方法36。小蜜ConversationalAI团队的对话管理框架为了保证稳定性以及可解释性目前业界对话管理模块多采用基于规那么的方法。阿里巴巴-达摩院-小蜜ConversationalAI团队在去年度就开场尝试对话管理模型化的工作并进展了深化地探究。在真实的对话系统建立中我们需要解决两个问题1)怎样获得特定场景的大量对话数据,2)怎么利用算法充分发挥数据的价值对于整个模型化的框架设计目前我们规划成四步走的道路如图23所示图23.对话管理模型化四步走道路第一步先利用小蜜ConversationalAI团队自主研发的对话工厂dialogstudio快速构建一个基于规那么对话流的对话引擎称为TaskFlow同时用类似的对话流去构建一个用户模拟器。在构建好用户模拟器以及对话引擎之后两者采用M2M方式持续交互沉淀出大量的对话数据。第二步有了一定量的对话数据后我们再利用有监视学习训练一个神经网络构建以及规那么对话引擎才能根本相当的对话管理模型实现对话管理的初步模型化。模型的设采用语义相似匹配以及端到端生成两种方法结合来实现可拓展性对于动作空间较大的对话任务采用HRL进展动作划分。第三步有了初步的对话管理模型在开发阶段我们让系统以及改良的用户模拟器或者人工智能训练师进展交互通过off-policyACER增强学习算法让系统的对话才能持续地增强。第四步人机对话体验到达初步实用之后就可以上线运行引入人的因素采集用户真实交互数据同时通过一些UI设计方便地引入用户的反应持续不断地更新强化模型。沉淀出大量人机对话数据也会进一步进展做数据分析以及挖掘用于客户洞察。目前我们打造的基于增强学习的对话管理模型在订会议室这种中等复杂规模的对话任务上以及用户模拟器交互的对话完成率可达80%如图24所示。图24.小蜜ConversationalAI团队的对话管理模型框架以及评价指标总结本综述围绕对话管理DialogManagement,DM模型的最新前沿研究做了一个详细的介绍针对传统对话管理的痛点划分了三个大的方向1可拓展性差2标注数据少3训练效率低。在可拓展性方面我们介绍了处理变化的用户意图、对话本体、系统动作空间的常用方法主要有语义相似匹配方法、知识蒸馏方法以及序列生成方法对于标注数据稀缺问题我们介绍了机器自动标注、对话构造有效挖掘以及数据高效采集策略三局部内容而针对传统DM中RL模型训练效率低下的问题学界有尝试引入HRL、FRL等方法对动作空间进展层次划分也有利用model-basedRL对环境进展建模进步训练效率将human-in-the-loop引入对话系统训练框架亦是当下特别活泼的研究方向。最后我们对阿里巴巴-达摩院-小蜜ConversationalAI团队目前在DM模型化的进展做了一个比拟详细的汇报介绍祈望本综述能为大众的对话管理研究提供一些启发以及考虑。阿里云开发者