NLP这两年:15个预训练模型对比分析与剖析.docx
-
资源ID:73267608
资源大小:27.94KB
全文页数:28页
- 资源格式: DOCX
下载积分:14.8金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
NLP这两年:15个预训练模型对比分析与剖析.docx
NLP这两年:15个预训练模型对比分析与剖析|JayLou来源|知乎前言在之前写过的?NLP的游戏规那么从此改写从word2vec,ELMo到BERT?一文中介绍了从word2vec到ELMo再到BERT的开展途径。而在BERT出现之后的这大半年度的时间里模型预训练的方法又被Google、Facebook、微软、百度、OpenAI等极少数几个玩得起游戏的核心玩家反复迭代了假设干版一次次的刷新我们这些吃瓜群众的案板上的瓜。有没有感觉出瓜速度太快以致于吃速跟不上不用担忧小编帮你们找来了这篇总结的恰到好处的文章对ELMo以来的15个代表性的预训练语言模型进展了多维度的比照以及分析。尤其是近期找工作的小伙伴们注意啦这篇文章里面提出来的一些问题很合适作为面试考点划掉沟通点噢首先上一张镇楼专用图看一下ELMo以来的预训练语言模型开展的大概情况然后上本文正餐一个高能的questionlist这也是本文写作的主线。QuestionListQ1从不同维度比照各【预训练语言模型】Q2基于深度学习的NLP特征抽取机制有哪些各有哪些优缺点Q3自回归以及自编码语言模型各有什么优缺点Q4单向模型的内核机制是如何的有哪些缺点Q5Transformer内部机制的深化理解为什么是缩放点积而不是点积模型相较于加性模型点积模型具备哪些优点多头机制为什么有效Q6-Q10BERT内核机制探究BERT为什么如此有效BERT存在哪些优缺点BERT擅长处理哪些下游NLP任务BERT基于“字输入还是“词输入好对于中文任务BERT为什么不适用于自然语言生成任务NLGQ11-Q15针对BERT原生模型的缺点后续的BERT系列模型是怎样改良【生成任务】的怎样引入【知识】的怎样引入【多任务学习机制】的怎样改良【mask策略】的怎样进展【精细调参】的Q16XLNet提出的背景是如何的Q17XLNet为何如此有效为什么PLM可以实现双向上下文的建模怎么解决没有目的(target)位置信息的问题Q18Transformer-XL怎么实现对长文本建模下面本文将从以下几个方面来对上述问题一一讨论一.不同视角下的预训练语言模型比照二.预训练语言模型的根底特征抽取机制语言模型的分类三.单向模型回首内核机制探究四.BERT的内核机制探究五.BERT系列模型进展介绍六.XLNET的内核机制探究七.预训练语言模型的将来一、不同视角下的预训练语言模型比照Q1从不同维度比照【预训练语言模型】从特征抽取、预训练语言模型目的、BERT系列模型的改良方向、特征表示4个视角比照预训练语言模型不同的特征抽取机制RNNsELMO/ULMFiT/SiATLTransformerGPT1.0/GPT2.0/BERT系列模型Transformer-XLXLNet不同的预训练语言目的自编码AutoEncodeBERT系列模型自回归AutoRegression单向模型ELMO/ULMFiT/SiATL/GPT1.0/GPT2.0以及XLNetBERT系列模型的改良引入常识ERNIE1.0/ERNIE(THU)/ERNIE2.0简称为“ERNIE系列引入多任务学习MTDNN/ERNIE2.0基于生成任务的改良MASS/UNILM不同的mask策略WWM/ERNIE系列/SpanBERT精细调参RoBERTa特征表示是否能表示上下文单向特征表示单向模型ELMO/ULMFiT/SiATL/GPT1.0/GPT2.0双向特征表示BERT系列模型XLNet二、预训练语言模型的根底特征抽取机制语言模型的分类Q2基于深度学习的NLP特征抽取机制有哪些各有哪些优缺点1能否处理长间隔依赖问题长间隔依赖建模才能Transformer-XLTransformerRNNsCNNsMLP不考虑序列位置信息不能处理变长序列如NNLM以及word2vecCNNs考虑序列位置信息不能处理长间隔依赖聚焦于n-gram提取pooling操作会导致序列位置信息丧失RNNs天然合适处理序列位置信息但仍不能处理长间隔依赖由于BPTT导致的梯度消失等问题故又称之为“较长的短期记忆单元(LSTM)Transformer/Transformer-XLself-attention解决长间隔依赖无位置偏向2前馈/循环网络or串行/并行计算MLP/CNNs/Transformer前馈/并行RNNs/Transformer-XL循环/串行3计算时间复杂度序列长度nembeddingsize为dfilter大小kCNNsRNNsSelfAttentionQ3自回归以及自编码语言模型各有什么优缺点1自回归语言模型优点文本序列结合概率的密度估计即为传统的语言模型天然合适处理自然生成任务缺点结合概率按照文本序列从左至右分解顺序拆解无法通过上下文信息进展双向特征表征代表模型ELMO/GPT1.0/GPT2.0改良XLNet将传统的自回归语言模型进展推广将顺序拆解变为随机拆解排列语言模型产生上下文相关的双向特征表示2自编码语言模型优点本质为降噪自编码特征表示通过引入噪声MASK构建MLM获取上下文相关的双向特征表示缺点引入独立性假设为结合概率的有偏估计没有考虑预测MASK之间的相关性不合适直接处理生成任务MLM预训练目的的设置造成预训练经过以及生成经过不一致预训练时的MASK噪声在finetune阶段不会出现造成两阶段不匹配问题代表模型BERT系列模型三、单向模型回首内核机制探究Q4单向模型的内核机制是如何的有哪些缺点1ELMo(AllenInstitute)6要点引入双向语言模型其实是2个单向语言模型前向以及后向的集成通过保存预训练好的2层biLSTM通过特征集成或者finetune应用于下游任务缺点本质上为自回归语言模型只能获取单向的特征表示不能同时获取上下文表示LSTM不能解决长间隔依赖。为什么不能用biLSTM构建双向语言模型不能采取2层biLSTM同时进展特征抽取构建双向语言模型否那么会出现标签泄漏的问题因此ELMO前向以及后向的LSTM参数独立分享词向量独立构建语言模型2ULMFiT(fast.ai)/SiATL2.1ULMFiT7要点三阶段训练LM预训练精调特定任务LM精调特定分类任务特征抽取3层AWD-LSTM精调特定分类任务逐层解冻2.2)SiATL8要点二阶段训练LM预训练特定任务精调分类任务引入LM作为辅助目的辅助目的对于小数据有用与GPT相反-特征抽取LSTMself-attention精调特定分类任务逐层解冻都通过一些技巧解决finetune经过中的灾难性遗忘问题假如预训练用的无监视数据以及任务数据所在领域不同逐层解冻带来的效果更明显93GPT1.0/GPT2.0(OpenAI)GPT1.010要点采用Transformer进展特征抽取首次将Transformer应用于预训练语言模型finetune阶段引入语言模型辅助目的辅助目的对于大数据集有用小数据反而有所下降与SiATL相反解决finetune经过中的灾难性遗忘预训练以及finetune一致统一二阶段框架GPT2.011要点没有针对特定模型的精调流程GPT2.0认为预训练中已包含很多特定任务所需的信息。生成任务获得很好效果使用覆盖更广、质量更高的数据缺点仍然为单向自回归语言模型无法获取上下文相关的特征表示四、BERT内核机制探究这一局部对BERT的内核机制进展介绍在答复“BERT为什么如此有效之前首先介绍Transformer的内核机制。Q5Transformer12内部机制的深化理解回首1Multi-HeadAttention以及ScaledDot-ProductAttention本质是selfattention通过attentionmask动态编码变长序列解决长间隔依赖、无位置偏向、可并行计算为什么是缩放点积而不是点积模型当输入信息的维度d比拟高点积模型的值通常有比拟大方差进而导致softmax函数的梯度会比拟小。因此缩放点积模型可以较好地解决这一问题。为什么是双线性点积模型经过线性变换QK双线性点积模型引入非对称性更具强健性Attentionmask对角元素值不一定是最大的也就是讲当前位置对自身的注意力得分不一定最高。相较于加性模型点积模型具备哪些优点常用的Attention机制为加性模型以及点积模型理论上加性模型以及点积模型的复杂度差不多但是点积模型在实现上可以更好地利用矩阵乘积进而计算效率更高实际上随着维度d的增大加性模型会明显好于点积模型。多头机制为什么有效类似于CNN中通太多通道机制进展特征选择Transformer中先通过切头spilt再分别进展ScaledDot-ProductAttention可以使进展点积计算的维度d不大防止梯度消失同时缩小attentionmask矩阵。2Position-wiseFeed-ForwardNetworksFFN将每个位置的Multi-HeadAttention结果映射到一个更大维度的特征空间然后使用ReLU引入非线性进展挑选最后恢复回原始维度。Transformer在抛弃了LSTM构造后FFN中的ReLU成为了一个主要的提供非线性变换的单元。3PositionalEncoding将PositionalEmbedding改为PositionalEncoding主要的区别在于PositionalEncoding是用公式表达的、不可学习的而PositionalEmbedding是可学习的如BERT两种方案的训练速度以及模型精度差异不大但是PositionalEmbedding位置编码范围是固定的而PositionalEncoding编码范围是不受限制的。为什么引入以及建模PositionalEncoding引入以及是为了使模型实现对相对位置的学习两个位置pos以及posk的位置编码是固定间距k的线性变化可以证明间隔为k的任意两个位置编码的欧式空间间隔是恒等的只与k有关。Q6BERT13为什么如此有效引入MaskedLanguageModel(MLM)预训练目的可以获取上下文相关的双向特征表示引入NextSentencePrediction(NSP)预训练目的擅长处理句子或者段落的匹配任务引入强大的特征抽取机制Transformer(多种机制并存)Multi-Headselfattention多头机制类似于“多通道特征抽取selfattention通过attentionmask动态编码变长序列解决长间隔依赖无位置偏向、可并行计算Feed-forward在位置维度计算非线性层级特征LayerNormResiduals加速训练使“深度网络更加强健引入大规模、高质量的文本数据Q7BERT存在哪些优缺点优点可以获取上下文相关的双向特征表示缺点生成任务表现不佳预训练经过以及生成经过的不一致导致在生成任务上效果不佳采取独立性假设没有考虑预测MASK之间的相关性是对语言模型结合概率的有偏估计不是密度估计输入噪声MASK造成预训练-精调两阶段之间的差异无法文档级别的NLP任务只合适于句子以及段落级别的任务Q8BERT擅长处理哪些下游NLP任务141.合适句子以及段落级别的任务不适用于文档级别的任务2.合适处理高层语义信息提取的任务对浅层语义信息提取的任务的提升效果不大如一些简单的文本分类任务3.合适处理句子/段落的匹配任务因此在一些任务中可以构造辅助句类似匹配任务实现效果提升如关系抽取/情感挖掘等任务4.不合适处理NLG任务Q9BERT基于“字输入还是“词输入好对于中文任务1.假如基于“词输入会加剧OOV问题会增大输入空间需要利用大得多的语料去学习输入空间到标签空间的函数映射。2.随着Transfomer特征抽取才能分词不再成为必要词级别的特征学习可以纳入为内部特征进展表示学习。Q10BERT为什么不适用于自然语言生成任务NLG1.由于BERT本身在预训练经过以及生成经过的不一致并没有做生成任务的相应机制导致在生成任务上效果不佳不能直接应用于生成任务。2.假如将BERT或GPT用于Seq2Seq的自然语言生成任务可以分别进展预训练编码器以及解码器但是编码器-注意力-解码器构造没有被结合训练BERT以及GPT在条件生成任务中只是次优效果。五、BERT系列模型进展介绍这一局部介绍一些模型它们均是对BERT原生模型在一些方向的改良。Q11针对BERT原生模型后续的BERT系列模型是怎样改良【生成任务】的1MASS(微软)15统一预训练框架:通过类似的Seq2Seq框架在预训练阶段统一了BERT以及LM模型Encoder中理解unmaskedtokensDecoder中需要预测连续的masktokens获取更多的语言信息Decoder从Encoder中抽取更多信息当k1或n时MASS的概率形式分别以及BERT中的MLM和GPT中标准的LM一致k为mask的连续片段长度2UNILM(微软)16统一预训练框架:以及直接从mask矩阵的角度统一BERT以及LM3个AttentionMask矩阵LM、MLM、Seq2SeqLM注意UNILM中的LM并不是传统的LM模型仍然是通过引入MASK实现的Q12针对BERT原生模型后续的BERT系列模型是怎样引入【知识】的1ERNIE1.0(百度)17在预训练阶段引入知识实际是预先识别出的实体引入3种MASK策略预测Basic-LevelMasking跟BERT一样对subword进展mask无法获取高层次语义Phrase-LevelMaskingmask连续短语Entity-LevelMaskingmask实体2ERNIE(THU)18基于BERT预训练原生模型将文本中的实体对齐到外部的知识图谱并通过知识嵌入得到实体向量作为ERNIE的输入由于语言表征的预训练经过以及知识表征经过有很大的不同会产生两个独立的向量空间。为解决上述问题在有实体输入的位置将实体向量以及文本表示通过非线性变换进展交融以交融词汇、句法以及知识信息引入改良的预训练目的Denoisingentityauto-encoder(DEA)要求模型可以根据给定的实体序列以及文本序列来预测对应的实体Q13针对BERT原生模型后续的BERT系列模型是怎样引入【多任务学习机制】的多任务学习(Multi-taskLearning)19是指同时学习多个相关任务让这些任务在学习经过中分享知识利用多个任务之间的相关性来改良模型在每个任务的性能以及泛化才能。多任务学习可以看作是一种归纳迁移学习即通过利用包含在相关任务中的信息作为归纳偏置(InductiveBias)来进步泛化才能。多任务学习的训练机制分为同时训练以及交替训练。1MTDNN(微软)20在下游任务中引入多任务学习机制2ERNIE2.0(百度)21在预训练阶段引入多任务学习MTDNN是在下游任务引入多任务机制的而ERNIE2.0是在预训练引入多任务学习与先验知识库进展交互使模型可以从不同的任务中学到更多的语言知识。主要包含3个方面的任务word-aware任务捕捉词汇层面的信息structure-aware任务捕捉句法层面的信息semantic-aware任务捕捉语义方面的信息主要的方式是构建增量学习后续可以不断引入更多的任务模型通太多任务学习持续更新预训练模型这种连续交替的学习范式不会使模型忘记之前学到的语言知识。将3大类任务的假设干个子任务一起用于训练引入新的任务时会将继续引入之前的任务防止忘记之前已经学到的知识详细是一个逐渐增加任务数量的经过22(task1)-(task1,task2)-(task1,task2,task3)-(task1task2,taskN)Q14针对BERT原生模型后续的BERT系列模型是怎样改良【mask策略】的原生BERT模型按照subword维度进展mask然后进展预测BERTWWM(Google)按照wholeword维度进展mask然后进展预测ERNIE等系列引入外部知识按照entity维度进展mask然后进展预测SpanBert不需要按照先验的词/实体/短语等边界信息进展mask而是采取随机mask采用SpanMasking根据几何分布随机选择一段空间长度之后再根据均匀分布随机选择起始位置最后按照长度mask通过采样平均被遮盖长度是3.8个词的长度引入SpanBoundaryObjective新的预训练目的旨在使被mask的Span边界的词向量能学习到Span中被mask的局部新的预训练目的以及MLM一起使用注意BERTWWM、ERNIE等系列、SpanBERT旨在隐式地学习预测词mask局部本身的强相关性之间的关系23而在XLNet中是通过PLM加上自回归方式来显式地学习预测词之间关系Q15针对BERT原生模型后续的BERT系列模型是怎样进展【精细调参】的RoBERTa(FaceBook)24丢弃NSP效果更好动态改变mask策略把数据复制10份然后统一进展随机mask对学习率的峰值以及warm-up更新步数作出调整在更长的序列上训练不对序列进展截短使用全长度序列六、XLNet的内核机制探究在BERT系列模型后Google发布的XLNet在问答、文本分类、自然语言理解等任务上都大幅超越BERTXLNet的提出是对标准语言模型自回归的一个复兴25提出一个框架来连接语言建模方法以及预训练方法。Q16XLNet26提出的背景是如何的对于ELMO、GPT等预训练模型都是基于传统的语言模型自回归语言模型AR自回归语言模型天然合适处理生成任务但是无法对双向上下文进展表征因此人们反而转向自编码思想的研究如BERT系列模型自编码语言模型AE固然可以实现双向上下文进展表征但是BERT系列模型引入独立性假设没有考虑预测MASK之间的相关性MLM预训练目的的设置造成预训练经过以及生成经过不一致预训练时的MASK噪声在finetune阶段不会出现造成两阶段不匹配问题有什么方法能构建一个模型使得同时具有AR以及AE的优点并且没有它们缺点呢Q17XLNet为何如此有效内核机制分析1排列语言模型PermutationLMPLM假如衡量序列中被建模的依赖关系的数量标准的LM可以到达上界不像MLM一样LM不依赖于任何独立假设。借鉴NADE27的思想XLNet将标准的LM推广到PLM。为什么PLM可以实现双向上下文的建模PLM的本质就是LM结合概率的多种分解机制的表达将LM的顺序拆解推广到随机拆解但是需要保存每个词的原始位置信息PLM只是语言模型建模方式的因式分解/排列并不是词的位置信息的重新排列假如遍历?!种分解方法并且模型参数是分享的PLM就一定可以学习到各种双向上下文换句话讲当我们把所有可能的?!排列都考虑到的时候对于预测词的所有上下文就都可以学习到了由于遍历?!种途径计算量非常大对于10个词的句子10!3628800。因此实际只能随机的采样?!里的局部排列并求期望2Two-StreamSelf-Attention假如采取标准的Transformer来建模PLM会出现没有目的(target)位置信息的问题。问题的关键是模型并不知道要预测的到底是哪个位置的词进而导致具有局部排列下的PLM在预测不同目的词时的概率是一样的。怎么解决没有目的(target)位置信息的问题对于没有目的位置信息的问题XLNet引入了Two-StreamSelf-AttentionQuery流就为了预测当前词只包含位置信息不包含词的内容信息Content流主要为Query流提供其它词的内容向量包含位置信息以及内容信息3融入Transformer-XL的优点详细见Q18Q18Transformer-XL28怎么实现对长文本建模BERT(Transformer)的最大输入长度为512那么怎么对文档级别的文本建模vanillamodel进展Segment但是会存在上下文碎片化的问题无法对连续文档的语义信息进展建模同时推断时需要重复计算因此推断速度会很慢Transformer-XL改良对于每一个segment都应该具有不同的位置编码因此Transformer-XL采取了相对位置编码前一个segment计算的representation被修复并缓存以便在模型处理下一个新的segment时作为扩展上下文resume最大可能依赖关系长度增加了N倍其中N表示网络的深度解决了上下文碎片问题为新段前面的token提供了必要的上下文由于不需要重复计算Transformer-XL在语言建模任务的评估期间比vanillaTransformer快1800倍引入recurrencemechanism(不采用BPTT方式求导)引入相对位置编码方案七、预训练语言模型的将来上述的【预训练语言模型】主要从2大方面进展介绍一是总的比照二是分别介绍单向语言模型、BERT系列模型、XLNet模型。可以看出将来【预训练语言模型】更多的探究方向主要为25复兴语言模型进一步改良语言模型目的不断打破模型的上界大数据、大算力将大数据、大算力推到极致更快的推断轻量级模型是否有可能到达SOTA效果引入更丰富的知识信息更精细的调参更有价值的MASK策略统一条件生成任务框架如基于XLNet统一编码以及解码任务同时可考虑更快的解码方式参考文献1NLP将迎来黄金十年度s:/ 2areviewoftherecenthistoryofnlp 3AISACL2019进展报告 4ACL主席周明一起拥抱ACL以及NLP的光明将来 5自然语言处理中的语言模型预训练方法s:/jiqizhixin/articles/2018-10-22-3 6ELMO:Deepcontextualizedwordrepresentations 7ULMFiTUniversalLanguageModelFine-tuning) 8SiATLAnEmbarrassinglySimpleApproachforTransferLearningfromPretrainedLanguageModels 9BERT时代与后时代的NLPs:/zhuanlan.zhihu/p/66676144 10GPT:ImprovingLanguageUnderstandingbyGenerativePre-Training 11GPT2.0:LanguageModelsareUnsupervisedMultitaskLearners 12Transformer:Attentionisallyouneed 13BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding 14Bert时代的创新应用篇Bert在NLP各领域的应用进展s:/zhuanlan.zhihu/p/68446772 15MASS:MaskedSequencetoSequencePre-trainingforLanguageGeneration 16UNILMUnifiedLanguageModelPre-trainingforNaturalLanguageUnderstandingandGeneration 17ERNIE:EnhancedRepresentationthroughKnowledgeIntegration 18ERNIE:EnhancedLanguageRepresentationwithInformationEntities 19nndl神经网络与深度学习 20MT-DNNMulti-TaskDeepNeuralNetforNLU 21ERNIE2.0:ACONTINUALPRE-TRAININGFRAMEWORKFORLANGUAGEUNDERSTANDING 22陈凯s:/zhihu/question/337827682/answer/768908184 23SpanBert对Bert预训练的一次深度探究 24RoBERTa:ARobustlyOptimizedBERTPretrainingApproach 25ab他们创造了横扫NLP的XLNet专访CMU博士杨植麟 26XLnet:GeneralizedAutoregressivePretrainingforLanguageUnderstanding 27Neuralautoregressivedistributionestimation 28Transformer-XL:AttentiveLanguageModelsBeyondaFixed-LengthContext原文链接s:/zhuanlan.zhihu/p/76912493 (*本文为AI科技大本营转载文章转载请联络)福利时刻入群介入每周抽奖扫码添加小助手回复大会参加福利群介入抽奖送礼AIProCon大会优惠票限时抢购中三人拼团每人立减600元识别海报二维码即刻购票推荐浏览可惜了你们只看到“双马会大型尬聊你点的每个“在看我都认真当成了喜欢