NLP这两年:15个预训练模型对比分析与剖析.docx
《NLP这两年:15个预训练模型对比分析与剖析.docx》由会员分享,可在线阅读,更多相关《NLP这两年:15个预训练模型对比分析与剖析.docx(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、NLP这两年:15个预训练模型对比分析与剖析|JayLou来源|知乎前言在之前写过的?NLP的游戏规那么从此改写从word2vec,ELMo到BERT?一文中介绍了从word2vec到ELMo再到BERT的开展途径。而在BERT出现之后的这大半年度的时间里模型预训练的方法又被Google、Facebook、微软、百度、OpenAI等极少数几个玩得起游戏的核心玩家反复迭代了假设干版一次次的刷新我们这些吃瓜群众的案板上的瓜。有没有感觉出瓜速度太快以致于吃速跟不上不用担忧小编帮你们找来了这篇总结的恰到好处的文章对ELMo以来的15个代表性的预训练语言模型进展了多维度的比照以及分析。尤其是近期找工作的
2、小伙伴们注意啦这篇文章里面提出来的一些问题很合适作为面试考点划掉沟通点噢首先上一张镇楼专用图看一下ELMo以来的预训练语言模型开展的大概情况然后上本文正餐一个高能的questionlist这也是本文写作的主线。QuestionListQ1从不同维度比照各【预训练语言模型】Q2基于深度学习的NLP特征抽取机制有哪些各有哪些优缺点Q3自回归以及自编码语言模型各有什么优缺点Q4单向模型的内核机制是如何的有哪些缺点Q5Transformer内部机制的深化理解为什么是缩放点积而不是点积模型相较于加性模型点积模型具备哪些优点多头机制为什么有效Q6-Q10BERT内核机制探究BERT为什么如此有效BERT存
3、在哪些优缺点BERT擅长处理哪些下游NLP任务BERT基于“字输入还是“词输入好对于中文任务BERT为什么不适用于自然语言生成任务NLGQ11-Q15针对BERT原生模型的缺点后续的BERT系列模型是怎样改良【生成任务】的怎样引入【知识】的怎样引入【多任务学习机制】的怎样改良【mask策略】的怎样进展【精细调参】的Q16XLNet提出的背景是如何的Q17XLNet为何如此有效为什么PLM可以实现双向上下文的建模怎么解决没有目的(target)位置信息的问题Q18Transformer-XL怎么实现对长文本建模下面本文将从以下几个方面来对上述问题一一讨论一.不同视角下的预训练语言模型比照二.预训
4、练语言模型的根底特征抽取机制语言模型的分类三.单向模型回首内核机制探究四.BERT的内核机制探究五.BERT系列模型进展介绍六.XLNET的内核机制探究七.预训练语言模型的将来一、不同视角下的预训练语言模型比照Q1从不同维度比照【预训练语言模型】从特征抽取、预训练语言模型目的、BERT系列模型的改良方向、特征表示4个视角比照预训练语言模型不同的特征抽取机制RNNsELMO/ULMFiT/SiATLTransformerGPT1.0/GPT2.0/BERT系列模型Transformer-XLXLNet不同的预训练语言目的自编码AutoEncodeBERT系列模型自回归AutoRegression
5、单向模型ELMO/ULMFiT/SiATL/GPT1.0/GPT2.0以及XLNetBERT系列模型的改良引入常识ERNIE1.0/ERNIE(THU)/ERNIE2.0简称为“ERNIE系列引入多任务学习MTDNN/ERNIE2.0基于生成任务的改良MASS/UNILM不同的mask策略WWM/ERNIE系列/SpanBERT精细调参RoBERTa特征表示是否能表示上下文单向特征表示单向模型ELMO/ULMFiT/SiATL/GPT1.0/GPT2.0双向特征表示BERT系列模型XLNet二、预训练语言模型的根底特征抽取机制语言模型的分类Q2基于深度学习的NLP特征抽取机制有哪些各有哪些优缺
6、点1能否处理长间隔依赖问题长间隔依赖建模才能Transformer-XLTransformerRNNsCNNsMLP不考虑序列位置信息不能处理变长序列如NNLM以及word2vecCNNs考虑序列位置信息不能处理长间隔依赖聚焦于n-gram提取pooling操作会导致序列位置信息丧失RNNs天然合适处理序列位置信息但仍不能处理长间隔依赖由于BPTT导致的梯度消失等问题故又称之为“较长的短期记忆单元(LSTM)Transformer/Transformer-XLself-attention解决长间隔依赖无位置偏向2前馈/循环网络or串行/并行计算MLP/CNNs/Transformer前馈/并行
7、RNNs/Transformer-XL循环/串行3计算时间复杂度序列长度nembeddingsize为dfilter大小kCNNsRNNsSelfAttentionQ3自回归以及自编码语言模型各有什么优缺点1自回归语言模型优点文本序列结合概率的密度估计即为传统的语言模型天然合适处理自然生成任务缺点结合概率按照文本序列从左至右分解顺序拆解无法通过上下文信息进展双向特征表征代表模型ELMO/GPT1.0/GPT2.0改良XLNet将传统的自回归语言模型进展推广将顺序拆解变为随机拆解排列语言模型产生上下文相关的双向特征表示2自编码语言模型优点本质为降噪自编码特征表示通过引入噪声MASK构建MLM获取
8、上下文相关的双向特征表示缺点引入独立性假设为结合概率的有偏估计没有考虑预测MASK之间的相关性不合适直接处理生成任务MLM预训练目的的设置造成预训练经过以及生成经过不一致预训练时的MASK噪声在finetune阶段不会出现造成两阶段不匹配问题代表模型BERT系列模型三、单向模型回首内核机制探究Q4单向模型的内核机制是如何的有哪些缺点1ELMo(AllenInstitute)6要点引入双向语言模型其实是2个单向语言模型前向以及后向的集成通过保存预训练好的2层biLSTM通过特征集成或者finetune应用于下游任务缺点本质上为自回归语言模型只能获取单向的特征表示不能同时获取上下文表示LSTM不能
9、解决长间隔依赖。为什么不能用biLSTM构建双向语言模型不能采取2层biLSTM同时进展特征抽取构建双向语言模型否那么会出现标签泄漏的问题因此ELMO前向以及后向的LSTM参数独立分享词向量独立构建语言模型2ULMFiT(fast.ai)/SiATL2.1ULMFiT7要点三阶段训练LM预训练精调特定任务LM精调特定分类任务特征抽取3层AWD-LSTM精调特定分类任务逐层解冻2.2)SiATL8要点二阶段训练LM预训练特定任务精调分类任务引入LM作为辅助目的辅助目的对于小数据有用与GPT相反-特征抽取LSTMself-attention精调特定分类任务逐层解冻都通过一些技巧解决finetune
10、经过中的灾难性遗忘问题假如预训练用的无监视数据以及任务数据所在领域不同逐层解冻带来的效果更明显93GPT1.0/GPT2.0(OpenAI)GPT1.010要点采用Transformer进展特征抽取首次将Transformer应用于预训练语言模型finetune阶段引入语言模型辅助目的辅助目的对于大数据集有用小数据反而有所下降与SiATL相反解决finetune经过中的灾难性遗忘预训练以及finetune一致统一二阶段框架GPT2.011要点没有针对特定模型的精调流程GPT2.0认为预训练中已包含很多特定任务所需的信息。生成任务获得很好效果使用覆盖更广、质量更高的数据缺点仍然为单向自回归语言模
11、型无法获取上下文相关的特征表示四、BERT内核机制探究这一局部对BERT的内核机制进展介绍在答复“BERT为什么如此有效之前首先介绍Transformer的内核机制。Q5Transformer12内部机制的深化理解回首1Multi-HeadAttention以及ScaledDot-ProductAttention本质是selfattention通过attentionmask动态编码变长序列解决长间隔依赖、无位置偏向、可并行计算为什么是缩放点积而不是点积模型当输入信息的维度d比拟高点积模型的值通常有比拟大方差进而导致softmax函数的梯度会比拟小。因此缩放点积模型可以较好地解决这一问题。为什么
12、是双线性点积模型经过线性变换QK双线性点积模型引入非对称性更具强健性Attentionmask对角元素值不一定是最大的也就是讲当前位置对自身的注意力得分不一定最高。相较于加性模型点积模型具备哪些优点常用的Attention机制为加性模型以及点积模型理论上加性模型以及点积模型的复杂度差不多但是点积模型在实现上可以更好地利用矩阵乘积进而计算效率更高实际上随着维度d的增大加性模型会明显好于点积模型。多头机制为什么有效类似于CNN中通太多通道机制进展特征选择Transformer中先通过切头spilt再分别进展ScaledDot-ProductAttention可以使进展点积计算的维度d不大防止梯度消
13、失同时缩小attentionmask矩阵。2Position-wiseFeed-ForwardNetworksFFN将每个位置的Multi-HeadAttention结果映射到一个更大维度的特征空间然后使用ReLU引入非线性进展挑选最后恢复回原始维度。Transformer在抛弃了LSTM构造后FFN中的ReLU成为了一个主要的提供非线性变换的单元。3PositionalEncoding将PositionalEmbedding改为PositionalEncoding主要的区别在于PositionalEncoding是用公式表达的、不可学习的而PositionalEmbedding是可学习的如B
14、ERT两种方案的训练速度以及模型精度差异不大但是PositionalEmbedding位置编码范围是固定的而PositionalEncoding编码范围是不受限制的。为什么引入以及建模PositionalEncoding引入以及是为了使模型实现对相对位置的学习两个位置pos以及posk的位置编码是固定间距k的线性变化可以证明间隔为k的任意两个位置编码的欧式空间间隔是恒等的只与k有关。Q6BERT13为什么如此有效引入MaskedLanguageModel(MLM)预训练目的可以获取上下文相关的双向特征表示引入NextSentencePrediction(NSP)预训练目的擅长处理句子或者段落的
15、匹配任务引入强大的特征抽取机制Transformer(多种机制并存)Multi-Headselfattention多头机制类似于“多通道特征抽取selfattention通过attentionmask动态编码变长序列解决长间隔依赖无位置偏向、可并行计算Feed-forward在位置维度计算非线性层级特征LayerNormResiduals加速训练使“深度网络更加强健引入大规模、高质量的文本数据Q7BERT存在哪些优缺点优点可以获取上下文相关的双向特征表示缺点生成任务表现不佳预训练经过以及生成经过的不一致导致在生成任务上效果不佳采取独立性假设没有考虑预测MASK之间的相关性是对语言模型结合概率的
16、有偏估计不是密度估计输入噪声MASK造成预训练-精调两阶段之间的差异无法文档级别的NLP任务只合适于句子以及段落级别的任务Q8BERT擅长处理哪些下游NLP任务141.合适句子以及段落级别的任务不适用于文档级别的任务2.合适处理高层语义信息提取的任务对浅层语义信息提取的任务的提升效果不大如一些简单的文本分类任务3.合适处理句子/段落的匹配任务因此在一些任务中可以构造辅助句类似匹配任务实现效果提升如关系抽取/情感挖掘等任务4.不合适处理NLG任务Q9BERT基于“字输入还是“词输入好对于中文任务1.假如基于“词输入会加剧OOV问题会增大输入空间需要利用大得多的语料去学习输入空间到标签空间的函数映
17、射。2.随着Transfomer特征抽取才能分词不再成为必要词级别的特征学习可以纳入为内部特征进展表示学习。Q10BERT为什么不适用于自然语言生成任务NLG1.由于BERT本身在预训练经过以及生成经过的不一致并没有做生成任务的相应机制导致在生成任务上效果不佳不能直接应用于生成任务。2.假如将BERT或GPT用于Seq2Seq的自然语言生成任务可以分别进展预训练编码器以及解码器但是编码器-注意力-解码器构造没有被结合训练BERT以及GPT在条件生成任务中只是次优效果。五、BERT系列模型进展介绍这一局部介绍一些模型它们均是对BERT原生模型在一些方向的改良。Q11针对BERT原生模型后续的BE
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- NLP 这两年 15 训练 模型 对比 分析 剖析
限制150内