知否?知否?一文看懂深度文本分类之DPCNN原理与代码.docx
《知否?知否?一文看懂深度文本分类之DPCNN原理与代码.docx》由会员分享,可在线阅读,更多相关《知否?知否?一文看懂深度文本分类之DPCNN原理与代码.docx(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、知否?知否?一文看懂深度文本分类之DPCNN原理与代码【导读】ACL2017年度中腾讯AI-lab提出了DeepPyramidConvolutionalNeuralNetworksforTextCategorization(DPCNN)。论文中提出了一种基于word-level级别的网络-DPCNN由于上一篇文章介绍的TextCNN不能通过卷积获得文本的长间隔依赖关系而论文中DPCNN通过不断加深网络可以抽取长间隔的文本依赖关系。实验证明在不增加过多计算本钱的情况下增加网络深度就可以获得最正确的准确率。|何从庆本文经受权转载自AI算法之心DPCNN构造终究是多么牛逼的网络呢我们下面来窥探一下模
2、型的芳容。DPCNN构造细节模型是怎样通过加深网络来捕捉文本的长间隔依赖关系的呢下面我们来一一道来。为了更加简单的解释DPCNN这里我先不解释是什么是Regionembedding我们先把它当作wordembedding。等长卷积首先交代一下卷积的的一个根本概念。一般常用的卷积有以下三类假设输入的序列长度为n卷积核大小为m步长(stride)为s,输入序列两端各填补p个零(zeropadding),那么该卷积层的输出序列为(n-m2p)/s1。 (1)窄卷积(narrowconvolution):步长s1,两端不补零即p0卷积后输出长度为n-m1。 (2)宽卷积(wideonvolution)
3、步长s1,两端补零pm-1卷积后输出长度nm-1。 (3)等长卷积(equal-widthconvolution):步长s1,两端补零p(m-1)/2卷积后输出长度为n。如下列图所示左右两端同时补零p1,s3。池化那么DPCNN是怎样捕捉长间隔依赖的呢这里我直接引用文章的小标题Downsamplingwiththenumberoffeaturemapsfixed。选择了适当的两层等长卷积来进步词位embedding的表示的丰富性。然后接下来就开场Downsampling(池化)。再每一个卷积块(两层的等长卷积)后使用一个size3以及stride2进展maxpooling进展池化。序列的长度就
4、被压缩成了原来的一半。其可以感悟到的文本片段就比之前长了一倍。例如之前是只能感悟3个词位长度的信息经过1/2池化层后就能感悟6个词位长度的信息啦这时把1/2池化层以及size3的卷积层组合起来如下图。固定featuremaps(filters)的数量为什么要固定featuremaps的数量呢?许多模型每当执行池化操作时增加featuremaps的数量导致总计算复杂度是深度的函数。与此相反对featuremap的数量进展了修正他们实验发现增加featuremap的数量只会大大增加计算时间而没有进步精度。另外夕小瑶小姐姐在知乎也详细的解释了为什么要固定featuremaps的数量。有兴趣的可以去知
5、乎搜一搜讲的非常透彻。固定了featuremap的数量每当使用一个size3以及stride2进展maxpooling进展池化时每个卷积层的计算时间减半(数据大小减半)进而形成一个金字塔。这就是论文题目所谓的Pyramid。好啦看似问题都解决了目的成功达成。剩下的我们就只需要重复的进展等长卷积等长卷积使用一个size3以及stride2进展maxpooling进展池化就可以啦DPCNN就可以捕捉文本的长间隔依赖啦Shortcutconnectionswithpre-activation但是假如问题真的这么简单的话深度学习就一下子少了超级多的难点了。 (1)初始化CNN的时往往各层权重都初始化为
6、很小的值这导致了最开场的网络中后续几乎每层的输入都是接近0这时的网络输出没有意义 (2)小权重阻碍了梯度的传播使得网络的初始训练阶段往往要迭代好久才能启动 (3)就算网络启动完成由于深度网络中仿射矩阵每两层间的连接边近似连乘训练经过中网络也非常容易发生梯度爆炸或者弥散问题。当然上述这几点问题本质就是梯度弥散问题。那么怎样解决深度CNN网络的梯度弥散问题呢当然是膜一下何恺明大神然后把ResNet的精华拿来用啦ResNet中提出的shortcut-connection/skip-connection/residual-connection残差连接就是一种非常简单、合理、有效的解决方案。类似地为了使
7、深度网络的训练成为可能为了恒等映射所以使用加法进展shortcutconnections即zf(z),其中f用的是两层的等长卷积。这样就可以极大的缓解了梯度消失问题。另外也使用了pre-activation这个最初在何凯明的“IdentityMappingsinDeepResidualNetworks上提及有兴趣的大众可以看看这个的原理。直观上这种“线性简化了深度网络的训练类似于LSTM中constanterrorcarousels的作用。而且实验证明pre-activation优于post-activation。整体来讲巧妙的构造设计使得这个模型不需要为了维度匹配问题而担忧。Regionem
8、bedding同时DPCNN的底层貌似保持了跟TextCNN一样的构造这里将TextCNN的包含多尺寸卷积滤波器的卷积层的卷积结果称之为Regionembedding意思就是对一个文本区域/片段比方3gram进展一组卷积操作后生成的embedding。另外为了进一步进步性能还使用了tv-embedding(two-viewsembedding)进一步进步DPCNN的accuracy。上述介绍了DPCNN的整体架构可见DPCNN的架构之精巧。本文是在原始论文和知乎上的一篇文章的根底上进展整理。本文可能也会有很多错误假如有错误欢送大众指出来建议大众为了更好的理解DPCNN看一下原始论文以及参考里面
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 看懂 深度 文本 分类 DPCNN 原理 代码
限制150内